这项由布朗大学、马里兰大学、宾夕法尼亚大学、南加州大学、纽约大学、悉尼大学和Stability AI联合完成的综述研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.04291,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
**一本写给所有人的三维世界指南**
假设你拿起一个苹果,你的大脑在0.1秒内就能判断出它的形状、大小、表面纹理,甚至能预测它落到桌上会怎么滚动。这种能力在人类看来稀松平常,但对于计算机来说,却是一道横亘多年的高墙。三维视觉,简单说就是让机器"看懂"立体世界的技术,近年来突飞猛进,已经渗透进自动驾驶汽车、工业机器人、增强现实眼镜乃至数字文物复原等几乎每一个前沿领域。
然而,这个领域有一个让外人望而生畏的特点:它像一个巨大的工具箱,里面装满了形形色色的工具,每种工具有自己的名字、用法和适用场景,而且这些工具之间的关系错综复杂,连专业研究者有时也会迷失其中。正因如此,这支来自多所顶尖机构的研究团队决定做一件听起来朴实、实则极具价值的事情——写一本"菜谱"。
他们将这篇论文命名为《三维视觉菜谱:数据、学习范式与应用》,其核心思路是:不论你是刚入门的学生,还是想换赛道的工程师,都应该有一张清晰的地图,告诉你三维视觉这片森林里有哪些树、这些树长什么样、它们各自有什么用处,以及最近又长出了哪些新枝丫。这篇菜谱的独特之处在于,它不是从算法架构出发,也不是只盯着某一个具体任务,而是从"数据"本身出发——先弄清楚三维世界的数据有哪些形态,再讲这些数据怎么被机器学习,最后落到实际应用。这种以数据为核心的视角,在现有综述中相当罕见。
**一、三维数据的"八种语言":计算机看世界的不同方式**
要理解三维视觉,首先要弄懂一个根本问题:计算机究竟用什么方式来"存储"和"理解"一个三维物体?这就好比问,你可以用素描、油画、雕塑、乐高积木、3D打印模型或者数学公式来表达同一个苹果,每种方式都有自己的优势和局限。研究团队系统梳理了三维视觉领域最主流的八种数据表达方式,理解这八种"语言",是读懂整个领域的基础。
第一种叫做RGB-D数据,这也许是最接近普通人日常直觉的一种。RGB是彩色图像,D是深度(Distance/Depth),也就是每个像素离相机有多远。微软Kinect体感设备就能产生这种数据。你可以把它理解为:普通照片加上一张"距离地图",每个像素不仅有颜色,还标注了"这里距离我1.2米,那里距离我3.5米"。这种方式计算起来非常高效,就像在一张平面图上多加一层信息,所以广泛用于室内场景理解、人体姿态识别和即时定位与地图构建(俗称SLAM,可以理解为机器人边走边画地图)。它的局限是只能看到"正面",背后和侧面被遮挡的部分无法获知。
第二种是多视角图像。这相当于拿着相机围着一个物体转一圈,从不同角度拍很多张照片,然后把这些照片和每张照片对应的相机位置一起打包。这种方式在视觉上保真度极高——毕竟照片本身就很逼真——但三维几何形状需要通过计算推断出来,而不是直接测量。谷歌街景、神经辐射场(后文会详细介绍)都以此为输入。
第三种是点云。点云可以理解为用激光笔在物体表面打了密密麻麻的点,每个点记录它在空间中的三维坐标(x, y, z),有时还附带颜色或表面法线方向。激光雷达(LiDAR)产生的就是点云,自动驾驶汽车顶上那个旋转的圆柱体就是激光雷达。点云的优点是直接测量、真实准确,缺点是这些点杂乱无章,没有固定的顺序或连接关系,所以传统的图像处理神经网络不能直接用,需要专门设计的算法。PointNet就是第一个专门处理点云的深度学习网络,它能直接对这些散乱的点进行分析。
第四种是体素网格(Voxels)。如果点云像散落的沙粒,那体素网格就像用整齐的正方体积木把空间切割成一个个小格子,就像三维版的像素(Pixel),因此叫体素(Voxel)。每个格子可以标记"有东西"或"没东西",也可以存储颜色、密度等信息。这种方式天然适合三维卷积神经网络处理,就像二维图像适合二维卷积网络一样。但问题在于,如果你想要高精度,格子就得很小、数量就得很多,内存消耗会呈三次方急剧膨胀,代价非常昂贵。
第五种是网格(Mesh)。网格是由顶点、边和面(通常是三角形面)构成的表面模型,就像用三角形拼贴出一个物体的外壳。游戏里的角色模型、动画电影里的人物,几乎都是网格。网格既能表达形状,又能表达拓扑(也就是哪些部分是连着的),非常紧凑,适合渲染和物理仿真。难点在于网格的不规则性——三角形的数量、大小、连接方式千变万化,标准的深度学习框架对这种不规则数据处理起来很吃力,所以很多流程会先把网格转换成点云或体素再处理。
第六种是CAD模型,全称计算机辅助设计模型。与前几种侧重于"长什么样"不同,CAD模型更关注"怎么造出来的"。它用数学公式精确描述曲面,最常见的是NURBS(非均匀有理B样条曲线),可以把它理解为用几个"控制把手"来精确操控一段光滑曲线或曲面。工业零件设计、汽车车身建模用的就是CAD。CAD模型的精度极高,可以直接用于数控加工,但获取方式不像拍照那么简单,通常需要工程师手工设计,或者从扫描数据"逆向工程"重建。
第七种是隐式场(Implicit Field),这是近年来随着神经网络技术兴起的新方式,代表作是神经辐射场(NeRF)和占用网络(Occupancy Networks)。传统方式都是用明确的点、面、格子来表示形状,而隐式场则把整个三维形状编码进一个神经网络的参数里。你给它一个三维坐标,它告诉你那里是"里面"还是"外面",或者那个位置从某个角度看起来是什么颜色、有多亮。这种方式理论上精度极高,能表达非常精细的细节,但训练和渲染都比较慢。
第八种是三维高斯溅射(3D Gaussian Splatting,简称3DGS),这是目前最新、最热的一种方式。它把场景表示为大量的三维椭球(高斯球),每个椭球记录了位置、大小、方向、颜色(还带有随视角变化的颜色效果)和透明度。你可以把它想象成用一大堆半透明的泡泡来填满空间,通过这些泡泡的叠加来还原出场景的外观。3DGS的惊人之处在于速度——它把渲染时间从神经辐射场的几秒钟缩短到了毫秒级别,足以支持实时渲染。研究团队在论文中将这种速度跃升称为"革命性的",这一突破直接使得训练大型三维基础模型成为可能。
这八种方式各有千秋,研究团队用一张表格清晰地对比了它们的效率、精度和典型应用场景。大致来说,RGB-D和多视角图像效率很高但有各自的局限,点云和网格平衡适中,体素网格和隐式场精度好但计算代价高,三维高斯和CAD则在各自擅长的领域(实时渲染、工业精度)效率与精度兼得,可以称得上是"顶配"。
**二、机器怎么"学会"看三维世界:从死记硬背到举一反三**
弄清楚三维数据有哪些形态之后,下一个问题是:机器究竟怎么从这些数据中"学到东西"?
早期的学习方法有点像死记硬背。研究人员直接在三维空间里计算误差——这个点离正确位置差了多少,那个体素的密度和真实情况差了多少——然后让网络去纠正自己。这种方法原理简单,但计算量极大,对于高精度的体素网格或精细曲面来说,代价大得几乎不可接受。
转折点出现在"可微分渲染"技术被引入之后。所谓可微分渲染,简单说就是让"从三维模型生成二维图像"这个过程变得可以"反向传播误差"。正常渲染是单向的:给定三维模型,输出图像。可微分渲染让这个过程变成双向的:不仅可以从三维生成图像,还可以把"生成的图像和真实图像的差距"作为信号,反向告诉三维模型"你哪里画错了"。这就像一个学生在纸上画素描,老师不直接在素描上修改,而是通过比较学生的画和真实照片,告诉学生哪些地方画得不像,让学生自己修改。
在这个框架下,神经辐射场(NeRF)应运而生。NeRF的核心思路是:用一个神经网络来表示整个场景,输入三维坐标和观察方向,输出该位置的颜色和密度。通过让这个网络渲染出的图像尽量接近真实拍摄的多视角图像,网络的参数就逐渐学会了场景的三维结构。但NeRF很慢,因为渲染每一帧图像都要对每条光线上的大量点进行神经网络查询,计算量惊人。
三维高斯溅射则从另一个角度解决了这个问题——它抛弃了神经网络的隐式表示,改用显式的高斯球,并采用一种高度优化的光栅化渲染器(可以理解为更直接、更快速的图像生成方式),把渲染速度提升了几个数量级。这个突破不只是让渲染变快,更重要的是,它使得研究人员可以用渲染结果作为监督信号来训练更大、更复杂的三维模型,打开了"三维基础模型"这扇大门。
**三、"看图说立体":以二维监督学习三维的新范式**
三维视觉领域还有一个核心挑战:三维数据太难收集了。给二维图像打标注,只需要人在图片上框框选选;但给三维数据打标注,需要精密的扫描设备、大量的人工校正,成本高出一个数量级。于是,研究人员开始问一个聪明的问题:我们能不能只用大量的二维图像(这类数据互联网上有几十亿张)来训练三维理解模型?
这就催生了一批以图像平面为监督信号的端到端三维基础模型,论文中详细介绍了这一批代表性工作。
DUSt3R是其中的先驱之一。它的核心思路是:给定两张从不同角度拍摄的图片,直接预测出每张图片里每个像素对应的三维坐标点,同时用置信度来衡量预测的可靠程度——不确定的地方置信度低,确定的地方置信度高。整个训练过程不需要提前做多视角几何优化,而是直接用真实三维坐标作为目标,以带置信度加权的损失函数来引导网络学习。
VGGT(视觉几何基础Transformer)则把这个想法推到了更大的规模,让模型同时处理多张图片,并且一次性预测出相机参数、深度图、三维点图和点的轨迹(也就是同一个物理点在不同图片中的对应位置)。这相当于训练了一个"全能的三维理解助手",一次输入一批图片,它能同时告诉你每张照片是从哪里拍的、场景的深度长什么样、三维结构是什么。
RayZer走了一条更极端的路:它完全不使用三维数据作为监督,而是把每张图片分解为"场景"和"相机"两个部分,通过让模型在不同相机之间"翻译"场景来学习三维结构,训练信号完全来自二维图像的重建质量。这就好比让一个从未离开二维平面的人,通过大量观察不同角度的影子,自学出对立体世界的理解。
π?(Pi-cubed)解决了另一个棘手问题:当输入的图片没有固定顺序时怎么办?它设计了一种对图片顺序不敏感的学习方式,无论你把图片打乱成什么顺序,网络的输出都不会变。训练时同时优化局部点图和相对位姿两个目标,让模型学到更鲁棒的几何理解。
Depth Anything 3则把这个方向又推进了一步,将深度估计和射线方向估计合并成一个统一的六维输出——每个像素不仅告诉你深度(离相机多远),还告诉你这条光线的方向(从哪里来、往哪里去),相当于把单目深度估计和相机几何推断统一在了一个模型里。
**四、当生成遇上重建:三维世界的"双引擎驱动"**
除了从真实数据学习,还有另一条路线:用生成模型来补充缺失的三维信息,或者反过来,用三维重建来约束生成模型的输出。
DreamFusion和Magic3D是这条路上的早期代表。它们的核心技术叫"分数蒸馏采样"(Score Distillation Sampling),原理是:用一个在海量二维图片上训练好的生成模型(比如Stable Diffusion那类扩散模型)作为"老师",让三维神经场作为"学生",通过不断问"老师这个视角看起来像吗"来优化三维模型。这就好比你要捏一个泥塑,但没有真实的参照物,于是你用一个审美很好的朋友来评判,根据朋友的反馈不断调整,最终捏出一个各个角度看起来都令人满意的形状。
更新的路线是"原生三维生成基础模型"。TRELLIS学习了一种结构化的三维隐空间表示,可以从文本或图像生成三维内容,并直接解码为辐射场、高斯球或网格等多种格式。SAM 3D则设计了一套"模型在环"的数据引擎——让生成模型自动产生候选三维数据,再由人工审核筛选出高质量的样本,这些样本反过来又用于训练更好的生成模型,形成一个自我强化的循环。这种方式绕过了三维数据稀缺的瓶颈,因为每一轮循环都会产生更多更好的训练数据。
这种"重建促进生成、生成补充重建"的协同关系,是论文中特别强调的一个趋势。两个方向不再是相互独立的赛道,而是在共享的隐空间中相互促进,形成一个持续优化的数据飞轮。
**五、三维技术能做什么:从重建到具身智能的全景图**
理解了数据表达方式和学习方法之后,论文用相当大的篇幅介绍这些技术能做什么,也就是具体的下游应用,这一部分的内容颇为宏大,几乎构成了一幅三维视觉应用的全景图。
三维重建是最直接的应用,也是历史最悠久的方向。传统方法叫做运动中恢复结构(SfM)和多视角立体视觉(MVS),原理是从多张图片中找到匹配点,通过几何计算推断出相机位置和场景三维结构。这类方法数学上很严谨,但对图片质量要求高,在纹理模糊或光线不均匀的场景下容易失败。现代方法用前文介绍的那些神经网络直接端到端地从图片预测三维结构,即使只有一张图片、即使相机参数未知,也能得到合理的结果。
三维资产和场景生成是近年来热度极高的方向,通俗说就是"用文字或图片自动生成三维模型"。现代方法先用多视角扩散模型生成从不同角度看物体的多张一致图片,然后再用大型重建模型把这些图片快速转换为网格、三维高斯或三平面(tri-plane)表示。这个过程可以在几秒到几分钟内完成,而以前的SDS方法往往需要几小时。更进一步,研究者们还在尝试生成整个房间乃至整栋建筑的三维场景,比如3D-SceneDreamer和AnyHome这两个框架,可以根据文字描述生成可以在其中"漫游"的室内环境,包括房间布局、家具摆放等具体细节。
三维一致性视频生成是一个更新的交叉方向。大型视频生成模型能生成视觉上令人惊艳的画面,但往往缺乏跨帧的几何一致性——从一帧到下一帧,墙面可能突然弯曲,人脸可能出现奇怪的变形。研究者们正在把三维知识注入视频生成模型,以三维一致性作为奖励信号(类似于"这段视频里的几何关系合理吗")来约束生成过程,或者在视频生成的去噪过程中强制让特征与深度图或对极线对齐。Diffusion as Shader(扩散作为着色器)则进一步用密集的三维轨迹来精确控制生成视频中的运动,实现了对生成内容的精细空间控制。
四维渲染和三维世界模型是更前沿的方向,目标是从静态三维进化到动态三维,也就是理解和模拟物体随时间的运动和变化。四维高斯溅射在三维高斯的基础上引入了形变场,把运动表示为三维结构随时间的演化,而不是一系列不相关的二维帧,从而实现了动态拓扑的实时渲染。三维世界模型的目标更大:让模型能够预测未来状态,为机器人规划提供支持。PointWorld和ParticleFormer等工作直接在三维点或粒子层面进行状态预测,确保预测结果在时间上前后一致、在多视角下物理合理。WorldSimBench是评估这类模型的专用基准测试,检验模型是否真的表现得像一个可用的物理模拟器。
具身智能(Embodied AI)是所有这些技术最终落地的场景之一。让机器人理解三维世界、通过语言接受指令、在物理空间中执行任务,这三个能力的整合就是空间智能在视觉-语言-动作系统中的体现。现代的三维视觉-语言-动作系统不再把图像像素直接映射到机械臂的关节角度,而是在共享的三维表示空间中对感知、语言和控制进行统一建模。用三维点流或空间轨迹来表达"意图",使得机器人对视角变化更鲁棒,也更容易在不同机器人平台之间迁移——毕竟,同样的三维世界理解,不管你是用四轴机械臂还是六轴机械臂来操作,本质上是相同的。
**六、数据集和基准测试:推动进步的无名英雄**
再好的算法,没有数据也是空谈。论文用专门的篇幅梳理了三维视觉领域的数据集生态,这部分内容对于理解整个领域的发展脉络同样不可或缺。
研究团队整理了50个具有代表性的数据集,时间跨度从2015年的ShapeNet一直延伸到2025年的最新数据集。通过这个列表可以清楚地看到这个领域的发展轨迹:2020年前后出现了一个发布高峰,随后每年都有稳定的新数据集涌现,说明整个领域的数据基础设施在快速扩张,而这种扩张往往与新的传感器技术或新的模型范式密切相关,而非均匀线性的增长。
从数据模态来看,网格数据集(50个中有28个涉及网格)和多视角图像数据集(25个)最为常见,而体素数据集(3个)和隐式场数据集(1个)极为稀少。这种分布不平衡反映了获取难度:网格和图像相对容易生成或拍摄,体素和隐式场通常需要从其他格式转换,自然数量较少。从空间粒度来看,以单个物体为中心的数据集(18个)和室内场景数据集(13个)占主导,而户外场景和混合场景数据集则相对匮乏。
这50个数据集中,有几个值得单独介绍,因为它们对整个领域产生了深远影响。ShapeNet是2015年发布的大型CAD数据集,包含数十万个三维模型,几乎所有三维物体分类、分割和生成的方法都在它上面做过测试,可以说是三维视觉领域的ImageNet。ScanNet于2017年发布,提供了室内场景的RGB-D扫描和语义标注,是室内理解任务的标准基准。ScanNet++是其2023年发布的升级版,精度更高,同时支持了包括三维高斯溅射在内的新型表示。Objaverse于2023年发布,包含数百万个三维网格和对应的文字描述,是训练多模态三维理解模型的重要资源。
近年来还出现了一个新趋势:数据集构建本身越来越"模型感知",也就是数据集的设计已经把特定模型范式的需求考虑进去了。比如InteriorGS直接提供了以三维高斯溅射格式标注的室内场景,而不是只有网格或点云,可以直接用于训练和评估高斯溅射相关方法。MegaSynth则用合成场景来大规模扩充重建模型的预训练数据。WorldSimBench更是在评估层面提出了新要求:不仅测试重建精度,还测试生成模型是否能在长期任务中表现得像一个真实可用的物理模拟器。
尽管如此,现有数据集生态仍有明显的不足。几乎没有一个数据集能同时满足多种模态(点云、网格、高斯球、图像都有)、时间一致性(支持动态场景)和开放世界泛化(在各种未见场景中都有效)这三个要求。研究团队明确指出,填补这些空白是未来最紧迫的任务之一,需要在数据规模、多样性、标注效率和合成-真实数据之间取得更好的平衡。
**七、前路在哪里:三个正在汇聚的方向**
在梳理完现状之后,论文在结论部分提出了三个前景广阔的研究方向,值得单独展开。
第一个方向是统一的基准测试和评估协议。目前,室内场景数据集(ScanNet++、DL3DV-10K)、物体数据集(WildRGB-D)和合成数据集(PointOdyssey、MegaSynth、InteriorGS)各自为政,缺乏一个横跨对象、场景、动态场景的统一评估平台。研究团队认为,未来需要能同时评估重建精度和生成模型行为(是否符合物理规律)的综合基准。
第二个方向是跨模态和二维监督学习策略。互联网上有数十亿张二维图片,这是远比三维数据更丰富的资源。如何从这些图片中提取几何信息、同时保持对三维世界的准确理解,是一个既有理论深度又有实际价值的问题。前文提到的DUSt3R、VGGT、RayZer等工作都在朝这个方向努力,但距离充分利用这些二维数据的潜力还有很长的路要走。
第三个方向是可扩展的实时表示。三维高斯溅射已经在渲染效率上实现了质的飞跃,但在大规模场景、动态场景和参数化CAD模型的生成和编辑方面仍有大量工作要做。如何在保持实时性的同时不牺牲精度,如何在高斯球和网格、CAD等更适合工程应用的格式之间灵活转换,是这个方向的核心问题。
---
归根结底,这篇论文做的事情,是在一个迅速扩张、四面开花的领域里,用一张清晰的地图帮助读者找到自己的位置。它不是一篇宣扬某个新方法有多厉害的论文,而是一篇认真整理了"我们现在知道什么、我们还不知道什么"的导航手册。
对于普通人来说,这项研究最直接的意义是:你手机里的AR效果会越来越逼真,自动驾驶汽车对周围环境的理解会越来越可靠,将来的机器人助手也许真的能像人一样在三维空间中自如行动。这些不是遥远的科幻,而是这篇"菜谱"所描绘的技术路线图上,已经可以看到轮廓的事物。
对于这个领域的研究者来说,这张地图同样有价值——它清楚地标出了哪些地方是已经开垦的熟地,哪些地方是尚待探索的荒野,尤其是大规模多模态数据集的缺失、二维监督学习的潜力尚未充分挖掘,以及动态四维世界建模的挑战,这些都是未来值得投入的方向。
如果你对这张地图的细节感兴趣,可以在arXiv平台通过编号2606.04291查阅完整论文,研究团队还在GitHub上维护了一个持续更新的数据集列表,地址在论文首页有完整标注,供社区持续参考和贡献。
---
Q&A
Q1:三维高斯溅射(3DGS)和神经辐射场(NeRF)有什么本质区别?
A:神经辐射场把整个场景编码进一个神经网络,渲染时对每条光线上的大量点查询网络,速度慢(每帧需要几秒甚至更长)。三维高斯溅射则用大量显式的三维椭球(高斯球)直接表示场景,配合高度优化的光栅化渲染器,将渲染速度提升到毫秒级,可以实时渲染。两者都以多视角图像作为输入,但表示方式和渲染效率有本质差异,3DGS更快、更适合实时应用,NeRF理论上更灵活但更慢。
Q2:PointNet是什么,为什么处理点云数据需要专门的网络?
A:点云是三维空间中一堆没有固定顺序的散乱点,而传统卷积神经网络需要数据排列在整齐的网格里(比如图像的像素网格)。PointNet是第一个直接处理无序点集的深度学习网络,它用对称函数(如最大池化)来处理点的无序性,使得不管点的输入顺序如何,最终提取的特征都相同。PointNet之后,PointNet++、Point Transformer等方法进一步引入了层次化特征提取和注意力机制,性能持续提升。
Q3:二维监督学习三维是什么意思,为什么这个方向重要?
A:三维数据采集成本极高,而互联网上有数十亿张二维图片。"二维监督学习三维"是指用大量普通图片而不是昂贵的三维扫描数据来训练三维理解模型,核心技术是可微分渲染——让模型渲染出图片,再把渲染结果和真实图片的差距作为学习信号反向传播。DUSt3R、VGGT等方法都是这个方向的代表,它们能在几乎不依赖三维标注的情况下,从图片直接预测出三维坐标和相机位置,大幅降低了三维理解的数据门槛。