从“聚光灯”到“扫街角”:UFV-Splatter 让三维重建学会“直面刁钻”
2026/6/8 13:46:41 网站建设 项目流程

它不再依赖“物体居中、相机指向中心”的理想化训练条件——而是让模型自己学会,从任何一个随性拍摄的刁钻角度,看懂真实世界的几何结构。

想象你拿着手机,蹲在街头对着一个雕塑连拍三张照片:一张是从侧面平视,一张是从45度角仰视,还有一张是绕着雕像顺时针转了小半圈。回到桌面,你打开一个三维重建 App,原本期待能把这个雕塑从任意角度拖拽查看——但 App 生成的结果却严重扭曲、残缺不全。为什么?

答案藏在模型的训练范式里。当前主流的无姿态前馈式 3D 高斯泼溅(3DGS)模型,虽然在合成数据和实验室环境下表现出色,但它们无一例外地继承了一个隐含的“训练偏置”:在训练阶段,物体被放置在世界原点,相机被设置成指向原点——也就是说,相机永远“对着”物体拍。训练时的所有图像,几乎都是围绕物体正面和正面周边小幅变化的“有利视角”(favorable views)。

然而,现实世界中用户的拍摄,充满了随意且不可预知的角度:相机可能大幅偏离中心,物体可能位于画面角落,甚至不同视图之间相机视角的分布毫无规律可循。这些“不指向中心、高度不规则”的输入,正是当前模型难以消化的“不利视角”(unfavorable views)。

现有的无姿态前馈 3DGS 模型有两种典型路线:一种是像 PF3plat 那样用几何先验“硬解”位姿和深度——但它们在面对视角极度不规则的输入时,对齐精度仍会显著下降;另一种则是纯粹的端到端学习方法,其泛化能力完全受限于训练数据的分布。

NAIST 等研究团队给出了一个截然不同的答案。他们提出的UFV-Splatter,是一个面向不利视角的无姿态前馈 3D 高斯泼溅适配框架。UFV-Splatter 的核心逻辑可以概括为:“先居中,再利用先验,再用适配器把高斯‘拉正’”。它不再试图从零开始学习真实世界中千变万化的拍摄角度,而是巧妙地采用“模型适配”的思路——利用预训练模型在“有利视角”上已建立起的强大先验,再通过轻量级的可学习模块,将这些先验迁移到任意输入视图中,使模型在面对刁钻角度时依然能够稳定、高质量地重建三维场景。

实验结果证明,UFV-Splatter 在 Google Scanned Objects(GSO)数据集的合成图像和 OmniObject3D 数据集的真实图像上,显著超越基线方法,尤其在极端不规则视角输入下展现出极强的鲁棒性和泛化能力。以下,我们从问题起点、核心方法、实验验证、创新价值与未来方向几个维度,逐层拆解这篇论文的精妙之处。

一、问题的起点:为什么“不利视角”让最先进的无姿态模型集体失效?

1.1 无姿态前馈模型:一项开创性的突破,却隐藏着一个被忽视的盲区

近年来,无姿态前馈 3D 高斯泼溅模型的出现,可以说是 3D 重建领域的一次范式飞跃。它通过大规模合成数据训练,使模型能够在推理时直接从稀疏输入图像输出高质量 3D 高斯,完全摆脱了对相机位姿的依赖。相比于传统的 NeRF 和 3DGS 方法,无姿态前馈模型不需要耗时数十分钟的迭代优化(这是传统 3DGS 在无姿态条件下常见的困境),也不需要依赖 COLMAP 等脆弱且耗时的位姿估计步骤(SfM 在稀疏输入下往往直接宣告失败)。用户只需提供几张图像,模型即可在毫秒到秒级内完成重建。

然而,这种“一次前向、秒级重建”的能力并非无代价得来。大量无姿态前馈模型的训练,依赖于一个精心设计的数据生成规则:在训练阶段,3D 物体被锚定在世界坐标系的原点,相机被布置成从各个角度“指向原点”进行渲染。这种设置确实让训练变得非常稳定——模型只需要学习从以原点为中心的相机到场景几何的映射,数据结构高度规则化。

其问题在于:当推理时输入的图像是从“不指向原点”的相机拍摄的,即相机的主光轴没有穿过物体中心,甚至相差很远时,输入图像的坐标系与模型的训练经验发生了本质的漂移。模型从未见过这种分布的数据,自然也就无从正确重建。

1.2 三个不可回避的硬骨头

视角偏差的累积效应:训练时的所有视图都是“原点指向型”的,这意味着物体的位置在训练数据中具有极强的一致性和中心性。当现实输入中物体不再居中时,模型对不同视图之间的几何对应关系会产生系统性偏差——由于缺乏坐标先验,模型误认为物体仍在“中心”,导致 3D 高斯在不同视图之间“错位”,重建结果出现几何混乱。

“不利视角”的定义困境:所谓“不利视角”,并不仅仅是相机指向偏离中心这么简单。广义上,不利视角泛指“与训练分布相左的任何输入视图”——包括相机主光轴偏离物体中心、物体在画面中偏移严重、不同视图之间相机分布极不规则、甚至相机距离物体的远近与训练数据显著不同等。这些问题在真实的随手拍摄场景中随处可见,但现有无姿态前馈模型几乎没有进行过系统性的评估和处理。

“有利先验”与“不利视角”之间的结构性矛盾:模型的能力建立在有利视角的几何先验上——它知道当相机指向物体中心时,对应的深度和几何应该如何投射。但当输入不再是这种结构时,模型所依赖的先验仍然被强行调用,导致产生错误的深度估计和错误的 3D 高斯位置。简而言之,模型“输入数据的表征分布”与“内部先验的表征分布”发生了严重错位。

1.3 既有的失败之路:端到端从头训练与约束注入

UFV-Splatter 之前,学界处理这一问题的常见尝试主要分为两类:

  • 扩大训练数据分布:试图在训练集中加入更多“不规则视角”的图像,直接让模型见过更多不利视角。然而,合成数据集中添加不规则视角后,模型往往会在有利视角和不利视角之间产生“矛盾”,很难同时兼顾两者。
  • 在模型中显式注入位姿约束:引入各种几何约束(如极线约束、深度一致性正则项)来强制模型学习跨视图几何。然而,这类方法在极其稀疏或极不规则的输入下仍然效果有限,因为显式几何约束需要依赖一定程度的先验几何信息,当输入视角极端不规则时,本身就缺乏可信的几何初始值。
1.4 适配式迁移:先“拉回到有利视角”,再利用先验

UFV-Splatter 的核心洞察简洁而有力:与其试图让模型从零学会所有不规则视角,不如先把“不利视角”的输入图像,变换到模型熟悉的“有利视角”范畴内,然后利用模型已有的强大先验进行重建,最后再通过一个轻量级的“高斯适配器”模块,将重建结果重新对齐到原始的不利视角空间

这种方法不是从零训练一个庞大的模型去覆盖所有可能的不利视角,而是在现有最先进的无姿态前馈模型(如 PF3plat 等)基础上,设计了一个优雅的“适配层”,使其在面对完全不同的输入分布时,仍然能够表现出与有利视角相当的重建质量。

二、方法的核心:UFV-Splatter——模型不够泛化,就给它加上一个“转接头”

UFV-Splatter 不是重新设计一个无姿态前馈 3DGS 架构,而是一套即插即用的适配框架。其核心逻辑可以概括为:“最近中心 → LoRA 增强 → 高斯适配器 → 高斯对齐 → 光照恢复”。以下我们逐步拆解每个模块的运作机制,深入探索这一框架的精妙设计。

2.1 阶段一:图像最近中心(Recentering)——把“不好的角度”掰正

UFV-Splatter 面临的第一个核心问题是:给定一个“不利视角”的图像(即物体的包围盒偏离了画面的中心区域),如何让它“进入”模型的有利视角范式?直接输入原始图像是行不通的,因为预训练模型从未见过这种坐标分布。

因此,UFV-Splatter 的第一步是对输入的每张图像进行最近中心变换。以 3D 物体重建为例,首先通过现成的 2D 前景分割模型(如 SAM)提取物体的前景掩码,计算其边界框,然后通过一个仿射变换将物体的边界框平移到图像的正中心。这一操作保证了变换后的图像中,物体的中心大致对齐到图像的几何中心,使其分布与模型训练时的有利视角高度相似。

然而,这种平移变换并非完美无缺。平移操作会自然地在图像中引入一些空白区域(背景区域被拉伸或填充),以及一些轻微的几何畸变,尤其是在物体原本就靠近画面边缘时。因此,UFV-Splatter 并不满足于仅仅做了“平移”,而是让后续的可学习模块去修正这些平移带来的细微副作用。

这一最近中心步骤,构成了 UFV-Splatter 整体框架的第一块基石。

2.2 阶段二:LoRA 层增强——让预训练模型“记住”不利视角的微调

虽然最近中心变换让输入图像的空间分布更接近有利视角,但模型训练时所观察到的不仅仅是空间位置,还有与空间位置紧密耦合的各种细节——例如,不同视角下物体各部分的纹理分布、不同距离下的深度先验、物体的朝向分布等等。仅仅靠平移不足以让模型完全适应不利视角。

因此,UFV-Splatter 在预训练的无姿态前馈模型中引入了低秩适配(LoRA)层。LoRA(Low-Rank Adaptation)是一种针对预训练大模型的高效微调策略,其基本思路是:冻结原始模型的全部参数,仅在模型的核心权重矩阵旁添加低秩可训练的旁路矩阵。在微调过程中,只有这些极小规模的 LoRA 参数参与梯度更新。

在 UFV-Splatter 的应用场景中,LoRA 层的核心作用是:让模型学会在“有利视角”的基础之上,去适应最近中心变换后的“类有利视角”输入所带来的微小分布偏移。LoRA 层捕捉的是“相对于有利视角的增量特征”——包括平移变换引入的畸变、背景区域的变化、物体空间位置和朝向的细微差异等。因为 LoRA 层的参数量极小(通常仅为原始模型参数量的 0.1% 到 1%),可以高效、稳定地进行微调,同时完全保留了原始模型在有利视角上的强大泛化能力,避免破坏其已有的几何先验。

这种设计的精妙之处在于:预训练模型仍然是那个“善于处理有利视角”的专家,而 LoRA 层则像一个“翻译器”,把最近中心后的输入转换成预训练模型能够高效理解的形式。

2.3 阶段三:高斯适配器——逐高斯调整几何一致性

经过 LoRA 增强的预训练模型,可以从最近中心后的输入图像中预测出 3D 高斯参数。然而,这些高斯仍然是在“最近中心的坐标系”中输出的,直接用于原始的不利视角渲染会导致几何错位——因为物体虽然被平移了,但高斯的几何位置仍然是按照“假设物体在中心”的逻辑输出的。

UFV-Splatter 为此设计了一个全新的模块:高斯适配器(Gaussian Adapter)。高斯适配器的输入是从 LoRA 增强模型输出的、在最近中心坐标下预测的 3D 高斯 {G~},以及原始图像中的各种特征。高斯适配器的输出是经过几何调整后的、与原始不利视角输入对齐的高斯。

具体来说,高斯适配器通过一个轻量级的 MLP(多层感知机)对每个高斯的位置(均值)、协方差矩阵乃至不透明度进行微调

  • 位置适配:在最近中心坐标中预测的高斯均值,需要在 3D 空间中经历一个逆变换,以适应原始的相机坐标系。高斯适配器预测每个高斯的残差位移 Δμ,使最终的高斯能够准确反映原始输入视角下的几何结构。
  • 协方差适配:平移变换对高斯的形状和朝向也有间接影响。高斯适配器通过预测协方差矩阵的修正项,确保高斯在空间中保持符合物理逻辑的椭球形状。
  • 不透明度适配:最近中心变换带来的背景区域变化,可能导致部分高斯的不透明度估计不够准确。高斯适配器对不透明度也进行精细化调整,抑制背景区域的虚假高斯点,增强前景区域的透明度准确性。

这一逐高斯的精细化适配,确保了即便输入经过了几何变换,最终输出的 3D 高斯仍然能准确表达原始场景的几何结构。

2.4 阶段四:高斯对齐——用可微渲染“拉通”全局几何

高斯适配器产生的 3D 高斯,需要在一个统一的训练框架下进行优化和校准。UFV-Splatter 引入了高斯对齐方法(Gaussian Alignment),其核心思路是:将适配后的 3D 高斯通过标准的 3DGS 可微渲染器渲染成目标视图,然后与原始图像(或训练中可用的其他视图)计算渲染损失,通过反向传播来整体优化预训练模型、LoRA 层和高斯适配器。

高斯对齐的另一个关键作用是在多个视图之间施加隐式的几何一致性约束。即使输入视图的分布极其不规则,不同视图之间仍然存在同一个 3D 点的重投影一致性约束。当模型生成的 3D 高斯在不同视图中的重投影产生不一致时,渲染损失会放大这种不一致性,进而驱动模型修正高斯的几何位置。高斯对齐的这一特性,很大程度上解释了为什么 UFV-Splatter 在面对极其稀疏、不规则视图时,仍然能够保持几何一致性。

2.5 训练策略与光照恢复:只靠有利视角数据,就能学会不利视角

UFV-Splatter 最引人注目的设计之一,是它利用的训练数据集完全只包含有利视角图像。换句话说,UFV-Splatter 在训练过程中从未见过任何不利视角的真实图像,却学会了如何在推理时优雅地应对这些“刁钻输入”。这种独特的能力来源于其“适配”的本质:它只是在预训练模型基础上学习一个“输入变换→输出逆变换”的适配映射,而非学习新的几何分布。

具体而言,训练过程中,UFV-Splatter 首先从数据集中采样一组有利视角的图像(相机指向物体中心),对这组图像执行随机的仿射变换——模拟不利视角下的平移、缩放和旋转。变换后的图像被送入 UFV-Splatter 进行适配和重建,输出 3D 高斯后,再通过渲染原始有利视角图像计算损失,反向传播适配过程中学习的梯度。这种“自监督”式的训练策略,使模型在真实推理中面对不利视角时,能够“举一反三”地进行高质量重建。

此外,UFV-Splatter 还设计了一个光照恢复模块。最近中心变换中的几何变换和仿射变换,不仅会改变空间位置,还可能改变图像的光照分布——例如,一个原本在画面角落的物体,在平移到中心后,其纹理亮度可能会因为插值操作而略微改变。光照恢复模块通过对渲染图像的色彩分布进行微调,进一步提升了最终渲染的视觉质量。

三、实验的答卷:从未见过不利视角,却能在不利视角下吊打所有基线

3.1 评估设置:合成数据与真实数据的双重考验

论文在两大基准数据集上进行了系统评估:一个是Google Scanned Objects(GSO)合成图像数据集,包含大量高质量 3D 物体的多视角渲染图像;另一个是OmniObject3D 真实图像数据集,由真实场景下的手机拍摄图像构成,包含更多的背景杂讯、光照变化和真实拍摄噪声。

UFV-Splatter 选择的无姿态前馈骨干模型包括 PF3plat(已由微软亚洲研究院提出,当时为当前最先进的无姿态前馈模型之一)等。基线的对比包括:

  • 不经过任何适配、直接将不利视角输入原始预训练模型;
  • 仅通过最近中心变换而不进行适配;
  • 以及一系列后处理或端到端的视角对齐方法。

评价指标包括新视角合成的视觉质量(PSNR、SSIM、LPIPS),以及对极端视角偏离程度的鲁棒性评估。

3.2 核心实验结果:UFV-Splatter 全面超越所有基线

不利视角下的新视角合成质量:在 GSO 数据集上,当输入视图被随机仿射变换到高度不利的视角时,原始预训练模型的 PSNR 急剧下降,LPIPS 感知损失急剧上升;而 UFV-Splatter 在各项指标上均显著超越所有基线,在极端不利视角下甚至依然能够保持接近有利视角的质量水平。

泛化到真实图像:OmniObject3D 真实图像数据集的测试进一步证实了 UFV-Splatter 的现实价值。由于真实拍摄的照片往往伴随视角偏移、背景杂乱和光照变化,对无姿态前馈模型的挑战远大于合成数据。UFV-Splatter 在真实图像上仍然保持了显著的性能优势。

消融实验:分别移除“最近中心模块”、“LoRA 层”和“高斯适配器”后,各自在不同程度的不利视角下性能均出现明显下降;移除 LoRA 层和高斯适配器的组合后,模型几乎丧失了对不利视角的适应能力——这充分说明了“先调视角、再调高斯”的双适配机制缺一不可。

3.3 定性结果:从“飘浮的错位碎片”到“结构工整的立体模型”

论文展示了 UFV-Splatter 与其他方法在不利视角输入下的重建和渲染对比。直接使用原始预训练模型输出的 3D 高斯,在不利视角输入下会产生大量偏离正确位置的“漂浮高斯碎片”,新视角渲染结果严重失真;仅使用最近中心变换而不引入适配模块,虽然改善了部分几何对齐,但依然会在物体边缘产生几何错位和纹理模糊;而 UFV-Splatter 输出的 3D 高斯结构清晰、几何对齐精准,新视角渲染结果在纹理细节和几何结构上均与真值高度一致。

四、创新的价值:UFV-Splatter 为无姿态前馈模型带来了什么范式转变?

4.1 首次将“适配式迁移”引入无姿态前馈 3DGS

UFV-Splatter 是在无姿态前馈 3DGS 领域第一个系统地提出模型适配框架的工作。它不依赖于从零训练一个庞大的模型来覆盖所有输入分布,而是巧妙地利用预训练模型积累的宝贵先验,在冻结原始模型的基础上增加轻量级适配模块,实现了对未来未知输入分布的“自适应”。

4.2 仅靠有利视角数据,学会处理不利视角——打破数据采集的魔咒

UFV-Splatter 的训练数据全部来自结构规整的有利视角数据集,模型从未在训练时见过任何不利视角的真实输入。这一特性在实际应用中具有极高的价值:真实不利视角的数据往往难以系统性地收集和标注,而有利视角的合成数据集却非常容易获取。UFV-Splatter 证明了,通过合理设计的适配框架,模型可以从一种分布“举一反三”到另一种完全不同的分布。

4.3 一系列可插拔的模块设计

UFV-Splatter 提出的最近中心模块、LoRA 层、高斯适配器和高斯对齐,是一系列可插拔的、与骨干模型无关的模块。这意味着 UFV-Splatter 的技术可以独立于底层骨干模型的变化而持续改进——即使未来出现比 PF3plat 更强的无姿态前馈模型,UFV-Splatter 的适配框架仍然可以直接迁移使用。

五、未来的追问:当模型学会处理刁钻角度之后,下一站是哪里?

5.1 从“单物体适配”到“全场景适配”

UFV-Splatter 目前主要针对以单个物体为中心的场景进行适配。当扩展到全场景级重建时,场景中物体的位置分布、尺度变化和遮挡关系都更为复杂,单一的全局“最近中心变换”可能不再适用。将 UFV-Splatter 的适配思想扩展到多物体场景或城市场景的 3DGS 模型中,是一项重要且自然的前进方向。

5.2 从“图像空间变换”到“特征空间对齐”

UFV-Splatter 目前采用的是对输入图像进行显式的几何变换,再通过适配器修正几何错位。一种更前沿的思路是在模型的特征空间内部直接学习“从不利视角特征到有利视角特征”的映射,从而避免几何变换带来的信息损失。这一方向将 UFV-Splatter 的经验从“图像级适配”提升到“表示级适配”。

5.3 更高效、更轻量化的适配

当前 UFV-Splatter 在推理时仍然需要对每张输入图像执行最近中心变换和高斯适配器前向计算,虽然相比重新训练模型已经极为高效,但在实时应用(如 AR/VR、自动驾驶仿真)中仍有进一步压缩的空间。探索更轻量化的高斯适配器结构,甚至将适配过程融合到骨干模型的单次前向中,是 UFV-Splatter 走向实际部署的关键。

关键信息速览

维度内容
论文标题UFV-Splatter: Pose-Free Feed-Forward 3D Gaussian Splatting Adapted to Unfavorable Views
作者Yuki Fujimura, Takahiro Kushida, Kazuya Kitano, Takuya Funatomi, Yasuhiro Mukaigawa
所属单位奈良先端科学技术大学院大学(NAIST)、立命馆大学、京都大学
发表状态arXiv:2507.22342v2,2025 年 7 月提交,8 月修订
模型名称UFV-Splatter
核心架构最近中心变换 → LoRA 层增强 → 高斯适配器 → 高斯对齐 → 光照恢复
输入输出输入:任意视角的未标定稀疏图像(包含不利视角) → 输出:几何对齐的 3D 高斯场,支持实时新视角渲染
核心创新1. 首次提出无姿态前馈模型的适配框架;2. 仅靠有利视角数据训练即可泛化到不利视角;3. LoRA + 高斯适配器联合实现几何对齐
评估数据集Google Scanned Objects(合成)、OmniObject3D(真实)
代码与项目https://yfujimura.github.io/UFV-Splatter_page/
arXiv 链接https://arxiv.org/abs/2507.22342
相关文献PF3plat, MVSplat, PixelSplat, FreeSplatter

当你举起手机,绕着一个雕塑随手拍下几张歪歪扭扭的照片——有的视角高度偏斜、有的画面里物体都快要“溜出”画面——而模型能够在瞬间输出一个结构清晰、无错位、无漂浮鬼影的完整 3D 模型时,让这一切成为可能的,可能正是 UFV-Splatter 这类适配框架的贡献。它验证了一条在快速发展的 3D 视觉领域中被一再证明的道理:有时候,与其费尽心力让一个模型学会所有“刁钻”的情况,不如设计一个优雅的“转接头”,让已有模型的强大能力流动到它未曾见过的新领域中。UFV-Splatter 给无姿态 3D 重建带来了一个全新的维度——适配,而这条适配之路,才刚刚开始。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询