这项由北京大学多媒体信息处理国家重点实验室、北京大学视觉技术国家工程研究中心、北京邮电大学人工智能学院,以及北京智源人工智能研究院联合开展的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.07966。有兴趣深入了解技术细节的读者,可以通过该编号在arXiv平台查阅完整论文。
**一场关于"光"的革命,从视频生成开始**
如果你曾经用过AI视频生成工具,大概有过这样的体验:生成出来的画面乍一看很漂亮,但总感觉哪里不对劲。仔细一看,问题往往出在光线上——桌上的玻璃杯没有反光,金属表面没有高光,阴影方向乱七八糟,甚至同一个画面里,有的物体看起来是在晴天拍的,有的又像是阴天。这种感觉就像一张照片里同时存在两个太阳一样违和。
光线,是让一段视频看起来真实的灵魂所在。人类的眼睛对光线极度敏感,哪怕只是细微的不协调,我们的大脑就会立刻发出"这不对劲"的信号。对AI来说,"画"出一个合理的光影世界,远比画出一把椅子或一栋楼困难得多。
这就是LiVER这个研究框架要解决的核心问题。LiVER的全名是"Lighting-grounded Video genERation",中文可以理解为"以光照为基础的视频生成"。研究团队的思路是:与其让AI去"猜"光线应该是什么样的,不如直接把物理世界中真实的光照规律"喂"给它,让它从根本上理解光是如何在不同材质表面产生不同效果的。
**一、问题的根源:AI为什么不懂光**
要理解LiVER解决了什么问题,先要理解现有AI视频生成工具的局限性究竟在哪里。
当前的视频生成模型,大多是通过学习海量视频数据来"模仿"真实世界的样子。这个过程有点像一个从来没有学过绘画的人,通过观看成千上万幅画作来学习画画。他能学到"草地通常是绿色的"、"天空通常是蓝色的"这样的规律,但他不理解"为什么晴天草地的阴影是蓝紫色调的"这样的物理原理。
这种依赖数据驱动的学习方式,导致生成的视频往往在"表面现象"上做到了相似,却在"物理规律"上出现了错误。比如,生成一段阳光明媚的室外场景时,AI可能会把金属物体渲染成哑光质感,或者让玻璃窗看起来没有任何反射。更严重的问题是,当场景中有多个物体相互遮挡时,AI很难正确处理它们之间复杂的阴影和反射关系。
与此同时,现有工具对视频场景的"控制能力"也十分有限。用户往往只能通过文字描述来影响生成结果,无法精确控制摄像机从哪个角度拍摄、场景中的物体放在什么位置、光线从哪个方向照射过来。这三个要素——布局、光照、摄像机轨迹——在专业影视制作中是核制约创作自由度的核心变量,但在现有AI工具中,它们要么被混在一起无法单独调整,要么根本没有被建模。
LiVER的研究团队把这个问题比作一道"解耦"难题:如何把光照、布局、摄像机这三个原本纠缠在一起的因素,清晰地分离开来,让用户能够像调音台上的推子一样,独立地控制每一个维度?
**二、核心思路:用3D物理渲染来"教"AI**
LiVER的解题思路,可以用一个电影特效制作的比喻来理解。
在专业的电影工业里,视觉特效团队在制作一个充满金属机器人或玻璃建筑的场景时,不会直接用画笔一笔一笔地画出光影效果。他们的做法是:先用3D软件搭建一个完整的三维场景,设定好每个物体的材质属性(是金属还是塑料?是光滑还是粗糙?),然后在场景里放置一个虚拟光源,让计算机按照真实的物理光学规律自动计算出所有的光影效果。这个过程叫做"基于物理的渲染"(Physically-Based Rendering,简称PBR)。
LiVER的思路正是借鉴了这种方法。研究团队不让AI直接生成最终视频,而是先让一个"智能助手"(研究中称之为"渲染器智能体")根据用户的文字描述,自动搭建一个简化的3D场景,然后用3D渲染引擎(具体使用的是开源3D软件Blender)按照物理规律计算出光照效果,生成一套"场景代理"(Scene Proxy)图像序列。这套图像序列就像是电影拍摄前的分镜头草图,但它包含了精确的物理光照信息。最后,再把这套物理准确的"草图"作为输入,引导AI视频生成模型来产生最终的高质量视频。
这个流程的精妙之处在于,AI视频生成模型不需要自己去"推断"光线应该怎么打,因为正确答案已经被物理渲染引擎算好了,并以图像的形式直接告诉了它。AI只需要把这些光照信息与场景内容融合在一起,生成视觉上更加细腻、真实的最终画面。
**三、场景代理:把光分解成三种"语言"**
LiVER框架中最具技术创意的部分,是它如何表达场景的光照信息。
研究团队没有试图用一张图来描述所有的光线效果,而是把光照分解成三种不同的"语言",分别对应光在不同材质表面上的不同表现方式。
第一种语言叫做"漫反射"(Diffuse),处理的是哑光、无光泽表面的光照效果。粗糙的石头、布料、未经打磨的木头,光线打上去会向四面八方均匀散射,没有明显的高光或反射。这种光照描述的是场景中最基础的明暗关系,捕捉的是低频的、柔和的环境光效果。
第二种语言叫做"粗糙GGX"(Rough GGX),处理的是半光滑表面的光照效果。轻微磨砂的金属、陶瓷、部分塑料,光线打上去会产生模糊的、扩散的高光区域。这种光照描述捕捉的是中频的宽泛反射,是很多日常物品表面效果的主要来源。
第三种语言叫做"光泽GGX"(Glossy GGX),处理的是高度光滑、镜面般的表面的光照效果。抛光金属、玻璃、镜子,光线打上去会产生清晰的、尖锐的高光和环境反射。这种光照描述捕捉的是高频的精确反射,是让材质看起来"贵"或"精致"的关键。
将这三种光照图像叠在一起,就像把一首音乐的低音、中音、高音三个声部分别录制成单独的音轨,然后再混合成最终成品。每种材质对应不同声部的组合方式不同,金属可能低音弱、高音强,织物可能低音强、高音几乎没有。通过这三种"光照语言"的组合,可以精确描述几乎所有材质表面的光照行为。
在技术实现上,这三种光照图像被按照通道拼合在一起,形成一个9通道(每种光照3个RGB通道,共3种)的图像序列,构成最终的"场景代理"。这个场景代理不仅包含了精确的光照信息,还包含了场景的几何布局和摄像机运动信息,一举解决了三个控制维度的问题。
**四、智能体如何"读懂"你的文字并搭建场景**
从用户输入一段文字描述,到LiVER生成场景代理,中间经过了一个由多个AI模块协同工作的"渲染器智能体"流程。这个过程就像从总导演、美术指导到摄影师的分工协作。
整个过程从"场景构建"开始。智能体首先像一位文学分析师一样,仔细拆解用户提供的文字描述,提取出其中涉及的物体类别、它们之间的空间关系(比如"长凳在树下"、"垃圾桶在建筑旁边"),并把这些信息组织成一个结构化的"场景图谱"。场景图谱中的每个节点代表一个物体,每条边代表两个物体之间的位置关系。
有了场景图谱之后,智能体会从一个预先整理好的3D资产库(基于Objaverse-XL这个包含超过1000万个3D物体的庞大数据库)中,为每个节点找到最合适的3D模型,然后根据场景图谱的空间约束来摆放这些模型的位置,形成一个粗略但几何上合理的3D场景。
接下来是"光照设置"。智能体会从用户描述中提取与光线相关的线索,比如"温暖的傍晚阳光"、"阴天漫射光"、"霓虹灯氛围"等。根据这些线索,它会从Poly Haven这个高质量HDR环境贴图库中筛选出最匹配的全景光照图。HDR(高动态范围)环境贴图就像是把整个天空和周围环境"拍"成一张全景照片,用它来照亮场景,可以产生非常真实的环境光效果。如果库中没有完全匹配的贴图,智能体还能调用专门的生成模型来临时创建一个。
随后是"摄像机规划"。智能体从文字描述中识别拍摄手法的线索,比如"绕轨道拍摄"、"推拉变焦"、"升降镜头"等,然后根据这些线索规划摄像机的运动轨迹。它会先确定几个关键帧的摄像机位置和朝向,再通过数学插值方法生成一条时间上平滑的完整轨迹。
最后,将场景几何、光照设置、摄像机轨迹全部输入Blender渲染引擎,分别渲染出三种光照图像序列,拼合成最终的场景代理,准备好喂给视频生成模型。
**五、如何把物理信息"注入"AI视频生成模型**
得到了场景代理之后,下一个挑战是:如何让它真正引导AI视频生成模型,而不只是被模型忽视?
LiVER的基础视频生成模型选用的是阿里巴巴开源的Wan2.2-5B,这是一个在大量真实视频数据上训练的高质量视频扩散模型,已经具备了很强的视觉质量生成能力。研究团队在它的基础上,额外设计了两个轻量化的新模块。
第一个模块叫做"场景代理编码器",专门负责从场景代理图像序列中提取关键信息。这个编码器由多个2D卷积神经网络块堆叠而成,每个块包含卷积操作、归一化处理和激活函数。它的工作方式是:逐帧处理场景代理图像,把9通道的光照信息压缩提炼成一套更紧凑的特征向量。研究团队刻意选择了2D卷积而非更复杂的3D卷积,这样在保持对光照信息高度敏感的同时,计算量也更加合理。
第二个模块叫做"代理适配器",负责把场景代理的信息与视频生成模型的内部表示融合在一起。在技术实现上,场景代理编码器输出的特征,会以一种"残差叠加"的方式加到视频模型的潜在表示(Latent Representation,也就是视频在模型内部的抽象编码)上。为了保证训练初期模型不会被新加入的信息搞乱,这个叠加操作有一个可学习的缩放权重,初始值被设为零,意味着训练刚开始时场景代理对视频生成完全没有影响,随着训练的进行,权重逐渐增大,场景代理的影响也逐渐增强。这个设计的好处是让模型能够"平稳过渡",不会因为新加入的信息而遗忘之前学到的视觉质量。
**六、三阶段训练:循序渐进地"教会"模型**
设计好了框架结构,剩下的问题是:怎么训练?
LiVER的研究团队设计了一套三阶段训练方案,每个阶段都有明确的学习目标,环环相扣。
在第一阶段,研究团队完全冻结了预训练的视频生成模型(即Wan2.2-5B的所有参数保持不变),只训练新加入的场景代理编码器和适配器模块。这个阶段持续10个训练周期,目标是让新加入的模块学会如何把场景代理转化为有效的控制信号。这就像先让新来的助理学会如何解读导演的分镜脚本,而不要一开始就让他介入到整个拍摄流程中。
在第二阶段,研究团队在继续训练编码器和适配器的同时,还解冻了视频生成模型中的LoRA层。LoRA(低秩适应)是一种高效的微调技术,它不改变模型原有的大量参数,而是在模型中插入少量额外的低秩矩阵来捕捉新的能力。这样做既能让视频生成模型学会更好地响应场景代理的控制,又不会彻底破坏它原本已经很好的视觉质量。这个阶段同样持续10个训练周期,目标是建立场景代理与视频内容之间更精确的语义对应关系。
在第三阶段,训练策略与第二阶段基本相同,但增加了一项重要变化:将真实视频数据与合成视频数据以1:1的比例混合训练。合成数据来自LiVER-Syn,其中包含了动态变化的光照效果(比如光源绕场景旋转),这些是真实拍摄的视频数据很难大量提供的。通过混合训练,模型能够学会处理更多样化的光照场景,不会因为真实数据中光照变化有限而出现能力局限。
整个训练过程共进行了约10万步,使用了8块英伟达H100 GPU,总批量大小为16,学习率为0.00001,最终生成视频的分辨率为704×1280像素。
**七、数据集:给AI准备一个"光照百科全书"**
为了训练LiVER,研究团队专门构建了一个名为LiVERSet的数据集,因为现有的视频数据集几乎都没有附带精确的光照、几何、摄像机参数标注。
LiVERSet由两个互补的部分组成。第一部分叫做LiVER-Real,收录的是真实世界拍摄的视频。真实视频的好处是自然光照效果丰富、画面质感真实,但问题是这些视频本来没有附带任何3D标注。研究团队为此开发了一套自动标注流程:首先用VGGT模型从视频中估计每一帧的摄像机位置;然后对第一帧进行深度估计,得到场景的深度图;接着用Grounding-DINO和SAM 2两个模型对第一帧中的物体进行检测和分割,提取出各个物体的二维轮廓;再通过逆投影把这些二维轮廓"还原"成粗略的3D网格模型;最后用DiffusionLight-Turbo模型从图像中估计出场景的HDR环境贴图,代表场景的全局光照。有了这些信息之后,再用Blender渲染出三种光照图像序列,形成场景代理。文字描述则由Qwen 2.5-VL这个视觉语言模型自动为每个视频生成。
第二部分叫做LiVER-Syn,是完全在计算机中合成的视频数据集。研究团队从Objaverse-XL中筛选出了一批具有高质量PBR材质的3D模型,通过随机组合这些模型来生成多样化的场景,然后从Poly Haven库中随机选择HDR环境贴图来照亮场景。为了制造动态光照效果,研究团队让HDR环境贴图在视频播放的过程中绕垂直轴旋转,每个视频片段的总旋转角度在180度到240度之间随机选取,这样就能产生光源方向明显变化的效果,比如太阳从场景的一侧移动到另一侧。摄像机位置也通过程序化方式随机生成。
整个LiVERSet共包含约11000段视频,每段视频长度为81帧,分辨率为720×1280像素。其中10000段用于训练,1000段用于评估,真实数据和合成数据各占一半。
**八、实验验证:和其他方法比较,谁更胜一筹**
研究团队选取了三个具有代表性的现有方法作为比较对象。CameraCtrl是一个专注于摄像机轨迹控制的视频生成方法,通过给视频生成模型输入摄像机位姿序列来控制拍摄角度。MotionCtrl是一个同时控制摄像机和物体运动的方法,通过摄像机位姿和稀疏物体轨迹来引导生成过程。VideoFrom3D是一个更接近LiVER思路的方法,通过粗略的3D几何来引导视频生成,它的做法是先用图像扩散模型生成关键锚定帧,再用视频扩散模型在它们之间插值过渡。
评估所用的指标覆盖了视频质量和控制精度两个大类。在视频质量方面,使用了FVD(衡量生成视频与真实视频在统计分布上的差异,数值越低越好)、FID(衡量每帧图像质量,数值越低越好)和CLIP相似度(衡量生成视频与文字描述的语义匹配程度,数值越高越好)。在控制精度方面,使用了摄像机轨迹误差(包括绝对轨迹误差ATE、逐步平移误差RPEt、逐步旋转误差RPEr)、光照误差(使用尺度不变均方误差SI-MSE,衡量估计出的光照与真实光照的差距)、光照不稳定性(SI-MSE随时间的标准差,衡量光照变化是否平稳)以及布局误差(用mIoU衡量生成视频中物体形状和位置与参考视频的匹配程度)。
在量化比较的结果中,LiVER在几乎所有指标上都取得了优异的表现。以视频质量为例,LiVER的FVD得分为32.56,而VideoFrom3D为36.94,CameraCtrl为48.03,MotionCtrl为63.13。FID方面,LiVER以129.56的成绩优于VideoFrom3D的157.89,而CameraCtrl和MotionCtrl的FID则分别高达98.29和97.21(这两个方法只生成16帧,和LiVER生成的完整81帧版本对比时,LiVER的对应16帧版本FID为42.32,远低于它们)。CLIP相似度上,LiVER达到了30.97,高于所有对比方法。
在控制精度方面,LiVER的摄像机轨迹误差(ATE=2.48,RPEt=0.71,RPEr=0.50)显著低于VideoFrom3D(ATE=17.55,RPEt=3.85,RPEr=3.12),也低于CameraCtrl(ATE=2.15,RPEt=1.39,RPEr=1.68)。光照误差方面,LiVER的SI-MSE为0.04,优于其他所有方法(均为0.05、0.06或0.07)。布局准确度上,LiVER的mIoU为0.87,高于VideoFrom3D的0.74和CameraCtrl的0.68。
研究团队还专门进行了用户调研,邀请了25名参与者对四种方法生成的视频进行主观评价,每人评价20组视频,分别在视频质量、场景控制、摄像机控制、光照控制四个维度上选出他们认为最好的方法。结果显示,LiVER在视频质量维度获得83.4%的偏好率,场景控制维度获得83.3%,摄像机控制维度获得72.1%,光照控制维度获得59.3%。相比之下,VideoFrom3D在摄像机控制和光照控制维度上表现相对较好(24.1%和29.0%),但仍远低于LiVER。
**九、消融实验:如果缺少某个关键步骤会怎样**
为了验证LiVER框架中每个关键设计的必要性,研究团队做了两组"如果去掉这个部分会怎样"的实验。
第一组实验验证的是合成数据集的重要性。研究团队训练了一个只用真实视频数据(LiVER-Real)的对照模型,不加入任何合成数据。结果发现,这个模型生成的视频光照效果几乎是平坦均匀的,无法重现动态变化的光源效果。这个结果说明,真实世界视频中的光照变化相对有限(大多数实景拍摄的光照条件相对稳定),而合成数据集中大幅旋转的光源提供了真实数据无法覆盖的光照多样性,对模型学会控制光照是必不可少的。
第二组实验验证的是三阶段训练策略的重要性。研究团队训练了一个从头开始、端到端训练所有模块的对照模型,没有经过分阶段的逐步引入。结果发现,这个模型生成的视频出现了严重的问题:视频几乎是静止的,物体几乎不动,场景控制能力也大幅下降。这个结果说明,同时学习"如何生成高质量视频"和"如何响应场景代理控制"这两件事,对于模型来说优化难度过高,很容易陷入局部最优。分阶段训练让模型能够先巩固视频生成能力,再逐步学习场景控制,从而避免了灾难性遗忘的问题。
**十、LiVER能做什么,真的有用吗**
除了比较性能数字,LiVER在实际应用中展示出了几个令人印象深刻的能力。
在光照控制方面,通过简单地旋转HDR环境贴图,可以生成一段光源方向持续变化的视频,比如太阳从场景左侧缓缓移动到右侧,随着光源方向的变化,金属表面的高光位置跟着移动,阴影方向也跟着转变,整个过程自然流畅,场景的几何形状和材质属性始终保持稳定不变。这种"光照变化、其余一切不动"的精确控制能力,在现有视频生成工具中是几乎做不到的。
在布局和摄像机控制方面,通过场景代理中包含的几何信息,LiVER能够比只依赖2D图像的对照方法更精确地控制场景中物体的相对位置,以及摄像机的运动轨迹。这对于需要特定摄影构图效果的应用场景(比如广告拍摄或电影分镜制作)尤其有价值。
在灵活编辑方面,LiVER设计了一个开放的工作流程:智能体自动生成的初始3D场景并不是一个固定不变的黑盒子,而是可以被用户导入到标准3D软件中进行二次编辑的。用户可以在Blender中添加或删除物体、调整光照方向和颜色、设计全新的摄像机运动轨迹,然后重新渲染出新的场景代理,再送给LiVER生成新的视频。这种"AI自动起草、人类精细调整"的混合工作流程,可以兼顾效率和创作自由度。
**说到底,LiVER意味着什么**
归根结底,LiVER做的事情是把影视特效工业中已经成熟使用了几十年的物理渲染技术,与最新的AI视频生成技术结合在了一起。物理渲染引擎负责保证光照的物理正确性,AI视频生成模型负责填充细节、提升画质、让生成内容看起来更加逼真自然。两者各司其职,互相补足。
这对于想要制作高质量视频内容的普通人来说,意味着什么呢?以前,要制作一段有精确光照控制的视频,你需要掌握Blender、Maya这样的专业3D软件,还要懂得如何设置材质、光源和渲染参数,学习曲线非常陡峭。有了LiVER这样的工具,用户只需要用自然语言描述你想要的场景和光照效果,系统会自动完成大部分繁琐的3D工作,最终给你一段物理上准确、视觉上精美的视频。
当然,这篇研究也坦诚地指出了当前的局限性:LiVER使用的3D场景重建比较粗略,场景中的精细几何细节和材质信息,仍然需要依赖AI根据文字描述来补充推断。这意味着最终视频的某些几何细节(比如复杂的建筑结构或精细的植物叶片)可能与用户期望不完全一致。研究团队表示,未来会通过改进场景重建的精度和优化文字提示的解读能力来进一步提升效果。
这项研究的完整细节可以通过arXiv编号2604.07966查阅,如果你对AI视频生成、计算机图形学或影视制作技术有进一步的好奇心,不妨去看看原始论文,里面有更多技术细节的数学推导和可视化比较结果。
---
Q&A
Q1:LiVER生成的视频和普通AI视频生成工具有什么本质区别?
A:普通AI视频生成工具主要靠学习大量视频数据来模仿真实世界的样子,对光照的处理是"猜测"而非"计算",所以经常出现光影不一致的问题。LiVER的根本区别在于它引入了物理渲染引擎,先用Blender按照真实光学规律计算出正确的光照效果,生成包含漫反射、粗糙GGX和光泽GGX三种光照图像的"场景代理",再把这些物理准确的信息作为引导输入AI视频生成模型。用户还能单独控制光照方向、物体布局和摄像机轨迹三个参数,而不会互相干扰。
Q2:LiVERSet数据集和普通视频数据集有什么不同?
A:普通视频数据集只有视频本身,没有附带物理标注。LiVERSet的特别之处在于它为每段视频都配备了完整的物理注释,包括场景几何(3D网格模型)、全局光照(HDR环境贴图)、摄像机位姿和文字描述。它由两部分组成:LiVER-Real是从真实视频中通过自动化流程提取这些标注的;LiVER-Syn是完全在计算机中合成的,包含了旋转光源等真实拍摄难以实现的动态光照场景。整个数据集共约11000段视频,分辨率720×1280,每段81帧。
Q3:LiVER的三阶段训练为什么不能直接一步到位?
A:如果同时训练所有模块,模型需要在"生成高质量视频"和"响应场景代理控制信号"这两个目标之间同时取得进展,这个优化难度太高,实验证明会导致视频几乎静止不动、场景控制能力严重退化。三阶段训练的逻辑是:第一阶段冻结视频生成模型,只训练新加入的场景代理编码器和适配器,让它们先学会"读懂"场景代理;第二阶段加入LoRA微调,让视频生成模型学会响应控制;第三阶段混入合成数据,扩展光照多样性。循序渐进地引入新能力,避免了灾难性遗忘问题。