UniDriveVLA:自动驾驶中统一理解、感知和动作规划
2026/4/29 10:25:18 网站建设 项目流程

26年4月来自华中科技、小米和澳门大学的论文“UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving”。

视觉-语言-动作(VLA)模型近年来在自动驾驶领域崭露头角,有望利用丰富的世界知识提升驾驶系统的认知能力。然而,将此类模型应用于驾驶任务目前面临着空间感知和语义推理之间的关键困境。因此,现有的VLA系统被迫做出次优妥协:直接采用二维视觉-语言模型会导致空间感知能力有限,而用三维空间表征增强它们又往往会损害VLA模型本身的推理能力。这种困境主要源于共享模型参数中空间感知和语义推理的耦合优化。为了克服这一难题,提出UniDriveVLA,一种基于Mixture-of-Transformer的统一驾驶VLA模型,它通过专家解耦来解决感知与推理之间的冲突。具体而言,它包含三个专家,分别负责驾驶理解、场景感知和动作规划,并通过掩码联合注意力机制进行协调。此外,结合稀疏感知范式和三-阶段渐进式训练策略,在保持语义推理能力的同时提升空间感知能力。


如图 1 所示用于自动驾驶的VLA范式比较:(a) 传统的2D VLA提供强大的语义推理能力,但空间感知能力有限;(b) 3D增强型VLA改善了空间感知能力,但可能会降低语义推理能力;© UniDriveVLA采用Transformer混合架构,将理解、感知和动作解耦,从而兼顾了两者。

UniDriveVLA 的方法概览如图 3 所示。单体 VLA 模型中感知与推理之间的冲突,是在共享参数下同时优化空间感知和语义推理会导致表征干扰。其引入基于混合 Transformer (MoT) 范式的 UniDriveVLA 架构,该架构将模型解耦为分别负责理解、感知和规划的专家。还有一种稀疏感知机制,该机制从二维 VLM 特征中提取空间先验,并在解耦框架内支持下游规划。最后提出一种三-阶段渐进式训练策略,该策略能够在不牺牲模型语义能力的前提下,实现感知和规划的稳定优化。

自动驾驶任务旨在根据多视角摄像头观测数据 I_cam、历史轨迹 I_hist 和导航指令 L_nav 预测一条安全的未来轨迹 T_traj:

T_traj = Φ( I_cam, I_hist, L_nav),

其中 T_traj = {(x_t, y_t)} 表示预测的未来轨迹。

为了提升空间感知能力,近期的 3D 增强型 VLA 模型进一步将空间表征 T_sp(例如结构化的 2D/3D 特征或空间标记)引入到同一个共享权重解码器中:

T_traj = Φ( I_cam, I_hist, L_nav, T_sp)

然而,尽管这些空间表征可以增强空间感知能力,但在共享参数下将它们与语义推理联合建模会引入异构特征之间的表征干扰。如图 2 所示,这种干扰导致感知和语义特征与深度越来越纠缠在一起,从而削弱 VLM 的固有推理能力,并最终降低下游驾驶性能。

UniDriveVLA 架构

为了解决单体 VLA 模型中感知与推理的冲突,UniDriveVLA 采用混合 Transformer (MoT) [51] 架构,将模型解耦为三个专门的专家,分别用于驾驶理解、场景感知和动作规划。架构并没有强制异构tokens共享单一参数空间,而是将它们分配到专家特定的路径,同时通过掩码联合注意机制来保持受控的跨专家交互。

给定多视图图像 I_cam、历史轨迹 I_hist 和导航指令 L_nav,UniDriveVLA 构建三组tokens。首先,视觉语言骨干网从视觉观察和驾驶指令中生成理解tokens T_und。其次,稀疏感知模块从视觉特征中提取感知tokens T_per 来编码空间先验信息。第三,动作编码器生成动作tokens T_act,用于面向规划的轨迹建模,其中动作输入是通过高斯噪声和目标速度序列之间的标准流匹配插值构建的。

在每个 MoT 层中,首先通过专家特定的投影处理三个token组。对于每个专家 g ∈ {und, per, act},查询(Q)、键(K)和值(V)的表示计算如下:

Qg= T_g Wg_Q, Kg=T_g Wg_K, Vg=T_g Wg_V.

这种专家特定的参数化在跨专家交互之前将理解、感知和行动解耦到单独的参数子空间中。

为了协调专家间的信息流,引入掩码联合注意机制。在专家特定的投影之后,所有专家的表示按照理解、感知和行动的顺序连接起来:

Q = [Qund; Qper; Qact], K = [Kund; Kper; Kact], V = [Vund; Vper; Vact],

注意是全局计算的,使用掩码矩阵 M 控制可见性模式。然后将得到的注意特征重新划分为三个专家组,

Z = [Zund; Zper; Zact],

其中 Zund、Zper和 Zact分别对应于理解专家、感知专家和动作专家的输出。

这里,理解tokens遵循因果掩码,不关注后续的感知或动作tokens,从而保留预训练视觉语言模型的语义推理能力。感知tokens关注先前的理解tokens以获取语义上下文,而动作tokens则聚合语义和空间信息以进行规划。经过注意机制处理后,每个专家组通过专家特定的输出投影、归一化和前馈变换进一步更新:

Hg=T_g + LNg_attn(ZgWg_O), Og= Hg+ LNg_ffn(FFNg(Hg)),

其中 g ∈ {und, per, act}。然后,将得到的专家特征在一个统一的框架内,针对理解、感知和动作建模进行联合优化。具体来说,理解分支支持自回归语言建模,感知分支由结构化感知任务监督,动作分支则使用基于流匹配的轨迹生成方法进行训练:

L_total = λ_1 L_ar + λ_2 L_per + λ_3 L_act

通过这种方式,UniDriveVLA 将理解、感知和规划统一在一个框架内,同时避免整体共享参数 VLA 模型的优化冲突。

稀疏空间感知

与近期将密集鸟瞰图(BEV)表征注入视觉-语言-动作模型的方法[96, 118]不同,UniDriveVLA直接从多尺度二维视觉特征构建稀疏空间感知。具体而言,投影的视觉特征作为统一的基于查询的感知模块的几何证据,该模块联合建模检测、在线地图构建、自我状态估计和运动预测,而不是将每个任务分配给孤立的预测头。特定任务的稀疏查询从数据集级K-均值聚类获得的实例库中初始化,然后通过时间交互、任务内推理、任务间通信、可变形特征聚合和任务级细化进行更新。通过这种方式,感知分支在一个统一的稀疏解码过程中捕获时间动态、特定任务结构和跨任务依赖关系。同时,将占用状态建模为一个辅助潜分支,使得感知专家能够涵盖异构但相互支持的输出,包括三维检测、地图预测、自我状态、运动和占用状态。

如图所示:掩码联合注意机制

为了在保留预训练视觉语言模型原生推理行为的同时,进一步用高级语义丰富稀疏感知,将第一遍感知输出投影到感知专家的隐空间,并通过掩蔽联合注意机制使其与理解和动作分支进行交互。具体而言,检测、地图、自我、运动和占用状态的tokens被提升到视觉-语言模型的隐空间,其中理解tokens保持因果掩码,而感知和动作tokens则选择性地聚合先前的语义和空间上下文。因此,感知tokens通过理解分支进行语义增强,并由动作分支进一步聚合以指导规划。提取出的特征随后被投影回稀疏感知空间,并由后续的感知解码器进一步细化,从而产生语义更丰富的感知输出,使其与下游规划更好地契合。这样,UniDriveVLA 中的稀疏感知并非仅仅是一个一次性的几何提取器,而是一个语义增强的感知模块,它与理解和动作分支协同工作以指导规划,同时提供可解释的感知输出。

三阶段渐进式训练

为了在逐步获取空间感知和规划能力的同时保持语义推理能力,为 UniDriveVLA 设计一种三阶段渐进式训练策略,该策略能够稳定优化过程并减轻灾难性遗忘。

第一阶段旨在通过大规模多模态预训练来巩固模型的语义推理能力。遵循既定范式 [47],并精心挑选驾驶相关的视觉问答数据集和通用领域的多模态数据。通过过滤低质量的驾驶对话并保持高质量通用数据的较高采样比例,保留了视觉语言模型的基础语义能力。

第二阶段旨在通过受控的联合优化将感知和规划监督融入模型。对自回归语言模型、空间感知任务(包括 3D 检测、在线地图构建和占用预测)以及基于流匹配的轨迹生成进行联合优化。为了在受控联合优化过程中保持语义推理能力,对视觉语言模型应用低秩自适应[27]。此外,将视觉语言模型参数的基础学习率降低一半,以抑制可能干扰语义推理的激进更新。

最后阶段旨在优化感知专家和动作专家,同时保持视觉语言模型的语义路径。冻结视觉-语言模型,然后微调感知专家和动作专家,并引入一个额外的运动预测目标。引入该目标是为了给动作专家提供动态先验信息,并支持运动感知规划。


实验设置

实现细节。框架基于Qwen3-VL[3],这是一个由SigLIP-2[93]视觉编码器、基于多层感知器(MLP)的视觉-语言融合器和Qwen3语言模型[4]组成的视觉-语言模型。所有输入的驾驶帧均被调整为 960 × 544 像素,以匹配 Qwen3-VL 视觉编码器的 32 倍空间下采样步长。在驾驶预训练的第一阶段,参照 ReCogDrive [47] 的方法,在驾驶专用数据和通用视觉语言数据的混合训练集上,以 4 × 10⁻⁵ 的学习率对基础 VLM 模型进行 3 个 epoch 的完全微调。训练混合数据集的驾驶数据与通用数据比例为 3:7,其中通用域数据主要来自 FineVision [101]。在第二阶段,用 AdamW [61] 对模型进行联合训练,共 30 个 epoch。基础学习率设置为 2 × 10⁻⁴,而 VLM 主干网络使用 0.5 倍的学习率乘数,从而得到有效学习率为 1 × 10⁻⁴。此外,还对语言模型应用 LoRA [27],并在训练过程中使用了 EMA。在最后阶段,冻结视觉-语言模型,并对感知和动作专家进行15个epoch的微调,同时启用运动预测目标。基础学习率设置为1 × 10⁻⁴,并在训练过程中保持EMA。

数据集。主要在两个广泛应用的自动驾驶基准数据集上评估框架:nuScenes [9] 和 Bench2Drive [38],分别用于开环和闭环评估。nuScenes 数据集包含在波士顿和用它来评估感知任务和开环规划。Bench2Drive 是一个基于 CARLA 模拟器的大规模、完全标注的基准数据集。它提供分辨率为900 × 1600的6视角摄像头输入,用于闭环驾驶评估。Bench2Drive 中的专家演示是使用 Think2Drive [37] 范式官方生成的。此外,我们还在 DriveBench [102] 上评估了面向驾驶的理解能力,并在几个通用的 VQA 基准测试中评估了更广泛的多模态能力,包括 MMStar [15]、MMMU [109]、RealWorldQA、AI2D、MME [21]、VLMsAreBlind [75] 和 ChartQA [71]。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询