人工智能顶会AAAI 2026论文分享|如何打造灵活自适应的4D自动驾驶世界模型?请看此文
2026/7/3 5:15:45 网站建设 项目流程

本推文介绍了人工智能领域顶级会议AAAI 2026的一篇论文《SparseWorld: A Flexible, Adaptive, and Efficient 4D Occupancy World Model Powered by Sparse and Dynamic Queries》。该论文提出了一种基于稀疏动态查询的4D占用世界模型SparseWorld,旨在解决现有自动驾驶世界模型依赖静态网格表示、感知范围固定、与动态连续场景不匹配且计算效率低下的核心问题。SparseWorld通过范围自适应感知模块根据自车状态动态调整感知范围,采用回归引导的状态条件预测范式替代传统的逐体素分类,实现了连续连贯的4D场景演化建模。为解决多阶段模型训练收敛困难的问题,论文还提出了时间感知自调度训练策略,大幅提升了训练效率与稳定性。实验验证表明,SparseWorld在Occ3d-nuScenes基准数据集上的4D占用预测与轨迹规划性能均显著领先,预测mIoU较前沿方法提升20%-40%,推理速度提升约7倍,同时将规划碰撞率降低一半,展现出在真实自动驾驶场景中强大的实用性与部署潜力。该研究不仅开创了稀疏动态查询在4D世界模型中的应用范式,也为构建高效、灵活、可扩展的自动驾驶感知决策系统提供了全新的技术路径。

原文链接:

https://arxiv.org/abs/2510.17482

代码链接:

https://github.com/MSunDYY/SparseWorld

本推文由龚裕涛撰写,审核为王一鸣和黄忠祥

会议介绍

AAAI会议(AAAI Conference on Artificial Intelligence)是由国际人工智能促进协会主办的国际顶级学术会议,是人工智能领域中历史最悠久、涵盖内容最广泛的会议之一,每年举办一届,被中国计算机学会(CCF)评为A类会议。AAAI会议汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名。AAAI会议系列的宗旨是促进人工智能领域的研究,促进研究人员、从业者、科学家、学生和工程师之间跨越整个人工智能及其相关学科的科学交流。

一、研究背景和主要贡献

随着视觉端到端自动驾驶技术的快速发展,基于语义占用的世界模型因其能捕捉丰富的空间语义信息,已成为自动驾驶感知决策系统的核心组件。然而如图1,现有占用世界模型存在三大根本性局限:一是早期解耦设计将感知与预测分离,导致梯度流断裂和细粒度信息丢失;二是主流网格特征方法采用静态“就地分类”操作,与真实场景的动态连续本质不匹配,引发时间不一致性和累积误差;三是所有方法均依赖手动预设的固定感知范围,无法根据自车速度自适应调整,且稠密网格计算带来巨大的内存与算力开销,难以满足实时部署需求。因此,亟需一种能够突破静态网格限制、实现自适应感知与连续动态建模的高效4D世界模型框架。

图1:(a)感知-预测解耦方法;(b)基于网格特征的方法;(c)本文采用动态查询表征,可实现连续且连贯的四维场景预测与规划。

论文主要贡献:
(1)提出基于稀疏动态查询的4D占用世界模型统一框架

论文创新性地提出了一个名为SparseWorld的全稀疏4D占用世界模型,首次将稀疏动态查询作为4D场景的核心表示形式,替代传统的静态稠密网格。该框架实现了感知-预测-规划的端到端统一,通过“感知-预测”范式自适应构建扩展范围的占用查询,从根本上解决了静态网格与动态场景不匹配的问题,同时大幅降低了计算与存储成本。

(2)设计范围自适应感知模块实现动态感知范围调整

提出了一种由自车状态引导的范围自适应感知(Range-Adaptive Perception,RAP)模块。该模块通过自适应缩放子模块编码自车历史轨迹,动态调整查询的初始空间分布,实现了“速度越快、感知范围越远”的自适应感知能力。同时,构建了包含时空多头自注意力的堆叠解码器,分层融合多帧多视图图像特征,输出扩展范围的场景查询与位置信息。

(3)提出状态条件连续预测范式实现精准动态建模

设计了状态条件预测(State-Conditioned Forecasting,SCF)模块,首次将4D占用预测任务从传统的逐体素分类重构为回归任务。该模块通过自车查询与场景查询的空间交叉注意力机制,建模自车运动与场景动态的交互关系,实现了连续连贯的4D场景演化预测,有效避免了网格方法常见的特征畸变与累积误差。

(4)提出时间感知自调度训练策略保障高效稳定训练

针对多阶段多输出模型训练收敛困难的问题,提出了一种新颖的时间感知自调度(Temporal-Aware Self-Scheduling)训练策略。该策略通过预训练阶段学习查询的3D位置,再基于统计矩阵自动分配查询时间戳,实现了模型的自主学习与高效收敛,相比手动分配时间戳的方法训练时间缩短近一半。

二、研究方法

2.1框架概览

如图2所示,SparseWorld是一个专为自动驾驶动态场景设计的全稀疏4D占用世界模型,其核心创新在于采用稀疏动态查询作为场景的统一表示,实现了灵活自适应的感知与连续精准的预测。该框架采用端到端结构,主要由四个核心组件组成:首先,通用图像骨干网络提取多帧多视图的多尺度视觉特征;随后,范围自适应感知模块根据自车历史轨迹动态调整查询分布,通过堆叠解码器融合时空特征,输出扩展范围的当前场景查询;接着,状态条件预测模块以自车状态为条件,通过回归引导的方式预测未来时刻的场景查询演化;最后,并行解码头分别输出4D占用预测结果与自车轨迹规划结果。整个框架通过统一的稀疏查询表示,在提升模型性能的同时,实现了极高的计算效率与部署灵活性。

图2 SparseWorld框架概览

2.2范围自适应感知模块

如图3,该模块旨在解决传统模型感知范围固定、无法适应自车动态变化的问题。模块的输入为可学习的查询嵌入与对应的4D坐标。首先,自适应缩放子模块编码自车历史轨迹,生成三个维度的缩放因子,动态调整查询的初始空间分布,实现“速度越快、感知范围越远”的自适应感知能力。随后,查询通过堆叠的解码器层进行特征提取与更新:每个查询首先从多视图多尺度特征图中采样语义信息并进行自适应混合,然后通过时空多头自注意力建模查询间的语义相似性、空间邻近性与时间因果关系。解码器层采用由粗到精的设计,逐层增加输出点数量并更新查询位置,最终输出当前时刻扩展范围的场景查询与3D位置。

图3自适应感知模块示意图

2.3状态条件连续预测模块

如图4,该模块是实现连续动态场景建模的核心。与传统网格方法采用逐体素分类预测不同,SparseWorld将预测任务重构为查询位置的回归任务。首先,将扩展范围的场景查询按时间戳划分为当前与未来多个时刻的查询集合。在每个时间步,自车查询通过空间交叉注意力与当前时刻的场景查询进行交互,生成下一时刻的自车状态查询。同时,场景查询通过动态偏移回归与空间精修,预测下一时刻的场景演化。该设计充分利用了查询的连续性与动态性,使模型能够准确捕捉自车运动与场景动态的相互影响,实现了平滑连贯的4D场景预测,有效避免了网格方法的累积误差问题。

图4状态条件连续预测模块示意图

2.4时间感知自调度训练策略

针对多阶段多输出模型训练收敛困难、手动分配时间戳效率低下的问题,论文提出了时间感知自调度训练策略。该策略分为两个阶段:第一阶段为预训练阶段,暂时移除时间掩码,不明确分配查询时间戳,通过Chamfer距离与焦点损失监督查询学习3D位置与语义信息;第二阶段,基于预训练过程中统计得到的查询-时间戳对应矩阵,采用最大比例优先分配算法自动为每个查询分配时间戳,随后进行端到端训练。在训练过程中,统计矩阵与查询时间戳会动态更新,确保模型能够自主学习最优的时间分布。该策略不仅解决了训练收敛冲突的问题,还将训练时间从22小时缩短至12小时,大幅提升了训练效率。

三、实验结果

3.1实验设置

(1)数据集

该论文采用广泛使用的Occ3d-nuScenes基准数据集进行综合性能评估。该数据集基于nuScenes数据集构建,包含700个训练场景和150个验证场景,每个场景持续20秒,每0.5秒提供一次标注。数据集提供了分辨率为200×200×16的稠密3D占用标注,覆盖17个语义类别与1个自由类别,每个体素大小为0.4m×0.4m×0.4m,包含丰富的城市交通场景与动态交通参与者,是评估4D占用世界模型性能的权威基准。

实验设计上,论文以当前及过去2秒的视频帧为输入,预测未来3秒的4D语义占用与自车轨迹,全面评估模型的感知、预测与规划能力。

(2)评价指标

该论文的任务分为4D占用预测与轨迹规划两类,分别采用不同的核心评价指标

(a)4D占用预测指标

mIoU:计算所有17个语义类别的交并比均值,反映模型对不同类别物体的整体预测精度。

IoU:仅计算前景与背景的交并比,反映模型对整体场景的分割能力。

FPS:每秒处理帧数,衡量模型的推理速度与实时性。

(b)轨迹规划指标

L2误差:计算预测轨迹与真实轨迹的平均点对点欧氏距离,反映轨迹的整体精度。

碰撞率:预测轨迹与障碍物发生碰撞的比例,衡量规划轨迹的安全性。

3.2对比实验

如表1所示,在Occ3d-nuScenes数据集的4D占用预测任务中,SparseWorld取得了全面领先的性能。在未来3秒的平均mIoU上达到13.20%,较前沿方法PreWorld提升了45.7%;在1秒、2秒、3秒的mIoU上分别达到14.93%、13.15%、11.51%,展现出最小的预测性能衰减。同时,SparseWorld的推理速度达到8.0 FPS,是PreWorld的8倍,充分体现了稀疏表示的计算效率优势。

表1在Occ3D-nuScenes数据集上的四维占据预测性能

如表2所示,在轨迹规划任务中,SparseWorld同样表现出色。在使用自车状态的情况下,未来3秒的平均L2误差仅为0.27米,平均碰撞率低至0.29%,碰撞率仅为PreWorld的一半左右。即使不使用自车状态,SparseWorld的性能仍优于多数对比方法,证明了其强大的场景建模能力。

表2在Occ3D-nuScenes数据集上的运动规划性能

如图5,通过可视化对比可以直观看到,依赖静态网格的PreWorld在长时预测中出现严重的特征畸变与物体消失问题,而SparseWorld生成的预测结果与真实场景高度一致,能够准确保留前景物体的形状与位置,有效避免了累积误差。

图5当前时刻及未来3秒的真实值与预测结果可视化图

3.3消融实验

如表3针对SparseWorld的核心模块开展消融实验,评估各模块对平均mIoU与平均IoU的影响。结果显示,移除状态条件模块时性能损失最为显著,mIoU下降0.51,凸显了自车运动状态对场景预测的关键作用;移除自适应缩放模块导致mIoU下降0.37,验证了动态感知范围的重要性;移除时间掩码与4D位置编码也分别导致0.3与0.24的mIoU下降,证明了时空建模的必要性。

表3模型核心模块的消融实验

如表4进一步的消融实验表明,引入空间调制的交叉注意力相比普通交叉注意力,能够显著提升规划性能,尤其是在没有自车状态输入的情况下,L2误差从1.25米降低至1.01米,碰撞率从0.77%降低至0.65%。

表4自车状态与空间交叉注意力的消融实验

如表5对比不同训练策略的效果,时间感知自调度策略在取得最高性能(mIoU 11.82)的同时,训练时间仅为12小时,远少于手动分配时间戳的22小时,且避免了无时间区分训练导致的性能大幅下降,mIoU仅10.95,充分证明了该训练策略的高效性与有效性。

表5不同训练策略的消融实验结果

四、总结

该论文针对现有自动驾驶4D占用世界模型依赖静态网格表示、感知范围固定、与动态场景不匹配且计算效率低下的核心挑战,提出了一种新颖的基于稀疏动态查询的全稀疏4D世界模型SparseWorld。论文的核心创新在于将稀疏动态查询作为4D场景的统一表示,通过范围自适应感知实现了与自车速度匹配的动态感知范围,通过回归引导的状态条件预测实现了连续连贯的场景演化建模,并通过时间感知自调度训练策略保障了模型的高效稳定训练。大量实验表明,SparseWorld在Occ3d-nuScenes数据集上的预测与规划性能均显著领先,同时实现了约7倍的推理速度提升与一半的碰撞率降低。该框架不仅开创了稀疏动态查询在4D世界模型中的应用范式,也为构建高效、灵活、可信赖的自动驾驶系统提供了坚实的技术基础。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询