“世界模型”泛滥,李飞飞说先分清三种再谈,渲染仿真规划三条路正在合一
2026/6/5 14:27:29 网站建设 项目流程

人人都说自己的是“世界模型”,AI教母李飞飞重新给出了定义。

世界模型,几乎成了AI领域最热闹也最混乱的一个词。

做视频生成的说自己是世界模型,搞机器人的说自己在建世界模型,研究强化学习的更早就把这个词用了几十年,大家各说各话,谁也说服不了谁。

李飞飞最近发了一篇长文,终于把这锅粥搅清楚了,她从功能出发,把世界模型拆成了三种,Renderer(渲染器)、Simulator(仿真器)、Planner(规划器),三个角色各管一摊,又共享同一套对世界的理解。

这篇文章就来把李飞飞的这套分类学讲明白。

世界模型的循环底座

搞清楚世界模型之前,得先回到一个比任何AI技术都古老的图。

强化学习的教科书里,几十年前就画过同一张图。

一个 Agent(智能体)在某个世界里行动,行动改变了世界的 State(状态),Agent 没法直接看到 State,只能收到 Observation(观测),新的 Observation 又催生新的行动,循环往复。

这个框架的正式名字叫部分可观测马尔可夫决策过程,POMDP。

先说清楚这里的 State。它跟化学家说的固液气不是一回事,是物理学家和机器人学家说的那种状态,某一时刻世界中正在发生的一切,每个物体的位置、速度、属性,统统包揽。

State 是世界的底层真实,原则上完整,但身处其中的 Agent 永远看不到全貌。Observation 只是 Agent 对真实的一瞥,行动是 Agent 做出的回应。

这个循环,从 Agent 到行动,到 State,到 Observation,再回到 Agent,正是世界模型这个现代术语的技术根基。

词本身更老,可以追溯到 Kenneth Craik 1943年的提议,大脑通过运行现实的小尺度模型来推理。

到了1980年代末和1990年代初,这个概念被引入神经网络研究。

这个循环也解释了今天人们嘴里的世界模型到底在说什么,各种被叫作世界模型的东西,其实是同一条循环链上的不同投影,各自输出不同的片段。

语言模型让机器掌握了概念、词汇和推理能力,可物理世界,不管是虚拟的还是真实的,运行在另一套基底上。

语言模型学的是文本的统计结构,世界模型学的是空间和时间的统计结构,光如何落在表面上,一个花园从没被相机拍过的角度长什么样,物体受力后如何响应并遵循物理定律。

正因为如此,世界模型成了AI领域最重要的术语之一,同时也是最被滥用的。

计算机视觉、机器人学、强化学习、生成式AI,各自声称在建世界模型,各自的意思却大相径庭。

一个能生成绚丽画面但物理上不可能的视频模型,一个能即兴生成可玩游戏的语言模型,一个忠实模拟燃烧过程的物理引擎,都顶着同一个名字。

古希腊人从来没就世界由什么构成达成共识,火、水还是不可分原子,因为世界从来不是一个单一的东西,它一直是某个思想家需要推理的那个总体的代名词。AI继承了同样的问题,而且恰恰出现在最需要精确性的时刻。

三种世界模型,三种输出

李飞飞把世界模型分成了三种功能类型,分类依据很简单,每种模型输出的东西不一样。

Renderer 输出 Observation,具体来说就是给人眼看的像素,最重要的品质是视觉保真度。

一个把文字提示变成电影级航拍镜头的视频模型,就是 Renderer。Google 的 Genie 3、World Labs 自己的 RTFM 也是,模型根据用户输入实时生成画面。

这类模型没有对三维结构的显式理解,它产出的是观看者会看到的东西,而不是世界本来的样子。航拍镜头里那些建筑从上方看完美无瑕,试着钻进城市街道穿行,它们就塌了。

Simulator 输出 State,一种在几何、物理和动力学上忠实的世界表示,人和计算机程序都能在上面做计算、做交互。

Renderer 的契约纯粹是视觉层面的,Simulator 的契约是结构层面的,它要求经得起检验的几何、遵循牛顿定律的物理、符合物理规律的行为动力学。

Simulator 同时服务两类消费者。人类专业人士,建筑师、设计师、电影人、游戏开发者,需要超越视觉可信度的精确性。计算机程序,强化学习 Agent、机器人控制器、自动驾驶系统,把 Simulator 当作训练场,在里面大规模地与世界交互,测试那些在现实中危险、昂贵或根本不可能运行的场景。

Planner 输出行动。给定一个 Observation 和一个目标,Planner 回答 Agent 下一步该干什么。

从某种角度看,这恰好是 Renderer 的逆操作,Renderer 以行动为输入、产出 Observation,Planner 以 Observation 为输入、产出行动,闭合了感知行动的循环。

Vision-Language-Action(视觉语言行动)模型、基于模型的系统、新一波世界行动模型,都是 Planner 的尝试,决定机器人在非结构化世界中该做什么的系统。

这三个类别基本覆盖了目前真正在出货的东西,它们之间的区分在实践中很有用。不过它们并非根本性的割裂。

同一套对世界的底层理解,几何、物理、动力学,托着三者。

一个能从任何角度渲染杯子的模型,原则上也应该能模拟杯子被推倒后会发生什么,能规划一只手去抓杯子。

越来越多有意思的研究,正在刻意模糊三者的边界。

仿真才是关键

三个类别里,Simulator 受到的公众关注最少,却是最关键的那一个。李飞飞在文章中专门用了最大的篇幅来纠正这个失衡。

Renderer 的商业化程度遥遥领先。一批文生视频和图生视频产品正在消费市场和企业市场快速扩张。

Google 的 Nano Banana 模型把 Renderer 级别的图像生成送到了数亿用户手中,技术是真的,市场也是真的。

可 Renderer 优化的是视觉可信度而非物理准确性,这个天花板很要命。输出很美,但没法拿来设计建筑,也没法训练机器人。

Planner 最有想象力,也最稚嫩,与机器人学习这个飞速演进的领域紧密相连。

过去两年,这个领域产出了不少看起来很酷的机器人演示视频,但得坦诚面对这些演示到底展示了什么,几乎全部局限于高度受限的实验室环境,物体种类少,任务时间短,没有哪一个在真实部署所需的复杂性、可变性和持续时间上得到过验证。

一段吸引人的演示视频,和一个能在厨房、仓库、手术室里可靠工作的机器人之间,差距仍然巨大。

商业赌注倒是不小,一批资金充裕的玩家在竞速交付通用规划系统,最大的基础设施玩家则把规划层架在更广的仿真栈之上。

能规划的机器人就是能干活的机器人,整个行业都在抢着成为第一个跑通的那一家。

Simulator 是两者之间的桥梁。语言是对世界的抽象,像素是世界的投影,几何、物理和动力学就是世界本身。Simulator 必须在这个层面运作,结构性的脊梁,视觉外观和行动后果都从这根脊梁上长出来。

一个掌握了仿真的模型,能把理解投射成像素给人看,投射成行动预测给具身 Agent 用。只掌握渲染或者只掌握规划的模型,做不到。

商业面积也很可观,NVIDIA 的 Omniverse 一个产品就瞄准了公司估计超过1万亿美元的可触达市场,工厂、仓库、供应链、Digital Twin(数字孪生)。

机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现,全都依赖某种仿真形态的东西。

最难的开放问题也在那。带显式几何、材质属性和物理标注的三维数据,比 Renderer 训练用的互联网视频少了好几个数量级。

Sim-to-Real Gap(仿真到现实的差距),仿真中的行为和真实行为的偏差,一直存在。生成式 Simulator 还引入了新的风险,AI 生成的几何体可能看起来正确,内部却包含自相交或错误尺度,导致物理计算荒腔走板。大规模多物理场仿真,刚体、可变形物体、流体和布料同时交互,比单域仿真贵了好几个数量级。

World Labs 的 Marble 是团队进入这片领地的第一步。

它接收多模态提示,文本、图像、视频或空间草图,生成可探索的3D环境,输出 Gaussian Splat(高斯泼溅)供视觉探索,同时输出碰撞网格供物理引擎操作。

Marble 只是一个更长故事的第一章,随着渲染、仿真和规划之间的界限开始瓦解,整个领域都在书写这个故事的后续。

边界正在消融

更重要的趋势正在浮现,三个类别正在互相融合。

核心洞察在于,渲染一个世界、仿真一个世界、在一个世界中行动,所需的知识大体相同。

一个真正理解杯子如何摆在桌面上的模型,它的几何、材质属性、对力的响应,应该能从任何角度渲染这个杯子,能模拟杯子被推倒后的结果,能规划一只手去抓起杯子。三个类别是同一种底层理解的三个投影。

一些机器人实验室最近的工作已经证明,至少在概念上,预训练的视频 Renderer 可以当作联合世界预测和行动预测的骨干,暗示了 Renderer 和 Planner 之间的桥梁,让同一个模型既想象会发生什么,又决定该做什么。

World Labs 的 Marble 已经能从同一个模型同时输出 Gaussian Splat 和碰撞网格,消融了 Renderer 和 Simulator 之间的边界。

每一个层面都在从被动输出走向交互系统。Renderer 变成了受行动条件控制的,Simulator 生成的世界更可控、更可编辑,Planner 在审慎思考而不是单纯反应。

逻辑上的终点是一个统一世界模型,一个基础模型,能渲染照片级真实视图,能生成物理上准确的结构,能规划行动序列,根据下游消费者的需要在输出模态之间切换。

前方仍有令人生畏的挑战。数据格局不均匀,Renderer 泡在互联网视频里,Simulator 和 Planner 却面临3D资产和机器人演示数据的严重短缺。

优化视觉美感可能牺牲机器人或高保真仿真需要的精度。在单一架构内调和这些张力,是当今世界模型研究的决定性开放问题,World Labs 在持续迭代 Marble 的同时正试图解决它。

方向是清晰的。从1980年代末开始,这个领域就一直在下同一注,一个足够丰富的世界模型,就是任何 Agent 看见世界、建造世界、在世界中行动所需的一切。

今天,这一代人正在用同样的赌注驱动整个研究浪潮。让这注大赌有分量的是已经在发生的收敛,三条线索,每一条都已经在各自驱动和塑造数十亿美元的产业,曾经各自为政的研究方向,开始表现得像同一个东西。

三者边界瓦解合流,将重塑一个更大的东西,机器智能与它所栖居的物理世界之间的关系,空间智能的长弧。

语言给了机器谈论世界的方式。世界模型将让机器最终理解世界、想象世界、推理世界、与世界交互。

统一世界模型还远吗,你觉得呢?

参考资料:

https://x.com/drfeifei/status/2062247238143996275

https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询