“世界模型”泛滥，李飞飞说先分清三种再谈，渲染仿真规划三条路正在合一-酒店常州论坛

人人都说自己的是“世界模型”，AI教母李飞飞重新给出了定义。

世界模型，几乎成了AI领域最热闹也最混乱的一个词。

做视频生成的说自己是世界模型，搞机器人的说自己在建世界模型，研究强化学习的更早就把这个词用了几十年，大家各说各话，谁也说服不了谁。

李飞飞最近发了一篇长文，终于把这锅粥搅清楚了，她从功能出发，把世界模型拆成了三种，Renderer（渲染器）、Simulator（仿真器）、Planner（规划器），三个角色各管一摊，又共享同一套对世界的理解。

这篇文章就来把李飞飞的这套分类学讲明白。

世界模型的循环底座

搞清楚世界模型之前，得先回到一个比任何AI技术都古老的图。

强化学习的教科书里，几十年前就画过同一张图。

一个 Agent（智能体）在某个世界里行动，行动改变了世界的 State（状态），Agent 没法直接看到 State，只能收到 Observation（观测），新的 Observation 又催生新的行动，循环往复。

这个框架的正式名字叫部分可观测马尔可夫决策过程，POMDP。

先说清楚这里的 State。它跟化学家说的固液气不是一回事，是物理学家和机器人学家说的那种状态，某一时刻世界中正在发生的一切，每个物体的位置、速度、属性，统统包揽。

State 是世界的底层真实，原则上完整，但身处其中的 Agent 永远看不到全貌。Observation 只是 Agent 对真实的一瞥，行动是 Agent 做出的回应。

这个循环，从 Agent 到行动，到 State，到 Observation，再回到 Agent，正是世界模型这个现代术语的技术根基。

词本身更老，可以追溯到 Kenneth Craik 1943年的提议，大脑通过运行现实的小尺度模型来推理。

到了1980年代末和1990年代初，这个概念被引入神经网络研究。

这个循环也解释了今天人们嘴里的世界模型到底在说什么，各种被叫作世界模型的东西，其实是同一条循环链上的不同投影，各自输出不同的片段。

语言模型让机器掌握了概念、词汇和推理能力，可物理世界，不管是虚拟的还是真实的，运行在另一套基底上。

语言模型学的是文本的统计结构，世界模型学的是空间和时间的统计结构，光如何落在表面上，一个花园从没被相机拍过的角度长什么样，物体受力后如何响应并遵循物理定律。

正因为如此，世界模型成了AI领域最重要的术语之一，同时也是最被滥用的。

计算机视觉、机器人学、强化学习、生成式AI，各自声称在建世界模型，各自的意思却大相径庭。

一个能生成绚丽画面但物理上不可能的视频模型，一个能即兴生成可玩游戏的语言模型，一个忠实模拟燃烧过程的物理引擎，都顶着同一个名字。

古希腊人从来没就世界由什么构成达成共识，火、水还是不可分原子，因为世界从来不是一个单一的东西，它一直是某个思想家需要推理的那个总体的代名词。AI继承了同样的问题，而且恰恰出现在最需要精确性的时刻。

三种世界模型，三种输出

李飞飞把世界模型分成了三种功能类型，分类依据很简单，每种模型输出的东西不一样。

Renderer 输出 Observation，具体来说就是给人眼看的像素，最重要的品质是视觉保真度。

一个把文字提示变成电影级航拍镜头的视频模型，就是 Renderer。Google 的 Genie 3、World Labs 自己的 RTFM 也是，模型根据用户输入实时生成画面。

这类模型没有对三维结构的显式理解，它产出的是观看者会看到的东西，而不是世界本来的样子。航拍镜头里那些建筑从上方看完美无瑕，试着钻进城市街道穿行，它们就塌了。

Simulator 输出 State，一种在几何、物理和动力学上忠实的世界表示，人和计算机程序都能在上面做计算、做交互。

Renderer 的契约纯粹是视觉层面的，Simulator 的契约是结构层面的，它要求经得起检验的几何、遵循牛顿定律的物理、符合物理规律的行为动力学。

Simulator 同时服务两类消费者。人类专业人士，建筑师、设计师、电影人、游戏开发者，需要超越视觉可信度的精确性。计算机程序，强化学习 Agent、机器人控制器、自动驾驶系统，把 Simulator 当作训练场，在里面大规模地与世界交互，测试那些在现实中危险、昂贵或根本不可能运行的场景。

Planner 输出行动。给定一个 Observation 和一个目标，Planner 回答 Agent 下一步该干什么。

从某种角度看，这恰好是 Renderer 的逆操作，Renderer 以行动为输入、产出 Observation，Planner 以 Observation 为输入、产出行动，闭合了感知行动的循环。

Vision-Language-Action（视觉语言行动）模型、基于模型的系统、新一波世界行动模型，都是 Planner 的尝试，决定机器人在非结构化世界中该做什么的系统。

这三个类别基本覆盖了目前真正在出货的东西，它们之间的区分在实践中很有用。不过它们并非根本性的割裂。

同一套对世界的底层理解，几何、物理、动力学，托着三者。

一个能从任何角度渲染杯子的模型，原则上也应该能模拟杯子被推倒后会发生什么，能规划一只手去抓杯子。

越来越多有意思的研究，正在刻意模糊三者的边界。

仿真才是关键

三个类别里，Simulator 受到的公众关注最少，却是最关键的那一个。李飞飞在文章中专门用了最大的篇幅来纠正这个失衡。

Renderer 的商业化程度遥遥领先。一批文生视频和图生视频产品正在消费市场和企业市场快速扩张。

Google 的 Nano Banana 模型把 Renderer 级别的图像生成送到了数亿用户手中，技术是真的，市场也是真的。

可 Renderer 优化的是视觉可信度而非物理准确性，这个天花板很要命。输出很美，但没法拿来设计建筑，也没法训练机器人。

Planner 最有想象力，也最稚嫩，与机器人学习这个飞速演进的领域紧密相连。

过去两年，这个领域产出了不少看起来很酷的机器人演示视频，但得坦诚面对这些演示到底展示了什么，几乎全部局限于高度受限的实验室环境，物体种类少，任务时间短，没有哪一个在真实部署所需的复杂性、可变性和持续时间上得到过验证。

一段吸引人的演示视频，和一个能在厨房、仓库、手术室里可靠工作的机器人之间，差距仍然巨大。

商业赌注倒是不小，一批资金充裕的玩家在竞速交付通用规划系统，最大的基础设施玩家则把规划层架在更广的仿真栈之上。

能规划的机器人就是能干活的机器人，整个行业都在抢着成为第一个跑通的那一家。

Simulator 是两者之间的桥梁。语言是对世界的抽象，像素是世界的投影，几何、物理和动力学就是世界本身。Simulator 必须在这个层面运作，结构性的脊梁，视觉外观和行动后果都从这根脊梁上长出来。

一个掌握了仿真的模型，能把理解投射成像素给人看，投射成行动预测给具身 Agent 用。只掌握渲染或者只掌握规划的模型，做不到。

商业面积也很可观，NVIDIA 的 Omniverse 一个产品就瞄准了公司估计超过1万亿美元的可触达市场，工厂、仓库、供应链、Digital Twin（数字孪生）。

机器人训练、自动驾驶测试、建筑可视化、工程设计、药物发现，全都依赖某种仿真形态的东西。

最难的开放问题也在那。带显式几何、材质属性和物理标注的三维数据，比 Renderer 训练用的互联网视频少了好几个数量级。

Sim-to-Real Gap（仿真到现实的差距），仿真中的行为和真实行为的偏差，一直存在。生成式 Simulator 还引入了新的风险，AI 生成的几何体可能看起来正确，内部却包含自相交或错误尺度，导致物理计算荒腔走板。大规模多物理场仿真，刚体、可变形物体、流体和布料同时交互，比单域仿真贵了好几个数量级。

World Labs 的 Marble 是团队进入这片领地的第一步。

它接收多模态提示，文本、图像、视频或空间草图，生成可探索的3D环境，输出 Gaussian Splat（高斯泼溅）供视觉探索，同时输出碰撞网格供物理引擎操作。

Marble 只是一个更长故事的第一章，随着渲染、仿真和规划之间的界限开始瓦解，整个领域都在书写这个故事的后续。

边界正在消融

更重要的趋势正在浮现，三个类别正在互相融合。

核心洞察在于，渲染一个世界、仿真一个世界、在一个世界中行动，所需的知识大体相同。

一个真正理解杯子如何摆在桌面上的模型，它的几何、材质属性、对力的响应，应该能从任何角度渲染这个杯子，能模拟杯子被推倒后的结果，能规划一只手去抓起杯子。三个类别是同一种底层理解的三个投影。

一些机器人实验室最近的工作已经证明，至少在概念上，预训练的视频 Renderer 可以当作联合世界预测和行动预测的骨干，暗示了 Renderer 和 Planner 之间的桥梁，让同一个模型既想象会发生什么，又决定该做什么。

World Labs 的 Marble 已经能从同一个模型同时输出 Gaussian Splat 和碰撞网格，消融了 Renderer 和 Simulator 之间的边界。

每一个层面都在从被动输出走向交互系统。Renderer 变成了受行动条件控制的，Simulator 生成的世界更可控、更可编辑，Planner 在审慎思考而不是单纯反应。

逻辑上的终点是一个统一世界模型，一个基础模型，能渲染照片级真实视图，能生成物理上准确的结构，能规划行动序列，根据下游消费者的需要在输出模态之间切换。

前方仍有令人生畏的挑战。数据格局不均匀，Renderer 泡在互联网视频里，Simulator 和 Planner 却面临3D资产和机器人演示数据的严重短缺。

优化视觉美感可能牺牲机器人或高保真仿真需要的精度。在单一架构内调和这些张力，是当今世界模型研究的决定性开放问题，World Labs 在持续迭代 Marble 的同时正试图解决它。

方向是清晰的。从1980年代末开始，这个领域就一直在下同一注，一个足够丰富的世界模型，就是任何 Agent 看见世界、建造世界、在世界中行动所需的一切。

今天，这一代人正在用同样的赌注驱动整个研究浪潮。让这注大赌有分量的是已经在发生的收敛，三条线索，每一条都已经在各自驱动和塑造数十亿美元的产业，曾经各自为政的研究方向，开始表现得像同一个东西。

三者边界瓦解合流，将重塑一个更大的东西，机器智能与它所栖居的物理世界之间的关系，空间智能的长弧。

语言给了机器谈论世界的方式。世界模型将让机器最终理解世界、想象世界、推理世界、与世界交互。

统一世界模型还远吗，你觉得呢？

参考资料：

https://x.com/drfeifei/status/2062247238143996275

https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

企业官网建设流程全解析

世界模型的循环底座

三种世界模型，三种输出

仿真才是关键

边界正在消融

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

世界模型的循环底座

三种世界模型，三种输出

仿真才是关键

边界正在消融

热门文章

文章分类

标签云

相关文章

3d视觉——深度图像转换为点云（相机原理、坐标转换关系、python\cpp）

Lazarus跨平台GUI开发实战：编码、布局与事件处理的避坑指南

数字后端物理设计面试核心：STA、CTS、低功耗与ECO实战解析

需要专业的网站建设服务？