在 2026 年 ICLR(国际学习表征会议)的舞台上,斯坦福大学李飞飞团队与西北大学李曼玲玲团队联手,针对具身智能长期困局 ——空间认知薄弱、数据效率低下、人机交互脱节,发布六项重磅研究,从基准构建、数据生成、推理优化三大维度形成闭环。当我们拆解技术表象,会发现每一项突破背后,都悬而未决着关乎智能本质的深层追问:我们为模型构建的 “空间信念”,究竟是在模拟人类的认知逻辑,还是在拟合训练数据的分布?所谓的 “世界模型”,捕捉的是物理世界的底层规律,还是海量数据中的统计惯性?当多模态模型声称 “理解” 了空间,它是真的看见了三维世界,还是在用语言的先验知识反哺、甚至扭曲视觉信息?今天,我们以空间为核心线索,循着问题驱动的认知路径,深度拆解这篇 ICLR 2026 的核心论文《Theory of Space》。
第一阶 元问题追问:我们到底在讨论「空间」的什么本质?
核心问题:为什么被动的空间推理,永远无法替代主动的空间认知?
在展开理论之前,我们必须先锚定「空间」的 3 个不可回避的本质属性 —— 这也是整篇论文的立论根基,所有的框架、方法、发现由此生发:
空间的本质是「部分可观测」的:真实物理空间中,没有任何智能体可以一次性获得全局完整观测,墙后、门外、视野盲区的空间结构永远是隐状态,你必须通过行动才能让不可见变为可见。
空间的认知是「具身依赖」的:认知科学经典的「主动 - 被动空间学习实验」(Held & Hein, 1963)早已证明:哪怕接收完全相同的视觉信息,主动移动的个体对空间的理解,远优于被动接收信息的个体 —— 空间认知不是对画面的处理,而是对「行动 - 观测」因果链的建模。
空间的表征是「信念驱动」的:你对空间的所有判断,都基于你脑海中那张看不见的「认知地图」,而非眼前的瞬时画面。你能闭着眼睛从客厅走到卧室,不是因为你看到了路,而是因为你相信空间的结构是稳定的、可预测的。
基于这三个本质,论文抛出了整个工作的元问题:
当前的多模态基础模型,已经在被动空间推理任务上表现出色,但它们能否在部分可观测的环境中,通过自主的、目标驱动的探索,构建、维护、修正并利用一套连贯的内部空间信念?
这个问题直接击穿了此前所有空间智能评测的核心缺陷:
被动推理 benchmark(如单图 / 多图空间问答):把空间变成了开卷考试,完全规避了「部分可观测」这个空间的核心属性;
任务驱动的具身 benchmark(如导航、指令跟随):把空间探索变成了完成特定目标的手段,无法衡量模型是否真的构建了通用的空间认知,还是只是学会了任务特定的捷径。
而《Theory of Space》(后文简称 ToS)的核心突破,就是把「空间」从一个推理任务的场景,变成了智能体需要主动建模的隐状态对象—— 就像心智理论(Theory of Mind, ToM)建模他人不可见的心理状态,ToS 建模世界不可见的空间结构。
第二阶 理论框架:以空间信念为核心,定义可形式化的空间能力体系
核心问题:如果空间认知的核心是「内在空间信念」,我们该如何用一套严谨的框架,定义、拆解并形式化这套能力?
论文以「空间信念的全生命周期」为线索,给出了 ToS 的严格定义与形式化框架,彻底把模糊的「空间感」变成了可拆解、可测量的科学问题。
2.1 核心定义:什么是「空间理论(Theory of Space)」?
ToS 的正式定义是:
具身智能体通过自主主动探索,从时序性的、局部的观测中,构建、动态修正、并利用内部空间信念的能力。
其中,内部空间信念是核心载体:它是智能体在工作记忆中维护的、关于空间布局与物体空间关系的心智模型,对应神经科学中经典的「认知地图」(Tolman, 1948)。
论文在部分可观测马尔可夫决策过程(POMDP)的框架下,对 ToS 做了形式化:
设真实空间结构为S,智能体与空间交互的时序历史为
智能体的内部空间信念,是对真实空间结构的后验概率近似:
ToS 的能力,就是对这个概率信念进行三大核心操作的能力,而这三大操作恰好对应了空间信念从无到有、从静态到动态、从内隐到可用的完整生命周期。
2.2 三大核心能力:空间信念的全生命周期闭环
以「空间」为线索,三大能力形成了完全闭环的逻辑链条,没有任何一环可以脱离空间的本质属性:
核心能力 | 空间本质对应 | 形式化定义 | 核心追问 |
|---|---|---|---|
| 构建(Construct) | 空间的部分可观测性:必须通过主动探索,把局部观测整合成全局一致的空间表征 | 智能体整合时序交互历史 ht,逼近真实空间结构的后验分布 P(S∣ht),形成全局连贯的认知地图 | 模型是真的在拼出完整的空间,还是只是在记忆碎片化的观测? |
| 修正(Revise) | 空间的动态非平稳性:真实空间会发生变化,智能体必须用新的观测覆盖过时的先验信念 | 当空间结构从 S 变为 S′,智能体通过新的探索 Δh,让信念 Bt+Δt 收敛到新的后验 P(S′∣ht+Δt) | 模型能发现空间的变化,还是会抱着过时的信念一错到底? |
| 利用(Exploit) | 空间的任务可用性:空间认知的最终价值,是支撑导航、视角转换、空间推理等下游任务 | 智能体基于当前信念 Bt 生成策略 π(at∣Bt),完成下游空间任务 T,任务性能直接衡量信念的质量 | 模型的「脑海地图」是真的能用,还是只是无法落地的幻觉? |
2.3 理论对标:ToS 与 ToM 的镜像关系 —— 空间信念的「错误信念范式」
这里是论文最核心的理论创新之一:它完全复刻了发展心理学中心智理论(ToM)的经典评测逻辑,为空间认知引入了错误信念范式。
ToM 核心评测是「莎莉 - 安妮任务」:看孩子能否理解他人持有错误的信念,核心是区分「自己知道的事实」和「他人的信念」;
ToS 核心评测是「空间错误信念任务」:看模型能否区分「自己之前构建的旧信念」和「空间变化后的新事实」,核心是衡量信念修正能力。
这个设计直接把空间认知从「工程问题」提升到了「认知科学问题」,也让 ToS 框架有了跨学科的严谨性。
第三阶 方法范式:如何把「黑箱的空间信念」变成可测量、可诊断的科学对象?
核心问题:空间信念藏在模型的黑箱里,我们该如何把它显性化,同时精准定位模型在空间认知中的失效环节?
论文以「空间信念的全流程测量」为线索,设计了一套完整的评测范式,核心解决两个问题:① 如何还原真实空间的部分可观测性,让模型做真正的主动探索;② 如何打开黑箱,直接测量模型的内在空间信念,而不只是看最终任务的对错。
3.1 环境设计:还原空间的本质属性,双模态拆解失效根源
为了精准定位模型的失效是来自「空间感知」还是「空间推理」,论文构建了文本、视觉双平行环境,二者共享完全一致的空间布局,唯一区别是观测模态:
文本世界:隔离纯空间推理能力。每次观测返回符号化的空间信息(如「椅子在左前方,中等距离」),没有视觉感知噪声,直接测试模型对空间关系的建模、整合与推理能力;
视觉世界:还原真实具身场景。每次观测返回第一人称 RGB 图像,模型必须先从图像中提取物体、方向、距离等空间信息,再进行推理,完整覆盖「感知→表征→信念→推理」的全链路。
同时,环境严格遵循空间的真实约束:
动作空间聚焦高层空间决策,而非底层电机控制:仅保留Goto(移动到可见物体)、Rotate(原地旋转)、Observe(观测当前视野)、Query(查询物体坐标),并给不同动作设置成本,倒逼模型做高效探索;
空间布局为程序化生成的多房间网格结构,严格控制房间数量、物体密度,保证实验的可重复性与可扩展性;
观测严格遵循 90° 视野约束,只有当前视野内的物体可被观测,完美还原空间的「部分可观测性」。
3.2 评测体系的三大核心支柱:以空间信念为核心的全链路测量
论文彻底抛弃了「只看最终任务准确率」的传统评测逻辑,设计了三大支柱,完整覆盖空间信念的构建、修正、利用全流程:
支柱 1:任务无关的主动探索 —— 从「被动答题者」到「主动探索者」
这是 ToS 范式和传统 benchmark 的核心区别:
模型的核心目标不是完成某个特定任务,而是通过自主选择行动,以最小的成本构建最完整、最准确的空间信念;
模型必须自主决定「下一步看哪里、去哪里」,自主决定「什么时候探索足够了,可以终止」;
核心衡量指标是探索效率:用归一化信息增益衡量每步行动能降低多少空间不确定性,用步数衡量探索成本。
为了隔离「探索能力」和「推理能力」,论文还设计了两个脚本化的代理智能体(Proxy Agent)作为黄金基线:
SCOUT 代理:用于视觉环境,采用「旋转扫描 - 逐个房间遍历」的策略,9 步即可完成全环境覆盖,是最优的无先验探索策略;
STRATEGIST 代理:用于文本环境,基于 AC-3约束传播算法,主动选择最大程度降低物体位置不确定性的视角,是最优信念驱动探索策略。
支柱 2:信念利用评估 —— 双维度衡量空间信念的可用性
论文基于空间认知发展理论,把空间信念的利用拆分为两个层级,完整覆盖从低级到高级的空间推理能力:
路径信念(Route Belief):以自我为中心(egocentric)的路径级空间理解,对应人类导航时的「沿路标走」的能力,包括成对空间关系判断、视角转换、动作 - 视图预测等任务;
全局测绘信念(Survey Belief):以环境为中心(allocentric)的地图级空间理解,对应人类「脑海里有张鸟瞰图」的能力,包括全局坐标预测、心理旋转、视图 - 位置定位等任务。
这两个维度的设计,精准区分了模型是只会「记住走过的路」,还是真的构建了全局一致的空间认知地图。
支柱 3:核心创新 —— 空间信念探针(Belief Probing)
这是整篇论文最具突破性的方法设计:它不再把模型的空间信念当成黑箱,而是在探索的每一步,都让模型把内在的认知地图显性化输出,直接测量信念的质量、稳定性与不确定性。
论文设计了两类互补的信念探针,完整覆盖「已知的空间」和「未知的空间」:
认知地图探针(Cognitive Map Probing):测量模型对已观测空间的信念质量
不确定性地图探针(Uncertainty Map Probing):测量模型对未观测空间的不确定性建模能力
3.3 信念修正的专属评测:空间错误信念范式
论文复刻 ToM 的错误信念任务,设计了专门的动态环境实验:
先让模型完成初始探索,构建完整的空间信念;
在模型不知情的情况下,秘密移动 / 旋转 4 个物体,改变空间结构;
让模型重新探索环境,测试它能否发现变化、识别变化的物体、并更新自己的认知地图。
论文还专门定义了信念惯性(Belief Inertia)指标,量化模型是否会被过时的先验信念带偏 —— 哪怕看到了新的证据,依然坚持旧的空间坐标 / 朝向,这是衡量空间信念动态修正能力的核心指标。
第四阶 核心发现:SOTA 基础模型的空间认知,到底在哪里系统性失效?
核心问题:基于 ToS 框架的全链路诊断,当前顶尖模型的空间能力,到底处于什么水平?哪些环节是无法绕过的核心瓶颈?
论文对 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面评测,所有发现都紧扣「空间信念的全生命周期」线索,从探索、构建、稳定性、修正四个维度,给出了精准的诊断结论。
4.1 核心瓶颈 1:主动 - 被动鸿沟 —— 主动探索是空间认知的第一卡点
论文最核心的实证发现:所有模型在主动探索场景下的性能,都显著低于被动推理场景,且环境越复杂,鸿沟越大。
核心数据:视觉环境下,GPT-5.2 被动推理平均准确率 57.1%,主动探索直接掉到 46.0%;Gemini-3 Pro 从 60.5% 掉到 57.3%;文本环境下,GPT-5.2 被动准确率 90.4%,主动探索仅 72.0%;
底层原因:模型无法有效建模空间不确定性,不知道「哪里最该去看」。GPT-5.2 采用「见门就进」的无策略探索,经常遗漏当前房间的物体,路径高度冗余;Gemini-3 Pro 虽然采用了更系统的「旋转扫描」策略,更接近 SCOUT 代理,但依然达不到最优探索效率;
关键结论:哪怕模型拥有极强的空间推理能力(被动场景下的高性能),如果无法自主高效地获取信息,依然无法构建可靠的空间信念 —— 这就像一个拥有超强记忆力的人,却不会规划路线,永远画不出完整的地图。
4.2 核心瓶颈 2:模态鸿沟 —— 视觉空间认知的感知 - 表征耦合失效
论文通过双环境对比,发现了极其显著的模态差距:所有模型在文本世界的性能,都碾压视觉世界,且差距在信念构建、稳定性、修正全环节普遍存在。
核心数据:认知地图探针显示,文本环境下 GPT-5.2 的位置准确率 91.0%,朝向准确率 75.1%;而视觉环境下,位置准确率仅 20.2%,朝向准确率 42.0%;Gemini-3 Pro 在文本环境位置准确率 92.5%,视觉环境仅 32.2%;
底层原因:视觉空间认知存在双重瓶颈:① 初级感知瓶颈:模型很难从第一人称图像中精准提取物体的朝向、距离、相对位置等空间信息,尤其是物体朝向的识别,接近随机水平;② 感知 - 表征耦合瓶颈:模型无法把瞬时的视觉观测,稳定地整合到全局的 allocentric 认知地图中,局部观测和全局信念经常出现矛盾。
4.3 核心瓶颈 3:信念不稳定性 —— 空间记忆的时序衰减与漂移
通过认知地图探针的时序追踪,论文发现了一个被传统评测完全忽略的关键问题:模型的空间信念是高度不稳定的,哪怕一开始正确感知到的空间信息,也会在后续探索中被错误覆盖,出现「越看越错」的信念漂移。
核心数据:视觉环境下,GPT-5.2 的信念稳定性仅 56.4%,Gemini-3 Pro 仅 61.8%;而文本环境下,二者的稳定性分别达到 86.0% 和 84.8%;
底层原因:模型缺乏稳定的空间记忆维护机制,新的观测会无差别地覆盖旧的记忆,无法区分「经过验证的确定事实」和「新的观测证据」,导致全局认知地图的精度随着探索步数增加反而下降;
关键结论:传统评测只看最终的地图精度,却忽略了时序稳定性 —— 而真实世界的具身导航,恰恰需要长期稳定的空间信念,这是当前模型的核心短板。
4.4 核心瓶颈 4:信念惯性 —— 空间先验的修正机制完全失效
通过空间错误信念范式,论文发现了当前模型空间认知最致命的缺陷:模型存在极强的空间信念惯性,尤其是视觉模态下,哪怕直接观测到了空间的变化,也无法覆盖过时的先验信念。
核心数据:文本环境下,GPT-5.2 的位置信念惯性仅 5.5%,朝向 12.5%;而视觉环境下,位置信念惯性飙升至 68.9%,朝向 34.7%;Gemini-3 Pro 视觉环境下的位置信念惯性也高达 51.1%;
底层原因:模型的空间信念一旦形成,就会产生极强的先验偏见,无法有效检测「新观测」和「旧信念」之间的冲突,更无法用新的证据更新全局地图;尤其是视觉模态下,模型对物体朝向的记忆几乎是固化的,哪怕看到了物体转了方向,依然坚持初始的朝向判断;
关键结论:当前模型的空间认知,本质上是「一次性的静态建图」,而真实世界的空间是动态变化的 —— 家具会移动、门会开关、路会被堵,无法动态修正信念的空间认知,在真实具身场景中完全不可用。
第五阶 核心意义与未来:ToS 到底重构了什么?
核心问题:这套以空间为核心的理论框架,到底给具身智能、基础模型的发展,带来了哪些底层范式的变革?
5.1 学术意义:重构了空间智能的评测范式
ToS 彻底打破了此前空间智能评测的两大误区:
打破了「被动推理 = 空间认知」的误区:把空间智能的核心,从「对给定信息的推理」,拉回到了「对未知空间的主动探索」,回归了空间的本质属性;
打破了「任务成功 = 认知正确」的误区:用信念探针直接打开模型的黑箱,从「看结果」变成了「看过程」,可以精准定位模型的失效环节,而不是只给出一个笼统的准确率。
同时,它为具身智能的「世界模型」提供了一套可定义、可测量、可优化的具体框架 —— 世界模型最核心的组件,就是对空间结构的建模,而 ToS 把这个模糊的概念,变成了可落地的科研范式。
5.2 产业意义:指明了下一代具身 AI 的核心优化方向
当前的机器人、自动驾驶、具身 Agent,最大的落地瓶颈之一,就是在未知、动态环境中的空间认知能力 —— 而 ToS 的诊断结论,直接给出了明确的优化路径:
必须为基础模型设计不确定性感知的主动探索策略,让模型学会「知道自己不知道什么」,并主动选择能最大程度降低不确定性的行动;
必须解决视觉空间的感知 - 表征解耦问题,让模型能从第一人称视觉中,稳定提取并整合空间信息,构建全局一致的认知地图;
必须为模型设计稳定的空间记忆维护与更新机制,解决信念漂移和信念惯性问题,让模型能在长时序探索中保持信念稳定,同时能根据环境变化动态修正信念。
5.3 终极追问:空间认知,是通用人工智能的必经之路吗?
论文的结尾,留下了一个最值得深思的问题:人类的高级认知能力,很大程度上是在与物理空间的交互中演化而来的 —— 我们的抽象推理、因果建模、心智理论,都根植于我们对空间的理解。那么,对于通用人工智能而言,真正的空间认知能力,是不是从「被动处理信息的语言模型」,走向「主动与世界交互的具身智能」的必经之路?
回答是肯定的,空间认知是AGI的必经之路,而《Theory of Space》这篇论文,恰恰为这个问题的回答,提供了第一套严谨的、可量化的、可迭代的理论与实验框架。
全文核心线索复盘
整篇论文的逻辑,完全以「空间」为核心线索:
从空间的本质属性(部分可观测、具身依赖、信念驱动)出发,提出终极元问题;
以空间信念的全生命周期为核心,构建了「构建 - 修正 - 利用」的理论框架;
以空间信念的显性化测量为目标,设计了「主动探索 - 信念利用 - 信念探针」的方法范式;
以空间信念的全链路诊断为核心,发现了当前模型的四大系统性瓶颈;
最终回归空间认知在通用智能中的核心地位,重构了具身智能的评测与发展范式。
这篇Theory of Space最大突破在于它打破了将具身智能等同于 “视觉识别” 或 “导航工程” 的窄化认知,完成了从 “拟合数据” 到 “构建世界”的范式升级。它不再将空间智能仅仅视为处理图像的能力,而是将其升维为构建内在 “认知地图” 与维护 “空间信念” 的因果推理能力—— 标志着具身智能从被动的 “统计学习”,进化为能主动探索、理解并适应动态环境的 “世界建模”。
更关键的是,它通过“空间错误信念”等颠覆性设计,揭示了当前模型本质上是 “静态的一次性建图”,而非真正具备时序稳定性与动态修正能力的智能体。
这一框架重构了我们对具身智能的理解:真正的空间智能,不是从图像中提取像素特征,而是能否像人类一样,在部分可观测的世界中,通过主动行动消除不确定性、生成连贯的内在模型,并以此驱动下游决策。这是一次从 “算法优化” 到 “认知本质” 的世界观级跨越。