从拟合数据到构建世界：李飞飞的空间智能理论 theory of space-酒店常州论坛

在 2026 年 ICLR（国际学习表征会议）的舞台上，斯坦福大学李飞飞团队与西北大学李曼玲玲团队联手，针对具身智能长期困局 ——空间认知薄弱、数据效率低下、人机交互脱节，发布六项重磅研究，从基准构建、数据生成、推理优化三大维度形成闭环。当我们拆解技术表象，会发现每一项突破背后，都悬而未决着关乎智能本质的深层追问：我们为模型构建的 “空间信念”，究竟是在模拟人类的认知逻辑，还是在拟合训练数据的分布？所谓的 “世界模型”，捕捉的是物理世界的底层规律，还是海量数据中的统计惯性？当多模态模型声称 “理解” 了空间，它是真的看见了三维世界，还是在用语言的先验知识反哺、甚至扭曲视觉信息？今天，我们以空间为核心线索，循着问题驱动的认知路径，深度拆解这篇 ICLR 2026 的核心论文《Theory of Space》。

第一阶元问题追问：我们到底在讨论「空间」的什么本质？

核心问题：为什么被动的空间推理，永远无法替代主动的空间认知？

在展开理论之前，我们必须先锚定「空间」的 3 个不可回避的本质属性 —— 这也是整篇论文的立论根基，所有的框架、方法、发现由此生发：

空间的本质是「部分可观测」的：真实物理空间中，没有任何智能体可以一次性获得全局完整观测，墙后、门外、视野盲区的空间结构永远是隐状态，你必须通过行动才能让不可见变为可见。

空间的认知是「具身依赖」的：认知科学经典的「主动 - 被动空间学习实验」（Held & Hein, 1963）早已证明：哪怕接收完全相同的视觉信息，主动移动的个体对空间的理解，远优于被动接收信息的个体 —— 空间认知不是对画面的处理，而是对「行动 - 观测」因果链的建模。

空间的表征是「信念驱动」的：你对空间的所有判断，都基于你脑海中那张看不见的「认知地图」，而非眼前的瞬时画面。你能闭着眼睛从客厅走到卧室，不是因为你看到了路，而是因为你相信空间的结构是稳定的、可预测的。

基于这三个本质，论文抛出了整个工作的元问题：

当前的多模态基础模型，已经在被动空间推理任务上表现出色，但它们能否在部分可观测的环境中，通过自主的、目标驱动的探索，构建、维护、修正并利用一套连贯的内部空间信念？

这个问题直接击穿了此前所有空间智能评测的核心缺陷：

被动推理 benchmark（如单图 / 多图空间问答）：把空间变成了开卷考试，完全规避了「部分可观测」这个空间的核心属性；

任务驱动的具身 benchmark（如导航、指令跟随）：把空间探索变成了完成特定目标的手段，无法衡量模型是否真的构建了通用的空间认知，还是只是学会了任务特定的捷径。

而《Theory of Space》（后文简称 ToS）的核心突破，就是把「空间」从一个推理任务的场景，变成了智能体需要主动建模的隐状态对象—— 就像心智理论（Theory of Mind, ToM）建模他人不可见的心理状态，ToS 建模世界不可见的空间结构。

第二阶理论框架：以空间信念为核心，定义可形式化的空间能力体系

核心问题：如果空间认知的核心是「内在空间信念」，我们该如何用一套严谨的框架，定义、拆解并形式化这套能力？

论文以「空间信念的全生命周期」为线索，给出了 ToS 的严格定义与形式化框架，彻底把模糊的「空间感」变成了可拆解、可测量的科学问题。

2.1 核心定义：什么是「空间理论（Theory of Space）」？

ToS 的正式定义是：

具身智能体通过自主主动探索，从时序性的、局部的观测中，构建、动态修正、并利用内部空间信念的能力。

其中，内部空间信念是核心载体：它是智能体在工作记忆中维护的、关于空间布局与物体空间关系的心智模型，对应神经科学中经典的「认知地图」（Tolman, 1948）。

论文在部分可观测马尔可夫决策过程（POMDP）的框架下，对 ToS 做了形式化：

设真实空间结构为S，智能体与空间交互的时序历史为

智能体的内部空间信念，是对真实空间结构的后验概率近似：

ToS 的能力，就是对这个概率信念进行三大核心操作的能力，而这三大操作恰好对应了空间信念从无到有、从静态到动态、从内隐到可用的完整生命周期。

2.2 三大核心能力：空间信念的全生命周期闭环

以「空间」为线索，三大能力形成了完全闭环的逻辑链条，没有任何一环可以脱离空间的本质属性：

核心能力	空间本质对应	形式化定义	核心追问
构建（Construct）	空间的部分可观测性：必须通过主动探索，把局部观测整合成全局一致的空间表征	智能体整合时序交互历史 ht，逼近真实空间结构的后验分布 P(S∣ht)，形成全局连贯的认知地图	模型是真的在拼出完整的空间，还是只是在记忆碎片化的观测？
修正（Revise）	空间的动态非平稳性：真实空间会发生变化，智能体必须用新的观测覆盖过时的先验信念	当空间结构从 S 变为 S′，智能体通过新的探索 Δh，让信念 Bt+Δt 收敛到新的后验 P(S′∣ht+Δt)	模型能发现空间的变化，还是会抱着过时的信念一错到底？
利用（Exploit）	空间的任务可用性：空间认知的最终价值，是支撑导航、视角转换、空间推理等下游任务	智能体基于当前信念 Bt 生成策略 π(at∣Bt)，完成下游空间任务 T，任务性能直接衡量信念的质量	模型的「脑海地图」是真的能用，还是只是无法落地的幻觉？

2.3 理论对标：ToS 与 ToM 的镜像关系 —— 空间信念的「错误信念范式」

这里是论文最核心的理论创新之一：它完全复刻了发展心理学中心智理论（ToM）的经典评测逻辑，为空间认知引入了错误信念范式。

ToM 核心评测是「莎莉 - 安妮任务」：看孩子能否理解他人持有错误的信念，核心是区分「自己知道的事实」和「他人的信念」；
ToS 核心评测是「空间错误信念任务」：看模型能否区分「自己之前构建的旧信念」和「空间变化后的新事实」，核心是衡量信念修正能力。

这个设计直接把空间认知从「工程问题」提升到了「认知科学问题」，也让 ToS 框架有了跨学科的严谨性。

第三阶方法范式：如何把「黑箱的空间信念」变成可测量、可诊断的科学对象？

核心问题：空间信念藏在模型的黑箱里，我们该如何把它显性化，同时精准定位模型在空间认知中的失效环节？

论文以「空间信念的全流程测量」为线索，设计了一套完整的评测范式，核心解决两个问题：① 如何还原真实空间的部分可观测性，让模型做真正的主动探索；② 如何打开黑箱，直接测量模型的内在空间信念，而不只是看最终任务的对错。

3.1 环境设计：还原空间的本质属性，双模态拆解失效根源

为了精准定位模型的失效是来自「空间感知」还是「空间推理」，论文构建了文本、视觉双平行环境，二者共享完全一致的空间布局，唯一区别是观测模态：

文本世界：隔离纯空间推理能力。每次观测返回符号化的空间信息（如「椅子在左前方，中等距离」），没有视觉感知噪声，直接测试模型对空间关系的建模、整合与推理能力；

视觉世界：还原真实具身场景。每次观测返回第一人称 RGB 图像，模型必须先从图像中提取物体、方向、距离等空间信息，再进行推理，完整覆盖「感知→表征→信念→推理」的全链路。

同时，环境严格遵循空间的真实约束：

动作空间聚焦高层空间决策，而非底层电机控制：仅保留Goto（移动到可见物体）、Rotate（原地旋转）、Observe（观测当前视野）、Query（查询物体坐标），并给不同动作设置成本，倒逼模型做高效探索；

空间布局为程序化生成的多房间网格结构，严格控制房间数量、物体密度，保证实验的可重复性与可扩展性；

观测严格遵循 90° 视野约束，只有当前视野内的物体可被观测，完美还原空间的「部分可观测性」。

3.2 评测体系的三大核心支柱：以空间信念为核心的全链路测量

论文彻底抛弃了「只看最终任务准确率」的传统评测逻辑，设计了三大支柱，完整覆盖空间信念的构建、修正、利用全流程：

支柱 1：任务无关的主动探索 —— 从「被动答题者」到「主动探索者」

这是 ToS 范式和传统 benchmark 的核心区别：

模型的核心目标不是完成某个特定任务，而是通过自主选择行动，以最小的成本构建最完整、最准确的空间信念；
模型必须自主决定「下一步看哪里、去哪里」，自主决定「什么时候探索足够了，可以终止」；
核心衡量指标是探索效率：用归一化信息增益衡量每步行动能降低多少空间不确定性，用步数衡量探索成本。

为了隔离「探索能力」和「推理能力」，论文还设计了两个脚本化的代理智能体（Proxy Agent）作为黄金基线：

SCOUT 代理：用于视觉环境，采用「旋转扫描 - 逐个房间遍历」的策略，9 步即可完成全环境覆盖，是最优的无先验探索策略；
STRATEGIST 代理：用于文本环境，基于 AC-3约束传播算法，主动选择最大程度降低物体位置不确定性的视角，是最优信念驱动探索策略。

支柱 2：信念利用评估 —— 双维度衡量空间信念的可用性

论文基于空间认知发展理论，把空间信念的利用拆分为两个层级，完整覆盖从低级到高级的空间推理能力：

路径信念（Route Belief）：以自我为中心（egocentric）的路径级空间理解，对应人类导航时的「沿路标走」的能力，包括成对空间关系判断、视角转换、动作 - 视图预测等任务；

全局测绘信念（Survey Belief）：以环境为中心（allocentric）的地图级空间理解，对应人类「脑海里有张鸟瞰图」的能力，包括全局坐标预测、心理旋转、视图 - 位置定位等任务。

这两个维度的设计，精准区分了模型是只会「记住走过的路」，还是真的构建了全局一致的空间认知地图。

支柱 3：核心创新 —— 空间信念探针（Belief Probing）

这是整篇论文最具突破性的方法设计：它不再把模型的空间信念当成黑箱，而是在探索的每一步，都让模型把内在的认知地图显性化输出，直接测量信念的质量、稳定性与不确定性。

论文设计了两类互补的信念探针，完整覆盖「已知的空间」和「未知的空间」：

认知地图探针（Cognitive Map Probing）：测量模型对已观测空间的信念质量

不确定性地图探针（Uncertainty Map Probing）：测量模型对未观测空间的不确定性建模能力

3.3 信念修正的专属评测：空间错误信念范式

论文复刻 ToM 的错误信念任务，设计了专门的动态环境实验：

先让模型完成初始探索，构建完整的空间信念；
在模型不知情的情况下，秘密移动 / 旋转 4 个物体，改变空间结构；
让模型重新探索环境，测试它能否发现变化、识别变化的物体、并更新自己的认知地图。

论文还专门定义了信念惯性（Belief Inertia）指标，量化模型是否会被过时的先验信念带偏 —— 哪怕看到了新的证据，依然坚持旧的空间坐标 / 朝向，这是衡量空间信念动态修正能力的核心指标。

第四阶核心发现：SOTA 基础模型的空间认知，到底在哪里系统性失效？

核心问题：基于 ToS 框架的全链路诊断，当前顶尖模型的空间能力，到底处于什么水平？哪些环节是无法绕过的核心瓶颈？

论文对 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面评测，所有发现都紧扣「空间信念的全生命周期」线索，从探索、构建、稳定性、修正四个维度，给出了精准的诊断结论。

4.1 核心瓶颈 1：主动 - 被动鸿沟 —— 主动探索是空间认知的第一卡点

论文最核心的实证发现：所有模型在主动探索场景下的性能，都显著低于被动推理场景，且环境越复杂，鸿沟越大。

核心数据：视觉环境下，GPT-5.2 被动推理平均准确率 57.1%，主动探索直接掉到 46.0%；Gemini-3 Pro 从 60.5% 掉到 57.3%；文本环境下，GPT-5.2 被动准确率 90.4%，主动探索仅 72.0%；

底层原因：模型无法有效建模空间不确定性，不知道「哪里最该去看」。GPT-5.2 采用「见门就进」的无策略探索，经常遗漏当前房间的物体，路径高度冗余；Gemini-3 Pro 虽然采用了更系统的「旋转扫描」策略，更接近 SCOUT 代理，但依然达不到最优探索效率；

关键结论：哪怕模型拥有极强的空间推理能力（被动场景下的高性能），如果无法自主高效地获取信息，依然无法构建可靠的空间信念 —— 这就像一个拥有超强记忆力的人，却不会规划路线，永远画不出完整的地图。

4.2 核心瓶颈 2：模态鸿沟 —— 视觉空间认知的感知 - 表征耦合失效

论文通过双环境对比，发现了极其显著的模态差距：所有模型在文本世界的性能，都碾压视觉世界，且差距在信念构建、稳定性、修正全环节普遍存在。

核心数据：认知地图探针显示，文本环境下 GPT-5.2 的位置准确率 91.0%，朝向准确率 75.1%；而视觉环境下，位置准确率仅 20.2%，朝向准确率 42.0%；Gemini-3 Pro 在文本环境位置准确率 92.5%，视觉环境仅 32.2%；

底层原因：视觉空间认知存在双重瓶颈：① 初级感知瓶颈：模型很难从第一人称图像中精准提取物体的朝向、距离、相对位置等空间信息，尤其是物体朝向的识别，接近随机水平；② 感知 - 表征耦合瓶颈：模型无法把瞬时的视觉观测，稳定地整合到全局的 allocentric 认知地图中，局部观测和全局信念经常出现矛盾。

4.3 核心瓶颈 3：信念不稳定性 —— 空间记忆的时序衰减与漂移

通过认知地图探针的时序追踪，论文发现了一个被传统评测完全忽略的关键问题：模型的空间信念是高度不稳定的，哪怕一开始正确感知到的空间信息，也会在后续探索中被错误覆盖，出现「越看越错」的信念漂移。

核心数据：视觉环境下，GPT-5.2 的信念稳定性仅 56.4%，Gemini-3 Pro 仅 61.8%；而文本环境下，二者的稳定性分别达到 86.0% 和 84.8%；
底层原因：模型缺乏稳定的空间记忆维护机制，新的观测会无差别地覆盖旧的记忆，无法区分「经过验证的确定事实」和「新的观测证据」，导致全局认知地图的精度随着探索步数增加反而下降；
关键结论：传统评测只看最终的地图精度，却忽略了时序稳定性 —— 而真实世界的具身导航，恰恰需要长期稳定的空间信念，这是当前模型的核心短板。

4.4 核心瓶颈 4：信念惯性 —— 空间先验的修正机制完全失效

通过空间错误信念范式，论文发现了当前模型空间认知最致命的缺陷：模型存在极强的空间信念惯性，尤其是视觉模态下，哪怕直接观测到了空间的变化，也无法覆盖过时的先验信念。

核心数据：文本环境下，GPT-5.2 的位置信念惯性仅 5.5%，朝向 12.5%；而视觉环境下，位置信念惯性飙升至 68.9%，朝向 34.7%；Gemini-3 Pro 视觉环境下的位置信念惯性也高达 51.1%；
底层原因：模型的空间信念一旦形成，就会产生极强的先验偏见，无法有效检测「新观测」和「旧信念」之间的冲突，更无法用新的证据更新全局地图；尤其是视觉模态下，模型对物体朝向的记忆几乎是固化的，哪怕看到了物体转了方向，依然坚持初始的朝向判断；
关键结论：当前模型的空间认知，本质上是「一次性的静态建图」，而真实世界的空间是动态变化的 —— 家具会移动、门会开关、路会被堵，无法动态修正信念的空间认知，在真实具身场景中完全不可用。

第五阶核心意义与未来：ToS 到底重构了什么？

核心问题：这套以空间为核心的理论框架，到底给具身智能、基础模型的发展，带来了哪些底层范式的变革？

5.1 学术意义：重构了空间智能的评测范式

ToS 彻底打破了此前空间智能评测的两大误区：

打破了「被动推理 = 空间认知」的误区：把空间智能的核心，从「对给定信息的推理」，拉回到了「对未知空间的主动探索」，回归了空间的本质属性；

打破了「任务成功 = 认知正确」的误区：用信念探针直接打开模型的黑箱，从「看结果」变成了「看过程」，可以精准定位模型的失效环节，而不是只给出一个笼统的准确率。

同时，它为具身智能的「世界模型」提供了一套可定义、可测量、可优化的具体框架 —— 世界模型最核心的组件，就是对空间结构的建模，而 ToS 把这个模糊的概念，变成了可落地的科研范式。

5.2 产业意义：指明了下一代具身 AI 的核心优化方向

当前的机器人、自动驾驶、具身 Agent，最大的落地瓶颈之一，就是在未知、动态环境中的空间认知能力 —— 而 ToS 的诊断结论，直接给出了明确的优化路径：

必须为基础模型设计不确定性感知的主动探索策略，让模型学会「知道自己不知道什么」，并主动选择能最大程度降低不确定性的行动；

必须解决视觉空间的感知 - 表征解耦问题，让模型能从第一人称视觉中，稳定提取并整合空间信息，构建全局一致的认知地图；

必须为模型设计稳定的空间记忆维护与更新机制，解决信念漂移和信念惯性问题，让模型能在长时序探索中保持信念稳定，同时能根据环境变化动态修正信念。

5.3 终极追问：空间认知，是通用人工智能的必经之路吗？

论文的结尾，留下了一个最值得深思的问题：人类的高级认知能力，很大程度上是在与物理空间的交互中演化而来的 —— 我们的抽象推理、因果建模、心智理论，都根植于我们对空间的理解。那么，对于通用人工智能而言，真正的空间认知能力，是不是从「被动处理信息的语言模型」，走向「主动与世界交互的具身智能」的必经之路？

回答是肯定的，空间认知是AGI的必经之路，而《Theory of Space》这篇论文，恰恰为这个问题的回答，提供了第一套严谨的、可量化的、可迭代的理论与实验框架。

全文核心线索复盘

整篇论文的逻辑，完全以「空间」为核心线索：

从空间的本质属性（部分可观测、具身依赖、信念驱动）出发，提出终极元问题；

以空间信念的全生命周期为核心，构建了「构建 - 修正 - 利用」的理论框架；

以空间信念的显性化测量为目标，设计了「主动探索 - 信念利用 - 信念探针」的方法范式；

以空间信念的全链路诊断为核心，发现了当前模型的四大系统性瓶颈；

最终回归空间认知在通用智能中的核心地位，重构了具身智能的评测与发展范式。

这篇Theory of Space最大突破在于它打破了将具身智能等同于 “视觉识别” 或 “导航工程” 的窄化认知，完成了从 “拟合数据” 到 “构建世界”的范式升级。它不再将空间智能仅仅视为处理图像的能力，而是将其升维为构建内在 “认知地图” 与维护 “空间信念” 的因果推理能力—— 标志着具身智能从被动的 “统计学习”，进化为能主动探索、理解并适应动态环境的 “世界建模”。

更关键的是，它通过“空间错误信念”等颠覆性设计，揭示了当前模型本质上是 “静态的一次性建图”，而非真正具备时序稳定性与动态修正能力的智能体。

这一框架重构了我们对具身智能的理解：真正的空间智能，不是从图像中提取像素特征，而是能否像人类一样，在部分可观测的世界中，通过主动行动消除不确定性、生成连贯的内在模型，并以此驱动下游决策。这是一次从 “算法优化” 到 “认知本质” 的世界观级跨越。

企业官网建设流程全解析

第一阶元问题追问：我们到底在讨论「空间」的什么本质？

核心问题：为什么被动的空间推理，永远无法替代主动的空间认知？

第二阶理论框架：以空间信念为核心，定义可形式化的空间能力体系

核心问题：如果空间认知的核心是「内在空间信念」，我们该如何用一套严谨的框架，定义、拆解并形式化这套能力？

2.1 核心定义：什么是「空间理论（Theory of Space）」？

2.2 三大核心能力：空间信念的全生命周期闭环

2.3 理论对标：ToS 与 ToM 的镜像关系 —— 空间信念的「错误信念范式」

第三阶方法范式：如何把「黑箱的空间信念」变成可测量、可诊断的科学对象？

核心问题：空间信念藏在模型的黑箱里，我们该如何把它显性化，同时精准定位模型在空间认知中的失效环节？

3.1 环境设计：还原空间的本质属性，双模态拆解失效根源

3.2 评测体系的三大核心支柱：以空间信念为核心的全链路测量

支柱 1：任务无关的主动探索 —— 从「被动答题者」到「主动探索者」

支柱 2：信念利用评估 —— 双维度衡量空间信念的可用性

支柱 3：核心创新 —— 空间信念探针（Belief Probing）

3.3 信念修正的专属评测：空间错误信念范式

第四阶核心发现：SOTA 基础模型的空间认知，到底在哪里系统性失效？

核心问题：基于 ToS 框架的全链路诊断，当前顶尖模型的空间能力，到底处于什么水平？哪些环节是无法绕过的核心瓶颈？

4.1 核心瓶颈 1：主动 - 被动鸿沟 —— 主动探索是空间认知的第一卡点

4.2 核心瓶颈 2：模态鸿沟 —— 视觉空间认知的感知 - 表征耦合失效

4.3 核心瓶颈 3：信念不稳定性 —— 空间记忆的时序衰减与漂移

4.4 核心瓶颈 4：信念惯性 —— 空间先验的修正机制完全失效

第五阶核心意义与未来：ToS 到底重构了什么？

核心问题：这套以空间为核心的理论框架，到底给具身智能、基础模型的发展，带来了哪些底层范式的变革？

5.1 学术意义：重构了空间智能的评测范式

5.2 产业意义：指明了下一代具身 AI 的核心优化方向

5.3 终极追问：空间认知，是通用人工智能的必经之路吗？

全文核心线索复盘

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

第一阶 元问题追问：我们到底在讨论「空间」的什么本质？

核心问题：为什么被动的空间推理，永远无法替代主动的空间认知？

第二阶 理论框架：以空间信念为核心，定义可形式化的空间能力体系

核心问题：如果空间认知的核心是「内在空间信念」，我们该如何用一套严谨的框架，定义、拆解并形式化这套能力？

2.1 核心定义：什么是「空间理论（Theory of Space）」？

2.2 三大核心能力：空间信念的全生命周期闭环

2.3 理论对标：ToS 与 ToM 的镜像关系 —— 空间信念的「错误信念范式」

第三阶 方法范式：如何把「黑箱的空间信念」变成可测量、可诊断的科学对象？

核心问题：空间信念藏在模型的黑箱里，我们该如何把它显性化，同时精准定位模型在空间认知中的失效环节？

3.1 环境设计：还原空间的本质属性，双模态拆解失效根源

3.2 评测体系的三大核心支柱：以空间信念为核心的全链路测量

支柱 1：任务无关的主动探索 —— 从「被动答题者」到「主动探索者」

支柱 2：信念利用评估 —— 双维度衡量空间信念的可用性

支柱 3：核心创新 —— 空间信念探针（Belief Probing）

3.3 信念修正的专属评测：空间错误信念范式

第四阶 核心发现：SOTA 基础模型的空间认知，到底在哪里系统性失效？

核心问题：基于 ToS 框架的全链路诊断，当前顶尖模型的空间能力，到底处于什么水平？哪些环节是无法绕过的核心瓶颈？

4.1 核心瓶颈 1：主动 - 被动鸿沟 —— 主动探索是空间认知的第一卡点

4.2 核心瓶颈 2：模态鸿沟 —— 视觉空间认知的感知 - 表征耦合失效

4.3 核心瓶颈 3：信念不稳定性 —— 空间记忆的时序衰减与漂移

4.4 核心瓶颈 4：信念惯性 —— 空间先验的修正机制完全失效

第五阶 核心意义与未来：ToS 到底重构了什么？

核心问题：这套以空间为核心的理论框架，到底给具身智能、基础模型的发展，带来了哪些底层范式的变革？

5.1 学术意义：重构了空间智能的评测范式

5.2 产业意义：指明了下一代具身 AI 的核心优化方向

5.3 终极追问：空间认知，是通用人工智能的必经之路吗？

全文核心线索复盘

热门文章

文章分类

标签云

相关文章

【优化设计】遗传算法GA和粒子群算法PSO优化校园排水网络在长度和成本约束下的管道布局设计【含Matlab源码 15338期】

别再只会plot了！用Matlab的freqz函数快速诊断你的滤波器设计（附常见问题排查）

典型相关分析（CCA）在多元数据融合与故障诊断中的实战应用与Python/Matlab实现

需要专业的网站建设服务？

第一阶元问题追问：我们到底在讨论「空间」的什么本质？

第二阶理论框架：以空间信念为核心，定义可形式化的空间能力体系

第三阶方法范式：如何把「黑箱的空间信念」变成可测量、可诊断的科学对象？

第四阶核心发现：SOTA 基础模型的空间认知，到底在哪里系统性失效？

第五阶核心意义与未来：ToS 到底重构了什么？