东北大学与麻省理工学院联手破解AI“黑箱“-酒店常州论坛

这项由美国东北大学与麻省理工学院联合开展的研究，于2026年3月28日发布于预印本平台arXiv，论文编号为arXiv:2603.27070v1，研究方向归属于计算机视觉与多模态人工智能领域。感兴趣的读者可以通过该编号在arXiv平台检索完整论文。

**一被一堵黑墙挡住的问题**

现在的AI已经能看图、能读文字、能回答"这张照片里有几只猫"这样的问题，甚至能解读医学影像、分析卫星图片。这类能同时处理图片和文字的AI系统，学术上叫做"视觉-语言模型"（Vision-Language Model，简称VLM）。它们就像一个同时能听、能看、又能说话的助手，表现相当出色。

然而有一个令人困惑的问题一直悬而未解：这个助手究竟是怎么在大脑里把看到的图和读到的字融合在一起、最终给出答案的？换句话说，它的内部运作究竟是怎样的？

这个问题不是纯粹的学术好奇心。如果我们不知道AI是如何"思考"的，就很难解释它为什么有时候会出错，也很难让它变得更可靠、更安全。就像你买了一台神奇的机器，它大多数时候都工作得很好，但偶尔会莫名其妙地出故障，而你完全不知道里面的线路是怎么连的——这种感觉令人非常不安。

以往的研究者们尝试过各种方法来"看清楚"这台机器的内部。他们会观察AI在处理图片时，哪些像素区域受到了"关注"（这叫做注意力图）；或者追踪哪个输入词对最终输出影响最大（这叫做归因分析）。这些方法有点像只盯着某一颗螺丝钉来理解整台发动机，确实能发现一些局部信息，但对于理解整体的协同运作远远不够。

东北大学与麻省理工学院的研究团队提出了一个全新的视角——不再盯着某颗"螺丝钉"（单个神经元或单个词的影响），而是观察整台发动机里所有零件之间的协作关系网络。他们把这个方法叫做"神经拓扑"（Neural Topology）分析。

**二给AI大脑画一张"关系图"**

研究团队提出的核心想法可以用一个生活场景来理解。假设一家公司里有几千名员工，你想了解这家公司的运作模式。你可以选择研究每个员工的个人简历（单神经元分析），但这效率很低，而且看不到全貌。更有效的方法是观察他们之间的协作关系：谁经常和谁一起工作？谁是核心枢纽？哪些部门之间联系紧密？谁被孤立？这种关系网络图，能让你一眼看出公司的真实权力结构和运作方式，远比逐个读简历有效得多。

研究团队对AI的每一个处理层都画了这样一张"关系图"。具体来说，当一张图片配上一个问题被送入AI模型时，AI内部会逐层处理这些信息，每一层都有数千个处理单元（即神经元）在工作。研究团队记录了每一层里所有神经元的响应数据，然后计算任意两个神经元之间的"协同程度"——简单说就是，当一个神经元活跃时，另一个神经元是否也倾向于活跃？这种协同程度用皮尔逊相关系数来量化，得到的结果就是一张以神经元为节点、以协同强度为边权重的关系图，称为"神经元相关性图"（Neuron Correlation Graph）。

每一层都有这样一张图，整个模型从输入到输出的所有层组合在一起，就形成了AI处理信息时的"神经拓扑"全景。这个视角既比单个神经元的分析丰富得多，又比试图追踪AI内部每一条信号通路（即"电路级分析"）更加可操作。

为了让分析更精细，研究团队还对同一个处理层构建了三种不同的关系图：一种基于图片对应的神经元响应（视觉拓扑），一种基于文字对应的神经元响应（文本拓扑），一种基于图片和文字合并后的整体响应（多模态拓扑）。这三种图之间的差异，就能揭示AI是如何分别处理视觉信息和语言信息、以及如何将二者融合的。

**三用图网络读懂关系图**

有了这些关系图，下一步是从中提取有用的信息。研究团队选择了一种叫做"图卷积网络"（Graph Convolutional Network，GCN）的技术来做这件事。

可以这样理解：一张关系图本身是一堆数字，需要一个工具把它"读懂"并压缩成一个紧凑的数字摘要。GCN就是这个读图工具。它会逐个神经元地考察每个节点与其邻居节点之间的关系，从而提炼出整张图的结构特征。

关键的设计细节在于：GCN并不直接读取每个神经元的激活数值（即那个神经元"有多兴奋"），而是只看神经元之间的相关结构。每个神经元被赋予一个独特的"身份标签"（one-hot编码），GCN的任务是通过关系图的连接结构来理解这些身份之间的组织方式。这样做的好处是，分析结论来自于神经元之间的关系模式，而不是某个神经元单独有多强或多弱。

最后，研究团队用两种方式把整张图的特征汇总成一个固定长度的数字向量：一种是对所有节点特征求平均（捕捉整体倾向），另一种是取所有节点特征的最大值（保留最突出的结构信号）。把这两种汇总方式拼接在一起，就得到了每一层的"结构指纹"。有了这个指纹，就可以拿它去预测模型的行为，或者研究其内部组织方式。

为了处理计算上的挑战，研究团队没有保留所有神经元之间的完整关系（这会产生数以千万计的边，计算上不可行），而是只保留相关性最强的一小部分边。实验表明，保留1%到20%的最强边时，预测效果基本稳定，这说明最有用的结构信号确实集中在最强的那些协作关系中。

**四关系图真的能预测AI的行为吗**

研究团队拿这套方法做的第一个测试，是看它能否预测AI模型对各类任务的回答是否正确。被测试的三个AI模型分别是InternVL3-1B、Qwen2.5-VL-3B和LLaVA-1.5-7B，涵盖了从小型到中型的常见视觉-语言模型。

测试任务涵盖了多个方向。CLEVR数据集用来测数数能力，比如让AI数图片里有几个物体；TDIUC数据集测语义理解，比如识别图片里的运动类型或颜色；MMMU和MMMU-Pro测试跨学科的综合推理能力；BLINK和EMMA则是更具挑战性的视觉感知和多模态推理任务。

每个任务的测试方式是这样的：从AI模型里提取每一层的关系图，用GCN读取结构指纹，然后训练一个简单的"探针"分类器来预测AI最终会给出正确还是错误的答案。同时，用一个最简单的线性分类器作为对照组。

结果显示，基于关系图的GCN探针在大多数任务和模型上都优于线性分类器。最明显的提升出现在CLEVR数据集上：GCN探针相比线性分类器，在LLaVA上提高了约7.7个百分点，在Qwen2.5-VL上提高了约4.3个百分点，在InternVL3上提高了约1.3个百分点。TDIUC上的表现同样出色，InternVL3的GCN探针准确率高达96.5%，Qwen2.5-VL达到97.6%，LLaVA达到95.4%，均高于各自的线性基线。

不只是分类任务，数数这件事也被测试了回归版本——即预测AI数出来的具体数字是多少。结果同样令人信服：GCN探针在均方误差（MSE，越低越好）、R?（越高越好）和皮尔逊相关系数（越高越好）三项指标上均优于线性基线。以InternVL3为例，线性探针的MSE为0.020，GCN探针降低到0.007；R?从0.996提升到0.999。这说明关系图里包含的不只是"对不对"的粗略信号，而是能精确反映数量判断的细粒度信息。

对于更难的多模态推理任务（如MMMU、BLINK、EMMA），GCN探针的优势相对缩小，表现更加参差不齐。这说明神经拓扑对于那些需要AI将视觉和语言紧密配合的接地气任务特别有效，而对于那些更依赖抽象推理的任务，其优势则相对有限。

研究团队还按照层的深度分析了探针表现。发现不同模型的最优层深度不同：Qwen2.5-VL在第27层附近的探针准确率最高，随后略有下降；而LLaVA和InternVL3的准确率曲线则比较平坦或逐渐下降。这说明不同架构的AI在哪一层"积累"了最多的任务相关信息是不同的。

**五能抓住"说谎"的AI吗**

现在的视觉-语言AI有一个著名的问题：它有时会"幻觉"，也就是信口开河地描述图片里根本不存在的东西。研究团队把神经拓扑用于检测这种幻觉行为。

使用的数据集叫做MHaluBench，包含2110个样本，其中一半是AI对图片的正常回答，另一半是AI产生幻觉的回答。任务是训练一个分类器，仅凭从AI内部读取的关系图结构，判断AI的某个回答是否属于幻觉。

作为对照，研究团队还设计了两个只看文字的简单基线：一种用Word2Vec提取问题和回答文本的平均词向量（即文字的"平均语义"），另一种直接用文本长度作为特征。这两种基线代表了"只看表面文字特征能否判断幻觉"。

结果明确：GCN探针在三个模型上都大幅优于文字基线。具体来说，Qwen2.5-VL-3B的GCN探针准确率高达91.0%，LLaVA-1.5-7B达到90.8%，InternVL3-1B达到78.9%。相比之下，文字平均向量基线只有65.4%、64.9%和66.4%，文本长度基线更低，InternVL3上甚至只有50.0%（相当于瞎猜）。这说明AI在说谎时，它内部神经元之间的协作模式确实发生了某种可被捕捉的变化，这种变化远比文字表面的特征更能暴露幻觉。

**六视觉和语言在AI大脑里是怎么融合的**

上述实验证明了关系图能预测行为，但一个更深层的问题是：AI在处理图片和文字时，内部的组织方式究竟是怎样演变的？两种信息是如何从各自独立变成协同工作的？

研究团队从三个角度对这个问题进行了分析。

第一个角度是观察不同类型的令牌（token）之间的相关性随层深度如何变化。这里的"令牌"可以理解为：AI处理图片时会把图片切成一块块"图像块"，每块对应一个视觉令牌；处理文字时每个词或子词对应一个文本令牌。研究团队计算了视觉令牌之间、文本令牌之间、以及视觉和文本令牌之间的平均相关性，并追踪这些数值随层深度的变化趋势。

结果显示出一个清晰的规律：随着层数加深，视觉令牌与文本令牌之间的相关性持续增强，文本令牌之间的相关性也随之增强，而视觉令牌之间的相关性则相对平稳。这个规律在多个模型和多种规模上都一致出现。这意味着，在AI的浅层，视觉信息和语言信息还是相对独立地被处理；随着层数加深，视觉信息越来越多地渗入语言处理的过程，两者逐渐融合。这种模式与研究者们对解码器式语言模型的理解是吻合的：视觉令牌更像是"条件输入"，随着深度增加越来越深刻地影响语言侧的表达。

第二个角度是观察"枢纽神经元"（hub neuron）的稳定性。在一张关系图里，一个神经元的"度"（degree）是指它与多少其他神经元有强关联，度越高就意味着这个神经元是关系网络里的"中心节点"，类似于公司里那个认识所有人、掌握所有信息的核心联络人。研究团队把每层中度最高的前1%神经元定义为"枢纽神经元"。

关键问题是：对于不同的输入图片和问题，枢纽神经元是否总是那几个？如果每次输入都对应不同的枢纽神经元，那说明这种结构只是随机涌现，没有稳定意义；如果枢纽神经元在不同输入下高度重合，那就说明AI内部存在一些固定的"核心枢纽"，是多模态处理的稳定组织中心。

实验结果显示，基于关系图定义的枢纽神经元确实具有很高的跨样本稳定性，远高于基于激活数值大小定义的"高活跃神经元"，也高于基于单一模态（视觉或文本）定义的枢纽神经元。也就是说，关系图揭示出了一批真正稳定的核心节点，而单纯看哪个神经元"叫得最响"并不能找到这些节点。

进一步按层深度分析发现，枢纽神经元的稳定性在中间层达到峰值，与视觉-文本相关性增强的区间大致吻合。这意味着，AI在中间层存在一批特别稳定的"核心联络员"，它们在处理不同输入时始终担任组织多模态信息的关键角色。

第三个角度是测试视觉关系图和文本关系图在结构上是否对齐，即它们是否处于一个共享的结构空间中。研究团队用一种对比学习的方式（InfoNCE目标函数）训练了一个对齐模型，让来自同一样本、同一层的视觉关系图和文本关系图彼此靠近，让来自不同样本或不同层的关系图彼此远离。然后用GAUC（图级别排名指标）来评估对齐程度。

以LLaVA模型的第6层为例，多模态-多模态自对齐的GAUC达到0.960，作为参考上限；文本-图像对齐的GAUC为0.819，低于自对齐，说明视觉和语言路径在结构上确实有差异，并未完全融合成一体；而将LLaVA的文本关系图与其骨干语言模型LLaMA的文本关系图对比，GAUC进一步下降到0.680，说明多模态训练确实改变了语言模型原本的内部结构。换句话说，多模态微调并没有把视觉和语言"焊死"成一个均质的整体，而是让它们部分靠近的同时保留了各自的结构特色。

**七找到关键节点，一戳就痛**

以上分析都是"看"的角度，最有说服力的证据来自"动手"——主动修改AI的内部关系，看看模型的输出是否会随之改变。研究团队设计了三种干预实验。

第一种干预是直接把被选中的神经元激活值清零（即让该神经元完全失声），比较不同选神经元策略带来的效果差异。选法有三种：随机选、按激活数值大小选（选那些"叫得最响"的神经元），以及按关系图中的度值选（选真正的枢纽神经元）。

结果非常清晰：无论在TDIUC还是CLEVR任务上，让枢纽神经元失声带来的性能下降都是最大的，远超随机选和按激活强度选。在InternVL3-1B的第11层和Qwen2.5-VL-3B的第0层上，消除枢纽神经元后，模型在某些任务上的准确率下降幅度达到数十个百分点，有的甚至超过50%甚至80%，而消除同数量的"高激活"神经元或随机神经元造成的影响则小得多。这清楚地说明，关系图中的枢纽神经元在功能上的重要性要高于那些单纯激活值大的神经元。

第二种干预针对的是"边"而非"节点"，即对关系图中最强的一条边（即全数据集中协作关系最强的那对神经元）进行干预。方法是固定这对神经元中的一个，对另一个做不同处理：把它替换为对方的激活值（IDENTICAL，即两个神经元的信号完全一致）；把它替换为对方激活值的负数（OPPOSITE，即信号完全相反）；或者把它替换为一个随机向量（RANDOM，即完全无关的噪声）。

三种干预带来的效果形成了明显的梯度：IDENTICAL干预对性能几乎没有影响，甚至在某些情况下略有提升；RANDOM替换带来中等程度的性能下降；而OPPOSITE替换造成的破坏最大，尤其是在Qwen2.5-VL-3B上，颜色识别和计数任务的准确率都出现了大幅下降。这说明一对神经元之间的关系中，不仅神经元的身份重要，它们之间信号的协调方向（同向还是反向）同样至关重要——关系图在"边"的层面也承载了功能意义。

第三种干预是直接缩放特定枢纽神经元的激活值，看看它的大小变化如何影响模型输出。研究团队在InternVL3-1B上选了第11层的第62号神经元，在Qwen2.5-VL-3B上选了第0层的第71、318、294、528、583号神经元，分别将它们的激活值乘以不同的系数（从-1到2，覆盖抑制、正常、增强三种情形）。

结果出乎意料地直观：即使是很小的扰动，也会造成颜色识别和数数任务准确率的明显下降，而且这种下降对放大和缩小都同样敏感——曲线呈现出以原始值为中心的"U形"，左右两侧都是性能的坑。这说明这些枢纽神经元在一个很窄的"舒适区"内工作，激活值稍微偏离正常范围就会打乱整个系统的平衡，类似于乐队中的指挥——声音太小没人听，声音太大反而乱了节奏。

**八它和既有研究的关系**

在VLM可解释性研究这个领域，以前的主流方法大致可以分为两类。一类关注注意力机制，分析Transformer架构中哪些位置在"关注"哪些输入；另一类关注梯度或显著性图，追踪哪些像素或词汇对输出贡献最大。这些方法提供的都是局部解释，只能告诉你"这张图的哪个区域最重要"，而不能解释"这些区域的信息是如何在整个网络中被组织起来"。

另有一类研究方向叫做"机制可解释性"，试图找出AI内部实现某种功能的具体电路——比如，哪条神经元连接链条负责处理"否定"语义。这类研究极度细粒度，但计算成本极高，而且往往只能分析模型的某一个极小子集。

神经拓扑方法恰好处于二者之间：比局部归因更丰富，因为它考察的是整个层内神经元之间的组织模式；比全电路分析更可操作，因为它不需要枚举每一条信号通路。用研究团队自己的话说，这是一个"有意义的中间尺度"——足够丰富，又足够实用。

在神经科学领域，这种从单个神经元上升到群体动力学的思维转变经历了几十年的发展，逐渐揭示了大脑中枢纽节点、小世界网络和功能模块等组织原则。研究团队的核心论点是：AI的多模态推理也更适合被理解为一种有组织的群体动力学现象，而非若干独立组件的简单叠加。

说到底，这项研究最令人印象深刻的地方不只是它给出了一套新工具，而是它把三件事统一在了同一个框架下：预测模型行为（探针实验）、理解内部组织方式（多模态结构分析），以及主动影响模型输出（干预实验）。这三件事彼此印证，共同指向同一个结论：神经元之间的协作关系网络，是理解AI多模态推理的一个有效切入点。

归根结底，这项研究做的事情就是给AI的大脑画了一张"社交网络图"，发现了一小批"社交核心人物"，然后用各种方式验证了这些核心人物确实举足轻重。这不仅帮助我们更好地理解AI是如何工作的，也为将来修正AI的错误行为、减少幻觉、提高可靠性提供了一条新的思路。当AI越来越多地参与到医疗诊断、法律分析、教育辅助等高风险场景时，能看清它内部在"想什么"这件事，其重要性将会越来越突出。

对于想进一步了解这项研究的读者，可以通过arXiv编号2603.27070查阅完整论文，或访问研究团队公开的代码库（github.com/he-h/vlm-graph-probing）自行复现相关实验。

---

Q&A

Q1：神经拓扑方法和传统的注意力图分析有什么本质区别？

A：传统注意力图分析关注的是某个输入位置被"关注"多少，本质上还是在看单个信息通道的重要性，就像只看一条高速公路的流量。神经拓扑方法关注的是整个层里数千个神经元之间的协作关系网络，类似于观察整个城市的交通网络结构——谁和谁连通，谁是枢纽，哪些路段协同繁忙。这种视角能捕捉到注意力图完全看不到的群体组织模式，因此在某些任务上能更准确地预测模型行为。

Q2：枢纽神经元被干预后模型性能下降这么厉害，是不是说明可以用这个方法来修复AI的错误？

A：这是一个很自然的延伸想法，但目前的研究还停留在"识别和验证"阶段，尚未直接给出修复方案。研究证明了枢纽神经元对模型输出有实质影响，这为未来针对性地调整这些关键节点提供了思路。不过从"知道哪里重要"到"如何精确纠正错误"还有相当距离，需要进一步研究来确定如何安全、有效地调整这些节点而不引入新的问题。

Q3：神经拓扑方法对所有类型的视觉-语言任务都有效吗？

A：不完全是。研究结果显示，神经拓扑对那些需要视觉和语言紧密配合的"接地气"任务（比如数物体个数、识别颜色、判断运动类别）效果最好，GCN探针相比线性基线有显著提升。但对于MMMU这类需要复杂跨学科推理的任务，提升幅度则比较有限，甚至部分指标未能超过线性基线。这说明神经拓扑捕捉的是与多模态感知融合密切相关的结构信号，对于更抽象的推理任务则覆盖不足。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

SAP ECC6 EC-CS 标准报表项目 FS Item 编码表

终极解决方案：3步快速重置JetBrains IDE试用期的免费工具

开源协议踩雷实录：MIT项目被AI生成代码污染后，企业如何紧急止损？

需要专业的网站建设服务？