mHC：DeepSeek残差连接革命性改良方案，提升大模型性能的关键技术解析！-酒店常州论坛

简介

本文解析DeepSeek提出的mHC架构，这是对传统残差连接的创新改进。mHC通过双随机矩阵限制信息增强幅度，解决了HC架构训练不稳定问题，同时保留信息扩容能力。实验表明，mHC模型在计算成本可控的情况下实现更优性能，Loss显著降低，下游任务分数更高。这一架构创新性地将残差流信息容量与计算复杂度解耦，为神经网络设计提供了新思路。

DeepSeek 2025 年底放出了一篇论文《mHC: Manifold-Constrained Hyper-Connections》，讲的是一种新的神经网络架构设计。

因为近期我也在学习 transformer 架构，这篇论文正当其时，补充了我之前了解比较少的残差连接。

论文讲的架构，是对传统残差连接的代替。

mHC 是对 HC 的改良

首先，mHC 是对 HC 的改良：一个标准 transformer 架构的 LLM，其推理过程，从数学上说就是原始词向量输入，加上前文所有的原始词向量，在内部经过很多轮计算，词向量会经历不断的变形。

在注意力机制这里，它根据上下文的内容去变，比如假设这样一个例子——“他爸爸喝了酒，打了他，他……”。

最后一个“他”字的原始词向量，经过注意力机制的计算，变成了一个包含了大约“一个被喝醉的爸爸打的可能受伤/可能叛逆/可能此刻很愤怒……的人”的信息的向量。

这个向量经过标准残差连接的计算，被附加到原始词向量上，成为携带了上下文信息的向量，被送入 FFN（前馈神经网络）进行计算。

FFN 是一个巨大的矩阵，通常认为信息在这里会被进行更加广泛和深度的处理，然后过滤掉信号弱的特征。这是一个升维再降维的过程，升维是为了把信号展开，也可以叫稀疏化。

还是拿前面这个例子来说，在 FFN 这里，这个包含了“喝酒/暴力/亲子关系”等的向量，激活了更多的信息（世界知识），比如：父权/父子裂痕/……并排除了一些极低的可能性，比如“沏茶帮父亲醒酒”之类的……

这些信息继续经过标准残差连接的计算，被附加到上一轮算出来的向量上。

然后再送入下一层，再进行一轮新的“注意力机制+FFN”的计算。模型有多少层，就要计算多少轮。

而 HC（Hyper-Connections），本来是标准的残差连接的替代设计——标准的残差连接，原来向量多长（多少维），传下去的还是多长，这一步做的只是一个简单的相加，把上一步算出的新信息加到旧信息上。

HC 则把这一步简单的新旧相加，变成一个更复杂的计算。

向量本身会变长很多（比如 4 倍）。多出来的空怎么填？这里先不展开，放在后面说。

简单说是一种新旧信息的“混合搅拌”。传统的残差连接简单相加的方式，可能太机械，不能充分利用信息。

但事实证明，用了 HC 的架构，模型训练很不稳定，可能因为 HC 对信号的放大过强，因为残差连接要算很多次，等于说每次经过注意力机制或 FFN 的计算后，这种“内部信号的搅动”会发生多次。

而 deepseek 搞出来的 mHC，就还是保持 HC 对向量的“扩维”，也就是比传统的架构更大的信息传递容量，但是对信息的增强的幅度进行了限制，也就是在残差连接这一步，将原来的 HC 的残差连接矩阵变成一个双随机矩阵（非负、行和列的和都为 1）。

这就意味着，信息容量依然被保留了下来，但信号不会随着层层计算过度增强。

当然，前面说的是一个被训练好的模型，会因为 HC 的架构而过度增强某些特征。

事实上，这样的模型可能根本训练不出来，就是因为它的信号增强或消失的趋势太陡了，以至于按下葫芦浮起瓢，根本无法出厂，或者训练过程调整起来特别费劲。

所以，mHC 的作用就是：保留扩大的特征容量的传递，但不让它们上天。

当然，deepseek 的研究不只是说这样一个算法上的改变，他们还进行了工程上的优化，也就是改进训练速度和显存利用。

为什么要 HC

因此下一个问题就出现了：为什么要 HC？

如果说 mHC 是解决稳定性和可塑性的平衡（论文的说法：Trade-off between Plasticity and Stability）。

那么，回到一个更前置的问题：为什么要改变标准的残差连接，要用 HC？

我更个人化的疑问是：为什么要用残差连接来解决可塑性？直觉上，注意力机制和 FFN 的计算，也能起到类似的效果，不断激活各种特征，然后再丢弃不重要的，保留重要的……

特别是 FFN，它是一个巨大的神经网络，该激活的，在 FFN 这里应该很难被放过。

马上能想到的答案是：HC 可能提升的是模型的性价比。这也是 deepseek 的一贯路线：以更低的成本去训练模型。

其实，HC 这一步的计算，虽然比起标准的残差连接复杂很多，但依然很简单，因为它全程几乎都是线性的矩阵变换——

前面说了，标准的残差连接是直接把旧的向量加上新的向量。而 HC 把旧向量和新向量先分开来处理：

旧的向量的处理方法是复制成 4 份，但乘以相应的权重，就像等比例线性变换，然后到堆叠到一起，变成一个 4*C 的矩阵（宽残差流）：

示意图

然后去乘以 4*4 的权重矩阵，等于把 4 份里的旧特征进行混合，得到一个结果。

而对于上一步计算出来的新的向量，也可以理解成变成 4 份，通过一组权重系数计算，加入到被混合后的旧特征里。

所以：(旧向量经过特征搅拌) + (新向量经过分发)=HC 计算出来的宽向量

这个结果就是更新后的宽向量，当这个新的宽向量要送入下一层的 FFN 或 Attention 进行具体计算时，会先通过一组权重进行加权求和（变窄），提取出最需要的 C 维信息送入计算单元。算完后再变宽，周而复始。

比如想象这样一种可能性：向量在经过了前面的第一层之后，获得了“父权”特征，经过了第二层之后，获得了“窝里横”特征。

而原来一直携带有“喝酒”特征，在从第二层出来后，“父权”特征主要被分发到流 1，“窝里横”特征主要被分发到流 2。

通过 HC 的混合和变窄，这两个新特征和旧特征被汇聚到了同一个流里，形成了一种“喝酒+父权+窝里横”的复合语境，为第三层 FFN 能够激活“撒酒疯”特征做好了铺垫。

但是理论上标准残差一样能携带这些信息，为什么还要用 HC？

因为 HC 有了去噪的能力。HC 是把注意力机制和 FFN 处理之后的信息放在一个“更大的工作台”上再进行一轮加工。

就像前面说的，这个“更大的工作台”上的加工，本质上是不同流的线性变换和混合，也就是乘法和加法，而标准残差只有加法。

加法只能叠加，而乘法让模型在 HC 这一步也拥有了筛选的能力。（想想一个调音台是怎么工作的）

到这里，我们就会发现——HC（特别是 mHC）很像另一种注意力机制。

跟注意力机制对比

DeepSeek 的 mHC 甚至让这种相似性变得更强了：HC 是无约束的，而 mHC 加上了双随机约束（行和列和都为 1）。这跟注意力机制里的 Softmax 归一化异曲同工。

不过，和常规的注意力模块不同，HC/mHC 不做全连接的计算，只做流维度的计算，也就是一个流内的信息不会互相交换，所以它既起到了注意力的调度作用，又不太费算力。

虽然每一次只有 4 条流在交换，但模型有几十层，层层叠加下来，组合的复杂度也是指数级的。而且，它增加的计算量很小。

因此，论文认为 HC 的价值，是：

“With this design, HC effectively decouples the information capacity of the residual stream from the layer’s input dimension, which is strongly correlated with the model’s computational complexity (FLOPs).”

（通过这种设计，HC 有效地将残差流的信息容量与层的输入维度解耦，而输入维度与模型的计算复杂度（FLOPs）强相关。）

也就是说，残差流的信息容量可以跟计算复杂度解耦，信息容量可以很宽，但不会带来计算成本的显著上升。

而残差流的信息容量的变宽，并非单纯是为了携带更多信息，而是为了携带更清晰、更解耦的信息。

论文中对照实验的结果

参照系：一个标准的 DeepSeek-V3 架构模型（27B 参数）；残差流宽度：C (2560 维)；

实验组（mHC）：在上述基础上，引入 mHC；残差流宽度：变宽为 4C；其他配置完全一致（FFN 宽度、层数、注意力头数等）。

实验结果：

mHC 模型的 Loss 显著更低，下游任务（如数学 MATH、代码、逻辑推理 BBH）的分数显著更高。
mHC 模型的性能曲线始终在 Baseline 之上。这意味着为了达到同样的智能水平（Loss），mHC 模型需要的训练计算量更少。

虽然论文没有说“可以把 FFN 缩小”，但实验暗示了——如果只需要达到 Baseline 的性能水平，确实可以用一个参数更少（FFN 更小）、但带有 mHC 的模型来实现。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

企业官网建设流程全解析

如何学习AI大模型？

学习路线

👉学会后的收获：👈

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？