
作者 | 江宇 王涵
编辑 | 心缘
智东西 1 月 1 日报道,昨日晚间,DeepSeek 团队送出一份新年 " 贺礼 ",正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。
DeepSeek 创始人兼 CEO 梁文锋这次同样出现在了合著名单之中。


为此,DeepSeek 提出了 mHC(Manifold-Constrained Hyper-Connections)方案,将 HC 中的残差映射矩阵投影到双随机矩阵构成的 " 流形空间 ",在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。

实验证明,这一 mHC 方法在大规模训练中展现出显著稳定性,仅引入6.7%的训练时间开销,在多个下游任务中超越 HC 与 Baseline 模型。

一、传统残差连接的升级难点:性能提升,但稳定性丧失
当前主流模型广泛采用 Residual Connection 架构,其核心优势在于具备 "恒等映射" 特性,可稳定信号传播、避免训练过程中信号衰减或放大。
但近年来如 Hyper-Connections(HC)等结构,为提升表达能力引入更复杂的连接拓扑,将残差通道扩展至 n 倍宽度,并通过多个可学习映射矩阵对输入与输出特征进行重组。
然而,HC 的自由形态也打破了恒等映射约束,导致训练中存在信号爆炸(最高放大至 3000 倍)或梯度异常的问题。

此外,HC 还显著提高了 GPU 内存占用和通信带宽需求,限制了其在更大规模模型中的使用效率。
二、mHC 关键机制:将残差映射投影到 " 流形 " 上恢复恒等映射
DeepSeek 提出的 mHC 本质上是对 HC 的稳定性重构。

其核心在于:不再直接使用无约束的残差映射矩阵 H_res,而是通过 Sinkhorn-Knopp 算法将其投影到 "Birkhoff 多面体 "(即双随机矩阵流形)上。
这一投影操作使 H_res 具备以下三大性质:
1、所有行列和为 1,具备能量守恒性,避免信号放大或衰减;
2、在矩阵乘法下闭合,即跨层传播仍保稳定性;
3、具备几何可解释性,是所有排列矩阵的凸组合,有利于特征信息融合。
论文中还提到,将输入 / 输出映射 H_pre、H_post 也做了正值约束,可进一步避免信号抵消现象。

三、实测效果:mHC 显著提升训练稳定性与下游表现
此后,论文对比测试了 Baseline、HC 和 mHC 三种模型在 27B 参数规模下的训练表现与推理性能。实测结果表明,流形约束超连接(mHC)在大规模训练场景下显著优于传统超连接(HC)。
训练稳定性方面,对比传统残差、HC 与 mHC,HC 训练中损失震荡发散,梯度爆炸;mHC 损失平稳收敛,梯度稳定。

分析表明 HC 的复合映射增益高达 3000(信息爆炸),而 mHC 控制在 1.6,接近理想恒等映射,信号保真度高。
这说明,mHC 通过双随机流形约束,有效抑制了多层堆叠中的信号放大与梯度爆炸问题,损失曲线平稳收敛,梯度范数保持稳定,解决了 HC 因数值不稳定导致的训练发散缺陷。
性能表现方面,27B 模型在 BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU 等任务显著优于 HC 与基线,取得显著增益,最高提升达 2.3 个百分点,验证了其在复杂推理与语义建模中的优势。

可扩展性方面,3B-27B 模型验证,mHC 性能增益随规模扩大保持稳定甚至增强(如 DROP 提升从 1.5 → 2.3),显示深层大模型中的信号保真需求更高,展现出良好的泛化能力与深层适配性。1T token 训练下无过拟合,泛化能力增强。

系统效率方面,通过内核融合、重计算与通信重叠优化,mHC 在扩展率 n=4 时仅引入 6.7% 的额外开销,通过内核融合(带宽提升 22%)、重计算(内存降 40%)及流水线优化(GPU 利用率 >90%),实现高效训练,工程可行性高。
结语:mHC 或为下一代基础架构指明演进方向
作为 HC 范式的广义扩展,mHC 为未来研究开辟了多个前景广阔的路径。
DeepSeek 团队在结论中说,尽管本研究采用双随机矩阵确保稳定性,但该框架能容纳针对特定学习目标设计的多种流形约束探索。他们预计,对几何约束特性的进一步研究可能产生新颖方法,从而在可塑性与稳定性之间实现更优权衡。
此外,研究团队希望 mHC 能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC 或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。