钛媒体 App 1 月 1 日消息,DeepSeek 发布了一篇新论文,提出一种名为 mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接(HC)在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。据介绍,mHC 能够将 HC 的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。实证实验表明,mHC 能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek 预计,mHC 作为 HC 的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人梁文锋也在作者名单中。(广角观察)
钛媒体快报
31分钟前