关于ZAKER 合作
钛媒体 2小时前

DeepSeek 开源 Engram,如何做到推理损失仅 3%?

上新 mHC 之后,DeepSeek 再出大招。

1 月 13 日凌晨,DeepSeek 在 GitHub 开源了名为 Engram 的模块,并同时发布了与北京大学联合撰写的论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)。

截图来自 GitHub

该论文共 14 名作者,DeepSeek 创始人、CEO 梁文锋的署名列于最后。1 月 1 日,DeepSeek 的发布关于 mHC 架构的论文,引发广泛关注,梁文锋同样署名,并列于最后。

两篇论文体现了 DeepSeek 一直以来的方向:打破算力成本硬约束,通过架构、方法论创新,走出更具性价比的道路。

如果说此前的 mHC 是提出一种新的底层架构,那么,条件存储更类似于架构层面的分工重构。

根据 DeepSeek 的研究,Engram 是被设计成可微分、可训练、原生嵌入模型结构的组件,其核心是把记忆性负载从主干计算中剥离出去,规避低效的反复计算,通过高速检索模块直接调用稳定存在、高频出现的知识。

Engram 首先会提供确定性检索。模型基于当前 token 和前文形成的 N-gram,通过哈希映射,直接从一个超大规模的静态嵌入表中取出对应向量,无需依赖复杂的神经计算,速度更快、路径稳定。

此后,Engram 会通过引入轻量化门控机制,由当前层的隐藏状态来判断这段记忆是否真的适合当前语境,避免查到就用的生硬注入。

换句话说,Engram 既能在输入端解决 " 记得住 " 的问题,也能在输出端优化 " 说人话 " 的表现。

DeepSeek 还称,实验表明,相关机制在时间、专有名词等固定模式下高度活跃,而在自由生成和复杂推理时几乎不介入。这就在强化了记忆功能的同时,避免了不合时宜的幻觉出现。

在整体架构上,DeepSeek 把大模型的能力拆成了三个相互独立、又彼此协作的维度。

首先是决定逻辑与抽象能力的模型深度,其次是以 MoE 为代表,减少每次激活计算量的计算稀疏性,以 MoE 为代表,减少每次激活的计算量。而第三维正是存储稀疏性,也就是 Engram 引入的条件记忆。

此前,大模型厂商开发记忆模块时,会担心影响模型的计算能力和推理性能。

根据论文,DeepSeek 通过 U 型扩展定律解决平衡问题,在总参数和算力预算固定的情况下,研究团队系统性地调整 MoE 和 Engram 的比例,得出将 20% 至 25% 的稀疏参数分配给 Engram 的最优平衡点。

其测试数据称,即便挂载了规模高达千亿参数的 Engram 记忆库,推理吞吐损失也能控制在 3% 以内。

The Information 援引知情人士消息称,DeepSeek 预计将在今年中国春节前后发布最新的 V4 模型,核心突破主要在于超长代码提示词的处理、解析能力,以及全流程训练中数据模式的理解力。

这也意味着,新模型不仅推理性能会大幅提升,还会更擅长处理复杂任务时,而编码能力也是新模型的主打能力。知情人士称,其内部初步测试结果已经超越了 Anthorpic 的最强编程模型 Claude。

Anthorpic 为守护编程能力优势和入口通道,近期已陆续切断 Claude Code 的第三方平台入口,1 月 12 日,又放出 Cowork,主打办公场景的 Agent 落地,可以自动帮助用户完成制作 PPT、整理电子邮件、制定工作计划等各类任务,上手门槛较低。

目前还不清楚 mHC 和 Engram 在 DeepSeek 新模型中的具体角色和情况,但即将到来的旗舰新品,市场在期待它能再带来一次 "DeepSeek 春节冲击波 "。(作者|胡珈萌,编辑|李程程)

相关标签

觉得文章不错,微信扫描分享好友

扫码分享