DeepSeek V4" 迟到 " 半年,但发布后的好评如潮还在如潮。
中外热搜上了一整圈,科技媒体的版面今天都让给了它,OpenAI 也成了它的陪衬。




第一条,百万 token 上下文全面开源,KV cache 大幅缩减。
V4-Pro 和 V4-Flash,1.6 万亿参数 /2840 亿参数,上下文都是 1M。1M 场景下,V4-Pro 的单 token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%。
亚马逊硬件师 GPD 表示,这意味着 DeepSeek 可能解决当前的 HBM 短缺问题。


mHC(流形约束超连接):2025 年 12 月 31 日上传 arXiv,梁文锋挂名。进了 V4。
Engram(条件记忆模块):1 月 DeepSeek 联合北大发布。没进 V4,但在未来方向里被点名,留给 V5。
DualPipe:V3 老伙计。继续用,针对 mHC 做了调整。
Muon 优化器:从 Kimi 那边借的。V4 把 AdamW 替了,接管绝大多数参数的训练。
四个预期,三个落地,一个给下一代。

V4 这一代,是 DeepSeek 系列里动刀最多的一版。相比 V3,V4 在三个地方做了升级。
第一,引入 mHC(Manifold-Constrained Hyper-Connections)强化残差连接。
第二,设计 hybrid attention 架构,CSA 和 HCA 交替叠加,解决长文效率问题。
第三,采用 Muon 作为主优化器。

一些细节微调包括,affinity score 的激活函数从 Sigmoid 换成了 Sqrt ( Softplus ( · ) ) ,去掉了 routing target nodes 的数量约束,前几层 dense FFN 换成了用 Hash routing 的 MoE 层。
接下来,我们一个个看。
mHC,给残差连接加一层约束
残差连接是何恺明2016 年在 ResNet 里提出来的,十年没怎么变过。模型一层一层堆,梯度沿着残差往回传,这是深度学习能 work 的前提。
但模型越来越深、参数越来越多之后,传统残差开始露怯,信号传递不稳,训练容易崩。

A、B、C 是三个线性映射。想法很优雅,相当于给残差流增加了一个新的 scaling 维度。但 DeepSeek 在堆多层时发现,HC 经常出现数值不稳定,训练说崩就崩。
V4 的做法叫 mHC,把矩阵 B 约束到「双随机矩阵」的流形上(数学上叫 Birkhoff polytope),行和列都归一化为 1。这个约束带来两个好处。
矩阵的谱范数天然不超过 1,残差传播套上硬上限,爆不起来。
这种矩阵在乘法下是封闭的,堆很多层也稳。
输入映射 A 和输出映射 C 则通过 Sigmoid 函数保证非负且有界,避免信号互相抵消。
实现上用 Sinkhorn-Knopp 迭代,交替做行归一化和列归一化,迭代 20 次收敛。整个过程对每一层都跑一遍。
听起来贵,但 DeepSeek 做了 fused kernel,再配合选择性 recomputation,实测 mHC 带来的 wall-time 开销控制在 overlapped pipeline 的 6.7%。
技术判断上,mHC 不是那种让人眼前一亮的架构创新,更像是一个「稳得住大模型」的工程补丁。但随着模型深度和参数量继续往上推,这种补丁会变成刚需。
混合注意力机制
这是全篇论文最厚的一块,也是「百万 token 效率」的核心魔法所在。
V4 的注意力层不是一种,是两种交替使用的结构,CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)。
CSA 做两件事,先压缩,再稀疏选择。

第二步,lightning indexer + top-k 选择。这部分继承自 V3.2 的 DSA。对每个 query token,用一个轻量的 indexer 计算它和每个压缩 KV 块的相关性分数。
第三步,core attention。 在选中的这 top-k 压缩 KV 块上做 Multi-Query Attention,得到注意力输出。
第四步,grouped output projection。 因为 V4 把 head dimension c 设成了 512(比 V3.2 的 128 大得多),如果直接把所有 head 的输出投影回 d 维会很贵,所以做了分组投影,把 n_h 个 head 分成 g 组,每组先投影到一个中间维度 d_g,最后再合并投影回 d。
整个 CSA 等于做了两层压缩。第一层是序列长度压缩,n 变成 n/m。第二层是稀疏选择,n/m 变成 top-k。对 1M token 的序列,原本需要 attend 1M 个 token,现在只需要 attend 1024 个压缩块。
HCA 的思路更简单粗暴,压得更狠,但不做稀疏。

论文里没有长篇大论地解释 CSA 和 HCA 为什么要配对使用,但读完整个 architecture 章节,能看出它们的分工。
CSA 的压缩温和、靠稀疏把关,适合做 token-level 的精细检索。HCA 的压缩凶猛、保持 dense,适合做长距离的全局信号汇总。
V4 把两者层层交替。Pro 有 61 层,Flash 有 43 层,CSA 和 HCA 一层一层往上叠。既不漏细节,也不被细节拖住。
此外,论文还透露了几个 trick。
Q/KV normalization。 CSA 和 HCA 在 core attention 之前,都对 query 和 KV entries 做一次 RMSNorm,防止 attention logits 爆炸。
Partial RoPE。 只对 query 和 KV entries 的最后 64 维施加旋转位置编码,其余维度不动。
因为 KV entries 既做 key 又做 value,naive 的 RoPE 会让输出带上绝对位置信息,所以在 output 端也对应施加一个位置为 -i 的 RoPE 来抵消,只保留相对位置信息。这是个巧妙的工程处理。
Sliding window attention 作为辅助分支。
因为压缩注意力保证严格因果性,一个 query token 看不到自己压缩块内其他 token 的信息。为了补偿近距离依赖,V4 额外加了一个 sliding window 分支,每个 query 除了看压缩 KV 之外,还能看最近 128 个 token 的 uncompressed KV。
Attention sink。 借鉴 OpenAI 和 StreamingLLM 的 trick,在 attention 分母上加一个 learnable sink logit,允许 attention score 总和不等于 1。
这在长序列里尤其有用,能避免模型被迫把注意力均摊。
Muon 优化器
V4 训练中绝大多数参数优化用的不是 AdamW,是 Muon。
Muon 是前几年 Keller Jordan 那批人(他现在在 OpenAI)在小模型上验证过的优化器,基于矩阵正交化。
它只优化 2D 参数矩阵,其他参数(embedding、prediction head、RMSNorm 权重、mHC 的静态偏置等)还是走 AdamW。
Muon 在 LLM 规模上的第一次大规模验证是 Kimi K2。 2025 年,Moonshot 用 Muon(加上他们自己的 QK-Clip 变种,合称 MuonClip)训了一个 1T 参数的 MoE,15.5T token,全程零崩溃。
现在 DeepSeek 也用上了。不过他们做了自己的版本,hybrid Newton-Schulz 迭代,10 步分两段。
前 8 步用激进系数,快速把奇异值推向 1 附近。
后 2 步用温和系数,精确地把奇异值稳定在 1。
这里有个细节值得注意。Kimi 用 Muon 需要 QK-Cip 来防止 attention logits 爆炸,DeepSeek 没用这招。他们的理由是,V4 的注意力架构允许直接对 query 和 KV 做 RMSNorm,从源头把爆炸的可能压住了。
两家公司,同一个优化器,解决同一个问题,走的是两条路。这种跨团队的技术共享和各自演化,是 2026 年开源社区最有意思的一面。
模型训练
DeepSeek-V4 系列在预训练数据量上实现了翻倍。
对比 V3 仅用 14.8T Token 训练,V4-Flash 与 V4-Pro 的数据消耗量分别达到了 32T 和 33T。训练数据量整整翻了一倍多(增长约 1.2 倍)。
数据构成上,长文档数据单独 curate,优先收录科学论文和技术报告这类有学术价值的长材料。tokenizer 仍用 V3 的 128K 词表。
在模型架构上,V4-Flash,43 层,隐藏维度 4096。
MoE 用 1 个 shared expert + 256 个 routed experts,每 token 激活 6 个。总参数 284B,激活 13B。
V4-Pro,61 层,隐藏维度 7168。MoE 用 1 个 shared expert + 384 个 routed experts,每 token 激活 6 个。总参数 1.6T,激活 49B。
训练调度上,序列长度走四段,4K → 16K → 64K → 1M。sparse attention 不是从头打开,前 1T token 用 dense attention 做 warmup,扩到 64K 时才 introduce sparsity。
论文表示,训练中间出过一次严重的 loss spike,DeepSeek 摸到两个土办法,Anticipatory Routing 和 SwiGLU Clamping。论文原话非常诚实,这两个 trick work,但底层机理仍是 open question。
一个训练了两个万亿参数 MoE 的团队公开承认「我们不知道为什么这两个 trick 管用」,在 2026 年已经是一件挺稀罕的事。
在后训练阶段,V4 这一代做了一次方法论替换,传统的 mixed RL 阶段被 On-Policy Distillation(OPD)完全替代。
流程分两步。
第一步,训 domain specialist。
数学、代码、agent、指令跟随四个领域,各自独立训一个 expert。先 SFT 打底,再用 GRPO 做 domain-specific RL。V4 还引入了三档 reasoning effort mode,Non-think、Think High、Think Max,每档输出长度不同。
第二步,OPD 合并。
十几个 expert 通过 on-policy distillation 合进一个统一的 student。student 自己 rollout,最小化 reverse KL 向对应领域的 expert 对齐。数学任务向数学 expert 靠,编程任务向编程 expert 靠。
方法论听起来很优雅。但工程上装不下,十几个 teacher 每个都是万亿级,vocab size 超过 10 万。
V4 的做法是 teacher 权重 offload 到分布式存储按需加载,只缓存 hidden states 不 materialize logits,按 teacher 排序样本保证每个 mini-batch 只加载一个 teacher head。
一套看似优雅的后训练方法论,背后是一堆「不这样做就装不下」的工程妥协。
实验结论
在实验部分,有三件最值得说的事。

SimpleQA-Verified 上 V4-Pro-Max 拿到 57.9,K2.6 是 36.9,GLM-5.1 是 38.1。领先所有开源模型 20 个百分点。
匹敌闭源。
Codeforces rating 3206,超过了 GPT-5.4 的 3168 和 Gemini-3.1-Pro 的 3052,在人类选手榜单上排名第 23。开源模型匹敌闭源头部,这次是真的匹敌了。
差距仍在。
HLE 上 V4-Pro-Max 37.7,Gemini-3.1-Pro 44.4,Claude-Opus-4.6-Max 40.0。1M MRCR 上 V4 优于 Gemini 但明显不如 Claude。知识类和最前沿的推理任务仍有 3-6 个月的 gap。
论文中,DeepSeek 表示:
DeepSeek-V4-Pro-Max 在标准推理 benchmark 上优于 GPT-5.2 和 Gemini-3.0-Pro,但略落后于 GPT-5.4 和 Gemini-3.1-Pro。这表明其发展轨迹大约落后最前沿闭源模型 3 到 6 个月。
Flash-Max 可能是这篇论文最被低估的一部分。
V4-Flash-Max 只激活 13B 参数,推理任务上能打平 GPT-5.2 和 Gemini-3.0-Pro,代码和数学甚至超过 K2.6-Thinking。
如果只看激活参数量,这是目前效率最极致的推理模型之一。
现实任务里最值得提的是内部 R&D 代码 benchmark,V4-Pro-Max 67%,接近 Claude Opus 4.5 的 70%。
85 人的内部开发者调研里,91% 表示 V4-Pro 可以作为主力 coding 模型。
在官方的推文中,也侧面印证了这个说法:
目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。
在论文的最后,DeepSeek 也表示:
为了追求极致的长文效率,V4 系列采取了一个相对激进的架构设计。为了降低风险,我们保留了许多已经验证过的组件和 trick,这让架构变得相对复杂。在未来的迭代中,我们将进行更全面、更有原则的研究,把架构精简到最本质的部分。
未来方向几条,探索新维度的 sparsity(点名了 Engram 那条线)、低延迟架构、长时程多轮 agentic 任务、多模态、更好的数据 curation。
有个蛮有意思的小细节,在形式化数学评测中,DeepSeek 也皮了一下友商:
我们在 K2.6 和 GLM-5.1 的部分条目留空了,因为它们的 API 太忙,没法及时返回我们查询的结果。

总结
把 V4 放回 DeepSeek 的完整路径里看,它不是在追赶 frontier。
过去三年的趋势非常清晰。闭源大厂追求的是能力上限,谁家的模型能在 HLE 上拿更高分。DeepSeek 追求的一直是另一条线,同样能力下的成本下限。
V4 把这件事推到了百万 token。一个 1M 的上下文,在 V3.2 的成本结构下是不可持续的,KV cache 会把显存吃光。V4 把它压到 V3.2 的 10%,成本曲线突然打直了。

DeepSeek 这几年做的事,底层动作很清晰,一直在删。从 V2 的 MLA 开始,每一代都在删 KV cache、删激活参数、删注意力计算量。
删到 V4,单 token 推理 FLOPs 砍到四分之一,KV cache 砍到十分之一。
百万 token 不是一个新的能力,是同一个上下文窗口被压到可以承担的成本。
One more thing
论文的结尾有一份长长的贡献者名单。
梁文锋在其中。

过去这一年,关于 DeepSeek 人才流失的消息传过好几轮。但这份名单把他们的名字和 V4 这个大家等了整整一年多的模型,绑在了同一张纸上。
每一个人都算数,每一天也都算数。
V4 发布当天,DeepSeek 研究员陈德里在 x 上转发并写道:
DeepSeek-V3:2024 年 12 月 26 日。
DeepSeek-V4:2026 年 4 月 24 日。
484 天后,我们谦卑地分享这份爱心的劳动。
一如既往,我们始终坚持长期主义和全民开源。
AGI 属于每个人。

[ 1 ] https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
[ 2 ] https://arxiv.org/pdf/2512.24880
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与衍生产品浪潮。
但真正值得长期关注的 AI 公司和产品,或许不止于此。
如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/
一键关注 点亮星标
科技前沿进展每日见