DeepSeek V4 登顶了 ! 梁文锋把四大技术秘方公开 _ 新闻

智东西（公众号：zhidxcom）

作者 | 杨京丽

编辑 | 李水青

智东西 4 月 24 日报道，今天，DeepSeek-V4 刚开源就迅速登顶了 Hugging Face 开源模型榜，相关技术报告也大方披露，覆盖华为昇腾与英伟达芯片适配、模型架构升级、预训练和后训练环节优化等丰富的技术细节，非常值得仔细品读。

DeepSeek-V4 最显著的提升，除了在推理、知识、代码能力上全线抬升，整体表现比肩 GPT-5.4、Claude Opus 4.6 等顶级闭源模型；还在于该模型首次将 " 百万上下文 " 作为默认能力开放，在此设置下单 token 推理 FLOPs 相比 DeepSeek-V3.2 暴降 73%，KV cache 仅为其 10%，大幅降低使用成本。

基础设施方面，DeepSeek-V4 从训练到推理的全链路，已经完整适配了华为昇腾 NPU，其自研的细粒度专家并行方案 "MegaMoE"，能够在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.50-1.73 倍的加速。

DeepSeek-V4 的训练过程相比前代模型有一些差异化。预训练中，DeepSeek-V4 引入了 " 样本级注意力掩码 " 机制，语料总规模超过 32 万亿 tokens，涵盖数学内容、代码、网页文本、长文档等多种高质量类别。后训练中，DeepSeek-V4 则将原先的混合强化学习阶段替换为 " 基于策略的蒸馏 "，确保训练更为可控。

开源地址：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

报告地址：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

一、基础设施再创新，全链路高效适配华为昇腾

DeepSeek-V4 在基础设施方面提升较为明显，采用专家混合（MoE）技术，可通过专家并行化（EP）实现加速。

然而，EP 需要复杂的节点间通信机制，并对互连带宽和延迟提出较高要求。为缓解 EP 中的通信瓶颈，并在降低互连带宽需求的同时，提升端到端性能，DeepSeek 提出了一种细粒度 EP 方案 "MegaMoE"：将通信与计算功能整合为单一流水线内，实现通信与计算的重叠执行。

DeepSeek-V4 在英伟达 GPU 和华为昇腾 NPU 平台上验证了细粒度专家并行（EP）方案。与性能较强的非融合基线相比，该方案在通用推理任务中实现了约 1.50-1.73 倍的加速，在延迟敏感的场景中最高可达 1.96 倍。相关 CUDA 实现已开源，名为 MegaMoE2，作为 DeepGEMM 的一个组件提供。

将专家调度（Dispatch）与 Linear-1 重叠，将 Linear-2 与 Combine 重叠。EP 方案通过将专家拆分并按波次调，实现了更细粒度的重叠。

在实际应用中，复杂的模型架构原本会生成数百个细粒度的 Torch ATen 运算符。为此，DeepSeek 采用 TileLang 开发了一组融合内核，用以替代其中绝大多数运算符，把碎片化的小 kernel 融成大块，调用开销从百微秒压到 1 微秒以内，还引入 Z3 形式化求解器做优化验证。做到比特级可复现，同一 token 不管在 batch 哪里都得到同样结果，同一模型每次运行完全一致，这对大模型调试是保命设计。

DeepSeek 将 FP4（MXFP4）量化应用于两个关键部分：第一是 MoE 专家权重，这部分是 GPU 显存占用的主要来源之一；第二是 CSA 中索引器的 Query-Key（QK）路径，在该路径中，QK 激活值的缓存、加载以及乘法计算全部在 FP4 精度下完成，从而在长上下文场景中加速注意力分数的计算。

训练框架建立在为 DeepSeek-V3 开发的可扩展且高效的基础设施之上。在训练 DeepSeek-V4 时，DeepSeek 继承了这一基础，同时引入了多项关键创新，适配其新的架构组件——包括 Muon 优化器、mHC，以及混合注意力机制，并在此过程中保持高效的训练效率与稳定性。

二、架构升级，突破长文本计算效率瓶颈

推理模型兴起后，业内建立了一种新的 " 测试时扩展 " 范式，显著推动了大型语言模型的性能提升。然而，这种扩展范式从根本上受限于传统注意力机制，难以处理超长上下文和复杂推理过程。

同时，从复杂智能体工作流到大规模跨文档分析，长时序任务的出现，也使得高效支持超长上下文成为未来发展的关键需求。尽管近年来一些开源工作（如 DeepSeek、MiniMax、Qwen 等）已经推动了模型能力的整体提升，但在处理超长序列方面的核心架构低效问题仍然存在。

DeepSeek-V4 为解决这个瓶颈，它通过一系列架构创新，让模型在处理超长上下文时的计算效率大幅提升，从而真正把上下文长度推进到 " 百万 token" 这个量级。

总体而言，DeepSeek-V4 系列沿用了 Transformer 架构和多 Token 预测模块，并在 DeepSeek-V3 基础上引入了项关键改进：

（1）采用混合注意力架构，将压缩稀疏注意力（CSA）与高压缩注意力（HCA）结合，以提升长上下文处理效率；

（2）引入流形约束超连接（mHC），增强传统残差连接；

（3）使用 Muon 优化器，实现更快的收敛速度和更高的训练稳定性。

具体做法上，DeepSeek-V4 保留了 MoE 结构和多 token 预测策略，重点改造了注意力机制：提出一种 " 混合注意力 "，即把两种不同的压缩方式结合起来，一种是先压缩再做稀疏注意力，另一种是更激进地压缩但仍保持稠密计算，这样在保证信息利用的同时大幅减少计算和存储开销。此外，它还改进了残差连接，增强模型表达能力，并引入新的优化器 Muon，让训练更快更稳定。

除了模型结构本身，DeepSeek 对整个训练和推理系统做了大量工程优化，比如把 MoE 的计算、通信和内存访问融合在一起执行，用专门的语言优化内核，实现可复现的计算过程，以及通过低精度（FP4）来减少资源消耗。在推理阶段，还设计了更复杂的 KV cache 存储方式，甚至可以部分放到磁盘上，从而支持极长上下文而不爆内存。

三、预训练：基础模型提升明显，Flash 模型就已超 V3.2

预训练过程主要基于 DeepSeek-V3 的数据，同时为构建一个更多样化、高质量且有效上下文更长的训练语料库，DeepSeek 持续优化数据构建流程。与 DeepSeek-V3 不同的是，V4 在预训练过程中引入了 " 样本级注意力掩码 "（sample-level attention masking）机制。

对于来自网页的数据，DeepSeek-V4 采用过滤策略，去除批量自动生成和模板化内容，从而降低模型崩溃的风险。数学和编程语料仍然是训练数据的核心组成部分，同时 DeepSeek 在中期训练阶段引入了智能体数据，进一步提升 DeepSeek-V4 系列的代码能力。

在多语言数据方面，DeepSeek-V4 构建了更大规模的语料库，从而增强模型对不同文化中 " 长尾知识 " 的理解能力。此外，DeepSeek-V4 特别强调长文档数据的构建，优先收集科学论文、技术报告等材料。

综合上述各类数据，预训练语料总规模超过 32 万亿 tokens，涵盖数学内容、代码、网页文本、长文档等多种高质量类别。

对于基础模型的评估，DeepSeek-V4 覆盖四个关键维度的基准测试，包括世界知识、语言理解与推理、代码与数学，以及长上下文处理。

DeepSeek-V3.2、DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的基础模型在统一的内部框架下进行了评测，获得以下结果。

尽管 DeepSeek-V4-Flash-Base 的激活参数量和总参数量都明显更小，但它在大量基准测试中超过了 DeepSeek-V3.2-Base，该优势在世界知识任务和长上下文场景中尤其明显。结果表明，DeepSeek-V4-Flash-Base 在更紧凑的参数预算下，也能取得更强性能，在大多数评测中有效超过规模更大的 DeepSeek-V3.2-Base。

此外，DeepSeek-V4-Pro-Base 能力跃升更为明显，几乎全面领先 DeepSeek-V3.2-Base 和 DeepSeek-V4-Flash-Base，在基准测试上刷新了 DeepSeek 基础模型的性能上限。它在知识密集型评测和长上下文理解能力取得了显著提升。在大多数推理和代码基准上，DeepSeek-V4-Pro-Base 也超过了前两个模型。可以说，DeepSeek-V4-Pro-Base 在知识、推理、代码和长上下文能力等多个方面全面超越了前代模型。

四、后训练：基于策略蒸馏，跨轮次保留推理历史

在完成预训练之后，DeepSeek 还进行了后训练，最终得到 DeepSeek-V4 系列模型。虽然整体训练流程在很大程度上沿用了 DeepSeek-V3.2 的方案，但在方法上做出了一项关键替换：原先的混合强化学习（RL）阶段被完全替换为 " 基于策略的蒸馏 "（On-Policy Distillation，OPD）。

具体做法是，先对每个目标领域各自训练一个独立的专家模型。每位专家都经历相同的流程：先用高质量领域数据做监督微调打底，再用 GRPO 算法做领域强化学习，这一步会得到十多位各有所长的 " 偏科高手 "。

真正的合并动作发生在第二阶段。DeepSeek-V3.2 的做法是把各类数据混在一起做 RL，容易互相影响，而 V4 则换成让统一的学生模型自己采样答题，过程中由这十多位专家老师在完整词表的 logit 层面打分对齐，用 reverse KL 损失把学生拉向老师。这种方式保证模型在每个领域的专长都能被完整保留。另外一个关键改动是 DeepSeek-V4 坚持做全词表蒸馏，进而梯度更稳，训练曲线更可控，但工程难度更高。

依托 DeepSeek-V4 系列的一百万 token 上下文窗口，DeepSeek 进一步优化机制，以最大化智能体环境中交错思考的效果。

在工具调用场景中，所有推理内容都会在整个对话过程中被完整保留。不同于 DeepSeek-V3.2 会在每一轮新用户输入到来时丢弃思考轨迹，DeepSeek-V4 系列会跨越所有轮次保留完整的推理历史，让模型能够在长周期智能体任务中维持连贯、持续累积的思考链条。

在一般对话场景中，DeepSeek-V4 仍然保留原有策略：当新的用户消息到来时，会丢弃上一轮的推理内容，从而保持上下文简洁。

与 DeepSeek-V3.2 一样，那些通过用户消息来模拟工具交互的智能体框架（例如 Terminus）可能不会触发工具调用上下文路径，因此也可能无法受益于增强后的推理持久化机制。对于这类架构，DeepSeek 仍然建议使用非思考模型。

五、知识、推理、代码三线抬升，开源模型逼近闭源上限

评测结果上看，DeepSeek-V4-Pro-Max 相比其他开源模型也略有领先，部分能力逼近闭源模型。

在知识能力和推理能力上，DeepSeek-V4-Pro-Max 相比其他开源模型略有领先，但仍逊于闭源模型 Gemini 3.1-Pro。推理能力上，DeepSeek-V4-Pro-Max 优于 GPT-5.2 和 Gemini-3.0-Pro，落后于 GPT-5.4 和 Gemini-3.1-Pro；DeepSeek-V4-Flash-Max 与 GPT-5.2 和 Gemini-3.0-Pro 能力近似，在复杂推理任务中展现出很高的性价比。

Agent 能力方面，DeepSeek-V4-Pro-Max 与 Kimi-K2.6 和 GLM-5.1 等领先开源模型表现相当，但略逊于最前沿的闭源模型。长上下文能力方面，DeepSeek-V4-Pro-Max 在合成任务和真实应用场景中均表现强劲，在学术基准测试中甚至超过了 Gemini-3.1-Pro。

在 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 的对比中，由于参数规模较小，DeepSeek-V4-Flash-Max 在知识类评测中的表现略低。但在给予更多推理 token 时，在推理任务中的表现可以接近 DeepSeek-V4-Pro-Max。在智能体评测中 DeepSeek-V4-Flash-Max 在部分基准上可以达到与 DeepSeek-V4-Pro-Max 相当的水平，但在更复杂、高难度任务中仍略逊一筹。

结语：高效支持百万级 token 上下文，后续需简化架构

DeepSeek-V4 系列预览版突破了超长上下文处理中的效率瓶颈，其通过融合 CSA 与 HCA 的混合注意力架构，并结合系统级基础设施优化，使模型能够更高效地支持百万 token 级上下文，为测试时扩展、长时序任务和在线学习等方向提供了基础。

从评测结果看，DeepSeek-V4-Pro-Max 在开源模型中表现突出，在知识、推理和智能体任务上均取得较强结果，部分能力接近前沿闭源模型。DeepSeek-V4-Flash-Max 则在较低成本下实现了较强推理能力，体现出较高性价比。

不过，DeepSeek-V4 的架构也较为复杂，部分稳定性方法如 Anticipatory Routing 和 SwiGLU Clamping 的机理仍有待进一步理解。后续工作预计将集中在简化架构、提升训练稳定性、探索更多稀疏化方向、降低长上下文推理延迟、增强多轮智能体与多模态能力，以及持续改进数据构建与合成策略等方面。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DeepSeek V4 登顶了 ! 梁文锋把四大技术秘方公开 _ 新闻

宙世代

一起剪

相关阅读

路口绿灯亮起货车突然压线“别车” 网友反手怒赞

诺贝尔文学奖得主刷短视频成瘾：莫言称最爱看修马蹄等很解压

世界最速！镜识科技Bolt人形机器人奔跑速度提升至11米/秒

以实战证实力，纵横G700完成全球首个载人航行应急演练

“中方注意到有关情况”

八千里路云和月大结局：张云魁负丁玉娇，孟万福没死，小月最惨！

泰剧《爱破碎》第8集：1个复仇女主为何把对手抱上膝头？

泰剧预告24小时冲上热搜TOP3：一个名字引爆跨圈层讨论

美国发布最新制裁

ABC新剧命运待定，主创为何＂感觉良好＂？

德黑兰将恢复赴华航班

特朗普：这世界疯了

董军同俄罗斯国防部长举行会谈

平陆运河预计9月通航 中国与东盟经贸启新章

蓬皮杜中心馆藏北京特展：东西方大师相遇“色彩之巅”

最新评论

企业资讯

热门推荐

企业资讯

平陆运河预计9月通航中国与东盟经贸启新章