DeepSeek 发布 V4：1.6T 参数、百万 token，还要用国产算力把价格再次打下来

等了将近半年，DeepSeek-V4 终于来了。

4 月 24 日，DeepSeek 通过官微宣布 V4 的预览版本正式上线并同步开源。

在这一代模型中，DeepSeek 推出了两个版本：拥有 1.6T 参数（49B 激活）的 Pro 版本，以及 284B 参数（13B 激活）的 Flash 版本。而且，两款模型均原生支持 100 万 token 的超长上下文。

与此同时，DeepSeek 也发不了一份长达 53 页的技术报告，详细介绍了新模型的技术细节。

为了体验新模型的能力与特质，我用网页版跑了下自己最熟悉的场景（读报告与写稿）。就体感来说，此前被普遍提及的一个问题——网页版快速模式与专家模式分层的效果不明显，从输出结果来说依然不分存在。虽然专家模式对报告的解读更细致，稿件体量更庞大，而且调用了很多外部信息，看起来十分努力，但如果从成文的立意、逻辑、华彩段落等评价来看，仍无法说与快速模式有质的差异。

而在部分场景中，专家模式明显开启了 " 深度求索 " 模式，甚至 " 自己跟自己较劲 "，花去大量时间解决看似不复杂的问题。快速模式则仍会相对快地处理各类任务。不过，问题是，专家模式是否能合理选择在什么情况下进行 " 深度求索 " 呢？目前，针对一些并不复杂的要求，比如将不同风格的文字进行统一等，专家模式可能会花费两分钟来输出一个不到 200 字的内容。而且，在目前的尝试中还不能确定其启动 " 深度求索 " 的契机和逻辑，但如果是追问，大概率专家模式要比首次提问耗费更多时间，体感上比 V4 更新前的时长差距更为明显。

当然，仅从解读报告和稿件写作的角度，DeepSeek 输出的结果（尤其是中文模型），看起来仍领先大多主流模型，V4 更新后似乎能感觉出来其提炼能力、解读能力有所提升，明显错误则在减少。而这背后，与其在技术架构和 Agent 能力方面的探索也紧密相关。

三大技术突破：混合注意力架构、mHC 与 Muon

技术报告发布后，引起最多反响的当属 V4 对 " 长文本效率 " 的压榨。而在这背后，主要得益于其三大技术突破：混合注意力架构（CSA + HCA）、流形约束超连接（mHC）与 Muon 优化器。

· 解耦注意力，从 " 逐字背诵 " 到 " 记重点 + 跳读 "

传统 Transformer 模型处理长文本有个致命弱点：文本长度每增加一倍，所需的计算和显存资源呈平方级飙升，就像要求一个人把整本书一字不差地背下来。

V4 的解法是 " 混合注意力架构 "，它把两套技巧结合起来。

其中，CSA（压缩稀疏注意力）对已读取的内容，只保留高度压缩的记忆缓存，并采用跳读式的稀疏计算，大幅省掉冗余运算。

而 HCA（重压缩注意力）则对相隔很远的段落间的关系，再做一次深度压缩，进一步削减显存占用。

从技术报告给出的效果来说，在 100 万 token 下，V4 Pro 的单次推理计算量仅为前代的 27%，显存缓存占用仅 10%。简单说，以前处理一篇百万字小说又贵又慢，现在可以经济实惠地日常使用。

· 流形约束，防止深层网络的 " 信息传丢 "

V4 在架构层面的核心创新—— " 流形约束超连接（mHC）"，同样令人瞩目。该技术此前已于今年 1 月 1 日以论文形式发布。

在目前市面上主流的大模型架构中，层与层之间传递信息就越像一场 " 传话游戏 " ——层数越多，原始信息越容易衰减和稀释。传统残差连接只能机械叠加，缓解有限。

mHC 对此的解题思路很明确，在特殊几何空间中约束信息流动的方向，让每一层都能更精准地汲取前面所有层的关键特征，而不是糊在一起。该技术此前已于今年 1 月以论文形式公开。

从目前看到的效果来说，模型的训练稳定性与收敛速度的确得到了显著提升，等于为超大规模模型训练搭建了一条更高效、不易出错的信息通道。

· 全新优化器与超大规模数据，拓宽能力边界

为预训练时，模型调参依赖 " 优化器 " 来指导方向。

为了进一步加速训练进程，V4 弃用了此前主流的 AdamW，改用全新的 Muon 优化器，后者在收敛速度、训练平稳度上表现更优，特别适合超大规模参数。配合总量高达 32 万亿 token 的预训练数据，模型的能力边界被进一步拓宽。

正是这套组合拳，使得即使是参数规模巨大的 Pro 版本，推理开销也降到了极低成本区间。目前看来，这将实质性推动长文档分析、复杂代码理解及多轮深度对话等应用从 " 能用 " 走向 " 好用 "。

进击的 Agent 能力

技术创新推动着性能的再次大幅跃升。

在本次发布中，Agent 能力被置于战略高度进行优化和评测。

技术报告显示，为让模型具备解决真实世界中长周期、多步骤任务的能力，DeepSeek 开发了一套新的后训练范式：先独立培养数学、编程、指令遵循等多个 " 领域专家 "，再通过 " 在策略蒸馏（OPD）" 合并为一个统一模型。报告称，V4-Pro 在 Agentic Coding 评测中已达到开源模型最佳水平。

DeepSeek 官方发布的一系列硬核跑分数据也印证了技术路线的有效性。其多个指标超过或逼近了 GPT-5.4、Claude Opus 4.5 和 Gemini 3.1 Pro 等顶级闭源模型的水平。在一份针对内部 85 名研发工程师的调研中，超过一半的受访者表示，愿意让 V4-Pro 成为自己日常编程工作的首选模型。不过，技术报告也坦诚指出，在最广泛的世界知识与部分复杂 Agent 任务上，V4 距最顶尖的闭源模型仍有约 3 至 6 个月的差距，这为下一阶段迭代明确了方向。

值得注意的是，在 V4 发布前，OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 也相继亮相。

因为 V4 在技术报告中对比的还是前代产品，所以我们也结合三款最新模型进行了一次迭代对比。

对比来看，GPT-5.5 致力于做 Agent 时代的基础操作系统，其整体性能仍然称王，有强大的自主任务执行能力（能自主执行任务超 7 小时），但成本极高，输出每百万词元成本高达 30 美元。

Claude Opus 4.7 则仍在编程测试中折桂，定位偏向靠谱的生产力助手，最强场景式极限编程和长程任务，能解析 2576 像素图像并可靠运行长链路任务，但其价格仍然很高。

而 DeepSeek-V4 则以约九分之一价格、标配百万词元上下文和唯一开源生态杀出重围，性价比最高，而且也依然是最强开源模型。不过，DeepSeek 仍然没有集成多模态，仍然走在纯文本的道路上。这与前两者亦有了明显不同。

从这三个模型的对比可以看出，大模型正在从 " 通用能力 PK" 走向 " 场景聚焦 "。没有一款模型能搞定所有事情，每家都在找自己的主战场。

对用户来说，这意味着选型逻辑要变了——不再是 " 哪个最强 "，而是 " 哪个场景最适合我 "。

国产算力适配，价格战 2.0 的前夜

在 DeepSeek 此次发布 V4 的文章和报告中，有一个细节尤其值得注意。

在给出模型 Token 价格的同时，DeepSeek 附上了依据说明：受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。

结合此前 DeepSeek 与国产芯片深度适配的相关信息，这句话背后隐藏着深远的产业信号。

首先，它证实了国产大模型在 " 算力自主 " 上的真实困境与突破路径。

目前 Pro 版本吞吐有限，反映出当前市场主流的算力资源（无论是存量的顶级芯片，还是替代方案）在应对 V4 这种超大规模 Mixture-of-Experts（MoE）模型的推理请求时，仍面临显存带宽或通信延迟的挑战。

其次，DeepSeek 对 " 昇腾 950 超节点 " 的明确提及，实际上是对华为昇腾平台软硬一体适配能力的 " 背书 "。

在报告中，DeepSeek 提到他们已经针对华为昇腾（Huawei Ascend）平台验证了精细化的专家并行（EP）通信方案。他们开发的 MegaMoE2 融合内核，通过计算、通信和内存访问的全重叠（Full Overlap），在昇腾平台上实现了 1.5 倍至 1.7 倍的推理加速。

这释放了三个关键的解读信号：

1、算力底座的切换完成：DeepSeek 不仅在训练中使用了国产算力，更在推理架构上深度适配了华为的底层生态。这意味着，即便在全球供应链波动的极端情况下，DeepSeek-V4 依然具备大规模部署的能力。

2、" 超节点 " 带来的推理革命：所谓的 " 昇腾 950 超节点 "，其核心价值在于通过更高速的互联协议（类似 NVLink）解决了 MoE 模型在跨卡通信时的巨大延迟。一旦批量上市，DeepSeek-V4 那 27% 的单 token FLOPs 优势将转化为实打实的吞吐量，从而带动推理成本的直线下降。

3、二次价格战的核弹：DeepSeek 曾以 " 一分钱买百万 token" 开启了大模型价格战。而这次，随着国产算力效能的爆发，Pro 级别的模型可能会降至目前轻量级模型的价格区间。这对于国内众多的 SaaS 公司和 Agent 开发者来说，无异于一场普惠的及时雨。

写在最后

通过此次发布来看，DeepSeek 的模型迭代路线已较为清晰：它不再谋求参数规模的绝对领先，而是通过原创架构和系统级创新，在效率、成本与智能三者之间建立新的平衡。

从某种意义上，这也标志着国产大模型从 " 追赶者 " 变成了 " 规则制定者 "。

当然，它也不是万能的。极限编程、长推理、多模态这些场景，Claude 和 Gemini 仍然是更好的选择。

随着模型权重登陆 Hugging Face 并向社区开放，V4 所承载的技术路径——高效长上下文、国产算力适配、Agent 原生优化——正在重新定义开源大模型的能力边界。

至于这条路径能否最终通向 AGI，或许要等待下一代模型才能给出新的答案。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DeepSeek 发布 V4：1.6T 参数、百万 token，还要用国产算力把价格再次打下来

宙世代

一起剪

相关阅读

史上最厚苹果手机！iPhone 18 Pro Max厚度突破13mm：果粉吐槽像砖头

曝华为全面切换5G手机产品线 智选手机模式或将终结

12万转高速马达！小米米家高速水离子吹风机Pro开售：799元

蔚来CEO李斌骑共享单车赶车展 街头大方和路人合影

希捷推出系列存储新品，应对消费端数据爆发式增长

GPT-5.5发布：两倍定价，半步进化

AI时代，品牌的分水岭是“内容品牌化”

游戏开发圈心照不宣的事 被谷歌给捅破了：九成游戏全靠AI代工！

OPPO云台相机项目启动，预计四季度上市

索尼9眼8臂乒乓球机器人击败日本顶尖选手 却遭专家质疑：靠硬件物理作弊 取胜并不公平

马斯克要造自研GPU了！1.75万亿美元IPO文件曝光

终于来了！全新系列模型DeepSeek-V4官宣上线

英特尔版MacBook Neo来了！Wildcat Lake笔记本首曝：主打入门平价定位

博裕、经纬、顺为等投资前新石器COO超亿元，押注AI超便携电子纸

用“活人感”做科技社区，小红书能成吗？

最新评论

钛媒体

热门推荐

企业资讯

曝华为全面切换5G手机产品线智选手机模式或将终结

蔚来CEO李斌骑共享单车赶车展街头大方和路人合影

游戏开发圈心照不宣的事被谷歌给捅破了：九成游戏全靠AI代工！

索尼9眼8臂乒乓球机器人击败日本顶尖选手却遭专家质疑：靠硬件物理作弊取胜并不公平