
作者 | 江宇 陈骏达
编辑 | 心缘
智东西 4 月 24 日报道,今日,DeepSeek 正式发布并开源 DeepSeek-V4 系列预览版本,这是其继 V3.2 之后的新一代旗舰模型体系,智东西第一时间上手实测。
DeepSeek V4" 源神 " 回归影响力果然不同凡响,几乎瞬间刷屏,在微博热搜榜前五占三,仅次于小米 YU7GT。

DeepSeek 官方同时说明,受限于高端算力,目前 DeepSeek-V4-Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,其价格会大幅下调。此外,DeepSeek-V4 已获得寒武纪 Day 0 适配支持,相关适配代码已开源至 GitHub 社区。


在 Agent 能力方面,DeepSeek-V4-Pro 的 Agent 能力显著增强。其在 Agentic Coding 等评测中进入开源第一梯队,内部评测显示交付质量已接近 Claude Opus 4.6 非思考模式,但与其思考模式仍存在差距。
DeepSeek-V4-Pro 在数学、STEM 及竞赛型代码等高难度任务中已超过当前已公开评测的开源模型,整体表现接近甚至比肩 GPT-5.4、Claude Opus 4.6-Max 等顶级闭源模型。
与此同时,DeepSeek-V4 在长上下文效率上给出了一组更激进的优化:在 100 万 token 场景下,其单 token 推理计算量仅为 V3.2 的 27%,KV Cache 占用降至约 10%,显著降低长链路任务的算力与显存成本。


体验地址:chat.deepseek.com 或 DeepSeek 官方 APP
API 文档:
https://api-docs.deepseek.com/zh-cn/guides/thinking_mode
开源链接:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
技术报告:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
一、Agentic 编程能力提升明显,读《三体》三部曲烧了 54 万 token
我们初步感受了下 DeepSeek-V4 的变化,主要测试的模型是 DeepSeek-V4-Pro。
在前端网页 one-shot 案例中,DeepSeek-V4-Pro 展现出很高的执行效率。由于我们的需求不复杂,模型仅用了 5 秒钟进行思考,之后迅速进行开发,这与之前 DeepSeek 模型在思考上浪费很多 token 的模式明显不同。
进入到实际生成过程后,DeepSeek-V4-Pro 的输出长度要明显长于其他 DeepSeek 模型。其生成速度较快,基本能做到以 5 行代码为单位输出。
最终,DeepSeek-V4-Pro 的生成结果如下,可以看到其网页的完成度要比 DeepSeek-V3.2 高一些,设计更为丰富。

网站链接:
https://mcp.edgeone.site/share/9pD1cRzY1QA8bmmBLDZ8S
不过,这样简单的编程题目已经难不住 DeepSeek-V4-Pro,我们试着让它完成一个结合 Agent 能力与编程的任务:规划一次去上海的旅行,然后把所有相关信息整合为一个旅行网站,附上对应的景点定位。
执行过程中,可以看到 DeepSeek-V4-Pro 可以进行复杂多轮工具调用,联网搜索的条目数量也和之前模型的数量相比有增加,信息收集得更为全面了。


https://mcp.edgeone.site/share/4TxFYOy24bgaEwxFoxisj
我们的下一个案例与长文本有关,DeepSeek-V4 系列模型常常挂在嘴边的就是它能一口气吃下《三体》三部曲,而我们如它所愿上传了完整的《三体》。
上传这样的超长文件后,DeepSeek 能够迅速定位我们指定的内容,成功实现大海捞针。不过,这种超长上下文能力是有代价的,仅仅输出这一点内容就烧掉了 54 万个 token。



这一代 V4 最直接的变化,是把 " 长上下文 " 变成默认能力。
不同于传统通过简单扩展窗口的方式,DeepSeek-V4-Pro 引入了全新的混合注意力架构,将 Compressed Sparse Attention 与高压缩注意力(HCA)结合,同时配合 DSA 稀疏注意力,在 token 维度进行压缩。
此外,模型引入了流形约束超连接(mHC)增强传统残差连接,并使用 Muon 优化器提升收敛速度和训练稳定性。这一系列设计,使得模型在 " 记得更长 " 的同时,有效控制计算成本。
从官方给出的数据来看,在 100 万 token 上下文下,DeepSeek-V4-Pro 单 token 推理 TFLOPs 相比 DeepSeek-V3.2 下降约 3.7 倍至 9.8 倍区间,KV Cache 占用下降 9.5 倍至 13.7 倍。

三、推理、知识、代码三线抬升,开源模型逼近闭源上限
从能力结构来看,DeepSeek-V4-Pro 的提升是推理、知识与 Agent 能力的同步抬升。
在知识与推理类任务中,其在 SimpleQA、Apex、Codeforces 等评测中均超过当前主流开源模型,并在多项任务上接近 GPT-5.4 与 Gemini 3.1 Pro。例如在 Apex Shortlist 中达到 90.2 分,已经超越顶级闭源模型;在 Codeforces 等竞赛类任务中,也维持在第一梯队水平。
在 Agent 能力相关任务中,DeepSeek-V4-Pro 在 SWE Verified、Terminal Bench 等指标上表现稳定,SWE Verified 达到 80.6,接近 Claude Opus 4.6,明显高于多数开源模型。其表现同样超过 GLM-5.1 Thinking、Kimi K2.6 Thinking 等模型

四、Agent 能力专项优化,开始围绕真实工作流打磨
这一代 DeepSeek-V4 明显强化了对 Agent 场景的适配。其针对 Claude Code、OpenClaw、CodeBuddy 等主流 Agent 框架进行了专项优化,在代码生成、文档生成等多步骤任务中表现更稳定。下图为 DeepSeek-V4-Pro 在某 Agent 框架下生成的 PPT 内页示例:

本质上是在为 Agent 应用提供两种 " 算力档位 "。DeepSeek-V4-Flash 在简单 Agent 任务中已经能够与 Pro" 旗鼓相当 ",但在复杂任务中仍有差距。这种差异,本质上是推理深度与上下文利用能力的差别。
结语:DeepSeek-V4 亮相,国产算力与开源路线的落地之光
DeepSeek-V4 的发布不仅展现了团队在技术和架构上的积淀,也标志着开源大模型在国产算力生态下的实际落地能力。
经过对华为昇腾、寒武纪等国产芯片的适配优化,DeepSeek-V4 系列实现了百万 token 上下文的稳定支持和高效推理,使长链路任务与多步 Agent 执行成为可能。
这一版本将 Pro 与 Flash 的不同定位落到实处,在性能上逼近闭源旗舰模型,在成本上保持高性价比,为国内开发者提供了前所未有的开放选项。
更重要的是,这次发布显示出开源模型不仅能在全球竞争中站稳脚跟,也能够借助国产算力和优化架构,将技术潜力转化为实际可用的生产力。DeepSeek-V4 或许是中国开源力量在高性能 AI 赛道上迈出的关键一步,也为国内 AI 生态的创新和落地提供了明确指引。