DeepSeek V4 预览版开源上线后,第一波来自第三方榜单的测评结果已经出炉。多家测评显示,DeepSeek V4 性能尤其在代码任务上冲进开源第一梯队,同时以 " 百万级上下文 + 低价 " 把开发者侧的使用门槛进一步压低。
从第三方评测来看,评测平台 Arena.ai 在 X 上将 V4 Pro(思考模式)定性为 " 相较 DeepSeek V3.2 的重大飞跃 ",在其代码竞技场中列开源模型第 3 位、综合第 14 位;另一家测评方 Vals AI 则称,V4 在其 Vibe Code Benchmark 中以 " 压倒性优势 " 拿下开源权重模型榜首,击败 Gemini 3.1 Pro 等闭源模型,较上代 V3.2 实现约 10 倍性能跃升。

围绕实际体验的讨论开始分化。多位网友在 X 上称其性价比 " 打穿 "。而 DeepSeek 在自述材料中则保持克制,称在知识与推理上接近闭源系统但仍有约 3 到 6 个月差距,同时提示 " 受限于高端算力 ",Pro 服务吞吐有限,后续价格存在下调预期。
第三方测评:代码能力独占鳌头,综合排名紧追顶级
就在 OpenAI GPT-5.5 发布不久后,DeepSeek-V4 预览版正式上线并同步开源,涵盖参数总量 1.6 万亿(激活参数 49B)的 V4-Pro,以及参数总量 2840 亿(激活参数 13B)的 V4-Flash,两款模型均支持 100 万 token 超长上下文窗口,采用 MIT 开源协议。

Vals AI 的评测结果更具看点。该平台表示,DeepSeek V4 在其 Vibe Code Benchmark 中 " 以压倒性优势 " 成为开源权重模型第一,不仅超越第 2 名 Kimi K2.6,更击败 Gemini 3.1 Pro 等闭源前沿模型。


"GPT-5.5,对不起,DeepSeek V4 才是新的震撼时刻,它在代码竞技场中击败了 GPT-5.4 高强度模式。"

" 中国正在主导 AI,他们已经追上来了。DeepSeek V4 Flash 比 Opus 4.7 便宜 99%,每百万 token 仅需 0.28 美元,代码竞技场排名第一,这不是笔误。"


DeepSeek 对自身性能的评述保持了一贯的审慎风格。官方文件显示,在知识与推理任务上,V4-Pro 已超越主流开源模型,接近 Gemini 等闭源系统,但与最先进的前沿模型仍存在约 3 至 6 个月的差距。在 Agent 和代码任务上,表现接近甚至部分超过 Claude Sonnet。
在数学、STEM 及竞赛级代码评测中,V4-Pro 超越目前已公开评测的所有开源模型,包括月之暗面的 Kimi K2.6 Thinking 和智谱 GLM-5.1 Thinking,并取得比肩顶级闭源模型的成绩。

他还晒出了不同模型做出的鹈鹕图例:
这是 DeepSeek-V4-Flash 的鹈鹕:


DeepSeek 的定价策略是此次发布中最受市场关注的部分。V4-Flash 的输入 / 输出价格分别为每百万 token 0.14 美元 /0.28 美元,低于 OpenAI GPT-5.4 Nano(0.20 美元 /1.25 美元)和 Gemini 3.1 Flash-Lite(0.25 美元 /1.50 美元),是目前小型模型中定价最低的选项。
V4-Pro 的输入 / 输出价格为 1.74 美元 /3.48 美元,同样低于 Gemini 3.1 Pro(2 美元 /12 美元)、GPT-5.4(2.50 美元 /15 美元)、Claude Sonnet 4.6(3 美元 /15 美元)和 Claude Opus 4.7(5 美元 /25 美元)。
博主 Simon Willison 汇总的价格对比数据显示,V4-Pro 是目前大型前沿模型中成本最低的选项,V4-Flash 则是小型模型中成本最低的,甚至低于 OpenAI 的 GPT-5.4 Nano。
值得关注的是,DeepSeek 在价格说明中附注称," 受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调 ",暗示当前定价仍有进一步下调空间。
技术架构:混合注意力机制突破长上下文瓶颈,适配国产算力
DeepSeek-V4 的核心技术创新在于首创的 "CSA(压缩稀疏注意力)+HCA(重度压缩注意力)" 混合注意力架构,旨在解决传统注意力机制在超长上下文场景下呈平方级复杂度攀升、显存与算力难以工程落地的行业痛点。CSA 将每 4 个 token 压缩为一个信息块并通过稀疏检索获取最相关内容,在保留中段细节的同时大幅降低计算量;HCA 则将海量信息浓缩为框架级信息块,专注全局逻辑处理。

在国产算力适配方面,DeepSeek-V4 在华为昇腾 NPU 平台上完成细粒度专家并行优化方案的全面验证,在通用推理负载场景下可实现 1.50 至 1.73 倍的加速比。DeepSeek 官方表示,V4 是全球首个在国产算力底座上完成训练与推理的万亿参数级模型,但目前昇腾平台适配代码暂未对外开源,属于闭源优化。此外,寒武纪已通过 vLLM 推理框架完成对 V4-Flash 和 V4-Pro 的适配,相关代码已开源至 GitHub 社区。

