Deepseek V4 第一波测评来了！

DeepSeek V4 预览版开源上线后，第一波来自第三方榜单的测评结果已经出炉。多家测评显示，DeepSeek V4 性能尤其在代码任务上冲进开源第一梯队，同时以 " 百万级上下文 + 低价 " 把开发者侧的使用门槛进一步压低。

从第三方评测来看，评测平台 Arena.ai 在 X 上将 V4 Pro（思考模式）定性为 " 相较 DeepSeek V3.2 的重大飞跃 "，在其代码竞技场中列开源模型第 3 位、综合第 14 位；另一家测评方 Vals AI 则称，V4 在其 Vibe Code Benchmark 中以 " 压倒性优势 " 拿下开源权重模型榜首，击败 Gemini 3.1 Pro 等闭源模型，较上代 V3.2 实现约 10 倍性能跃升。

定价层面，V4-Flash 输出价格为每百万 token 0.28 美元，较 Claude Opus 4.7 低逾 99%；V4-Pro 输出价格为 3.48 美元，是同级别前沿模型中定价最低的选项之一。对比表格显示，Flash 处于小模型区间最低档，Pro 也处于 " 大模型前沿 " 区间低位。

围绕实际体验的讨论开始分化。多位网友在 X 上称其性价比 " 打穿 "。而 DeepSeek 在自述材料中则保持克制，称在知识与推理上接近闭源系统但仍有约 3 到 6 个月差距，同时提示 " 受限于高端算力 "，Pro 服务吞吐有限，后续价格存在下调预期。

第三方测评：代码能力独占鳌头，综合排名紧追顶级

就在 OpenAI GPT-5.5 发布不久后，DeepSeek-V4 预览版正式上线并同步开源，涵盖参数总量 1.6 万亿（激活参数 49B）的 V4-Pro，以及参数总量 2840 亿（激活参数 13B）的 V4-Flash，两款模型均支持 100 万 token 超长上下文窗口，采用 MIT 开源协议。

模型评测平台 Arena.ai 在 V4 发布当日宣布，DeepSeek V4 Pro（思考模式）在其代码竞技场中排名开源模型第 3 位，综合排名第 14 位，并将此次发布定性为 " 相较 DeepSeek V3.2 的重大飞跃 "。Arena.ai 同时测试了 V4 Flash，两款模型均支持 100 万 token 上下文。

Vals AI 的评测结果更具看点。该平台表示，DeepSeek V4 在其 Vibe Code Benchmark 中 " 以压倒性优势 " 成为开源权重模型第一，不仅超越第 2 名 Kimi K2.6，更击败 Gemini 3.1 Pro 等闭源前沿模型。

Vals AI 特别强调，V4 较 V3.2 实现了约 10 倍的性能跃升—— "V3.2 在该基准上仅得 5 分，这不是笔误。" 在 Vals 综合指数排名中，V4 以第 2 位收官，与榜首 Kimi K2.6 仅相差 0.07%。

社区反应十分积极。在 X 平台上，用户 Sigrid Jin 称其带来新的 "shocking moment"，并提到 " 现在可以在家里跑 gpt 5.4-ish 的模型 "。他写道：

"GPT-5.5，对不起，DeepSeek V4 才是新的震撼时刻，它在代码竞技场中击败了 GPT-5.4 高强度模式。"

用户 Ejaaz 则称：

" 中国正在主导 AI，他们已经追上来了。DeepSeek V4 Flash 比 Opus 4.7 便宜 99%，每百万 token 仅需 0.28 美元，代码竞技场排名第一，这不是笔误。"

也有用户表达保留意见，X 用户 Michael Anti 在试用后表示，V4 Flash 的实际体验未能超越此前已相当成熟的 V3.2，认为对老用户而言升级体验令人失望。

官方自评：措辞克制，代码与 Agent 领域差距最小

DeepSeek 对自身性能的评述保持了一贯的审慎风格。官方文件显示，在知识与推理任务上，V4-Pro 已超越主流开源模型，接近 Gemini 等闭源系统，但与最先进的前沿模型仍存在约 3 至 6 个月的差距。在 Agent 和代码任务上，表现接近甚至部分超过 Claude Sonnet。

内部使用数据方面，DeepSeek 表示，V4 已成为公司内部员工的 Agentic Coding（智能体编程）主力模型，评测反馈显示其使用体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍有一定差距。

在数学、STEM 及竞赛级代码评测中，V4-Pro 超越目前已公开评测的所有开源模型，包括月之暗面的 Kimi K2.6 Thinking 和智谱 GLM-5.1 Thinking，并取得比肩顶级闭源模型的成绩。

博主 Simon Willison 在其测评文章中指出，V4-Pro（1.6 万亿参数）是目前已知最大的开源权重模型，超过 Kimi K2.6（1.1 万亿）、GLM-5.1（7540 亿）以及 DeepSeek V3.2（6850 亿），为有意本地部署的企业用户提供了新的选项。

他还晒出了不同模型做出的鹈鹕图例：

这是 DeepSeek-V4-Flash 的鹈鹕：

至于 DeepSeek-V4-Pro：

价格体系：最低仅为竞品 1%，下半年仍有进一步降价空间

DeepSeek 的定价策略是此次发布中最受市场关注的部分。V4-Flash 的输入 / 输出价格分别为每百万 token 0.14 美元 /0.28 美元，低于 OpenAI GPT-5.4 Nano（0.20 美元 /1.25 美元）和 Gemini 3.1 Flash-Lite（0.25 美元 /1.50 美元），是目前小型模型中定价最低的选项。

V4-Pro 的输入 / 输出价格为 1.74 美元 /3.48 美元，同样低于 Gemini 3.1 Pro（2 美元 /12 美元）、GPT-5.4（2.50 美元 /15 美元）、Claude Sonnet 4.6（3 美元 /15 美元）和 Claude Opus 4.7（5 美元 /25 美元）。

博主 Simon Willison 汇总的价格对比数据显示，V4-Pro 是目前大型前沿模型中成本最低的选项，V4-Flash 则是小型模型中成本最低的，甚至低于 OpenAI 的 GPT-5.4 Nano。

DeepSeek 将上述低价能力归因于模型在超长上下文场景下的极致效率优化。官方数据显示，在 100 万 token 场景下，V4-Pro 的单 token 推理算力仅为 V3.2 的 27%，KV 缓存仅为 10%；V4-Flash 则分别低至 10% 和 7%。

值得关注的是，DeepSeek 在价格说明中附注称，" 受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调 "，暗示当前定价仍有进一步下调空间。

技术架构：混合注意力机制突破长上下文瓶颈，适配国产算力

DeepSeek-V4 的核心技术创新在于首创的 "CSA（压缩稀疏注意力）+HCA（重度压缩注意力）" 混合注意力架构，旨在解决传统注意力机制在超长上下文场景下呈平方级复杂度攀升、显存与算力难以工程落地的行业痛点。CSA 将每 4 个 token 压缩为一个信息块并通过稀疏检索获取最相关内容，在保留中段细节的同时大幅降低计算量；HCA 则将海量信息浓缩为框架级信息块，专注全局逻辑处理。

在此之外，V4 还引入 mHC 流形约束超连接（升级传统残差连接，将信号传播约束在稳定流形上）以及 Muon 优化器（替代传统 AdamW，适配 MoE 大模型与低精度训练）。官方数据显示，全链路工程优化可实现推理加速最高接近 2 倍。

在国产算力适配方面，DeepSeek-V4 在华为昇腾 NPU 平台上完成细粒度专家并行优化方案的全面验证，在通用推理负载场景下可实现 1.50 至 1.73 倍的加速比。DeepSeek 官方表示，V4 是全球首个在国产算力底座上完成训练与推理的万亿参数级模型，但目前昇腾平台适配代码暂未对外开源，属于闭源优化。此外，寒武纪已通过 vLLM 推理框架完成对 V4-Flash 和 V4-Pro 的适配，相关代码已开源至 GitHub 社区。

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

36氪 04-13

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Deepseek V4 第一波测评来了！

宙世代

一起剪

相关阅读

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

最新评论

全天候科技

热门推荐

企业资讯