关于ZAKER Skills 合作
全天候科技 2小时前

Deepseek V4 第一波测评来了!

DeepSeek V4 预览版开源上线后,第一波来自第三方榜单的测评结果已经出炉。多家测评显示,DeepSeek V4 性能尤其在代码任务上冲进开源第一梯队,同时以 " 百万级上下文 + 低价 " 把开发者侧的使用门槛进一步压低。

从第三方评测来看,评测平台 Arena.ai 在 X 上将 V4 Pro(思考模式)定性为 " 相较 DeepSeek V3.2 的重大飞跃 ",在其代码竞技场中列开源模型第 3 位、综合第 14 位;另一家测评方 Vals AI 则称,V4 在其 Vibe Code Benchmark 中以 " 压倒性优势 " 拿下开源权重模型榜首,击败 Gemini 3.1 Pro 等闭源模型,较上代 V3.2 实现约 10 倍性能跃升。

定价层面,V4-Flash 输出价格为每百万 token 0.28 美元,较 Claude Opus 4.7 低逾 99%;V4-Pro 输出价格为 3.48 美元,是同级别前沿模型中定价最低的选项之一。对比表格显示,Flash 处于小模型区间最低档,Pro 也处于 " 大模型前沿 " 区间低位。

围绕实际体验的讨论开始分化。多位网友在 X 上称其性价比 " 打穿 "。而 DeepSeek 在自述材料中则保持克制,称在知识与推理上接近闭源系统但仍有约 3 到 6 个月差距,同时提示 " 受限于高端算力 ",Pro 服务吞吐有限,后续价格存在下调预期。

第三方测评:代码能力独占鳌头,综合排名紧追顶级

就在 OpenAI GPT-5.5 发布不久后,DeepSeek-V4 预览版正式上线并同步开源,涵盖参数总量 1.6 万亿(激活参数 49B)的 V4-Pro,以及参数总量 2840 亿(激活参数 13B)的 V4-Flash,两款模型均支持 100 万 token 超长上下文窗口,采用 MIT 开源协议。

模型评测平台 Arena.ai 在 V4 发布当日宣布,DeepSeek V4 Pro(思考模式)在其代码竞技场中排名开源模型第 3 位,综合排名第 14 位,并将此次发布定性为 " 相较 DeepSeek V3.2 的重大飞跃 "。Arena.ai 同时测试了 V4 Flash,两款模型均支持 100 万 token 上下文。

Vals AI 的评测结果更具看点。该平台表示,DeepSeek V4 在其 Vibe Code Benchmark 中 " 以压倒性优势 " 成为开源权重模型第一,不仅超越第 2 名 Kimi K2.6,更击败 Gemini 3.1 Pro 等闭源前沿模型。

Vals AI 特别强调,V4 较 V3.2 实现了约 10 倍的性能跃升—— "V3.2 在该基准上仅得 5 分,这不是笔误。" 在 Vals 综合指数排名中,V4 以第 2 位收官,与榜首 Kimi K2.6 仅相差 0.07%。

社区反应十分积极。在 X 平台上,用户 Sigrid Jin 称其带来新的 "shocking moment",并提到 " 现在可以在家里跑 gpt 5.4-ish 的模型 "。他写道:

"GPT-5.5,对不起,DeepSeek V4 才是新的震撼时刻,它在代码竞技场中击败了 GPT-5.4 高强度模式。"

用户 Ejaaz 则称:

" 中国正在主导 AI,他们已经追上来了。DeepSeek V4 Flash 比 Opus 4.7 便宜 99%,每百万 token 仅需 0.28 美元,代码竞技场排名第一,这不是笔误。"

也有用户表达保留意见,X 用户 Michael Anti 在试用后表示,V4 Flash 的实际体验未能超越此前已相当成熟的 V3.2,认为对老用户而言升级体验令人失望。

官方自评:措辞克制,代码与 Agent 领域差距最小

DeepSeek 对自身性能的评述保持了一贯的审慎风格。官方文件显示,在知识与推理任务上,V4-Pro 已超越主流开源模型,接近 Gemini 等闭源系统,但与最先进的前沿模型仍存在约 3 至 6 个月的差距。在 Agent 和代码任务上,表现接近甚至部分超过 Claude Sonnet。

内部使用数据方面,DeepSeek 表示,V4 已成为公司内部员工的 Agentic Coding(智能体编程)主力模型,评测反馈显示其使用体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍有一定差距。

在数学、STEM 及竞赛级代码评测中,V4-Pro 超越目前已公开评测的所有开源模型,包括月之暗面的 Kimi K2.6 Thinking 和智谱 GLM-5.1 Thinking,并取得比肩顶级闭源模型的成绩。

博主 Simon Willison 在其测评文章中指出,V4-Pro(1.6 万亿参数)是目前已知最大的开源权重模型,超过 Kimi K2.6(1.1 万亿)、GLM-5.1(7540 亿)以及 DeepSeek V3.2(6850 亿),为有意本地部署的企业用户提供了新的选项。

他还晒出了不同模型做出的鹈鹕图例:

这是 DeepSeek-V4-Flash 的鹈鹕:

至于 DeepSeek-V4-Pro:

价格体系:最低仅为竞品 1%,下半年仍有进一步降价空间

DeepSeek 的定价策略是此次发布中最受市场关注的部分。V4-Flash 的输入 / 输出价格分别为每百万 token 0.14 美元 /0.28 美元,低于 OpenAI GPT-5.4 Nano(0.20 美元 /1.25 美元)和 Gemini 3.1 Flash-Lite(0.25 美元 /1.50 美元),是目前小型模型中定价最低的选项。

V4-Pro 的输入 / 输出价格为 1.74 美元 /3.48 美元,同样低于 Gemini 3.1 Pro(2 美元 /12 美元)、GPT-5.4(2.50 美元 /15 美元)、Claude Sonnet 4.6(3 美元 /15 美元)和 Claude Opus 4.7(5 美元 /25 美元)。

博主 Simon Willison 汇总的价格对比数据显示,V4-Pro 是目前大型前沿模型中成本最低的选项,V4-Flash 则是小型模型中成本最低的,甚至低于 OpenAI 的 GPT-5.4 Nano。

DeepSeek 将上述低价能力归因于模型在超长上下文场景下的极致效率优化。官方数据显示,在 100 万 token 场景下,V4-Pro 的单 token 推理算力仅为 V3.2 的 27%,KV 缓存仅为 10%;V4-Flash 则分别低至 10% 和 7%。

值得关注的是,DeepSeek 在价格说明中附注称," 受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调 ",暗示当前定价仍有进一步下调空间。

技术架构:混合注意力机制突破长上下文瓶颈,适配国产算力

DeepSeek-V4 的核心技术创新在于首创的 "CSA(压缩稀疏注意力)+HCA(重度压缩注意力)" 混合注意力架构,旨在解决传统注意力机制在超长上下文场景下呈平方级复杂度攀升、显存与算力难以工程落地的行业痛点。CSA 将每 4 个 token 压缩为一个信息块并通过稀疏检索获取最相关内容,在保留中段细节的同时大幅降低计算量;HCA 则将海量信息浓缩为框架级信息块,专注全局逻辑处理。

在此之外,V4 还引入 mHC 流形约束超连接(升级传统残差连接,将信号传播约束在稳定流形上)以及 Muon 优化器(替代传统 AdamW,适配 MoE 大模型与低精度训练)。官方数据显示,全链路工程优化可实现推理加速最高接近 2 倍。

在国产算力适配方面,DeepSeek-V4 在华为昇腾 NPU 平台上完成细粒度专家并行优化方案的全面验证,在通用推理负载场景下可实现 1.50 至 1.73 倍的加速比。DeepSeek 官方表示,V4 是全球首个在国产算力底座上完成训练与推理的万亿参数级模型,但目前昇腾平台适配代码暂未对外开源,属于闭源优化。此外,寒武纪已通过 vLLM 推理框架完成对 V4-Flash 和 V4-Pro 的适配,相关代码已开源至 GitHub 社区。

相关标签
全天候科技

全天候科技

提供专业快速完整的科技商业资讯

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容