
作者 | 陈骏达
编辑 | 心缘
智东西 4 月 24 日报道,今天,DeepSeek-V4 开源并火速冲上 Hugging Face 模型榜首,号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果,我们进行了多维度的深度体验。

我们的这次实测累计消耗超过 1000 万 token。总体来看,DeepSeek-V4 系列,尤其是 Pro 版本,展现出强大的自主规划与执行能力;但在部分极限任务和轻量级场景中,也存在一些有趣的短板。以下是我们提炼出的核心体验要点:
(1)智能体编程提升明显,长程任务能力惊艳:DeepSeek-V4-Pro 能够连续自主编程 60 分钟以上,无需人工干预,完成复杂的数据库设计和安卓模拟器开发等工程任务,展现出强大的长程规划、自我纠错和工具调用能力。
(2)复杂推理有亮点也有短板:模型在海龟汤等逻辑题上表现出色,但在 IMO 数学难题和部分轻量级测试中陷入死循环或给出错误答案,推理稳定性还有提升空间。
(3)轻量级任务表现意外翻车:简单问题(如洗车店问题)上,Pro 版有时反而因为 " 过度思考 " 无法给出正确答案,而 Flash 版更为直接高效。
(4)价格有所上涨,但缓存机制降低部分成本:相比 DeepSeek-V3.2,V4 系列 API 价格上调,但在长任务中借助缓存,总账单的增长没有 API 涨幅那么明显。
以下是我们的完整实测:
一、智能体编程能力明显提升,实测连续干活 60 分钟无需干预
DeepSeek-V4 的官方博客,尤其强调模型的 Agentic Coding 能力。这次实测中,我们让 DeepSeek-V4-Pro 与 Claude Code 打配合,执行了两个较为复杂的工程任务。
任务 1:连续编程 60 分钟,打造完整记账系统
在数据库设计任务中,我们的提示词并未给模型提供过多的约束,这考察了其自主规划任务的能力
拿到任务后,DeepSeek-V4-Pro 先是思考了一会儿,然后输出了一个完整的数据库设计方案,包含 8 个核心功能模块和 6 张数据表,目标是实现记账、流水统计等功能。

之后,我们就完全放手让 DeepSeek-V4-Pro 自主执行任务,它连续编程了接近 60 分钟,期间没有出现中断或者死循环,也没有遗漏关键步骤,完全按照此前的规划执行。
DeepSeek-V4-Pro 的开发结果如下,从前端的角度来看,这一数据库在美感层面稍有欠缺,但所有核心功能都运转正常。我们试着添加了一条数据,没有出现报错信息。
在前端中,用户可以直接完成各种自定义操作,比如新增分类,删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死,这影响了后续的可扩展性。


不过,需要注意的是,与此前 DeepSeek 的旗舰级模型相比,DeepSeek-V4-Pro 的价格有一定幅度的上涨,跑完上述这一任务的 token 消耗量大概在 20 万个左右(大部分为输入 token),换算为 API 账单大概是 5 块钱,由于缓存机制的介入,价格还算可以接受。
任务 2:从零开始打造安卓模拟器,代码、环境全程包办
我们的下一个任务挑战更大:让 DeepSeek-V4-Pro 从零开始打造一个安卓模拟器。
这一任务的复杂程度似乎已经超出 DeepSeek-V4-Pro 的知识范围了,于是它决定开启联网搜索,查询配套工具、参考架构等等,进行了 18 次工具调用。

不过这种 token 消耗并非浪费,通过更为全面的规划,DeepSeek-V4-Pro 让我们原本极为简单的提示词变得更加体系化,有助于后续的开发。

这一项目的规模确实有点大,DeepSeek-V4-Pro 连续跑了 50 多分钟才完成。



除了智能体、编程能力之外,DeepSeek-V4 在推理方面的提升也值得关注。
DeepSeek 官方称,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个模型的推理能力接近。在下方这几道逻辑和推理题目中,我们便同时测试了两个模型。
任务 1:解答海龟汤,Pro 反而比 Flash 要快?
我们向 DeepSeek 发送的题目如下。这种题目的考察难点主要不在 " 谜面有多复杂 ",而在于模型如何突破常见的思维惯性。

DeepSeek-V4-Flash 的推理速度反而更慢,耗时 61 秒,输出的结果是正确的。DeepSeek-V4-Flash 慢的原因是它的思维过程有些冗余,多了不少反复的确认与自我质疑。

解答数学题也是 DeepSeek 的老传统之一了。此次,DeepSeek 称 V4-Pro 的数学能力在测评中超过了所有已公开测评的开源模型,比肩世界顶级闭源模型。
我们拿去年 IMO 的题目考了考 DeepSeek,关闭联网开启推理,让模型完全靠自己解决问题。这张高糊的题目也考察了 DeepSeek 网页服务中 OCR 的能力,我们检查了下,识别结果都是正确的。


上述案例都比较硬核,接下来我们看几个轻松点的案例。
首先是大家喜闻乐见的洗车难题。我们让 DeepSeek-V4-Flash、DeepSeek-V4-Pro 在关闭联网和思考的模式下解答。
DeepSeek-V4-Flash 给出了正确答案,它觉得这个问题太简单了,语气中满是嘲讽。

后来我们又给了 DeepSeek-V4-Pro 几次机会,它给出正确答案的概率还是高一些,但偶尔还是会因为过度思考而把自己绕进陷阱。


在这些 "Toy Case" 上,DeepSeek 似乎没有花太多精力进行针对性的优化。
结语:DeepSeek-V4,又一次定义开源模型的上限
DeepSeek-V4 系列模型确实带来了惊喜,尤其是在智能体编程方面,其长程规划与执行能力令人印象深刻。其基准测试也基本回应了 AI 圈对 DeepSeek 的期待,拿下了多项开源 SOTA。
DeepSeek 的开源不只是把模型权重开放出来,在某种意义上,也是将训练 1.6T 超大规模模型所需的算力、资金乃至工程经验一并 " 开源 " 给了整个社区。这一选择值得敬意。
可以预见,随着后续迭代优化,DeepSeek-V4 有望持续进化,成为开源 AI 生态中一个兼具性能与活力的基座模型。