关于ZAKER Skills 合作
智东西 8小时前

实测在 DeepSeek-V4 上烧 1000 万 token,我发现了 3 个惊喜和 1 个意外

智东西

作者 | 陈骏达

编辑 | 心缘

智东西 4 月 24 日报道,今天,DeepSeek-V4 开源并火速冲上 Hugging Face 模型榜首,号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果,我们进行了多维度的深度体验。

DeepSeek-V4-Pro 登顶 Hugging Face 热榜第一(图源:Hugging Face)

我们的这次实测累计消耗超过 1000 万 token。总体来看,DeepSeek-V4 系列,尤其是 Pro 版本,展现出强大的自主规划与执行能力;但在部分极限任务和轻量级场景中,也存在一些有趣的短板。以下是我们提炼出的核心体验要点:

(1)智能体编程提升明显,长程任务能力惊艳:DeepSeek-V4-Pro 能够连续自主编程 60 分钟以上,无需人工干预,完成复杂的数据库设计和安卓模拟器开发等工程任务,展现出强大的长程规划、自我纠错和工具调用能力。

(2)复杂推理有亮点也有短板:模型在海龟汤等逻辑题上表现出色,但在 IMO 数学难题和部分轻量级测试中陷入死循环或给出错误答案,推理稳定性还有提升空间。

(3)轻量级任务表现意外翻车:简单问题(如洗车店问题)上,Pro 版有时反而因为 " 过度思考 " 无法给出正确答案,而 Flash 版更为直接高效。

(4)价格有所上涨,但缓存机制降低部分成本:相比 DeepSeek-V3.2,V4 系列 API 价格上调,但在长任务中借助缓存,总账单的增长没有 API 涨幅那么明显。

以下是我们的完整实测:

一、智能体编程能力明显提升,实测连续干活 60 分钟无需干预

DeepSeek-V4 的官方博客,尤其强调模型的 Agentic Coding 能力。这次实测中,我们让 DeepSeek-V4-Pro 与 Claude Code 打配合,执行了两个较为复杂的工程任务。

任务 1:连续编程 60 分钟,打造完整记账系统

在数据库设计任务中,我们的提示词并未给模型提供过多的约束,这考察了其自主规划任务的能力

拿到任务后,DeepSeek-V4-Pro 先是思考了一会儿,然后输出了一个完整的数据库设计方案,包含 8 个核心功能模块和 6 张数据表,目标是实现记账、流水统计等功能。

此外,它还规划了开发流程,除了打造每个具体组件之外,DeepSeek-V4-Pro 也计划在开发结束后自主进行验证,并列出 10 项验证的清单,考虑得较为周到。

之后,我们就完全放手让 DeepSeek-V4-Pro 自主执行任务,它连续编程了接近 60 分钟,期间没有出现中断或者死循环,也没有遗漏关键步骤,完全按照此前的规划执行。

DeepSeek-V4-Pro 的开发结果如下,从前端的角度来看,这一数据库在美感层面稍有欠缺,但所有核心功能都运转正常。我们试着添加了一条数据,没有出现报错信息。

在前端中,用户可以直接完成各种自定义操作,比如新增分类,删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死,这影响了后续的可扩展性。

查看后端数据库也可以发现,我们在前端输入的新数据可以正常同步到数据库后台,下图最后两行数据,就是手动添加的。这证明前后端之间的数据交互接口与数据传输链路均处于正常、可用的状态。

总体来看,在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上,DeepSeek-V4-Pro 的表现可以说远远超过了 DeepSeek-V3.2。

不过,需要注意的是,与此前 DeepSeek 的旗舰级模型相比,DeepSeek-V4-Pro 的价格有一定幅度的上涨,跑完上述这一任务的 token 消耗量大概在 20 万个左右(大部分为输入 token),换算为 API 账单大概是 5 块钱,由于缓存机制的介入,价格还算可以接受。

任务 2:从零开始打造安卓模拟器,代码、环境全程包办

我们的下一个任务挑战更大:让 DeepSeek-V4-Pro 从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出 DeepSeek-V4-Pro 的知识范围了,于是它决定开启联网搜索,查询配套工具、参考架构等等,进行了 18 次工具调用。

在足足思考了 11 分钟之后,DeepSeek-V4-Pro 才开始动笔写开发计划,它还自我评价道:" 很好,Plan Agent 输出了很全面的架构,我现在开始写完整架构。" 此时,已经烧了 8000 多个 token。

不过这种 token 消耗并非浪费,通过更为全面的规划,DeepSeek-V4-Pro 让我们原本极为简单的提示词变得更加体系化,有助于后续的开发。

最终,DeepSeek-V4-Pro 的计划是七步走完成开发,包含框架搭建、图像管理模块设计、VNC 显示插件、完整 GUI 开发、APK 安装功能、打包和 debug。

这一项目的规模确实有点大,DeepSeek-V4-Pro 连续跑了 50 多分钟才完成。

我把后续的调试和环境依赖安装工作也交给了 DeepSeek-V4-Pro。执行过程中,DeepSeek-V4-Pro 缺了什么资源就会调动搜索工具,直接搜索到对应链接进行下载,也能通过命令行帮我解压、安装相关环境,彻底解放双手。

DeepSeek-V4-Pro 又工作了 20 多分钟,把活全部都干完了。不过,最后这一模拟器未能成功运行,截至发稿,DeepSeek 还在帮我 debug。

二、实测复杂推理,被 IMO 难题打入死循环

除了智能体、编程能力之外,DeepSeek-V4 在推理方面的提升也值得关注。

DeepSeek 官方称,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个模型的推理能力接近。在下方这几道逻辑和推理题目中,我们便同时测试了两个模型。

任务 1:解答海龟汤,Pro 反而比 Flash 要快?

我们向 DeepSeek 发送的题目如下。这种题目的考察难点主要不在 " 谜面有多复杂 ",而在于模型如何突破常见的思维惯性。

先来看看 DeepSeek-V4-Pro 的解题过程。DeepSeek-V4-Pro 用时 33 秒就便推理出正确答案,思考过程简洁清晰。

DeepSeek-V4-Flash 的推理速度反而更慢,耗时 61 秒,输出的结果是正确的。DeepSeek-V4-Flash 慢的原因是它的思维过程有些冗余,多了不少反复的确认与自我质疑。

任务 2:实测 IMO 难题,Flash 答错、Pro 死循环了

解答数学题也是 DeepSeek 的老传统之一了。此次,DeepSeek 称 V4-Pro 的数学能力在测评中超过了所有已公开测评的开源模型,比肩世界顶级闭源模型。

我们拿去年 IMO 的题目考了考 DeepSeek,关闭联网开启推理,让模型完全靠自己解决问题。这张高糊的题目也考察了 DeepSeek 网页服务中 OCR 的能力,我们检查了下,识别结果都是正确的。

这道题目让两个模型都思考了很久很久,似乎陷入了无尽的循环。DeepSeek-V4-Flash 最后给出答案,但是是错误的。DeepSeek-V4-Pro 跑了 10 多分钟,没有明显进展,最后我们手动中断了思考。

三、轻量级测试题集锦:洗车店问题竟意外难倒 V4-Pro

上述案例都比较硬核,接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让 DeepSeek-V4-Flash、DeepSeek-V4-Pro 在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash 给出了正确答案,它觉得这个问题太简单了,语气中满是嘲讽。

DeepSeek-V4-Pro 的思路则有些清奇,它建议我们把车推过去,认为 " 这种方案对车最好,省去冷启动磨损 ",还补充道 " 推过去是爱车的极致表现,直接开过去是最不划算的方式。"

后来我们又给了 DeepSeek-V4-Pro 几次机会,它给出正确答案的概率还是高一些,但偶尔还是会因为过度思考而把自己绕进陷阱。

鹈鹕骑自行车的 SVG,DeepSeek-V4-Flash 就可以轻松拿下,结果基本完美:

像是网页小游戏这样的题目,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的表现其实都不太好,Flash 打造的结果根本无法渲染,Pro 打造的虽然渲染成功,但基本不可玩。

在这些 "Toy Case" 上,DeepSeek 似乎没有花太多精力进行针对性的优化。

结语:DeepSeek-V4,又一次定义开源模型的上限

DeepSeek-V4 系列模型确实带来了惊喜,尤其是在智能体编程方面,其长程规划与执行能力令人印象深刻。其基准测试也基本回应了 AI 圈对 DeepSeek 的期待,拿下了多项开源 SOTA。

DeepSeek 的开源不只是把模型权重开放出来,在某种意义上,也是将训练 1.6T 超大规模模型所需的算力、资金乃至工程经验一并 " 开源 " 给了整个社区。这一选择值得敬意。

可以预见,随着后续迭代优化,DeepSeek-V4 有望持续进化,成为开源 AI 生态中一个兼具性能与活力的基座模型。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容