实测在 DeepSeek-V4 上烧 1000 万 token，我发现了 3 个惊喜和 1 个意外

智东西

作者 | 陈骏达

编辑 | 心缘

智东西 4 月 24 日报道，今天，DeepSeek-V4 开源并火速冲上 Hugging Face 模型榜首，号称推理和智能体编程性能冲到开源模型第一、比肩先进闭源模型。为了验证两款模型的真实效果，我们进行了多维度的深度体验。

DeepSeek-V4-Pro 登顶 Hugging Face 热榜第一（图源：Hugging Face）

我们的这次实测累计消耗超过 1000 万 token。总体来看，DeepSeek-V4 系列，尤其是 Pro 版本，展现出强大的自主规划与执行能力；但在部分极限任务和轻量级场景中，也存在一些有趣的短板。以下是我们提炼出的核心体验要点：

（1）智能体编程提升明显，长程任务能力惊艳：DeepSeek-V4-Pro 能够连续自主编程 60 分钟以上，无需人工干预，完成复杂的数据库设计和安卓模拟器开发等工程任务，展现出强大的长程规划、自我纠错和工具调用能力。

（2）复杂推理有亮点也有短板：模型在海龟汤等逻辑题上表现出色，但在 IMO 数学难题和部分轻量级测试中陷入死循环或给出错误答案，推理稳定性还有提升空间。

（3）轻量级任务表现意外翻车：简单问题（如洗车店问题）上，Pro 版有时反而因为 " 过度思考 " 无法给出正确答案，而 Flash 版更为直接高效。

（4）价格有所上涨，但缓存机制降低部分成本：相比 DeepSeek-V3.2，V4 系列 API 价格上调，但在长任务中借助缓存，总账单的增长没有 API 涨幅那么明显。

以下是我们的完整实测：

一、智能体编程能力明显提升，实测连续干活 60 分钟无需干预

DeepSeek-V4 的官方博客，尤其强调模型的 Agentic Coding 能力。这次实测中，我们让 DeepSeek-V4-Pro 与 Claude Code 打配合，执行了两个较为复杂的工程任务。

任务 1：连续编程 60 分钟，打造完整记账系统

在数据库设计任务中，我们的提示词并未给模型提供过多的约束，这考察了其自主规划任务的能力

拿到任务后，DeepSeek-V4-Pro 先是思考了一会儿，然后输出了一个完整的数据库设计方案，包含 8 个核心功能模块和 6 张数据表，目标是实现记账、流水统计等功能。

此外，它还规划了开发流程，除了打造每个具体组件之外，DeepSeek-V4-Pro 也计划在开发结束后自主进行验证，并列出 10 项验证的清单，考虑得较为周到。

之后，我们就完全放手让 DeepSeek-V4-Pro 自主执行任务，它连续编程了接近 60 分钟，期间没有出现中断或者死循环，也没有遗漏关键步骤，完全按照此前的规划执行。

DeepSeek-V4-Pro 的开发结果如下，从前端的角度来看，这一数据库在美感层面稍有欠缺，但所有核心功能都运转正常。我们试着添加了一条数据，没有出现报错信息。

在前端中，用户可以直接完成各种自定义操作，比如新增分类，删改数据等等。而此前我们体验的部分模型在这种任务上可能会把所有设置都写死，这影响了后续的可扩展性。

查看后端数据库也可以发现，我们在前端输入的新数据可以正常同步到数据库后台，下图最后两行数据，就是手动添加的。这证明前后端之间的数据交互接口与数据传输链路均处于正常、可用的状态。

总体来看，在复杂数据库开发这种综合考察模型长程规划能力、自我纠错能力、长上下文能力和推理能力的任务上，DeepSeek-V4-Pro 的表现可以说远远超过了 DeepSeek-V3.2。

不过，需要注意的是，与此前 DeepSeek 的旗舰级模型相比，DeepSeek-V4-Pro 的价格有一定幅度的上涨，跑完上述这一任务的 token 消耗量大概在 20 万个左右（大部分为输入 token），换算为 API 账单大概是 5 块钱，由于缓存机制的介入，价格还算可以接受。

任务 2：从零开始打造安卓模拟器，代码、环境全程包办

我们的下一个任务挑战更大：让 DeepSeek-V4-Pro 从零开始打造一个安卓模拟器。

这一任务的复杂程度似乎已经超出 DeepSeek-V4-Pro 的知识范围了，于是它决定开启联网搜索，查询配套工具、参考架构等等，进行了 18 次工具调用。

在足足思考了 11 分钟之后，DeepSeek-V4-Pro 才开始动笔写开发计划，它还自我评价道：" 很好，Plan Agent 输出了很全面的架构，我现在开始写完整架构。" 此时，已经烧了 8000 多个 token。

不过这种 token 消耗并非浪费，通过更为全面的规划，DeepSeek-V4-Pro 让我们原本极为简单的提示词变得更加体系化，有助于后续的开发。

最终，DeepSeek-V4-Pro 的计划是七步走完成开发，包含框架搭建、图像管理模块设计、VNC 显示插件、完整 GUI 开发、APK 安装功能、打包和 debug。

这一项目的规模确实有点大，DeepSeek-V4-Pro 连续跑了 50 多分钟才完成。

我把后续的调试和环境依赖安装工作也交给了 DeepSeek-V4-Pro。执行过程中，DeepSeek-V4-Pro 缺了什么资源就会调动搜索工具，直接搜索到对应链接进行下载，也能通过命令行帮我解压、安装相关环境，彻底解放双手。

DeepSeek-V4-Pro 又工作了 20 多分钟，把活全部都干完了。不过，最后这一模拟器未能成功运行，截至发稿，DeepSeek 还在帮我 debug。

二、实测复杂推理，被 IMO 难题打入死循环

除了智能体、编程能力之外，DeepSeek-V4 在推理方面的提升也值得关注。

DeepSeek 官方称，DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个模型的推理能力接近。在下方这几道逻辑和推理题目中，我们便同时测试了两个模型。

任务 1：解答海龟汤，Pro 反而比 Flash 要快？

我们向 DeepSeek 发送的题目如下。这种题目的考察难点主要不在 " 谜面有多复杂 "，而在于模型如何突破常见的思维惯性。

先来看看 DeepSeek-V4-Pro 的解题过程。DeepSeek-V4-Pro 用时 33 秒就便推理出正确答案，思考过程简洁清晰。

DeepSeek-V4-Flash 的推理速度反而更慢，耗时 61 秒，输出的结果是正确的。DeepSeek-V4-Flash 慢的原因是它的思维过程有些冗余，多了不少反复的确认与自我质疑。

任务 2：实测 IMO 难题，Flash 答错、Pro 死循环了

解答数学题也是 DeepSeek 的老传统之一了。此次，DeepSeek 称 V4-Pro 的数学能力在测评中超过了所有已公开测评的开源模型，比肩世界顶级闭源模型。

我们拿去年 IMO 的题目考了考 DeepSeek，关闭联网开启推理，让模型完全靠自己解决问题。这张高糊的题目也考察了 DeepSeek 网页服务中 OCR 的能力，我们检查了下，识别结果都是正确的。

这道题目让两个模型都思考了很久很久，似乎陷入了无尽的循环。DeepSeek-V4-Flash 最后给出答案，但是是错误的。DeepSeek-V4-Pro 跑了 10 多分钟，没有明显进展，最后我们手动中断了思考。

三、轻量级测试题集锦：洗车店问题竟意外难倒 V4-Pro

上述案例都比较硬核，接下来我们看几个轻松点的案例。

首先是大家喜闻乐见的洗车难题。我们让 DeepSeek-V4-Flash、DeepSeek-V4-Pro 在关闭联网和思考的模式下解答。

DeepSeek-V4-Flash 给出了正确答案，它觉得这个问题太简单了，语气中满是嘲讽。

DeepSeek-V4-Pro 的思路则有些清奇，它建议我们把车推过去，认为 " 这种方案对车最好，省去冷启动磨损 "，还补充道 " 推过去是爱车的极致表现，直接开过去是最不划算的方式。"

后来我们又给了 DeepSeek-V4-Pro 几次机会，它给出正确答案的概率还是高一些，但偶尔还是会因为过度思考而把自己绕进陷阱。

鹈鹕骑自行车的 SVG，DeepSeek-V4-Flash 就可以轻松拿下，结果基本完美：

像是网页小游戏这样的题目，DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的表现其实都不太好，Flash 打造的结果根本无法渲染，Pro 打造的虽然渲染成功，但基本不可玩。

在这些 "Toy Case" 上，DeepSeek 似乎没有花太多精力进行针对性的优化。

结语：DeepSeek-V4，又一次定义开源模型的上限

DeepSeek-V4 系列模型确实带来了惊喜，尤其是在智能体编程方面，其长程规划与执行能力令人印象深刻。其基准测试也基本回应了 AI 圈对 DeepSeek 的期待，拿下了多项开源 SOTA。

DeepSeek 的开源不只是把模型权重开放出来，在某种意义上，也是将训练 1.6T 超大规模模型所需的算力、资金乃至工程经验一并 " 开源 " 给了整个社区。这一选择值得敬意。

可以预见，随着后续迭代优化，DeepSeek-V4 有望持续进化，成为开源 AI 生态中一个兼具性能与活力的基座模型。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

实测在 DeepSeek-V4 上烧 1000 万 token，我发现了 3 个惊喜和 1 个意外

宙世代

一起剪

相关阅读

鸿蒙6杀入大众产品线，手机行业的「参数内卷」该到头了

最新评论

智东西

热门推荐

企业资讯