关于ZAKER Skills 合作
互联网怪盗团 23分钟前

DeepSeek V4 终于来了!我们知道些什么?

万众期待的 DeepSeek V4 预览版终于在北京时间 4 月 24 日上午发布了。此前,媒体和分析师曾反复预测 V4 即将发布,并已经多次预测失败,这一次终于成功了。由于模型发布时间还太短,第三方和客户评测还在紧锣密鼓的进行中,现在的有效信息其实很少。不过,通过技术文档和海外 AI 社区的初步讨论,我们还是能得到一些情报的。

首先,V4 的战略方向是提高 Agent 能力,这与 OpenClaw 发布以来的世界潮流相符。" 全民养龙虾 " 的浪潮,给 MiniMax, Kimi 和智谱等国产大模型厂商带来了巨大的 Token 增量,但最重要、最专业的增量被 Claude 吃掉了。Agent 能力与编程能力是密不可分的,Claude Code 至今仍是全球最强大的 AI 编程工具(没有之一),GPT-Codex 也无法撼动其地位。DeepSeek 官方公告在开头最显眼的部分宣称 "Agent 能力大幅提高 ",但也承认 "(据评测反馈)仍与 Opus 4.6 思考模式存在一定差距 "。

在海外 AI 社区,一部分用户十分兴奋,期待 DeepSeek 成为 "Claude 杀手 " ——但公允的说,这只是一种美好愿望,毕竟很多人都很痛恨 Claude 及其开发商 Anthropic," 天下苦 Anthropic 久矣 "。从目前的测试数据看,V4 的 Token 性价比很高,但是 Agent Benchmark 指标并没有超过 Claude Opus-4.6 和 GPT-5.4。需要注意的是,Benchmark 分数只有参考意义,关键还是实际用户体验,Claude 在许多 Benchmark 测试当中并不优于 GPT 和 Gemini,但并不妨碍它在 Agent 领域几乎一枝独秀。因此,我非常关心接下来一段时间,专业用户使用 DeepSeek 进行 Agent 操作的实际反馈。

上下文窗口扩展到 1M 是一个重要提升,与较低的 Token 定价结合起来,可能创造较高的生产力。不过,我们仍需要等待专业客户执行复杂任务之后的实际反馈,至少还得等两三天。

我猜测:DeepSeek 从传说中的 "1 月 /2 月发布 " 一直拖到今天发布,实际原因可能是打磨 Agent 能力,因为龙虾这波增量超出了所有人的预期。与其发布一个跟不上现实 Agentic Workflow 需求的大模型,还不如在等几个月,发布一个完全符合现实需求的大模型。当然这只是我的个人猜测,没有实证。

其次,最初一波海外客户使用反馈,在执行 " 非深度推理、非数学、非代码 " 任务,例如头脑风暴和文艺创作时,V4 给人的感觉 " 太干 " ( dry ) ," 过于正式 ",落后于 Claude 和 GPT 的最新版本,甚至有人认为落后于 GPT-5.2。需要强调的是,这些零碎的主观感受代表不了什么,文艺创作任务也并非 V4 的主要发力方向。不过,这有可能对消费端用户的倾向造成微妙的影响,从而扰动目前互联网大厂对 C 端 AI 应用市场的争夺战。

假设 V4 的回答真的 " 太干 "" 太正式 ",有可能是对于 V3/R1 幻觉率较高问题的一种解决,因为自由发挥几乎一定意味着幻觉率提升,而限制幻觉率几乎一定会让回答 " 更干 "。当然这只是猜测,期待更多更广泛的测试结果。

第三,也是很多人最关心的:DeepSeek V4 技术文件披露了很多训练细节,但是不包括训练硬件(显卡)。整份技术文件当中,仅仅提到 " 华为 " ( Huawei ) 一次,提到 " 英伟达 " ( Nvidia ) 三次(不含脚注);提到 "GPU" 十四次(不含脚注),但都没有提到是什么型号的 GPU,仅有一次例外—— "We validated the fine-grained EP scheme on both NVIDIA GPUs and Huawei NPUs platforms. 但这只是表示测试环境,不代表训练场景(注:这也是唯一一次提到华为昇腾 NPU)。

因此,我们仍不知道 DeepSeek 究竟是在什么硬件上训练出来的。技术文件中有几次提到了 CUDA,但也不能据此得出完全基于英伟达架构的结论。是否像某些分析师预期的那样," 基于英伟达和华为昇腾混合架构进行训练 ",或者 " 在后训练环节对昇腾进行了专门优化 "?遗憾的是,虽然一切皆有可能,但是 DeepSeek 官方既无认可、也无否认。相比之下,V3 技术文件在一开始就宣布是由英伟达 H800 和 A100 训练出来的。

图片由 Google Nano Banana Pro 制作

有人根据 DeepSeek 公告中 " 预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调 ",得出了 "V4 针对昇腾做了深度优化 ",甚至 " 从 1 月推迟发布至今就是为了适配昇腾 " 的结论。虽然不能完全排除这种可能性,但不得不说,这种思维过于跳跃。这只能说明 DeepSeek 官方会采购或租用一批昇腾算力,并对昇腾推理进行过一些优化(这是很正常的),至于优化程度多深、乃至是否为了适配昇腾而多次推出发布,均还没有任何实证支持。

不过,要间接证明或证伪也不难。V4 是开源的,从今天起,会有无数厂商用自己的算力运行推理。假设它确实是基于昇腾训练出来的,或者为昇腾做过深度优化,那么可以推断——它在昇腾硬件上的推理效率,应该高于在英伟达等其他硬件上的推理效率,或至少处于同一量级。又或者,昇腾硬件能够促使 V4 达到某种独特的性能,而其他硬件做不到。只需要关注一下新闻即可轻松了解实际情况(如果没看到新闻则代表证伪了)。

最后是对产业界的影响。除了 DeepSeek 自己,最期待 V4 发布并震惊世界的,大概就是腾讯了。昨天混元 3.0 大模型预览版刚刚发布,结果其光芒完全被今天的 DeepSeek V4 遮住了。我还没有机会全面试用混元 3.0,但是考虑到此前腾讯在基座大模型方面的落后程度非常大,想用一个版本就达到世界先进水平,似乎不太可能。

因此,腾讯要做好 AI 生意,不管是做好 To B 生意(尤其是卖 Token 的 MaaS 生意)还是 To C 生意,恐怕还是要依赖高质量的第三方开源大模型。国内水平最高、使用人数最多的开源大模型是 Qwen,那是老对手阿里的,腾讯显然不太愿意用。那就只有依靠 DeepSeek,以及几天之前才发过新版本的 Kimi 了。如果 DeepSeek 真的开放融资,腾讯一定会不惜代价投进去。V4 越成功,就越能让腾讯争取到更多时间,一边争取把自己做成 " 国产开源生态 " 的一个集合平台,另一边竭尽全力把自研大模型实力赶上来。

我想,现在最期待 V4 在用户测试当中传来捷报的,应该是腾讯的投资人和管理层。幸运的是,从最初期的一波反馈看,似乎还不错,海外社区的评价偏向积极一面。但确实还需要更多信息,而且仅仅 " 偏向积极 " 是不够的,最好是 " 十分积极 " ——我们恐怕还得等上一个星期才能确认。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容