小雷发现,DeepSeek 似乎真的很喜欢大晚上给大家突然来个惊喜。
12 月 1 日晚,DeepSeek 突然来了一波更新:V3.2 版本正式上线并向所有用户开放,同时也在各个开源社区上传了 V3.2 的本地部署模型供所有用户使用。从官方公布的测试结果来看,DeepSeek V3.2 的推理能力已经基本与 OpenAI 的 GPT-5 相近,但是其成本却远低于 GPT-5,可以说仅这一点就足以让不少人为之兴奋了。
好了,废话不多说,让我们直接进入正题,看看 DeepSeek 这次给我们带来了哪些方面的提升。
DeepSeek V3.2 共有两个版本,一个是在 DeepSeek 官方网站上给大家免费使用的 DeepSeek V3.2 版,另一个则是仅支持 API 服务访问的 DeepSeek V3.2-Speciale,从官方的描述来看,Speciale 版拥有更强的推理能力,其主要用于探索目前模型能力的推理能力上限。
V3.2-Speciale 除了会主动进入 " 长思考加强 " 模式外,还结合了 DeepSeek-Math-V2 的定理证明能力,使其拥有更强的指令跟随、数学证明和逻辑验证能力。在官方测试中,V3.2-Speciale 的推理基准测试成绩直接媲美最新的 Gemini-3.0-Pro。
同时,DeepSeek 还用 V3.2-Speciale 测试了 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)等四项赛事的决赛试题,均获得金牌的成绩。
特别是在 ICPC 和 IOI 的测试中,直接达到人类选手第二及第十名的水平,由此不难看出,DeepSeek V3.2 在编程等领域的进步显然更大一些。而且在横向对比中,DeepSeek V3.2-Speciale 的赛事成绩也全部超越了 GPT-5 High,也是给 OpenAI 来了个措手不及。
DSA 机制的部署可以说从根本上解决了 AI 大模型在注意力方面的效率问题,具体来说,传统的注意力机制在运行时会计算序列中所有元素之间的关联,而 DSA 则是 " 有选择 " 地计算部分关键元素之间的关联,这使得所需要计算的数据显著降低。
事实上,类似的技术 DeepSeek 在年初的论文里就已经预告过,当时小雷还写了一篇文章,针对 DeepSeek 发布的全新注意力机制 NSA 进行解读。不过在后续的 DeepSeek 模型更新中,NSA 机制一直没有公开露面,让小雷一度以为这个机制的部署遇到了什么困难。
不过,现在看来并非是遇到了困难,而是 DeepSeek 找到了更好的实现方式,年初论文里的 NSA 在处理长文本数据时,更像是把图书馆的书名做成一本索引,然后在遇到问题时通过索引快速锁定对应区域,然后再进行信息检索。

而 DSA 则是类似于搜索引擎,在处理长文本时会首先进行快速的全文阅读,然后建立 " 闪电索引器 ",后续需要检索数据时,再通过关键词来快速确定相关内容,与 NSA 固定区域的检索是不同的,DSA 不仅更智能和精准,而且消耗的资源还更低。
在 DSA 机制的加持下,128K 的序列推理成本可以降低 60% 以上,并且让推理速度提升约 3.5 倍速度,内存占用则减少 70%,同时模型本身的性能没有明显下降,可以说从根本上改变了 AI 大模型在注意力领域的表现。
根据官方提供的数据,在 H800 集群上进行 AI 模型测试时,在序列长度达到 128K 时,预填充阶段每百万 token 的成本从 0.7 美元降到了 0.2 美元左右,解码阶段则是从 2.4 美元降到了 0.8 美元,让 DeepSeek V3.2 可能成为同级别 AI 大模型里长文本推理成本最低的模型。
除了 DSA 机制外,DeepSeek V3.2 还有个核心升级是允许 AI 大模型在思考模式下调用工具。官方表示其调用工具及使用工具的过程都无需训练,这使得 DeepSeek V3.2 拥有更强大的通用性能,并且作为开源模型可更好兼容使用者自制的工具。
为了验证 DeepSeek V3.2 的新特性,小雷设计了一些问题来看看他的回答效果,首先看看思考模式的表现:
问:A 比 B 大三岁,B 比 C 大两岁。五年后 A 的年龄刚好是 C 的两倍。问现在三个人多少岁?
答:

答案是正确的,不过关键在思考过程:


虽然看起来有点浪费算力,但是这种多次验证的思路却是必须的,可以更好的确保 DSA 机制下回答的正确率,否则就以 DeepSeek 的稀疏架构来说,出错的概率其实会比其他 AI 更高。
然后我又设计了一个多步骤的任务链处理:
搜索北京今天气温
把气温转换为华氏温度
调用工具检查你的换算是否正确
最后用一句话总结今天适合不适合户外活动
注:你必须自己决定什么时候调用工具,不能一次性完成。
我们来看看 DeepSeek 的思考过程:


作为对比,另一个 AI 在面对相同的问题时,虽然理解 " 调用工具 " 等要求,但是在执行到实际步骤时却变成直接搜索对应数据来填充回答:

你可以这么理解:DeepSeek 以前只能在你提问时通过回忆(模型参数)来组合答案,现在则可通过拆解问题、逐个提问并针对问题使用不同工具(如搜索、数学、编程等)来给出更好的解决方案,最后再整合所有回答并重新排版成完整答案。
因为整体时间有限,所以小雷也就没有设计更难的问题去测试 DeepSeek,有兴趣的朋友现在就可以登录 DeepSeek 官网亲自试试。
DeepSeek V3.2 强吗?确实强,但是并没有断崖式领先,从测试结果来看与 GPT-5 High 及 Gemini 3.0 Pro 都是有来有回。但是,当一个能在多个权威基准里对标 GPT-5、Gemini 3.0 Pro、推理成本却低到只有行业主流模型三分之一甚至更低的模型以完全开源的方式放出来,足以对整个市场造成冲击——这也是 DeepSeek 一直能颠覆行业的根本逻辑。
此前,业界一直有个声音:" 开源模型永远落后闭源模型 8 个月 ",这个结论不好说对不对,但是 DeepSeek V3.2 的发布显然终结了这个争论。DeepSeek 继续坚持全量开源,尤其是在引入 DSA 这种能显著降低成本、提升长文本能力的底层技术之后,其实就让开源模型的角色从 " 追赶者 " 变成了反向倒逼闭源巨头的 " 挑战者 "。
更重要的是,DSA 带来的成本革命会对 AI 大模型的商业化造成显著影响,因为 AI 大模型的训练和推理本质上都还存在成本高的问题,一句 " 成本下降 60%" 背后其实不只是关系到运营成本,还有前期部署成本,整体成本下降也意味着即使是小型企业都可以借助 DeepSeek 训练出更强的模型。
而在推理端,长文本交互的价格足够低后,高级 AI 应用(智能体、自动化工作流、长链推理等)也将不再局限于企业级市场,而是能够更好地被推广到消费级市场使用,甚至可能极大加速 "AI 工具取代传统软件 " 的趋势,使 AI 真正渗透到操作系统层级的日常使用中。
对于普通用户而言,或许只是觉得多了个免费的好用模型,但是从在几个月、半年后,或许你会发现各种硬件、软件的 AI 体验又有了质的提升,不用怀疑,这背后大概率有 DeepSeek 的功劳。

