AI 圈,不同的公司似乎都有着自己独特的发布节奏,比如 OpenAI 和 Google 喜欢相互 " 狙击 ",在国内被津津乐道的,可能要属 DeepSeek 的 " 节前上新 "。
一张流传颇广的 Hugging Face 留言截图,就精准吐槽了 DeepSeek 这种总是在法定节假日前几天发布新产品的习惯。这次,DeepSeek 同样遵循这个规律,在国庆前夕带来了最新的模型 DeepSeek-V3.2-Exp。
DSA:通向下一代模型的阶梯?
根据 DeepSeek 的官方描述,V3.2-Exp 并非一个全新的模型系列,而是其迈向下一代架构的一个 " 中间步骤 "。它以前代模型 V3.1-Terminus 为基础,通过 " 持续训练 "(continued training)的方式,核心目的在于引入并验证其最新的 DeepSeek 稀疏注意力(DSA)机制。官方将其定位为一次针对长文本训练与推理效率的 " 探索性优化和验证 "。
为了更好的理解这次更新,需要从 DSA 入手。在 Transformer 架构中,传统的注意力机制是 " 稠密的 ",处理长文本时成本会呈指数级增长。DSA 则提供了一种更高效的 " 稀疏 " 方案,让模型学会在处理每个字时,只关注那些与它最相关的少数关键信息,从而在理论上大幅提升效率。
对新架构的信心,也体现在其市场策略上。在发布 V3.2-Exp 的同时,DeepSeek 对其 API 服务进行了一次大幅降价,涵盖了从 V2 到 V3.1 等多个主力模型。该大模型行业人士对此评论,DeepSeek 更像是一种 " 以价换量 " 的策略,不只是用户量,更是对新架构的海量 " 验证量 "。通过一个极具吸引力的价格体系,鼓励海量开发者在真实场景中调用其服务,这也为正在进行公开测试的 V3.2-Exp 提供了压力测试数据和环境。
DeepSeek 的这次发布,也在 Reddit、Hacker News 等技术社区引发了讨论。
国产 AI 生态联动
DeepSeek 此次发布还让一个相对小众的国产编程语言获得了关注。
为了方便开发者更好地利用其新架构,DeepSeek 开源了 DSA 中部分关键组件的 CUDA 算子。而在其技术文档中,一个名为 TileLang 的工具被提及。这是一种由北大团队研发的新型编程语言,专为简化高难度的 GPU 算子开发而设计。根据相关资料,对于一些复杂的算子,原本需要 500 行左右的 CUDA 代码,使用 TileLang 可能只需 50 行就能实现,极大地降低了底层优化的门槛和研发成本。
TileLang 此前已被微软等国际厂商在其 AI 框架中采用。但 DeepSeek 的这次 " 引流 ",让更多人看到了其在另一层面的价值,对国产硬件生态的适配。目前,TileLang 不仅支持英伟达的 CUDA,也已支持华为昇腾等国产芯片。
DeepSeek V3.2-Exp 模型发布后,华为昇腾和寒武纪均第一时间宣布完成了适配工作。也就是说以 DeepSeek 为代表的国内大模型公司,在进行算法和架构创新的同时,也在客观上推动和验证了国产 AI 软硬件生态的协同发展。包括上层的模型架构,到中间层的编译语言,再到底层的计算芯片。
不久前,Google 也发布了其最新轻量级模型 Gemini 2.5 Flash-Lite。与 V3.2-Exp 类似,它同样追求极致的性价比。但二者实现路径有所不同。Gemini 的更新更侧重于通过模型蒸馏等方式进行参数和性能的优化,而 DeepSeek 则选择了从更底层的注意力机制入手,进行架构层面的革新。路径有区别,但目标一致,都在致力于提供更普惠的高性能 AI。解决 " 效率 " 和 " 成本 " 这两个基础问题,已经成为全球顶尖玩家的共识,这与单纯的 " 价格战 " 有着本质区别。
这种由底层架构创新带来的成本结构变化,对行业的长期影响可能更为深远。它让更多开发者和中小企业能够以更低成本使用到顶尖水平的大模型,也势必会影响闭源模型的利润空间和策略。这也证明了由算法和架构创新驱动的 AI" 摩尔定律 " 继续。当价格不再是阻碍时,真正的应用创新才可能发生。
通过 DSA 这项技术实验,DeepSeek 传递出其仍在智能前沿进行持续探索的信号,也很可能让我们提前看到了 V4 架构的雏形,这是一个清晰的、正在进行中的过程。而这个进程的速度,将决定我们何时能看到 DeepSeek V4 和 R3。