智东西 6 月 27 日报道,继完成 500 亿元融资后,今日,DeepSeek 首次放出开源新成果!
刚刚,DeepSeek 开源了一套让现有模型跑得更快的工程方案:推出 DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark 模型,并开源推测解码(Speculative Decoding)框架 DSpark 以及推测解码训练框架 DeepSpec。

▲ DeepSeek-V4-Pro-DSpark 开源上新页面截图
相较于成熟的生产基线方案(MTP-1),在保持整体吞吐不变的前提下,DSpark 把单用户生成速度提升 60%-85%。更关键的是,在严格交互时延约束下,DSpark 避免了吞吐率大幅滑坡,实现了以往无法达成的性能档位,推高了整套服务系统的帕累托最优边界。

根据 Hugging Face 上的模型卡,DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 并非新模型,而是在原有版本的基础上,增加了一个推测解码模块,用以加快推理速度、降低成本。
推测解码,简单来说,是一种大模型推理无损技术,核心流程为先打草稿、后验证。其将草稿生成与目标模型校验解耦,以此加速大语言模型推理。
当前主流并行草稿器能够单次前向运算生成超长 token 序列,但由于 token 之间缺少依赖关系,草稿后续内容的通过率会快速下滑。此外,如果对整段长候选序列无差别校验,会把宝贵的批次算力浪费在极易被驳回的 token 上,从而导致高并发服务场景下整体吞吐率大幅下降。
为此,DeepSeek 提出 DSpark 推测解码框架,把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。为保证草稿质量,DSpark 采用半自回归架构:将并行主干网络与轻量串行模块相结合,建模块内 token 依赖,缓解末尾内容通过率衰减问题。

▲ DSpark 架构与解码流程
如下图所示,针对这 DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 两款模型,DeepSeek 提供了一个最小推理示例。

▲ DeepSeek 提供的最小推理示例
再来看看 DeepSpec,这是一个用于训练和评估推测性解码草稿模型(Draft Model)的全栈代码库,或者说工具链,它包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持 MIT 许可。

▲ DeepSpec 开源上新页面截图
1、数据准备:下载提示,重新生成目标答案,并构建目标缓存。
2、训练:针对缓存的目标输出训练一个模型。
3、评估:在基准任务上衡量推测解码的接受程度。
目前,DeepSpec 支持的算法包括三个草稿模型:DSpark、DFlash 和 Eagle3。
DeepSpec 团队还在最后向 SpecForge(Apache-2.0)、DFlash(MIT)以及 Qwen3 和 Gemma 发文致谢。

▲ DeepSeek 致谢情况
DeepSeek 本次发布虽然低调,也不是新模型迭代,但实际含金量不低。DeepSeek 发布了一套让现有模型跑得更快的工程方案,有望带来更快更低成本的推理体验,并降低推测解码的落地门槛。
大模型竞赛已进入训练与推理并重的系统博弈阶段。本次也是 DeepSeek 完成融资后,率先落子推理优化赛道。战略意图也很明确:不仅要加速模型迭代和产品化,还要向下抢占算力效率竞争制高点。