关于ZAKER Skills 合作
科创板日报 7分钟前

DeepSeek-V4 发布!迈入百万上下文时代 华为昇腾超节点全面支持

《科创板日报》4 月 24 日讯(记者 黄心怡)DeepSeek-V4 的预览版本今日上线并同步开源。DeepSeek-V4 模型上下文处理长度由原有的 128K 显著扩展至 1M,支持百万字超长上下文。同时,输出长度最大为 384Ktokens。首次增加了 KV Cache 滑窗和压缩算法,减少 Attention 计算和访存开销,并通过模型架构创新更好地支持了 Agent 和 Coding 场景。

华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持 DeepSeek-V4 新模型。华为昇腾超节点全系列产品支持 DeepSeek V4 系列模型,实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理。

DeepSeek 方面称,受限于高端算力,目前 V4-Pro 的服务吞吐仍有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。

▍百万上下文成标配

DeepSeek-V4 模型按大小分为两个版本:DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),且同时支持 " 非思考模式 " 与 " 思考模式 ",均拥有百万字超长上下文的能力。

据介绍,V4 系列采用 DSA 稀疏注意力机制,实现 token 维度压缩,让 1M(一百万字)超长上下文成为标配,降低了长文本处理对计算和显存的需求,为复杂长程任务提供了支撑。

其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro 的 Agent 能力有所增强。

在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus4.6 非思考模式,但仍与 Opus4.6 思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4-Flash 模型参数下降至 284B,推理成本进一步降低,模型参数和激活更小

相比 DeepSeek-V4-Pro,DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。

在 Agent 测评中,DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当,但在高难度任务上仍有差距。

▍华为昇腾、天数智芯、寒武纪等国产芯片支持 DeepSeek-V4

目前,华为昇腾超节点全系列产品已支持 DeepSeek V4 系列模型,实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理

据了解,昇腾 950、昇腾 A3 超节点对 DeepSeek V4 系列模型全面适配。同时为便于用户快速微调,提供了基于昇腾 A3 超节点的训练参考实现。

基于 DeepSeekV4-Pro 模型,在 8K 输入场景,昇腾 950 超节点可实现 TPOT 约 20ms 时单卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型,8K 长序列输入场景下可实现 TPOT 约 10ms 时单卡 Decode 吞吐 1600TPS。

基于昇腾 A3 64 卡超节点结合大 EP 模式部署,DeepSeek V4-Flash 模型,8K/1K 输入输出场景,基于 vLLM 推理引擎可实现 2000+TPS 的单卡 Decode 吞吐。针对 DeepSeek V4-Pro 模型,昇腾 A3 同步支持推理部署,性能持续优化中。

国产 GPU 厂商天数智芯完成了与 DeepSeek-V4 的 Day 0 级适配。据悉,天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心,承接 DeepSeek-V4 的全场景应用。

而寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配,适配代码已开源到 GitHub 社区。

▍下半年昇腾 950 超节点将批量支持 DeepSeek V4

根据 DeepSeep 官方文档介绍,DeepSeek V4 并不是只在英伟达体系内做优化,而是将细粒度专家并行(EP)方案同时在英伟达 GPU 和华为昇腾 NPU 上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM,底层实现深度绑定英伟达工具链。

从价格看,DeepSeek V4-Pro 输入(缓存命中)是 1 元 / 百万 tokens,输入(缓存未命中)是 12 元,输出是 24 元;V4-Flash 输入(缓存命中)是 0.2 元 / 百万 tokens,输入(缓存未命中)是 1 元,输出是 2 元。

值得一提的是,官方 API 页面在小字中提到,受限于高端算力,目前 V4-Pro 的服务吞吐仍有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。这意味着,DeepSeek 正尝试把模型运行时从单一硬件依赖中解耦出来。

此外,华为云首发适配了 DeepSeek-V4 模型。华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。

相关标签
科创板日报

科创板日报

上交所科创板电报,股市行情报道

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容