APP下载

关于ZAKER

Skills 合作

科创板日报 7分钟前

DeepSeek-V4 发布！迈入百万上下文时代华为昇腾超节点全面支持

《科创板日报》4 月 24 日讯（记者黄心怡）DeepSeek-V4 的预览版本今日上线并同步开源。DeepSeek-V4 模型上下文处理长度由原有的 128K 显著扩展至 1M，支持百万字超长上下文。同时，输出长度最大为 384Ktokens。首次增加了 KV Cache 滑窗和压缩算法，减少 Attention 计算和访存开销，并通过模型架构创新更好地支持了 Agent 和 Coding 场景。

华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持 DeepSeek-V4 新模型。华为昇腾超节点全系列产品支持 DeepSeek V4 系列模型，实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理。

DeepSeek 方面称，受限于高端算力，目前 V4-Pro 的服务吞吐仍有限，预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调。

▍百万上下文成标配

DeepSeek-V4 模型按大小分为两个版本：DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活），且同时支持 " 非思考模式 " 与 " 思考模式 "，均拥有百万字超长上下文的能力。

据介绍，V4 系列采用 DSA 稀疏注意力机制，实现 token 维度压缩，让 1M（一百万字）超长上下文成为标配，降低了长文本处理对计算和显存的需求，为复杂长程任务提供了支撑。

其中，DeepSeek-V4-Pro，相比前代模型，DeepSeek-V4-Pro 的 Agent 能力有所增强。

在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus4.6 非思考模式，但仍与 Opus4.6 思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的成绩。

而DeepSeek-V4-Flash 模型参数下降至 284B，推理成本进一步降低，模型参数和激活更小。

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。

在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

▍华为昇腾、天数智芯、寒武纪等国产芯片支持 DeepSeek-V4

目前，华为昇腾超节点全系列产品已支持 DeepSeek V4 系列模型，实现 DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低时延推理。

据了解，昇腾 950、昇腾 A3 超节点对 DeepSeek V4 系列模型全面适配。同时为便于用户快速微调，提供了基于昇腾 A3 超节点的训练参考实现。

基于 DeepSeekV4-Pro 模型，在 8K 输入场景，昇腾 950 超节点可实现 TPOT 约 20ms 时单卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型，8K 长序列输入场景下可实现 TPOT 约 10ms 时单卡 Decode 吞吐 1600TPS。

基于昇腾 A3 64 卡超节点结合大 EP 模式部署，DeepSeek V4-Flash 模型，8K/1K 输入输出场景，基于 vLLM 推理引擎可实现 2000+TPS 的单卡 Decode 吞吐。针对 DeepSeek V4-Pro 模型，昇腾 A3 同步支持推理部署，性能持续优化中。

国产 GPU 厂商天数智芯完成了与 DeepSeek-V4 的 Day 0 级适配。据悉，天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心，承接 DeepSeek-V4 的全场景应用。

而寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配，适配代码已开源到 GitHub 社区。

▍下半年昇腾 950 超节点将批量支持 DeepSeek V4

根据 DeepSeep 官方文档介绍，DeepSeek V4 并不是只在英伟达体系内做优化，而是将细粒度专家并行（EP）方案同时在英伟达 GPU 和华为昇腾 NPU 上完成验证，这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面，当前释放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM，底层实现深度绑定英伟达工具链。

从价格看，DeepSeek V4-Pro 输入（缓存命中）是 1 元 / 百万 tokens，输入（缓存未命中）是 12 元，输出是 24 元；V4-Flash 输入（缓存命中）是 0.2 元 / 百万 tokens，输入（缓存未命中）是 1 元，输出是 2 元。

值得一提的是，官方 API 页面在小字中提到，受限于高端算力，目前 V4-Pro 的服务吞吐仍有限，预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调。这意味着，DeepSeek 正尝试把模型运行时从单一硬件依赖中解耦出来。

此外，华为云首发适配了 DeepSeek-V4 模型。华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DeepSeek-V4 发布！迈入百万上下文时代 华为昇腾超节点全面支持

宙世代

一起剪

相关阅读

12万亿中东资金买入中国，人民币石油循环成型

美元投资“惊魂”：有人赚了个“寂寞”，有人已亏到本金

永泰能源稳进提质筑牢根基 行业回暖前景可期

3月国家能源局核发绿证超3亿个，绿电ETF华夏（562550）规模创新高，连续8日获资金净流入

网约车老三，要上市了

净利润暴跌60.69%，营收狂飙反亏，三一重能与金风、远景走出截然相反的路

茅台向经销商「要利润」

英特尔：告别 “至暗” 时刻，老霸主打响 “反击战”

江苏省环保集团注册资本增至约63.6亿元

油气ETF领涨，机构：原油市场仍面临较大缺口

MLCC市场交期明显拉长，MLCC概念逆势活跃

中东冲突，怎么把避孕套价格打上去了？

春季农业生产顺利推进，农业ETF天弘（512620）近10个交易日获资金净流入超9000万元

微软首次推出自愿离职买断计划 覆盖美国至多7%员工

华西证券：出海持续提速，看好工程机械板块业绩长虹

最新评论

科创板日报

热门推荐

企业资讯

DeepSeek-V4 发布！迈入百万上下文时代华为昇腾超节点全面支持

永泰能源稳进提质筑牢根基行业回暖前景可期

微软首次推出自愿离职买断计划覆盖美国至多7%员工