关于ZAKER Skills 合作
钛媒体 11分钟前

DeepSeek V4:中国算力,中国模型,中国节奏

文 | 半导体产业纵横

千呼万唤之下,DeepSeek V4 终于发布了。从今年初开始,业内对 V4 的期待一直悬着,等着发布日期,等着技术报告,等着模型上线。4 月 24 日,这只靴子终于落地。

DeepSeek V4 正式发布,同步开源。同一天,华为云首发适配。

这一天,有三件事值得记下来:

第一件事:AI 算力终于来到了普惠时代,而且这次落地的是开源模型。

第二件事:这次适配华为昇腾等国产芯片。

第三件事:金山办公、360 等企业已通过华为云接入 DeepSeek 新模型。模型一上线,应用就已经在跑了,这说明云是 AI 落地的最佳平台。

三件事,各有各的分量。放在一起,就是中国 AI 生态跨越量变、走向质变的分水岭。

01 华为云深度优化首发适配

华为云首发适配了 DeepSeek-V4 模型。

DeepSeek V4 的适配,难度比以往更高。据了解,V4 这次适配最大的技术挑战,来自模型架构本身的全面创新。据业内工程师表示,"Deepseek V4 模型相对之前的模型创新非常大,在 Attention 模块基本上是完全创新,创新性地引入 Compressor 模块,不管是在模型适配和还是在算子适配上都需要进行全新地开发和调优。"

最大的挑战,来自 1M 长上下文的适配支持。过去一年,模型的上下文窗口一直是行业竞争的焦点。从 GPT-4 的 32K,到 Claude 3 的 200K,再到 Google Gemini 率先突破 1M,百万级上下文窗口正在成为头部模型的新标配。V4 的出现,也将数据拉到了百万量级。

从 256K 到 1M,这不是简单的数字增长,而是对 KVCache(键值缓存)管理、推理平台压力测试、内存调度能力的一次全面升级。面对这个挑战,华为云在系统层、算子层和集群层做了三层协同。

第一层是系统层的调度优化,PD 分离调度。V4 的 Attention 架构引入了全新的 Compressor 模块,KvCache(键值缓存)的管理逻辑和以往完全不同。华为云做了几件事:一是修改 vLLM 的 KvCache 管理模块,能够高效分配和管理不同的 KvCache Group,这是 V4 架构下的新需求。二是重新设计 PD 分离模块。PD 指的是 Prefill(预填充)和 Decode(解码)两个阶段。以往它们混在一起计算,但这两个阶段计算特性差异很大。PD 分离调度的核心是:让 Prefill 和 Decode 各自跑在适合自己的计算资源上,计算链路解耦、独立伸缩、精细化调度,提高首 token 时延、增量时延及整体吞吐表现。

第二层:算子层的计算优化,融合算子。适配 V4,光靠通用算子是不够的。V4 的 Compressor 模块融合了大量小算子,如果用传统的原子算子逐个调用,Kernel 启动开销会成为性能的致命瓶颈。华为云的解决方案是:融合算子,把多个小算子合并成一个 " 大算子 " 一次性执行。特别是 LI 算子和 Compressor 算子,融合了大量小算子,大幅减少了算子的 Kernel Launch 开销。通过算子融合、布局优化和访存重排,提升单卡执行效率与端到端性能。

第三层:集群层的架构优化,互联存储。V4 的大规模部署依赖多机多卡并行,权重加载、KV Cache 共享、跨节点通信、中间状态传输,每一个环节都可能成为瓶颈。互联存储架构解决的是带宽、时延与一致性的瓶颈,支撑大规模并行部署下的稳定扩展。

通过三层优化协同,分别从调度效率、计算效率和数据流转效率三个维度,保障新模型快速适配与高性能落地。

还有一个细节,V4 采用了 FP4+FP8 混合精度训练。在脱离英伟达生态的背景下,这套低精度混合训练方案大概率是基于深度定制的内部格式实现的。结合近期昇腾 950 超节点不仅全面支持 FP8/MXFP4,更推出了自研的高效 HiF8 数据格式,这从侧面印证了:华为底层的算力架构与低精度混合训练技术,已经具备支撑万亿级大模型的能力。

02 百万上下文,用得起

一年多前,DeepSeek-V3 的发布在行业内炸出了一片水花。

DeepSeek 像一条鲶鱼,把 AI 大模型的价格从 " 高高在上 " 拉到了 " 人人可用 "。API 调用的成本是 GPT-4 的百分之一,性能却能正面硬刚,这是 DeepSeek 给整个行业留下最深的印象。

但过去一年,行业的牌桌变了。从 AI Agent 的爆发到百万级长文本的普及,Token 的消耗量正呈指数级激增。当下的行业陷入了一个悖论:AI 越来越好用,但 AI 也越来越贵。

因此,市场对 V4 最大的期待不仅是技术指标的攀升,更是:百万级别的 AI 普惠,何时真正落地?

DeepSeek 给出了它的回应:从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配。同时,在价格上继续保持了极强的压迫感, V4-Flash 输入(缓存命中)打到了 0.2 元 / 百万 tokens,V4-Pro 限时优惠输入(缓存命中)低至 0.25 元 / 百万 tokens;预计下半年昇腾 950 批量上市后,Pro 价格还会大幅下调。

这种 " 加量不加价 " 的底气,背后是两条技术路线的深度交汇。

第一条路线,是 DeepSeek 在算法层面的 " 精打细算 "。从 V3 到 V4,DeepSeek 在 MoE 路线上越走越深。V4 每层 384 个专家,每次激活 6 个专家,通过这种极其细粒度的专家分割和智能路由,V4 在成倍扩大模型参数、提升能力的同时,将实际激活的计算量死死按在了合理区间。简单来说,用户无需为模型中那些 " 沉睡 " 的参数买单。

第二条路线,则是华为云在基础设施层面的算力托底。模型本身的降本只是第一步,要让产业真正 " 用得起 ",还需要云端算力的同步下沉。华为云在这里扮演了 " 普及者 " 的角色。首先,降低使用门槛。华为云 MaaS 平台为开发者提供免部署、一键调用 V4-Flash API 的服务。中小企业和开发者不需要关心底层芯片,无需自己管理集群即可接入。其次,扩大覆盖范围。当前华为云已适配 160 多个行业主流大模型,无论是大规模企业还是初创团队,都能在华为云的 AI 基础设施中找到适合的接入方式。最后,持续优化成本。通过模型蒸馏、量化压缩和高效推理,华为云将百万级上下文的使用门槛拉低到了极具商业竞争力的水平,让 " 用得起 " 这件事真正落地。

这种普惠并非简单的 " 降价促销 ",而是建立在 " 昇腾芯片— CANN 异构计算架构—华为云服务 " 三层协同的基础之上,是硬核工程能力兑现的结果。

当然,国产算力的突围绝非一蹴而就。据 DeepSeek 披露,受限于当前高端算力的供给,目前 V4-Pro 的服务吞吐仍有局限。但同时也释放了一个明确的预期:预计下半年昇腾 950 超节点批量上市后,其价格仍有进一步下调的空间。

这种算力成本的持续下探,带来的绝不仅仅是软件调用的狂欢,更是直接扣动了海量智能端快速普及的扳机。当百万上下文的推理成本低至几毛钱,AI 将彻底突破云端 SaaS 的边界,加速向 AI PC、智能汽车、具身机器人乃至庞大的 IoT 生态蔓延。端侧设备无需再受制于昂贵的本地算力瓶颈,只要接入云端,就能随时唤醒最聪明的 " 大脑 "。

AI 的普惠,终局就是成为像水、电一样的基础设施。水利工程的意义不是让家家户户去买抽水机,而是拧开水龙头就有水;算力普惠的意义,也不在于让每个企业都去囤积昂贵的 GPU,而是通过云端按需调用。在这里,华为云的存在就如同 AI 时代的 " 硅基黑土地 "。

03 这一次,中国算力起立

金山办公、360 等国民级软件在 DeepSeek V4 发布同一天,就通过华为云完成了新模型的接入。

不要小看这个 "Day 0" 同步上线的动作。在过去,大模型的发布往往是 " 期货 ",模型发了,应用端要等平台调试、等算力到位、等接口稳定,中间有着漫长的时滞。而这一次,模型一上线,千万级用户的核心业务场景就已经在上面跑了。

这印证了一个残酷但令人振奋的产业现实:只有底层的算力基建足够稳固,上层的商业应用才能跑得如此轻盈。长久以来,国内 AI 产业的发展始终悬着一把达摩克利斯之剑——对海外高端 GPU 生态的重度依赖。单点技术的突破不少见,但难以串联成一条完整的商业流水线。

DeepSeek V4 在华为云上的首发适配并规模化落地,不仅是业务的跑通,更是一场极其鲜明的生态跃迁:中国 AI 产业,正在实质性地跨过 CUDA 的封锁线,向以 " 华为昇腾硬件 +CANN 异构计算架构 " 为核心的国产智算生态全面迁徙。

真正意义上宣告了一个国产 AI 全栈闭环的成型。在这里,我们看到了五个层面的 " 握手 ":芯片层,以昇腾系列为代表的国产算力硬件,真正扛起了高压拉练;框架层,华为 CANN 计算架构等底层软件,完成了对复杂算子和万亿参数调度的深度优化;云平台,华为云作为超级枢纽,将底层生硬的算力转化为了灵活、可调用的服务;模型层,DeepSeek V4 作为中国原生的顶尖大模型,提供了世界级的智力引擎;应用层,金山办公、360 等头部企业的迅速接入,补齐了将 AI 转化为实际生产力的最后一块拼图。

" 模型 - 芯片 - 服务器 - 云平台 - 应用 ",这条完整的国产化链路首次被打通并接受了真实商业环境的检验。这意味着,中国的人口红利和海量数据,终于可以跑在中国人自己的算力网络和模型架构上。

这一次,中国算力不再是英伟达阴影下的备选方案,而是真正站上了牌桌。

04 结语

在 DeepSeek 正式发布 V4 的文章末尾,写了这样一句话:" 不诱于誉,不恐于诽,率道而行,端然正己。" 这句话放在当下的百模大战中,显得尤为克制,也尤为清醒。

" 率道而行 ",究竟什么是大模型时代的 " 道 "?

其实就是回归商业的常识,回归技术的本源。对于 DeepSeek 而言,它的道是死磕算法上限,用极客精神把模型做轻、把能力做强;而对于华为云而言,它的道则是向下扎根,做中国 AI 产业最坚实的底座。

把百万上下文的高端模型拉下神坛,让数以万计的开发者和企业能够通过 API 毫无阻碍地接入,这背后需要填平无数个算子优化的坑,扛住庞大集群调度的压力。华为云正在做的,就是把这些最苦、最重、最底层的 " 脏活累活 " 包揽下来,将复杂留给算力平台,将极简的普惠交还给应用生态。

中国大模型的发展,已经走过了盲目对标的狂热期,进入了比拼基础设施、比拼落地成本的深水区。

在这个深水区里,我们需要 DeepSeek 这样的破局者来定义 " 中国模型 " 的上限,更需要华为云这样的布道者来夯实 " 中国算力 " 的底盘。当模型与算力完成如此深度的咬合,当技术创新与商业化落地形成闭环,这正是属于中国 AI 产业独有的 " 中国节奏 "。

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容