关于ZAKER Skills 合作
中国金融信息网 20分钟前

软硬件深度协同 寒武纪抢先实现 DeepSeek-V4 原生适配

转自:新华财经

4 月 24 日,国产大模型 DeepSeek-V4 正式发布,国内领先的 AI 芯片设计企业寒武纪随后宣布,已第一时间基于 vLLM 推理框架完成对此次 285B DeepSeek-V4-Flash 及 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配,适配代码已开源至 GitHub 社区。

据了解,这是寒武纪第二次在 DeepSeek 系列模型发布当日完成适配。去年 DeepSeek-V3.2 发布时,寒武纪便率先推出适配的国产芯片。连续两次的快速响应,得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,更是其持续投入芯片与算法联合创新的具体体现。业内人士表示,DeepSeek-V4 原生运行在寒武纪芯片上,这对中国人工智能产业具有里程碑意义。此前寒武纪对 DeepSeek 系列模型开展深入的软硬件协同性能优化,并达到了业界领先的算力利用率水平。

本次适配工作的顺利完成,集中展现了寒武纪的核心技术实力,主要体现在 " 快速模型迁移 " 与 " 极致性能优化 " 两大维度。

在 " 快速模型迁移 " 方面,寒武纪通过软硬件协同,在模型发布当日即可实现稳定运行,真正做到 Day 0 适配。

软件生态层面,寒武纪依托 NeuWare 软件栈的开源兼容性与众智 FlagOS 生态的深度协同,解耦模型与不同架构芯片之间的生态壁垒,新模型可快速迁移至寒武纪平台,并进一步降低了模型适配与迁移成本;在算子开发层面,寒武纪充分利用 Triton 良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;在 AI 协同层面,寒武纪研发了代码生成智能体 CNAgent,实现算子生成、模型迁移的全流程加速;硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。

在 " 极致性能优化 " 方面,针对 DeepSeek-V4 独特的模型结构,寒武纪通过自研高性能融合算子库,对模型中的关键模块进行了专项加速,并利用 BangC 高性能编程语言,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

在硬件层面,寒武纪利用 MLU 访存与排序加速能力,有效加速稀疏 Attention、Indexer 等结构;借助硬件的高互联带宽与低通信延时优势,将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

寒武纪表示,未来将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。(邓侃)

编辑:林郑宏

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容