
作者 | 陈骏达
编辑 | 漠影
算力,已成为推动 AI 产业持续演进的核心引擎。随着国产大模型体系的快速崛起,构建自主、可控、可持续的国产算力生态闭环,让国产算力平台与国产 AI 生态深度适配,已成为产业界的共识与关键方向。
令人可喜的是,今年以来,国产算力平台与国产 AI 生态的 "Day 0" 适配、联合创新等消息陆续传出。作为国产算力的代表企业,在生态层面,寒武纪以更加开放的姿态积极拥抱国产 AI 生态,与主流 AI 社区和领先企业保持深度协同。
寒武纪今年在阿里 Qwen 3 系列模型、DeepSeek-V3.2-Exp 模型发布当日,就宣布完成适配,这意味着双方在模型发布之前,就已展开深度合作。除此之外,寒武纪还与商汤、智谱、阶跃星辰官宣了合作,推进国产算力与国产大模型的深度适配。
这些合作,让开发者在寒武纪平台上能够低成本完成迁移与部署,显著降低算力替代与生态融合的门槛。
寒武纪成立的初衷是为 " 人工智能的大爆发 " 提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。寒武纪一直以来采用了训练推理融合、统一的基础软件平台研发策略,构建了从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合:硬件为算法提供极致的并行性能与能效比,软件则通过智能编译、调度与适配,让每一份算力最大化释放。
寒武纪打造的基础软件平台 Cambricon NeuWare,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署 AI 应用。
经过多年投入与积累,Cambricon NeuWare 已经日趋成熟,全面兼容社区最新 PyTorch 版本和 Triton 算子开发语言,支持用户模型和自定义算子快速迁移,其在多项指标上都已达到业界领先水平。
针对当前业界极具挑战的大规模集群运维实践,Cambricon NeuWare 进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。
众多国产 AI 厂商对寒武纪算力的信赖,充分验证寒武纪基础软件平台 Cambricon NeuWare 的稳定性和竞争力,已经满足了真实世界的商用要求。
一、从大模型到搜广推训推解决方案,寒武纪完成大规模技术和产品验证
大模型技术正成为智能经济的核心驱动力,深刻重塑人机交互的方式。" 搜广推 " 场景——即搜索、广告与推荐系统——成为大模型技术落地最具价值的前沿阵地之一。大模型赋能的搜广推系统,不仅带来用户体验的显著提升,更重塑了流量分发的逻辑:让 " 找信息 "、" 看内容 "、" 买东西 " 从被动推荐走向主动理解,从关键词匹配迈向意图洞察。
大模型与 " 搜广推 " 的融合,不仅是一场技术革新,更是商业模式的再造。寒武纪在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证。
在搜广推训练方向,寒武纪稳步推进技术和产品验证。验证结果表明,解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。持续性能优化方面,完成 Layernorm/RMSNorm/L2Norm 等多种图匹配融合,显著提升性能。在图融合基础上进一步优化 XLA 支持,并获得更显著的加速比结果。
在大模型训练方向,寒武纪重点支持 DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next 等 MoE 类模型训练,同时扩展了 GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video 等模型的训练支持。基于原生 FP8 的计算能力,新增 Qwen/DeepSeek 等系列网络 FP8 的训练支持,精度符合预期。
在大模型推理方向,寒武纪研究并实践 W4A4 以及 MX-FP8/MX-FP4 等新型数据类型,探索并支持多种高效注意力机制,包括 Sparse Attention 与 Linear Attention。
寒武纪紧跟先进模型的演进,支持 Qwen-Omni 等多模态融合模型、Hunyuan3D 等 3D 生成模型、CosyVoice 等语音生成模型,以及 DLM 和 VLM 等新兴架构,确保技术栈的先进性与完备性。
值得一提的是,通过深度的生态合作,针对 DeepSeek V3.2-Exp 模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。
与此同时,持续优化 vLLM 推理引擎,完善混合精度低比特量化推理机制,支持通算并行优化,支持 PD 分离部署,支持基于类 IBGDA 的极致低时延大规模专家并行,支持 Torch.compile 特性优化主机侧瓶颈,实现了大模型应用的全方位加速。
寒武纪持续开展对 DeepSeek、Qwen、Wan、Hunyuan 等系列最新开源模型的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,持续保持性能领先优势。
寒武纪能够在大模型与 " 搜广推 " 训推方面取得快速突破,完成大规模技术和产品验证,源于寒武纪长期的技术深耕与软硬协同能力。正是这种软硬一体、兼具性能领先与部署高效的核心竞争力,让寒武纪能够快速获得市场信任和认可。

二、高稳定驱动和运行时库,让 AI 企业无忧扩展
底层驱动的高稳定性是业务部署的重要前置条件,寒武纪的驱动能支撑企业业务运行数月不停机。同时,寒武纪的驱动在业务优化迭代中,大幅提升了吞吐能力,在极具挑战的搜广推和大模型推理场景中,最大限度地消除了主机侧瓶颈,为端到端达成领先的计算效率打下了坚实的基础。
寒武纪通过细粒度的并行技术,解耦数据依赖和调度依赖,极限压榨 Kernel 函数的吞吐能力,叠加多路 DSA 异步调度和协同优化,Kernel 函数调度吞吐可达每秒几十万个任务,实现业界领先的 Kernel 吞吐能力。
全面支持 Kernel graph 的批量下发功能,可运行时汇聚多个算子单次下发,支持在设备侧驻留和下发,实现极低延迟的多 Kernel 下发,延时水平与国际竞品相当。
增加类 IBGDA 接口,为通信库进行极低时延的专家并行通信提供系统保障。
寒武纪的驱动和运行时库支持丰富的设备切分使用场景:
(1)visible cluster:运行时可编程的弹性拆分,可用于快速部署;
(2)sMLU:基于时分复用技术,可用于 docker 快速部署;
(3)MIM:物理划分,全面对标国际竞品 MIG 技术。
三、编译器和调试调优工具持续迭代,达到业内领先效率
BANG C 语言是寒武纪 BANG 异构并行编程模型的编程语言,在 C/C++ 语言基础上针对 MLU 架构特点进行扩展,可以高效编写在 MLU 上运行的并行程序,充分利用 MLU 大规模并行架构来加速计算任务。
BANG C 支持丰富的编译优化技术,包括链接时优化(LTO)、基于 Profiling 反馈优化(PGO)、基于函数调用关系的函数级片上空间复用、Device 侧动态链接机制、编译器静态推导访存指令地址空间、任务内并行指令流自动同步算法、优化内存依赖分析、指令级并行的局部指令调度、全局指令调度以及符合 MLU 架构的高性能指令布局优化。
通过这一系列技术,最大限度的发挥芯片的全部潜力,如矩阵乘法等算子可达业界领先的效率。
持续快速迭代 Triton 算子开发语言,支持 Triton 3.4 所有特性,包括 FP8/FP4 的数据类型。 引入 fast libentry,优化 Triton Kernel 的主机端开销,在小 Workload 场景性能提升显著。Triton 编译器后端实现多种优化:
(1)优化软件流水的片上 ram 占用,优化软件流水的并发度,实现平衡软件流水性能和单指令性能的自动软件流水方案;
(2)实现指令并行、片上 ram 占用、指令延迟掩盖等多目标的指令调度优化;
(3)实现任务并行的自动调优和自动调度;
(4)实现自动循环合并;
(5)实现基于算子语义的访存和计算优化,如 transpose 穿透和合并、slice、broadcast 穿透等;
(6)优化指令融合和指令选择的性能建模。
通过上述优化,提升了 Triton Kernel 性能泛化性,其中 Matmul、FlashAttention 类和 HSTU 类算子性能提升明显,部分热点算子已经与手写算子性能相当。
进一步完善系统和算子的调试调优工具:支持算子 core dump,实现异常现场的核心转存,提供精准现场和调试信息对应关系,提供 core dump 文件解析工具,可快速分析定位算子出现异常的根因。
在主机侧与设备侧并行度调优方面,CNPerf 可在极低跟踪开销的情况下实现全维度性能数据采集,可精准捕获主机侧与设备侧执行流、PMU 性能指标、函数调用栈等关键信息,支持 Kernel 计算、内存拷贝、通信任务等多类型任务追踪,覆盖从底层硬件到上层应用的全栈性能数据。
CNPerf-GUI 智能调优能力突出,内置专家建议系统可自动检测设备空泡、利用率不足、集合通信等待等问题,精准定位热点算子与性能瓶颈。此外 CNPerf-GUI 针对多机多卡场景,额外提供多日志自动对时与集群迭代分析等功能,进一步简化用户在复杂场景下的调优复杂度。
在单算子调优方面,CNPerf 可支持 GHz 采样频率的硬件工作状态采样,精准记录 MLU 前后端工作状态。用户可基于该功能分析流间 / 核间同步、算子软件流水排布等问题,最大化利用硬件后端资源。
CNPerf-GUI 适配 Linux、macOS、Windows 多平台,支持 CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit 等日志格式,且支持超大日志文件(上亿函数记录)的快速加载及流畅操作。
新增程序正确性分析工具 CNSantizer,使用运行时插桩技术自动完成多核间竞争访问检测、单核内多指令流竞争访问检测、Device 侧内存越界访问检测、未定义程序行为检测、使用未初始化内存检测等。
新增程序性能分析和调优建议工具 CNAdvisor,使用运行时插桩采集以及硬件性能计数器采集方式获取程序运行时状态,并根据性能调优经验库,自动分析程序性能问题并标记出对应源代码位置,进一步给出优化建议。
四、持续打磨核心基础算子,打造可靠维测平台
寒武纪计算库积极拥抱开源社区的技术演进,持续迭代打磨核心基础算子的功能、性能和稳定性,更快更好地支持在寒武纪智能芯片上高效、稳定地运行开源和私有模型。计算库针对搜广推、大语言模型、文生图和文生视频等热点场景做了深入的功能扩展和性能优化:
大规模 Embedding Table 稀疏访存和计算极致优化,性能与 GPU 竞品相当;
GEMM/BatchGEMM/GroupGEMM 等矩阵乘类算子性能泛化得到显著增强,大规模矩阵乘 HFU 达到行业领先水平;
矩阵乘类算子支持多种社区公开 / 私有定制的低精度量化功能;
支持类 CUTLASS GEMM 模板库的扩展开发和 AutoTuning;
Attention 类算子在低精度加速等方向的探索和研发成果已成功完成验证,获得良好的加速效果;
支持大语言模型使用的 MTP 技术,开发了用于优化 MTP 性能的 Top-k 和 Top-p 采样、随机采样等融合算子。
为支持计算库的持续快速迭代,保障计算库软件质量的同时做到精度性能不回退,寒武纪计算库团队还打造了可靠的维测平台,提供了丰富的维测工具,开发了高覆盖度的功能性能测例,并制定了科学的验收标准。
五、通信库扩展性比肩国际主流竞品,集群工具赋能万卡场景
通信库针对大规模场景进行专项优化:新增 HDR/DBT 等 Allreduce 通信算法,优先提升大规模条件下的通信带宽,对 Alltoall 操作进行深度优化,使其大规模扩展性达到与国际主流竞品相当的水平。
通信库同步加强可维可测相关的功能,支持在线打点、模块化日志、高可靠服务模块等,帮助用户能够快速分析通信下发错误,异常卡死等问题,提高集群通信可用性。通信库通过在 Kernel 支持 RoCE 网卡的 RDMA 操作(类 IBGDA)显著优化大规模专家并行场景下的 ALL2ALL 通信延迟,提升了 MoE 类模型推理任务的端到端吞吐。
CntrainKit-Accu(大规模集群精度定位工具):为万卡分布式训练场景提供端到端精度定位,提供精度指标在线监控,并针对精度问题进行自动化分级、采集信息、智能分析并提供对应解决方案。CntrainKit-Accu 工具还全面支持 NaN/Inf 异常检测与快速定位,实现异常点级别的秒级溯源,大大提升大模型和搜广推等场景的大规模训练精度问题排查效率,让每一次精度问题都能被精准捕获。
CntrainKit-Monitor(大规模集群监控调优工具):实现对万卡级集群训练任务的实时通信与算子性能画像,具备毫秒级任务健康可视化能力,支持算子粒度的性能剖析,识别 AI 作业中的性能瓶颈。具备万卡规模训练任务的 " 可观、可查、可优 " 能力,真正实现大规模集群的 " 问题自感知 "。
CNCE(集群监管平台):构建覆盖计算、网络、存储的数据中心全景监控体系,实现对十万卡级算力集群的秒级状态采集与拓扑可视化。平台具备自动发现、智能诊断、自动处理的闭环故障管理能力,支持万卡级任务的多维异常诊断与根因定位,让用户专注于算法创新与模型训练,无需再为底层硬件波动分心。CNCE 的上线使集群运维从 " 人工巡检 " 迈向 " 智能自治 ",显著提升大规模 AI 训练的可用性与稳定性。
CNAnalyzeInsight(故障分析工具):CNAnalyzeInsight 是智能日志分析与根因诊断引擎,支持对 GB 级日志的秒级检索与多维聚合分析。具备在线实时诊断告警与离线快速分析双模式,能够实现 " 异常发现、问题定位、原因归纳、修复建议生成 " 的故障诊断闭环,显著提升训练任务的稳定性与问题处理效率。
六、拥抱开源大趋势,提供 GPU 零成本迁移工具
寒武纪快速跟进社区 PyTorch 的进展,支持 PyTorch 2.1 到 PyTorch 2.8 的全部社区版本,适配了包括 DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor 以及 Inductor cppwrapper 等一系列关键功能。
Torch compile 性能整体上追平 GPU compile 加速比,高效支撑了产品在多个训练和推理场景下的成功验证。
寒武纪还提供 GPU Migration 一键迁移工具,帮助用户近乎零成本将模型从 GPU 迁移到 MLU。同时配备 TorchDump 精度调试工具和 Torch Profiler 性能调试工具,助力用户高效定位和解决精度和性能问题。
此外,寒武纪还支持 PyTorch Lightning、TorchTitan、TorchRec 等社区生态,并建立快速跟进社区版本的长效机制,可在社区版本发布后 2 周内实现 MLU 适配版本的发布。
七、近十年持续打磨迭代,寒武纪助 AI 走进千行百业
通过近十年的持续打磨迭代,寒武纪已构建出一套高效、易用、稳定、成熟且具备高可扩展性的软硬一体化产品体系。凭借领先的芯片技术与完善的基础软件平台,寒武纪产品已经在大模型、搜广推、图片与视频生成和各类多模态的训练与推理场景中成功完成验证,赢得广泛认可。
在此过程中,寒武纪产品不断接受更多大规模场景高强度检验,推动软件平台与芯片体系持续进化,形成了 " 应用促进优化、优化推动更强应用 " 的良性循环。
通过为用户提供更高效、更稳定、更广覆盖的支持,寒武纪加速赋能产业智能化转型,推动 AI 能力真正走进千行百业。 " 让机器更好地理解和服务人类 ",寒武纪的愿景正在一步一步成为现实。
附录:
寒武纪基础软件平台 Cambricon NeuWare 图中标注的缩写词全称
1. Cambricon HLO:机器学习模型高级操作集(HLO)的寒武纪后端;
2. CNNL:Cambricon Network Library,寒武纪人工智能计算库;
3. CNNL-Extra:Cambricon CNNL Extra,寒武纪人工智能计算库的扩展库;
4. CNCV:Cambricon Computer Vision Library,寒武纪计算机视觉库 ;
5. CNCL:Cambricon Communications Library,寒武纪高性能通信库;
6. CNFFmpeg:Cambricon FFmpeg,基于开源 FFmpeg 开发的硬件加速库;
7. CNCC:Cambricon Compiler Collection,寒武纪 BANG C 语言编译器;
8. CNAS:Cambricon Assembler,寒武纪汇编器组件;
9. CNGDB:Cambricon GNU Debugger,寒武纪 BANG C 语言调试工具;
10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测工具;
11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库;
12. CNPerf:Cambricon Performance,寒武纪性能分析工具;
13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能剖析图形化工具;
14. CNMon:Cambricon Monitor,寒武纪设备监控与管理命令行工具;
15. CNVS:Cambricon Validation Suite,寒武纪设备验证工具集;
16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场诊断工具;
17. CNAnalyzeInsight:寒武纪故障分析工具;
18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通信库性能基准测试工具;
19. Cambricon Device Plugin:寒武纪设备插件;
20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。
寒武纪在 " 寒武纪开发者 " 微信公众号上打造了开发者交流平台,开发者可以在这里第一时间获取寒武纪开发相关的新产品发布,以及线上线下活动咨询等,推荐关注 ~