(来源:海光信息)
4 月 24 日,DeepSeek V4 预览版本正式发布并同步开源,海光信息携手上海 AI 实验室通过 DeepLink 团队推出的 KernelSwift ——大模型赋能智能算子生成的全栈系统,率先完成 DeepSeek V4 核心算子在海光 DCU 上的 Day0 适配,生成算子性能加速比达 3.4x,算子平均通过率约 80%。

KernelSwift 作为支持多元算力的智能算子迁移系统,可提供 Triton 算子定制优化服务。借助高级抽象与自动算子生成,KernelSwift 可将适配周期从数月压缩至小时级,为海光 DCU 提供开箱即用的高性能算子支持。
在 DeepSeek V4 模型发布后,KernelSwift 基于海光 DCU 启动全自动流程生成核心算子,全程无需人工干预。得益于海光 DCU 对 Triton 的全面支持以及自研 AI 软件栈出色的兼容性,DeepSeek V4 模型共计 21 个核心算子均实现明显加速,自动生成的算子经少量人工修改后可实现 100% 正确性。
此次 Day0 适配的实现,不仅是双方技术实力与合作深度的体现,也标志着国产算子工具、国产大模型与国产芯片的协同发展进入新阶段,打破了过去 " 模型与芯片适配不同步 " 的行业痛点,推动国产 AI 生态从 " 单点突破 " 向 " 协同共赢 " 演进。