关于ZAKER Skills 合作
每日新闻摘录 10小时前

DeepSeek V4 适配国产芯片 ! 摩尔线程 MTT S5000 实现 Day-0 支持

快科技 4 月 24 日消息,今日,DeepSeek 正式上线 V4 预览版并宣布开源,该模型支持百万字超长上下文处理。

摩尔线程联合智源众智 FlagOS 社区宣布,在旗舰 AI 训推一体 GPU MTT S5000 上,完成对 DeepSeek-V4-Flash 大模型的 Day-0 极速适配,并实现全量核心算子深度优化与部署支持。

DeepSeek-V4-Flash 采用 MoE 架构,总参数 284B、激活参数 13B,支持百万 Token 上下文,首次采用 FP4+FP8 混合精度,对算力芯片提出更高要求。

摩尔线程 MTT S5000 是国内率先原生支持 FP8 的全功能 GPU,搭载硬件级 FP8 Tensor Core,相比 BF16/FP16 可将显存压力降低 50%,计算吞吐量翻倍。

本次适配由智源 FlagOS 完成 FP8 量化,团队聚焦 FP8 算子与 Sparse Attention 算子两大关键,通过两大方向实现突破:

一是依托 FlagTree 编译器做精细化 shape 对齐与矩阵计算加速;

二是通过 FlagOS-Tune 自动搜索最优内核配置,效果超越手工调优。实测显示,开启自动调优后 TTFT 时延降低 16.5%,ITL 时延降低 39.7%,吞吐量提升 65.7%。

目前,双方已完成 DeepSeek-V4-Flash 适配,并正在推进更大规模的 DeepSeek-V4-Pro(1.6T)在 MTT S5000 上的迁移适配。

开发者可在魔塔、HuggingFace 下载镜像开箱即用。

相关标签
ai

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容