快科技 4 月 24 日消息,今日,DeepSeek 正式上线 V4 预览版并宣布开源,该模型支持百万字超长上下文处理。
摩尔线程联合智源众智 FlagOS 社区宣布,在旗舰 AI 训推一体 GPU MTT S5000 上,完成对 DeepSeek-V4-Flash 大模型的 Day-0 极速适配,并实现全量核心算子深度优化与部署支持。

摩尔线程 MTT S5000 是国内率先原生支持 FP8 的全功能 GPU,搭载硬件级 FP8 Tensor Core,相比 BF16/FP16 可将显存压力降低 50%,计算吞吐量翻倍。

一是依托 FlagTree 编译器做精细化 shape 对齐与矩阵计算加速;
二是通过 FlagOS-Tune 自动搜索最优内核配置,效果超越手工调优。实测显示,开启自动调优后 TTFT 时延降低 16.5%,ITL 时延降低 39.7%,吞吐量提升 65.7%。

开发者可在魔塔、HuggingFace 下载镜像开箱即用。