关于ZAKER 合作
科创板日报 20小时前

对标英伟达的国产“算力动脉”来了!中科曙光发布首款全栈自研 IB 网络产品 已实现万卡级智算集群支持

《科创板日报》3 月 13 日讯(记者 郭辉)3 月 12 日,中科曙光在郑州宣布实现国产高端原生 RDMA 技术重大突破,正式发布首款全栈自研 400G 无损高速网络—— scaleFabric。

据了解,中科曙光 scaleFabric 是首款国产全栈自研 IB 网络产品。

在大规模智算集群领域,RDMA(远程直接内存访问)网络已成为算力中心的基本需求。中科曙光 scaleFabric 是基于原生 RDMA 架构,从底层的 112G SerDes IP、硬件设备到上层的管理软件实现 100% 自主研发,突破了海外在高端原生 RDMA 网络的技术垄断。

中国工程院院士邬贺铨表示,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而 RDMA 高速网络正是智算集群的 " 算力大动脉 "。

目前 InfiniBand 和 RoCE 是市场主流的高速网络技术方案。其中 InfiniBand 凭借低时延与原生无损传输能力,在全球顶级超算与 AI 集群中被广泛采用。根据 TOP500 榜单,目前全球约 60% 的高性能计算系统采用 InfiniBand 网络架构。

中科曙光 scaleFabric 采用 InfiniBand 原生 RDMA 路线,而非 RoCE 路线。对此,中科曙光表示,InfiniBand 的技术路线在 AI/HPC 中有不可替代的优势,是真正的无损网络,而无损的特性对 RDMA 性能的发挥具有优势,便于其更好对网络进行管理。

此前 InfiniBand(IB)相关产业链基本被海外厂商垄断。

2019 年,英伟达以 69 亿美元收购 Mellanox(迈络思)。Mellanox 是一家主打 InfiniBand 网络技术的公司。上一世纪 90 年代以后,随着超算技术的路径分化,InfiniBand 逐步成为高速网络的代名词。这一收购事件被视为算力史上的标志性转折点,英伟达凭此从一家 GPU 产品厂商转型为 AI 数据中心公司,还实现以整合网络技术,解决了 AI 算力规模化进程中的通信瓶颈。

据业内人士向《科创板日报》记者表示,中国市场用户在使用 IB 网络时面临诸多痛点,IB 网络虽然是开放协议,但是技术事实上是被迈络思公司所垄断的,其次其价格成本、服务和响应速度也难以满足国内客户的需求。

性能方面,据称,scaleFabric400 系列网络产品技术规格实现全面对标英伟达 NDR 产品。

中科曙光高速网络互联产品部总工程师万伟表示,scaleFabric 的核心是自主研发的两颗高速网络芯片。其中 scaleFabric400 网卡芯片做到了 400G 高带宽,采用自研的 RDMA 引擎;scaleFabric400 交换芯片实现了 64T 双向交换容量,采用 VCT 交换机式,转发延时可以低至 260 纳秒。

此外,scaleFabric 交换机端口密度做到了 80 口 400G,与英伟达 NDR 64 口交换机相比,端口密度提升了 25%,这使得 scaleFabric 的组网成本得到大幅的降低。同时,单卡最大 QP 数支持为 256K,相比英伟达 NDR 提升 100%,单子网互连规模是传统 IB 的 2.33 倍,可轻松支持最大 11.4 万卡集群部署,同时网络总成本可降低 30%。

" 实测数据来看,scaleFabric 基本上都能做到和英伟达 NDR 相当的水平,部分数据甚至优于 NDR 系列,两款芯片技术规格全面对标了英伟达当前主力量产的 NDR 产品。" 万伟如是称。

在与现有 IB 网络的兼容方面,据介绍,scaleFabric 提供原生的接口,可全面兼容各种通信库,实现无缝兼容各种 HPC 和 AI 的应用,各类大模型训练都可以在不改代码的情况下,直接迁移到基于 scaleFabric 的系统。同时,在网络管理和维护方式上,也兼容了 IB 用户的使用习惯。

对国产算力硬件的兼容上,中科曙光高级副总裁李斌接受《科创板日报》记者等媒体采访表示,过去 scaleFabric 已经对不同的计算芯片进行了互联适配,未来会探索更高效的方式,比如计算芯片通过专有的协同连接到网卡,另外还在生态内推动芯片互联协议的共享,探索与其他厂商芯片更高效的芯片直通。

在实际应用层面,scaleFabric 目前已部署在位于郑州的国家超算互联网核心节点,支撑三套万卡级 scaleX 智算集群上线运行,总规模达 3 万卡。

李斌表示,随着产品在超大规模智算集群中的落地应用,国产原生 RDMA 技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态正在加速形成。

随着此次首款国产全栈自研 IB 网络产品的发布,中科曙光联合、联想开天、中兴通讯、达梦数据、欧瑞科斯、乐讯科技、九章云极等产业合作方,成立光合组织高性能计算专委会 AIDC 高速网络工作组。

曙光信息产业(北京)有限公司副总裁李柳表示,"scaleFabric 技术推出后,未来还要依靠标准化的组织,以开放的姿态联合更多的国内合作伙伴,从 AI 数据中心、加速芯片到网络设备、AI 框架等多个环节,推动产业协同创新,构建 AI 网络生态。"

阅 1.37W+ 特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容