日前,OpenAI 携手 AMD、博通、英特尔、微软和英伟达,联合推出名为多路径可靠连接(Multipath Reliable Connection,MRC)的新型网络协议,并通过 OCP(开放计算项目)向全行业开放。旨在提升大型 AI 训练集群的运行速度与可靠性,通过减少 GPU 的闲置浪费,显著优化计算效率。
据了解,目前 MRC 已全面部署于 OpenAI 所有用于训练前沿模型的大型超级计算机中,包括位于美国得克萨斯州阿比林的甲骨文云基础设施站点以及微软的 Fairwater 超级计算机集群。
据 OpenAI 方面介绍,在训练大型 AI 模型时,单个步骤可能涉及数百万次数据传输,一次传输延迟可能会影响整个训练任务,甚至导致 GPU 闲置,而网络拥塞、链路及设备故障则是造成数据传输延迟的主要诱因,且集群规模越大,问题发生频率越高。为此,其致力于尽可能减少网络拥塞的可能性,以及尽可能降低网络故障对训练任务本身的影响。
为实现上述目标,针对传统网络架构扩展性不足的问题,MRC 采用多平面网络设计,将单一 800Gb/s 接口拆分为多个较小链路。例如,1 个接口可以连接到 8 个不同的交换机,从而构建 8 个独立的平面网络,每个网络运行速度为 100Gb/s,而不是构建一个单一的 800Gb/s 网络。
如此一来,一台原本能以 800Gb/s 速率连接 64 个端口的交换机,现在可以以 100Gb/s 速率连接 512 个端口。按照计算,只需两层交换机,就能构建一个完全连接约 131000 个 GPU 的网络,而传统的 800Gb/s 网络则需要三到四层交换机。
对此 OpenAI 方面指出,这一设计显著降低了网络功耗与组件数量,在降低成本的同时提升了路径多样性。
同时在流量调度方面,MRC 引入自适应数据包喷淋技术。据了解,与传统单路径传输不同,该技术将单一传输任务的数据包分散至数百条路径并行传输,有效避免了核心网络拥塞,即使数据包乱序到达,接收端也能依据内存地址信息正确重组。
此外为简化网络控制,MRC 摒弃了复杂的动态路由协议(如 BGP),转而采用 SRv6 源路由。发送端直接指定数据包路径,交换机仅需依据静态配置表转发。这种机制消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。
对此 OpenAI 方面表示,"MRC 显著提升了我们训练前沿模型的能力,并确保我们的网络能够跟上研究人员雄心勃勃的 AI 路线图。它相比以往的方法有了显著改进,并有助于我们加速实现让所有人都能可靠地享受到通用人工智能(AGI)带来的益处的目标。我们为促成这一成果的跨行业合作感到自豪。 随着训练集群规模的不断扩大,网络设计越来越决定着可用计算资源的实际利用率。MRC 帮助我们在网络拥塞、链路故障和维护事件等以往会中断训练的情况下,保持 GPU 的协同运行。在实际规模下,这种可靠性和效率并非锦上添花,而是同步前沿模型训练得以实现的关键所在 "。
【本文图片来自网络】