英伟达AMD英特尔博通联手OpenAI,发布开放网络协议MRC堵上GPU算力浪费漏洞
当数百万次数据传输中任何一次延迟都可能导致整块GPU集群停摆,GPU空转就不再只是效率问题,而是算力基建的核心矛盾。当地时间5月6日晚,OpenAI联合AMD、博通、英特尔、微软、英伟达五大芯片与云基础设施巨头,共同发布全新开放网络协议MRC(多路径可靠连接),并通过开放计算项目(OCP)向行业公开,旨在从根本上降低大型AI训练集群的网络延迟与故障中断风险。该协议已部署于OpenAI所有用于训练前沿模型的超级计算机,包括美国德克萨斯州阿比林的甲骨文云基础设施(OCI)站点及微软Fairwater超级计算机。
MRC的核心价值在于将单次数据传输分流至数百条路径,并能在微秒级绕开故障链路,同时简化网络控制面架构。OpenAI官方披露,他们在为ChatGPT与Codex训练一款前沿大模型期间,曾不得不重启四台一级核心交换机——以往这类操作需运维团队极度谨慎并与训练任务团队反复协调,而引入MRC之后,重启交换机甚至无需提前通知训练任务运维方即可安全执行。这一变化意味着网络层故障对训练任务的干扰被大幅压缩,训练连续性得到显著改善。从技术路线看,MRC是对聚合以太网RDMA(RoCE)标准的扩展,后者由无限带宽行业协会制定,可在GPU与CPU之间实现硬件加速的远程直接内存访问,MRC则借鉴了超以太网联盟(UEC)的相关理念,进一步提升了大规模集群网络的可预测性。
此次合作汇集了几乎所有主流AI芯片厂商与云服务商,背后的驱动力是当前算力基建规模持续扩大后,网络拥塞与设备故障的发生频率同步攀升的现实压力。训练大模型时,单一计算步骤可能涉及数百万次数据传输,任何一次延迟都将在整个作业中产生波动,导致GPU处于空闲状态。随着集群规模增大,这一问题不仅更频繁,而且更难通过传统网络架构解决。MRC的发布被部分行业观察者视为基础设施竞争从硬件堆叠转向标准化集群通信效率的重要信号,但该协议在实际大规模部署中的长期效果,仍有待行业进一步验证。