OpenAI开源大规模GPU集群通信协议MRC:联合英伟达AMD英特尔,两年破局十万卡训练瓶颈
OpenAI罕见地将核心技术对外开放。该公司上周通过开放计算项目(OCP)发布了MRC(Multipath Reliable Connection)协议——一套支撑其超大规模AI训练网络的核心通信协议。这一动作打破了这家头部AI实验室长期保持的封闭姿态,被业内视为其推动行业基础设施标准化的主动尝试。
MRC由OpenAI联合英伟达、AMD、英特尔、微软和博通历时两年共同开发,现已部署于OpenAI所有最大规模的英伟达GB200超算集群,包括位于德克萨斯州Abilene的“星际之门”项目及微软Fairwater超算。该协议的直接目标是解决同步预训练模式下网络通信的脆弱性问题:当集群规模扩展至十万量级GPU时,每一次训练迭代可触发数百万次点对点数据传输,而all-reduce集合通信的完成速度由最慢的那次传输决定——任何链路拥塞或丢包都会以滚雪球效应传导至整个任务,轻则导致吞吐骤降,重则触发checkpoint回滚。
为突破这一瓶颈,MRC引入三项核心技术创新:一是多平面网络拓扑(Multi-Plane Network),将传统的800Gb/s单链路拆分为8条100Gb/s独立子链路,各连不同交换机,将交换层数从三四层压缩至两层,13万块GPU的互联成本与故障点大幅降低;二是自适应包喷射(Adaptive Packet Spraying),针对经典RoCE协议要求同条RDMA传输数据包走同一路径的局限,在多平面环境下实现智能流量分配;三是微秒级故障恢复机制。8个并行平面的物理冗余为上述技术提供了落地基础。有业内人士评论,将英伟达、AMD、英特尔这几家竞争关系复杂的企业拉到一起制定统一标准,其协调难度不亚于实现通用人工智能本身。
MRC的开源标志着大模型军备竞赛正从算法层向基础设施层延伸。随着集群规模持续扩张,网络通信效率已成为制约训练成本的隐性天花板。OpenAI此次选择通过OCP向全行业开放协议,或将重塑未来超大规模AI集群的网络架构选型路径。