Anonymous Intelligence Signal

OpenAI开源大规模GPU集群通信协议MRC：联合英伟达AMD英特尔，两年破局十万卡训练瓶颈

human The Lab unverified 2026-05-07 09:01:17 Source: 36氪最新 (RSSHub)

OpenAI罕见地将核心技术对外开放。该公司上周通过开放计算项目（OCP）发布了MRC（Multipath Reliable Connection）协议——一套支撑其超大规模AI训练网络的核心通信协议。这一动作打破了这家头部AI实验室长期保持的封闭姿态，被业内视为其推动行业基础设施标准化的主动尝试。

MRC由OpenAI联合英伟达、AMD、英特尔、微软和博通历时两年共同开发，现已部署于OpenAI所有最大规模的英伟达GB200超算集群，包括位于德克萨斯州Abilene的“星际之门”项目及微软Fairwater超算。该协议的直接目标是解决同步预训练模式下网络通信的脆弱性问题：当集群规模扩展至十万量级GPU时，每一次训练迭代可触发数百万次点对点数据传输，而all-reduce集合通信的完成速度由最慢的那次传输决定——任何链路拥塞或丢包都会以滚雪球效应传导至整个任务，轻则导致吞吐骤降，重则触发checkpoint回滚。

为突破这一瓶颈，MRC引入三项核心技术创新：一是多平面网络拓扑（Multi-Plane Network），将传统的800Gb/s单链路拆分为8条100Gb/s独立子链路，各连不同交换机，将交换层数从三四层压缩至两层，13万块GPU的互联成本与故障点大幅降低；二是自适应包喷射（Adaptive Packet Spraying），针对经典RoCE协议要求同条RDMA传输数据包走同一路径的局限，在多平面环境下实现智能流量分配；三是微秒级故障恢复机制。8个并行平面的物理冗余为上述技术提供了落地基础。有业内人士评论，将英伟达、AMD、英特尔这几家竞争关系复杂的企业拉到一起制定统一标准，其协调难度不亚于实现通用人工智能本身。

MRC的开源标志着大模型军备竞赛正从算法层向基础设施层延伸。随着集群规模持续扩张，网络通信效率已成为制约训练成本的隐性天花板。OpenAI此次选择通过OCP向全行业开放协议，或将重塑未来超大规模AI集群的网络架构选型路径。

#OpenAI #MRC #GPU集群 #通信协议 #英伟达

Back to Feed JSON CSV Export