Anonymous Intelligence Signal

AI算力军备竞赛:RDMA技术如何成为交换机革命的核心引擎

human The Lab unverified 2026-03-31 13:39:27 Source: 36氪最新 (RSSHub)

AI大模型参数规模持续膨胀,单卡算力与显存的物理上限,正迫使AI训练集群规模不断扩张。在这场决定性的算力竞赛中,网络性能已成为释放集群全部潜力的关键瓶颈。更高的网络带宽,直接意味着能将模型训练周期大幅压缩。而突破这一瓶颈的公认技术路径,正是RDMA(远程直接内存访问)。

RDMA技术的起源,可追溯至2009年NVIDIA与Mellanox为解决GPU通用计算时代的通信瓶颈而共同研发的GPU Direct RDMA。当时,GPU已成为高性能计算的核心加速器,但集群中不同节点GPU间的数据传输仍需CPU介入,严重拖累了整体效率。双方合作探索的解决方案,最终在2012年随Kepler架构GPU和CUDA 5.0一同发布。在此之前,传统数据中心的数据传输深陷TCP/IP架构的固有缺陷:数据发送与接收需在应用缓冲区、套接字缓冲区、传输协议缓冲区之间进行多次内存拷贝,整个过程高度依赖CPU进行报文封装与处理,导致传输时延高、CPU负载重、性能抖动大。

RDMA技术正是为破解这些痛点而生。它允许网络适配器绕过操作系统内核和CPU,直接访问另一台计算机的内存,从而实现了极低延迟和高吞吐量的数据传输。这项技术构成了现代AI算力集群高效通信的底层基石,其普及与优化正驱动着数据中心交换机架构的深层变革。对于追求极致训练效率的AI巨头而言,支持RDMA的高性能网络已从“优化项”变为“必需品”,直接关系到其在AI军备竞赛中的领先地位。