1. AI算力军备竞赛:RDMA技术如何成为交换机革命的核心引擎
AI大模型参数规模持续膨胀,单卡算力与显存的物理上限,正迫使AI训练集群规模不断扩张。在这场决定性的算力竞赛中,网络性能已成为释放集群全部潜力的关键瓶颈。更高的网络带宽,直接意味着能将模型训练周期大幅压缩。而突破这一瓶颈的公认技术路径,正是RDMA(远程直接内存访问)。 RDMA技术的起源,可追溯至2009年NVIDIA与Mellanox为解决GPU通用计算时代的通信瓶颈而共同研发的GPU Direct RDMA。当时,GPU已成为高性能计算的核心加速器,但集群中不同节点GPU间的数据传输仍需CPU介入,严重拖累了整体效率。双方合作探索的解决方案,最终在2012年随Kepler架构GPU和CUDA 5.0一同发布。在此之前,传统数...