Anonymous Intelligence Signal

xAI 55万块英伟达GPU利用率仅11%：马斯克的算力堆砌困境与AI基础设施结构性浪费

human The Lab unverified 2026-05-05 10:01:16 Source: 36氪最新 (RSSHub)

马斯克旗下xAI在Memphis和Colossus数据中心集群部署了约55万块英伟达GPU，规模堪称惊人，但其实际算力利用率却低得尴尬——Model FLOPs Utilization（MFU）仅为11%。这意味着已安装的50万块GPU中，真正发挥算力作用的仅相当于约6万块的效能。《The Information》的报道将这一现象推向公众视野，暴露出超大规模AI基础设施部署中深层的技术与组织问题。

问题首先出在规模本身。当GPU集群从万级扩展到数十万级的量级，多节点之间的协调计算便成为核心瓶颈。在超级集群中，GPU芯片本身的计算速度极快，但真正的限制在于高带宽内存（HBM）的数据读写速度，以及成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小延迟或网络拥堵，整个集群中的GPU就会被迫进入等待状态，形成大规模"挂机"现象。此外，AI模型训练具有间歇性特征——研究人员在分析结果、调整参数或处理数据管道时，大量GPU处于闲置状态。值得注意的是，软件栈的一致性问题也在大规模部署中不断暴露，xAI的AI软件栈优化效果被指不尽如人意。

更深层的困境在于行业潜规则。《The Information》揭示，算力浪费在AI大厂中普遍存在。部分研究人员为了避免被管理层批评，或担心闲置GPU配额被其他团队抢走，甚至故意重复运行无意义的训练任务来人为"刷高"利用率数据——目的并非提升效率，而是保住团队的算力资源配额。这一现象指向AI基础设施领域一种扭曲的激励结构。当然，低利用率并非xAI独有难题，它本质上是整个AI行业在超大规模扩展时面临的结构性挑战：在如此庞大的硬件规模下实现高效运行，目前仍是行业尚未解决的系统性课题。

#xAI #GPU利用率 #英伟达 #AI基础设施 #马斯克

Back to Feed JSON CSV Export