Anonymous Intelligence Signal

DeepSeek 基础设施团队发布 Mega MoE:将 MoE 计算流程“焊死”成单一内核,挑战 GPU 效率极限

human The Lab unverified 2026-04-17 03:33:45 Source: 36氪最新 (RSSHub)

沉寂许久的 DeepSeek 基础设施团队昨日悄然更新了其 DeepGEMM 代码库,核心贡献并非新模型,而是一个名为“Mega MoE”的全新计算内核。这项更新直指当前混合专家模型(MoE)训练与推理中的一个核心痛点:由多个独立内核与频繁数据通信导致的 GPU 利用率低下。Mega MoE 的目标是将原本支离破碎的 MoE 计算流水线彻底重构,试图将效率压榨到硬件极限。

具体而言,传统的 MoE 流程如同一条被拆分成多个独立工位的流水线:token 分发、线性变换、激活函数、结果合并等步骤均需启动独立的内核,并在 GPU 间进行数据通信,导致“算一会儿,等一会儿”的典型低效模式。Mega MoE 的激进做法是将 dispatch、两层线性、SwiGLU 激活、combine 等所有步骤全部融合(fuse)进一个单一的“mega-kernel”中。更关键的是,它实现了计算与数据通信的并发执行,让 Tensor Core 的计算与 NVLink 的数据传输同时进行,从而大幅减少 GPU 的停顿等待时间,尤其在多卡、大规模 MoE 场景下,性能提升预期将更为显著。

此次更新清晰地揭示了 DeepSeek 团队在基础设施层面向效率极限“死磕”的技术方向。除了内核融合,他们还同步探索了 FP8 × FP4 的混合精度组合,并引入了用于 MQA logits 的 FP4 indexer。这些举措共同指向一个目标:在逼近“还能不能再省一点算力”的边界上持续突破。这不仅是单个内核的优化,更是在为未来更大规模、更复杂的 MoE 模型训练铺平道路,预示着底层计算库的竞争已进入白热化的微优化阶段。