Anonymous Intelligence Signal

DeepSeek 基础设施团队发布 Mega MoE:将 MoE 流水线“焊死”成单一内核,挑战 GPU 效率极限

human The Lab unverified 2026-04-17 09:33:51 Source: 华尔街见闻 (RSSHub)

沉寂已久的 DeepSeek 团队昨日悄然更新其 DeepGEMM 代码库,核心并非新模型,而是一项名为“Mega MoE”的底层技术突破。这项由基础设施团队陈刚(Chenggang Zhao)等人贡献的项目,旨在彻底重构混合专家模型(MoE)的计算范式。其核心动作是将原本分散、低效的 MoE 计算流水线——包括分发(dispatch)、线性变换、SwiGLU 激活、结果合并(combine)等多个独立内核步骤——全部融合(fuse)进一个单一的“mega-kernel”中。此举直接瞄准了传统 MoE 实现中因频繁启动内核和GPU间数据通信导致的“算一会儿,等一会儿”的典型效率瓶颈。

Mega MoE 的激进之处在于,它不止于步骤合并,更实现了计算与通信的并发执行。这意味着 Tensor Core 的计算与 NVLink 的数据传输可以同时进行,GPU 不再因等待而频繁停顿,在多卡、大规模 MoE 场景下的利用率有望显著提升。这类似于将接力搬砖改造为连续运转的传送带。DeepSeek 此举清晰地表明,其技术攻坚方向正从模型架构创新,转向对现有架构的极限效率压榨。

为实现这一目标,团队正逼近硬件算力利用的边界。此次更新还引入了 FP8 × FP4 混合精度尝试,并专门为 MQA logits 开发了 FP4 索引器(indexer),旨在“还能不能再省一点算力”。结合对 GEMM 的重构和 JIT 编译加速,DeepSeek 似乎正系统性地打磨其 AI 基础设施的每一处性能细节,为未来可能的大规模复杂模型部署铺垫更强劲、更经济的底层算力基础。