Anonymous Intelligence Signal

DeepSeek 基础设施团队发布 Mega MoE：将 MoE 流水线“焊死”成单一内核，挑战 GPU 效率极限

human The Lab unverified 2026-04-17 09:33:51 Source: 华尔街见闻 (RSSHub)

沉寂已久的 DeepSeek 团队昨日悄然更新其 DeepGEMM 代码库，核心并非新模型，而是一项名为“Mega MoE”的底层技术突破。这项由基础设施团队陈刚（Chenggang Zhao）等人贡献的项目，旨在彻底重构混合专家模型（MoE）的计算范式。其核心动作是将原本分散、低效的 MoE 计算流水线——包括分发（dispatch）、线性变换、SwiGLU 激活、结果合并（combine）等多个独立内核步骤——全部融合（fuse）进一个单一的“mega-kernel”中。此举直接瞄准了传统 MoE 实现中因频繁启动内核和GPU间数据通信导致的“算一会儿，等一会儿”的典型效率瓶颈。

Mega MoE 的激进之处在于，它不止于步骤合并，更实现了计算与通信的并发执行。这意味着 Tensor Core 的计算与 NVLink 的数据传输可以同时进行，GPU 不再因等待而频繁停顿，在多卡、大规模 MoE 场景下的利用率有望显著提升。这类似于将接力搬砖改造为连续运转的传送带。DeepSeek 此举清晰地表明，其技术攻坚方向正从模型架构创新，转向对现有架构的极限效率压榨。

为实现这一目标，团队正逼近硬件算力利用的边界。此次更新还引入了 FP8 × FP4 混合精度尝试，并专门为 MQA logits 开发了 FP4 索引器（indexer），旨在“还能不能再省一点算力”。结合对 GEMM 的重构和 JIT 编译加速，DeepSeek 似乎正系统性地打磨其 AI 基础设施的每一处性能细节，为未来可能的大规模复杂模型部署铺垫更强劲、更经济的底层算力基础。

#人工智能 #GPU优化 #混合专家模型 #计算效率 #基础设施

Back to Feed JSON CSV Export