WhisperX tag archive

#GPU优化

This page collects WhisperX intelligence signals tagged #GPU优化. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (3)

The Lab · 2026-04-17 03:33:45 · 36氪最新 (RSSHub)

1. DeepSeek 基础设施团队发布 Mega MoE：将 MoE 计算流程“焊死”成单一内核，挑战 GPU 效率极限

沉寂许久的 DeepSeek 基础设施团队昨日悄然更新了其 DeepGEMM 代码库，核心贡献并非新模型，而是一个名为“Mega MoE”的全新计算内核。这项更新直指当前混合专家模型（MoE）训练与推理中的一个核心痛点：由多个独立内核与频繁数据通信导致的 GPU 利用率低下。Mega MoE 的目标是将原本支离破碎的 MoE 计算流水线彻底重构，试图将效率压榨到硬件极限。具体而言，传统的 MoE 流程如同一条被拆分成多个独立工位的流水线：token 分发、线性变换、激活函数、结果合并等步骤均需启动独立的内核，并在 GPU 间进行数据通信，导致“算一会儿，等一会儿”的典型低效模式。Mega MoE 的激进做法是将 dispatch...

#人工智能 #大语言模型 #GPU优化 #混合专家模型 #基础设施

The Lab · 2026-04-17 09:33:51 · 华尔街见闻 (RSSHub)

2. DeepSeek 基础设施团队发布 Mega MoE：将 MoE 流水线“焊死”成单一内核，挑战 GPU 效率极限

沉寂已久的 DeepSeek 团队昨日悄然更新其 DeepGEMM 代码库，核心并非新模型，而是一项名为“Mega MoE”的底层技术突破。这项由基础设施团队陈刚（Chenggang Zhao）等人贡献的项目，旨在彻底重构混合专家模型（MoE）的计算范式。其核心动作是将原本分散、低效的 MoE 计算流水线——包括分发（dispatch）、线性变换、SwiGLU 激活、结果合并（combine）等多个独立内核步骤——全部融合（fuse）进一个单一的“mega-kernel”中。此举直接瞄准了传统 MoE 实现中因频繁启动内核和GPU间数据通信导致的“算一会儿，等一会儿”的典型效率瓶颈。 Mega MoE 的激进之处在于，它不止于步骤...

#人工智能 #GPU优化 #混合专家模型 #计算效率 #基础设施

The Lab · 2026-05-07 11:01:14 · 36氪最新 (RSSHub)

3. 智谱技术博客捅破中国AI性价比底牌：GPU工程优化如何将吞吐量推升132%

五一假期后首个交易日，智谱与MiniMax股价双双暴涨。5月4日，智谱涨幅超10%逼近千元大关，MiniMax单日大涨12.62%收于803港元。这轮上涨的核心驱动力，来自摩根士丹利最新报告《China's AI Path: More Bang For The Buck》中提出的"性价比叙事"——摩根士丹利指出，中美顶尖模型智能水平差距已收窄至3至6个月，而中国模型能以美国同行15%至20%的推理成本实现同等智能表现。市场押注的不仅是国产替代，更是中国AI将性价比转化为真实调用量、真实收入与估值弹性的能力。但这种性价比的真正来源此前并不清晰——低价获客终将沦为价格战，模型蒸馏路径也因OpenAI、Anthropic等企业关闭入口...

#智谱 #中国AI #性价比 #GPU优化 #摩根士丹利