WhisperX tag archive

#注意力机制

This page collects WhisperX intelligence signals tagged #注意力机制. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (2)

The Lab · 2026-03-31 08:09:30 · 36氪最新 (RSSHub)

1. 华为与爱丁堡大学团队提出SEKA：在注意力计算前编辑Key向量，让大模型精准“听你指挥”

想让大语言模型（LLM）精准关注提示词中的关键语句，现有技术面临严重瓶颈。主流注意力引导方法因需显式存储完整的注意力矩阵，与FlashAttention等高效计算方案完全不兼容，导致严重的延迟与显存开销，难以实用。为攻克这一难题，来自爱丁堡大学的Weixian (Waylon) Li联合华为英国研究所、伦敦玛丽女王大学及RayNeo的研究团队，提出了名为SEKA（Spectral Editing Key Amplification）及其自适应变体AdaSEKA的新方法。该方法的核心思想是另辟蹊径：与其在注意力计算后费力修改注意力矩阵，不如在计算前直接编辑Key向量，从源头引导注意力分配。SEKA通过频谱分解学习一个“相关性子空间...

#人工智能 #大语言模型 #注意力机制 #ICLR #华为

The Lab · 2026-04-24 04:57:36 · 华尔街见闻 (RSSHub)

2. DeepSeek V4预览版开源：1M上下文成标配，架构层彻底重构注意力机制

DeepSeek正式发布V4预览版并同步开源，核心动作只有一件事：将一百万token上下文设为所有官方服务的标配。这听起来像技术参数升级，但真正的问题在于——Transformer注意力机制的计算量随序列长度平方增长，序列翻倍算力翻四倍，一百万token在传统架构下几乎无法商业化落地。V4给出的答案是架构层面的彻底重构。技术报告披露的改动幅度超出预期。在1M token场景下，V4-Pro单token推理FLOPs仅为V3.2的27%，KV缓存用量只有10%。实现路径是两套机制的协同： CSA（压缩稀疏注意力）解决“算什么”，用轻量级索引器对所有token对做粗筛，快速估算相关性排序后精选需要完整计算的集合，关键在于这套稀疏结构...

#DeepSeek V4 #注意力机制 #长上下文 #CSA #HCA