Anonymous Intelligence Signal
华为与爱丁堡大学团队提出SEKA:在注意力计算前编辑Key向量,让大模型精准“听你指挥”
想让大语言模型(LLM)精准关注提示词中的关键语句,现有技术面临严重瓶颈。主流注意力引导方法因需显式存储完整的注意力矩阵,与FlashAttention等高效计算方案完全不兼容,导致严重的延迟与显存开销,难以实用。
为攻克这一难题,来自爱丁堡大学的Weixian (Waylon) Li联合华为英国研究所、伦敦玛丽女王大学及RayNeo的研究团队,提出了名为SEKA(Spectral Editing Key Amplification)及其自适应变体AdaSEKA的新方法。该方法的核心思想是另辟蹊径:与其在注意力计算后费力修改注意力矩阵,不如在计算前直接编辑Key向量,从源头引导注意力分配。SEKA通过频谱分解学习一个“相关性子空间”,在线推理时,只需将需要高亮的token的Key向量沿该子空间投影并放大,公式简洁。这一操作在数学上等价于为注意力分数添加低秩偏置,但因完全作用于Key嵌入层面,天然兼容FlashAttention,延迟开销几乎为零。
该方法的另一关键设计在于选择性引导:并非对所有注意力头进行干预,而是只选择那些对“相关性”敏感的头,提升了引导的精准性与效率。这项已被人工智能顶级会议ICLR 2026接收的工作,为高效、可控的大模型提示工程开辟了新路径,有望在需要精确指令遵循的应用场景中发挥关键作用。