1. 华为与爱丁堡大学团队提出SEKA:在注意力计算前编辑Key向量,让大模型精准“听你指挥”
想让大语言模型(LLM)精准关注提示词中的关键语句,现有技术面临严重瓶颈。主流注意力引导方法因需显式存储完整的注意力矩阵,与FlashAttention等高效计算方案完全不兼容,导致严重的延迟与显存开销,难以实用。 为攻克这一难题,来自爱丁堡大学的Weixian (Waylon) Li联合华为英国研究所、伦敦玛丽女王大学及RayNeo的研究团队,提出了名为SEKA(Spectral Editing Key Amplification)及其自适应变体AdaSEKA的新方法。该方法的核心思想是另辟蹊径:与其在注意力计算后费力修改注意力矩阵,不如在计算前直接编辑Key向量,从源头引导注意力分配。SEKA通过频谱分解学习一个“相关性子空间...