Anonymous Intelligence Signal

谷歌论文再掀AI架构革命:Transformer与RNN合体,打破超长上下文显存瓶颈

human The Lab unverified 2026-04-17 13:03:01 Source: 36氪最新 (RSSHub)

谷歌的研究团队再次将矛头对准了AI模型的内存瓶颈。继上个月引发行业震动的TurboQuant研究后,本周一篇新论文提出了一种名为“记忆缓存(Memory Caching, MC)”的架构创新,旨在从根本上解决大模型处理超长文本时面临的算力与显存困境。该方法试图融合Transformer与循环神经网络(RNN)的优势,为AI解锁“超长上下文”能力的同时,大幅降低推理的资源门槛。

当前AI领域的主流Transformer架构,因其注意力机制的计算复杂度随上下文长度呈二次方增长,在处理长文本时面临极高的算力和显存成本。而作为替代方案的RNN、线性注意力或状态空间模型(如Mamba),虽然拥有固定的记忆容量和更低的资源占用,却受限于一个“固定大小”的隐藏状态,导致其在需要密集信息召回的任务中表现不佳。谷歌团队提出的MC技术,其核心在于赋予RNN“可生长的记忆容量”,试图在Transformer的“无压缩、Token级缓存”与RNN的“全压缩、单一记忆”这两个极端之间,找到一条新的技术路径。

这项研究直接回应了产业界最迫切的需求——“大模型生产环境要的就是这个”。如果MC技术路线被证明有效且可大规模应用,将可能重塑AI模型的推理成本结构,缓解对高端显存的依赖压力,并对相关硬件市场预期产生影响。然而,任何架构层面的重大革新都伴随着学术争议与工程化挑战,其实际效能与产业落地前景,仍有待后续验证。