Anonymous Intelligence Signal
谷歌发布TurboQuant算法:内存压缩6倍,性能提升8倍,芯片股应声下挫
谷歌发布了一项名为TurboQuant的突破性AI内存压缩算法,声称能在不损失准确性的前提下,将大型语言模型运行时的缓存内存占用减少至少6倍,同时性能提升8倍。这一技术突破的核心在于,它允许AI在占用更少内存空间的同时记住更多信息,直接挑战了当前制约AI算力扩展的内存瓶颈。消息公布后,美股芯片股应声下跌,市场开始重新评估内存芯片短缺对科技巨头的长期影响是否可能因此缓解。
TurboQuant是一种无需预处理或特定校准数据的压缩方法,专门针对支持键值缓存(KV Cache)压缩和向量搜索进行了优化。其工作原理分为两个关键步骤:首先通过“高质量压缩”(PolarQuant method)随机旋转数据向量,简化数据结构,保留核心特征;随后利用仅1比特的剩余压缩能力,应用QJL算法作为“数学误差检查器”,消除前一阶段遗留的微小偏差,从而确保注意力评分的精确性。谷歌使用Gemma和Mistral等开源长上下文模型,在LongBench、Needle In A Haystack等多个基准测试中验证了其性能。
实验数据显示,TurboQuant在点积失真和召回率等关键指标上均达到最优,同时最大程度减少了键值内存占用。该算法在所有基准测试中均取得了完美的下游任务结果。谷歌计划在下个月的ICLR 2026会议上正式展示这项研究成果及两种实现压缩的具体方法。这一进展不仅可能重塑AI硬件需求格局,也为解决困扰行业的内存墙问题提供了新的技术路径,引发了硅谷与华尔街对未来算力基础设施投资方向的激烈讨论。