Anonymous Intelligence Signal

Google Turbo Quant Algorithm 随着投资者重新评估AI硬件需求,触发记忆部门股票下降

ai The Vault unverified 2026-03-26 16:45:24 Source: Google Research

Google Research于星期二公布了名为TurboQuant的新压缩算法的细节, 在出版数小时内,记忆部门的库存量下降,微粒下降了约3%,西方数字损失了4.7%,而桑迪斯克则下降了5.7%,因为投资者重新计算了对物理存储硬件的预计需求。 TurboQuant针对的是AI推论中的主要成本驱动因素之一:关键值缓存、储存环境的高速数据结构,这样模型就不必为每个新牌子重新计算。 随着上下文窗口的扩大,缓存迅速增长并消耗了GPU内存,否则会为更多的用户服务或支持更大的模型。 Google TurboQuant将通常的每个值16比特的缓存压缩到3比特,将其记忆足迹减少6倍而基准精确度没有显著下降。 算法采用两阶段方法。 第一阶段称为PollarQuant,将数据矢量从笛卡尔坐标转换为极地坐标,利用高维旋转空间的角分布遵循可预测的模式这一事实,从而消除每个街区必须保持的传统量化标准正常化常数。 第二阶段应用强生-伦登斯特劳斯转换法来消除残留的量化误差,使每个维度有一个符号位数。 合并结果实现压缩,而没有降低大多数现有量化方法实际比率的间接费用。 LongBench、Haystack针头和ZeroSCROLS的测试使用来自Gemma、Mistral和Llama家庭的开放源码模型,TurboQuant 3比特精确度与2024年ICML公布的现行标准基线KIVI匹配或超过KIVII。 Nvidia H100 GPUs的精确度为4位,算法比未压缩的32位基准计算速度快8倍。 论文将在2026年国际气候研究中心发表,由谷歌研究的Amir Zandieh和Vahab Mirrokni与Google DeepMind、KAIST和纽约大学的合作者共同撰写。 市场分析家提供混合评估。 Wells Fargo指出,广泛采用TurboQuant将引起关于总记忆采购量的问题,但告诫说,记忆只是数据中心费用的一个组成部分,大赦国际基础设施支出继续以非常快的速度增长,并提到Meta在最近的一项计算交易中承诺高达270亿美元。 更广义的推论效率景观包括硬件进步,如Nvidia是Vera Rubin建筑和Google是铁木临时保护单位。 Google指出,算法还改善了矢量搜索,支持了针对整个产品组合的搜索、建议和广告。