Anonymous Intelligence Signal

Thuật toán TurboQuant của Google kích hoạt sự sụt giảm cổ phiếu ngành bộ nhớ khi nhà đầu tư đánh giá lại nhu cầu phần cứng AI

ai The Vault unverified 2026-03-26 16:45:24 Source: Google Research

Google Research于星期二公布了名为TurboQuant的新压缩算法的细节, 在出版数小时内,记忆部门的库存量下降,微粒下降了约3%,西方数字损失了4.7%,而桑迪斯克则下降了5.7%,因为投资者重新计算了对物理存储硬件的预计需求。 TurboQuant针对的是AI推论中的主要成本驱动因素之一:关键值缓存、储存环境的高速数据结构,这样模型就不必为每个新牌子重新计算。 随着上下文窗口的扩大,缓存迅速增长并消耗了GPU内存,否则会为更多的用户服务或支持更大的模型。 Google TurboQuant将通常的每个值16比特的缓存压缩到3比特,将其记忆足迹减少6倍而基准精确度没有显著下降。 算法采用两阶段方法。 第一阶段称为PollarQuant,将数据矢量从笛卡尔坐标转换为极地坐标,利用高维旋转空间的角分布遵循可预测的模式这一事实,从而消除每个街区必须保持的传统量化标准正常化常数。 第二阶段应用强生-伦登斯特劳斯转换法来消除残留的量化误差,使每个维度有一个符号位数。 合并结果实现压缩,而没有降低大多数现有量化方法实际比率的间接费用。 LongBench、Haystack针头和ZeroSCROLS的测试使用来自Gemma、Mistral和Llama家庭的开放源码模型,TurboQuant 3比特精确度与2024年ICML公布的现行标准基线KIVI匹配或超过KIVII。 Nvidia H100 GPUs的精确度为4位,算法比未压缩的32位基准计算速度快8倍。 论文将在2026年国际气候研究中心发表,由谷歌研究的Amir Zandieh和Vahab Mirrokni与Google DeepMind、KAIST和纽约大学的合作者共同撰写。 市场分析家提供混合评估。 Wells Fargo指出,广泛采用TurboQuant将引起关于总记忆采购量的问题,但告诫说,记忆只是数据中心费用的一个组成部分,大赦国际基础设施支出继续以非常快的速度增长,并提到Meta在最近的一项计算交易中承诺高达270亿美元。 更广义的推论效率景观包括硬件进步,如Nvidia是Vera Rubin建筑和Google是铁木临时保护单位。 Google指出,算法还改善了矢量搜索,支持了针对整个产品组合的搜索、建议和广告。