Google Research анонсировал TurboQuant: алгоритм сжатия памяти LLM в 6 раз без потери точности
Google Research представил новый алгоритм сжатия данных под названием TurboQuant, который обещает радикально сократить аппаратные требования для работы больших языковых моделей (LLM). Ключевой заявленный результат — сокращение объёма кэш-памяти, необходимой для LLM, как минимум в 6 раз, с одновременным ускорением работы до 8 раз. Наиболее значимым утверждением является сохранение точности модели, что напрямую определяет практическую полезность сжатия для реальных AI-приложений, где компромисс между размером и качеством обычно критичен.
Разработка TurboQuant указывает на интенсивную внутреннюю работу Google по оптимизации фундаментальных ограничений современных систем искусственного интеллекта — их прожорливости в вычислительных ресурсах и памяти. Если заявленные характеристики подтвердятся на практике, алгоритм может стать важным шагом к демократизации доступа к мощным LLM, снизив барьеры для их развёртывания на менее мощном оборудовании и в edge-устройствах.
Внедрение подобной технологии создаёт давление на других игроков рынка, от NVIDIA до разработчиков облачных платформ, чьи бизнес-модели часто строятся на продаже вычислительной мощности. Успех TurboQuant может сместить акценты в гонке AI-оптимизаций с чисто аппаратных решений на алгоритмические, что открывает новые возможности для стартапов и исследовательских групп с ограниченным бюджетом на инфраструктуру.