1. Google Research анонсировал TurboQuant: алгоритм сжатия памяти LLM в 6 раз без потери точности
Google Research представил новый алгоритм сжатия данных под названием TurboQuant, который обещает радикально сократить аппаратные требования для работы больших языковых моделей (LLM). Ключевой заявленный результат — сокращение объёма кэш-памяти, необходимой для LLM, как минимум в 6 раз, с одновременным ускорением работ...