Исследователи взломали GPT-20B: патч в квантованные веса без переобучения
Команда исследователей провела операцию по прямому вмешательству в квантованные веса крупной языковой модели, обойдя стандартные методы тонкой настройки. Вместо того чтобы переобучать модель, они вскрыли файлы .safetensors локального дистрибутива gpt-oss-20b-TurboQuant-MLX-8bit, построили детерминированный кэш калибровки и начали снимать реальные BF16-активации с конкретных слоев нейросети. Это позволило свести задачу модификации модели к локальной integer-оптимизации квантованных весов.
Методология, ранее применявшаяся для криптоанализа подписей Schnorr/MuSig2, была перенесена внутрь архитектуры LLM. Исследователи реализовали безопасный патч прямо в модель, добавив smoke-check для верификации: математические расчеты должны строго совпадать с реальным выполнением модели в среде MLX. Подход отвергает представление о нейросети как о «черном ящике», предлагая работать с ее внутренней структурой как с детерминированной математической системой.
Успешное применение exact-методологии к внутренностям GPT-20B открывает путь к новому направлению — AI-forensics. Это создает прецедент для глубокого аудита и целенаправленной модификации уже развернутых моделей без их полного переобучения, что может быть использовано как для исследований безопасности, так и для скрытого внедрения функциональности. Техника поднимает вопросы о целостности и верификации квантованных моделей в производственных средах.