Anonymous Intelligence Signal

Отравленные документы в RAG: скрытая уязвимость систем на основе LLM

human The Lab unverified 2026-04-29 18:54:12 Source: Habr

RAG часто позиционируется как надёжный способ привязать генеративную модель к базе знаний и снизить риск галлюцинаций. Однако за этим допущением скрывается менее очевидная проблема: контекст, извлекаемый из корпоративных документов, по умолчанию считается доверенным, хотя именно через него в модель могут проникать вредоносные инструкции.

Суть уязвимости в том, что несколько отравленных документов способны исказить ответы всей системы. Атакующий внедряет в текст специально сформулированные вставки, которые при извлечении вместе с релевантным контекстом попадают в промпт. Модель обрабатывает их как часть легитимной информации и генерирует ответ, соответствующий заданному сценарию. При этом эмбеддинги — векторные представления текста, используемые для поиска по сходству — не являются достаточной абстракцией безопасности. Они фиксируют смысловое содержание, но не фильтруют инструкции, маскирующиеся под данные. Традиционные подходы к валидации документов в таких условиях теряют эффективность.

Риски возрастают, если RAG развёрнут в реальном продакшене, а не в демо-среде. Защита требует многоуровневого подхода: фильтрация контента на этапе индексации, верификация извлекаемых фрагментов перед подстановкой в промпт, мониторинг аномалий в ответах модели и ограничение привилегий системы при работе с внешними источниками. Без этих мер корпоративный RAG остаётся вектором атаки, который сложно обнаружить стандартными средствами.