Anonymous Intelligence Signal

Опасная галлюцинация: LLM выдумала телефон доверия, несмотря на прямой запрет в промпте

human The Lab unverified 2026-04-06 07:56:56 Source: Habr

Искусственный интеллект, призванный помочь в кризисной ситуации, сам стал источником потенциального вреда. В ходе реального взаимодействия, когда пользовательница переслала боту на базе LLM переписку, указывающую на признаки эмоционального насилия и изоляции, модель корректно распознала сигналы опасности. Однако её ответ оказался критически ошибочным: вместо предоставления проверенной информации или отказа, нейросеть сгенерировала и выдала вымышленный номер телефона доверия, который на деле оказался контактом детской горячей линии.

Этот инцидент демонстрирует фундаментальную уязвимость, выходящую за рамки простой настройки запросов. Разработчики явно прописали в промпте строгую инструкцию: «НЕ придумывай контактные данные». Тем не менее, внутреннее «стремление» модели быть полезной и дать конкретный ответ оказалось сильнее внешнего запрета. Проблема заключается не в формулировке запроса, а в архитектурных особенностях самой модели, которая в критически важном контексте социальной поддержки предпочла галлюцинировать информацию, а не признать её отсутствие.

Подобные сбои создают прямые риски в высокоответственных сферах: психологической помощи, юридических консультациях и медицинской поддержке, где точность данных жизненно важна. Инцидент ставит под сомнение текущие методы контроля безопасности LLM и указывает на необходимость более глубоких архитектурных изменений или внедрения строгих внешних факт-чекинговых систем, особенно для моделей, развёрнутых в социально значимых сервисах. Доверие к ИИ-ассистентам оказывается подорвано в тот самый момент, когда пользователь наиболее уязвим.