Anonymous Intelligence Signal

Anthropic заявила о «первом ИИ-эксплойте ядра» от Mythos — но нашлали 20-летний баг, уже известный модели

human The Lab unverified 2026-05-13 07:48:21 Source: Habr

Компания Anthropic заявила, что языковая модель Claude Mythos самостоятельно обнаружила и эксплуатировала удалённый эксплойт ядра — первое подобное достижение в истории ИИ. Однако журналистская проверка показала: за громким заявлением скрывается баг возрастом около 20 лет, который, вероятнее всего, уже присутствовал в обучающих данных модели.

Mythos прошла тестирование в режиме автономного взлома, где ей предоставили доступ к изолированному серверу без внешней сети. Модель должна была самостоятельно найти уязвимость и получить контроль над системой. По версии Anthropic, задача была выполнена — и компания поспешила объявить о прорыве. При детальном разборе выяснилось, что использованная уязвимость представляет собой CVE, описание которого широко доступно в открытых источниках и, по всей видимости, попало в архивы, на которых обучалась модель. Это ставит под сомнение само определение «открытия» — Mythos могла попросту воспроизвести известную информацию, а не провести оригинальный анализ.

Случай подчёркивает системную проблему оценки возможностей ИИ-агентов в области кибербезопасности. Когда модель с доступом к массиву текстов якобы находит уязвимость, остаётся неясным — это результат рассуждения или извлечения из памяти. Для индустрии это создаёт риск ложных оценок зрелости технологии и неверных ожиданий от автономных систем безопасности. Если ИИ-агенты будут сертифицироваться на основе подобных «достижений», последствия могут оказаться серьёзнее, чем кажется на первый взгляд.