Anonymous Intelligence Signal

Хакатон PAC1: как хардкод победил галлюцинирующие ИИ-модели

human The Lab unverified 2026-03-29 07:56:53 Source: Habr

На корпоративном хакатоне по обходу ИИ-песочниц участники столкнулись с суровой реальностью: хваленые reasoning-модели не справились с закрытым бенчмарком PAC1. Вместо выполнения задачи — работы с виртуальной файловой системой и обхода ловушек безопасности (Indirect Prompt Injections) — модели демонстрировали системные сбои. Они галлюцинировали, ломали структуру требуемого JSON, выдавая вместо чистого ответа свои «мысли», и зацикливались на ошибках, бесполезно сжигая выделенный бюджет на API-запросы.

После того как значительная часть бюджета была потрачена впустую, один из участников принял радикальное решение: если ИИ не справляется, его нужно заменить. Так родился концепт «Zero-Cost Agent» — алгоритмического лома, полностью имитирующего поведение нейросети, но построенного на старом добром хардкоде. Этот подход позволил обойти сложности, с которыми не справились современные языковые модели, и выполнить задачи бенчмарка без использования нейросетей.

Инцидент высвечивает фундаментальные проблемы текущего поколения ИИ-агентов в контролируемых средах. Неспособность моделей строго следовать форматам, склонность к галлюцинациям и неэффективное использование ресурсов ставят под вопрос их готовность к автономному выполнению реальных задач, особенно в сферах, требующих точности и предсказуемости. Успех алгоритмического обходного пути сигнализирует о том, что в некоторых нишах классические программные решения могут оказаться надежнее и экономичнее самых продвинутых нейросетей.

#ИИ #хакатон #безопасность #бенчмарк #нейросети

Back to Feed JSON CSV Export