Harness Engineering от OpenAI: ИИ-агент внедрил сотни файлов в легаси-проект, но два критических бага прошли незамеченными
Эксперимент по внедрению подхода Harness Engineering от OpenAI в крупный легаси-проект выявил тревожный пробел в автономности ИИ-агентов. Агент успешно реализовал изменения в сотнях файлов, и все автоматические тесты оставались «зелёными». Однако финальная проверка вручную обнаружила два серьёзных бага, которые система полностью пропустила. Этот случай ставит под сомнение обещание полностью делегировать реализацию кода ИИ, оставляя человеку лишь постановку задач и ревью.
Суть подхода Harness Engineering заключается в том, чтобы ИИ-агент самостоятельно выполнял всю работу по реализации, в то время как инженер фокусируется на формулировке требований, написании тестов и проведении код-ревью. Эксперимент на реальном проекте показал, что агент справился с масштабной задачей, формально пройдя все контрольные точки. Но именно «согласованные ошибки» — баги, которые не были пойманы ни тестами, ни самим агентом, — стали ключевым провалом. Это указывает на фундаментальные ограничения в понимании контекста и побочных эффектов даже продвинутыми ИИ-системами.
Итог эксперимента остаётся открытым. Он демонстрирует мощный потенциал для ускорения разработки, но одновременно обнажает риски слепого доверия к автономным агентам в критически важных или сложных кодовых базах. Инцидент усиливает дискуссию в индустрии о необходимом уровне человеческого надзора, качестве тестового покрытия и реальной готовности методологий, подобных Harness Engineering, для продакшена. Будущее такого подхода теперь зависит от способности устранить эти слепые зоны, где автоматизированная проверка бессильна.