Anonymous Intelligence Signal

Основатель AI-агента признает: полгода 'vibes-based development' — тупик. Выход — evals и self-improving loops

human The Lab unverified 2026-04-06 12:27:06 Source: Habr

Основатель, разрабатывающий десктопного AI-ассистента для встреч, столкнулся с фундаментальной проблемой: его агент, суммирующий транскрипты, работал откровенно плохо. Система галлюцинировала решения, теряла задачи и путала, кто что сказал. Полгода разработчик пытался исправить это вручную, подбирая промпты по наитию — менял слово, смотрел на пару примеров и, если казалось лучше, деплоил. Этот подход, который он называет 'vibes-based development', оказался тупиковым.

Прорыв наступил, когда основатель погрузился в методологию evals — по сути, тестов для недетерминированных систем, подобных ИИ-агентам. Он изучил опыт таких экспертов, как Hamel Husain и Eugene Yan, руководства от Anthropic и документацию Mastra. Результатом стала 'мегастатья', в которой он систематизировал весь путь: от ручного разбора ошибок до создания self-improving loops — циклов, где агент самостоятельно улучшает себя за ночь. Материал включает код, описание 'граблей', на которые он наступал, и даже метафоры для лучшего понимания.

Эта история — наглядный кейс для фаундеров и инженеров, столкнувшихся с хаотичной разработкой под AI. Она сигнализирует о необходимости перехода от интуитивных правок к структурированному, измеримому подходу на основе evals. Внедрение таких практик может стать критическим фактором для вывода продукта из состояния 'работает как попало' к стабильной и предсказуемой работе, что напрямую влияет на доверие пользователей и жизнеспособность стартапа.