AI-агенты тратят 80% токенов на повторный анализ файлов — скрытая утечка контекста и её простое решение
Несмотря на миллионные контекстные окна современных AI-агентов, их реальная эффективность оказалась под вопросом из-за скрытой и дорогостоящей утечки ресурсов. Автор, управляющий более чем 20 проектами на нескольких серверах, провёл замеры и обнаружил неприятную картину: до 80% токенов агенты тратят не на решение новых задач, а на повторное чтение и анализ файлов, которые уже были обработаны в предыдущих сессиях. Это приводит к тому, что каждая новая сессия работы с одним и тем же проектом начинается практически с нуля, сводя на нет преимущества большого контекста и многократно увеличивая затраты.
Проблема, обозначенная как «скрытая утечка контекста», вышла на первый план после обсуждения предыдущей статьи автора о сбоях Claude Code. Вопрос о неэффективном расходовании токенов, поднятый в комментариях и личных сообщениях, указывает на системную уязвимость в архитектуре работы AI-агентов с долгосрочной памятью проекта. Агент, вместо того чтобы использовать уже проанализированные данные, каждый раз заново поглощает контекстное окно, что делает работу медленной и экономически невыгодной.
Решение, предложенное автором, удивительно простое и не требует сложных доработок инфраструктуры. Для исправления ситуации достаточно трёх markdown-файлов, которые кардинально меняют логику взаимодействия агента с кодом. Этот подход позволяет резко сократить расход токенов, сохраняя при этом качество анализа, и может стать стандартом для разработчиков, стремящихся к экономичной и стабильной работе с AI-ассистентами в production-среде.