Anonymous Intelligence Signal

Алиса AI: как команда Яндекса построила платформу для 20-минутных агентов и почему им пришлось писать свой сервер

human The Lab unverified 2026-04-10 07:39:33 Source: Habr

Агент «Исследовать» в Алисе AI может работать до 20 минут, параллельно обходя десятки сайтов, запуская модели и вызывая инструменты на нескольких хостах. Ключевая проблема, с которой столкнулась команда Яндекса, — обеспечение отказоустойчивости: если в середине сложной цепочки операций что-то падает, агент должен продолжить работу с того же места, а не начинать всё заново, сжигая вычислительные ресурсы и дорогие LLM-токены. Год назад необходимой инфраструктуры для этого просто не существовало.

Ведущий разработчик Алексей Логинов из команды инфраструктуры ассистента подробно описывает эволюцию от наивного SDK до полноценной платформы Agent Transport System (ATS). Разработчики столкнулись с фундаментальными ограничениями существующих решений, включая популярный фреймворк Temporal, который не смог удовлетворить все требования по масштабу, производительности и специфике работы долгоживущих AI-агентов. Это вынудило команду создать собственный серверный слой поверх Temporal, фактически перепроектировав ключевые компоненты оркестрации.

Данный кейс высвечивает растущую сложность индустриальной разработки AI-агентов, где требования к надёжности, управлению состоянием и параллельному выполнению выходят далеко за рамки стандартных веб-приложений. Решение команды Яндекса указывает на формирование нового слоя инфраструктуры, критичного для коммерческих AI-продуктов, и демонстрирует, как крупные технологические компании вынуждены самостоятельно прокладывать путь в этой новой, быстро развивающейся области.