Microsoft раскрыла фундаментальный разрыв в надежности LLM при делегировании профессиональных задач
Корпорация Microsoft опубликовала DELEGATE-52 — общедоступный инструмент для оценки готовности языковых моделей к выполнению задач, делегируемых в профессиональной среде. В рамках исследования специалисты компании смоделировали сценарии передачи интеллектуальных функций большим языковым моделям (LLM) в 52 профессиональных доменах, охватывающих широкий спектр от юриспруденции до медицинской диагностики. Результаты масштабного моделирования выявили фундаментальный пробел в надёжности современных языковых моделей, который напрямую подрывает доверие к автоматизации интеллектуального труда.
DELEGATE-52 позиционируется как инструмент бенчмаркинга, позволяющий работодателям и разработчикам систем искусственного интеллекта количественно оценить границы применимости LLM в конкретных профессиональных контекстах. Исследование фиксирует, что при делегировании задач качество работы моделей существенно деградирует в задачах, требующих точного следования инструкциям, соблюдения нормативных ограничений и воспроизводимости результатов. Проблема носит не технический, а архитектурный характер — она встроена в саму природу статистических моделей, генерирующих текст на основе вероятностей.
Для корпоративного сектора и регуляторов эти данные формируют зону серьёзного риска. Компании, массово внедряющие ИИ-ассистентов для замещения или дополнения квалифицированного труда, сталкиваются с неочевидными для конечного пользователя искажениями в выходных данных. Это ставит вопрос о необходимости обязательного аудита систем на базе LLM перед их допуском в регулируемые отрасли и создаёт правовую неопределённость в части ответственности за ошибки, порождённые « делегированным » ИИ.