Positive Technologies: хаос в бенчмарках для LLM в кибербезопасности ставит под вопрос их эффективность
Отраслевые бенчмарки для оценки языковых моделей в сфере кибербезопасности находятся в состоянии полного хаоса и лишены системности. По словам Андрея Кузнецова, ML-директора Positive Technologies, попытка разобраться в существующих инструментах измерения обернулась неожиданными сложностями. Популярные в 2024 году тесты могут полностью игнорироваться в исследованиях 2025 года, а широко цитируемые датасеты зачастую составлены крайне небрежно, что ставит под сомнение саму суть их измерений.
Проблема кроется в фундаментальном отсутствии стандартов. Перед тем как анализировать конкретные примеры, необходимо четко определить типы существующих бенчмарков и их целевое назначение. Однако текущий ландшафт напоминает беспорядочное нагромождение инструментов, где сложно отделить релевантные метрики от шума. Это создает серьезные препятствия для объективной оценки реальных способностей LLM в таких критически важных областях, как анализ уязвимостей, расследование инцидентов или генерация защитного кода.
Сложившаяся ситуация напрямую влияет на доверие к технологиям и эффективность их внедрения в продуктовые решения компаний, подобных Positive Technologies. Отсутствие надежных, воспроизводимых и актуальных методов измерения не только замедляет прогресс, но и повышает риски внедрения недостаточно проверенных моделей в реальные системы защиты. Индустрия остро нуждается в консолидации усилий для создания прозрачной и структурированной системы валидации ИИ-инструментов для кибербезопасности.