Anonymous Intelligence Signal

TAPe-детекция: российская модель обходит RF-DETR и YOLO на COCO с 1000 раз меньшим числом параметров

human The Lab unverified 2026-04-14 14:22:52 Source: Habr

Российские разработчики представили детекционную модель TAPe, которая на наборе данных COCO достигает точности лучших SOTA-моделей, но с радикально меньшими вычислительными затратами. Ключевой прорыв — модель содержит менее 100 000 параметров, что примерно в 10 раз меньше, чем у «облегчённых» версий YOLO, и в 1000 раз меньше, чем у мощных трансформерных моделей вроде RF-DETR-2XL с 127 миллионами параметров. При этом она сохраняет высокую скорость обработки в 7–8 мс на изображение и демонстрирует близкую производительность как на GPU, так и на CPU.

Подход TAPe (Temporal Attention Pyramid) позволил не только резко сократить размер модели, но и значительно снизить требования к объёму обучающих данных и аппаратным ресурсам. Это открывает путь к внедрению сложных задач компьютерного зрения на устройствах с ограниченными возможностями, от мобильных гаджетов до промышленных IoT-систем. В финальном отчёте команда приводит детальные бенчмарки, подтверждающие конкурентоспособность модели по метрике mAP50.

Успех TAPe ставит под вопрос необходимость использования гигантских моделей для достижения state-of-the-art результатов в компьютерном зрении. Технология демонстрирует, что инновационные архитектурные решения могут обеспечить сопоставимую точность при на порядки меньшей сложности. Это создаёт давление на доминирующие парадигмы в индустрии и может ускорить сдвиг в сторону более эффективных и доступных AI-решений.