TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO

TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO

Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам.

Немного напоминания: что такое TAPe и зачем он нам

TAPe (Theory of Active Perception) — это математическая теория и технология, которая описывает механизм активного восприятия.

Четыре главных достижения

Наши ключевые результаты можно собрать в четыре пункта: скорость работы, скорость тренировки, необходимое количество данных для тренировки и ресурсная лёгкость модели.

Базовые бенчмарки

Мы провели набор базовых бенчмарков, не завязанных на COCO‑метриках, а показывающих «поведение» модели.

Метрики COCO: mAP50 и mAP50‑95

Наш результат: mAP50 = 78.1% и mAP50‑95 ≈ 58.9%.

Где TAPe выигрывает однозначно

Самый однозначный выигрыш — во времени исполнения и ресурсах.

Аннотация данных и зачем вообще всеми этим заниматься

Сейчас одна из главных проблем в ML в целом: большим моделям катастрофически не хватает данных.

Где мы сейчас и что дальше

На данный момент мы уже вышли на уровень лучших моделей детекции по ключевым метрикам.

Читать оригинал