TAPe-дневник, день 7: отказ от трансформеров и зачатки сегментации

TAPe-дневник, день 7: отказ от трансформеров и зачатки сегментации

В седьмом выпуске дневника TAPe-детекции — важный шаг: переход от трансформеров к более лёгкой архитектуре. Рассказываем, как сократилось число параметров, как работают локальные ассоциации между патчами и почему на изображении лица появляется неявная сегментация без прямого обучения.

Напоминание: что такое TAPe

TAPe (Theory of Active Perception) — математическая теория и технология активного восприятия. Она разбивает изображение на устойчивые признаки и задаёт структуру связей между ними. В рамках TAPe+ML изображение преобразуется в структурированные элементы — TAPe-патчи, которые заменяют сырые пиксели.

Эти элементы используются как основа для различных задач: от self-supervised обучения до классификации, поиска и детекции объектов. В этом дневнике мы отслеживаем прогресс на датасете COCO.

Отказ от трансформеров

Мы успешно перешли от трансформеров к более простой архитектуре. Причина в том, что данные TAPe изначально структурированы и устойчивы — глобальное внимание (Global Attention) становится избыточным.

Это позволило сократить число параметров на порядки. Сейчас объём, необходимый для эмбеддингов, значительно меньше, чем у аналогов.

Уход от трансформеров открыл путь к условным объединениям патчей для выделения объектов и их классификации. Первые эксперименты уже показывают перспективу.

Локальные ассоциации патчей

Ассоциации между патчами носят локальный характер. При выборе «хода» от одного патча в учёт идёт только его ближайшее окружение — более далёкие области теряют контекстуальную связь.

Каждый патч может быть связан с другими в своей локальной области по двум признакам:

  • Похожи по содержанию — например, все содержат кожу; это следует из предобучения эмбеддингов.
  • Принадлежат одному объекту — например, все части лица человека; это результат целенаправленного обучения ассоциациям.

Изменение таких ассоциаций возможно, но требует аккуратной грануляции.

Пример с лицом: как проявляются ассоциации

На изображении из COCO жёлтым обозначен центральный патч, оранжёвым — все патчи, ассоциированные с ним. Все они визуально относятся к лицу человека.

Полное обрамление лица — задача кластеризации. Мы не обучаем модель различать кожу лица и шеи, поэтому границы могут выходить за пределы лица. Однако в большинстве случаев лицо целиком попадает в выделенную область.

Таким образом, возникает неявная классификация понятия «кожа». Прямо это не задаётся, но следует из структуры: одежда становится естественной границей внутри объекта «человек», а контрастные патчи помогают собрать целостное описание.

Сдвиг центра и появление сегментации

При смещении центрального патча ассоциации сохраняются с небольшими корректировками — соотношения между патчами несимметричны, как и следует из принципов TAPe.

Когда центр уходит за пределы исходной зоны, новые и старые области пересекаются, но общий контур объекта (в данном случае — человека) остаётся стабильным. Фактически, это даёт «почти бесплатную» сегментацию — без специального обучения.

Ограничения и перспективы

  • Расширение патчей до полного покрытия объекта возможно, но пока не реализовано — для текущего демо это избыточно.
  • Есть небольшие неточности (например, смещение одного патча). Модель обучалась всего одну минуту — это уйдёт при более длительной и качественной тренировке.
  • Сегментация — направление будущих исследований. Сейчас фокус на детекции, к которой эти результаты напрямую ведут.
  • Скорость работы — 120 кадров в секунду.
Читать оригинал