В седьмом выпуске дневника TAPe-детекции — важный шаг: переход от трансформеров к более лёгкой архитектуре. Рассказываем, как сократилось число параметров, как работают локальные ассоциации между патчами и почему на изображении лица появляется неявная сегментация без прямого обучения.
Напоминание: что такое TAPe
TAPe (Theory of Active Perception) — математическая теория и технология активного восприятия. Она разбивает изображение на устойчивые признаки и задаёт структуру связей между ними. В рамках TAPe+ML изображение преобразуется в структурированные элементы — TAPe-патчи, которые заменяют сырые пиксели.
Эти элементы используются как основа для различных задач: от self-supervised обучения до классификации, поиска и детекции объектов. В этом дневнике мы отслеживаем прогресс на датасете COCO.
Отказ от трансформеров
Мы успешно перешли от трансформеров к более простой архитектуре. Причина в том, что данные TAPe изначально структурированы и устойчивы — глобальное внимание (Global Attention) становится избыточным.
Это позволило сократить число параметров на порядки. Сейчас объём, необходимый для эмбеддингов, значительно меньше, чем у аналогов.
Уход от трансформеров открыл путь к условным объединениям патчей для выделения объектов и их классификации. Первые эксперименты уже показывают перспективу.
Локальные ассоциации патчей
Ассоциации между патчами носят локальный характер. При выборе «хода» от одного патча в учёт идёт только его ближайшее окружение — более далёкие области теряют контекстуальную связь.
Каждый патч может быть связан с другими в своей локальной области по двум признакам:
- Похожи по содержанию — например, все содержат кожу; это следует из предобучения эмбеддингов.
- Принадлежат одному объекту — например, все части лица человека; это результат целенаправленного обучения ассоциациям.
Изменение таких ассоциаций возможно, но требует аккуратной грануляции.
Пример с лицом: как проявляются ассоциации
На изображении из COCO жёлтым обозначен центральный патч, оранжёвым — все патчи, ассоциированные с ним. Все они визуально относятся к лицу человека.
Полное обрамление лица — задача кластеризации. Мы не обучаем модель различать кожу лица и шеи, поэтому границы могут выходить за пределы лица. Однако в большинстве случаев лицо целиком попадает в выделенную область.
Таким образом, возникает неявная классификация понятия «кожа». Прямо это не задаётся, но следует из структуры: одежда становится естественной границей внутри объекта «человек», а контрастные патчи помогают собрать целостное описание.
Сдвиг центра и появление сегментации
При смещении центрального патча ассоциации сохраняются с небольшими корректировками — соотношения между патчами несимметричны, как и следует из принципов TAPe.
Когда центр уходит за пределы исходной зоны, новые и старые области пересекаются, но общий контур объекта (в данном случае — человека) остаётся стабильным. Фактически, это даёт «почти бесплатную» сегментацию — без специального обучения.
Ограничения и перспективы
- Расширение патчей до полного покрытия объекта возможно, но пока не реализовано — для текущего демо это избыточно.
- Есть небольшие неточности (например, смещение одного патча). Модель обучалась всего одну минуту — это уйдёт при более длительной и качественной тренировке.
- Сегментация — направление будущих исследований. Сейчас фокус на детекции, к которой эти результаты напрямую ведут.
- Скорость работы — 120 кадров в секунду.