WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая — Тусон, Аризона. Пустыня Сонора. Кактусы-сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!

Я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции и немного времени в пустыне. Поездка получилась насыщенной — и по науке, и по ощущениям. Очень хочется поделиться!

WACV — что это за конференция?

IEEE/CVF Winter Conference on Applications of Computer Vision — это «младший брат» CVPR. Её считают более прикладной: меньше теории ради теории, больше систем, датасетов и промышленных применений. Акцепт-рейт на уровне 25–30% — для топовых CV-конференций это довольно лояльно.

Конференция камерная — 200–300 участников, а не тысячи, как на NeurIPS или ICCV. Это большой плюс: можно подойти к автору интересной работы и поговорить без очереди. Уровень работ и организации высокий. Поэтому называть WACV «маленькой» — почти оскорбление. Лучше — «конференция правильного размера».

Тусон — место проведения уже несколько лет подряд. Конференция проходит в JW Marriott Starr Pass Resort, отеле прямо в пустыне. Все сессии, постеры и кофе-брейки — в одном здании. Красиво. Но есть нюанс: отель в отдалении, ближайшая остановка — в пяти километрах. Каждый день — такси или Uber, как и у большинства. Зато вышел из зала — и перед тобой сагуаро в метре от дорожки.

Как обычно, конференцию открыли воркшопы и туториалы. Основная программа включала постеры и устные доклады — три дня, шесть сессий.

Что было интересного на конференции

WACV 2026 показал чёткие тренды. Индустрия Computer Vision окончательно перешла к генеративно-центричному подходу. Основной фокус сместился: со количества данных — на эффективность выборки через диффузионный синтез, и с статичных вычислений — на динамическую плотность через адаптивное управление токенами в трансформерах.

Мультимодальность как новый стандарт

Если три года назад «мультимодальная модель» звучало экзотически, сейчас это норма. Большинство работ на WACV так или иначе используют совместное обучение на тексте и изображениях. Вопрос уже не «зачем», а «как» — какие архитектуры, как выравнивать пространства, как бороться с доминированием одного модального канала.

Синтетические данные и аугментация

Диффузионные модели стали стандартным инструментом для генерации обучающих данных. Несколько работ показали, что pipeline, основанный только на синтетике, превосходит реальные данные в специфических доменах — медицине, спутниковых снимках, промышленном контроле. Это меняет логику создания датасетов.

Одной из центральных тем стала задача «Cold Start» — обучение без единого размеченного реального примера. Примеры:

  • SynSacc: Blender + симулятор событий (event camera) позволяют обучать SNN-модели для отслеживания саккад глаза. Модели показывают стабильную точность на реальных данных.
  • TalkingPose: диффузионная модель с обратной связью генерирует согласованные движения и мимику. Обучающие выборки превосходят существующие видео-датасеты по качеству и разнообразию.
  • PHYSPLAT: фреймворк на основе 3D Gaussian Splatting смешивает реальные сцены с синтетическими объектами. Решает проблему «нереалистичности» синтетики в автономном вождении.

Эффективность — не только quantization

Тема ускорения моделей стала глубже. Помимо квантизации, активно обсуждались: structured pruning с сохранением семантики, knowledge distillation с мультиагентными учителями, адаптивные вычисления (early exit, слияние токенов в ViT). Поле дозрело до более нюансированных решений.

Тренд — уход от статичных методов к динамическим, где сложность вычислений зависит от входного изображения. Примеры работ:

  • EVTP-IVS: метод прунинга токенов на основе k-center с учётом пространственной информации. Ускорение в 5 раз при сохранении точности, всего 20% токенов.
  • Token Fusion: гибридный подход (STEP: SuperToken и Early-Pruning), объединяющий слияние и прунинг. Позволяет избежать потери важных деталей фона.
  • APT (Adaptive Patch Sizes): модель использует крупные патчи для однородных областей и мелкие — для детализированных. Прирост пропускной способности на 40–50% для тяжёлых ViT.

Video understanding как незакрытая проблема

Много работ по видео — честный сигнал, что проблема ещё не решена. Обсуждались трансформеры с временным вниманием, state space модели, long-form video QA. Данных много, бенчмарки растут, но «понимания» в полном смысле пока нет.

Постеры составляют основную часть докладов. Некоторые авторы экспериментировали с форматом и размером, чтобы выделиться.

Наши работы: MaxInfo и Feature Inversion

На WACV мы представили две работы из FusionBrain Lab. Обе — постеры, и я представлял их лично, так как авторы не смогли приехать.

MaxInfo: умный выбор ключевых кадров для видео

MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding
Авторы: Pengyi Li, Irina Abdullaeva, Alexander Gambashidze, Andrey Kuznetsov, Ivan Oseledets

Video Large Language Models сталкиваются с ограничением контекстного окна. Обычно кадры выбирают равномерно — каждый N-й. Но это приводит к дублям на статичных сценах и пропуску ключевых моментов.

MaxInfo решает это так:

  1. Равномерно семплируем N начальных кадров;
  2. Получаем CLS-эмбеддинги через ViT-энкодер;
  3. Делаем SVD-редукцию матрицы эмбеддингов;
  4. Применяем алгоритм rect_maxvol — он находит подматрицу максимального объёма, то есть набор самых разнообразных и информативных кадров.

Результат — plug-and-play модуль без дообучения. Постоянное потребление CUDA, независимо от длины видео. На LongVideoBench даёт прирост +3–5% к LLaVA-Video и Qwen2-VL без изменений в архитектуре.

Feature Inversion as a Lens on Vision Encoders

Feature Inversion as a Lens on Vision Encoders
Авторы: Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov

Работа задаёт важный вопрос: что именно «видит» vision encoder? Если можно реконструировать изображение из замороженных признаков — значит, они содержат достаточно информации. А если можно делать контролируемые правки в пространстве признаков и видеть предсказуемые изменения в изображении — значит, это пространство структурировано.

Авторы обучили лёгкие реконструкторы для разных ViT-энкодеров и показали:

  • Все ViT позволяют реконструировать изображения, но качество зависит от разрешения и целевой функции предобучения;
  • Простые линейные преобразования в feature space дают предсказуемые изменения в pixel space (например, red ↔ blue);
  • Энкодеры с image-centric целями (например, SigLIP2) сохраняют больше визуальной информации.

Постер вызвал большой интерес. Подход напоминает «выворачивание» латентного пространства. Самый любопытный момент: геометрические манипуляции с векторами позволяют предсказуемо менять цвета и другие атрибуты. Это показывает, что за сложными весами скрывается строгая математическая структура.

Я пошёл на хитрость: рядом с моим стендом было пусто. Поэтому я повесил два экземпляра постера по Feature Inversion — получилось эффектно.

Люди и атмосфера

Отсутствие толп создавало особую атмосферу — особенно на фоне гигантских конференций. На докладах было меньше стульев, но больше кислорода.

Камерность WACV — это про разговоры. На большой конференции ты теряешься в толпе. Здесь — реально знакомишься.

Пьер из EPFL

Одна из запомнившихся встреч — с Пьером (Pierre Ancey), PhD-студентом из EPFL. Его работа: FastPose-ViT — архитектура для оценки 6DoF-позы космических аппаратов по одному изображению. Модель достигает ~75 мс на кадр (до 33 FPS) на NVIDIA Jetson Orin Nano — впечатляюще для edge-устройства.

Но разговор быстро ушёл за рамки науки. Оказалось, Пьер параллельно с PhD использует Claude Code как фабрику по производству веб-сайтов для состоятельных швейцарских клиентов. Весь цикл — от анализа конкурентов до сопровождения — автоматизирован. Мы долго обсуждали возможности и ограничения Claude, и наш опыт оказался очень похожим.

Хильда Кюне

Также пообщался с Hilde Kuehne из Tübingen AI Center. Её работа MM-TS: Multi-Modal Temperature and Margin Schedules была принята как устный доклад — серьёзное признание.

Идея: динамически подстраивать температуру в contrastive loss при обучении мультимодальных моделей. Это регулирует силы притяжения и отталкивания. Для несбалансированных датасетов температура зависит от плотности кластеров — более плотные получают более высокую температуру, чтобы сохранить семантическую структуру.

Подход объединяет InfoNCE и max-margin, показывая state-of-the-art на Flickr30K, MSCOCO, EPIC-KITCHENS-100 и YouCook2.

Кстати, на WACV 2026 установили фотобудку в честь 80-летия The Computer Vision Foundation. Я, конечно, сфотографировался.

Тусон: пустыня, кактусы и +25°C в марте

Тусон — не курорт и не деловой центр. Это академический город с университетом, испанским колониальным прошлым и пустыней прямо за порогом.

Пустыня Сонора

Сагуаро — кактусы-гиганты с «руками» — растут только в пустыне Сонора. Они растут медленно: 75-летний кактус — это полутораметровый ствол без отростков. Те, у кого есть «руки», — 150–200 лет.

Где-то здесь, вероятно, нашёл свой последний приют Эдвард Эбби — рейнджер, анархист и писатель, работавший в национальных парках Юго-Запада. Никто не знает, где он похоронен — только что умер в аризонской пустыне.

Рядом — Saguaro National Park, разделённый на западную и восточную части. До него 20 минут от центра. На рассвете или закате можно увидеть сцены, которые напоминают: планета большая и странная.

Фауна экзотичная. И часто не нужно уходить глубоко в пустыню, чтобы с ней столкнуться.

Атмосфера и темп

Тусон — тихий, горизонтальный город. Горы со всех сторон: Santa Catalina, Rincon, Tucson Mountains. Воздух сухой. Ночью прохладно. Темп жизни несравнимо медленнее московского — это сначала немного дезориентирует.

Местная кухня — не просто «мексиканская», а сонорская. Carne asada, chimichangas (изобретение Тусона, по версии местных), green chile. Если окажетесь — обязательно поешьте за пределами отеля.

На конференции кормили неплохо. Street Taco Station от JW Marriott с carne asada, chicken adobo и вегетарианскими тако стала хитом. Кофе-брейки тоже отличались местным колоритом.

Вместо заключения

WACV — отличная конференция, чтобы почувствовать пульс прикладного Computer Vision без перегруза в стиле NeurIPS. Плотность качественных работ высокая, люди доступны. Локация в этот раз стала бонусом.

Камерный формат на 200–300 человек — то, чего часто не хватает на крупных событиях.

А Тусон — место, куда стоит вернуться. Даже без постера.

Читать оригинал