NLP глазами CV-специалиста: впечатления от EACL 2026 в Марокко

NLP глазами CV-специалиста: впечатления от EACL 2026 в Марокко

Привет! Я — Андрей Москаленко, научный сотрудник лаборатории FusionBrain и AIRI, специализируюсь на компьютерном зрении. В конце марта я впервые посетил конференцию по NLP — EACL 2026. В этом году она впервые прошла в Африке — в Марокко, в городе Рабат. От нашей команды FusionBrain.Robotics приехали трое: мы представили две статьи, написанные совместно с командой «Прикладное NLP» AIRI.

О конференции EACL

EACL проводится с 1983 года под эгидой европейского отделения Association for Computational Linguistics. Эта организация также курирует ACL, EMNLP и NAACL. Все эти конференции используют единый процесс рецензирования — ACL Rolling Review (ARR). Статьи можно подавать четыре раза в год, не привязываясь к конкретному мероприятию. Выбор конференции возможен даже после получения рецензий.

В этом году доля принятых работ составила 21% для основного трека и 16% для findings. Всего было одобрено около 800 статей. Это много для шести дней, но по сравнению с крупными CV-конференциями, такими как ECCV или AAAI (где принимают до 4000 статей), EACL выглядела камерно.

На AAAI в Сингапуре в январе было почти невозможно обойти все постеры. На EACL же хватало времени, чтобы спокойно пообщаться с авторами 5–10 интересных работ. Это способствовало качественному нетворкингу. К постерам подходили исследователи из разных областей — не только NLP, но и те, кто, как я, пришёл из CV. Например, с сотрудником Waymo мы долго обсуждали нашу статью о VLA-моделях.

Однако расписание было плотным: устные доклады и постерные сессии шли параллельно. Приходилось выбирать, что посетить.

Место и участники

Конференция проходила в Дворце конгрессов в Рабате. Для нас, российских участников, выбор Марокко стал удобным — есть безвизовый въезд и прямые рейсы.

Это была моя первая поездка в Африку. Я не ожидал увидеть столько зелени: повсюду растительность, цветут апельсиновые деревья. Температура держалась около 20 °C — комфортно. До пустыни, правда, так и не добрались.

На открытии сообщили: в EACL 2026 участвовали более 1700 человек из 85 стран. Из них 1167 приехали очно. Исследователи из России заняли 9-е место по численности — выше, чем Китай. От AIRI приехало 15 человек, представивших 13 работ.

Организационные мероприятия

Первый день начался с регистрации и приветственного фуршета. Все получили подставки для марокканского чаепития. А чай с мятой подавали каждый день — фирменный напиток конференции.

Особенно запомнилась сессия Open Discussion. Организаторы ACL-конференций отвечали на вопросы из зала. Обсуждали рост масштаба мероприятий без потери качества рецензирования, возможность bidding'а статей в ARR вместо случайного распределения, публичность рецензий и другие насущные темы.

Вечером прошёл Social Event — ужин с традиционными марокканскими танцами. Были и экскурсии: одна по Рабату — до океана, другая в Танжер, у Гибралтарского пролива.

На экскурсиях я познакомился с аспирантами из Люксембурга, США и Нидерландов. Особенно запомнился профессор из Техаса Raymond Mooney. Он рассказывал о развитии сообществ ACM, ACL и AAAI, о своих аспирантах из России и поделился взглядами на Robotics и Vision-Language-Action (VLA) модели — направление, актуальное для моей работы.

Наши статьи

От нашей команды было представлено две работы — одна устно, другая в формате постера. Обе находятся на стыке CV и NLP, написаны в коллаборации с командой AIRI «Прикладное NLP» под руководством Елены Тутубалиной.

Bring the Apple, Not the Sofa: Impact of Irrelevant Context in Embodied AI Commands on VLA Models
Andrey Moskalenko, Daria Pugacheva, Denis Shepelev, Andrey Kuznetsov, Vlad Shakhuro, Elena Tutubalina

Статья посвящена VLA-моделям — системам, управляющим роботами. Они принимают изображение с камеры и текстовую команду, а на выходе генерируют последовательность действий.

Мы исследовали, как качество таких моделей зависит от переформулировки команд и наличия нерелевантного контекста. В существующих бенчмарках разнообразие инструкций невелико, и модели часто переобучаются на определённые шаблоны.

Сначала мы провели краудсорсинговое исследование: просили людей переформулировать команды, сохраняя смысл. Даже такие простые изменения снизили долю успешных эпизодов на 20%.

Затем мы систематически изучили влияние нерелевантного контекста. Оказалось, что добавление даже одного лишнего слова ухудшает результат. С ростом длины контекста качество деградирует.

Чтобы решить проблему, мы предложили использовать LLM для фильтрации промптов — извлечения полезной информации. Это позволило восстановить большую часть утраченной эффективности.

SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space
Viktoriia Zinkovich, Anton Antonov, Andrei Spiridonov, Denis Shepelev, Andrey Moskalenko, Daria Pugacheva, Elena Tutubalina, Andrey Kuznetsov, Vlad Shakhuro

Задача — сегментация объектов по текстовому описанию. Например, запрос «красивый кот» и его переформулировка «ну, очень красивый котик» должны давать одинаковый результат. Но на практике это не так.

Ранние методы тестировали устойчивость с помощью шума или бессмысленных символов. Мы же сосредоточились на грамматически корректных и естественных переформулировках.

Для этого использовали текстовый автоэнкодер SONAR, который сжимает инструкцию в вектор. Затем мы слегка изменяли этот вектор в скрытом пространстве, чтобы модель ошибалась, но запрос оставался близким по смыслу.

Эксперименты показали: современные модели уязвимы. Успешность атак достигает 68%, несмотря на сохранение смысла. Это подчёркивает необходимость повышения устойчивости к переформулировкам.

Интересные работы других авторов

С физической точки зрения изучить все 800 работ невозможно. Я сфокусировался на статьях на стыке CV и NLP. Вот несколько, которые запомнились:

  • Controlling Reading Ease with Gaze-Guided Text Generation — авторы использовали данные с eye-tracker’а, чтобы оценить сложность чтения, и обучили LLM генерировать более простые для восприятия тексты.
  • KidsArtBench: Multi-Dimensional Children's Art Evaluation with Attribute-Aware MLLMs — задача: объективно оценить детские рисунки. Собрали датасет, обучили VLM давать оценку по нескольким критериям.
  • TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models — проверка, насколько хорошо генеративные модели понимают временные рамки: стиль искусства, возраст зданий, исторические карты, сезоны, возраст животных.
  • Teams of LLM Agents can Exploit Zero-Day Vulnerabilities — команда LLM-агентов может находить и использовать zero-day уязвимости, о которых модель не знала заранее. Эффективность в разы выше, чем у предыдущих подходов.
  • Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory — новый механизм памяти на этапе инференса. Позволяет LLM сохранять и переиспользовать полезные фрагменты текста и кода между задачами.
  • Compressing Language Models for Specialized Domains — коллектив из AstraZeneca предложил эффективный способ сжатия языковых моделей для узких доменов, например, биомедицинских или юридических.
  • Ultra-Low-Dimensional Prompt Tuning via Random Projection — новый метод дообучения моделей. Превосходит LoRa по качеству при меньшем числе параметров.

Основные тренды

По представленным работам можно выделить ключевые направления:

  1. Агентность — интерес к системам, способным планировать, разбивать задачи, помнить контекст и взаимодействовать с миром.
  2. Надёжность, Safety и Alignment — внимание к доверию к моделям, оценке их устойчивости и неопределённости. Исследователи думают не только о метриках, но и о реальном поведении в мире.
  3. Малоресурсные языки — отдельные секции посвящены этим языкам. Сейчас изучают, как переносятся на них safety, reasoning, работа с длинным контекстом и другие свойства.
  4. Мультимодальность — акцент сместился с простых задач вроде image captioning на сложные сцены, документы, аудио и специализированные бенчмарки.
  5. Новые бенчмарки — стремление приблизить задачи к реальным сценариям, включая мультиязычность и малоресурсные языки.

Заключение

EACL 2026 получилась очень насыщенной. Удалось не только увидеть текущее состояние NLP, но и понять, в каком направлении движется область.

Для меня, CV-специалиста, ценно то, что конференция сохранила камерную атмосферу. Это не бесконечный поток докладов, а место для спокойных обсуждений, знакомства с новыми направлениями и погружения в NLP.

А Марокко — точно стоит посетить ещё раз. Только в следующий раз, пожалуй, не с постером, а с доской для серфинга.

Читать оригинал