Мультимодальные модели — грубый и дорогой инструмент

Мультимодальные модели — грубый и дорогой инструмент

Пока все стремятся к созданию универсальных ИИ-агентов и AGI, полезно спуститься на уровень ниже и рассмотреть конкретную инженерную проблему: восприятие интерфейсов.

Два способа «увидеть» сайт

Сегодня у моделей есть два основных способа воспринимать веб-интерфейсы:

  • Чтение кода — HTML, CSS, JavaScript, бэкенд-логика (в случае ИИ-разработки).
  • Анализ визуального представления — скриншоты, а в перспективе — видео или слайд-шоу с разными состояниями интерфейса.

Оба подхода неидеальны. Каждый из них вносит шум и не отражает реального состояния интерфейса после рендера.

Проблемы с кодом

Код даёт детальное описание, но не показывает, как интерфейс выглядит и ведёт себя в браузере. Например:

  • Кнопка может формально существовать, но быть за пределами экрана.
  • Элементы могут перекрывать друг друга.
  • Выпадающее меню может быть недоступно из-за z-index.
  • Верстка может быть сломана, но код — корректным.

Даже с увеличением контекста до миллиона токенов и применением сжатия, модель не получает полной картины.

Проблемы со скриншотами

Скриншоты отражают визуальное состояние, но требуют огромных вычислительных ресурсов. Чтобы понять интерфейс, нужно:

  • Несколько viewport (размеров окна).
  • Разные состояния: hover, focus, загрузка, модальные окна.
  • Динамические изменения и, возможно, видео.

Это превращает задачу в тяжёлый анализ пикселей — хотя браузер уже хранит всю эту информацию в структурированном виде.

Человек видит иначе

Пользователь не анализирует каждый пиксель или строку кода. Он мгновенно распознаёт:

  • Кнопки по форме и надписи (например, «войти»).
  • Поля ввода, меню, модальные окна.
  • Изменения при наведении или клике.

Это восприятие основано на структуре, а не на пикселях или тегах.

Нужен третий слой

Мультимодальные модели сегодня — слишком универсальный инструмент для задач, требующих специализированного восприятия.

Не нужно изобретать новый ИИ или отказываться от трансформеров. Но, возможно, моделям нужен постоянный модуль восприятия — не временный скрипт, а встроенный способ видеть интерфейс как структуру.

Такой модуль мог бы быть:

  • Единым «глазом» для UI.
  • Набором модулей на выбор с универсальным интерфейсом подключения.

Сайт для модели должен быть не просто кодом и не просто картинкой.

Нам нужен третий слой — лёгкое, точное представление интерфейса, пригодное для:

  • Понимания страницы.
  • Проверки вёрстки.
  • Взаимодействия с UI.

С таким слоем модели останутся универсальными, но станут гораздо эффективнее в задачах с интерфейсами.

Примечание: Это не обзор реализации и не попытка продать решение. Цель — чётко обозначить проблему.

Читать оригинал