Мультимодальные модели — грубый и дорогой инструмент

Habr AI 15 апр 2026

Пока все стремятся к созданию универсальных ИИ-агентов и AGI, полезно спуститься на уровень ниже и рассмотреть конкретную инженерную проблему: восприятие интерфейсов.

Два способа «увидеть» сайт

Сегодня у моделей есть два основных способа воспринимать веб-интерфейсы:

Чтение кода — HTML, CSS, JavaScript, бэкенд-логика (в случае ИИ-разработки).
Анализ визуального представления — скриншоты, а в перспективе — видео или слайд-шоу с разными состояниями интерфейса.

Оба подхода неидеальны. Каждый из них вносит шум и не отражает реального состояния интерфейса после рендера.

Проблемы с кодом

Код даёт детальное описание, но не показывает, как интерфейс выглядит и ведёт себя в браузере. Например:

Кнопка может формально существовать, но быть за пределами экрана.
Элементы могут перекрывать друг друга.
Выпадающее меню может быть недоступно из-за z-index.
Верстка может быть сломана, но код — корректным.

Даже с увеличением контекста до миллиона токенов и применением сжатия, модель не получает полной картины.

Проблемы со скриншотами

Скриншоты отражают визуальное состояние, но требуют огромных вычислительных ресурсов. Чтобы понять интерфейс, нужно:

Несколько viewport (размеров окна).
Разные состояния: hover, focus, загрузка, модальные окна.
Динамические изменения и, возможно, видео.

Это превращает задачу в тяжёлый анализ пикселей — хотя браузер уже хранит всю эту информацию в структурированном виде.

Человек видит иначе

Пользователь не анализирует каждый пиксель или строку кода. Он мгновенно распознаёт:

Кнопки по форме и надписи (например, «войти»).
Поля ввода, меню, модальные окна.
Изменения при наведении или клике.

Это восприятие основано на структуре, а не на пикселях или тегах.

Нужен третий слой

Мультимодальные модели сегодня — слишком универсальный инструмент для задач, требующих специализированного восприятия.

Не нужно изобретать новый ИИ или отказываться от трансформеров. Но, возможно, моделям нужен постоянный модуль восприятия — не временный скрипт, а встроенный способ видеть интерфейс как структуру.

Такой модуль мог бы быть:

Единым «глазом» для UI.
Набором модулей на выбор с универсальным интерфейсом подключения.

Сайт для модели должен быть не просто кодом и не просто картинкой.

Нам нужен третий слой — лёгкое, точное представление интерфейса, пригодное для:

Понимания страницы.
Проверки вёрстки.
Взаимодействия с UI.

С таким слоем модели останутся универсальными, но станут гораздо эффективнее в задачах с интерфейсами.

Примечание: Это не обзор реализации и не попытка продать решение. Цель — чётко обозначить проблему.

Читать оригинал