Пока все стремятся к созданию универсальных ИИ-агентов и AGI, полезно спуститься на уровень ниже и рассмотреть конкретную инженерную проблему: восприятие интерфейсов.
Два способа «увидеть» сайт
Сегодня у моделей есть два основных способа воспринимать веб-интерфейсы:
- Чтение кода — HTML, CSS, JavaScript, бэкенд-логика (в случае ИИ-разработки).
- Анализ визуального представления — скриншоты, а в перспективе — видео или слайд-шоу с разными состояниями интерфейса.
Оба подхода неидеальны. Каждый из них вносит шум и не отражает реального состояния интерфейса после рендера.
Проблемы с кодом
Код даёт детальное описание, но не показывает, как интерфейс выглядит и ведёт себя в браузере. Например:
- Кнопка может формально существовать, но быть за пределами экрана.
- Элементы могут перекрывать друг друга.
- Выпадающее меню может быть недоступно из-за z-index.
- Верстка может быть сломана, но код — корректным.
Даже с увеличением контекста до миллиона токенов и применением сжатия, модель не получает полной картины.
Проблемы со скриншотами
Скриншоты отражают визуальное состояние, но требуют огромных вычислительных ресурсов. Чтобы понять интерфейс, нужно:
- Несколько viewport (размеров окна).
- Разные состояния: hover, focus, загрузка, модальные окна.
- Динамические изменения и, возможно, видео.
Это превращает задачу в тяжёлый анализ пикселей — хотя браузер уже хранит всю эту информацию в структурированном виде.
Человек видит иначе
Пользователь не анализирует каждый пиксель или строку кода. Он мгновенно распознаёт:
- Кнопки по форме и надписи (например, «войти»).
- Поля ввода, меню, модальные окна.
- Изменения при наведении или клике.
Это восприятие основано на структуре, а не на пикселях или тегах.
Нужен третий слой
Мультимодальные модели сегодня — слишком универсальный инструмент для задач, требующих специализированного восприятия.
Не нужно изобретать новый ИИ или отказываться от трансформеров. Но, возможно, моделям нужен постоянный модуль восприятия — не временный скрипт, а встроенный способ видеть интерфейс как структуру.
Такой модуль мог бы быть:
- Единым «глазом» для UI.
- Набором модулей на выбор с универсальным интерфейсом подключения.
Сайт для модели должен быть не просто кодом и не просто картинкой.
Нам нужен третий слой — лёгкое, точное представление интерфейса, пригодное для:
- Понимания страницы.
- Проверки вёрстки.
- Взаимодействия с UI.
С таким слоем модели останутся универсальными, но станут гораздо эффективнее в задачах с интерфейсами.
Примечание: Это не обзор реализации и не попытка продать решение. Цель — чётко обозначить проблему.