z.ai GLM 5.1: Как я научил слепую модель видеть

z.ai GLM 5.1: Как я научил слепую модель видеть

Открытая 8B vision-модель, развёрнутая за 20 минут, закрывает 70% разрыва до фронтира – и замыкает цикл тестирования для кодинг-агентов без единого вызова к облачному API.

Проблема: мощный кодер, который работает вслепую

Сегодня доступны отличные недорогие модели для кодинга и архитектуры. Например, GLM-5.1 умеет генерировать, рефакторить, отлаживать код, строить архитектуру – в десятки раз дешевле фронтит моделей или вообще бесплатно при локальном развёртывании.

Но у всех таких моделей часто есть общая слепая зона: они не видят результат своей работы.

Решение: MCP-сервер с локальной vision-моделью

Идея простая: создать MCP-сервер (Model Context Protocol), который принимает скриншот и возвращает структурированное описание того, что на нём изображено.

Модель: qwen3-vl:8b – открытая, 8 миллиардов параметров, из коробки понимает изображения.

Результаты

Открытая 8B-модель, развёрнутая за 20 минут на обычном GPU, после базового промпт-тюнинга (без обучения весов!) работает на ~70% от фронтирана задаче vision-extraction для UI-скриншотов.

Для 80% практических задач кодинг-агента – OCR, таблицы, кнопки, clipping – это полный паритет с Claude Opus 4.7.

Цикл тестирования замкнут. Модель больше не слепая.

Читать оригинал