В Veai регулярно тестируем и сравниваем модели, доступные в нашем плагине. Каждая модель проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно мы протестировали GLM 5.1 и DeepSeek V3.2. Делимся результатами.
Как устроен бенчмарк?
Veai Agent Benchmark — наш внутренний инструмент, который мы собрали специально под задачи агента: работа с реальными репозиториями, навигация по кодовой базе, правки файлов, запуск тестов и сборки. Каждый сценарий оценивается двумя способами: числовые метрики и ревью LLM-судей по нескольким осям.
Судьи оценивают надёжность верификации, UX в длинных сценариях, качество работы с инструментами и следование требованиям задачи. Финальная метрика EndResult — итог по всем четырём.
Что изменилось?
По надёжности верификации GLM 5.1 набрал 0.53 против 0.41 у DeepSeek V3.2. У предыдущей версии был характерный паттерн: правки по догадке, рапорт «всё ок» при падающей сборке, отсутствие подтверждения тестами. У GLM 5.1 такие сбои стали единичными, а не системными.
UX в длинных сценариях вырос с 0.48 до 0.69. GLM 5.1 генерирует меньше служебного шума, стабильнее держит порядок шагов и финальные статусы.
Работа с инструментами: 0.55 → 0.73. GLM 5.1 выигрывает в навигации по репозиторию в 26 из 32 задач, в чистоте правок — в 21 из 26, в проверке результата через тесты — в 18 из 27.
InstructionCompliance: 0.52 → 0.64. EndResult: 0.55 → 0.67.
Скорость выросла за счёт обновления инференс-сервера: суммарное время на том же наборе задач сократилось с 12 534 до 7 280 секунд, скорость генерации — с 40 до 58 токенов/с.
Результаты
GLM 5.1 и DeepSeek V3.2 доступны в Veai. Можете сравнить их на своих рабочих задачах.