GLM 5.1 vs. DeepSeek V3.2: сравнение топовых китайских моделей

Habr AI 24 апр 2026

В Veai регулярно тестируем и сравниваем модели, доступные в нашем плагине. Каждая модель проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно мы протестировали GLM 5.1 и DeepSeek V3.2. Делимся результатами.

Как устроен бенчмарк?

Veai Agent Benchmark — наш внутренний инструмент, который мы собрали специально под задачи агента: работа с реальными репозиториями, навигация по кодовой базе, правки файлов, запуск тестов и сборки. Каждый сценарий оценивается двумя способами: числовые метрики и ревью LLM-судей по нескольким осям.

Судьи оценивают надёжность верификации, UX в длинных сценариях, качество работы с инструментами и следование требованиям задачи. Финальная метрика EndResult — итог по всем четырём.

Что изменилось?

По надёжности верификации GLM 5.1 набрал 0.53 против 0.41 у DeepSeek V3.2. У предыдущей версии был характерный паттерн: правки по догадке, рапорт «всё ок» при падающей сборке, отсутствие подтверждения тестами. У GLM 5.1 такие сбои стали единичными, а не системными.

UX в длинных сценариях вырос с 0.48 до 0.69. GLM 5.1 генерирует меньше служебного шума, стабильнее держит порядок шагов и финальные статусы.

Работа с инструментами: 0.55 → 0.73. GLM 5.1 выигрывает в навигации по репозиторию в 26 из 32 задач, в чистоте правок — в 21 из 26, в проверке результата через тесты — в 18 из 27.

InstructionCompliance: 0.52 → 0.64. EndResult: 0.55 → 0.67.

Скорость выросла за счёт обновления инференс-сервера: суммарное время на том же наборе задач сократилось с 12 534 до 7 280 секунд, скорость генерации — с 40 до 58 токенов/с.

Результаты

GLM 5.1 и DeepSeek V3.2 доступны в Veai. Можете сравнить их на своих рабочих задачах.

Читать оригинал

GLM 5.1 vs. DeepSeek V3.2: сравнение топовых китайских моделей

Как устроен бенчмарк?

Что изменилось?

Результаты

GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

Как устроен бенчмарк?

Что изменилось?

Попробуйте сами и сравните