Прогнал апрельские LLM через баттл-тест. Победил не самый новый и не самый дорогой

Прогнал апрельские LLM через баттл-тест. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля 2026 года — три дня назад. Огромная модель, топ в AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза много шума — мощный пиар. Я запустил её в свой battle test на OpenRouter, ожидая Tier S — 95+ баллов на длинном русском контенте.

Получил 89. Tier A, нижний край. Подумал, что модель прогрелась криво — перезапустил через сутки. Ровно 89. Не статистический выброс, а воспроизводимый результат.

Запустил Flash-вариант — 83. По качеству Pro действительно сильнее, на 6 пунктов. Но Flash стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.

Финал: перетестировал Qwen 3.6 Plus, вышедший 2 апреля — за 22 дня до V4 Pro. На платной версии (ранее тестил :free, не доверял) получил 92. Этот Qwen обошёл новейший флагман DeepSeek — и по качеству, и по цене.

Дальше — почему «новее и больше» перестало быть критерием выбора, и какая модель пошла в production.

Зачем мы это тестируем (если коротко)

Два дисклеймера, чтобы было понятно, что меряю и что нет.

Первое. Цель — не найти лучшую модель в мире. Цель — выбрать оптимальную по цене и качеству для production-API в клиентских проектах. Мы делаем образовательные курсы под крупного клиента. Каждый цент за вызов превращается в тысячи долларов в месяц. Выбор модели — это экономика, а не «у кого больше параметров».

Второе. Я не тестирую Opus 4.7 и GPT-5.5, вышедшие почти одновременно с DeepSeek V4. Не потому что они плохие — наоборот, они в топе по качеству. Но их цены не подходят для production с десятками тысяч вызовов в месяц. Когда задача — массовая генерация, а не разовая консультация, «просто заплатить» не работает.

В тесте — только модели, реально годные для клиентского production: Tier A по качеству и разумные по API-стоимости.

Что обновилось с прошлого теста

В прошлой статье я тестировал 18 моделей. Лидеры: GPT-5.4 (97), Claude Opus 4.6 (96), Qwen 3.6 Plus :free (94). Было три недели назад.

С тех пор вышли: DeepSeek V4 (Pro и Flash), Kimi K2.6, Mimo V2.5 и V2.5 Pro, Gemini 3 Flash Preview. Апрель 2026 — самый плотный месяц релизов за всё время теста. Пришлось трижды перезапускать прогон: только дотестируешь — выходит новая модель. Стенд приходится держать в постоянной готовности, иначе результаты устаревают до публикации.

Заодно доработал методику — предыдущий запуск её сломал.

Подняли max_tokens с 16384 до 32768

Kimi K2.6 в первом тесте получал обрезание в трёх темах из пяти: писала больше 16k токенов, сервер резал. Баллы падали. Сначала думал — проблема модели. Оказалось — мой конфиг.

Убрали штраф за truncation, если виноват наш конфиг

Раньше: −10 баллов за обрезание, без разбора. Теперь: если output_tokens упёрся в max_tokens — это наш баг. Надо повышать лимит, а не штрафовать модель.

Платный re-test для подозрительно высоких :free-моделей

Qwen 3.6 Plus :free получил 94. Подозрительно ровно — у бесплатных эндпоинтов бывает evaluator generosity, плюс другая разбивка квантования. Перегнал на платной версии — 92. Те же 2 балла, к которым я и был готов.

Тестовый стенд: пять одинаковых тем, один промпт-генератор уроков, одинаковые параметры (temperature=0.4, max_tokens=32768). Оценка через Claude Sonnet как судью, по 10 критериям. Score per dollar считается отдельно: качество / цена за вызов.

Парадокс DeepSeek V4: Pro проиграл Flash

Сравнил Pro и Flash — стало ясно, где у флагмана проблема.

Среднее слов на тему: Pro (+73, незначительно)

Среднее токенов на вызов: данные не приведены

Время генерации одной темы: Flash в 2.3 раза быстрее

Цена за вызов: Flash в 13 раз дешевле

Качество (Claude Score): Pro (+6 баллов)

Value Score (70% качество / 30% цена): Flash (+19.5)

Если читать тексты — Pro действительно лучше. Глубже разборы, аккуратнее таблицы, больше уникальных инсайтов. Но если перевести в деньги — картина меняется.

10 000 уроков в месяц: Flash — $19, Pro — $256. Разница — $237 за +6 баллов. Для премиум-контента в малом тираже — нормально. Для массового production — нет.

100 000 уроков в месяц: Flash — $190, Pro — $2560. Это $2370 в месяц или $28 440 в год за прирост с 83 до 89 баллов.

Рассыпается привычка — выбирать «флагман по умолчанию». Pro сильнее, но дельта качества не компенсирует дельту цены.

Почему Pro не вытянул Tier S

Это спекулятивная часть — мои наблюдения, не выводы. Прочитал по 5 тем у каждой модели.

Первое — Pro явно тренировали под цепочки рассуждений. На SWE-bench и AIME он в топ-3. Но длинный narrative требует другого: вариации ритма, удержания темы на 3000 слов, возврата к мысли. Pro делает это компетентно, но сухо. Текст как методичка, а не разбор от практика.

Второе — корпус. Qwen, китайская модель, пишет по-русски естественнее DeepSeek, тоже китайского. У Pro иногда чувствуется «переводной» регистр — особенно в бизнес-понятиях вроде EVP, retention, churn. Не ошибка, но цепляет.

Третье — стилистический потолок. Pro даёт хороший «учебниковый» текст. Структура в порядке, факты точные. Но топовые модели (Qwen, Kimi, GPT-5.4) дают куски, которые хочется цитировать. У Pro этого нет — никаких «EVP не продаёт вакансию, он фильтрует». Чисто, но без характера.

Это не претензия к модели — Pro нормальный Tier A. Это претензия к ожиданиям: я ждал, что reasoning-флагман перенесёт силу с кода и математики на длинный narrative. Не переносит.

Reality check: Qwen на 22 дня раньше — и впереди по обоим критериям

Qwen 3.6 Plus — 2 апреля 2026. DeepSeek V4 Pro — 24 апреля. Оба апрельские релизы, разница 22 дня. Современники.

Qwen 3.6 Plus

DeepSeek V4 Pro

Дата релиза: 02 апр 2026 / 24 апр 2026

Качество (Claude Score): 92 / 89

Цена за вызов: Qwen дешевле на 30%

Value Score: Qwen выше

Качество выше, цена ниже — по обоим критериям одновременно.

Что у Qwen лучше при чтении вблизи. Конкретные кейсы с цифрами: «конверсия выросла с 18% до 41%» или «снижение текучести с 28% до 18% за 6 месяцев». Это может быть синтетика, но звучит как практика. Для production — полезный сигнал: модель умеет выдавать «правдоподобную фактуру».

Ещё — сжатые таблицы с маржинальными вилками: «5–15%, 10–25%, 25–60%+». Не строгие данные, но хороший ориентир.

И уникальные формулировки: «EVP не продаёт вакансию, он фильтрует кандидатов на выходе» или «цена должна быть 15% от годовой экономии клиента». Pro таких не выдаёт — у него всё корректно, но не запоминается.

Проигрыш не в категории — обе в Tier A. Проигрыш в ожиданиях и в production-математике.

Чемпион value: Flash

DeepSeek V4 Flash — самый дешёвый среди Tier A. Не на проценты, а на порядки.

Score per dollar:

  • Flash: 83 / $0.0019 = 43 684 балла на доллар
  • Pro: 89 / $0.0256 = 3 477 баллов на доллар
  • Kimi K2.6: 88 / $0.0478 = 1 841 балл на доллар

Flash в 12.6 раза эффективнее своей Pro-версии. Pro выигрывает в качестве на 7%, проигрывает в цене на 1248%.

Пример: 100 000 уроков в месяц.

Tier A (83): Flash — $190

Tier A (89): Pro — $2560

Tier A (88): Kimi — $4780

Разница Pro vs Flash — $28 440 в год за +6 баллов. Вопрос: эти 6 баллов влияют на конверсию учеников?

В моём случае — нет. Mass-production уроки должны быть качественными по дну (Tier A гарантирует), а не на пике. Premium-материалы я и так пишу руками или через Qwen / GPT-5.4. Для основной массы Flash — компромисс, который окупается в 13 раз быстрее любой альтернативы.

Скорость тоже важна: 90 секунд на урок против 210 у Pro. Pro в 2.3 раза медленнее. Это влияет на параллелизацию, очереди и latency-чувствительные сценарии.

Что я в итоге поменял в production

Если коротко — перешёл от «флагман по умолчанию» к «ценовая полка под задачу».

Production-генерация уроков, 10–100k вызовов в месяц — deepseek/deepseek-v4-flash. $19–190 в месяц, Tier A, 90 секунд на урок, max_tokens=32768.

Премиум-разборы, 1–10k вызовов в месяц — qwen/qwen3.6-plus (платный). $18–180 в месяц, 92 балла, естественный русский, реальные цифры в кейсах. Лидер качества в адекватной ценовой категории.

Уникальные инсайты для топовых клиентов, единичные вызовы — moonshotai/kimi-k2.6. $0.0478 за вызов, 88 баллов. Дороговато, но даёт формулы и фреймворки, которых нет у других. Когда нужен авторский кусок — иду к Kimi.

Не пошли в production:

  • deepseek-v4-pro — переплата без выгоды против Flash или Qwen. Может, вернёмся, если найдём задачу, где +6 баллов критичны.
  • gemini-3-flash-preview — 57 баллов и 37% от целевого объёма текста. Скорость есть, контента нет.
  • xiaomi/mimo-v2.5 (без Pro) — Tier B без преимуществ.

Mimo V2.5 Pro дал 84 балла за $0.0223 — середина рынка. Оставил в стенде, но не выкатил: Flash дешевле в 12 раз при качестве на 1 балл ниже.

Что я для себя поменял

Главный урок — личный, не универсальный. Ставка на флагмана по дате релиза и числу параметров перестала окупаться. Свежий релиз с миллиардами параметров проиграл и более старому конкуренту, и собственному младшему брату. Причём проиграл не по одной метрике, а по всей production-экономике.

Это не значит, что DeepSeek V4 Pro плохая. Она — нормальный Tier A. Это значит, что выбирать её «потому что новее и больше» — устаревшая привычка. Особенно когда вокруг релиза много шума: тем сильнее искушение поставить и не проверять.

Единственная универсальная рекомендация: не доверяйте ни моим цифрам, ни цифрам разработчиков. Соберите 5–10 своих реальных задач, прогоните через 3–4 модели разных ценовых категорий, посмотрите ваш score per dollar. Чужой стенд под чужие задачи — в лучшем случае ориентир, в худшем — ловушка.

Читать оригинал