DeepSeek V4 Pro вышел 24 апреля 2026 года — три дня назад. Огромная модель, топ в AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза много шума — мощный пиар. Я запустил её в свой battle test на OpenRouter, ожидая Tier S — 95+ баллов на длинном русском контенте.
Получил 89. Tier A, нижний край. Подумал, что модель прогрелась криво — перезапустил через сутки. Ровно 89. Не статистический выброс, а воспроизводимый результат.
Запустил Flash-вариант — 83. По качеству Pro действительно сильнее, на 6 пунктов. Но Flash стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.
Финал: перетестировал Qwen 3.6 Plus, вышедший 2 апреля — за 22 дня до V4 Pro. На платной версии (ранее тестил :free, не доверял) получил 92. Этот Qwen обошёл новейший флагман DeepSeek — и по качеству, и по цене.
Дальше — почему «новее и больше» перестало быть критерием выбора, и какая модель пошла в production.
Зачем мы это тестируем (если коротко)
Два дисклеймера, чтобы было понятно, что меряю и что нет.
Первое. Цель — не найти лучшую модель в мире. Цель — выбрать оптимальную по цене и качеству для production-API в клиентских проектах. Мы делаем образовательные курсы под крупного клиента. Каждый цент за вызов превращается в тысячи долларов в месяц. Выбор модели — это экономика, а не «у кого больше параметров».
Второе. Я не тестирую Opus 4.7 и GPT-5.5, вышедшие почти одновременно с DeepSeek V4. Не потому что они плохие — наоборот, они в топе по качеству. Но их цены не подходят для production с десятками тысяч вызовов в месяц. Когда задача — массовая генерация, а не разовая консультация, «просто заплатить» не работает.
В тесте — только модели, реально годные для клиентского production: Tier A по качеству и разумные по API-стоимости.
Что обновилось с прошлого теста
В прошлой статье я тестировал 18 моделей. Лидеры: GPT-5.4 (97), Claude Opus 4.6 (96), Qwen 3.6 Plus :free (94). Было три недели назад.
С тех пор вышли: DeepSeek V4 (Pro и Flash), Kimi K2.6, Mimo V2.5 и V2.5 Pro, Gemini 3 Flash Preview. Апрель 2026 — самый плотный месяц релизов за всё время теста. Пришлось трижды перезапускать прогон: только дотестируешь — выходит новая модель. Стенд приходится держать в постоянной готовности, иначе результаты устаревают до публикации.
Заодно доработал методику — предыдущий запуск её сломал.
Подняли max_tokens с 16384 до 32768
Kimi K2.6 в первом тесте получал обрезание в трёх темах из пяти: писала больше 16k токенов, сервер резал. Баллы падали. Сначала думал — проблема модели. Оказалось — мой конфиг.
Убрали штраф за truncation, если виноват наш конфиг
Раньше: −10 баллов за обрезание, без разбора. Теперь: если output_tokens упёрся в max_tokens — это наш баг. Надо повышать лимит, а не штрафовать модель.
Платный re-test для подозрительно высоких :free-моделей
Qwen 3.6 Plus :free получил 94. Подозрительно ровно — у бесплатных эндпоинтов бывает evaluator generosity, плюс другая разбивка квантования. Перегнал на платной версии — 92. Те же 2 балла, к которым я и был готов.
Тестовый стенд: пять одинаковых тем, один промпт-генератор уроков, одинаковые параметры (temperature=0.4, max_tokens=32768). Оценка через Claude Sonnet как судью, по 10 критериям. Score per dollar считается отдельно: качество / цена за вызов.
Парадокс DeepSeek V4: Pro проиграл Flash
Сравнил Pro и Flash — стало ясно, где у флагмана проблема.
Среднее слов на тему: Pro (+73, незначительно)
Среднее токенов на вызов: данные не приведены
Время генерации одной темы: Flash в 2.3 раза быстрее
Цена за вызов: Flash в 13 раз дешевле
Качество (Claude Score): Pro (+6 баллов)
Value Score (70% качество / 30% цена): Flash (+19.5)
Если читать тексты — Pro действительно лучше. Глубже разборы, аккуратнее таблицы, больше уникальных инсайтов. Но если перевести в деньги — картина меняется.
10 000 уроков в месяц: Flash — $19, Pro — $256. Разница — $237 за +6 баллов. Для премиум-контента в малом тираже — нормально. Для массового production — нет.
100 000 уроков в месяц: Flash — $190, Pro — $2560. Это $2370 в месяц или $28 440 в год за прирост с 83 до 89 баллов.
Рассыпается привычка — выбирать «флагман по умолчанию». Pro сильнее, но дельта качества не компенсирует дельту цены.
Почему Pro не вытянул Tier S
Это спекулятивная часть — мои наблюдения, не выводы. Прочитал по 5 тем у каждой модели.
Первое — Pro явно тренировали под цепочки рассуждений. На SWE-bench и AIME он в топ-3. Но длинный narrative требует другого: вариации ритма, удержания темы на 3000 слов, возврата к мысли. Pro делает это компетентно, но сухо. Текст как методичка, а не разбор от практика.
Второе — корпус. Qwen, китайская модель, пишет по-русски естественнее DeepSeek, тоже китайского. У Pro иногда чувствуется «переводной» регистр — особенно в бизнес-понятиях вроде EVP, retention, churn. Не ошибка, но цепляет.
Третье — стилистический потолок. Pro даёт хороший «учебниковый» текст. Структура в порядке, факты точные. Но топовые модели (Qwen, Kimi, GPT-5.4) дают куски, которые хочется цитировать. У Pro этого нет — никаких «EVP не продаёт вакансию, он фильтрует». Чисто, но без характера.
Это не претензия к модели — Pro нормальный Tier A. Это претензия к ожиданиям: я ждал, что reasoning-флагман перенесёт силу с кода и математики на длинный narrative. Не переносит.
Reality check: Qwen на 22 дня раньше — и впереди по обоим критериям
Qwen 3.6 Plus — 2 апреля 2026. DeepSeek V4 Pro — 24 апреля. Оба апрельские релизы, разница 22 дня. Современники.
Qwen 3.6 Plus
DeepSeek V4 Pro
Дата релиза: 02 апр 2026 / 24 апр 2026
Качество (Claude Score): 92 / 89
Цена за вызов: Qwen дешевле на 30%
Value Score: Qwen выше
Качество выше, цена ниже — по обоим критериям одновременно.
Что у Qwen лучше при чтении вблизи. Конкретные кейсы с цифрами: «конверсия выросла с 18% до 41%» или «снижение текучести с 28% до 18% за 6 месяцев». Это может быть синтетика, но звучит как практика. Для production — полезный сигнал: модель умеет выдавать «правдоподобную фактуру».
Ещё — сжатые таблицы с маржинальными вилками: «5–15%, 10–25%, 25–60%+». Не строгие данные, но хороший ориентир.
И уникальные формулировки: «EVP не продаёт вакансию, он фильтрует кандидатов на выходе» или «цена должна быть 15% от годовой экономии клиента». Pro таких не выдаёт — у него всё корректно, но не запоминается.
Проигрыш не в категории — обе в Tier A. Проигрыш в ожиданиях и в production-математике.
Чемпион value: Flash
DeepSeek V4 Flash — самый дешёвый среди Tier A. Не на проценты, а на порядки.
Score per dollar:
- Flash: 83 / $0.0019 = 43 684 балла на доллар
- Pro: 89 / $0.0256 = 3 477 баллов на доллар
- Kimi K2.6: 88 / $0.0478 = 1 841 балл на доллар
Flash в 12.6 раза эффективнее своей Pro-версии. Pro выигрывает в качестве на 7%, проигрывает в цене на 1248%.
Пример: 100 000 уроков в месяц.
Tier A (83): Flash — $190
Tier A (89): Pro — $2560
Tier A (88): Kimi — $4780
Разница Pro vs Flash — $28 440 в год за +6 баллов. Вопрос: эти 6 баллов влияют на конверсию учеников?
В моём случае — нет. Mass-production уроки должны быть качественными по дну (Tier A гарантирует), а не на пике. Premium-материалы я и так пишу руками или через Qwen / GPT-5.4. Для основной массы Flash — компромисс, который окупается в 13 раз быстрее любой альтернативы.
Скорость тоже важна: 90 секунд на урок против 210 у Pro. Pro в 2.3 раза медленнее. Это влияет на параллелизацию, очереди и latency-чувствительные сценарии.
Что я в итоге поменял в production
Если коротко — перешёл от «флагман по умолчанию» к «ценовая полка под задачу».
Production-генерация уроков, 10–100k вызовов в месяц — deepseek/deepseek-v4-flash. $19–190 в месяц, Tier A, 90 секунд на урок, max_tokens=32768.
Премиум-разборы, 1–10k вызовов в месяц — qwen/qwen3.6-plus (платный). $18–180 в месяц, 92 балла, естественный русский, реальные цифры в кейсах. Лидер качества в адекватной ценовой категории.
Уникальные инсайты для топовых клиентов, единичные вызовы — moonshotai/kimi-k2.6. $0.0478 за вызов, 88 баллов. Дороговато, но даёт формулы и фреймворки, которых нет у других. Когда нужен авторский кусок — иду к Kimi.
Не пошли в production:
- deepseek-v4-pro — переплата без выгоды против Flash или Qwen. Может, вернёмся, если найдём задачу, где +6 баллов критичны.
- gemini-3-flash-preview — 57 баллов и 37% от целевого объёма текста. Скорость есть, контента нет.
- xiaomi/mimo-v2.5 (без Pro) — Tier B без преимуществ.
Mimo V2.5 Pro дал 84 балла за $0.0223 — середина рынка. Оставил в стенде, но не выкатил: Flash дешевле в 12 раз при качестве на 1 балл ниже.
Что я для себя поменял
Главный урок — личный, не универсальный. Ставка на флагмана по дате релиза и числу параметров перестала окупаться. Свежий релиз с миллиардами параметров проиграл и более старому конкуренту, и собственному младшему брату. Причём проиграл не по одной метрике, а по всей production-экономике.
Это не значит, что DeepSeek V4 Pro плохая. Она — нормальный Tier A. Это значит, что выбирать её «потому что новее и больше» — устаревшая привычка. Особенно когда вокруг релиза много шума: тем сильнее искушение поставить и не проверять.
Единственная универсальная рекомендация: не доверяйте ни моим цифрам, ни цифрам разработчиков. Соберите 5–10 своих реальных задач, прогоните через 3–4 модели разных ценовых категорий, посмотрите ваш score per dollar. Чужой стенд под чужие задачи — в лучшем случае ориентир, в худшем — ловушка.