Китайская лаборатория DeepSeek (ДипСик) представила две предварительные версии своей новой большой языковой модели — DeepSeek V4. Это долгожданное обновление модели V3.2 и одноимённого рассуждающего движка R1, которые ранее произвели фурор в мире искусственного интеллекта (AI).
Модели с огромным контекстом и эффективной архитектурой
DeepSeek V4 Flash и V4 Pro — это модели типа mixture-of-experts (MoE), каждая с окном контекста в 1 миллион токенов. Это позволяет загружать в промпт целые кодовые базы или объёмные документы.
Подход MoE предполагает, что в каждом конкретном задании задействуется только часть параметров, что снижает стоимость генерации ответов.
Рекордный размер и производительность
Модель V4 Pro насчитывает 1,6 триллиона параметров, из которых 49 миллиардов активны в каждом запросе. Это делает её крупнейшей моделью с открытыми весами на рынке — она превосходит Kimi K 2.6 от Moonshot AI (1,1 триллиона), M1 от MiniMax (456 миллиардов) и более чем вдвое превышает DeepSeek V3.2 (671 миллиард).
Меньшая версия, V4 Flash, имеет 284 миллиарда параметров (13 миллиардов активных).
По заявлению компании, обе модели эффективнее и мощнее предыдущей версии благодаря улучшениям в архитектуре. Они практически сократили разрыв с ведущими закрытыми и открытыми моделями на тестах, связанных с логическими рассуждениями.
DeepSeek утверждает, что её V4-Pro-Max превосходит аналоги с открытым кодом по этим тестам, а также опережает GPT-5.2 от OpenAI и Gemini 3.0 Pro от Google на ряде задач. В бенчмарках по программированию обе модели V4 показывают результаты, сопоставимые с GPT-5.4.
Ограниченные возможности и отставание в знаниях
Однако в тестах на общие знания новые модели немного уступают лидерам — GPT-5.4 от OpenAI и Gemini 3.1 Pro от Google. Лаборатория отмечает, что это говорит о технологическом отставании примерно на 3–6 месяцев от передовых решений.
Также важно, что обе модели V4 работают только с текстом, в отличие от многих закрытых аналогов, которые понимают и генерируют аудио, видео и изображения.
Низкая цена — ключевое преимущество
DeepSeek V4 значительно дешевле любых передовых моделей. V4 Flash стоит 0,14 доллара за миллион входных токенов и 0,28 — за выходные. Это выгоднее, чем GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini и Claude Haiku 4.5.
Более мощная V4 Pro — 0,145 доллара за вход и 3,48 — за выход на миллион токенов. Это также дешевле, чем Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 и GPT-5.4.
Запуск состоялся спустя день после того, как США обвинили Китай в массовом краже интеллектуальной собственности американских ИИ-лабораторий с помощью тысяч подставных аккаунтов. Саму DeepSeek ранее Anthropic и OpenAI обвиняли в «дистилляции» — фактически, копировании — своих моделей.