Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именноDeepSeek V4. Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мнехорошим показателем в повседневных задачахи, что немаловажно, полнойбесплатностью.
Кто-то уже успел протестировать новую модель, кто-то пришёл к выводу, что она лучше того же ChatGPT 5.5. Ну, по крайней мере по цене точно. Про остальное говорить не буду, всё же у каждого свои вкусы и предпочтения. Да и не заглядывал я в слишком сложные задачи, чтобы по достоинству оценить, кто серьёзнее.
Сегодня у насобзор DeepSeek V4. Пробежимся по самой модели, посмотрим на бенчмарки и, конечно же, протестируем в моих повседневных задачах, с которыми сталкивалась предыдущая версия. Чего-то сложного и высокотехнологичного тут вы не увидите, достаточно рядовые задания и моё мнение о самой модели по их итогам. Устраивайтесь поудобнее, ну а я начинаю своё повествование.
Китайская компания DeepSeek вызвала много обсуждений ещё в начале 2025 года, когда мир увидел DeepSeek V3, которая по бенчмаркам была на уровне ChatGPT 4o. Собственно, новая вариация также в тестах показывает хорошие показатели, но к ним мы вернёмся чуточку позже.
24 апреля свет увидел две новые версии модели DeepSeek: V4-Pro и V4-Flash для быстрых ответов. Первая вариация имеет в себе 1,6 трлн параметров, из которых одновременно активируются 49 млрд. Flash версия носит в себе 284 млр параметров, из которых 13 млрд активных. Обе модели поддерживают контекст в 1 млн токенов и работают по архитектуре Mixture-of-Experts. Это первый крупный релиз передового класса, оптимизированный под ИИ-процессоры Huawei Ascend, а не под оборудование Nvidia.
Обе модели поддерживают три режима рассуждения: Non-think для быстрых задач, Think High и Think Max для сложного планирования. По заявлению разработчиков, Flash в режиме Think Max по ряду задач приближается к Pro. Однако мультимодальность, увы, пока отсутствует - поддержка изображений и видео анонсирована на вторую половину 2026 года.
Стоит отметить, что компания не изменяет себе, и остаётся верной политике открытого исходного кода, так что развернуть модель можно на собственном оборудовании. Если кому-то нужно,ссылочка на Hugging Face.
Перейдем к чему-то более интересному - бенчмаркам. По математическим и физическим задачам V4-Pro почти на уровне флагманов предыдущего поколения Opus 4.6 и GPT-5.4, но уступает новейшим Opus 4.7 и GPT-5.5. Из всех сравненных конкурентов по объёму «общих знаний о мире» ИИ уступает только Gemini-3.1-Pro, хотя столкновений с новой GPT-5.5 пока не было.
В DeepSeek честно признают, что V4 немного уступает закрытым моделям - разрыв оценивается примерно в три-шесть месяцев разработки. При этом по агентному программированию и бенчмаркам на рассуждение V4 превосходит все остальные открытые модели на рынке.
Разработчики также подчёркивают успехи в задачах с длинным контекстом: на отдельных академических тестах V4-Pro-Max превосходит Gemini 3.1 Pro.
V4 сохранил важную особенность - он хорошо пишет на русском языке. По крайней мере, так отмечают пользователи. Стиль понятный, повествование ровное, без коротких абзацев, лишних списков и таблиц. Новая GPT-5.5 тоже приблизилась к такому уровню, а вот Opus 4.7 - наоборот, стал заметно хуже в русском (опять же по словам пользователей).
Отдельно, пожалуй, стоит отметить API, которые уже доступны для разработчиков. По ценам тут:
- Flash - $0.14/$0.28 за миллион токенов;
- Pro - $1.74/$3.48 за миллион токенов.
При учёте близкой производительности Pro версии к Opus 4.7/GPT-5.5/Gemini 3.1 Pro, модель дешевле их в 3-9 раз.
Новая версия DeepSeek спокойно интегрируется с Claude Code, OpenClaw, OpenCode и другими open-source решениями, что позволяет собрать достаточно дешёвого и даже умного агента.
Тестирование
Бенчмарки - хорошо, но собственные тесты помогают понять, подходит ли модель конкретно для тебя самого. Как я и говорил ранее, каких-то супер сложных задач тут не будет, хотя думается мне, что и в них DeepSeek сможет что-то да показать.
Своим же тестом я постараюсь охватить работу с текстом, математику и программирование. По поводу оценивания, тут всё до банальности просто. Ранее, я делал какие-то оценки за каждое задание, сейчас же - чисто моё мнение по каждому результату генерации.
Первое задание - генерация текста
Простейшее задание, которое в какой-то мере покажет возможности DeepSeek в генерации текста и работе с русским языком. Масштабная область применения: от генерации просто рассказа до постов, сочинений и всего такого, что в этом духе.
В предыдущей версии был косяк, который иногда генерировал китайские иероглифы вместо букв, но надеюсь, что четвертая версия такого не допустит.
Как бы сказать, этот текст - квинтэссенция абсурда. Однако при этом в абсурде, кроме максимально тупого юмора, есть местами и доля хорошей комедии.
Сам рассказ, читается легко, хотя иногда и есть ощущение некоторой потерянности из-за юмора данного произведения. Единственное, что меня немного смутило - количество глав. В промпте было прямо сказано о трёх. В принципе, DeepSeek так и сделал, но подрисовал еще эпилог, который по хорошему должен идти как четвёртая глава (модель сама отделила эту часть от предыдущей).
Второе задание - сжатие текста
Вместе с генерацией текста, идёт и его сжатие. Многие не особо парятся и прогоняют текст через нейронку, а уже потом, если их заинтересовала выжимка, начинают читать материал полностью. Ну или просто останавливаются на самой выжимке.
Текст, который я загрузил в модельку, содержал в себе информацию о различных природных явлениях. Собственно, с задачей сжать информацию DeepSeek справился хорошо, не потеряв ничего ключевого, лишь убрав всю ненужную воду.
Третье задание - математика
Предыдущая версия модели достаточно хорошо справлялась с задачами из линейной алгебры, мат. анализа и диффуров. Пять задач из разных тем высшей математики. Требования просты - верно решить задачу и дать пояснение по ходу самого решения.
DeepSeek всё также хорошо справляется с задачами по математике. Объяснения имеются, да и решение тоже. Безусловно можно было взять задачи более высокого уровня сложности, но я решил остановиться на этих, как минимум из основного перечня.
Четвертое задание - программирование
Обычно, я прошу моделей сгенерировать инженерный калькулятор с вложенной игрой. Собственно DeepSeek эта участь не обойдет стороной.
Результат на самом деле средний. Немного кривой калькулятор, но справедливости ради, рабочий. Когда ранее тестировал его на других моделях, постоянно какие-то функции уходили в разнос и выдавали ошибку. Со змейкой почти так же. Простенько, из минусов нет автоматического захвата окна. То есть, перед тем как начать играть, вам надо успеть кликнуть по окошку со змейкой и только потом заработают элементы управления.
Пятое задание - своеобразный интерактивчик
Не так давно, мне потребовалось собрать интерактивчик в формате квеста. Тогда я обратился к Claude Opus 4.6 и он сгенерировал мне файл формата html. Получилось достаточно интересно, поэтому хочется понять, способен на такое новый DeepSeek или нет. Понятное дело, файл он мне не создаст, но код для него дать сможет вполне.
Получился достаточно хороший интерактивчик. Да, задания немного подкачали, но и DeepSeek не особо генерировал их. Он взял их с презентации, которая валялась у меня на рабочем столе.
Опять же, кому интересно, код:
Конечно, много вам мои тесты не дадут. Все они нацелены на какие-то простые задачи. Однако, у меня появилось понимание, что как раз для них, DeepSeek всё ещё остается моим фаворитом. Есть и какое-то качество генерации, да и ещё всё это в бесплатном формате и без напрягов по запуску локальной модели на своём железе. Быть может и вам, мой тест поможет сформировать мнение о модели.
Спасибо за прочтение!