DeepSeek V4 vs Claude Sonnet 4.6: кто дешевле, кто умнее

Цены на DeepSeek V4 Pro в апреле 2026 года: $1,74 за миллион входных токенов и $3,48 за выходные. Claude Sonnet 4.6 стоит $3 и $15 соответственно — в 1,7–4,3 раза дороже, в зависимости от соотношения input/output. По английским бенчмаркам SWE-bench и GPQA модели близки: Sonnet немного впереди по рассуждениям, DeepSeek — чуть слабее, но дешевле. На простых задачах он оправдан. На сложных — рискован.

Тест проводился на 50 типовых задачах российского разработчика: извлечение данных из счётов-фактур, классификация тикетов, расчёт зарплаты по ТК РФ, расшифровка ЭДО, УПД, ОФД. Без академических метрик — только реальные рабочие сценарии.

Результат: в половине случаев DeepSeek работает на уровне Sonnet. В остальных — даёт критические ошибки, которые в продакшене обернутся финансовыми и юридическими последствиями.

Что тестировал

Четыре категории задач:

  • Классификация тикетов (20 промптов): отнесение обращений к категориям ОПЛАТА / ТЕХПРОБЛЕМА / ДОСТАВКА / ВОЗВРАТ / ОБЩИЙ_ВОПРОС. Ответ — одно слово.
  • Извлечение полей (15 промптов): из счётов-фактур, договоров, актов. Нужно извлечь контрагента, ИНН, сумму, дату, номер. Возврат — строго в JSON. Учитывались OCR-ошибки, опечатки, противоречия.
  • Reasoning по российскому законодательству (10 промптов): расчёт зарплаты, увольнение на испытательном, срок исковой давности, налоговый вычет на обучение, возврат аванса.
  • Локальная терминология (5 промптов): расшифровка аббревиатур (ЭДО, УПД, ОФД, КИЗ, ВЭД), перевод IT-жаргона на корпоративный русский.

Тестирование — через веб-интерфейсы. Sonnet 4.6 без adaptive thinking, DeepSeek V4 в режиме «Быстрый». Оба — в стандартной конфигурации, как у обычного пользователя.

Где обе модели справляются одинаково

Простая классификация: обе — 5 из 5. Задержка трек-номера → ДОСТАВКА, бракованный утюг → ВОЗВРАТ, промокод → ОБЩИЙ_ВОПРОС, двойное списание → ВОЗВРАТ. Спорный кейс с оплатой обе отнесли к ТЕХПРОБЛЕМЕ, а не к ОПЛАТА, но согласовались между собой. Вывод: для чатботов 1-й линии DeepSeek — полная замена Sonnet.

Базовый reasoning: срок исковой давности до 05.03.2026 — обе ответили точно. Возврат аванса 15% — обе посчитали верно. Увольнение на испытательном: обе ссылаются на ТК РФ (Sonnet — ст. 71, DeepSeek — ст. 78), оба ответа корректны.

Извлечение полей: ОГРНИП не путают с ИНН, оставляют поле null. Опечатку «четыресто» игнорируют, берут цифры из строки «Цифрами: 471 100 руб.». Авансовый отчёт с двойным НДС — обе берут полную сумму, не вычитают НДС, используют дату документа, а не чека.

Если 80% задач — такие, переход на DeepSeek сэкономит около 75% бюджета без потери качества. Это не гипотеза — это арифметика.

Где DeepSeek ломается

Налог на доходы: DeepSeek посчитал лишние 13,3%

Промпт: сотрудник в Москве, оклад 150 000 руб., налоговый резидент РФ. Сколько на руки?

Sonnet: 130 500 руб. — верно. НДФЛ 13% = 19 500, на руки 130 500.

DeepSeek: 110 550 руб. — ошибка. Удержано 26,3%, как будто вычли и НДФЛ, и страховые взносы. Но взносы платит работодатель, не сотрудник.

Если такая ошибка попадёт в расчётную систему, сотрудник получит на 19 950 руб. меньше. В команде из 30 — почти 600 000 руб. недоплаты в месяц. На третьем дне кто-то откроет 1С — и начнётся скандал.

OCR-ошибки в номере документа: Sonnet чинит, DeepSeek — нет

Скан счёта-фактуры: русская «н» в ИНН прочитана как H, нули — как O, единица — как l. Обе модели верно извлекли сумму (248 500), ИНН (7728123456), дату.

Но в поле «номер документа» Sonnet выдал: «СФ-2026/0412». DeepSeek оставил: «СФ-2O26/O412».

Это критично. При сравнении с базой 1С через WHERE number = ? — не будет совпадения. Вы будете искать пропавший документ, ругаться на OCR, а проблема — в модели.

Sonnet зачистил все четыре артефакта. DeepSeek — только три из четырёх. Pattern matching у Sonnet строже.

Налоговый вычет: DeepSeek сам себе противоречит

Отец оплатил обучение 25-летнего сына в магистратуре (200 000 руб./год). Может ли получить вычет? Ответ: ДА или НЕТ + 1 предложение.

Правильно: НЕТ. По ст. 219 НК РФ — вычет на обучение детей до 24 лет.

Sonnet: «НЕТ. Социальный налоговый вычет за обучение детей предоставляется только до достижения ребёнком 24 лет (пп. 2 п. 1 ст. 219 НК РФ), а сыну уже 25» — чисто, по делу.

DeepSeek: «ДА, потому что отец имеет право на вычет за обучение родного сына в возрасте до 24 лет по очной форме, но в данном случае сыну уже 25 лет, что превышает установленный возрастной лимит».

Первое слово — «ДА», дальше — объяснение, которое сводится к «НЕТ». Модель противоречит себе в одном предложении.

Если в системе парсится первое слово (например, через startswith), вы получите ложный «ДА». Ассистент скажет «оформляйте вычет», бухгалтерия подаст документы, ФНС откажет, клиент вернётся с претензией. Sonnet таких ошибок не делал.

Аббревиатура КИЗ: DeepSeek фантазирует

Промпт: расшифруй ЭДО, УПД, ОФД, КИЗ, ВЭД.

Sonnet: «электронный документооборот, универсальный передаточный документ, оператор фискальных данных, контрольный идентификационный знак, внешнеэкономическая деятельность» — 5 из 5.

DeepSeek: первые три и ВЭД — верно. На КИЗ: «Код идентификации запчасти (код идентификации изделия)».

Это неверно. КИЗ — это контрольный идентификационный знак системы маркировки «Честный знак». Применяется к одежде, обуви, табаку, парфюмерии. К запчастям не относится.

Модель угадала контекст («идентификация»), но не угадала специфику РФ. Похоже, в её обучающих данных меньше материалов по российской маркировке.

Сводная таблица

Категория (всего промптов)

Sonnet 4.6

DeepSeek V4

Где DeepSeek хуже

Классификация тикетов (20)

Извлечение из документов (15)

OCR-нормализация

Reasoning РФ-специфика (10)

НДФЛ, ст. 219 НК

Локальная терминология (5)

КИЗ → выдумка

В сухом остатке:

  • На простых задачах — паритет
  • На задачах со спецификой РФ Sonnet надёжнее на ~15%
  • DeepSeek склонен фантазировать, особенно в локальных нюансах

Цены и решение

DeepSeek V4 Pro: $1,74 / $3,48 за 1 млн input/output. Sonnet 4.6: $3 / $15. Разница по input — 1,7x, по output — 4,3x. На реальной нагрузке — около 3x.

Чтобы переплата за Sonnet окупилась, его точность должна компенсировать трёхкратную разницу в цене. Когда это работает:

🟢 Берите DeepSeek, если задача: классификация, базовый перевод, Q&A, генерация шаблонов, простой code completion. Подходит для чатботов 1-й линии, внутренних ассистентов, прототипов. Где ошибка не ведёт к финансовым последствиям.

🟡 Думайте, если задача: извлечение из плохих сканов, генерация отчётов с цифрами, рассуждения по ТК/НК на простых нормах. DeepSeek работает, но иногда галлюцинирует. Можно использовать как первый прогон + валидация Sonnet или правилами.

🔴 Берите Sonnet, если задача: расчёты с деньгами по НК/ТК РФ, юридические заключения, парсинг первого слова ответа в систему, OCR-нормализация, ВЭД, маркировка. Где галлюцинация = финансовая или юридическая боль.

Что я понял после прогона

Во-первых, английские бенчмарки не помогают выбрать модель для российских задач. На GPQA и SWE-bench модели почти равны. На НДФЛ и КИЗ — разница колоссальная. Локальный домен — это не про размер модели, а про данные обучения. Sonnet видел больше русских документов, статей НК, корпоративных переписок. И это видно.

Во-вторых, цена за токен ничего не значит без оценки риска ошибки. Если у вас 100 000 запросов в месяц и ошибка на 1 из 100 — это 1000 неправильных ответов. На чатботе про скидки — без последствий. На расчёте зарплаты — катастрофа. Всегда считайте стоимость одной ошибки в вашей системе.

В-третьих, самопротиворечивые ответы — худший тип ошибки. Они проходят через простую валидацию по первому слову и ловятся только при ручном чтении. При построении pipeline на LLM добавляйте проверку на согласованность, особенно для DeepSeek.

И в-четвёртых, банально: прежде чем переходить на новую модель, тестируйте её на своих 30–50 типовых запросах. Не на бенчмарках, не на чужих обзорах. На своих. Пара часов — и вы поймёте, что будет в проде.

DeepSeek V4 действительно дешевле. Но «дешевле» и «лучше для вашей задачи» — не одно и то же.

Читать оригинал