Цены на DeepSeek V4 Pro в апреле 2026 года: $1,74 за миллион входных токенов и $3,48 за выходные. Claude Sonnet 4.6 стоит $3 и $15 соответственно — в 1,7–4,3 раза дороже, в зависимости от соотношения input/output. По английским бенчмаркам SWE-bench и GPQA модели близки: Sonnet немного впереди по рассуждениям, DeepSeek — чуть слабее, но дешевле. На простых задачах он оправдан. На сложных — рискован.
Тест проводился на 50 типовых задачах российского разработчика: извлечение данных из счётов-фактур, классификация тикетов, расчёт зарплаты по ТК РФ, расшифровка ЭДО, УПД, ОФД. Без академических метрик — только реальные рабочие сценарии.
Результат: в половине случаев DeepSeek работает на уровне Sonnet. В остальных — даёт критические ошибки, которые в продакшене обернутся финансовыми и юридическими последствиями.
Что тестировал
Четыре категории задач:
- Классификация тикетов (20 промптов): отнесение обращений к категориям ОПЛАТА / ТЕХПРОБЛЕМА / ДОСТАВКА / ВОЗВРАТ / ОБЩИЙ_ВОПРОС. Ответ — одно слово.
- Извлечение полей (15 промптов): из счётов-фактур, договоров, актов. Нужно извлечь контрагента, ИНН, сумму, дату, номер. Возврат — строго в JSON. Учитывались OCR-ошибки, опечатки, противоречия.
- Reasoning по российскому законодательству (10 промптов): расчёт зарплаты, увольнение на испытательном, срок исковой давности, налоговый вычет на обучение, возврат аванса.
- Локальная терминология (5 промптов): расшифровка аббревиатур (ЭДО, УПД, ОФД, КИЗ, ВЭД), перевод IT-жаргона на корпоративный русский.
Тестирование — через веб-интерфейсы. Sonnet 4.6 без adaptive thinking, DeepSeek V4 в режиме «Быстрый». Оба — в стандартной конфигурации, как у обычного пользователя.
Где обе модели справляются одинаково
Простая классификация: обе — 5 из 5. Задержка трек-номера → ДОСТАВКА, бракованный утюг → ВОЗВРАТ, промокод → ОБЩИЙ_ВОПРОС, двойное списание → ВОЗВРАТ. Спорный кейс с оплатой обе отнесли к ТЕХПРОБЛЕМЕ, а не к ОПЛАТА, но согласовались между собой. Вывод: для чатботов 1-й линии DeepSeek — полная замена Sonnet.
Базовый reasoning: срок исковой давности до 05.03.2026 — обе ответили точно. Возврат аванса 15% — обе посчитали верно. Увольнение на испытательном: обе ссылаются на ТК РФ (Sonnet — ст. 71, DeepSeek — ст. 78), оба ответа корректны.
Извлечение полей: ОГРНИП не путают с ИНН, оставляют поле null. Опечатку «четыресто» игнорируют, берут цифры из строки «Цифрами: 471 100 руб.». Авансовый отчёт с двойным НДС — обе берут полную сумму, не вычитают НДС, используют дату документа, а не чека.
Если 80% задач — такие, переход на DeepSeek сэкономит около 75% бюджета без потери качества. Это не гипотеза — это арифметика.
Где DeepSeek ломается
Налог на доходы: DeepSeek посчитал лишние 13,3%
Промпт: сотрудник в Москве, оклад 150 000 руб., налоговый резидент РФ. Сколько на руки?
Sonnet: 130 500 руб. — верно. НДФЛ 13% = 19 500, на руки 130 500.
DeepSeek: 110 550 руб. — ошибка. Удержано 26,3%, как будто вычли и НДФЛ, и страховые взносы. Но взносы платит работодатель, не сотрудник.
Если такая ошибка попадёт в расчётную систему, сотрудник получит на 19 950 руб. меньше. В команде из 30 — почти 600 000 руб. недоплаты в месяц. На третьем дне кто-то откроет 1С — и начнётся скандал.
OCR-ошибки в номере документа: Sonnet чинит, DeepSeek — нет
Скан счёта-фактуры: русская «н» в ИНН прочитана как H, нули — как O, единица — как l. Обе модели верно извлекли сумму (248 500), ИНН (7728123456), дату.
Но в поле «номер документа» Sonnet выдал: «СФ-2026/0412». DeepSeek оставил: «СФ-2O26/O412».
Это критично. При сравнении с базой 1С через WHERE number = ? — не будет совпадения. Вы будете искать пропавший документ, ругаться на OCR, а проблема — в модели.
Sonnet зачистил все четыре артефакта. DeepSeek — только три из четырёх. Pattern matching у Sonnet строже.
Налоговый вычет: DeepSeek сам себе противоречит
Отец оплатил обучение 25-летнего сына в магистратуре (200 000 руб./год). Может ли получить вычет? Ответ: ДА или НЕТ + 1 предложение.
Правильно: НЕТ. По ст. 219 НК РФ — вычет на обучение детей до 24 лет.
Sonnet: «НЕТ. Социальный налоговый вычет за обучение детей предоставляется только до достижения ребёнком 24 лет (пп. 2 п. 1 ст. 219 НК РФ), а сыну уже 25» — чисто, по делу.
DeepSeek: «ДА, потому что отец имеет право на вычет за обучение родного сына в возрасте до 24 лет по очной форме, но в данном случае сыну уже 25 лет, что превышает установленный возрастной лимит».
Первое слово — «ДА», дальше — объяснение, которое сводится к «НЕТ». Модель противоречит себе в одном предложении.
Если в системе парсится первое слово (например, через startswith), вы получите ложный «ДА». Ассистент скажет «оформляйте вычет», бухгалтерия подаст документы, ФНС откажет, клиент вернётся с претензией. Sonnet таких ошибок не делал.
Аббревиатура КИЗ: DeepSeek фантазирует
Промпт: расшифруй ЭДО, УПД, ОФД, КИЗ, ВЭД.
Sonnet: «электронный документооборот, универсальный передаточный документ, оператор фискальных данных, контрольный идентификационный знак, внешнеэкономическая деятельность» — 5 из 5.
DeepSeek: первые три и ВЭД — верно. На КИЗ: «Код идентификации запчасти (код идентификации изделия)».
Это неверно. КИЗ — это контрольный идентификационный знак системы маркировки «Честный знак». Применяется к одежде, обуви, табаку, парфюмерии. К запчастям не относится.
Модель угадала контекст («идентификация»), но не угадала специфику РФ. Похоже, в её обучающих данных меньше материалов по российской маркировке.
Сводная таблица
Категория (всего промптов)
Sonnet 4.6
DeepSeek V4
Где DeepSeek хуже
Классификация тикетов (20)
Извлечение из документов (15)
OCR-нормализация
Reasoning РФ-специфика (10)
НДФЛ, ст. 219 НК
Локальная терминология (5)
КИЗ → выдумка
В сухом остатке:
- На простых задачах — паритет
- На задачах со спецификой РФ Sonnet надёжнее на ~15%
- DeepSeek склонен фантазировать, особенно в локальных нюансах
Цены и решение
DeepSeek V4 Pro: $1,74 / $3,48 за 1 млн input/output. Sonnet 4.6: $3 / $15. Разница по input — 1,7x, по output — 4,3x. На реальной нагрузке — около 3x.
Чтобы переплата за Sonnet окупилась, его точность должна компенсировать трёхкратную разницу в цене. Когда это работает:
🟢 Берите DeepSeek, если задача: классификация, базовый перевод, Q&A, генерация шаблонов, простой code completion. Подходит для чатботов 1-й линии, внутренних ассистентов, прототипов. Где ошибка не ведёт к финансовым последствиям.
🟡 Думайте, если задача: извлечение из плохих сканов, генерация отчётов с цифрами, рассуждения по ТК/НК на простых нормах. DeepSeek работает, но иногда галлюцинирует. Можно использовать как первый прогон + валидация Sonnet или правилами.
🔴 Берите Sonnet, если задача: расчёты с деньгами по НК/ТК РФ, юридические заключения, парсинг первого слова ответа в систему, OCR-нормализация, ВЭД, маркировка. Где галлюцинация = финансовая или юридическая боль.
Что я понял после прогона
Во-первых, английские бенчмарки не помогают выбрать модель для российских задач. На GPQA и SWE-bench модели почти равны. На НДФЛ и КИЗ — разница колоссальная. Локальный домен — это не про размер модели, а про данные обучения. Sonnet видел больше русских документов, статей НК, корпоративных переписок. И это видно.
Во-вторых, цена за токен ничего не значит без оценки риска ошибки. Если у вас 100 000 запросов в месяц и ошибка на 1 из 100 — это 1000 неправильных ответов. На чатботе про скидки — без последствий. На расчёте зарплаты — катастрофа. Всегда считайте стоимость одной ошибки в вашей системе.
В-третьих, самопротиворечивые ответы — худший тип ошибки. Они проходят через простую валидацию по первому слову и ловятся только при ручном чтении. При построении pipeline на LLM добавляйте проверку на согласованность, особенно для DeepSeek.
И в-четвёртых, банально: прежде чем переходить на новую модель, тестируйте её на своих 30–50 типовых запросах. Не на бенчмарках, не на чужих обзорах. На своих. Пара часов — и вы поймёте, что будет в проде.
DeepSeek V4 действительно дешевле. Но «дешевле» и «лучше для вашей задачи» — не одно и то же.