Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Habr AI 18 апр 2026

В руководстве по миграции для Claude Opus 4.7 указано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. На практике замеры показали коэффициент 1.47x на технической документации и 1.45x на реальном файле CLAUDE.md.

Сколько это стоит?

Цены и квоты остались прежними, но из-за увеличения количества токенов:

Максимальный лимит по токенам расходуется быстрее.
Кешированный префикс становится дороже с каждой итерацией.
Рейтлимиты достигаются раньше.

Anthropic, вероятно, получили какие-то преимущества. Какие — и оправдана ли цена?

Для анализа проведено два эксперимента: один оценил рост стоимости, второй — проверил улучшения в качестве.

Методология замеров

Использовался эндпоинт POST /v1/messages/count_tokens — бесплатный счётчик токенов без запуска инференса. Один и тот же контент прогонялся через обе модели. Разница — только в токенайзере.

Два набора данных:

Реальный контент: семь типичных для Claude Code файлов — CLAUDE.md, пользовательские промпты, блог-посты, git log, вывод терминала, stack trace, code diff.
Синтетические образцы: 12 типов данных — английская проза, код, JSON, CJK (китайский, японский, корейский), эмодзи, математические символы — чтобы оценить влияние типа контента.

Результаты: реальный контент

Семь образцов из практики использования Claude Code:

Взвешенный коэффициент увеличения токенов: 1.325x (с 8 254 до 10 937 токенов).

Результаты: синтетические данные

Средние коэффициенты по типам контента:

Английский и код: 1.345x.
CJK: 1.01x (практически без изменений).

Что изменилось в токенайзере

Анализ показал три паттерна:

CJK, эмодзи и символы — рост на 1.005–1.07x. Это говорит о том, что не-латинская часть словаря почти не менялась.
Английский и код — рост на 1.20–1.47x. Вероятно, BPE-алгоритм теперь использует более короткие sub-word merges для частых паттернов.
Код пострадал сильнее (1.29–1.39x), чем проза (1.20x), из-за большого количества повторяющихся строк — ключевых слов, импортов, идентификаторов.

Среднее количество символов на токен упало:

Английский: с 4.33 до 3.60.
TypeScript: с 3.66 до 2.69.

Текст теперь разбивается на более мелкие фрагменты. Это гипотеза — точные изменения в проприетарном словаре Anthropic неизвестны.

Зачем выпускать более «расточительный» токенайзер?

Согласно миграционному гайду, Opus 4.7 лучше следует инструкциям, особенно на низких уровнях effort. Модель перестаёт молча обобщать инструкции с одного элемента на другой.

Более мелкие токены заставляют механизм attention работать на уровне отдельных слов. Это помогает при:

Точном следовании инструкциям.
Задачах на уровне символов.
Корректных вызовах инструментов.

Партнёры Anthropic (Notion, Warp, Factory) сообщают о снижении ошибок в инструментах на длинных сессиях. Однако токенайзер — не единственный фактор: изменились и веса, и пост-обучение.

Проверка: действительно ли 4.7 лучше следует инструкциям?

Для теста использовался бенчмарк IFEval (Zhou et al., Google, 2023) — 541 промпт с верифицируемыми ограничениями: «ровно N слов», «включить X дважды», «без запятых», «всё заглавными». Оценка — бинарная (pass/fail) через официальный грейдер.

Выборка: 20 промптов с фиксированным seed.

Результаты:

Strict, prompt-level: 17/20 (85%) у 4.6 → 18/20 (90%) у 4.7.
Strict, instruction-level: 25/29 (86%) → 26/29 (90%).
Loose-оценки: без изменений (90% у обеих).

Небольшое, но согласованное улучшение в strict-режиме. Разница объясняется тем, что 4.7 лучше справляется с точным форматированием.

Единственное чёткое улучшение: инструкция change_case:english_capital (0/1 → 1/1). Один промпт с цепочкой из четырёх ограничений разделил модели — 4.6 провалила одно, 4.7 прошла все.

Ограничения теста:

Маленькая выборка (N=20), что не позволяет точно оценить эффект.
Разница +5pp совместима с диапазоном от нуля до +10pp.
Это суммарный эффект — невозможно выделить вклад только токенайзера.
Одна генерация на промпт — не усреднена по запускам.

Вывод: Opus 4.7 следует строгим инструкциям на несколько процентных пунктов лучше. Но это не «драматическое улучшение» — по крайней мере, на этом бенчмарке.

Математика: стоимость одной сессии в Claude Code

Рассмотрим длинную сессию — 80 итераций (отладка, рефакторинг).

Контекст каждой итерации:

Статический префикс: 2K (CLAUDE.md) + 4K (инструменты) = 6K токенов.
История разговора: растёт на ~2K за итерацию, к 80-й — ~160K.
Пользовательский ввод: ~500 токенов.
Вывод: ~1500 токенов.
Cache hit rate: ~95% (5-минутный TTL).

Средний кешированный префикс за сессию — ~86K токенов (а не 6K), так как большая часть cache-read приходится на поздние итерации с разросшейся историей.

Стоимость сессии в Opus 4.6

Ход 1, cache-write: 8K × $6.25/MTok
Ходы 2–80, cache reads: 79 × 86K × $0.50/MTok
Свежий ввод: 79 × 500 × $5/MTok
Вывод: 80 × 1500 × $25/MTok

Cache reads доминируют во вводе, но вывод — главная статья расходов.

Стоимость сессии в Opus 4.7

Токены масштабируются по коэффициентам:

CLAUDE.md: 1.445x → 2K → 2.9K
Определения инструментов: 1.12x → 4K → 4.5K
История разговора: 1.325x → 160K → 212K, среднее ~106K
Пользовательский ввод: 1.325x → 500 → ~660

Средний кешированный префикс: ~115K токенов (против 86K).

Вывод: ~1500–1950 токенов (возможно, больше из-за режима xhigh в Claude Code).

Ход 1, cache-write: 10K × $6.25/MTok
Ходы 2–80, cache reads: 79 × 115K × $0.50/MTok
Свежий ввод: 79 × 660 × $5/MTok
Вывод: 80 × 1500–1950 × $25/MTok

Итоговая стоимость: ~$7.86–$8.76 против ~$6.65 в 4.6 — рост на 20–30%.

Цена за токен не изменилась. Стоимость сессии — выросла, потому что та же задача требует больше токенов.

Для пользователей Max-плана: рейтлимиты достигаются раньше — сессия, укладывавшаяся в 5-часовое окно на 4.6, может не уложиться на 4.7.

Влияние на prompt cache

Prompt caching — ключевая архитектура Claude Code. Изменение токенайзера влияет на кеширование:

Холодный старт дороже: кеш сбрасывается при смене модели. Префикс в 4.7 на 1.3–1.45x больше, чем в 4.6.
Объём кеша растёт: больше токенов — выше стоимость cache-write и cache-read.
История логов меняется: перезапуск сессии на 4.7 покажет другие цифры. Это может вызвать скачки в биллинге или мониторинге, завязанном на токены.

Контраргументы

«Ввод в основном из cache reads. Рост стоимости за токен минимальный.»

Верно: в сессии в пределах 5-минутного TTL 96% ввода — cache reads по $0.50/MTok (скидка 90%). Рост в 1.325x на кеше даёт меньший долларовый эффект, чем на свежем вводе.

Но Max-планы учитывают все токены, а не стоимость. А краевые случаи (первая сессия, cache-bust, изменение модели) попадают в некешированную зону — там платится полная цена за увеличенный префикс.

«Anthropic указали диапазон 1.0–1.35x, а не жёсткий лимит.»

Да, 1.325x попадает в верхнюю часть диапазона. Но отдельные файлы (например, CLAUDE.md — 1.445x, техдокументация — 1.473x) его превышают.

Вывод: верхняя граница документированного диапазона — это норма для большинства контента в Claude Code, а не исключение. Планируйте с расчётом на 1.35x и выше.

Итог

Токены на английском и в коде стали дороже в 1.3–1.45x. В обмен — улучшение на +5pp в строгом следовании инструкциям.

Стоит ли оно того? Зависит от задач. Вы платите на 20–30% больше за сессию ради небольшого, но реального улучшения точности следования промпту.

Читать оригинал

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Сколько это стоит?

Методология замеров

Результаты: реальный контент

Результаты: синтетические данные

Что изменилось в токенайзере

Зачем выпускать более «расточительный» токенайзер?

Проверка: действительно ли 4.7 лучше следует инструкциям?

Математика: стоимость одной сессии в Claude Code

Стоимость сессии в Opus 4.6

Стоимость сессии в Opus 4.7

Влияние на prompt cache

Контраргументы

Итог

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Сколько это стоит?

Реальный контент Claude Code

Базовые показатели по типам контента (12 синтетических образцов)

Что изменилось в токенайзере

Зачем выпускать токенайзер, который использует больше токенов

Действительно ли 4.7 лучше следует инструкциям

Математика для одной сессии Claude Code

Стоимость сессии 4.6

Стоимость сессии 4.7

Как это влияет на prompt cache

Контраргументы

Русскоязычное сообщество про AI в разработке