Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

В руководстве по миграции для Claude Opus 4.7 указано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. На практике замеры показали коэффициент 1.47x на технической документации и 1.45x на реальном файле CLAUDE.md.

Сколько это стоит?

Цены и квоты остались прежними, но из-за увеличения количества токенов:

  • Максимальный лимит по токенам расходуется быстрее.
  • Кешированный префикс становится дороже с каждой итерацией.
  • Рейтлимиты достигаются раньше.

Anthropic, вероятно, получили какие-то преимущества. Какие — и оправдана ли цена?

Для анализа проведено два эксперимента: один оценил рост стоимости, второй — проверил улучшения в качестве.

Методология замеров

Использовался эндпоинт POST /v1/messages/count_tokens — бесплатный счётчик токенов без запуска инференса. Один и тот же контент прогонялся через обе модели. Разница — только в токенайзере.

Два набора данных:

  • Реальный контент: семь типичных для Claude Code файлов — CLAUDE.md, пользовательские промпты, блог-посты, git log, вывод терминала, stack trace, code diff.
  • Синтетические образцы: 12 типов данных — английская проза, код, JSON, CJK (китайский, японский, корейский), эмодзи, математические символы — чтобы оценить влияние типа контента.

Результаты: реальный контент

Семь образцов из практики использования Claude Code:

Взвешенный коэффициент увеличения токенов: 1.325x (с 8 254 до 10 937 токенов).

Результаты: синтетические данные

Средние коэффициенты по типам контента:

  • Английский и код: 1.345x.
  • CJK: 1.01x (практически без изменений).

Что изменилось в токенайзере

Анализ показал три паттерна:

  • CJK, эмодзи и символы — рост на 1.005–1.07x. Это говорит о том, что не-латинская часть словаря почти не менялась.
  • Английский и код — рост на 1.20–1.47x. Вероятно, BPE-алгоритм теперь использует более короткие sub-word merges для частых паттернов.
  • Код пострадал сильнее (1.29–1.39x), чем проза (1.20x), из-за большого количества повторяющихся строк — ключевых слов, импортов, идентификаторов.

Среднее количество символов на токен упало:

  • Английский: с 4.33 до 3.60.
  • TypeScript: с 3.66 до 2.69.

Текст теперь разбивается на более мелкие фрагменты. Это гипотеза — точные изменения в проприетарном словаре Anthropic неизвестны.

Зачем выпускать более «расточительный» токенайзер?

Согласно миграционному гайду, Opus 4.7 лучше следует инструкциям, особенно на низких уровнях effort. Модель перестаёт молча обобщать инструкции с одного элемента на другой.

Более мелкие токены заставляют механизм attention работать на уровне отдельных слов. Это помогает при:

  • Точном следовании инструкциям.
  • Задачах на уровне символов.
  • Корректных вызовах инструментов.

Партнёры Anthropic (Notion, Warp, Factory) сообщают о снижении ошибок в инструментах на длинных сессиях. Однако токенайзер — не единственный фактор: изменились и веса, и пост-обучение.

Проверка: действительно ли 4.7 лучше следует инструкциям?

Для теста использовался бенчмарк IFEval (Zhou et al., Google, 2023) — 541 промпт с верифицируемыми ограничениями: «ровно N слов», «включить X дважды», «без запятых», «всё заглавными». Оценка — бинарная (pass/fail) через официальный грейдер.

Выборка: 20 промптов с фиксированным seed.

Результаты:

  • Strict, prompt-level: 17/20 (85%) у 4.6 → 18/20 (90%) у 4.7.
  • Strict, instruction-level: 25/29 (86%) → 26/29 (90%).
  • Loose-оценки: без изменений (90% у обеих).

Небольшое, но согласованное улучшение в strict-режиме. Разница объясняется тем, что 4.7 лучше справляется с точным форматированием.

Единственное чёткое улучшение: инструкция change_case:english_capital (0/1 → 1/1). Один промпт с цепочкой из четырёх ограничений разделил модели — 4.6 провалила одно, 4.7 прошла все.

Ограничения теста:

  • Маленькая выборка (N=20), что не позволяет точно оценить эффект.
  • Разница +5pp совместима с диапазоном от нуля до +10pp.
  • Это суммарный эффект — невозможно выделить вклад только токенайзера.
  • Одна генерация на промпт — не усреднена по запускам.

Вывод: Opus 4.7 следует строгим инструкциям на несколько процентных пунктов лучше. Но это не «драматическое улучшение» — по крайней мере, на этом бенчмарке.

Математика: стоимость одной сессии в Claude Code

Рассмотрим длинную сессию — 80 итераций (отладка, рефакторинг).

Контекст каждой итерации:

  • Статический префикс: 2K (CLAUDE.md) + 4K (инструменты) = 6K токенов.
  • История разговора: растёт на ~2K за итерацию, к 80-й — ~160K.
  • Пользовательский ввод: ~500 токенов.
  • Вывод: ~1500 токенов.
  • Cache hit rate: ~95% (5-минутный TTL).

Средний кешированный префикс за сессию — ~86K токенов (а не 6K), так как большая часть cache-read приходится на поздние итерации с разросшейся историей.

Стоимость сессии в Opus 4.6

  • Ход 1, cache-write: 8K × $6.25/MTok
  • Ходы 2–80, cache reads: 79 × 86K × $0.50/MTok
  • Свежий ввод: 79 × 500 × $5/MTok
  • Вывод: 80 × 1500 × $25/MTok

Cache reads доминируют во вводе, но вывод — главная статья расходов.

Стоимость сессии в Opus 4.7

Токены масштабируются по коэффициентам:

  • CLAUDE.md: 1.445x → 2K → 2.9K
  • Определения инструментов: 1.12x → 4K → 4.5K
  • История разговора: 1.325x → 160K → 212K, среднее ~106K
  • Пользовательский ввод: 1.325x → 500 → ~660

Средний кешированный префикс: ~115K токенов (против 86K).

Вывод: ~1500–1950 токенов (возможно, больше из-за режима xhigh в Claude Code).

  • Ход 1, cache-write: 10K × $6.25/MTok
  • Ходы 2–80, cache reads: 79 × 115K × $0.50/MTok
  • Свежий ввод: 79 × 660 × $5/MTok
  • Вывод: 80 × 1500–1950 × $25/MTok

Итоговая стоимость: ~$7.86–$8.76 против ~$6.65 в 4.6 — рост на 20–30%.

Цена за токен не изменилась. Стоимость сессии — выросла, потому что та же задача требует больше токенов.

Для пользователей Max-плана: рейтлимиты достигаются раньше — сессия, укладывавшаяся в 5-часовое окно на 4.6, может не уложиться на 4.7.

Влияние на prompt cache

Prompt caching — ключевая архитектура Claude Code. Изменение токенайзера влияет на кеширование:

  1. Холодный старт дороже: кеш сбрасывается при смене модели. Префикс в 4.7 на 1.3–1.45x больше, чем в 4.6.
  2. Объём кеша растёт: больше токенов — выше стоимость cache-write и cache-read.
  3. История логов меняется: перезапуск сессии на 4.7 покажет другие цифры. Это может вызвать скачки в биллинге или мониторинге, завязанном на токены.

Контраргументы

«Ввод в основном из cache reads. Рост стоимости за токен минимальный.»

Верно: в сессии в пределах 5-минутного TTL 96% ввода — cache reads по $0.50/MTok (скидка 90%). Рост в 1.325x на кеше даёт меньший долларовый эффект, чем на свежем вводе.

Но Max-планы учитывают все токены, а не стоимость. А краевые случаи (первая сессия, cache-bust, изменение модели) попадают в некешированную зону — там платится полная цена за увеличенный префикс.

«Anthropic указали диапазон 1.0–1.35x, а не жёсткий лимит.»

Да, 1.325x попадает в верхнюю часть диапазона. Но отдельные файлы (например, CLAUDE.md — 1.445x, техдокументация — 1.473x) его превышают.

Вывод: верхняя граница документированного диапазона — это норма для большинства контента в Claude Code, а не исключение. Планируйте с расчётом на 1.35x и выше.

Итог

Токены на английском и в коде стали дороже в 1.3–1.45x. В обмен — улучшение на +5pp в строгом следовании инструкциям.

Стоит ли оно того? Зависит от задач. Вы платите на 20–30% больше за сессию ради небольшого, но реального улучшения точности следования промпту.

Читать оригинал