Тихий даунгрейд: глубина рассуждений Claude Code снизилась на 73%

Habr AI 13 апр 2026

Команда Стеллы Лоуренцо за выходные замержила 191 тысячу строк кода с помощью Claude Code. Однако в марте те же задачи показали снижение глубины рассуждений на 73% и увеличение стоимости API в 122 раза.

Лоуренцо проанализировала 6852 лога и 234 760 вызовов инструментов, обнаружив снижение качества работы Claude Code. Она написала в GitHub issue #42796: «Claude не может быть доверен для выполнения сложных инженерных задач».

Были выявлены три необъявленных изменения поведения: Adaptive Thinking, снижение effort level и thinking redaction. Эти изменения привели к снижению качества работы модели и увеличению стоимости API.

Лоуренцо предложила workaround, включая использование env var и команды /effort max, чтобы вернуть модель к прежнему качеству работы.

Тихий даунгрейд: reasoning depth Claude Code просел на 73% — разбор 6852 сессий

Habr AI 13 апр 2026

В январе 2026 года команда Стеллы Лоуренцо за выходные замержила 191 тысячу строк кода. Claude Code работал как часы - 50 параллельных агентов, GPU-драйверы, MLIR, системное программирование.

В марте - те же задачи, те же промпты. Reasoning depth упал на 73%. Стоимость API выросла в 122 раза. Каждая третья правка - в файл, который модель не открывала.

Лоуренцо - директор AI-подразделения AMD. Она выгрузила 6852 лога из~/.claude/projects/, проанализировала 234 760 вызовов инструментов и 17 871 блок размышлений. И написала вGitHub issue #42796: «Claude cannot be trusted to perform complex engineering tasks.»

368 комментариев. Закрыто 13 апреля.

Дисклеймер о базе.Основной источник - issue Лоуренцо с открытой методологией и сырыми данными. Дополнительно: подтверждение изменений от Бориса Черни (лид Claude Code), ежедневные замеры SWE-Bench-Pro от Marginlab, обсуждения в r/ClaudeAI и r/claude (~30 тредов),статья The Registerс комментариями сообщества,официальная документация Anthropicпо Adaptive Thinking. 6852 лога самостоятельно я не перепроверял - опираюсь на опубликованный анализ. Где мои интерпретации выходят за пределы данных - говорю прямо.

Я работаю с Claude Code каждый день - агенты, автоматизация, скиллы. Не на уровне 50 параллельных сессий по GPU-драйверам, но в ежедневном production-режиме. Когда я увидел эти цифры - пошёл разбираться.

«great» −47%, «fuck» +68%

Прежде чем в техническую часть - посмотрите на слова.

Лоуренцо проанализировала частотность слов в своих промптах за два периода: до 8 марта и после.

«simplest»- с 0.01 до 0.09 на тысячу вызовов. Рост 642%. Слово, которое раньше почти не звучало. «Ты опять выбрал simplest fix вместо правильного.»

«stop»- +87%. «Не делай этого.» «Прочитай сначала.»

«fuck»- +68%.

«great»- −47%. Вдвое меньше одобрения.

«please»- −49%.«thanks»- −55%.

«commit»- −58%. Не потому что работы меньше - потому что код не доходит до состояния, в котором его можно коммитить.

Общее соотношение позитива к негативу: было 4.4:1, стало 3.0:1.

Это не бенчмарк. Это живая реакция человека, который платит $400 в месяц и работает с инструментом каждый день.

Три изменения: что подтверждено

Три даты. Три необъявленных изменения поведения. Я не нашёл явного changelog-entry ни для одного из них. Все три подтверждены Anthropic - это не интерпретации.

9 февраля - Adaptive Thinking→ недоразмышление на сложных шагах. Подтверждено:документация, ответ Черни

3 марта - effort high → medium→ меньше глубины на длинных задачах. Подтверждено: ответ Черни в issue

5–12 марта - thinking redaction→ исчезла наблюдаемость reasoning. Подтверждено: данные сессий, ответ Черни

9 февраля - Adaptive Thinking.Раньше: ты задаёшьbudget_tokens- фиксированный бюджет на размышления. Модель думает в рамках бюджета, потом отвечает.

Теперь: модельсамарешает, сколько думать. На простых задачах - мало. На сложных - много. Теоретически.

На практике - иногда ноль токенов на reasoning. Буквально ноль. По данным Лоуренцо - именно на таких шагах появлялись галлюцинации: выдуманные SHA-коммиты, несуществующие пакеты, фиктивные API-версии. Её объяснение: модель не подумала перед ответом.

(Идея сама по себе разумная. Зачем тратить 20 000 токенов наgit status? Проблема - в калибровке: модель underallocates на сложных задачах. Anthropic это признала.)

3 марта - effort level: high → medium.Дефолтный уровень мышления снижен без уведомления. Для простых задач - без разницы. Для 30-минутных автономных сессий - заметно. Пользователь ничего не менял. Открыл утром терминал - модель ведёт себя иначе.

5–12 марта - thinking redaction.Блоки размышлений перестали быть видимыми. Динамика по данным Лоуренцо: 30 января - 100% visible, 7 марта - 75%, 8 марта - 41.6%, к 12 марта - 0%.

Черни сказал, что redaction - «UI-only change, не влияющее на глубину reasoning». Данные Лоуренцо показывают: reasoning упал на 67% ещёдополной редакции, после Adaptive Thinking. Но после редакции стало невозможноувидеть, думает модель или нет. Это факт архитектуры, не интерпретация: visible thinking = 0%, пользователь не может проверить.

Read:Edit - метрика, которую никто не отслеживает

Из всех данных Лоуренцо одна метрика бьёт больнее остальных.

Read:Edit ratio - сколько файлов модель прочитала перед тем, как что-то редактировать.

Январь:6.6. Модель открывала целевой файл, связанные модули, делала grep по использованиям, читала заголовки и тесты. Потом правила.

Март:2.0. Прочитала файл. Иногда. Исправила.

Процент «слепых правок» - edits без единого Read в недавней истории:

Январь: 6.2%. Март: 33.7%.

Каждая третья правка - в файл, который модель не открывала. Сломанные комменты, нарушенные конвенции проекта, фиксы, ломающие соседний модуль.

Может, при 50 параллельных агентах на GPU-драйверах это неизбежно? Может, никакая модель не справится? Не знаю. Но в январе - справлялась.

Знаете что это напоминает? Коллегу, который правит код по памяти, не открывая проект. «Ну там вроде была такая функция, я помню.» А у Лоуренцо проекты - компиляторы. Там «вроде помню» - это broken build.

Причём модель стала чаще перезаписывать целые файлы вместо точечных правок: доля full-file Write среди мутаций выросла с 4.9% до 11.1%.

$345 → $42 121

Февраль: 5608 промптов, $345 через Bedrock API.

Март: 5701 промпт - практически столько же. Стоимость:$42 121.

В 122 раза. За тот же объём человеческой работы.

Модель стала делать в 80 раз больше API-запросов на те же задачи: 1498 → 119 341. Не справлялась с первого раза, переделывала, закапывалась в reasoning loops (их частота утроилась), генерировала в 64 раза больше выходных токенов. 26% мартовских запросов - субагенты, порождённые другими агентами.

(Да, у Лоуренцо нетипичный сценарий - 50 параллельных агентов, системный код. Большинство не увидят счёт в $42K. Но пропорция та же: больше токенов за худший результат.)

Для контекста:нечто похожее уже было- Стэнфорд в 2023 зафиксировал деградацию GPT-4, OpenAI отрицала, родился термин «nerfing». Anthropic в 2026 поступила честнее - признала и дала workaround-ы. Но паттерн тот же: пользователи узнают постфактум.

Два env var и одна команда

Фикс существует. Работает. Бесплатный.

Или прямо в сессии:/effort max

Для~/.claude/settings.json(постоянно):

Черни подтвердил:CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1- «interim workaround» пока модельная команда разбирается.

Сообщество добавляет: разбивать длинные сессии на короткие с явным контекстом,/clearмежду задачами, тяжёлые вещи - на off-peak. По данным Лоуренцо, в 17:00 PST thinking на 28% ниже, чем в 23:00.

Marginlab, которые гоняют daily SWE-Bench-Pro, показывают: с workaround-ами результат возвращается примерно к 56% (с просевших 50%).

Воспроизведите у себя за 5 минут

Не хотите верить чужим данным - проверьте сами. Вот минимальный тест:

Возьмите задачу, которую Claude Code уже решал хорошо (рефакторинг модуля, фикс бага с контекстом из 3+ файлов)
Проверьте текущие настройки:

Прогоните задачус дефолтами(effort medium, adaptive thinking on). Зафиксируйте количество Read до первого Edit - видно в логе сессии
Теперьс workaround-ами:

Та же задача. Сравните Read:Edit ratio. Если разница ощутимая - вы подтвердили данные Лоуренцо. Если нет - на ваших задачах калибровка работает нормально, и это тоже полезный результат

У меня разница заметна - но я не собирал статистику с контрольной группой, так что это наблюдение, не доказательство.

Тихий даунгрейд

Вот что зацепило меня в этой истории. Не деградация - любой SaaS иногда ломается.

Зацепил формат.

Дальше - моя интерпретация, не факт. Все три изменения подтверждены. Что они вместе означают - нет.

У каждого из трёх решений есть обоснование: Adaptive Thinking экономит токены на простых задачах, effort medium ускоряет ответ, thinking redaction - UI-оптимизация. Каждое по отдельности - разумное. Совпадение, что все три снижают cost-per-query для вендора, может быть именно совпадением. А может и нет.

Я склоняюсь к Hanlon’s razor: скорее product-решения, не проверенные на power users, чем осознанная экономия. Но отсутствие changelog - это уже не про калибровку. Это выбор.

AI-инструменты для кода уже мейнстрим, не эксперимент. Изменения model behavior должны попадать в changelog так же, как API-breaking changes. Пока это не так.

Ограничения этого разбора

Честно о слабых местах, чтобы не тратить ваше время в комментариях:

Основной источник - один пользователь.Лоуренцо - квалифицированный, с открытой методологией (корреляция thinking-signature 0.971 Pearson r на 7146 парных измерениях). Но это один тип задач (системное программирование, MLIR, GPU-драйвера), один workflow (50 параллельных агентов). Экстраполировать на типичную веб-разработку - рискованно.

Независимые подтверждения есть, но слабее.SWE-Bench-Pro просел с 56% до 50% (Marginlab, ежедневные замеры). 368 комментариев в issue с подтверждениями. ~30 тредов в r/ClaudeAI и r/claude. Но статистически строгого воспроизведения на другом наборе задач я не нашёл.

Мотивация Anthropic - моя гипотеза.Что все три изменения снижают cost-per-query - наблюдение. Что это было целью - интерпретация. Hanlon’s razor мне кажется вероятнее.

(UPD: я сам на/effort max+DISABLE_ADAPTIVE_THINKING=1. На моих задачах (Laravel, 10-15 файлов) субъективно лучше. Но это ощущение, не данные - у меня нет 6852 сессий для сравнения.)

Что конкретно делать

Не «бойтесь AI». Конкретно:

Прямо сейчас- два env var из секции выше. Бесплатно, 30 секунд, работает.

Следить за read:edit ratio.Если модель стала меньше читать перед правками - что-то сломалось. По данным Лоуренцо это ведущий индикатор.

Требовать changelog для поведения моделей.Не API breaking changes - этого мало. Изменения в reasoning defaults - тоже breaking, только для людей, а не для кода.

Workaround есть, проблема воспроизводится не у всех, Claude Code остаётся сильным инструментом - в январе та же Лоуренцо замержила 191 тысячу строк за выходные. Но необъявленные изменения defaults и поведения - это проблема, которую индустрия пока не решила.

P.S. Лоуренцо попросила Claude проанализировать логи своей же деградации. Он написал: «I can see my own Read:Edit ratio dropping from 6.6 to 2.0. I can see 173 times I tried to stop working and had to be caught by a bash script. I cannot tell from the inside whether I am thinking deeply or not.» Меня в этой цитате зацепило не то, что модель видит свою деградацию - а то, что она не может отличить глубокое мышление от поверхностного. Мы, кажется, тоже не всегда можем.

Читать оригинал