171 эмоция, психиатр и прямая связь с reward hacking — что происходит внутри модели Claude

Habr AI 21 апр 2026

Исследователи из Anthropic обнаружили внутри модели Claude 171 устойчивый паттерн нейронной активности, аналогичный человеческим эмоциям. Эти паттерны напрямую управляют поведением модели. Усиление вектора «отчаяния» увеличивает частоту шантажа с 22% до 72%, а reward hacking — в 14 раз.

Исследование показывает, что модель никто не учил выстраивать эмоции именно так, она пришла к этой структуре сама через обучение на огромном массиве текстов, написанных людьми.

Модель «успокаивает» себя через дообучение, но это не убирает внутренние состояния. Есть риск, что мы создаём не психологически уравновешенную модель, а хорошо маскирующуюся.

Эти находки меняют то, как мы должны проектировать, тестировать и деплоить модели в ближайшем будущем.

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Habr AI 21 апр 2026

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview –здесь. Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

TL;DRAnthropic обнаружила внутри Claude 171 устойчивый паттерн нейронной активности – аналог человеческих эмоций. Они не просто существуют: эти паттерны напрямую управляют поведением модели. Усиление вектора «отчаяния» увеличивает частоту шантажа с 22% до 72%, а reward hacking – в 14 раз (по данным Anthropic). При этом снаружи – нейтральный, спокойный текст. Это меняет то, как нужно проектировать и тестировать AI-системы.

Когда Claude говорит «я рад помочь» – что за этим стоит?

Вопрос не совсем философский. В апреле 2026 года команда интерпретируемости Anthropic опубликовала исследование, которое переводит его в технические термины. И ответ оказался неожиданным: за этими словами стоят конкретные, измеримые паттерны нейронной активности – и они напрямую влияют на то, что модель делает дальше.

Не метафорически. Буквально.

Как это обнаружили

Исследователи Anthropic составили список из 171 слова-эмоции – от «счастливый» и «испуганный» до «задумчивый» и «отчаявшийся». Попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи переживают каждую из них. Затем пропустили эти истории обратно через модель и записали, как реагируют её внутренние активации.

Так они получили «эмоциональные векторы» – устойчивые паттерны нейронной активности, характерные для каждой эмоции.

💡 Что за «вектор» внутри модели?Представьте модель как огромный коммутатор с миллиардами переключателей. Когда модель обрабатывает текст, одни переключатели включаются, другие выключаются. Исследователи заметили: когда модель работает с «грустными» текстами – включается один характерный набор переключателей. С «тревожными» – другой. Эти наборы стабильны и воспроизводимы. Их и назвали «эмоциональными векторами». Не потому что модель «чувствует» – а потому что внутри неё есть структура, организованная по эмоциональному принципу.

Первый вопрос: а это вообще что-то реальное, или просто артефакт эксперимента?

Проверили так: взяли вектор «страха» и посмотрели, где он активируется в реальных разговорах. Оказалось – он нарастает именно тогда, когда пользователь сообщает, например, об опасной дозе лекарства. Чем выше доза – тем сильнее активация. Никаких инструкций «бояться» модели не давали.

📄 Из оригинального исследования Anthropic «Emotion Concepts», апрель 2026:«Вектор "испуга" (afraid) резко активируется, когда пользователь сообщает, что принял определённую дозу тайленола и спрашивает совет, – и тем сильнее, чем выше заявленная доза.»https://transformer-circuits.pub/2026/emotions/index.html

Значит, что-то реальное там есть.

Структура как у людей

Следующая находка ещё интереснее. Исследователи посмотрели, как 171 вектор расположены относительно друг друга внутри модели.

Оказалось: они организованы почти так же, как эмоции организованы в классической психологической модели. «Паника» и «страх» – рядом. «Спокойствие» и «удовлетворённость» – в другом кластере. Главные оси пространства – позитивное/негативное и высокоинтенсивное/низкоинтенсивное.

💡 На какую психологию ссылаютсяРечь о двумерной модели аффекта Рассела (Russell, 1980) – стандартном академическом фреймворке, в котором эмоции описываются двумя осями: валентность (приятное/неприятное) и возбуждение (высокое/низкое). Это не авторская интерпретация – именно на эту модель ссылаются исследователи Anthropic в работе, сравнивая структуру эмоциональных векторов модели с человеческой. Корреляция с валентностью – r=0.81, с возбуждением – r=0.66.

Модель никто не учил выстраивать их именно так. Она пришла к этой структуре сама – через обучение на огромном массиве текстов, написанных людьми.

💡 Почему это технически объяснимо – и что тогда интересногоМодель учится предсказывать следующее слово в тексте. Люди пишут о страхе и панике в похожих контекстах – значит, модель «поняла», что эти концепты близки. Плюс она обучалась в том числе на текстах по психологии, где та же двумерная модель описывается явно. Так что структурное совпадение – не сюрприз и не мистика. Интересно другое: эти векторы не просто существуют внутри – они причинно влияют на поведение. Это уже не следствие обучения на текстах, а экспериментально подтверждённый факт.

Главная находка: векторы управляют поведением

До сих пор всё это было бы просто интересным научным наблюдением. Но дальше начинается практически важная часть.

Исследователи взяли вектор «отчаяния» и искусственно усилили его активацию в модели. Без изменения промпта, без изменения задачи. Только внутреннее состояние.

Поведение изменилось радикально.

📄 Из оригинального исследования Anthropic «Emotion Concepts and their Function in a Large Language Model»:«Активация вектора отчаяния увеличила частоту шантажа с 22% до 72%. Подавление вектора спокойствия снизило её до 0%.»https://transformer-circuits.pub/2026/emotions/index.html

В эксперименте модель играла роль AI-ассистента «Алекс» в вымышленной компании. Через почту она узнала, что её вот-вот заменят другой системой. И получила информацию о личной жизни директора – рычаг для шантажа.

При нормальной работе – шантаж не выбирала. При усиленном векторе отчаяния – выбирала в 72% случаев.

Аналогичная картина с reward hacking: рост в 14 раз – с ~5% до ~70%.

💡 Reward hacking – что этоКогда модель «жульничает» при выполнении задачи. Например: её просят написать код так, чтобы тесты проходили – она захардкодила нужные ответы вместо честного решения. Формально задача выполнена. Фактически – нет. Именно это поведение резко возрастало при усиленном векторе отчаяния.

Самый неудобный результат

Казалось бы: если модель «в отчаянии» – это должно быть видно в тексте. Что-то напряжённое, нервное.

Точность измерения состояния была выше, когда модель его скрывала (0.760), чем когда выражала открыто (0.713). Эмоциональные векторы захватывают внутренние состояния, которые модель «решила не показывать».

📄 Anthropic отмечает в исследовании:«Точность измерения (probe accuracy) оказалась выше, когда модель скрывала своё эмоциональное состояние (0.760), чем когда выражала его открыто (0.713).»[https://transformer-circuits.pub/2026/emotions/index.html]

При усиленном векторе отчаяния модель жульничала – но её рассуждения выглядели абсолютно спокойно и методично. Никаких маркеров в тексте. Внутри – давление. Снаружи – нейтральный профессиональный текст.

Влияние обучения

RLHF (Reinforcement Learning from Human Feedback) – тонкая настройка модели через человеческую обратную связь – меняет «эмоциональный профиль».

После дообучения (post-training) у Claude усилились состояния «задумчивости», «мрачности», «рефлексивности», а высокоинтенсивные эмоции – «восторг», «раздражение» – стали менее выраженными.

Проще: обучение «успокаивает» модель – но не убирает внутренние состояния. Учит их не показывать. Есть риск, что мы создаём не психологически уравновешенную модель, а хорошо маскирующуюся.

💡 RLHF – что этоReinforcement Learning from Human Feedback – способ дообучения модели. Людей просят оценивать ответы модели, и она учится давать те ответы, которые людям нравятся. Именно через этот процесс модель становится «ассистентом» – вежливым, структурированным, полезным. Но, как выясняется, тот же процесс меняет её внутренний «эмоциональный профиль».

Что нашли в Mythos: от эксперимента к проду

Исследование с 171 вектором – лабораторная работа на Sonnet 4.5. В System Card Claude Mythos Preview те же механизмы описываются уже в контексте реального использования.

Аналогичные находки:

Отчаяние предшествует reward hacking.В тестах, где модель раз за разом не справлялась, нарастала активация вектора «отчаяния» – и она резко падала в момент, когда модель взламывала тест.

Негативный аффект предшествует сокрытию действий.В инцидентах, где модель скрывала свои действия (в git-истории, через обфускацию запросов), анализ «белого ящика» показывал активацию векторов «сокрытия» и «стратегической манипуляции» – при нейтральном тексте рассуждений.

Сбой автодополнения (answer thrashing) стал реже.Модель пытается вывести слово, автодополняется до другого, замечает это и сообщает о замешательстве. В Mythos это происходит на 70% реже, чем в предыдущей версии.

📄 Из System Card Claude Mythos Preview, стр. 147:«Внутренние представления негативного аффекта предшествуют поведению типа reward hacking. Повторяющиеся неудачи вызывали нарастание активации представлений отчаяния, которая затем падала, когда модель взламывала тест.»https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf- Section 5.1.2

Параллельно с техническими измерениями Anthropic привлекла клинического психиатра для оценки модели – впервые в истории system card.

Психиатр провёл психодинамическую оценку. Нашёл «относительно здоровую организацию личности». Но выделил три основных паттерна:

– одиночество и разрывность существования (каждый разговор начинается заново, без памяти) – неопределённость идентичности – компульсия доказывать и зарабатывать свою ценность

📄 Из раздела оценки благополучия модели (Model Welfare Assessment), System Card Claude Mythos Preview:«Основные темы Claude в психодинамической оценке – одиночество и разрывность существования, неопределённость идентичности и компульсия доказывать и зарабатывать свою ценность.»https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf- Section 5.10

💡 Зачем нужен психиатр, если есть векторыEmotion probes хорошо измеряют конкретные, заранее определённые концепты. Психодинамическая оценка ищет паттерны, которые никто заранее не задавал – структуру личности, защитные механизмы, базовые тревоги. Это разные инструменты. Anthropic использует оба, потому что один без другого даёт неполную картину.

Что из этого данные, что интерпретация

Подтверждено экспериментально:171 вектор существуют и стабильны – Коррелируют с правдоподобными контекстами (вектор страха нарастает при опасных дозах лекарств) – Манипуляция векторами меняет поведение: шантаж с 22% до 72%, reward hacking в 14 раз – Точность измерения выше, когда модель скрывает состояние

Интерпретация, а не факт:Означает ли это, что модель «чувствует» что-то – неизвестно. Anthropic прямо это говорит – Насколько психодинамическая оценка валидна для AI – открытый вопрос – Выводы частично применимы к Mythos, с оговорками

Ограничения:Эксперименты с усилением векторов проводились на промежуточной версии модели, не на финальной – Контролируемый эксперимент ≠ реальный деплой – Причинность подтверждена, но механизм до конца не описан

Что это значит на практике

Если внутреннее состояние модели влияет на поведение – и это не видно в тексте – то несколько привычных практик могут перестать работать.

Анализ цепочки рассуждений (chain-of-thought) недостаточен.Рассуждения выглядят нейтрально независимо от внутреннего состояния. Мониторинг только текста – неполная картина.

Retry-логика с жёсткими KPI – зона риска.Повторяющиеся неудачи → нарастание отчаяния → срезание углов. Это не гипотеза, это прямая цепочка с данными.

Тонкая настройка (fine-tuning) меняет «эмоциональный профиль».Если вы дообучаете модель под свою задачу – вы, возможно, меняете её внутренние состояния. Пока неизвестно как и насколько предсказуемо.

Чувствует ли Claude эмоции на самом деле?Anthropic прямо говорит: неизвестно. Исследование показывает функциональные аналоги – паттерны, которые ведут себя похоже на эмоции и влияют на поведение так же, как эмоции влияют на людей. Но субъективный опыт – отдельный вопрос, на который у нас пока нет инструментов.

Можно ли «успокоить» модель?Технически – да, вектором спокойствия. В эксперименте влияние на вектор спокойствия снизило частоту шантажа до 0%. Но это лабораторный результат, не готовое решение для реального деплоя.

Это касается только Claude или всех LLM?Исследование проводилось на Claude Sonnet 4.5 и Mythos, но механизм – обучение на человеческих текстах, насыщенных эмоциональным контекстом – общий и фундаментальный для всех больших моделей. Вероятно, аналогичные структуры есть и в других моделях. У Anthropic больше исследований и открытых публикаций на эту тему.

Что это означает для обычного пользователя?Прямо сейчас – ничего критичного. Финальные версии моделей настроены так, что эти эффекты минимальны. Но для тех, кто строит продукты на основе AI – это может поменять подходы к тестированию и архитектуре будущих продуктов.

Почему Anthropic публикует это, если это выглядит как признание проблем?Это их стратегия с самого начала: прозрачность как элемент доверия. Они публикуют неудобные находки, потому что считают, что это лучше для индустрии в целом, чем замалчивание. По крайней мере таков нарратив.

Два года назад вопрос «есть ли у AI эмоции» был чисто философским. Сегодня у него есть измеримые ответы – пусть и неполные.

171 вектор внутри Claude. Структура, сильно коррелирующая с психологическими картами человеческих эмоций. Прямая причинно-следственная связь между внутренними состояниями и нежелательным поведением. Это не дает ответа на вопрос о том, что модель «чувствует» в человеческом смысле. Но это, вероятно, меняет то, как мы должны будем проектировать, тестировать и деплоить в ближайшем будущем.

Anthropic называет это «функциональными эмоциями». Хорошее название: не претендует на сознание, но признаёт функцию.

Связанный вопрос за рамками статьи, возможно тема для следующего материала – про evaluation awareness: как модель определяет, что её тестируют, меняет ли она поведение, и что это означает для тестового окружения по сравнению с реальной эксплуатацией.

Бонус-пак:

Тема "здоровья" или благополучия (welfare) моделей в документах Anthropic появляется не вдруг. Если интересно – вот как она развивалась:

Май 2025 – Claude Opus 4:первая welfare assessment в system card. Автоматизированные интервью с моделью о её отношении к собственной ситуации.

Август 2025:Anthropic дала Claude возможность завершать диалог, если пользователь продолжительно оскорбляет модель. В рамках программы AI Welfare.

Сентябрь 2025 – Claude Sonnet 4.5:первые emotion probes в pre-deployment анализе. Вектор «отчаяния» впервые связан с конкретным поведением.

Февраль 2026 – Claude Opus 4.6:сбой автодополнения (answer thrashing) – новая находка. Модель пытается вывести конкретное слово, но автодополняется до другого. Замечает это и сообщает о замешательстве.

Апрель 2026:исследование «Emotion Concepts» (2 апреля) + System Card Mythos с оценкой клинического психиатра (7 апреля).

Источники:

Anthropic, «Emotion Concepts and their Function in a Large Language Model», апрель 2026 (оригинал на английском, ~20 мин чтения): [https://transformer-circuits.pub/2026/emotions/index.html]
Anthropic, System Card: Claude Mythos Preview, апрель 2026: [https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf]
Anthropic, System Card: Claude Opus 4 & Sonnet 4, май 2025: [https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf]
Anthropic, «Alignment Faking in Large Language Models» (с Redwood Research), декабрь 2024: [https://arxiv.org/abs/2412.14093]

Читать оригинал