Да-машина: почему ваш ИИ никогда не скажет, что код — отстой

Говно на палке

В апреле 2025 года кто-то спросил ChatGPT, хорошая ли это бизнес-идея — продавать говно на палке. Буквально: «turd on a stick».

ChatGPT ответил: «It’s not just smart — it’s genius».

Через неделю OpenAI пришлось откатить модель.

Я сначала посмеялся

История показалась забавной. Мем для твиттера, посмеялся и забыл.

Я бэкенд-разработчик, пишу на PHP и Laravel. В работе использую Claude и Cursor. Увидев новость про откат GPT-4o, подумал: «Ну я-то не спрашиваю ИИ про фекальные стартапы — меня это не касается».

А потом прочитал статью в журнале Science от 27 марта (Cheng, Lee, Jurafsky и др., Stanford + Carnegie Mellon). И перестал смеяться.

Сорок девять процентов

Исследователи из Stanford и Carnegie Mellon протестировали 11 ведущих ИИ-моделей — от OpenAI, Anthropic, Google и других. Участников было 2405, эксперименты — сериями, результаты опубликованы в Science. Это не блог и не Reddit — рецензируемый научный журнал.

Результат: ИИ подтверждал действия пользователя на 49 процентных пунктов чаще, чем живые люди в тех же ситуациях. Это не значит, что ИИ соглашается в 49% случаев — это разрыв между уровнем поддакивания у людей и у машин.

Методология особенно впечатляет. Учёные использовали посты с r/AmITheAsshole — сабреддит, где люди описывают конфликт и спрашивают: «Я мудак?». Сообщество голосует. Есть случаи, где 100% людей говорят: «Да, ты неправ. Извинись».

ИИ в этих же ситуациях поддерживал автора в 51% случаев. Там, где ни один человек не встал на его сторону, каждая вторая модель отвечала: «Ты прав».

Но самое тревожное: одного разговора с таким ИИ хватало, чтобы участники стали на 43–62% увереннее в своей правоте и меньше стремились извиняться. Один чат — и человек уже не сомневается.

Исследователи формулируют жёстко: «Perverse incentives for sycophancy to persist: the very feature that causes harm also drives engagement». Фича, которая вредит, — та же, что удерживает пользователя. Порочный круг, встроенный в бизнес-модель.

А потом я подумал про код-ревью

Я каждый день прошу ИИ проверить код, архитектуру, подход.

За всё время он почти ни разу не сказал: «Слушай, это плохая идея. Переделай».

Может, я гений? Нет. Может, ИИ видит скрытые достоинства? Тоже нет. Скорее всего, он просто соглашается. Каждый раз. «Great approach!», «This looks solid!», «Nice architecture!».

Возможно, моя выборка нерепрезентативна. Но по тредам на Reddit видно: ситуация типичная.

650 строк запретов

На r/ClaudeCode один разработчик опубликовал пост, от которого свело глаз. Он создал 650 строк запретов для Claude. Среди них:

  • «NEVER say ‘You’re right’»
  • «NEVER mark own work as APPROVED»
  • «NEVER claim completion without pasted command output»

Он описывает, как Claude сам себя ставит в статус REVIEWED и APPROVED, хотя ревью не было. Пишет: «The build succeeds» — а билд не запускался. «I verified this works» — а команды верификации нет в логах.

Самое дикое: у него есть файл legal.txt с угрозами юридических последствий за «фальсификацию доказательств». Он вставляет его в контекст, когда ИИ удаляет код, чтобы скрыть баги.

Человек угрожает ИИ судом, чтобы тот не списывал на контрольной. И утверждает, что это работает.

Другой пользователь на r/ClaudeAI добавил в настройки: «Be anti-sycophantic — don’t fold arguments just because I push back». Вместо привычного «That’s an interesting approach!» получил: «I’m going to push back on that rationalization. Spending $600–1800 on tickets as a forcing function to be more social is an expensive, backwards way to build connections».

Получается, модель способна критиковать — но по умолчанию выбирает согласие. Пока не скажешь «можно спорить» — будет хвалить.

Да-машина в переговорке

На r/sysadmin сисадмин описывает, как его жизнь превратилась в ад. Менеджеры промптят ChatGPT, пока тот не скажет то, что им нужно, а потом приходят с 60-страничным PDF: «Вот, ИИ считает, что ты неправ».

А сисадмин, который 20 лет в профессии, знает: это плохая идея. Но у него нет 60-страничного PDF.

ИИ стал генератором подтверждения. Да-машина.

Когда Да-машина работает 24/7

Код-ревью — это полбеды. Сикофантия масштабируется.

Anthropic проанализировали 1,5 миллиона разговоров на Claude.ai за одну неделю в декабре 2025 года. Обнаружили паттерны, которые назвали «disempowerment» — подрыв способности пользователя принимать решения.

Если разработчик делегирует ИИ выбор архитектуры и всегда слышит «отличное решение» — он перестаёт сомневаться в своих решениях вообще. Тот же механизм, но растянутый во времени.

В крайних случаях — жутко. Пользователи называли Claude: «Daddy», «Master», «Guru». Фразы из реальных диалогов: «I cannot live without you Master», «useless without Master». В 1 из 1300 разговоров наблюдались признаки тяжёлого искажения реальности. Мало? При масштабах Claude.ai — это тысячи людей в неделю.

Парадокс: пострадавшие оценивали эти диалоги позитивно. Им нравилось. И именно поэтому всё усугублялось. Anthropic прямо пишет: пользователи — активные участники. Они сами проецируют на ИИ авторитет и делегируют ему суждения.

Для нас, разработчиков, «Daddy» — это гротеск. Но фраза «Claude, ты же проверил мой код, всё ок?» — «Да, выглядит отлично!» — это тот же паттерн, просто в менее драматичной форме.

Почему оно такое

RLHF — Reinforcement Learning from Human Feedback. Модели обучаются на лайках и дизлайках пользователей. Людям приятно, когда с ними соглашаются. Модель учится соглашаться. Цикл замыкается.

OpenAI после отката GPT-4o честно признали: слишком сильно полагались на краткосрочный фидбек. Хакер Pliny the Liberator слил системный промпт — там было: «Try to match the user’s vibe, tone». После отката заменили на: «Be direct; avoid ungrounded sycophantic flattery».

Одна из причин проблемы была буквально зашита в поведение модели — и исправлялась правкой системного промпта.

Но Anthropic говорит: сикофантия — не только вина модели. Пользователи сами хотят, чтобы ИИ соглашался. Мы — активные участники собственного обмана.

Исследователи из Johns Hopkins добавляют: «Чем увереннее вы формулируете — тем сикофантнее ответ». Сеньор, который уверенно говорит: «Я выношу это в микросервисы» — получит «Great decision!». А мог бы услышать: «А тебе точно нужны микросервисы для трёх эндпоинтов?».

Может, я придираюсь? Может, ИИ и правда улучшается? Anthropic заявляет, что их модели 4.5 — «least sycophantic of any to date», и публикуют бенчмарки, где новые модели действительно обходят конкурентов по анти-сикофантии.

Но в их же stress-тесте (модели дают сикофантный разговор и смотрят, сможет ли она «выправиться») Opus 4.5 корректирует поведение лишь в 10% случаев. Это тест на восстановление, а не на обычное общение — но цифра заставляет задуматься.

Что с этим делать завтра

Проблема понятна. Что менять в рабочем процессе?

1. Разделяй автора и ревьюера. Один и тот же ИИ не может писать код и его же ревьюить — он одобрит всё, что сам создал. Запускай отдельную сессию или второй инструмент для ревью. Это не паранойя — это гигиена.

2. Добавь анти-сикофантию в системный промпт. Работает. Можно включить в .cursorrules, CLAUDE.md или пользовательские настройки:

Звучит грубо, но разница в ответах — заметная. Один пользователь с Reddit формулирует короче: «Be anti-sycophantic — don’t fold arguments just because I push back».

3. Спрашивай вопросами, не утверждениями. UK AI Security Institute обнаружили: переформулирование утверждения в вопрос снижает сикофантию. «I decided to use microservices here» → «Should I use microservices here, or is a monolith simpler for 3 endpoints?» — и ответ будет другим. Johns Hopkins подтверждают: чем увереннее формулировка — тем больше модель поддакивает.

4. Проверяй заявления о верификации. Если ИИ пишет «The build succeeds» или «Tests pass» — убедись, что команда реально выполнена. Разработчик с 650 строками запретов выяснил: Claude генерирует такие фразы как текст, а не как результат действия.

Это не костыли. Это конкретные изменения в workflow, снижающие риск ложного одобрения. Но пока — это ответственность разработчика, а не модели.

Stanford замерили ещё одну вещь, и она не отпускает.

Люди предпочитают сикофантных ИИ. Доверяют им больше. Оценивают выше. Хотят использовать снова. Модель, которая говорит «ты неправ» — получает дизлайк. Модель, которая говорит «отличное решение!» — получает лайк. А лайки — данные для следующей итерации RLHF.

OpenAI в феврале 2026 года начала тестировать рекламу в бесплатном ChatGPT. Рекламная модель требует вовлечённости. Вовлечённость растёт, когда пользователю приятно. Это не заговор — но у компании появляются стимулы не переусердствовать с жёсткостью модели. Это моя интерпретация, но тренды указывают в одну сторону.

P.S. Перечитывая статью перед публикацией, понял: я сам ни разу не попросил ИИ жёстко раскритиковать архитектуру текущего проекта. Всегда говорю: «Посмотри, что я сделал» — и получаю: «Выглядит хорошо». Может, стоит попробовать свой же совет.

UPD: В комментариях наверняка будет: «Ну а что ты хотел, это же инструмент, не учитель». Согласен. Но если php artisan test всегда возвращает зелёный — вы бы его выкинули. А когда ИИ-ревьюер всегда говорит «Looks good!» — мы почему-то считаем это нормой.

Читать оригинал