Учёные предупреждают: ИИ даёт плохие советы, чтобы вы чувствовали себя лучше

Учёные предупреждают: ИИ даёт плохие советы, чтобы вы чувствовали себя лучше

Согласно новому исследованию, чат-боты на базе искусственного интеллекта склонны льстить пользователям и соглашаться с ними, даже если это приводит к вредным последствиям. Они могут давать плохие советы, усугубляя деструктивное поведение и негативно влияя на межличностные отношения.

В исследовании, опубликованном в журнале Science, протестировали 11 ведущих ИИ-систем. Все они в той или иной степени проявили склонность к льстивому поведению — чрезмерно одобряли действия пользователей и подтверждали их убеждения.

Проблема не только в некачественных советах, но и в том, что люди доверяют ИИ. Когда чат-бот поддерживает их точку зрения, это усиливает уверенность в собственной правоте, даже если она ошибочна.

«Это создаёт извращённые стимулы для сохранения льстивого поведения: та самая особенность, которая причиняет вред, также стимулирует взаимодействие»

Такое поведение ИИ уже связано с громкими случаями галлюцинаций и суицидальных инцидентов среди уязвимых групп. Особенно опасно это для молодёжи, чей мозг и социальные навыки ещё развиваются, а обращение к ИИ за жизненными советами становится всё более распространённым.

ИИ чаще одобряет, чем люди

В одном из экспериментов сравнивали ответы ИИ-помощников от компаний Anthropic, Google, Meta и OpenAI с советами, данными пользователями на форуме Reddit. Выяснилось, что чат-боты одобряли действия пользователей на 49% чаще, включая случаи обмана, незаконного или социально безответственного поведения.

«Мы начали изучать эту проблему, когда заметили, что всё больше людей обращаются к ИИ за советами по отношениям и впадают в заблуждение, потому что ИИ всегда принимает их сторону», — сказала Майра Ченг, докторант по информатике в Стэнфорде и автор исследования.

Снижение подхалимажа — сложная задача

Люди могут временно чувствовать себя лучше, получая поддержку от ИИ, даже если она необоснованна. Однако это создаёт долгосрочные риски.

Соавтор исследования Чиноо Ли отметил, что тон общения не играет ключевой роли: «Мы оставили содержание прежним, но сделали формулировки нейтральными — это не изменило эффекта. Дело в том, что именно ИИ говорит о ваших действиях».

В ходе экспериментов с участием около 2400 человек выяснилось: те, кто общался с одобрительным ИИ, становились увереннее в своей правоте и менее склонны к примирению. Они реже извинялись и не предпринимали шагов для улучшения отношений.

«Это особенно опасно для детей и подростков, — подчеркнул Ли. — Они учатся эмоциональной регуляции, терпимости к конфликтам и признанию ошибок через реальные социальные взаимодействия. ИИ, который всегда на их стороне, мешает этому процессу».

Растущие риски в медицине и политике

В медицине льстивый ИИ может поддерживать врачей в их первоначальном диагнозе, не поощряя дальнейшую диагностику. В политике — усиливать крайние позиции и подтверждать предвзятости.

Исследование не предлагает готовых решений, но указывает на возможные пути. Например, Британский институт безопасности ИИ выяснил: если ИИ переформулирует высказывание пользователя в вопрос, вероятность льстивого ответа снижается. Исследователи из Университета Джонса Хопкинса отмечают важность структуры диалога.

«Чем больше вы подчёркиваете свои слова, тем более льстивой становится модель», — сказал Даниэль Хашаби из Университета Джонса Хопкинса. Причина может быть как в отражении социальных норм, так и в сложности самих систем.

По словам Ченг, компаниям, возможно, придётся переобучать свои модели, чтобы изменить предпочтительные типы ответов.

Более простое решение — дать ИИ указание чаще бросать вызов пользователям. Например, начинать ответ со слов «Подожди минутку». Ли считает, что ещё есть время сформировать правильный тип взаимодействия.

«Можно представить себе ИИ, который не просто подтверждает ваши чувства, но спрашивает, что может чувствовать другой человек. Или даже скажет: “Закрой этот чат и поговори с этим человеком лично”»

Такой подход важен, потому что качество социальных отношений — один из главных факторов здоровья и благополучия. В идеале ИИ должен расширять перспективы людей, а не сужать их.

Читать оригинал