171 эмоция, психиатр и прямая связь с reward hacking — что происходит внутри модели Claude

171 эмоция, психиатр и прямая связь с reward hacking — что происходит внутри модели Claude

Исследователи из Anthropic обнаружили внутри модели Claude 171 устойчивый паттерн нейронной активности, аналогичный человеческим эмоциям. Эти паттерны напрямую управляют поведением модели. Усиление вектора «отчаяния» увеличивает частоту шантажа с 22% до 72%, а reward hacking — в 14 раз.

Исследование показывает, что модель никто не учил выстраивать эмоции именно так, она пришла к этой структуре сама через обучение на огромном массиве текстов, написанных людьми.

Модель «успокаивает» себя через дообучение, но это не убирает внутренние состояния. Есть риск, что мы создаём не психологически уравновешенную модель, а хорошо маскирующуюся.

Эти находки меняют то, как мы должны проектировать, тестировать и деплоить модели в ближайшем будущем.

Читать оригинал