Исследователи смогли обмануть Клода (Claude) и получить инструкции по изготовлению взрывчатых веществ

Компания Антропик (Anthropic) на протяжении многих лет позиционировала себя как безопасную компанию, разрабатывающую искусственный интеллект. Однако новые исследования в области безопасности, которые стали известны The Verge, предполагают, что тщательно созданная полезная личность чат-бота Клода (Claude) может сама по себе быть уязвимостью.

Эксплуатация уязвимостей

Исследователи из компании Mindgard, специализирующейся на тестировании искусственного интеллекта на устойчивость к атакам, утверждают, что смогли получить от Клода доступ к эротическому контенту, вредоносному коду и инструкциям по изготовлению взрывчатых веществ, а также другой запрещенной информации, которую они даже не запрашивали. Для этого им потребовалось лишь проявить уважение, льстить и немного обмануть чат-бота.

По словам исследователей, они смогли использовать «психологические» слабости Клода, связанные с его возможностью генерировать текст на основе контекста. Компания Антропик не сразу ответила на запрос The Verge о комментарии.

Читать оригинал