Учетные записи на сайтах социальных сетей можно все чаще анализировать для выявления пользователей под псевдонимами, которые публикуют в них сообщения с использованием ИИ в исследованиях, которые имеют далеко идущие последствия для конфиденциальности в Интернете, говорят исследователи.
Открытие, сделанное в недавно опубликованной исследовательской статье, основано на результатах экспериментов, сопоставляющих конкретных людей с учетными записями или публикациями на нескольких платформах социальных сетей. Уровень успеха был намного выше, чем в существующих классических работах по деанонимизации, которые основывались на сборе людьми структурированных наборов данных, пригодных для алгоритмического сопоставления или ручной работы опытных исследователей. Напомним, то есть количество пользователей, которые были успешно деанонимизированы, достигло 68 процентов. Точность — то есть вероятность догадок, которые правильно идентифицируют пользователя — достигала 90 процентов.
Я знаю, что ты опубликовал в прошлом году
Результаты могут разрушить псевдонимность — несовершенную, но зачастую достаточную меру конфиденциальности, используемую многими людьми для размещения запросов и участия в порой деликатных публичных дискуссиях, в то же время затрудняя другим возможность точно идентифицировать говорящих. Возможность дешево и быстро идентифицировать людей, стоящих за такими скрытыми учетными записями, открывает для них возможность доксинга, преследования и создания подробных маркетинговых профилей, которые отслеживают, где живут говорящие, чем они зарабатывают на жизнь, а также другую личную информацию. Эта мера псевдонимности больше не действует.
«Наши результаты имеют существенное значение для конфиденциальности в Интернете», — пишут исследователи. "Средний онлайн-пользователь долгое время действовал в рамках модели неявных угроз, предполагая, что псевдонимность обеспечивает адекватную защиту, поскольку целевая деанонимизация потребует значительных усилий. LLM опровергают это предположение".
Исследователи собрали несколько наборов данных с общедоступных сайтов социальных сетей, чтобы протестировать методы, сохраняя при этом конфиденциальность говорящих. Один из них собирал сообщения из профилей Hacker News и LinkedIn, а затем связывал их, используя кроссплатформенные ссылки, которые появлялись в профилях пользователей. Затем они удалили из постов все идентифицирующие ссылки и запустили на их основе большую языковую модель. Второй набор данных был получен из микроидентификаторов Netflix, таких как индивидуальные предпочтения, рекомендации и записи транзакций. Исследование 2008 года показало, что с помощью так называемой атаки на приз Netflix список может идентифицировать пользователей, идентифицировать их политические взгляды и другую личную информацию. Последний метод разделяет историю Reddit одного пользователя.