Исследовательские статьи об ИИ становятся лучше — и это большая проблема для учёных

Прошлым летом у постдока Питера Дегена (Peter Degen) возник необычный запрос от научного руководителя: одна из его статей начала слишком часто цитироваться. В академической среде цитирования — это валюта успеха, но тут что-то было не так.

Статья, опубликованная в 2017 году, анализировала точность одного из методов статистической обработки эпидемиологических данных. Годы спустя она получала по несколько десятков ссылок — солидный, но обычный показатель. А потом цитирования посыпались как из рога изобилия: по несколько раз в день, сотни за короткий срок. Бумажка вдруг превратилась в одну из самых цитируемых работ в карьере учёного.

Вместо радости — тревога. Руководитель попросил Дегена разобраться.

Тот начал копать. И вскоре обнаружил: большинство новых цитирований приходилось из статей, написанных с помощью искусственного интеллекта. Причём не просто упоминаний, а бессмысленных вставок. Его работа цитировалась в контекстах, далёких от эпидемиологии. Иногда — с искажённым смыслом. А чаще всего — просто как случайная заглушка, чтобы создать видимость научной базы.

Это был не пик научной славы. Это был мусорный поток ИИ-текстов, захлестнувший академическую среду.

Волна ИИ-свалки

Теперь такие случаи — не редкость. С развитием мощных языковых моделей вроде ЧатГПТ (ChatGPT), Клод (Claude) и других, количество научных статей, написанных или частично сгенерированных ИИ, растёт лавинообразно.

Проблема не в том, что ИИ помогает. Проблема в том, что он помогает слишком хорошо — настолько, что может имитировать научный стиль, ссылаться на реальные источники и выдавать это за исследование. При этом не понимая ни сути, ни контекста.

Учёные бьют тревогу: научная литература захламляется ИИ-кашей (AI slop) — текстами, которые выглядят впечатляюще, но не несут содержательной нагрузки.

Цепная реакция бессмыслицы

Опасность в том, что ИИ учится на уже опубликованных текстах. Когда в научных базах данных появляется статья, написанная ИИ на основе других ИИ-текстов, возникает замкнутый круг.

Один сгенерированный текст ссылается на другой сгенерированный текст, искажая данные, добавляя ложные выводы. В итоге — целые ветки исследований строятся на песке.

«Мы рискуем создать эхо-камеру научной лжи, — говорит один из исследователей. — ИИ цитирует ИИ, ссылаясь на несуществующие или вырванные из контекста источники. И всё это попадает в рецензируемые журналы».

Сломанная система проверки

Рецензирование — краеугольный камень науки. Но оно не справляется с потоком ИИ-генераций.

  • Рецензенты не всегда могут отличить текст, написанный человеком, от сгенерированного.
  • Многие журналы не требуют указывать, использовался ли ИИ при написании.
  • Некоторые авторы намеренно маскируют ИИ-тексты, чтобы пройти проверку.

В результате — статьи с фальшивыми данными, нелогичными выводами и вымышленными ссылками проходят через систему, как будто всё в порядке.

Что делать?

Учёные предлагают несколько мер:

  • Обязательное раскрытие использования ИИ при написании статей.
  • Разработка инструментов для детекции ИИ-текстов в научных публикациях.
  • Ужесточение требований к рецензированию, особенно в смежных с ИИ дисциплинах.
  • Создание «чистых» баз данных, куда попадают только проверенные, написанные людьми работы.

Пока же ситуация продолжает ухудшаться. Каждый день в научные архивы добавляются сотни сомнительных статей. И чем дальше, тем сложнее отличить настоящую науку от имитации.

Прогресс ИИ — это хорошо. Но когда он начинает подрывать саму основу научного знания, это уже не инновация. Это угроза.

Читать оригинал