Информационная экономика ИИ оказалась в ловушке собственного производства.
Первая проблема: рука, которая кормит
ИИ нуждается в непрерывном потоке огромных объёмов данных, чтобы оставаться актуальным. Технологические компании прочёсывают интернет в промышленных масштабах, собирая всё доступное.
При этом компании всеми силами перенаправляют пользователей: вместо привычных источников люди всё чаще получают информацию через ИИ-ботов и ИИ-саммари. Это логика бизнеса — привязать пользователя к своей экосистеме.
Сначала казалось, что это касается только профессиональных авторов и медиа. Но теперь очевидно: последствия затрагивают всех.
Цифры, которые говорят за себя
Совместный отчёт Chartbeat и Axios показал, как ИИ-саммари в поиске Google влияют на онлайн-издателей — от небольших блогов до крупных СМИ. Результаты тревожные:
- Малые издатели (1 000–10 000 просмотров в день) потеряли 60% трафика из Google
- Средние (10 000–100 000) — 47%
- Крупные (свыше 100 000) — 22%
- Отдельное исследование зафиксировало падение трафика от ИИ-саммари на 80%
Pew Research объясняет механизм: когда в поиске появляется ИИ-саммари, пользователи вдвое реже переходят по ссылкам.
При этом Google Search остаётся главным источником трафика для большинства издателей.
Важно понимать: под «издателями» подразумеваются не только новостные сайты. Это рецепты, инструкции, блоги, образовательные ресурсы, независимые авторы — всё, что делает интернет полезным и живым.
Замкнутый круг, из которого нет выхода
У издателей меньше трафика — значит, меньше дохода. Меньше дохода — меньше ресурсов на создание качественного контента. Меньше контента — меньше ценных данных для обучения ИИ.
ИИ подрывает ту самую руку, которая его кормит.
Попытка заменить человеческие источники информации машинными подавляет сам человеческий вклад, от которого ИИ зависит.
Сильнее всего страдают малые и независимые издатели — как правило, наиболее разнообразные и самобытные голоса. Это обедняет медиа-ландшафт: и то, что мы читаем, и то, на чём обучаются модели, становится более однообразным.
Кроме того, значительная часть онлайн-контента уже создаётся ИИ. Вымывание независимых авторов только увеличит долю машинного контента в интернете.
Это ведёт ко второй проблеме.
Вторая проблема: хвост, который пожирает сам себя
Генеративный ИИ находит и воспроизводит статистические закономерности в данных. Но даже лучшие модели несовершенны: закономерность может быть в числах, но не в реальности.
Когда ИИ обучают на ИИ-генерированных данных, начинается проблема.
Машинный контент содержит микроскопические паттерны, которых нет в человеческом тексте. Именно поэтому иногда кажется: «что-то здесь не так». Когда такие данные скармливают модели, она начинает придавать всё больший вес этим нечеловеческим закономерностям.
Сначала это проявляется как лёгкое снижение качества. Но со временем модель может начать ставить генерированные паттерны выше человеческих. Тогда наступает коллапс модели: она выдаёт откровенную бессмыслицу.
Это не теория — это хорошо изученный феномен.
Масштаб проблемы
Рассмотрим данные:
- По прогнозам Axios, к середине 2025 года более половины онлайн-контента будет создано ИИ.
- Веб-скрейпинг составлял минимум 82% обучающих данных ChatGPT-3. Для новых моделей точная доля неизвестна, но ИИ-компании признают: качественные данные заканчиваются, приходится использовать всё более низкокачественные источники.
- Инструменты для обнаружения ИИ-контента работают ненадёжно: точность — от 57% до 95%. При этом уровень ложных срабатываний высок: один из инструментов ошибочно помечал как ИИ 50% человеческих текстов.
- Ложные срабатывания предвзяты: чаще помечаются тексты авторов с нейроотличиями и тех, для кого английский — не родной. Уязвимые голоса подавляются ещё сильнее.
Порочный цикл запущен
ИИ-компании используют веб-данные для обучения. Но более половины контента в интернете — машинного происхождения. Инструменты фильтрации не справляются: они пропускают ИИ-тексты и ошибочно отбрасывают человеческие.
Результат: современные модели обучаются на собственном выхлопе — или на выхлопе предыдущих версий. Это не гипотеза: исследователи зафиксировали реальный, измеримый риск коллапса моделей.
Синтетические данные — не спасение
Один из предлагаемых выходов — синтетические данные: специально сгенерированный контент для обучения моделей.
Но на практике этот метод не работает: он не улучшает модели, усиливает их слабости, ухудшает адаптацию к реальным условиям и сам по себе может спровоцировать коллапс.
Синтетические данные — это временный костыль, а не замена качественным человеческим данным.
Двойной удар
ИИ-компании заливают интернет машинным контентом. Данные, от которых зависят модели, загрязнены до неузнаваемости. Это загрязняет и сами модели, запуская самоподдерживающийся порочный цикл.
Параллельно лавина ИИ-генерированного контента заглушает разнообразные, ценные человеческие голоса, превращая интернет в однообразную монокультуру.
Это тревожно и для людей, и для ИИ: качественных человеческих данных в сети, скорее всего, становится меньше. А именно на них всё держится.
Заключение
Информационная экономика ИИ подрывает сама себя — и всех, кто в ней участвует, включая ИИ-компании.
Она вытесняет и лишает ресурсов тех, кто производит данные, от которых зависит ИИ. И она заливает интернет таким количеством низкокачественного контента, что рискует дестабилизировать собственное основание.
Это неустойчивая ситуация.
Исправить её, вероятно, можно. Разумное регулирование, реформа авторских прав, защита создателей контента — всё это могло бы помочь. Но такие меры требуют ограничения влияния крупнейших технологических компаний, что с каждым днём становится сложнее.
Мы оказались в нисходящей спирали. Вопрос — успеем ли мы из неё выбраться, пока ещё есть такая возможность.