Как борьба с ИИ стирает историю веба

Habr AI 23 мар 2026

Представьте, что газетный издатель объявляет: отныне библиотекам запрещено хранить копии его газет. Примерно это и происходит сейчас в интернете.

Internet Archive — крупнейшая цифровая библиотека мира — сохраняет веб-контент с середины 1990-х годов. Её цель — архивировать интернет и делать его доступным для всех. Для этого организация создала Wayback Machine, в которой сегодня хранится более триллиона архивных веб-страниц. Ежедневно ею пользуются журналисты, исследователи и даже суды.

Однако в последние месяцы The New York Times начал блокировать доступ Internet Archive к своему сайту — не через стандартные правила robots.txt, а с помощью более жёстких технических методов. Похожие действия, судя по всему, предпринимают и другие издания, включая The Guardian.

Почему это проблема

Почти тридцать лет историки, журналисты и обычные пользователи обращались к Internet Archive, чтобы увидеть новостные сайты такими, какими они были в момент публикации.

По данным сотрудников Archive, только Википедия содержит более 2,6 миллиона ссылок на новостные материалы, сохранённые в архиве, — на 249 языках.

Такие копии нередко остаются единственным надёжным источником, позволяющим восстановить первоначальный вид материала. Статьи редактируют, меняют и удаляют. Часто Internet Archive — единственное место, где можно отследить эти изменения. Если крупные издатели закроют доступ для архивных краулеров, этот исторический след исчезнет.

Причина — страх перед ИИ

По словам издателей, они блокируют архивирование из-за опасений, что компании, разрабатывающие ИИ, будут использовать их контент для обучения моделей.

Издатели хотят контролировать использование своего материала. Некоторые из них, включая The New York Times, уже подали иски против ИИ-компаний, оспаривая законность использования защищённых авторским правом материалов для обучения моделей. При этом есть веские основания полагать, что такое обучение подпадает под добросовестное использование (fair use).

Архивирование — законно

Как бы ни закончились эти судебные споры, блокировать некоммерческие архивы — неправильное решение. Организации вроде Internet Archive не создают коммерческие ИИ-системы. Они выполняют другую задачу — сохраняют историю. Попытка ограничить доступ ради контроля над ИИ означает уничтожить десятилетия цифровой истории ради конфликта, к которому архивы не имеют отношения.

Индексирование материалов для поиска — давно устоявшаяся практика fair use. Суды неоднократно признавали: создать поисковый индекс без копирования исходных материалов, как правило, невозможно. Когда Google оцифровывал книги для поисковой базы, суды посчитали это добросовестным использованием. Копирование преследовало трансформативную цель: обеспечивало возможность поиска, исследований и получения новых знаний.

Те же правовые принципы, что защищают поисковые системы, должны защищать и веб-архивы. Даже если суды в будущем ограничат использование контента для обучения ИИ, нормы, регулирующие архивирование и поиск, уже давно сформированы и хорошо известны.

Споры вокруг ИИ реальны и должны быть решены в судах. Но жертвовать ради них общедоступной исторической документацией — значит совершить глубокую и, возможно, необратимую ошибку.

Читать оригинал