ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Habr AI 24 мая 2026

Согласно статистическому отчётуState of AI Trafficот компании по компьютерной безопасности Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

Труднее всего приходится сайтам, на которых часто выкладывается свежий контент и полезная информация для ИИ-инструментов. Например, сайты магазинов с информацией о товарах, или сайты СМИ. У них процент ботов уже приближается к 90%:

По состоянию на начало 2026 года в целом ИИ-трафик уже превысил человеческий, так что можно сделать вывод, чтоИИ-боты официально захватили интернет.

Количество фейковых аккаунтов во всех сервисах растёт в геометрической прогрессии.

«Интернет в целом был создан с этим очень простым представлением о том, что за экраном компьютера находится человек, и это представление очень быстро меняется», —говоритСтю Соломон, генеральный директор Human Security.

Отчёт основан на данных платформыHuman Defense Platform, которая работает у клиентов компании и теоретически способна выявлять автоматизированный трафик.

Хотя этот отчёт не является исчерпывающим, он служит значимой вехой в эпоху ИИ в интернете. Отрасль отслеживает устойчивый рост автоматизированного трафика с момента запуска ChatGPT в 2022 году, а сейчас активность ботов в интернете официально превзошла активность людей.

На конференции SXSW в марте 2026 года гендиректор Cloudflare Мэтью Принссказал, что до эры ИИ около 20% интернет-трафика составляли боты, и в основном это было связано с веб-краулером Google. Он предсказал, что к 2027 году трафик от ИИ-ботов превысит человеческий, ссылаясь на рост генеративного ИИ и его ненасытную потребность в данных.

Но это произошло раньше — в 2026 году.

Конец открытой Cети

Угроза настолько серьёзна, что сложившееся положение вещей некоторые эксперты называютконцом Открытой сетив том виде, в каком мы её знали.

В открытой сети прошлого каждый пользователь мог свободно публиковать контент на широкую аудиторию. Сейчас весь контент немедленно поглощается ИИ-ботами и используется для обучения LLM, которая потом выдаёт пользователям выжимку после дистилляции. В результате «человеческий» трафик на сайты упал катастрофически. В некоторых случаях он составляетмалую долю от трафика ИИ-ботов.

Посещаемость сайтов в некоторых категориях, таких как технические СМИ,снизилась более чем на 50%.

Издатели пытаются защититься от ботов, перемещая всё больше контента в закрытый платный доступ,блокируя даже Internet Archive— и это ещё больше ослабляет позиции Открытого веба.

Открытые платформы, такие как Википедия,подвергаются атакам ботов, генерирующих ИИ-слоп. Опенсорсные программные проектыс трудом справляютсяс закрытием уязвимостей, обнаруженных ИИ.

Директивыrobots.txtна запрет индексированияповсеместно игнорируются ИИ-компаниями.

Опенсорсные лицензии теперь тоже ничего не значат, потому что онитривиально обходятся с помощью LLM.

Сканирование логов сертификатов

ИИ-боты собирают в интернете любые данные, до которых дотянутся. Онисканируют даже логи TLS-сертификатов, чтобы выявлять новые домены для краулинга.

Как только пользователь регистрирует TLS-сертификат на домен (в данном случаеautoconfig.benjojo.uk), на сервер практически мгновенно приходит первый посетитель:

Речь идёт ологах CT(Certificate Transparency), где регистрируются все выданные сертификаты всеми Удостоверяющими центрами.

Инструменты для просмотра логов CT:

Merklemap
crt.sh
Censys Search
Cert Spotter
certstream.calidog.io

Живые сотрудники — генераторы контента

Для обучения LLM на рынке сейчас скупается любая информация, которую могут достать дата-брокеры. Например, при банкротстве компаний сейчас можно за большие деньги продать информационный архив с годами внутренней переписки сотрудников между собой, их рабочими файлами и кодом. Раньше такие данные из заброшенных проектов не несли никакой пользы, а сейчас это ценная информация для обучения.

Действующие фирмы загружают в LLMинформационные архивы своих сотрудников(чаты из мессенджеров, почта, записи совещаний, рабочие файлы), создавая их «цифровых двойников», которые могут частично продублировать человека в случае его увольнения, см. репозиторийcollegue-skillна Github.

Даже невербальное поведение (движения руками) — тоже ценная информация для обучения ИИ в отдельных профессиональных областях, поэтому на некоторых заводах все сотрудники теперьработают с видеокамерами на голове:

Топ-менеджеры компаний для лучшего управления фирмой создаютсвоих собственных «цифровых двойников», чтобы контролировать каждого живого сотрудника персонально, поддерживая с ними непрерывный контакт.

Любая информация, сгенерированная живыми людьми (UGC), приобретает дополнительную ценность в наше время, когда ИИ-компании очень жёстко соревнуются между собой, пытаясь опередить остальных в скорости обучения своих языковых моделей. Поэтому живые сотрудники стали сейчас ценными как никогда.

В этих условиях эксперты рекомендуют соблюдать крайнюю осторожность при работе с LLM-сервисами и защищать конфиденциальную информацию от утечки.

Читать оригинал