Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Полезные данные для обучения ИИ часто возникают как побочный эффект повседневных действий пользователей — в играх, навигаторах или фитнес-приложениях. Люди ловят покемонов, ездят на велосипеде или вводят капчу, а в фоне формируются ценные датасеты. Этот механизм уже давно используется, но его значение растёт по мере того, как ИИ всё чаще выходит в физический мир.

Почему кейс Pokémon Go — это не курьёз

Компания Niantic, разработчик Pokémon Go, годами создавала AR-инфраструктуру на основе пользовательских сканов и изображений. Сначала это был экспериментальный 3D-сканер Scaniverse, но позже он превратился в систему сбора данных о реальном мире. Игра изначально проектировалась как среда, где действия миллионов игроков генерируют пространственные датасеты.

Эти данные легли в основу крупной геопространственной модели (Large Geospatial Model) и систем пространственного ИИ, способных понимать и интерпретировать физическое окружение. Позже технологию начали применять за пределами игр — например, в роботах-доставщиках от Coco Robotics, которым важно ориентироваться в городской среде.

Как это работает

Игровая механика мотивирует пользователей сканировать окружение. Система получает визуальные данные, привязанные к геолокации. Из них строятся 3D-модели сцен, системы визуального позиционирования и пространственные представления среды.

Важно, что данные из Pokémon Go ценны не просто объёмом, а тем, что изначально ориентированы на задачи локализации, сопоставления визуальных сцен и построения моделей мира. Такой подход позволяет использовать их не только в AR, но и в реальных роботизированных системах.

reCAPTCHA: обучение до эпохи ИИ

Классический пример — reCAPTCHA. В 2008 году в журнале Science описали систему, где CAPTCHA не только проверяла, человек ли перед экраном, но и помогала распознавать слова, которые не могли прочитать OCR-системы.

OCR плохо справлялся со старыми текстами: выцветшими чернилами, пожелтевшими страницами. Люди читали такие слова лучше, но ручная оцифровка была слишком дорогой. Решение: показывать пользователю два слова — одно известное системе, другое — проблемное. Если несколько человек вводили одинаковый вариант, слово считалось распознанным.

Точность превысила 99%. К 2008 году reCAPTCHA помогла распознать более 440 миллионов слов на 40 тысячах сайтов. Это был один из первых случаев, когда действия пользователей превращались в ценный датасет.

Strava Metro

Strava Metro использует данные о передвижениях пользователей в городской среде. Сервис собирает, агрегирует и обезличивает траектории, чтобы помочь городским планировщикам понять, как люди реально перемещаются.

Такие данные полезны для логистических ИИ и роботов-доставщиков: они показывают не теоретические маршруты, а реальные паттерны движения. Однако у данных есть ограничения: аудитория Strava не отражает всё население города, поэтому выборка может быть смещённой.

Waze for Cities

Waze предоставляет городским властям и службам доступ к данным о пробках, авариях, ремонтах и перекрытиях. Пользователи в реальном времени сообщают о дорожной обстановке, а система обновляет маршруты.

Эти данные полезны не только для водителей, но и для ИИ, которому нужно понимать динамику городской среды. В отличие от статичных карт, Waze даёт живую картину — ценную для автономных систем, работающих в реальном мире.

StarCraft II

StarCraft II — не просто игра, а сложная среда для исследований ИИ. Здесь нужно управлять ресурсами, принимать решения в условиях неопределённости и адаптироваться к действиям противника. Исследователей интересуют не сами матчи, а записи решений игроков в динамичной обстановке.

DeepMind и Blizzard создали StarCraft II Learning Environment с реплеями профессиональных игроков. Позже DeepMind использовала массив из 1,4 миллиона игр (более 30 лет игрового времени) как основу для обучения с подкреплением.

Игра сложна тем, что игрок не видит всю карту, а действия противника постоянно меняют контекст. Даже большой набор реплеев охватывает лишь часть возможных сценариев. Тем не менее, модели, просто копирующие поведение людей, показывают сильные результаты — иногда лучше сложных алгоритмов.

GTA V: синтетические данные для реального мира

Игровой мир GTA V используют как источник синтетических данных. Он реалистичен и легко контролируем: можно менять погоду, освещение, плотность трафика и положение камер. Это позволяет быстро генерировать огромные датасеты без выездов и ручной разметки.

Такие данные применяют для обучения систем распознавания объектов, оценки глубины, сегментации сцены и SLAM. Исследователи отмечают, что синтетические изображения из GTA V во многих случаях близки к реальным и могут использоваться как дополнение — а иногда и замена — реальным данным.

Сейчас ИИ всё чаще выходит за пределы экранов и работает в физическом мире. Поэтому растёт ценность данных, отражающих пространство, движение, объекты и поведение людей. Ключевое: ценность создаётся не только в специальных датасетах, но и в хорошо спроектированных цифровых средах, где действия пользователей становятся ресурсом для машинного обучения.

История с Pokémon Go — не случайность. Это пример того, как обычные действия миллионов людей превращаются в стратегический ресурс для развития пространственного ИИ, робототехники и смешанной реальности.

Читать оригинал