
Часто полезные данные для обучения ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков, катается на велосипеде, объезжает пробки, вводит капчу — а где-то фоново формируется датасет. Это уже много обсуждали в комментариях к истории использования данных Pokémon Go для обучения пространственного ИИ (spatial AI).
В этом материале я расскажу о кейсе Pokémon Go и о том, как работает использование данных из приложений.
Содержание:
Почему кейс Pokémon Go — это не курьез
Компания Niantic, владелец Pokémon Go, годами строила AR-инфраструктуру вокруг визуального позиционирования и 3D-карт локаций, используя сканы и изображения, созданные пользователями с помощью смартфона. Сначала это выглядело как мобильный 3D-сканер под названием Scaniverse, но со временем Niantic превратила этот инструмент в полноценный сервис для сбора данных о физическом мире и их преобразования в пространственные датасеты. Поэтому Pokémon Go сразу создавалась как среда, в которой можно работать с реальным пространством через действия миллионов пользователей.
Позже компания начала использовать собранный массив для большой геопространственной модели (Large Geospatial Model) и пространственного ИИ — систем, которые должны понимать само пространство, ориентироваться в нем и соотносить конкретную точку с глобальной картой местности.

Когда стало ясно, что вся эта инфраструктура годится не только для AR-эффектов, но и для более общего понимания физического пространства, следующим шагом стало ее применение за пределами игр. Именно на этом этапе возникло партнерство Niantic и Coco Robotics. Технологии, изначально развиваемые для AR и игровых сценариев, начали использовать уже в роботах-доставщиках, то есть в системах, которым тоже нужно ориентироваться в реальном городском пространстве.
Как это работает
Сначала игровая механика мотивирует пользователя сканировать физический объект или пространство вокруг себя. Затем система получает многовидовые изображения и привязанные к положению в мире наблюдения. Дальше из этого собираются 3D-представления сцены, системы визуального позиционирования и пространственные представления среды. И уже на следующем шаге все это начинает работать: сначала на AR-эффекты, а затем и на навигацию воплощенных систем, где агенту нужно понимать реальный физический контекст.
Pokémon Go и вся экосистема Niantic ценны не потому, что у них просто много фото, а потому, что эти данные изначально ориентируются на задачи определения местоположения, сопоставления визуальных сцен и построения моделей мира.
Но примеров, когда на действиях пользователей собирали данные и обучали системы, на самом деле больше. Начнем с эпохи до ИИ, а потом обсудим и кейсы обучения нейросетевых моделей на пользовательских данных.
reCAPTCHA: обучение до ИИ-эпохи

Канонический пример до появления ИИ — reCAPTCHA. В статье Science 2008 года авторы описали схему двойного назначения CAPTCHA: она не только отличает человека от бота, но и распознаёт слова из оцифровываемых текстов, которые не смог прочитать OCR.
Авторы пишут, что OCR плохо справляется со старыми печатными материалами: в изданиях с выцветшими чернилами и пожелтевшими страницами OCR не распознаёт около 20% слов. При этом люди расшифровывают такой текст заметно лучше, но ручная транскрибация слишком дорогая для массовой оцифровки.
Сначала страницу прогоняли через две OCR-системы, затем результаты выравнивали и сравнивали между собой и со словарем. Если два OCR-движка читали слово по-разному или оно отсутствовало в словаре, его отмечали как сомнительное (suspicious). По данным авторов, около 96% таких подозрительных слов действительно распознано некорректно хотя бы одним OCR, а среди непомеченных таким образом 99,74% распознаны обоими OCR правильно.
Пользователю показывали контрольное слово, ответ на которое системе известен, и второе — проблемное, пришедшее из OCR-пайплайна. Если достаточное число людей сходилось на одном варианте, слово считалось распознанным. Авторы сообщали о точности более 99% и о сотнях миллионов распознанных слов.
На момент публикации, в 2008 году, reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов.
reCAPTCHA — ранний пример того, как побочный продукт пользовательского действия превращается в ценный датасет. Со временем тот же подход вышел далеко за пределы распознавания текста.
Strava Metro
В случае Strava Metro источником данных стало уже не слово на скане, а реальное движение людей в городской среде. Strava прямо позиционирует Metro как инструмент для анализа городской навигации. Она собирает, агрегирует и обезличивает пользовательские данные, чтобы городские планировщики и транспортные специалисты могли понимать, как люди в действительности передвигаются по городу.

Логистическим ИИ-системам карта дает общее понимание, как устроен город, а данные о траекториях показывают, как именно перемещаются люди, транспорт и роботы. Благодаря данным роботы-курьеры и системы навигации понимают реальную логику движения, а не руководствуются только теорией на бумаге.

Но и у этого кейса есть нюансы. Исследование 2025 года о Strava Metro подчеркивает, что муниципалитеты не смогут использовать только эти данные и должны учитывать их ограничения: аудитория Strava неточно соответствует населению города, а следовательно, может быть репрезентативна не для всех групп.
Waze for Cities

Приложение Waze используют не только обычные пользователи, но и городские власти, дорожные операторы и экстренные службы. Они получают доступ к данным о дорожной ситуации и могут сами передавать в систему информацию о перекрытиях, ремонтах, авариях, пробках и других событиях.
Проблема городской навигации обычно в том, что карта показывает базовую структуру населенного пункта: где проходят дороги, перекрестки, развязки, какие маршруты в принципе возможны. Но дорожная ситуация меняется слишком быстро, какие-то участки перестают быть доступными. Люди используют сервис Waze, чтобы быстрее доехать до места, так как платформа собирает актуальную информацию о дорожной обстановке в живом режиме. Эти данные потом могут быть полезны не только другим водителям и городским службам, но и системам автоматической навигации, например, роботам-доставщикам и другим ИИ-системам, работающим в физическом мире.
StarCraft II
Если отвлечься от того, что это культовая компьютерная игра, то StarCraft II очень похожа на реальные управленческие задачи. Здесь тоже нужно распределять ресурсы, принимать решения в условиях неполной информации, менять план по ходу дела и постоянно подстраиваться под ситуацию. Поэтому для исследователей важна не сама игра, а то, что в записях матчей сохраняются реальные цепочки человеческих решений в сложной среде.

StarCraft II тоже используют для ИИ: данные собрали из матчей с профессионалами. Взяли огромный массив реплеев — сохраненных партий, из которых можно разбирать настоящие стратегии, решения игроков и их поведение в сложной постоянно меняющейся среде.

Примерно из 20 миллионов публично доступных игр авторы по техническим причинам ограничились версиями 4.8.2–4.9.2, это почти 5 миллионов игр. Затем они взяли только матчи игроков с MMR выше 3500, то есть верхние 22% игроков, и получили около 1,4 миллиона игр или 2,8 миллиона эпизодов, что соответствует более чем 30 годам игрового времени, 21 миллиарду внутренних шагов и 3,5 миллиарда обучающих наблюдений.
Изначально DeepMind и Blizzard в проекте StarCraft II Learning Environment включили в систему набор реплеев рейтинговых матчей. Позже эта идея получила развитие в AlphaStar Unplugged, где DeepMind уже напрямую использовала массив реплеев миллионов человеческих игр как основу для бенчмарк-задачи по обучению с подкреплением на заранее собранных данных.

StarCraft II считается особенно сложной средой для обучения на готовых записях игр, потому что в каждый момент там может быть огромное количество возможных ходов. Игрок не видит всю карту сразу, ему нужно разведывать обстановку и постоянно догадываться, что сделает соперник. Поведение противника все время меняет ситуацию. Поэтому даже большой массив реплеев показывает только малую часть того, что вообще может происходить в игре, и обучение становится сложнее.
В настолько сложной среде простое копирование человеческих действий оказывается неожиданно сильной отправной точкой. Иначе говоря, если у вас есть большой массив хороших человеческих реплеев, то модель, которая просто учится повторять поведение игроков, уже может дать очень достойный результат. А более сложные алгоритмы вовсе не гарантируют улучшений.
GTA V

Синтетические данные из GTA V по качеству тоже достаточно близки к реальным, что позволяет использовать их в обучающих сценариях не только как дополнение, но в некоторых случаях и как частичную замену реальных датасетов. Они удобны для задач восприятия и навигации. В виртуальной среде можно легко менять погоду, освещение, плотность машин, сценарии движения и положение камер, а затем быстро собирать огромные массивы данных без долгих выездов и дорогой ручной разметки. Поэтому в исследованиях на базе GTA V и других искусственно созданных датасетов такой подход давно используют для обучения систем распознавания объектов, оценки глубины, сегментации сцены и предварительного обучения моделей для автономного транспорта.
GTA V в таком кейсе — управляемая виртуальная среда, которую можно применять как исследовательскую инфраструктуру для робототехники и навигации. Это способ удешевить и ускорить сбор данных в реальном мире, благодаря чему исследователи получают возможность генерировать большие и достаточно реалистичные наборы внутри игрового мира.
Исследователи показывают, как игровой мир можно использовать в качестве источника синтетических данных для робототехники и навигации — например, для задач SLAM, визуального распознавания местности и ориентирования в пространстве. Смысл в том, что вместо долгого, дорогого и сложного сбора данных в реальном городе можно получить большой массив изображений и сцен внутри детально проработанной виртуальной среды. Авторы подчеркивают, что такие синтетические данные во многих случаях оказываются достаточно близки к реальным и могут использоваться вместе с ними, а иногда даже частично их заменять.

Сейчас мы в начале этапа, когда ИИ выходит за пределы текста, картинок и экранных интерфейсов и все активнее начинает работать в физическом мире. А значит, резко растет ценность любых данных, которые помогают системам понимать пространство, изменения среды, маршруты, объекты и человеческие действия в реальной обстановке.
Пространственный ИИ, роботы-доставщики, сервисные роботы, смешанная реальность требуют данных, которые тесно связаны с реальным миром и с тем, как в нем приходится действовать. Все чаще ценность для ИИ создается не там, где кто-то специально «собирал датасет», а там, где удачно спроектировано поведение пользователя внутри цифровой среды.
Поэтому кейс с Pokémon Go — это не просто забавная история о том, как игроки «случайно помогли курьерам». На самом деле это гораздо более серьезный сюжет о том, как современные цифровые платформы превращают обычные действия пользователей в стратегически важный ресурс для машинного обучения.