Часто полезные данные для обучения ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков, катается на велосипеде, объезжает пробки, вводит капчу — а где-то фоново формируется датасет. Это уже много обсуждали в комментариях к истории использования данных Pokémon Go для обучения пространственного ИИ (spatial AI). 

В этом материале я расскажу о кейсе Pokémon Go и о том, как работает использование данных из приложений.

Содержание:

Почему кейс Pokémon Go — это не курьез

Компания Niantic, владелец Pokémon Go, годами строила AR-инфраструктуру вокруг визуального позиционирования и 3D-карт локаций, используя сканы и изображения, созданные пользователями с помощью смартфона. Сначала это выглядело как мобильный 3D-сканер под названием Scaniverse, но со временем Niantic превратила этот инструмент в полноценный сервис для сбора данных о физическом мире и их преобразования в пространственные датасеты. Поэтому Pokémon Go сразу создавалась как среда, в которой можно работать с реальным пространством через действия миллионов пользователей.

Позже компания начала использовать собранный массив для большой геопространственной модели (Large Geospatial Model) и пространственного ИИ — систем, которые должны понимать само пространство, ориентироваться в нем и соотносить конкретную точку с глобальной картой местности.

Система VPS использует четыре камеры для более точного анализа окружающей среды. Изображение: Coco Robotics
Система VPS использует четыре камеры для более точного анализа окружающей среды. Изображение: Coco Robotics

Когда стало ясно, что вся эта инфраструктура годится не только для AR-эффектов, но и для более общего понимания физического пространства, следующим шагом стало ее применение за пределами игр. Именно на этом этапе возникло партнерство Niantic и Coco Robotics. Технологии, изначально развиваемые для AR и игровых сценариев, начали использовать уже в роботах-доставщиках, то есть в системах, которым тоже нужно ориентироваться в реальном городском пространстве.

Как это работает

Сначала игровая механика мотивирует пользователя сканировать физический объект или пространство вокруг себя. Затем система получает многовидовые изображения и привязанные к положению в мире наблюдения. Дальше из этого собираются 3D-представления сцены, системы визуального позиционирования и пространственные представления среды. И уже на следующем шаге все это начинает работать: сначала на AR-эффекты, а затем и на навигацию воплощенных систем, где агенту нужно понимать реальный физический контекст.

Pokémon Go и вся экосистема Niantic ценны не потому, что у них просто много фото, а потому, что эти данные изначально ориентируются на задачи определения местоположения, сопоставления визуальных сцен и построения моделей мира.

Но примеров, когда на действиях пользователей собирали данные и обучали системы, на самом деле больше. Начнем с эпохи до ИИ, а потом обсудим и кейсы обучения нейросетевых моделей на пользовательских данных.

reCAPTCHA: обучение до ИИ-эпохи

Источник

Канонический пример до появления ИИ — reCAPTCHA. В статье Science 2008 года авторы описали схему двойного назначения CAPTCHA: она не только отличает человека от бота, но и распознаёт слова из оцифровываемых текстов, которые не смог прочитать OCR. 

 Авторы пишут, что OCR плохо справляется со старыми печатными материалами: в изданиях с выцветшими чернилами и пожелтевшими страницами OCR не распознаёт около 20% слов. При этом люди расшифровывают такой текст заметно лучше, но ручная транскрибация слишком дорогая для массовой оцифровки. 

Сначала страницу прогоняли через две OCR-системы, затем результаты выравнивали и сравнивали между собой и со словарем. Если два OCR-движка читали слово по-разному или оно отсутствовало в словаре, его отмечали как сомнительное (suspicious). По данным авторов, около 96% таких подозрительных слов действительно распознано некорректно хотя бы одним OCR, а среди непомеченных таким образом 99,74% распознаны обоими OCR правильно.

Пользователю показывали контрольное слово, ответ на которое системе известен, и второе — проблемное, пришедшее из OCR-пайплайна. Если достаточное число людей сходилось на одном варианте, слово считалось распознанным. Авторы сообщали о точности более 99% и о сотнях миллионов распознанных слов.

На момент публикации, в 2008 году, reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов. 

reCAPTCHA — ранний пример того, как побочный продукт пользовательского действия превращается в ценный датасет. Со временем тот же подход вышел далеко за пределы распознавания текста.

Strava Metro

В случае Strava Metro источником данных стало уже не слово на скане, а реальное движение людей в городской среде. Strava прямо позиционирует Metro как инструмент для анализа городской навигации. Она собирает, агрегирует и обезличивает пользовательские данные, чтобы городские планировщики и транспортные специалисты могли понимать, как люди в действительности передвигаются по городу.

Источник

Логистическим ИИ-системам карта дает общее понимание, как устроен город, а данные о траекториях показывают, как именно перемещаются люди, транспорт и роботы. Благодаря данным роботы-курьеры и системы навигации понимают реальную логику движения, а не руководствуются только теорией на бумаге.

Пример визуализации оценочного объема велосипедного движения на отдельных участках дорог Сиднея (июнь 2021 г.). Источник
Пример визуализации оценочного объема велосипедного движения на отдельных участках дорог Сиднея (июнь 2021 г.). Источник

Но и у этого кейса есть нюансы. Исследование 2025 года о Strava Metro подчеркивает, что муниципалитеты не смогут использовать только эти данные и должны учитывать их ограничения: аудитория Strava неточно соответствует населению города, а следовательно, может быть репрезентативна не для всех групп. 

Waze for Cities

Источник

Приложение Waze используют не только обычные пользователи, но и городские власти, дорожные операторы и экстренные службы. Они получают доступ к данным о дорожной ситуации и могут сами передавать в систему информацию о перекрытиях, ремонтах, авариях, пробках и других событиях.

Проблема городской навигации обычно в том, что карта показывает базовую структуру населенного пункта: где проходят дороги, перекрестки, развязки, какие маршруты в принципе возможны. Но дорожная ситуация меняется слишком быстро, какие-то участки перестают быть доступными. Люди используют сервис Waze, чтобы быстрее доехать до места, так как платформа собирает актуальную информацию о дорожной обстановке в живом режиме. Эти данные потом могут быть полезны не только другим водителям и городским службам, но и системам автоматической навигации, например, роботам-доставщикам и другим ИИ-системам, работающим в физическом мире.

StarCraft II

Если отвлечься от того, что это культовая компьютерная игра, то StarCraft II очень похожа на реальные управленческие задачи. Здесь тоже нужно распределять ресурсы, принимать решения в условиях неполной информации, менять план по ходу дела и постоянно подстраиваться под ситуацию. Поэтому для исследователей важна не сама игра, а то, что в записях матчей сохраняются реальные цепочки человеческих решений в сложной среде.

PySc2,  скриншот с Git
PySc2, скриншот с Git

StarCraft II тоже используют для ИИ: данные собрали из матчей с профессионалами. Взяли огромный массив реплеев — сохраненных партий, из которых можно разбирать настоящие стратегии, решения игроков и их поведение в сложной постоянно меняющейся среде.

Источник 

Примерно из 20 миллионов публично доступных игр авторы по техническим причинам ограничились версиями 4.8.2–4.9.2, это почти 5 миллионов игр. Затем они взяли только матчи игроков с MMR выше 3500, то есть верхние 22% игроков, и получили около 1,4 миллиона игр или 2,8 миллиона эпизодов, что соответствует более чем 30 годам игрового времени, 21 миллиарду внутренних шагов и 3,5 миллиарда обучающих наблюдений.

Изначально DeepMind и Blizzard в проекте StarCraft II Learning Environment включили в систему набор реплеев рейтинговых матчей. Позже эта идея получила развитие в AlphaStar Unplugged, где DeepMind уже напрямую использовала массив реплеев миллионов человеческих игр как основу для бенчмарк-задачи по обучению с подкреплением на заранее собранных данных.

Источник

StarCraft II считается особенно сложной средой для обучения на готовых записях игр, потому что в каждый момент там может быть огромное количество возможных ходов. Игрок не видит всю карту сразу, ему нужно разведывать обстановку и постоянно догадываться, что сделает соперник. Поведение противника все время меняет ситуацию. Поэтому даже большой массив реплеев показывает только малую часть того, что вообще может происходить в игре, и обучение становится сложнее.

В настолько сложной среде простое копирование человеческих действий оказывается неожиданно сильной отправной точкой. Иначе говоря, если у вас есть большой массив хороших человеческих реплеев, то модель, которая просто учится повторять поведение игроков, уже может дать очень достойный результат. А более сложные алгоритмы вовсе не гарантируют улучшений.

GTA V

Изображение с ограничивающими рамками из набора данных PreSIL, взято из GTA V. Синие прямоугольники — это ограничивающие рамки для транспортных средств, а красные — для пешеходов
Изображение с ограничивающими рамками из набора данных PreSIL, взято из GTA V. Синие прямоугольники — это ограничивающие рамки для транспортных средств, а красные — для пешеходов

Синтетические данные из GTA V по качеству тоже достаточно близки к реальным, что позволяет использовать их в обучающих сценариях не только как дополнение, но в некоторых случаях и как частичную замену реальных датасетов. Они удобны для задач восприятия и навигации. В виртуальной среде можно легко менять погоду, освещение, плотность машин, сценарии движения и положение камер, а затем быстро собирать огромные массивы данных без долгих выездов и дорогой ручной разметки. Поэтому в исследованиях на базе GTA V и других искусственно созданных датасетов такой подход давно используют для обучения систем распознавания объектов, оценки глубины, сегментации сцены и предварительного обучения моделей для автономного транспорта.

GTA V в таком кейсе — управляемая виртуальная среда, которую можно применять как исследовательскую инфраструктуру для робототехники и навигации. Это способ удешевить и ускорить сбор данных в реальном мире, благодаря чему исследователи получают возможность генерировать большие и достаточно реалистичные наборы внутри игрового мира.

Исследователи показывают, как игровой мир можно использовать в качестве источника синтетических данных для робототехники и навигации — например, для задач SLAM, визуального распознавания местности и ориентирования в пространстве. Смысл в том, что вместо долгого, дорогого и сложного сбора данных в реальном городе можно получить большой массив изображений и сцен внутри детально проработанной виртуальной среды. Авторы подчеркивают, что такие синтетические данные во многих случаях оказываются достаточно близки к реальным и могут использоваться вместе с ними, а иногда даже частично их заменять.

Процесс сбора данных. Источник
Процесс сбора данных. Источник

Сейчас мы в начале этапа, когда ИИ выходит за пределы текста, картинок и экранных интерфейсов и все активнее начинает работать в физическом мире. А значит, резко растет ценность любых данных, которые помогают системам понимать пространство, изменения среды, маршруты, объекты и человеческие действия в реальной обстановке.

Пространственный ИИ, роботы-доставщики, сервисные роботы, смешанная реальность требуют данных, которые тесно связаны с реальным миром и с тем, как в нем приходится действовать. Все чаще ценность для ИИ создается не там, где кто-то специально «собирал датасет», а там, где удачно спроектировано поведение пользователя внутри цифровой среды. 

Поэтому кейс с Pokémon Go — это не просто забавная история о том, как игроки «случайно помогли курьерам». На самом деле это гораздо более серьезный сюжет о том, как современные цифровые платформы превращают обычные действия пользователей в стратегически важный ресурс для машинного обучения.

Комментарии (0)