Восприятие и навигация для мобильных роботов / forpes.ru

Главная
Восприятие и навигация для мобильных роботов

Восприятие и навигация для мобильных роботов +11

31.07.2025 13:10

pavllan98 1 449 Источник

Мобильные роботы стремительно проникают в быт и деловую среду. Их все чаще используют для уборки дома, управления складом, работы в опасных зонах и даже исследования космоса. Например, в 2024 году рынок мобильных роботов составил 21,6 млрд долларов, а к 2032 году его размер может вырасти до 43,9 млрд долларов.

Источник: https://www.databridgemarketresearch.com/ru/reports/global-mobile-robots-market

Эта динамика во многом связана с развитием ИИ, который улучшает восприятие, обработку данных и навигацию мобильного устройства.

Меня зовут Павел Колесник, я главный инженер-разработчик Центра Робототехники Сбера. Здесь я подробно расскажу как устроены наши мобильные роботы, что они умеют и как мы планируем их развивать.

Мобильные роботы: зачем нужны и как работают

Мобильные роботы используют для автоматизации задач, связанных с перемещением в пространстве — например, в городской, сельскохозяйственной или промышленной среде. При этом, для каждого окружения нужны разные стеки, основанные на трех базовых элементах:

Восприятие. Определяет, как робот воспринимает окружающий мир — например, через камеры, сенсоры или датчики.
Навигация. Анализирует данные от perception и формирует для робота управляющие команды.
Память. Фиксирует окружающую среду и собранные во время работы данные.

Два года назад мы использовали стек под конкретную задачу — он работал отлично. Но новые вызовы и развитие ИИ подтолкнуло нас к созданию General Purpose Stack — универсальной архитектуры для разных задач, условий и типов роботов. Ключевую роль в этом сыграли:

Foundation модели. Вместо простого 2D-perception можно использовать 2.5D, 3D и даже латентное восприятие.
Vision Language модели. Дают свободную навигацию — робот самостоятельно планирует путь и не зависит от фиксированного маршрута.
Reinforcement Learning и Model Predictive Path Integral. Повышают маневренность и адаптивность робота.

Эти технологии помогли нам улучшить наш стек — сейчас он состоит из следующих компонентов:

Spatial Perception. Собирает данные с сенсоров и переводит их в понятную роботу форму.
Metric SLAM. Помогает устройству ориентироваться в пространстве. Система строит глобальную карту и указывает точное положение робота относительно его начальной позиции.
Knowledge Mapping. Создает семантическую карту со всеми объектами, которые встречаются на пути у робота.
Global Policy. Принимает стратегические решения — куда идти, какие приоритеты ставить, когда менять маршрут. Это уровень высокого планирования и поведения.
Whole Body Control. Контролирует механические движения робота — например, управление моторами, стабилизация или динамика тела.

Ниже разберем 3 важных элемента этой архитектуры — spatial perception, knowledge mapping и global policy.

Spatial perception — как робот видит мир

В своих роботах мы активно используем лидары, моно-RGB и стерео-RGB. Например, на передней части корпуса установлены лидары и вертикальная стереопара, а сзади — дополнительный набор сенсоров. Модуль Perception получает от них информацию и формирует:

Карту глубины.
Мультимодальную карту возвышений.
Семантическую сегментацию объектов.
Кодировку сцены в виде латентных векторов.

Например, карту глубины — изображение, которое показывает расстояние от камеры до объекта — можно получить в трех режимах:

Стереорежим. Определяет расстояние до объекта с двух точек обзора. Это самый стабильный способ с высокой консистентностью — примерная глубина остается одинаковой от кадра к кадру.
Монорежим. Работает с одним изображением. Менее точная альтернатива стерео.
Depth Completion. Комбинированный способ. К монокартинке добавляется лидарный «паттерн», спроецированный из 3D в 2D — это улучшает оценку глубины.

Полученная карту глубины преобразуется в облако точек — набор координат в 3D пространстве. Но и это слишком сырой формат для навигации робота. Чтобы система могла принимать решения, мы трансформируем облако точек в мультимодальную Elevation Map — карту возвышений.

Допустим, вокруг робота лежит сетка размером 5 на 5 метров, разбитая на ячейки по 5 сантиметров. В каждую ячейку мы можем занести:

Высоту возвышения.
Данные о семантическом классе поверхности — например, пол, стена или препятствие.

В итоге получается такое изображение:

Вверху скриншота — карта возвышений, а внизу — семантическая проходимость, основанная на этих данных.

Кроме карт возвышений, облако точек можно закодировать в латентное пространство — компактное векторное представление окружающей среды. После этого латентный вектор можно:

Декодировать обратно в карту, заполняя не покрытые сенсорами пустоты в данных.
Передать в обучаемые модели навигации, которые на основе этих векторов учатся принимать решения и строить маршруты.

Кроме того, мы активно применяем сегментацию для автоматической разметки данных — это сильно ускоряет подготовку обучающих выборок.

Knowledge mapping — как робот запоминает сцену

Память — один из самых объемных модулей в нашем стеке. Здесь используется сразу несколько крупных моделей и длинный пайплайн обработки. Вот как выглядит этот процесс:

С камеры поступает RGB-изображение и карта глубины.
RGB-снимок отправляется в VLM, которая возвращает текстовое описание сцены.
На основе этих данных строится граф объектов. В нем каждый узел — это обнаруженный элемент окружения, а связи между ними описывают их пространственные и логические отношения.

После этого подключается 3D-информация — мы дополняем граф облаками точек и отдельными характеристиками объектов. В результате выходит насыщенное представление среды, с которым может работать высокоуровневый планировщик.

Именно современный ИИ сделал этот модуль возможным. Раньше такие задачи решались вручную — например, для ориентирования применялись HD-карты, которые собирались людьми, в том числе в полуручном режиме. Это занимало много времени и плохо масштабировалось.

Теперь все иначе — например, VLM автоматически создают текстовое описание сцен, а LLM помогают формировать логические связи между объектами в графе.

Global policy — как робот строит маршрут

Глобальный планировщик помогает роботу решить, как двигаться по всему видимому пространству. Его принцип работы похож на навигатор, который строит оптимальный маршрут от текущей точки до конечной цели. Робот действует аналогично — он планирует путь, опираясь на глобальную карту помещения, созданную за время первичного сканирования среды.

В основе системы лежит граф Вороного, построенный на базе Elevation Map. Он определяет проходимые зоны и формирует плотную сеть маршрутов, по которой робот может найти кратчайший путь до нужной точки.

При этом, глобальный планировщик нужен не для всех задач. Например, когда робот-доставщик перемещается по городу, то прокладывает маршрут между пунктами по заранее построенной глобальной карте. Но когда ему нужно проехать внутри двора, объехать препятствие или найти конкретный подъезд, робот получает короткие текстовые команды — например, «ехать вперед 5 метров, повернуть направо и остановиться у двери». В этом случае система использует данные с камер и сенсоров. Такой подход позволяет эффективно выполнять задачи без необходимости строить полный маршрут заранее — это особенно важно в сложной городской среде.

Влияние ИИ на глобальное планирование

В последние годы ИИ заметно продвинул нас в области глобального планирования. Теперь наши роботы используют VLM не только для распознания среды, но и для построения маршрутов. Кроме того, VLM помогает автоматически генерировать данные для обучения и тестирования системы.

Все это улучшает ключевые показатели, например:

Метрика перехвата на круг. Показывает, как быстро робот возвращается на маршрут после отклонения.
Время на круг. Определяет, сколько времени уходит на полный цикл движения по маршруту.
Время прохождения дверей. Фиксирует, как робот справляется с узкими проходами и препятствиями.

Эти показатели напрямую отражают «ловкость» и адаптивность системы — что особенно актуально для тесных офисных пространств, в которых крупному роботу маневрировать непросто.

Например, слева на скриншоте показана карта с нашего полигона, на котором мы проводили тестирование. А справа — графики прогресса перечисленных выше метрик.

Дальше мы будем развивать сквозной подход, который объединяет глобальное планирование, память и управление в единую систему. Со временем мы собираемся внедрить:

VLN (Visual Language Navigation). Компонент для end-to-end глобального планирования.
Подключение памяти. Поможет роботу принимать решения за счет накопленных знаний.
Дополнительные модальности. Модель будет учитывать не только изображения, но и 3D-данные, звук и другие сигналы
Латентную политику. Даст прямое управление роботом на основе векторных представлений среды.

Несмотря на то, что AI ощутимо продвинуло наш стек, классическая архитектура осталась крайне полезной — она помогает внедрять новые end-to-end компоненты без риска сломать уже работающие решения. Также все, что мы делали раньше, останется актуально - будем использовать эти наработки для data mining, дистилляции моделей и специальной кодировки.

Заключение

Современный ИИ существенно улучшил восприятие и навигацию наших мобильных роботов. Они научились фиксировать окружение в 2,5D и 3D форматах, самостоятельно прокладывать маршруты, а также стали более адаптивными и маневренными.

Все это позволит нам полноценно использовать end-to-end поход, перешагнуть через ограничения классических методов и приблизиться к реализации General Purpose Stack — универсального решения для разных задач и видов роботов.

Комментарии (1)

lavr2004
02.08.2025 08:49
#28652040
Прызнаюся: кірунак тэмы цікавы, але артыкул нецікавы.

Відаць няма да чаго далучыць усё выкладзенае тут.