Привет, Хабр! Мы - команда NIKTA.AI, и на конференции ЦИПР2025 мы решили не просто участвовать, а задать жару с нашим роботом-крабом, управляемым через Visual Language Model (VLM). Пока другие команды щелкали пультами, наш краб самостоятельно принимал решения, осматривал стенд и искал объекты. Как мы это сделали за полтора месяца? Рассказываем!

Перед нами стояла задача: выделиться и удивить

Нашей целью было создать робота, который не просто выполняет команды, а сам думает и действует в реальном времени. Пульты - это прошлый век, и мы хотели показать, что AI способен управлять роботом автономно. Времени было мало - всего полтора месяца, поэтому мы выбрали готовую платформу робота с поддержкой ROS (Robot Operating System), чтобы не писать низкоуровневое управление с нуля.

Что было в коробке?

Когда робот-краб приехал, мы столкнулись с классикой: китайская документация и другие китайские сюрпризы... Разбирались, как работают сервоприводы, датчики и встроенные системы навигации. ROS отвечал за среднеуровневое управление: движение вперед-назад, влево-вправо, получение изображений с камеры и базовую навигацию. Наша задача - добавить высокоуровневое управление через VLM, чтобы робот мог:

Обрабатывать изображения с камеры.

Принимать решения на основе увиденного.

Выполнять команды, не прописанные заранее.

Как работает наш AI-краб?

Мы интегрировали VLM (Visual Language Model), которая анализирует изображение с камеры и решает, что делать дальше. Например:

Движение: робот выполняет простые команды (вперед, назад, поворот) с заданной величиной. VLM разбивает сложные задачи на подзадачи и отправляет команды по очереди.

Поиск объектов: краб осматривает стенд, передает изображение в VLM, а та определяет, есть ли нужный объект, и описывает его.

Звучит круто, но были и подводные камни...

Проблемы и как мы их решали

Задержка обработки изображений. Изначально мы запускали VLM локально на компьютере, подключенном к роботу. Результат? Задержка в несколько минут на обработку одного кадра. Для реального времени это провал. Решение: мы ограничили действия робота базовыми командами (вперед-назад, повороты) и добавили второй модем для подключения к облачной VLM. Это сократило задержку - уже можно работать!

Навигация и датчики. Датчики робота были, скажем так, не идеальны. Навигация иногда сбоила, а VLM не могла точно определить положение объекта в пространстве (ей нужны координаты, а не просто "вот там стул"). Изначально мы хотели, чтобы краб сам подходил к объекту, но из-за задержек и ограничений датчиков пришлось упростить задачу до поиска и описания.

Автономность. Мы мечтали, чтобы краб сам шел к цели, центрируя объект в кадре камеры. Но для этого нужна высокая скорость обработки изображений, которой мы не добились на локальном оборудовании. Это задача на будущее.

Что получилось?

На ЦИПР2025 наш робот-краб стал звездой! Пока другие участники жали кнопки на пультах, наш AI самостоятельно осматривал стенд, находил объекты и выполнял команды. Да, он пока не ходит к цели сам, но уже умеет:

  • Выполнять простые команды.

  • Искать и описывать объекты в реальном времени.

  • Работать с облачной VLM, обрабатывая запросы за секунды.

Зрители были в восторге, а мы - в экстазе от того, что успели за полтора месяца! 

Что дальше?

Мы уже планируем доработки:

  • Улучшить навигацию, чтобы краб сам подходил к объектам.

  • Оптимизировать алгоритмы для работы с локальной VLM (если найдем более мощное железо).

  • Добавить больше автономности: пусть краб сам решает, как лучше добраться до цели.

Программирование робота-краба для ЦИПР2025 стало вызовом, который мы приняли и преодолели. Куча кофе и момент, когда ты видишь, как твой код оживает в железе. Мы показали, что AI может быть не просто алгоритмом, а настоящим партнером, который выделяет тебя среди толпы.

Как бы вы подошли к задаче управления роботом через VLM? Пишите в комментариях, обсудим! И если хотите узнать больше про наши проекты, заглядывайте на наш сайт NIKTA.AI / телеграм-канал.

Комментарии (8)


  1. sdy
    14.06.2025 21:37

    На чем собран, какой проц, сколько памяти, есть ли NPU, какой? Сколько камер, есть ли лидары? Что за питание?


    1. Nikta3 Автор
      14.06.2025 21:37

      Вычислитель nvidia jetson nano 8gb, лидар YDLIDAR_G4, камера DABAI , питание 11,1v через плату распределения


      1. NutsUnderline
        14.06.2025 21:37

        еще тут про какие то модемы речь идет. что к чему?


        1. Nikta3 Автор
          14.06.2025 21:37

          Робот работает в режиме точки доступа. Подключали дополнительный WiFi адаптер для выхода в интернет


  1. NutsUnderline
    14.06.2025 21:37

    целью было создать робота

    робот-краб приехал, мы столкнулись с классикой: китайская документация 

    :) :) не ну нормал на самом деле и так, но как показательно то.


  1. NutsUnderline
    14.06.2025 21:37

    не хватает видосика с ЦИПР2025


    1. Nikta3 Автор
      14.06.2025 21:37

      Заглядывайте к нам в тг-канал). Там все есть!


      1. NutsUnderline
        14.06.2025 21:37

        vk video

        ссылка на ali тоже есть :)