Привет, Хабр! Мы - команда NIKTA.AI, и на конференции ЦИПР2025 мы решили не просто участвовать, а задать жару с нашим роботом-крабом, управляемым через Visual Language Model (VLM). Пока другие команды щелкали пультами, наш краб самостоятельно принимал решения, осматривал стенд и искал объекты. Как мы это сделали за полтора месяца? Рассказываем!

Перед нами стояла задача: выделиться и удивить
Нашей целью было создать робота, который не просто выполняет команды, а сам думает и действует в реальном времени. Пульты - это прошлый век, и мы хотели показать, что AI способен управлять роботом автономно. Времени было мало - всего полтора месяца, поэтому мы выбрали готовую платформу робота с поддержкой ROS (Robot Operating System), чтобы не писать низкоуровневое управление с нуля.
Что было в коробке?
Когда робот-краб приехал, мы столкнулись с классикой: китайская документация и другие китайские сюрпризы... Разбирались, как работают сервоприводы, датчики и встроенные системы навигации. ROS отвечал за среднеуровневое управление: движение вперед-назад, влево-вправо, получение изображений с камеры и базовую навигацию. Наша задача - добавить высокоуровневое управление через VLM, чтобы робот мог:
Обрабатывать изображения с камеры.
Принимать решения на основе увиденного.
Выполнять команды, не прописанные заранее.
Как работает наш AI-краб?
Мы интегрировали VLM (Visual Language Model), которая анализирует изображение с камеры и решает, что делать дальше. Например:
Движение: робот выполняет простые команды (вперед, назад, поворот) с заданной величиной. VLM разбивает сложные задачи на подзадачи и отправляет команды по очереди.
Поиск объектов: краб осматривает стенд, передает изображение в VLM, а та определяет, есть ли нужный объект, и описывает его.
Звучит круто, но были и подводные камни...
Проблемы и как мы их решали
Задержка обработки изображений. Изначально мы запускали VLM локально на компьютере, подключенном к роботу. Результат? Задержка в несколько минут на обработку одного кадра. Для реального времени это провал. Решение: мы ограничили действия робота базовыми командами (вперед-назад, повороты) и добавили второй модем для подключения к облачной VLM. Это сократило задержку - уже можно работать!
Навигация и датчики. Датчики робота были, скажем так, не идеальны. Навигация иногда сбоила, а VLM не могла точно определить положение объекта в пространстве (ей нужны координаты, а не просто "вот там стул"). Изначально мы хотели, чтобы краб сам подходил к объекту, но из-за задержек и ограничений датчиков пришлось упростить задачу до поиска и описания.
Автономность. Мы мечтали, чтобы краб сам шел к цели, центрируя объект в кадре камеры. Но для этого нужна высокая скорость обработки изображений, которой мы не добились на локальном оборудовании. Это задача на будущее.
Что получилось?
На ЦИПР2025 наш робот-краб стал звездой! Пока другие участники жали кнопки на пультах, наш AI самостоятельно осматривал стенд, находил объекты и выполнял команды. Да, он пока не ходит к цели сам, но уже умеет:
Выполнять простые команды.
Искать и описывать объекты в реальном времени.
Работать с облачной VLM, обрабатывая запросы за секунды.
Зрители были в восторге, а мы - в экстазе от того, что успели за полтора месяца!
Что дальше?
Мы уже планируем доработки:
Улучшить навигацию, чтобы краб сам подходил к объектам.
Оптимизировать алгоритмы для работы с локальной VLM (если найдем более мощное железо).
Добавить больше автономности: пусть краб сам решает, как лучше добраться до цели.
Программирование робота-краба для ЦИПР2025 стало вызовом, который мы приняли и преодолели. Куча кофе и момент, когда ты видишь, как твой код оживает в железе. Мы показали, что AI может быть не просто алгоритмом, а настоящим партнером, который выделяет тебя среди толпы.
Как бы вы подошли к задаче управления роботом через VLM? Пишите в комментариях, обсудим! И если хотите узнать больше про наши проекты, заглядывайте на наш сайт NIKTA.AI / телеграм-канал.
Комментарии (8)
NutsUnderline
14.06.2025 21:37целью было создать робота
робот-краб приехал, мы столкнулись с классикой: китайская документация
:) :) не ну нормал на самом деле и так, но как показательно то.
sdy
На чем собран, какой проц, сколько памяти, есть ли NPU, какой? Сколько камер, есть ли лидары? Что за питание?
Nikta3 Автор
Вычислитель nvidia jetson nano 8gb, лидар YDLIDAR_G4, камера DABAI , питание 11,1v через плату распределения
NutsUnderline
еще тут про какие то модемы речь идет. что к чему?
Nikta3 Автор
Робот работает в режиме точки доступа. Подключали дополнительный WiFi адаптер для выхода в интернет