На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.

Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

Хочу сразу сказать, что я непосредственно не занимаюсь инженерной робототехникой, но всегда люблю по душам поговорить с теми, кто разрабатывает разный роботех. И если робототехник я ненастоящий, то вот за софтверную часть в том числе агентологию и ллмки понимаю хорошо и на роботов смотрю как на тело-обертку, в которую можно вложить этих самых AI-агентов.

Начнем с применения, а затем перейдем к анатомии робота: механики, датчиков, тела и софта, который этим всем управляет.

Позиционирование и целеполагание

NEO позиционируется как домашний помощник, способный «брать на себя рутинные задачи по дому» – от уборки и стирки до общения с пожилыми и детьми. Про пожилых чуть позже поговорим отдельно — «elder care» шикарный рынок. Робот самоходный, может нести грузы до 25 кг, открывать двери, манипулировать предметами на полу или столе и отвечать на вопросы по контексту. Разработчики не ставят в приоритет скорость выполнения – NEO разрабатывается под неторопливую работу с человеческим комфортом с повышенным требованием к безопасности.

Самого робота называют «платформой». В конце статьи будет понятно почему.

По видосикам — впечатляет.

Видео ускорено 3Х, потому что гифка с лимитом 8 мб
Видео ускорено 3Х, потому что гифка с лимитом 8 мб
Тоже 3Х ускорение
Тоже 3Х ускорение

Безопасность

Робота тренируют под взаимодействие с достаточно хрупкими предметами (согласитесь, если робот регулярно будет проливать наше пиво, то кто потом продлит на него подписку) и на работу в ограниченном пространстве. Наши квартиры, дома и офисы — спроектированы под людей и используются людьми. Роверам или роботам пылесосам в нашем быту без подготовки некофмортно, вещи типа лестниц являются супер-блокерами, а гуманоидная форма подходит идеально. И очень важно понимать, что достаточно простые бытовые задачи (типа приготовления кофе или открывания двери) в условиях абсолютно разных ремонтов, планировок и форма-факторов — крайне сложная инженерная задача.

Под безопасность (в широком смысле) заточен и внешний вид — у робота достаточно малый вес и мягкая оболочка, что снижает риск, а внешний вид максимально приятный — эластичный корпус не акцентирует внимание на сложной механике внутри.

Софт и мозг робота

За все взаимодействие отвечает visual language transformer — собственная VLM Redwood, заточенная под e2e сценарии работы в реальном мире, которая работает сразу на борту робота. Redwood умеет все, что хорошо умеет VLM — понимать речь, соединять ее с картинкой, планировать и затем использовать то, что в агентных системах называется «инструментами», а именно — передавать команды физическим механизмам. Про механизмы мы еще поговорим, а пока пару слов о том, что представляет собой Redwood и как происходит обучение модели.

У робота есть возможность удаленного управления, то есть, к роботу может удаленно подключиться оператор и направлять команды вручную. И пока (это важно) — это основной способ управления. Пока — это 2026 год, что явно зафиксировано в договоре покупки. Каждый купивший робота дает право удаленному оператору управлять роботом. Автономности сейчас нет.

Большое количество fakeAI-проектов широкой публике дарит ощущение, что всех опять обманули, будущее не наступило и роботом управляет очередные низкооплачиваемые ребята из небогатых стран. Это так, но в данном случае это супер круто, потому что позволяет контролируемо набивать данные для обучения, без которых невозможно построить модель, которая сможет постепенно учиться на этих данных. Чем больше будет датасет, чем он будет качественнее, тем быстрее и лучше будет обучаться Redwood для выполнения простых задач. А значит постепенно и сложность решаемых задач именно моделью будет повышаться.

Чем обладает Redwood:

  • Умеет обобщать: может выполнять задачи, с которыми раньше не сталкивалась — например, подбирать незнакомый предмет в новой обстановке. Redwood училась на большом массиве данных с VR-управляемых и автономных сессий, поэтому у нее появляются «естественные» новые навыки, вроде самостоятельного выбора подходящего способа действия

  • Манипуляции всем телом: Redwood заявляется как одна из первых VLA-моделей, которая одновременно контролирует ходьбу и работу рук. Робот может опираться на поверхность, переносить вес, наклоняться и использовать все тело, чтобы выполнить задачу — так же, как работает человек, сталкиваясь с чем-то тяжелым или неудобным

  • Бимануальная работа в движении: робот может точно подойти к объекту и работать обеими руками даже в движении, что очень важно в бытовых задачах

  • Все работает прямо на роботе (по их заявлениям): Redwood оптимизирована под edge-выполнение, то есть многие процессы происходят локально и все работает на GPU NEO с 5 Hz

Cross-Embodiment Architecture

Несмотря на небольшой размер модели (160M параметров), Redwood учат не только предсказывать действия, но и решать вспомогательные «когнитивные» задачи — например, определять положение рук и объектов в кадре. Такие задачи помогают модели лучше понимать окружающее и уверенно действовать в новых условиях.

В большинстве роботосистем движения и манипуляции разделены. Но в быту этого недостаточно: мы сгибаемся, наклоянемся, опираемся и делаем многие вещи, которые требуют контроля и синхронизации всего тела и рук, и модель учат именно под таким совместные действия.

Пару слов про 5 Hz: это означает 200 миллисекунд между кадрами обработки. Для контекста: человеческая реакция на визуальный стимул — около 250ms, но для точной манипуляции наши нейроны работают с задержкой 10-50ms на уровне рефлексов. 200ms — это достаточно для медленных, планируемых движений (взять чашку со стола, открыть дверь), но это узкое место для динамических задач. Если робот начнет ронять объект, у него будет только один кадр на реакцию. Поэтому задачи робота — медленный и предсказуемый быт, что, впрочем, покрывает 90% домашних задач.

Управление голосом

Redwood отвечает за управления зрением, движением и манипуляциями, и работает на борту, но распознавание голоса вынесено наружу: речь распознается, извлекает задачу и через sentence encoder преобразует в эмбединг, который передается уже в модель. Кажется, именно здесь спрятана хитрость — тяжелая расшифровка и планирование происходят в облаке, а прилетают уже в устройство готовой задачей. В будущем часть таких операций планируют перевести на само устройство. Риторический вопрос: насколько «все работает на борту», если одна из ключевых задач происходит в облаке?

И насколько хорошо работает Redwood сейчас? Сложно сказать. Скорее всего, все самые классные демки сделаны VR-оператором, но то, что такая точно модель разрабатывается, а данные копятся — это факт.

Как устроена механика

Высота NEO — 1.68м, вес около 30 кг. Это гуманоид с троссовыми приводами (tendon-driven actuation, tendon-приводы) вместо традиционных гармонических редукторов: силовые тросы тянут компактные моторные узлы, обеспечивая высокое отношение мощность/масса. Общая идея — повторение мышц, конкретно внутренней схемы NEO нет, но вот картинка общего принципа работы (центральный стержень + диски маршрутизации + тросы; приводы тянут троссы → сегменты изгибаются):

Оно же обеспечивает низкий шум (~22 дБ), безопасное взаимодействие и высокое соотношение мощность/вес. Каркас и электроника закрыты 3D-эластичным полимером для энерго-демпфирования и защиты при контакте с человеком. Суставы скрыты, износные элементы — модульные и заменяемые.

У таких механизмов есть понятие степеней свободы (оно же ось движения), DOF (Degrees of Freedom). Если грубо, то это количество независимых направлений, в которых робот может двигаться или вращать узлы. Например, сустав руки, который сгибается — 1 DOF, шаровой плечевой сустав (вперед/назад, вверх/вниз, вращение) — 3 DOF. DOF отвечает за «человечность» моторики: чем их больше и чем они распределены ближе к анатомии человека, тем робот точнее повторяет движения человека (манипуляции, баланс, устойчивость, ловкость рук).

DOF в NEO: 22 DOF на каждую кисть, 7 на каждую руку-манипулятор (предплечье/локоть/плечо), 3 — шея, 2 — торс, 6 на каждую ногу. Общее количество — 75 DOF.

Это была красивая часть, а некрасивая часть заключается в том, что троссовые приводы — технология не новая и у нее есть ряд проблем. Хотя троссы могут быть очень разными, технологичные сверхвысокомолекулярные полиэтиленовые могут служить до 10000+ часов без калибровки, стальные держатся около 500-1000 часов. Если трос порвется внутри закрытого корпуса, то его замена превратится в катастрофу. А любое натяжение создает люфт и для сверхточных операций это большая проблема.

Но все же для домашнего робота тросы — решение скорее правильное, потому что это в промышленности важны скорость и точность, а дома ключевыми являются безопасность и тихая работа.

Аппаратные датчики и железо

Аппаратно NEO основан на вычислительном модуле 1X Cortex, построенном вокруг NVIDIA Jetson Thor: это система локального планирования и восприятия с производительностью в пике до ≈2070 TFLOPS FP4-Sparse и поддержкой до 128 GB оперативной памяти.

Важная деталь, которую стоит раскрыть отдельно: NVIDIA Jetson Thor построен на архитектуре Blackwell GPU. Это не просто очередной чип — это архитектура четвертого поколения тензорных ядер с поддержкой Multi-Instance GPU (MIG).Что это значит на практике? MIG позволяет разделить один физический GPU на до 7 изолированных инстансов с выделенными вычислительными ресурсами, памятью и кешем. Это критично для робототехники: можно одновременно запустить «быструю» систему реагирования (например, контроль баланса при падении) и «медленную» систему планирования (например, построение маршрута) без взаимных помех и с гарантированным латенси для критичных задач.

Blackwell дает 2560 CUDA-ядер, 96 Tensor Cores и 14-ядерный ARM Neoverse-V3AE CPU — всё это в пакете с потреблением 40-130W. Именно эта мощность позволяет запускать Redwood локально, без облака.

Зрение, аудио и мирощущение

За зрение отвечают две стерео-Fisheye RGB-камеры 8.85 МП с частотой ~90 Гц. Стерео-пара позволяет воспринимать глубину сцены (как у человека), а fisheye дает сверхширокий угол обзора — критично для навигации в тесных помещениях.

За голос — 4 микрофона с beamforming. Beamforming (формирование луча) — технология, при которой несколько микрофонов позволяют точно вычислить направление источника звука и усилить сигнал именно с нужного направления, подавляя шумы с остальных сторон. Это позволяет понять направление, откуда была подана команда и более точно выделять голос человека. За вывод звука отвечают 3 динамика (расположены в тазу и груди), которые могут работать как Bluetooth-колонка.

За проприоцепцию (внутреннее «чувство тела») отвечают force/torque сенсоры и позиционные энкодеры в каждом суставе. Они измеряют усилие, момент и точное положение суставов — эти данные критичны для точных манипуляций и безопасного взаимодействия с людьми.

За визуальную коммуникацию отвечают Emotive Ear Rings — световые кольца на «ушах», индицирующие состояние робота (уровень батареи, режим внимания, активность оператора).

За сеть — Wi-Fi, Bluetooth и 5G. Оператор может подключаться через VR-телеприсутствие.

Питание обеспечивает аккумулятор на 842 Wh, дающий примерно четыре часа реальной работы. Робот может сам подключаться к док-станции, но этим нас уже давно и примитивные роботы-пылесосы не удивляют.

Стратегия через призму найма

Достаточно недурный прокси-способ понять настоящие планы какой-то компании — посмотреть их найм. Я посмотрел и вот что ищут создатели NEO и вот топ-3 по уровню зарплат:

  1. World Models — строят фундаментальную модель, которая «понимает физический мир» через предсказание будущего

  2. Data Infrastructure — готовятся к массивному сбору данных с флота роботов + покупка внешних датасетов

  3. Robot Character — эмоциональный интеллект, личность, доверие. Робот должен стать «членом семьи», не просто инструментом

Если свести к циферкам, то 2026-2027 — сбор данных, 2027-2028 — автономность через World Models (scaling laws → предсказуемое улучшение), 2028 — персональный AI-робот для семьи.

Про World Models стоит поговорить отдельно, потому что это самая недооцененная часть.

World Models

Робот облажался с новой кофеваркой? Ок, поправили, но как теперь это все протестировать? Решением выступает 1X World Model (1XWM), генеративная видео-модель, которая принимает начальное состояние и команды действий, после чего генерирует видео будущего с предсказанием успеха задачи. Это фактически симулятор реального мира, обученный не на физике, а на данных с роботов.

И вот тут случается магия, потому что любая проблема получает состояние, которое можно прогнать сколько угодно раз и затем на котором можно натренировать новую политику. Это позволяет строить базу фейлов реальной жизни и тестироваться на каждом из них. И здесь очень важно иметь данные с автономности, потому оператор, скорее всего, будет работать выверенно и точно.

Что еще интересного? Все вакансии связаны с AI, где-то проскальзывает идея, что «механика уже достаточно хороша», нужен классный софт. Они думают про «fleet» (парк роботов) на масштабах десятков-сотен тысяч роботов. В одной из вакансии ищут «NeRF + 3D Gaussian Splatting», что говорит о серьезной ставке на «аватаризм», когда оператор физически ощущает то, чем он управляет.

Вакансия «Autonomy» самая расплывчатая, что говорит о том, что у них пока нет четкого понимания, КАК именно строить правильную автономность.

По итогу изучения вакансий становится понятно, что они метят в «Robotics OpenAI»: создать самую сильную foundation model в робототехнике. Они не пытаются «открыть нашу дверь», они пытаются «открыть все двери в мире».

LLM взлетели, когда туда залили много данных, у роботов получение данных — огромная проблема. И именно ЭТУ проблему сейчас своим няшным роботом пытается решить компания 1X (̶б̶е̶т̶ ̶с̶т̶а̶в̶к̶и̶ ̶н̶а̶ ̶с̶п̶о̶р̶т̶)̶.

И еще раз про примение

Форм-фактор, софт, железо — разобрались. То, что робот заявляет полную автономность, но по факту следующий год (как минимум) НИКАКОЙ автономности не будет, а будут только операторы — тоже. А это, кстати, — вопрос приватности.

Дальше будет философия и все это — глубоко авторское мнение. Я скрыл его под спойлер.

Авторская философия

На мой взгляд — вопрос «приватности» переоценен. Мы УЖЕ привыкли к тому, что нашей приватности становится все меньше (тема исчезающей приватности идеально подходит для бара, но мы не в баре): к нам приходят клинеры/няни/помощники, а дома увешаны облачными камерами. Честно говоря, я в этом плане параноик — мне не нравится, когда чужие люди приходят ко мне в дом, даже если я им доверяю и вообще это их работа. И здесь возникает прикольный trade-off: пускать к себе домой физического человека, который банально может что-то украсть или чем-то навредить или же пускать к себе домой VR-оператора, который сквозь континенты оперирует МОИМ роботом. И, честно говоря, я с гораздо большим удовольствием пустил бы к себе в дом робота, который за 3Х больше времени у меня бы убрался и ХОРОШО порешал весь быт.

Верю ли я в рынок «домашних помощников»? Честно говоря, не особо, не на дистанции лет в 5 точно. Потому что уборка — это не только про камеры и звук. Это еще про многое то, что ну никак не передашь удаленно: грязь в труднодоступных углах, пыль которую найдешь только проведя пальчиком, капли жира на поверхности и банальный запах курочки в духовке.

А приготовление еды? Я шикарно готовлю и даже при таких вводных точно не смогу приготовить все то же самое через VR. Это химия момента. Но с другой стороны, любимые блюда роботу не отдашь, но какую-никакую яичницу он сделать смог бы — и прийти на все готовенькое с утречка было бы тоже хорошо.

Такой робот будет работать как работает типичный LLM-based софт: мы выбиваем 60-70 успеха решаемой задачи практически из коробки и тратим безумное количество времени на пробивание каждых следующих 5%. Но означает ли это, что такой робот бесполезный? Конечно же нет. Я отношу себя к тому, что в английском мире называются «early geek adopters» и прекрасно помню как многие скептически относились к возможностям LLM. Но караван очень даже идет дальше. Кучу классного кода пишет AI, но кто был готов поставить на это два года назад?

Так же и с роботами. На них не нужно смотреть сейчас, это история про несколько (много) лет вперед.

Возможно, в процессе работы случится десяток самых разных изменений концепций и планов. Не факт, что робот хорошо заведется для домашней уборки, но он точно будет хорош для elder care, то есть, ухаживания за пожилыми. Такой робот эмпатичен, может принести стакан воды, напомнить про таблетки, поможет встать и многое другое. Плюс визуальный контроль и оперативное вмешательство в случае сложных ситуаций.

Этот робот — это не робот как таковой. Это прикольная игрушка, которая на самом деле является серьезный data collection платформой для обучения большой фундаментальной роботной e2e модели. Это самый важный факт.

Здесь врядли кто-то сможет точно предсказать будущее. Но то, что гуманоидная робототехника быстро развивается, агентные системы быстро развиваются, это уже медицинский факт. И если все это соединится воедино, плюс отполируется криптой (как средством робототоварного обмена), то наш мир может сильно измениться.

Или нет. Но AI-агенты, LLMки и роботы с нами надолго. И это круто!

Будем следить!

Спасибо!

Мой крафтовый тг-канальчик Agentic World и другие статьи:

Комментарии (4)


  1. NeriaLab
    04.11.2025 11:43

    Замечательная "игрушка", но не более того. Автор забыл упомянуть небольшой конфуз: https://www.youtube.com/shorts/Y_1cen1P73U


    1. antipov_dmitry Автор
      04.11.2025 11:43

      Вы статью-то читали вообще или сразу в бой?


      1. NeriaLab
        04.11.2025 11:43

        Да, читал и Вы указали:

        "Форм-фактор, софт, железо — разобрались. То, что робот заявляет полную автономность, но по факту следующий год (как минимум) НИКАКОЙ автономности не будет, а будут только операторы — тоже. А это, кстати, — вопрос приватности."

        Но разработчики об этом объявили только тогда, когда их уличили в "этом небольшом обмане". Вот если бы сразу было объявлено, то и претензий к компании не было и хейта не было


  1. Moog_Prodigy
    04.11.2025 11:43

    Ну если приватности нет, то в приватные зоны типа жилья таких роботов пускать не стоит. Вот в гараже например, мне бы было все равно - пусть оператор управляет, сортируя инструменты и запчасти. Паять всякие штуки ему не хватит точности по механике, но задачи уборки и сортировки вещей - штука нужная. Ключи вон пусть подает. Тут подержать, там чуть прижать. Если это даже на весь мир будет транслироваться - да ради бога. Таких публичных мест, где можно применить этого робота - в принципе навалом. В магазине - продавец, в народе - колхозник...

    Но. Что, если оно никогда не станет автономным? Что, если это просто способ натаскать нейронки, и при этом "бета-тестеры" за это еще и платят? А потом облако чик - и усе. Или тырнеты. Груда металла. Дорогая груда металла.