Введение: почему ASIMO умер, а роботы из гаража — нет

Компания Honda потратила миллиарды долларов и десятилетия на ASIMO — робота, который умел ходить по сцене, подниматься по лестнице, танцевать. Я следил за ним всю юность. Для меня он был символом будущего, которое вот-вот наступит.

Но ASIMO так и не стал полезным в реальном мире.

Почему? Потому что его учили вручную: инженеры прописывали каждый шаг, каждый сустав, каждое движение. Мир оказался слишком разнообразен для жёстких алгоритмов. Лестницы бывают разной высоты, освещение меняется, люди двигаются непредсказуемо. Под каждый новый сценарий нужно было писать новый код, тратить месяцы тестирования.

А сегодня маленькие стартапы и энтузиасты собирают роботов, которые балансируют на одной ноге, встают после падения, адаптируются к новой обстановке за считанные часы. Что изменилось?

Сменился подход. Вместо программирования движений мы начали обучать их в симуляции. Но это только первый шаг. Следующий — дать роботу мозг, способный думать, планировать и даже переписывать свой код под задачу.

Часть 1. Классическая архитектура: ROS и её ограничения

ROS (Robot Operating System) — это не операционная система, а middleware, набор инструментов и библиотек, ставший стандартом в академической и промышленной робототехнике.

Всё в ROS завязано на жёсткие сообщения между узлами, на предопределённые сценарии. Чтобы научить робота новому действию, нужно:

  • написать новый узел на C++ или Python,

  • прописать интерфейсы взаимодействия,

  • протестировать в симуляции и на реальном роботе,

  • интегрировать в общую систему.

Это требует квалифицированного программиста, знакомого с архитектурой ROS. И это не масштабируется: каждое новое действие — новый цикл разработки.

Главный минус ROS — он не умеет учиться. Он выполняет то, что заложено разработчиком. Встретил нестандартную ситуацию — встал в ступор или выполняет аварийную остановку.

Для конвейерной промышленности, где среда строго контролируется, этого достаточно. Но как только робот попадает в непредсказуемый мир — дом, улицу, стройку — жёсткие алгоритмы дают сбой.

Часть 2. Новая парадигма: LLM как мозг, агент как тело

Представьте архитектуру, в которой робот состоит из нескольких уровней, аналогичных нервной системе живого существа.

Рефлекторный уровень — быстрые реакции, не требующие "думания". Например, отдёрнуть руку от горячего. В роботе это может быть микроконтроллер с простыми датчиками, который за миллисекунды останавливает моторы при внезапном препятствии. Безопасность и базовые рефлексы.

Сенсорный уровень — обработка данных от камер, микрофонов, сложных датчиков. Здесь работают нейросетевые модели: YOLO для детекции объектов, Vosk для распознавания речи, лёгкие VLM для понимания сцены. Этот уровень даёт семантическую информацию: «я вижу кота», «слышу команду "иди сюда"», «передо мной дверь».

Уровень планирования — большая языковая модель (LLM), которая получает семантическую информацию и цель (от пользователя или вышестоящей системы) и строит последовательность действий. LLM может быть локальной или облачной. Она не привязана к железу, она мыслит абстрактно.

Уровень исполнения — агентный фреймворк, который получает от LLM инструкции и вызывает конкретные инструменты: повернуть колёса, включить камеру, открыть файл, отправить запрос в интернет. Агент — это «руки», выполняющие приказы мозга.

Такая архитектура отделяет мышление от исполнения. LLM не нужно знать, как именно устроены моторы; она оперирует понятиями «вперёд», «налево», «взять объект». Агентный слой переводит это в сигналы для железа.

Часть 3. Что такое агентный фреймворк и почему это не просто библиотека

Агентный фреймворк — это не робот и не нейросеть. Это оркестратор, который соединяет:

  • Каналы связи — мессенджеры, голосовой интерфейс, веб-формы. Через них пользователь или внешняя система даёт команды.

  • Модели ИИ — LLM, VLM, STT/TTS, которые анализируют запросы и генерируют решения.

  • Инструменты — модули, выполняющие конкретные действия: управление моторами, чтение файлов, запуск внешних программ, работа с API.

Фреймворк не обладает собственным интеллектом. Он только маршрутизирует запросы и вызывает инструменты. Вся логика — в LLM. Это как операционная система, которая запускает приложения по команде пользователя, но сама не знает, что они делают. А с развитием LLM и робот становится умнее.

Такой подход даёт невероятную гибкость. Чтобы научить робота новому действию, не нужно писать код на C++ и перекомпилировать прошивку. Достаточно описать это действие словами — LLM поймёт, разобьёт на подзадачи и через инструменты выполнит.

Часть 4. Как LLM выходит за пределы текстового окна

Раньше большие языковые модели были заперты в чате: пользователь писал сообщение, модель отвечала. Теперь, благодаря агентным фреймворкам, LLM получает доступ к реальному миру.

Она может:

  • Сказать агенту: «открой файл конфигурации, найди параметр скорости, увеличь его на 10% и сохрани». Агент выполнит — и робот начнёт ездить быстрее.

  • Запустить внешнюю программу, дождаться результата и применить лучшую траекторию.

  • Если робот встречает препятствие, с которым не справляются локальные рефлексы, LLM может проанализировать ситуацию через камеру, придумать обходной манёвр и отдать команду.

Уже сейчас есть проекты, где это работает: Open Interpreter даёт LLM доступ к консоли и файлам, Claude Computer Use позволяет модели взаимодействовать с интерфейсом компьютера. Они пока экспериментальные, но направление задано чётко.

Самообучающаяся кодовая база

Самое радикальное следствие агентной архитектуры — робот больше не ждёт программиста. LLM может проанализировать задачу, понять, что для её решения не хватает инструмента, сгенерировать код нового модуля, оттестировать его в симуляции и, если тесты пройдены, внедрить в рантайм. Это превращает робота из исполнителя в саморазвивающийся организм.

В более отдалённой перспективе — самостоятельное написание недостающих модулей. LLM сможет создать новый инструмент, протестировать его в симуляции и внедрить в систему.

Часть 5. Почему это вытеснит ROS (и когда)

ROS не умрёт в том смысле, в каком не умер ассемблер. Он останется там, где нужен абсолютный контроль над железом: в драйверах, в системах реального времени, в сертифицированных промышленных решениях.

Но уровень принятия решений уйдёт из него навсегда.

В мире, где требуется адаптивность — в домашних роботах, сервисных, исследовательских, спасательных — агентные архитектуры будут доминировать. Потому что:

  • Не нужно прописывать все сценарии. Мир слишком разнообразен, чтобы создать исчерпывающую базу правил. LLM, обученная на огромных данных, умеет обобщать и находить аналогии.

  • Не нужно ждать обновлений от разработчика. Робот может сам дообучаться под новые задачи, обращаясь к LLM за советом.

  • Можно использовать любое железо. LLM не привязана к конкретной платформе. Она прочитает документацию и разберётся, как управлять новым датчиком или мотором.

  • Система учится и растёт. Каждый решённый кейс может быть сохранён и использован в будущем.

Часть 6. Что это даёт обычному человеку?

Представьте, что любой бытовой прибор может стать «умным» не потому, что в него встроили дорогой чип с ИИ, а потому, что он подключён к агентному фреймворку и может получать инструкции от LLM.

Кофемашина, которая запоминает, с какой интонацией вы просите кофе, и через неделю сама предлагает привычный напиток.

Робот-сборщик мебели, которому достаточно показать чертёж — и он сам разберётся, в какой последовательности собирать шкаф.

Умный дом, где не нужно программировать сценарии под каждый случай. Вы просто говорите: «Если я прихожу с работы уставший, включи расслабляющую музыку и сделай чай». Агент сам подберёт нужные действия.

LLM понимает контекст, а агентный фреймворк даёт ей инструменты. И главное — это уже не требует команды разработчиков. Достаточно одного человека, который умеет формулировать задачи.

Часть 7. Проблемы и вызовы

Новая парадигма не лишена сложностей.

Безопасность. Если LLM может изменять конфигурацию и запускать программы, нужны строгие ограничения: песочницы, подтверждение опасных действий, изоляция от критических систем.

Надёжность. LLM ошибается. Необходимы механизмы верификации решений: тестирование в симуляции, запрос подтверждения у человека, откат к предыдущему состоянию.

Энергопотребление. Запуск LLM требует ресурсов. Но прогресс колоссальный: модели становятся меньше и эффективнее, а процессоры — мощнее.

Этические аспекты. Кто отвечает, если робот, действуя по инструкции LLM, навредит? Разработчик? Пользователь? Провайдер модели? Юридические рамки ещё предстоит создать.

Все эти проблемы решаемы. Сообщество уже работает над инструментами для безопасного и надёжного взаимодействия LLM с внешним миром.

Заключение

Мы стоим на пороге смены парадигмы в робототехнике и автоматизации. ROS и классический подход были необходимы, чтобы научиться делать роботов вообще. Теперь, когда они есть, пришло время научить их думать.

LLM и агентные архитектуры — это не модные слова, а новый способ строить системы, которые могут адаптироваться, учиться и развиваться.

И что особенно важно — это доступно каждому. Не нужны миллионные бюджеты и команды программистов. Нужна идея, немного железа и желание разговаривать с ИИ. Всё остальное он сделает сам.

Потому что теперь у него есть не только голова, но и руки.

UPD:

Дело не в том, можно ли построить агента на ROS (можно). Дело в том, что агент перестаёт быть привязан к конкретной железке.

Сейчас мы не зацикливаемся на конкретном роботе. Мы строим помощника, который будет сопровождать вас где угодно: в умном доме, в автомобиле, на рабочем компьютере, даже в вашем смартфоне. Он будет ассистировать, где бы вы ни были, помнить контекст, привычки, намерения.

Посмотрите на современные проекты на базе ROS с LLM — они уже сейчас выглядят так, будто ROS в них не архитектурный центр, а просто один из tools (инструментов), который агент дёргает по необходимости. Не генплан, а подсобка с полезными вещами. Достал, воспользовался, убрал.

ROS решает задачу: «как повернуть мотор, чтобы поехать». А агент решает задачу: «как быть с тобой рядом, где бы ты ни был».

Робот, возможно с ROS внутри, будет лишь одним из воплощений этого помощника. А сам агент живёт там, где есть ты.

Вот где заканчивается эпоха ROS как центра всего.


P.S. От автора

Этот текст родился из практики. Три недели назад, не имея опыта в программировании, я собрал работающего робота на старом смартфоне и ESP12, используя DeepSeek как соавтора. Именно сейчас мы пишем ИИ агента для реализации автономности. Первая статья — «Робот из того, что ты выбросил» — была про эмоции и философию, вторая - техническая часть. Эта третья — про будущее, которое мы уже начали строить.

Комментарии (8)


  1. utya
    12.03.2026 05:54

    Все же название статьи кликобейт. Тот подход о котором вы пишите, реконфигурируемая, так сказать адаптивная система очень хорошо ложиться в ros. И может на нем работать. Так что одно другому не мешает. За статью спасибо


    1. JackCarter33 Автор
      12.03.2026 05:54

      Спасибо за комментарий, согласен, ROS — мощный инструмент, и на нём можно собрать что угодно, включая агентные системы. Моя мысль скорее про то, что центр тяжести смещается: раньше разработчик вручную описывал поведение через ноды, а теперь это будет делать LLM, а ROS становится лишь транспортом. Как ассемблер — он никуда не делся, но мало кто пишет на нём бизнес-логику. Так и здесь: эпоха ROS как основного способа мышления уходит, уступая место агентным архитектурам. Но как инструмент — конечно, останется. Всё-таки десятки лет эта среда "затачивалась" под робототехнику


  1. fenixion
    12.03.2026 05:54

    Вы дали правильное определение ROS и сделали неправильный вывод:
    "Главный минус ROS — он не умеет учиться. Он выполняет то, что заложено разработчиком. Встретил нестандартную ситуацию — встал в ступор или выполняет аварийную остановку."

    ROS гибок и в нём нет препятствий для создания агентных роботов на основе VLM или LLM.
    Вот пример такого агента - https://vkvideo.ru/video-219386643_456239085


    1. JackCarter33 Автор
      12.03.2026 05:54

      Вы правы: ROS не запрещает создавать агентные системы, ROS 2 активно развивается и.к. десятилетия специально под него пилили софт и моментально отказаться от того же качественного SLAM, выверенной асинхронности - значит начать "изобретать велосипед". Вопрос не в том, что на ROS нельзя построить такого робота, а в том, что мышление разработчика перестаёт быть завязано на ROS. Раньше, чтобы научить робота новому действию, ты писал новую ноду. Теперь ты описываешь действие словами, LLM его интерпретирует, а ROS (или что-то другое) просто исполняет. Моя мысль: ROS становится «транспортным слоем», а не архитектурным центром. Эпоха ROS как главного способа думать о роботах уходит. Но как инструмент — конечно, останется.


      1. fenixion
        12.03.2026 05:54

        Вы пытаетесь приравнять ROS к Nav стеку пакетов или конкретно к SLAM.

        ROS сильно больше этого. Вы можете использовать ROS без Nav стека и SLAM, применяя агента и VLM, как показано в примере выше.

        Кроме того в решениях для стационарных манипуляторов вообще не нужно перемещение по карте.


        1. JackCarter33 Автор
          12.03.2026 05:54

          SLAM и Nav — просто примеры, не суть. Мысль не в том, чтобы отменить ROS «уже сегодня» или запретить его использовать. Просто теперь будут появляться решения, которые делают то же самое, но иначе — без жёсткой привязки к ROS как к единственному центру. Появятся порты лучших реализаций необходимого минимума или вовсе новая архитектура. Как Linux, Windows и macOS спокойно живут рядом — каждый под свои задачи. Выбор становится шире, и это нормально, что окажется эффективнее и масштабные покажет время


  1. michael108
    12.03.2026 05:54

    Интересно будет посмотреть на код вашего ИИ агента. Я пока что далек от этой темы, т.к. занят другими вещами, но интересно попробовать. А ваш проект вполне может быть неплохим туториалом, с которого можно было бы начать въезжать в тему, т.к. тут все практично и перед глазами, а не сухая абстрактная теория.


    1. JackCarter33 Автор
      12.03.2026 05:54

      Спасибо! Ради таких комментариев и решил всё это публиковать. Честно скажу: самому страшно — ИИ-агент, который сейчас пишем, по сложности уже переплюнул весь проект. Черновик есть, но я там пока ничего не понимаю, кода в разы больше, чем во всём роботе. Тестировать будем, когда переедем на ESP32 и BLE. А пока жду доставку и параллельно прорабатываю железо новой платформы, едут моторы от гириков, линейные приводы, потшипники и алюминий, всегда на связи)