Искусственный интеллект — это уже не только чат-боты и генераторы изображений. Еще он помогает машинам анализировать обстановку, строить планы и справляться с новыми обстоятельствами. Недавно Google DeepMind представила демонстрацию thinking robotics AI — интеграцию моделей Gemini 1.5 в робототехнические сценарии.
Две экспериментальные версии Gemini 1.5 — VLA (vision-language-action) и ER (embodied reasoning) — работают вместе, чтобы машины могли действовать в реальном мире. Это не просто очередной шаг в развитии автоматизации, а попытка научить роботов понимать, что они делают и зачем. Чем интересен этот подход, где его можно применить и какие вопросы он вызывает? Давайте разберемся.

Как роботы научились планировать и действовать
Современные автоматы нередко напоминают прилежных, но ограниченных исполнителей. Они надежно справляются с задачами, для которых созданы, например, со сборкой деталей на производстве или уборкой в помещении. Однако любое отклонение от сценария — новый предмет, сдвинутый объект или изменение освещения — сбивает их с толку. Программное обеспечение требует кастомной настройки под каждую ситуацию, что занимает месяцы. Чтобы сделать мир робототехники проще, Google DeepMind решила изменить подход. Вместо того чтобы заранее прописывать алгоритмы под каждое действие, компания применила генеративный ИИ, уже доказавший свою эффективность в работе с текстами и изображениями. Так появилась система из двух компонентов, которые делают роботов гораздо гибче и самостоятельнее.
Gemini Robotics-ER 1.5 отвечает за анализ и планирование. Она получает текстовые команды и изображения пространства, в котором действует робот, и на их основе выстраивает план. Это похоже на то, как человек мысленно прикидывает порядок шагов: взять инструмент, переставить деталь, закрепить ее. Модель оценивает расположение предметов и возможные помехи, выбирая, как удобнее поступить. Например, если на пути окажется упавший стул, она скорректирует маршрут, чтобы обойти его. Иногда система может обратиться к дополнительным инструментам, вроде Google Search, но лишь при крайней необходимости.
Gemini Robotics 1.5 (VLA, vision-language-action model) отслеживает окружение в реальном времени и управляет манипуляторами. Ее сила — в способности точно выполнять инструкции, взаимодействуя с изменчивой средой. Такой подход позволяет решать задачи, которые ранее были недоступны для механизмов.

Обе модели созданы на базе Gemini и «допилены» так, чтобы понимать движения и работать с реальными объектами. Благодаря этому такие системы могут выполнять сложные задачи из нескольких шагов и подстраиваться под изменения. Еще одно преимущество — навыки, полученные на одном роботе, можно применять на другом. Например, то, чему модель научилась на манипуляторе Aloha 2, частично подходит и для гуманоидного робота Apollo от Apptronik — нужно лишь учесть разницу в конструкции.
Демонстрация Gemini Robotics, проведенная DeepMind в сентябре 2025 года, показала, как роботы могут выполнять задачи и адаптироваться к изменениям обстановки в лабораторных условиях. Пока это только эксперименты, но они приближают создание более автономных систем, которые смогут работать без постоянного участия человека. Сейчас инженеры улучшают точность моделей и готовят их к применению за пределами лаборатории.
А где все это использовать?

Новинка может заметно изменить промышленную автоматизацию. Так, сегодня роботы действуют по жестким сценариям: они отлично выполняют рутинные действия, но не умеют реагировать на неожиданности. Gemini Robotics добавляет гибкости — такие системы способны оценивать обстановку, обходить препятствия и подстраиваться под работу человека. Например, автомат на складе может не просто переносить коробки по заданному маршруту, а сам решать, в каком порядке это сделать, чтобы сэкономить время и не столкнуться с другими работниками или техникой.
В повседневной жизни такие системы могли бы заметно упростить рутину. Представьте помощника, который сам разбирает посуду или собирает игрушки, реагируя на беспорядок в комнате. Сейчас Gemini Robotics-ER 1.5 тестируется через платформу Google AI Studio — доступ к ней есть лишь у небольшой группы разработчиков. Эти эксперименты пока не связаны с бытом напрямую, но именно они оттачивают механизмы восприятия и планирования, которые в будущем станут основой для домашних ассистентов.
Медицина — еще одно направление, где такие технологии могут принести пользу. А еще роботы начнут ухаживать за пациентами: давать лекарства, искать нужные инструменты или следить за самочувствием человека.

Что еще? Конечно, образование. Представьте робота, который помогает ребенку учиться, подстраиваясь под его настроение и способ восприятия. Активному ученику он предложит игру или задачу с движением, а тем, кто любит размышлять, — спокойное объяснение и текстовые примеры.
Делаем мир роботов безопасным
Такие технологии открывают большие возможности, но вместе с ними приходят и риски. Их нужно исключить, так как робот, который действует по собственному плану, должен быть абсолютно надежным. Ошибка на производстве может привести к поломке или травме, а в медицине — даже поставить под угрозу жизнь. DeepMind тщательно тестирует свои системы, но до массового внедрения еще далеко: разработчики продолжают искать, как сделать их устойчивыми и предсказуемыми даже в непредвиденных ситуациях.
Неудивительно, что исследователи и инженеры все чаще вспоминают законы робототехники Айзека Азимова — те самые три правила, по которым робот не может причинить вред человеку и обязан подчиняться, если это не угрожает безопасности. Когда-то они казались фантастикой, а сегодня превращаются в своего рода моральный ориентир: чем умнее становятся машины, тем важнее заранее определить границы их самостоятельности.
DeepMind уже применяет многоуровневую систему проверки действий: перед выполнением команда проходит оценку на уровне модели планирования, затем подтверждается на уровне исполнительной модели и только после этого превращается в физическое действие. Такой каскад снижает вероятность ошибок и делает поведение робота более предсказуемым. Кроме того, разработчики обучают модели на сценариях с потенциальными сбоями — чтобы система не просто выполняла задачу, но и умела вовремя остановиться при угрозе.
Вопросы безопасности выходят и за рамки техники. Если роботы должны действовать в одном пространстве с людьми, им нужно не только распознавать объекты, но и понимать намерения — где человек движется, что пытается сделать, как реагирует. Это требует развития поведенческих моделей, способных учитывать контекст и эмоции. Такие функции пока находятся в зачаточном состоянии, но именно они станут решающими для того, чтобы человек и машина могли безопасно работать бок о бок.
Что в итоге
Демонстрация Gemini Robotics — только начало пути. Она показывает, как модели на базе Gemini учатся планировать действия и стабильно работать в меняющейся среде. Сейчас VLA доступна только узкому кругу тестировщиков, а ER проходит ограниченные испытания в Google AI Studio. Эти эксперименты формируют основу для будущих систем, которые смогут не просто выполнять команды, а действовать как полноценные помощники.
Дальнейшее развитие потребует времени и практики. Разработчикам предстоит улучшить стабильность моделей, сделать их безопаснее и совместимее с разными типами роботов. Испытания вроде переноса навыков между платформами Aloha 2 и Apollo показывают, что прогресс есть, но впереди еще много ограничений, которые нужно преодолеть. Gemini Robotics остается экспериментом, но именно такие проекты постепенно превращают идею «умных» машин в реальную технологию.