Современный мир сложно представить без технологий, которые его наполняют. Некоторые из них малозаметны, тогда как другие приковывают к себе внимание буквально всех и каждого. Одной из таких технологий является искусственный интеллект. Данное направление объединяет в себе множество отдельных, но взаимосвязанных ветвей, одной из которых является генеративный ИИ. Основная функция такого ИИ заключается в генерации текстов, изображений или других медиаданных в ответ на запрос человека. Говоря о таком взаимоотношении между человеком и машиной, первым на ум приходит крайне популярный ChatGPT. Но его возможности хоть и велики, но не безграничны. Ученые из Школы инженерии и прикладных наук Пенсильванского университета (США) разработали систему, способную в ответ на текстовый запрос пользователя генерировать трехмерную виртуальную среду, как это делала голопалуба в сериале «Звездный путь: Следующее поколение». Как работает данная система, насколько обширны ее возможности, и где она может быть полезна? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования


В сфере исследования искусственного интеллекта с недавнего времени появилась новая парадигма — воплощенный ИИ (Embodied AI). Классический ИИ учится на больших объемах статических и размеченных данных, тогда как воплощенный ИИ учится, перемещаясь и взаимодействуя с окружающей средой внутри виртуальных сред. Успешность и скорость такого обучения напрямую зависит от степени реалистичности, разнообразия и интерактивности виртуальной 3D-среды.

Существующие среды воплощенного ИИ обычно создаются посредством ручного проектирования, 3D-сканирования или процедурной генерации с использованием четко запрограммированных правил. Однако эти методы требуют значительных человеческих усилий, включая разработку сложного макета, использование ресурсов, поддерживаемых интерактивным симулятором, и размещение их в сценах, обеспечивая при этом семантическую согласованность между различными элементами сцены. Чтобы преодолеть эти ограничения, в недавних работах базовые 2D-модели адаптируются для создания 3D-сцен из текста. Однако эти модели часто создают сцены со значительными артефактами и им не хватает интерактивности, необходимой для воплощенного ИИ.

Более того, существуют модели, адаптированные для конкретных задач, таких как создание плана этажа или расположение объектов. Хотя они эффективны в своих областях, им не хватает общей согласованности сцены, и они в значительной степени полагаются на наборы данных для конкретных задач.

Авторы рассматриваемого нами сегодня труда предложили свой метод решения вышеописанных проблем. Их творением стала HOLODECK — языковая система, основанная на AI2-THOR, для автоматического создания разнообразных, настраиваемых и интерактивных трехмерных сред на основе текстовых описаний. HOLODECK использует большую языковую модель (GPT-4) для проектирования плана этажа, назначения подходящих материалов, установки дверных проемов/окон и согласованно расположения 3D-объектов в виртуальной среде, используя оптимизацию на основе ограничений.


Изображение №1

HOLODECK использует априорные принципы здравого смысла и пространственные знания, присущие большим языковым моделям (LLM от Large Language Models). Это показано на изображении №1, где HOLODECK создает различные типы сцен, интерпретирует конкретные и абстрактные подсказки, помещая соответствующие объекты в сцену соответствующим образом, например, «R2-D2» на столе для сцены «фанат Звездных войн».

Помимо выбора объектов и дизайна макета, HOLODECK демонстрирует свою универсальность в настройке стиля, например, в создании сцены в «викторианском стиле» путем применения соответствующих текстур и рисунков к сцене и ее объектам. Более того, HOLODECK демонстрирует свое мастерство в пространственном рассуждении, например, в разработке планов этажей «трех профессорских кабинетов, соединенных длинным коридором» и регулярном расположении объектов в сценах. В целом, HOLODECK предлагает новый подход к созданию 3D-среды, где текстовые подсказки открывают новые уровни контроля и гибкости при создании сцен.

Результаты исследования


HOLODECK — это система, основанная на AI2-THOR, обогащенная огромными ресурсами Objaverse, которая может создавать разнообразные, настраиваемые и интерактивные среды воплощенного ИИ под руководством больших языковых моделей.


Изображение №2

Как показано выше, HOLODECK использует систематический подход к построению сцены, используя ряд специализированных модулей:

  • модуль «пол и стены» разрабатывает планы этажей, строит конструкции из стен и выбирает подходящие материалы для полов и стен;
  • модуль «дверной проем и окно» интегрирует дверные проемы и окна в созданную среду;
  • модуль выбора объектов извлекает соответствующие 3D-объекты из Objaverse;
  • модуль проектирования компоновки на основе ограничений упорядочивает объекты внутри сцены, используя пространственные реляционные ограничения, чтобы гарантировать реалистичность компоновки объектов.

Каждый модуль берет информацию из языковой модели и преобразует ее в элементы, включенные в окончательный макет сцены. Текстовый запрос для LLM разработан для каждого модуля и состоит из трех элементов:

  • описание задачи: описывает контекст и цели задачи;
  • формат вывода: определяет ожидаемую структуру и тип результатов;
  • однократный пример: конкретный пример, помогающий LLM понять задачу.

Текст в синих диалоговых окнах на изображении выше представляет собой примеры упрощенных подсказок. Высокоуровневые ответы LLM на эти запросы подвергаются постобработке, а затем используются в качестве входных аргументов для модулей для получения низкоуровневых спецификаций сцены.

Модуль «пол и стены» отвечает за создание планов этажей, построение конструкций стен и выбор материалов для полов и стен. Каждая комната представлена в виде прямоугольника. GPT-4 напрямую дает координаты для размещения комнат и предлагает реалистичные размеры и варианты объединения этих комнат. Ниже показано несколько примеров разнообразных планировок, предлагаемых этим модулем, где HOLODECK быстро генерирует подходящие сложные планы помещения с несколькими комнатами.


Изображение №3

Этот модуль также выбирает материалы для полов и стен, что имеет решающее значение для повышения реалистичности окружающей среды. HOLODECK может сопоставить предложения LLM с одним из 236 материалов, каждый из которых доступен в 148 цветах, что позволяет семантически настраивать сцены. Как показано ниже, HOLODECK может генерировать сцены с подходящими материалами в зависимости от типа сцены, например, выбор бетонных стен и полов в сценарии «тюремная камера». Входные данные с особыми требованиями к текстуре часто отражаются в окончательном дизайне, например, «розовый цвет», «красные кирпичные стены» и «пол в клетку (шахматный пол)».


Изображение №4

Модуль «Дверной проем и окно» отвечает за соединения комнат и окна. Каждое из этих двух свойств запрашивается у LLM отдельно. LLM может предложить дверные проемы и окна, соответствующие 40 стилям дверей и 21 типу окон, каждый из которых может быть изменен с помощью нескольких свойств, включая размер, высоту, количество и т. д. Например, ниже показаны индивидуальные конструкции дверей и окон, созданные HOLODECK в ответ на запрос «доступность для инвалидных колясок» (результат — более широкие дверные проемы) и запроса «солнечная комната» (результат — несколько окон от потолка до пола).


Изображение №5

Модуль «выбор объектов» позволяет LLM предлагать объекты, которые следует включить в макет сцены. Используя обширную коллекцию объектов Objaverse, HOLODECK может извлекать и размещать на сцене разнообразные объекты. Запросы создаются с использованием описаний и размеров, предложенных LLM, чтобы получить оптимальный объект из Objaverse (например «многоуровневая кошачья башня, 60 × 60 × 180 см).


Изображение №6

Функция поиска учитывает визуальное и текстовое сходство и размеры, чтобы гарантировать соответствие объекта дизайну. Выше показаны возможности HOLODECK настраивать различные объекты на полу, стенах, поверх других предметов и даже на потолке.

Модуль «проектирование компоновки на основе ограничений» генерирует расположение и ориентацию объектов. Предыдущие исследования показали, что LLM может напрямую предоставить абсолютное значение ограничивающей рамки объекта. Однако при попытке разместить множество разнообразных объектов в средах этот метод часто приводит к ошибкам (выход объекта за пределы сцены, наложение объектов друг на друга и т.д.). Вместо того чтобы позволить LLM напрямую работать с числовыми значениями, ученые предложили новый подход, основанный на ограничениях, который использует LLM для создания пространственных отношений между объектами (например, «журнальный столик перед диваном») и оптимизации макета сцены исходя из ограничений. Учитывая вероятностный характер LLM, HOLODECK может предоставить несколько допустимых макетов по одному и тому же запросу (изображение №8).

Ученые заранее определили десять типов реляционных ограничений, сгруппированных в пять категорий:

  • глобальная: край, середина;
  • расстояние: близко, далеко;
  • позиция: впереди, сбоку, над, сверху;
  • выравнивание: по центру;
  • вращение: направление объекта в ту или иную сторону.

LLM выбирает подмножество ограничений для каждого объекта, формируя граф сцены для комнаты (изображение ниже).


Изображение №7

Эти ограничения не требуют точного совпадения, допуская определенные нарушения, когда найти макет, удовлетворяющий всем ограничениям, невозможно. Помимо этих ограничений, ученые применили более жесткие, чтобы предотвратить наложение объектов друг на друга и выход объекта за пределы сцены.


Изображение №8

Первым делом ученые переформулировали пространственные реляционные ограничения, определенные выше, в математические условия (например, два объекта выравниваются по центру, если они имеют одну и ту же координату x или y). Чтобы найти макеты, удовлетворяющие ограничениям, выбранным LLM, ученые применили алгоритм оптимизации для авторегрессионного размещения объектов.

Алгоритм сначала использует LLM для идентификации объекта привязки, а затем исследует места размещения объекта привязки. Впоследствии он использует поиск в глубину (DFS от Depth-First-Search), чтобы найти допустимые места размещения для оставшихся объектов. Размещение действительно только в том случае, если соблюдены все жесткие ограничения. Например, на изображении №7 кровать выбрана в качестве якорного объекта в спальне, а прикроватные тумбочки размещены следом за ней. Алгоритм выполняется в течение фиксированного времени (30 секунд), чтобы получить несколько макетов-кандидатов и выбрать тот, который удовлетворяет наибольшему количеству ограничений.

Используя Objaverse объекты, HOLODECK может поддерживать создание разнообразных и индивидуальных сцен. Ученые управляют подмножеством объектов, подходящих для дизайна сцен, из Objaverse 1.0. Эти объекты автоматически аннотируются GPT-4-Vison с дополнительной информацией, включая текстовые описания, масштаб и т. д. Вместе с объектами PROCTHOR созданная библиотека включает 51464 аннотированных объекта. Чтобы импортировать объекты Objaverse в AI2-THOR для встроенных приложений искусственного интеллекта, ученые оптимизировали объекты, уменьшив количество ячеек, чтобы минимизировать время загрузки в AI2-THOR.

Далее ученые приступили к оценке производительности HOLODECK с помощью 680 участников. Оценка была разделена на три категории:

  • сравнительный анализ жилых сцен с PROCTHOR в качестве базовой линии;
  • исследование способности HOLODECK создавать разнообразные сцены;
  • исследование абляции для подтверждения эффективности используемого метода проектирования сцен.

В ходе первой оценки проводилось сравнение HOLODECK с PROCTHOR, единственной предшествующей работой, способной генерировать полные интерактивные сцены. Сравнение было сосредоточено на жилых сценах, поскольку PROCTHOR ограничен четырьмя типами: ванная, спальня, кухня и гостиная.

Было подготовлено 120 сцен для оценки их человеком, по 30 сцен каждого типа, как для HOLODECK, так и для PROCTHOR. Базовая версия PROCTHOR имеет доступ к тому же набору объектов Objaverse, что и HOLODECK. Для HOLODECK тип сцены, например, «спальня», использовался в качестве подсказки для создания сцен. Сцены одного типа из двух систем объединялись, в результате чего было получено 120 парных сцен для оценки их человеком. Ученые просили участников опытов оценить представленные сцены, ответив на 3 вопроса:

  • выбор объектов: какой выбор 3D-объектов более точен/соответствует типу сцены?
  • согласованность макета: какое расположение 3D-объектов лучше соответствует реализму и здравому смыслу (учитывая положение и ориентацию предметов)?
  • общее предпочтение: какую из двух сцен вы бы предпочли, учитывая тип сцены?


Изображение №9

Как видно из диаграмм выше, участники предпочли HOLODECK, а не PROCTHOR: выбор объектов — 59.8%, согласованность макета — 56.9%, общее предпочтение — 64.4%.


Изображение №10

В дополнение к человеческим суждениям ученые использовали CLIP Score для количественной оценки визуальной согласованности между видом сцены сверху вниз и соответствующим типом сцены, встроенным в шаблон подсказки «a top-down view of [scene type]» («вид сверху [тип сцены]»). Кроме того, ученые добавили созданные человеком сцены из iTHOR в качестве верхней границы для сравнения. На графике выше показано, что CLIP Score оценки HOLODECK превосходят PROCTHOR с большим отрывом и близко приближаются к производительности iTHOR, демонстрируя способность HOLODECK генерировать визуально связные сцены. Следовательно, оценка CLIP Score полностью согласуется с оценкой, проведенной участниками исследования.

Чтобы оценить возможности HOLODECK за пределами жилых сцен, ученые попросили людей оценить производительность системы на 52 типах сцен из набора данных MIT Scenes, охватывающих пять категорий: магазины (гастроном, пекарня), дом (спальня, столовая), общественные места (музей, раздевалка), досуг (тренажерный зал, казино) и рабочее пространство (офис, конференц-зал).

HOLODECK должен был создать пять выходных данных для каждого типа, используя в качестве входных данных только название сцены, используя 260 примеров для 52 типов сцен. Людям для оценки были представлены снимки вида сверху вниз и видео с обзором 360 градусов для каждой сцены. Они должны были оценить сцены по шкале от 1 до 5 (более высокие баллы указывают на лучшее качество), учитывая выбор объектов, согласованность макета и общее соответствие с типом сцены. Чтобы обеспечить контекст для этих оценок, были добавлены сцены из PROCTHOR и iTHOR, по 20 сцен из каждой системы.


Изображение №11

Выше представлены результаты оценки различных сцен. По сравнению с PROCTHOR в жилых сценах, HOLODECK достигает более высоких оценок в половине (28 из 52) разнообразных сцен. Ученые отмечают, что PROCTHOR опирается на правила, определенные человеком, а жилые сцены относительно легко построить с использованием обычных объектов и простой планировки. Следовательно, продемонстрированные возможности HOLODECK подчеркивают его надежность и гибкость в создании различных сред.

Однако HOLODECK было тяжело справиться с более сложными запросами, требующими более сложных макетов, таких как ресторан. Также сложности были и с запросами, для которых не было объектов в Objaverse, например, «стоматологический рентгеновский аппарат» для сцены «кабинет стоматолога».

Далее было проведено исследование абляции при проектировании макета. Это исследование направлено на подтверждение эффективности метода проектирования макета HOLODECK на основе ограничений. Было рассмотрено 4 метода проектирования макетов:

  • CONSTRAINT: метод проектирования макета HOLODECK;
  • ABSOLUTE: непосредственное получение абсолютных координат и ориентации каждого объекта из LLM, аналогичного LayoutGPT;
  • RANDOM: размещение всех объектов в комнате случайным образом без перекрытия друг друга;
  • EDGE: размещение объектов вдоль стены.

Участникам были предоставлены по 4 перемешанных изображения для каждого из вышеописанных методов. Они должны были оценить их с учетом выхода объектов за границы макета, доступного пространства и реализма макета.


Таблица №1

В таблице выше представлены оценки различных методов проектирования макетов. Метод HOLODECK, основанный на ограничениях, значительно превосходит другие методы в сценах «ванна», «спальня» и «гостиная». CONSTRAINT и EDGE работали одинаково в сцене «кухня», где было принято выравнивать большинство объектов вдоль стен.

Метод ABSOLUTE работал не лучше, чем RANDOM, из-за его склонности создавать сцены с ошибками (наложение объектов друг на друга, выход объектов за пределы сцены и т. д.). Эти результаты подтверждают, что пространственные реляционные ограничения являются успешной стратегией создания сцен, соответствующих логике здравого смысла.


Изображение №12

Как показано выше, одно из применений HOLODECK — синтез обучающей среды. Чтобы изучить это потенциальное применение, ученые рассмотрели ObjectNav — обычную задачу, в которой робот должен подойти к объектам из определенной категории. Поскольку существующие тесты для ObjectNav учитывают только жилую среду и поддерживают очень ограниченный набор типов объектов (всего 16 типов объектов, объединяющих вышеуказанные тесты), ученые использовали NOVELTYTHOR, тест, разработанный художниками для оценки воплощенных агентов в различных средах. Впоследствии ученые использовали модель ObjectNav, предварительно обученную на PROCTHOR-10K. Затем ее настроили на 100 сценах, созданных HOLODECK. Эти сцены создаются путем запроса с новым типом сцены в качестве входных данных. Затем модель оценивается на NOVELTYTHOR.

Два художника вручную создали 10 новых сред тестирования с двумя примерами для каждой из пяти категорий: «офис», «детский сад», «музыкальная комната», «тренажерный зал» и «комната с аркадами». Каждая сцена содержит новые типы объектов, не включенные в существующие задачи ObjectNav, например, «пианино» в музыкальной комнате, «беговая дорожка» в тренажерном зале и т. д. В NOVELTYTHOR существует 92 уникальных типа объектов.

Для всех методов, кроме метода случайного действия, ученые использовали одну и ту же предварительно обученную модель ObjectNav из PROCTHOR-10K, которая была обучена на ≈400 миллионов шагов для навигации к 16 категориям объектов. Чтобы адаптировать агента к новым сценам без данных обучения человеческой конструкции, ученые рассмотрели два метода:

  • +HOLODECK: HOLODECK предлагается автоматически создать 100 сцен для каждого типа;
  • +OBJAVERSE: улучшение PROCTHOR с помощью выбора объектов HOLODECK для конкретного типа сцены, в частности, эти сцены заполняются аналогичными объектами из Objaverse, выбранными HOLODECK.

Модели ObjectNav используют архитектуру на основе CLIP, которая содержит визуальный кодер CNN и GRU для захвата временной информации. Каждую модель обучали на 100 сценах по 50 миллионов шагов, что занимает примерно один день на 8 графических процессорах Quadro RTX 8000.


Таблица №2

Выше показаны характеристики NOVELTYTHOR. HOLODECK достиг наилучшей средней производительности и превзошел базовые показатели в сценах «офис», «детсад», «музыкальная комната». В сценах «спортзал» и «аркадная комната» +HOLODECK и +OBJAVERSE работали одинаково. Учитывая, что основное различие между сценами +HOLODECK и +OBJAVERSE заключается в размещении объектов, наблюдаемая разница предполагает, что HOLODECK более искусно создает макеты, которые похожи на те, что были созданы человеком.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог


В рассмотренном нами сегодня труде ученые описали созданную ими систему HOLODECK. Данная система основана на больших языковых моделях и способна создавать разнообразные и интерактивные среды виртуальной реальности на базе текстового запроса.

Виртуальные среды широко применяются для обучения роботов перемещаться в различных пространствах. Это процесс обучения называют «Sim2Real». Проблема в том, что разнообразие таких сред невелико, а ручное создание каждой новой сцены среды занимает у людей много времени. Следовательно, использование системы HOLODECK, названной так в честь одноименной технологии из сериала «Стар Трек», значительно упрощает и ускоряет процесс обучения роботов.

Для работы HOLODECK использует знания, собранные в больших языковых панелях (таких как ChatGPT). Человек может сформулировать текстовый запрос, который будет проанализирован HOLODECK перед реализацией запрошенной сцены. Для этого используются модели объектов из базы Objaverse. При этом HOLODECK не размещает в созданной среды объекты в случайном порядке. Все объекты сосуществуют запросу, сохраняя при этом логику здравого смысла. Другими словами, в сцене по запросу «комната ученого, у которого есть пес» не будет содержать кошачий домик или клетку для попугая.

Ученые намерены продолжить работу над HOLODECK, чтобы расширить возможности данной системы. В частности они намерены увеличить библиотеку объектов, которые HOLODECK сможет использовать для создания еще более реалистичных виртуальных пространств.

Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Комментарии (0)