Мультимодальность для человекоподобного робота / forpes.ru

Главная
Мультимодальность для человекоподобного робота

Мультимодальность для человекоподобного робота +1

03.12.2021 13:38

Tianno 0 635 Источник

Что такое мультимодальность?

В самом термине заложено, что это симбиоз множества способов извлечения смысла. На сегодняшний день это множество включает в себя следующее:

устная речь
письменные источники
аудиоканалы
жесты
тактильная информация
визуальные каналы
пространственное восприятие
полученный предыдущий опыт

Последнее добавляет в плоскостную структуру мультимодальности ещё и ось времени. Теперь попробуем понять, насколько хорошо робот может обрабатывать все перечисленные типы информации. И забегая вперед, можно сказать, что каждый из каналов по отдельности роботы научились обрабатывать уже с достаточно высоким качеством, а в некоторых случаях модели распознавания превосходят в этом даже человека. Однако собирать полученную информацию со всех каналов в “точке смысла” умеет лишь человек, и на вопрос как он это делает в научных и промышленных кругах пока нет полного и однозначного ответа.

Мы в команде Промобот пробуем определить подход в разработке мультимодальности, отвечающий пользовательским требованиям, предъявляемым к современным человекоподобным роботам.

Что такое человекоподобный робот?

Понятие "Человекоподобный робот" имеет ряд определений в научной литературе в зависимости от области исследования и сферы применения.

Например, в исследованиях по мехатронике наиболее часто встречающимися будут термины Automaton и Mechanical doll. В робототехнике мы используем Machine Human, Simulation robot, Beauty robot. В трудах по философии можно встретить – Lifelike robot, Realistic robot. А в социологии – Human-like, Humanoid, Antropomorphic, Avatar. В научной фантастике роботов разделяют даже по половому признаку. Так Android (робот-мужчина), Genoid (робот-женщина), Droid (робот среднего рода) и Cyborg (кибернетический организм).

Как мы видим, определений достаточно много и, возможно, этот список еще можно дополнить. Мы проводим социологические опыты по мультимодальности и поэтому будем использовать в дальнейшем термин “человекоподобный робот”.

План исследования

В широкой перспективе мы запланировали 4 этапа исследования, которое поможет создать не только схемы распознавания мультимодальных сообщений в парадигме Человек-Робот, но и оттестировать модели генерации мультимодальности в парадигме Робот-Человек. Таким образом, круг замкнется и будет оттестирована полная парадигма взаимодействия Человек-Робот-Человек.

Ключ к определению схемы Человек-Робот вероятнее всего лежит в поле исследований, связанных с когнитивными моделями, теорией разума и методами HRI. Эти три направления являются основным источником идей для всех, кто хотел бы научиться делать человекоподобных роботов.

Наш Топ-10 наиболее популярных открытий HRI в мире:

Внешность может нести определяющее значение в том, как человек воспринимает робота. Установлено, что люди демонстрируют негативные социальные и эмоциональные реакции, а также сниженное доверие к человекоподобным роботам, если последние имеют изъяны во внешности и поведении (эффект «Зловещей долины» Масахиро Мори)
Качественная имитация на роботах человеческой манеры поведения, жестов, языка тела, мимики с помощью технологий телеприсутствия способна нивелировать негативное отношение и повысить процент положительных эмоций от общения (Джон П. Уитни)
В случаях, когда роботы настойчиво навязывают общение и не соблюдают «безопасное расстояние» (вторгаясь в личное пространство пользователя), человек испытает негативные эмоции и предпочтет обратиться скорее к другому человеку, чем к роботу (Чад Эдвардс)
Если робот не активен совсем, это тоже способно вызывать негативные эмоции. Робот воспринимается как бесполезный, и его присутствие начинает раздражать (Хироши Исигуро)
Если робот не отвечает ожиданиям пользователя, это способствует формированию негативного тренда в отношении робота. Люди вкладывают в понятие робот характеристики из научной фантастики, которые не реализованы или не реализуемы на текущем уровне развития технологий, и обязательно разочаровываются, когда реальный робот не может делать ничего из выдуманного (Чад Эдвардс)
Эмоции робота как правило человек приравнивает к человеческим. И если их проявление у робота имеет изъяны это вызывает отторжение. Зловещая долина – может быть просто эффект отторжения к людям с дефектами, это заложено эволюцией (Хироши Исигуро)
Если роботы используют небуквальный язык, например сарказм или иронию в некорректных случаях, люди относятся к этому с таким же снисхождением, как и в ситуации с обычными людьми и способны простить ошибки употребления (Хайме Банкс)
В соответствии с гипотезой контакта (Гордон Олпорт), контролируемое (сценарное) взаимодействие с социальным роботом может уменьшить неопределенность на старте общения и повысить готовность взаимодействовать с роботом
Физический контакт с роботом, прикосновения, рукопожатия со стороны пользователя уменьшают негатив, и страхи, сформированные еще до общения с роботом, нивелируются (Марлена Фроне)
Нашему мозгу все равно кого (робота или человека) и как воспринимать (как робота, как человека), главное, чтобы ожидания не расходились с реальностью, а это дело привычки, которую надо формировать (Айсе Пинар Саюгин)

С учетом этих выводов мы сформировали ряд гипотез на проверку.

Наши гипотезы:

Основная задача машин - дарить впечатления людям. Роботы справляются с этой задачей в целевых сценариях и это способствует повторному визиту пользователя при применении одного из трех подходов. Мы их назвали базовый, гибридный и имитационный
Человек не обращает внимание на вид и на манеру общения робота совсем, если не имеет завышенных ожиданий. Таким образом, если робот используется в сферах, где он приходит на замену текущим устройствам в качестве "горизонтального обновления", он несет больший потенциал для создания положительного впечатления у пользователя (Наиболее яркий пример в истории, когда автомобиль вытеснил гужевой транспорт с дорог).

Примечания к первой гипотезе:

Базовый подход основывается на принципах автономности робота и опирается только на функционал в рамках текущего уровня развития технологий;
Гибридный подход опирается на технологию работы робота в связке с человеком, так называемый, дополненный интеллект;
Имитационный подход опирается на технологии телеприсутствия.

В рамках каждого из трех подходов по первой гипотезе тестируется какой из параметров и в какой мере влияет на положительное восприятие робота человеком.

Тестируемые параметры:

эмоции на уровне текста;
голос и интонация, приближенные к человеческому уровню воспроизведения: на уровне синтеза робота, обработанной аудиозаписи голоса актера под синтез робота, эмоционального голоса актера без наложений;
эмотиконы на "лице" робота;
жесты, мимика и язык тела;
поддержание диалога в соответствии с транзакционной моделью Э. Бёрна;
fallback - ответ робота в случаях, когда он не знает ответа в соответствии с сентимент анализом и транзакционной моделью Э. Бёрна.

Методика тестирования гипотез:

Для тестирования гипотез мы использовали 2 типа интервью: интервью с пользователем-владельцем в рамках custdev мультимодальности и интервью пользователя с роботом в рамках заданного сценария с подключаемыми/отключаемыми опциями.
Дополнительно мы использовали экспертную оценку наших разработчиков и архитектора диалоговой системы Промобот. Так появился целостный подход к выявлению концепции социального робота для бизнеса способного обрабатывать мультимодальность. Весь процесс был поделен на 4 этапа.

На первом этапе мы хотели выявить какие из каналов мультимодальности и, самое главное, в каких проявлениях нужны современному пользователю (custdev).

Затем мы запланировали проверить релевантность некоторых из пользовательских требований, а также их действительное влияние на человека. Для этого мы создали несколько сценариев, где были учтены некоторые из пользовательских требований и предоставили пользователям возможность пройти их на роботе. Цель - замерить показатели эффективности: как выглядят метрики клиента в общении с роботом, с человеком и с гибридом.

На третьем этапе (об этом в следующих статьях) должны появиться требования от разработки и схемы мультимодальности на основе механизмов формирования положительных эмоций у человека, которые также пройдут фильтр тестирования. И, наконец, будет определена модель мультимодальности, отвечающей пользовательским требованиям, предъявляемым к современным роботам и формат ее заполнения.

Этап 1: custdev по мультимодальности на уровне Человек-Робот

Сбор информации на первом этапе осуществлялся в течение 6 месяцев путем интервьюирования, в ходе которого владельцу робота после общения с Promobot V4 задавалось 2 вопроса: "Чего вам не хватает в функционале робота?" и "Для чего вам нужен данный функционал?".
Ответы владельцев мы разделили на несколько групп по модулям реализации, а также кластеризовали их по типам аргументации для удобства дальнейшего анализа нашими разработчиками и формирования MVP на основе подхода “посмотреть, что нужно пользователю и приземлить на то, что можем реализовать на текущий момент мы”. Ниже в таблице представлены результаты.

Таблица 1: Ожидания от робота VS Что мы можем дать и с каким качеством

По итогу, Custdev продемонстрировал высокую осведомленность владельцев роботов на счет технических ограничений в реализации функционала робота (видимо наша техническая поддержка очень хорошо выполняет свою работу). Однако при формировании запросов все равно наблюдается “полет фантазии”, и мы склоняемся здесь к тому, что конечный пользователь также сильно влияет на владельца. Предполагаем, что некоторые из требований попадут в long-list после оценки разработчиков и архитектора Диалоговой системы Промобот.

Этап 2: Генерация мультимодальности на уровне Робот-Человек

Аналитика ответов и подготовка к третьему этапу идет своим чередом. А мы параллельно запустили второй этап – внутреннее тестирование мультимодальности. На втором этапе был разработан сценарий под кодовым названием “Мороженщик” на основе транзакционного анализа.

Пользователю необходимо было пройти сценарий 3 раза с тремя разными персонажами. У каждого персонажа был свой голос ((1) робо-синтез, (2) актерская озвучка, (3) актерская озвучка, адаптированная под робо-синтез), своя манера общения и эмотиконы, предполагался также свой язык тела. Помимо этого, когда робот не знал ответа, сентимент анализ помогал ему сообщить об этом пользователю в соответствии со схемой транзакционного анализа и тем самым снять эмоциональное напряжение и продолжить диалог. На выходе оценивалось как пользователь воспринимает образ, где он дошел до конца сценария, и с кем ему было общаться наиболее комфортно. На текущем этапе тестирование в самом разгаре.

А мы, не дожидаясь его результатов уже спланировали третий, который позволит понять в рамках какого функционала наш робот будет наиболее востребованным для бизнеса.

Этап 3: Методика работы с ожиданиями пользователя на уровне обработки мультимодальности

Чтобы провести третий этап в соответствии с установками нам понадобилось “приземлить ожидания пользователя” на существующие методики и технологии. Мы использовали для разных типов сценария следующие подходы:

Базовый

Скромный, но дающий в определенной мере предполагаемый “WOW-эффект”. Здесь робот будет минимально антропоморфным при оценках человеком, что выглядит вполне понятным даже для него самого. Поэтому сделать так, чтобы видели не робота, а его функционал и оценивали только то, как хорошо выполняется задача, является программой максимум.

В случае применения только базового функционала не нужно, чтобы люди пытались полноценно сравнивать такого робота с человеком, его могут воспринимать как дроида, которого можно создать по любому подобию и у него будет:

своя модель речи, жестов, распознавания, мимики построенных на понятных технологиях NLP, CV, ASR, TTS, с применением различных сенсоров, алгоритмов на основе когнитивной лингвистики (грамматики конструкций), векторной семантики и многих других моделей. У таких роботов могут быть суперспособности, например, возможность говорить на языке животных (как в фильме Финч (2021))
свой способ передвижения - колеса
свой способ познания мира (база знаний)
свой тип поведения

Гибридный

Может быть достигнут с помощью гибридных методов: amplified intelligence. Так для выработки привычки взаимодействия с роботом на основе базового функционала необходим консультант со знанием сценария взаимодействия с роботом и периодично его демонстрирующий в окружении людей тем самым провоцируя их повторять только сценарные действия и улучшая фон удовлетворенности от общения с роботом (Так внедряли терминалы и банкоматы Сбера, так это работает с презентацией любого нового продукта на выставке).

Имитационный

Здесь речь идет о технологиях телеприсутствия. Максимально скопировать человека может сегодня только человек. Эта история про автоматоны в витрине магазина еще в детстве заставляла меня прилипать на час другой к витрине “Детского мира” в Хельсинки, робот манекен в витрине, который двигается и привлекает внимание к новой коллекции. Данный вариант по сей день актуален и несет ценность, пусть даже и для тестирования гипотез.

С точки зрения технологий робота уже не будут пытаться полноценно сравнивать с человеком, его воспримут как дроида, которого мы можем создать по любому подобию, но вместе с тем мы сталкиваемся с фактом, что такой подход является нерасширяемым.

Чтобы реализовать данный подход сценарий “Мороженщик” будет расширен и размножен на трех разных подходах, а затем оттестирован на пользователях.

Планируется собрать фидбек по следующему пулу вопросов:

Какой сценарий вызывает наибольший отклик и приятие?
Какие минусы у каждого из трех сценариев в плане реализации?
Какие плюсы у каждого из трех сценариев в плане реализации?
Что нужно добавить, чтобы сценарии заставляли вас возвращаться снова и снова
Правильно (ожидаемо) ли отработали мультимодальные (эмоции, жесты, мимика) схемы на роботе?
Вернетесь ли к этому роботу еще за мороженным?
Хотите купить этого робота?

Выводы

О выводах пока говорить рано. Ждем результатов всех этапов и проработки 4 этапа, который позволит объединить весь собранный материал воедино и создать впервые подход в разработке мультимодальности, отвечающий пользовательским требованиям, предъявляемым к современным человекоподобным роботам.

Дальнейшая работа

Предварительный анализ показал, что пользовательские требования, собранные в основном от владельцев роботов, не всегда имеют связь с реальностью. Поэтому проработка возможностей технологий на предмет максимального удовлетворения запросов пользователей является также необходимой. Что является не менее важным - это правильно собрать поведенческий модуль робота. Тестирование четвертого этапа должно, во-первых, позволить собрать данные полученные на первых трех этапах в единый поведенческий модуль, а, во-вторых, установить режимы работы модуля в целом. Об этом мы напишем в последующих публикациях. Продолжение следует...

Ссылки

Lakоff, G. (1987). Women, Fire, and Dangerous Things. What Categories Reveal about the Mind. Гл. 1, 17.
Бёрн, Э . (2009). Трансакционный анализ в психотерапии / Пер. с англ. А.А. Грузберга, М.: Эксмо, 416 с.
Baron-Cohen, S. (1991). Precursors to a theory of mind: Understanding attention in others. In A. Whiten (Ed.), Natural theories of mind: Evolution, development and simulation of everyday mindreading. Oxford: Basil Blackwell, 233-251.
Kahn, Peter H.; Ishiguro, Hiroshi; Friedman, Batya; Kanda, Takayuki (2006-09-08). What is a Human? - Toward Psychological Benchmarks in the Field of Human-Robot Interaction. ROMAN 2006 - the 15th IEEE International Symposium on Robot and Human Interactive Communication, 364-371.
Edwards, Chad; Edwards, Autumn; Spence, Patric R.; Westerman, David (21 December 2015). Initial Interaction Expectations with Robots: Testing the Human-To-Human Interaction Script. Communication Studies. 67 (2): 227-238
Mori, M. (1970/2012). The uncanny valley (K.F. MacDorman & N. Kageki, Trans.). IEEE Robotics & Automation Magazine, 19(2), 98-100.
Distributed Little Red Hen Lab “Multimodal communication research” https://github.com/RedHenLab