image

Мы в UIS сейчас полным ходом пилим модуль распознавания речи Виртуальной АТС. И потому следим за тем, что думают о развитии разговорных интерфейсов люди, которым есть, что о них сказать. Под катом — перевод свежей статьи Алана Купера, который, как и мы, думает, что главное в технологии — ее потенциал по оптимизации затрат.

Размышления на тему разговорных пользовательских интерфейсов


Главный технологический парадокс современности: труднее сообщить компьютеру, что нужно сделать, чем компьютеру — сделать это. Сложные задачи относительно легко выполняются с помощью цифровых технологий, но составление инструкций для реализации, учитывающих все нюансы и тонкости этих сложных задач — неизменный вызов для разработчика. Разрешение этого парадокса лежит в основе профессионального проектирования взаимодействия (interaction design).

Некоторые полагают, что трудностей с направлением цифрового разума в нужное русло станут значительно меньше, когда мы усовершенствуем разговорные интерфейсы. То есть, когда мы сможем просто разговаривать с компьютером, взаимодействие с ним станет простым, ясным и понятным. Это мнение бытует десятилетиями и, как пламя от сжигания покрышек в долинах, вовсе не собирается угасать. А по мере того, как софт по распознаванию речи становится все лучше — а он весьма хорош сегодня — токсичное пламя ажиотажа разгорается даже больше.


Наше воображение тяготеет к голливудской картинке непринужденного душевного общения с ловящим каждое наше слово роботом, который почтительно кланяется каждый раз, спеша выполнять наше приказание. Машины представляются нашими чуткими и старательными слугами, реагирующими на вербальные команды. «Организуй обед». «Скажи Джейн, что я опоздаю». «Увеличь продажи на десять процентов». «Убедись, что за мной никто не следит».


image

Такое видение не только антропоморфно, оно еще и фантастично. Это не просто наделение компьютеров человеческими качествами, это наделение их супер-человеческими качествами. Просто потому что мы способны формировать мысли в своей голове, мы ошибочно полагаем, что кто-то другой может сформировать такую же мысль на основании какого-то шума из нашего рта.

Если ваш компьютер распознает слова, которые вы произносите, не стоит делать из этого скоропалительный вывод, что он понимает, что вы имеете в виду. Ваша супруга, которая прожила с вами 20 лет, только сейчас начинает отдаленно представлять себе, что вы подразумеваете на самом деле, когда что-то говорите. Ваш компьютер, скорее всего, никогда не начнет вас понимать по той простой причине, что вещи, которые вы говорите, в принципе не понимаемы.


Долгая история недопонимания, двусмысленности и провальных коммуникаций людей с людьми должна бы напоминать нам о том, что такое видение основано на том, что нам хочется, а не на том, что на самом деле имеет место быть. Если даже людям так трудно давать вербальные инструкции, то как мы вообще собираемся эффективно давать вербальные инструкции компьютерам?


Множество людей, включая меня, полагают, что этот фантастический мир останется недостижимой химерой.


«Алекса, выключи свет!» — вот тот уровень распознавания речи, которого мы достигли сейчас. Это круто! Это весело! Удиви своих друзей! Это не киллер-фича, но это то, на что способна технология сегодня, так что мы увидим кучу вариантов использования такого рода сценариев в ближайшем будущем. Конечно, неосознанные последствия сырого применения технологии, например, в умном доме с встроенным распознаванием голоса, потрясающе легко предвидеть. «Алекса, выключи свет!» «Не этот свет!» «Нет, в другом месте!» «Алекса, только свет в гараже!» «Нет, Алекса, выключи, а не включи». «Только в гараже». «Черт тебя побери, Алекса!»


Одна из причин того, что разговорные пользовательские интерфейсы искушают нас ложными надеждами — то, что современный софт крайне хорош в распознавании речи. К сожалению, «крайне хорош» — это относительное понятие, которое зависит от того, что вам нужно сделать.


Несколько лет назад один мой хороший приятель с огромным опытом работы в здравоохранении задумал проект, который должен был упростить для врачей решение их старой как мир проблемы с необходимостью делать много записей. Терапевты тратят на это примерно столько же времени, как и на осмотр пациентов, так что проект обладал огромным потенциалом по экономии времени. Мой друг собирался дать врачам возможность просто наговаривать эти записи в микрофон-петличку прямо в процессе прослушивания и прощупывания пациентов. Программа была построена на базе очень функциональной платформы распознавания речи Dragon. Все работало хорошо, за исключением того, что это не работало достаточно хорошо для медицинских целей. Выяснилось, что врачам все равно нужно вычитывать и проверять текст. В программах, где критична полнота реализации задачи, 99,9% успеха означают шанс одной ошибки на тысячу случаев. Когда ставка — человеческая жизнь, это не достаточно хорошо.


Невзирая на историю с врачами, все еще остается немалая ценность голосового распознавания для многих приложений, работающих с вводом данных. Последний iPhone от Apple, например, умеет делать текстовую расшифровку сообщений на голосовую почту. Это замечательно удобный инструмент для экономии времени, потому что — даже несмотря на то, что 20% слов пропущено или искажено — я могу понять суть сообщения без необходимости прослушивать его.


Распознавание слов — это вовсе не то же самое, что распознавание значений, а именно значения критичны для выполнения инструкций. Голосовое распознавание больше всего необходимо в важных и сложных приложениях, призванных работать в ситуациях, когда руки и глаза пользователя заняты. В телерекламе все выглядит так: молодая симпатичная девушка за рулем новенькой модели люксового автомобиля говорит «Позвони Роберту» — и ее привлекательный молодой супруг отвечает на звонок, пока она продолжает ехать по скользкому от дождя загородному шоссе.

В моей машине — атрибуте реального мира — все происходит немного по-другому. «Позвони Роберту». «Извините, я не понимаю». «Позвони Роберту». «Извините, я не понимаю». «Набери номер Роберта». «Вы имеете в виду Роберта Джонса, 555-543-1298». «Да». «Готова». «Набирай номер». «Набираю номер». И в этот момент я понимаю, что пока был занят этим избыточным проговариванием, я пропустил свой съезд. С точки зрения основного постулата проектирования взаимодействия, любая голосовая команда пользователя должна считаться критически важной, и ровно поэтому большая часть автомобильных систем голосового управления не используется ни разу после того, как машина покидает автосалон.


А теперь представьте себе ту же степень туповатого непонимания и вялого педантичного обструкционизма системы при управлении трактором, линией конвейера, самолетом или ядерной боеголовкой. Такие системы распознавания команд туповаты не случайно. Они должны вести себя подобным образом, чтобы избежать двусмысленности, потому что неопределенность в диалоге человека и машины технически недопустима. К сожалению, включение голоса в это взаимодействие всегда порождает неопределенность, и это, по моим прогнозам, никогда не вылечится.


Мы неизбежно будем использовать все больше и больше разговорных пользовательских интерфейсов в будущем. Не потому что они хорошие или лучше, чем другие технологии проектирования интерфейсов, а потому что они дешевле. Они позволяют использовать софт там, где в ином случае пришлось бы задействовать оператора-человека. Так что развитие этой технологии движет оптимизация затрат, а не рост удобства для пользователя.


***


Один из моих любимых фильмов — «Разговор» (The Conversation) Фрэнсиса Форда Копполы. Этот мрачноватый бриллиант, на самом деле, очень глубокий и личный фильм великого режиссера, выпущенный в 1974 году сразу после триумфа фильма жизни Копполы, «Крестного отца». В целом, как и любая хорошая детективная история в жанре нуара, это фильм про характеры, маскирующийся под расследование убийства. И, почему я вообще о нем говорю — все в этом фильме (персонажи, сюжет, тема, определение того, кто хороший парень, а кто плохой) завязано на интерпретацию того, как было произнесено одно-единственное слово.
Поделиться с друзьями
-->

Комментарии (7)


  1. frees2
    28.07.2017 09:50

    Ваша супруга, которая прожила с вами 20 лет, только сейчас начинает отдаленно представлять себе, что вы подразумеваете на самом деле, когда что-то говорите. Ваш компьютер, скорее всего, никогда не начнет вас понимать по той простой причине, что вещи, которые вы говорите, в принципе не понимаемы.


    В общем, это как гармоники в антенне…
    Смыслов много. «Помой посуду» (в контексте времени, интонации, состоянии, места и прошлых диалогов) в устах подруги, может значить и, а вот почему шубку мне до сих пор не купил.

    Или некоторые (если не все) герои Достоевского, выдают слова положительные-правильные по социальным, политическим и прочим меркам эпохи, но от их правильности блевать хочется.

    Провёл жестокий эксперимент, и видно, что человеки не способны (из за давления общества и так далее...) мыслить рационально.

    Компьютер «поймёт» с. контекст, если будет располагать нужной (глобальной) информацией. Ибо он рационален и свободен от своих «эмоций», вся информация о диалоге ему доступна. Выделит смыслы и примет решения.


    1. sophie
      28.07.2017 10:22

      Компьютер «поймёт» с. контекст, если будет располагать нужной (глобальной) информацией. Ибо он рационален и свободен от своих «эмоций», вся информация о диалоге ему доступна. Выделит смыслы и примет решения.


      Интересные мысли, спасибо! Но если противопоставлять именно нерациональность человеков и рациональность компьютера, то получается, что все тем более обречено. Человек будет ожидать от компьютера действий именно соответствующих своей иррациональной парадигме, вне зависимости от глобального контекста. А машина этого просто не сможет.


      1. frees2
        28.07.2017 11:12
        +1

        Человек будет ожидать от компьютера действий именно соответствующих своей иррациональной парадигме

        Монолог Робота.
        — Чувак, да помой ей посуду, а то эта дура набитая тебя ещё сильней достанет, а так успокоится на время.
        Не дрейфь, я придумаю как твоей бабе понизить самооценку, чтобы про шубу не думала.


  1. Yu_Sh
    28.07.2017 10:25
    +1

    Мне кажется, идея об удобстве голосовых интерфейсов идёт от каких-то топ-менеджеров, которые привыкли устно давать общие указания. Как только пытаешься изложить хоть сколько-то сложную задачу более точно и подробно, в виде, пригодном для выполнения, понимаешь, что аудиоформат тут совершенно не подходит. Да и для простых задач ткнуть пальцем кнопку — как правило, быстрее, определённее и легче, чем приговаривать несколько слов голосом.


    1. sophie
      28.07.2017 10:47

      Про кнопку трудно не согласиться. Но все же например в машине, как и в приведенном в статье примере, действительно трудно отвлекаться на кнопки или «лазанье» в смартфоне, если нужно выполнить не одно действие, а цепочку хотя бы из 3-4 шагов. Так что грамотное голосовое управление упростило бы здесь жизнь. Другое дело, что да, и в таком раскладе, если не руки и глаза, то мозг все равно подсознательно отвлекается на эти «разговоры», а значит, и внимание от дороги отвлекается.

      Ну и если применительно к нашей теме, телефонии (вы уж простите :)), говорить, то тут тоже распознавание – палочка-выручалочка. С точки зрения автоматизации — машина способна обработать и прослушать колоссальные объемы разговоров в разы быстрее человека. Так что как только мы приблизимся к хорошему проценту распознавания смыслов и значений, ее помощь в контроле коммуникаций, их фильтрации, будет бесценна с точки зрения практической пользы. Хотя и вычленение просто слов из записей уже выручает и помогает расставлять смарт-теги хотя бы для грубой первичной обработки массивов данных. Чем больше объемы голосового трафика, тем полезнее технология. И, конечно, да, экономия ресурсов при этом более чем имеет место.

      Приходим к тому, что задача проектировщиков — просто не пытаться везде пихать этот инструмент, а использовать его адекватно, там, где он уместен. Как всегда, решает «золотая середина».


      1. vbif
        31.07.2017 18:42
        +1

        Идеальный для таких случаев интерфейс — когда нажал кнопочку, и он сам знает, кого набрать, сделать тише музыку или почесать спину. А то и вовсе без кнопочки. Кажется, что такое научатся делать раньше, чем полноценно распознавать речь.


  1. sotnikdv
    28.07.2017 23:09
    +1

    Проблема в том, что голосовые интерфейсы по телефону не разбирают элементарные слова, не говоря уже о разблре конструкций. Простые слова, цифры, да/нет и т.д. "Назовите ваш день рождения" это вообще упырь придумал, за три года ни разу не распознало.


    И то же касается гугла и кортаны (сири не пробовал). Хотя гугл почему-то отлично распознает "окей гугл, кто такая саша грей" и очень бодро тарабанит ответ и напрочь фейлит простые слова и фразы. Ну, хоть что то осилил.


    Проблема пока в распознавании речи.


    Касательно будет ли понимать — персонализация и контексто-зависимая predictive analytics творят чудеса. Если человек бормочет что то, то смотрим предсказания, что он склонен купить и т.д. Мы это уже делали.


    P.S. А пока все интерфейсы голосовые они напоминают ЭТО и я искренне не понимаю людей, которые их ставят по умолчанию


    https://m.youtube.com/watch?v=G2Y0oqZOyl0