Команда дизайнеров голосовых интерфейсов KODE ведет ТГ-канал Hey Voice. Там мы рассказываем о VUI-технологиях, а помогает нам в этом Маша Кудряшова, лидер компетенции по проектированию навыков в ботах сервисной поддержки клиентов Сбера. В прошлом году Маша выпустила классное интервью с одним из авторов Маруси. Хотим поделиться им с вами.

В AI и VUI происходит много всего интересного, а причина этому не только технологии, но и люди. Талантливые, умные, смелые. Мы решили, что говорить о нашей сфере без рассказа о людях невозможно, и поэтому запускаем рубрику «Люди в голосе».

Сегодня публикуем интервью с Анатолием Кульбацким, потрясающим человеком и профессионалом, экс-директором департамента умных продуктов VK (в 2020-2023), который в условиях пандемии и ситуации «после февраля 2022 года» вырастил аудиторию «Маруси» с 400 000 до 10 000 000 MAU.

Расскажи про свой путь в голос и в умные устройства?

С ASR я начал работать во время работы в «Везёт». У нас тогда более 70% всех заказов такси проходили через колл-центр, и мы задавались вопросом, как это оптимизировать и переводить в приложение (заказ такси через КЦ стоил в 7 раз дороже). Ускорение операторов, улучшение интерфейса, подсказки, автозаполнение. Но всё равно в этом процессе оставался человек. 

Применив открытые голосовые технологии для распознавания адресов, мы поняли, что они несовершенны. Пользователь мог сказать «Заберите меня у Магнита на такой-то улице», и оператор лучше справлялся с таким запросом. Стало очевидно, что есть проблемы с качеством, нужны инвестиции для развития VUI-проектов. 

Тогда голос остался для меня интересной штукой, но не до конца понятной. Поэтому, когда в 2020 году мне предложили пойти в «Марусю», голос был одним из факторов выбора. 

Кроме этого, меня вдохновляла команда и вызовы, которые предстояло преодолеть. Маруся на тот момент была совсем маленькой: около 400 000 MAU и только-только в продаже появилась первая колонка. Конкурентами были Алиса, Google и Siri – топовые ребята, с которыми интересно поработать на одном рынке.

Какой путь ты прошёл с «Марусей»?

Первый трек – изменение моей ответственности. Первый год я был СРО «Маруси», отвечал только за ассистента, потом мне передали колонки. Еще через полгода я стал отвечать за всю «Марусю»: продукт, разработка, маркетинг и продажи. Второй трек – это погружение в «кроличью нору» технологий. Болталка «Маруси» в 2020 году началась с таблички с ответами, а в конце 2022 года уже появились генеративные модели. Одновременно выкристаллизовалось понимание, где ассистент будет полезен, а где он так и не сможет подсобрать retention. В 2022 году мы запустили колонку Neo, которая, насколько я знаю, хорошо себя чувствует на рынке.

Какие вызовы пришлось преодолеть?

Самый сложный – как расти по качеству быстрее, чем по аудитории. Количество пользователей Маруси превысило 10 МЛН в месяц, это рост более, чем в 25 раз. Аудитория ассистента была сосредоточена в четырёх поверхностях: приложениях VK, Почта Mail.Ru, «Маруся» и в колонках. Большие поверхности с разными паттернами и запросами, и важно, чтобы качество ассистента росло.

Это похоже на историю, когда ты отправляешься в путешествие, а автомобиль тебе надо собирать на ходу. 

Мы не стремились к идеальному кейсу, шли через MVP и смотрели влияние на retention. Детальный же разбор был в больших навыках, где скапливаются пользователи и трафик. Например, в Музыке огромное разнообразие кейсов. Поисковые запросы, детский режим, семейный режим. Мы собирали ключевые запросы, изучали, что мешает больше потреблять, делали регулярный ассессмент качества и многое другое. «Свежесть» поиска в Музыке тоже очень важна. Поиск тогда обновлялся не так быстро, как взлетал новый альбом Моргенштерна.

Как развивался персонаж ассистента «Маруся»? Как у неё появились глаза?

Люди любят персонажей. Мы читаем про персонажей в книгах, смотрим про них кино. Мы следим за блогерами, играем за персонажей в компьютерных играх. Мы долго думали, каким образом можно внести в ассистента персонаж. Появилась библия «Маруси», tone of voice, стиль действий, пасхалки. 

Тем не менее, с  персонажами в ассистентах сложнее, чем в книгах и в кино. Автор книги или режиссер фильма развивает сюжет так, чтобы управлять нашим погружением в персонажа. В умных устройствах всё не так линейно. Я искал ответы на эти вопросы и наткнулся на подход Pixar. В основе любого персонажа, который создается в Pixar, лежит антропоморфность. Я тогда посмотрел много мультфильмов Pixar, и это действительно так. Мы доверяем подобным себе. 

С учётом и этого тезиса команда развивает идею антропоморфности «Маруси». Сначала это были имя и голос, а затем глаза и эмоции. Началось всё с дисплея и отображения часов. 

Мы шли путём итераций, в какой-то момент у Маруси появились глаза. И мы поняли: It’s Magic!

Давай вспомним клиентские кейсы, которые тяжело давались?

У нас был пример из жизни – МакДрайв: к стойке на автомобиле подъезжает человек, говорит свой заказ в микрофон, ему отвечают, а потом он забирает свой заказ. Выглядело так, как будто бы в жизни уже есть готовый голосовой кейс взаимодействия, и можно его повторить. Но всё не так просто. Обычные модели распознавания речи довольно плохо работали с «наггетсами», «чикен роллами», «макфишами» и прочими штуками, потому что в обычной речи с ассистентами они не встречаются. Мы дообучили модель, выпустили навык, а пользователи дали понять, что им это не надо. И есть пара гипотез, почему.

  1. Интерфейсы Delivery Club более удобны для того, чтобы сделать заказ. У пользователя перед глазами есть 7-10 элементов, и за несколько секунд он может определиться, чего чему хочется.

  2. В МакДрайве было меню перед глазами, а в колонке нет. Если запросить меню у колонки, то после третьего наименования у пользователя «взрывается» голова.

Большое значение имеет мотивация пользователя. Что он получит, если обучится этому кейсу?

Например, в приложении «Самокат» ты обучаешься заказывать продукты, чтобы потом не ходить в магазин, а в такси – вызывать машину кнопкой, без звонка. С наггетсами так не получилось.

Голосовые интерфейсы – половина дела. А как собрать саму колонку?

На железе сложно зарабатывать. Мы запустили Мини, Яндекс запустил Лайт. У Лайта были хорошие продажи в сегменте недорогих устройств. Наша задача заключалась в том, чтобы выпустить недорогую колонку с дифференциацией и преемственностью семейству наших колонок, а также перенастроить логистику в условиях 2022 года.

Мне очень повезло, потому что ребята, с которыми я работал в VK – потрясающие специалисты, перед которыми можно ставить самые амбициозные задачи. Например, Борис Каганович. Он смог сделать недорогую колонку высокого качества, с экраном, и чтобы она звучала лучше, чем Лайт.

В Neo мы чуть лучше сфокусировались на детях. Мы не хотели, чтобы это был детский продукт, при этом знали, что среди пользователей будет много детей (дорабатывали семейный и детский режимы). Один из наших дифференциаторов и отстройка от Алисы заключается в том, Маруся – добрая. Алиса – классная, дерзкая, она может резко ответить.

Мы сознательно всё это убрали в Марусе. И доброта сработала, потому что покупатели обращали на это внимание.

Что самое сложное в производстве таких продуктов? С чем точно встретишься, и, если не преодолеешь, то ничего не получится?

Толщина голосового канала. Когда появился голос, казалось, что это новый способ взаимодействия с компьютером, и через какое-то время он станет доминирующим. Но с продуктами так не работает: в реальности существует очень много разных вариантов интерфейсов, и есть интерфейсы, которые в том или ином кейсе гораздо эффективнее, чем голос.

Например, если нужно выбирать из 6-7 вариантов и иметь возможность легко вернуться на предыдущий шаг, то визуальный интерфейс будет более удобным. Голосовое взаимодействие линейно, в нём сложнее возвращаться на предыдущие шаги. Возможно, LLM смогут решить эту задачу и будут давать быстрые полные ответы, но давайте вспомним, когда был запуск Google Assistant и Siri: прошло больше десяти лет.

Существует пропасть между понятными короткими кейсами (голосовой поиск, погода, умный дом) и длинными диалогами с поддержкой контекста. Все вкладываются в развитие таких естественных диалогов, а на практике я видел, что здорово работают именно короткие кейсы (найти трек или фильм, включить музыку). Получается, чтобы сделать хороший кейс, нужно решить три задачи: 1) найти этот кейс 2) учесть контекст 3) реализовать его грамотно с точки зрения клиентского пути и технологического качества (точность, действия ассистента).

Как набирать людей в такие проекты? Как развивать команду?

Я не отношу себя к тем людям, которые считают, что для этой сферы нужны какие-то специальные навыки. Умные устройства – довольно сложные продукты, поэтому нужны senior-ребята. Такие специалисты лучше всего подходят для продуктов с высокой степенью неопределенности. И с ними интереснее работать. А дальше смотрим по типу продукта. Например, для Музыки мне было важно найти senior-продакта, который мог работать и с технологиями, и с контентом, а для поиска и базового качества – с опытом в ML. VUI и голосовым технологиям мы обучали в команде, потому что я знал, что готовых специалистов очень мало, и нужно вкладываться в новых.

Кто проектирует голосовые интерфейсы? Дизайнер?

Мы сознательно отказались от роли голосовых дизайнеров. Навык проектировался продактом, который понимает технологию и клиентский путь, и редактором, который хорошо разбирается в написании диалогов. Когда у навыка есть визуал, там появляется дизайнер.

Какое будущее у индустрии умных устройств?

Я верю, что такие продукты будут распространяться линейно (больше колонок, ассистенты будут проникать в телевизоры), но я не верю в экспоненту. То количество ограничений, которое есть в голосовом интерфейсе, не даст ему стать новым айфоном. Плюс те ограничения, которые наложили Goggle и Apple на свои доминирующие платформы, не дадут другим ассистентам хорошо вырасти в Android и iOS.

Пользователю придётся продираться к вашему ассистенту, и тогда клиентский кейс должен быть такой сильный, чтобы пользователь нашел мотивацию это сделать. Среди таких сильных кейсов – Навигатор с голосом.

Умные устройства – не товар первой необходимости, поэтому кризисы будут влиять на продажи.

При этом, я вижу большой потенциал в автоматизации с помощью голосовых технологий (сервисные коммуникации, продажи в колл-центрах). Сейчас она строится на простых технологиях и древовидных структурах, но с появлением LLM решения могут стать более сложными и дать движение по качеству обслуживания.

Какие рекомендации ты можешь дать ребятам, которые хотят заниматься такими продуктами?

Меня радует, что постепенно продакт-менеджмент превращается в профессию, а не остается просто набором эмпирических знаний. Например, хорошо бы владеть фреймворками от простых типа RICE до Onboarding от Reforge.

При переходе в новую доменную область человеку придется погрузиться в специфику: текущий стек технологий, наработки, ожидания и боли пользователей, за счёт чего можно сделать следующий «прыжок» в продукте, и нужно ли его делать. Возможно, придётся двигаться маленькими шагами по одному проценту вперед.

В умных устройствах и ассистентах на первом этапе придётся довольно быстро «занырнуть» в другой способ взаимодействия с пользователем и начинать работу с учётом интерфейсных и технологических ограничений. Специфика есть, но её можно освоить. Не могу сказать, что только выпускники «Лиги голосового плюща» могут работать в таких продуктах, такой Лиги не существует, поэтому у всех есть шанс.

⚡️В комментариях задавайте вопросы Анатолию, мы обязательно их передадим.

Комментарии (3)


  1. Kelbon
    18.01.2024 08:11
    +3

    как вырастить аудиторию «Маруси» в 25 раз

    на государственном уровне установить в каждый телефон, убрав неконкурентными методами конкурентов? Я угадал?

    У нас был пример из жизни – МакДрайв ...

     а пользователи дали понять, что им это не надо. И есть пара гипотез

    То есть до начала вы не смогли понять, что это просто нерабочее и бесполезное .?

    Все эти голосовые нейросетные "помощники" абсолютно бесполезная трата ресурсов человечества, кнопки с выбором будут всегда лучше чем разговор с "помощником" который тебя не понимает

    Большое значение имеет мотивация пользователя. Что он получит, если обучится этому кейсу?

    ваша работа - обучать нейросети, а не пользователей


    1. vicsoftware
      18.01.2024 08:11
      +2

      Согласен. Как и показал случай с МакДрайв, система меню быстрее и эффективнее, нежели попытка придумать и объяснить "помощнику", что ты от него хочешь. Ткнуть в пункт на экране всегда быстрее, чем назвать этот пункт.
      Ну и плюс response time. Там, где картинка на экране за долю секунды показывает, как товар улетает в корзину, помощнику надо как минимум переспросить - "а толи он услышал?" и получить подтверждение.

      Так что такие голосовые помощники - это деградация, а не развитие UI.
      Удел голоса - запуск какого-то четко определённого действия "включить лампочку", "открыть окно". Там, где приходится иметь дело с выбором из нескольких а то и многих вариантов, голос - худшее, что можно придумать.


  1. DMGarikk
    18.01.2024 08:11
    +3

    а пользователи дали понять, что им это не надо. И есть пара гипотез

    бл...да всё просто, ПРОСТО ВСЁ

    Сам, г-н Анатолий, возьми свою Марусю и используй её каждый день не только для таймера или выключения сберовских лампочек, а для всего, причем спрашивай как хотел бы спрашивать, например состав какогото продукта при готовке еды "стоит из кальцийвитамины абеппв1к" (прям слитно в одно слово мешанина букв)...или сказки всякие без тупой болтологии по 10 секунд мусорного текста и бреда на выходе

    тогда не надо придумывать гипотезы, вы, Анатолий, сами поймёте почему они показали что людям это не надо.

    Но вы же не используете сами свои продукты, как и 99% архитекторов подобных систем

    Чесслово, мне досталась маруся самой первой партии, когда я в мейле работал...и вот не купил был я её ни тогда ни сейчас... в ней нет никакого ИИ, тупой if-else ассистент

    причем у меня явное ощущение что она потупела с момента релиза

    даже сказки детям включать это мучение какоето "включи сказку" ... "я нашла...три варианта"... и бл. всегда три одинаковых..чтобы прокрутить дальше надо говорить еще ...еще ..еще..внимательно выслушивая "я нашла" и перечисления...одного и тогоже десятки раз (перемешать список? неее...)

    о чем это говорит? никто из вас никогда не пользовался этим

    А с макдрайвом всё просто, всех бесят электронные ассистенты в банках потому что они тупые и не могут ничего ответить если вы спрашиваете чтото нетиповое или они не могут распознать ваш голос, тут тоже самое... но вы НЕ ПОЛЬЗУЕТЕСЬ этим сами