Обучаемые нейронные сети Microsoft теперь распознают человеческий голос так же хорошо, как и люди. В докладе команды исследователей в области научного интеллекта Speech & Dialog сказано, что система распознавания речи теперь ошибается так же часто, как и профессиональные стенографисты. В некоторых случаях система способна совершать меньше ошибок.

Во время тестов коэффициент ошибочных слов (WER) составил 5,9%, что ниже предыдущего результата 6,3%, о котором Microsoft сообщила в прошлом месяце. Это самый низкий результат из когда-либо зарегистрированных. Команда не считает это прорывом в алгоритме или данных, но в тщательной настройке существующих архитектур AI. Основная сложность заключается в том, что
даже если звуковая дорожка хорошего качества и не содержит посторонних шумов, алгоритм должен бороться с разными голосами, перерывами, колебаниями и другими нюансами живой речи человека.

Чтобы проверить, насколько алгоритм способен повторить человеческие способности, Microsoft для чистоты эксперимента наняла стенографистов со стороны. У компании уже была готова правильная стенограмма аудиофайла, которая была предложен специалистам. Стенографисты работали в два этапа: сначала один человек перепечатывал аудио-фрагмент, а затем второй слушал и исправлял ошибки в расшифровке стенограммы. На основе верной стенограммы для стандартизированных тестов специалисты, расшифровывая запись разговора на конкретную тему, сработали на 5,9%, а результат расшифровки свободного диалога показал 11,3% ошибок. После 2 000 часов обучения человеческой речи, по этим же аудиофайлам система Microsoft набрала 5,9% и 11,1% ошибок соответственно. Это означает, что компьютер теперь может распознавать слова в разговоре так, если бы он был человеком. При этом команда выполнила цель, которую поставила перед собой меньше года назад, а результат значительно превзошел ожидания.

Теперь Microsoft собирается повторить такой же результат в шумной обстановке. Например, во время движения по шоссе или на вечеринке. Кроме того, компания планирует сосредоточить свое внимание на более эффективных способах помочь технологии распознавать отдельных спикеров, если они говорят одновременно, и убедиться, что AI хорошо работает с большим количеством голосов вне зависимости от возраста и акцента. Реализация этих возможностей в будущем имеет решающее значение и выходит за рамки простой стенографии.

Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit. Возможность этого нейросетевого инструментария быстро обрабатывать обучающие алгоритмы на нескольких компьютерах, работающих под управлением графического процессора, значительно улучшила скорость, с которой они могли производить исследования, и, в конечном счете, достичь человеческого уровня.



Такой уровень точности оказался возможным благодаря использованию трех вариантов сверточной нейронной сети. Первой из них стала архитектура VGG, отличающаяся большим числом скрытых слоев. По сравнению с сетями, которые использовались ранее для распознавания изображения, эта сеть применяет небольшие, более глубокие фильтры (3х3), а также использует до пяти сверточных уровней перед объединением. Вторая сеть смоделирована на архитектуре ResNet, которая добавляет магистральные соединения. Единственное отличие заключается в том, что разработчики применили пакетную нормализацию перед тем, как вычислить ReLU. Последняя сверточная сеть в списке — LACE. Это вариант нейронной сети с временной задержкой, в котором каждый более высокий уровень – нелинейное преобразование взвешенных сумм окон фреймов нижнего уровня. Другими словами, каждый более высокий уровень использует более широкий контекст, чем нижние уровни. Нижние уровни фокусируются на извлечении простых локальных структур, в то время как более высокие уровни извлекают более сложные структуры, которые покрывают более широкие контексты.



Это достижение является для компании еще одним шагом на пути к легкому и приятному общению с компьютером. Но до тех пор, пока компьютер не может понимать смысл того, что ему говорят, он не сможет правильно выполнить команду или ответить на вопрос. Здесь задача намного сложнее. И она ложится в основу того, чем собирается заниматься Microsoft в ближайшие годы. Ранее в этом году Сатья Наделла говорил о том, что искусственный интеллект является «будущим компании», и его способность общаться с человеком стала краеугольным камнем. «Следующий рубеж – это переход от признания к пониманию» — сказал Джеффри Цвейг, руководитель исследовательской группы Speech & Dialog.

Несмотря на очевидный успех, между автоматической системой и работой стенографистов есть одна большая разница: она не может понимать тонкие разговорные нюансы вроде звука «э-э». Мы можем произносить данный звук непроизвольно, чтобы чем-то «забить» паузу во время обдумывания следующей мысли, которую нужно сказать. Или «э-э» может быть сигналом о том, что собеседник может продолжать говорить, как и «ага». Профессиональные стенографисты способны отличить их между собой, но эти небольшие сигналы теряются для искусственного интеллекта, который не в состоянии понять контекст, в котором был произнесен тот или иной звук.

«Еще пять лет назад я бы даже подумать не мог, что мы могли бы добиться такого результата. Я просто не думал бы, что это возможно» — отметил Гарри Шам, исполнительный вице-президент, возглавляющий группу исследований искусственного интеллекта Microsoft.

Первые исследования в области распознавания речи можно отнести к 1970-м годам, когда агентство передовых оборонных исследовательских проектов США (DARPA) поставило задачу создать прорывную технологию в интересах национальной безопасности. На протяжении десятилетий большинство крупнейших ИТ-компаний и множество научно-исследовательских организаций включились в гонку. «Это достижение является кульминацией более чем двадцати лет усилий», отмечает Джеффри Цвейг.
Microsoft считает, что результат работы над распознаванием речи окажет большое влияние на развитие потребительских и бизнес-продуктов компании, число которых существенно увеличится. Новые возможности из уже существующих разработок получат, как минимум, Xbox и Cortana. Кроме того, каждый пользователь сможет воспользоваться инструментами мгновенного перевода речи в текст.
Поделиться с друзьями
-->

Комментарии (30)


  1. Kalobok
    19.10.2016 21:39
    +4

    Долго думал, как же процент ошибок после второго этапа (правка) может быть больше, чем после первого (прослушка). Оказалось, все совсем не так, как написано в статье. Это совсем другие этапы.

    The error rate of professional transcriptionists is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations.


    То есть, 5.9% — расшифровка разговора на заранее заданную тему, 11.3% — свободного трепа.

    Тщательнее надо!


    1. krasandm
      19.10.2016 21:58

      Спасибо, исправлено


    1. orcy
      21.10.2016 07:14

      > (прослушка)
      Дополнению к пакету Яровой: весь Voice трафик должен проходить через систему распознавания речи и анализироваться в реальном времени на предмет угроз обществу.


  1. hardsome
    19.10.2016 21:49
    -5

    Надеюсь речь идет не том же самом алгоритме который Microsoft использует в Skype, потому что этим э… алгоритмом пока что практически пользоваться невозможно при трансляции с русского на английский.


    1. TsukinoMai
      20.10.2016 03:19
      +6

      Распознавание и перевод, всё же, вещи слегка друг от друга отличающиеся.


      1. hardsome
        20.10.2016 03:53
        -1

        У меня были надежды скайп как на инструмент, позволявший бы моим англоязычным партнерам хоть как то разговаривать с русскоязычными. Скайп претендует на распознавание речи и синхронный перевод. Мне кажется с первой задачей он пока не справляется. Соответственно результат второй задачи даже нет смысла оценивать.
        Попробуйте поговорить с кем нибудь из знакомых по скайпу используя пару русский/английский. Я попробовал.
        И да, спасибо за комментарий.


        1. PavelGatilov
          20.10.2016 12:24
          +4

          И тем не менее, статья не имеет никакого отношения ни к Скайпу, ни к переводу.


  1. alexkunin
    19.10.2016 22:19

    Не знаю, имеет ли отношение описанное к Кортане, но она распознает мой ужаснейший английский на много лучше, чем Сири.


  1. therealman_tm
    19.10.2016 22:25

    Ну отлично. Остальсь эту систему «прикрутить» к YouTube.


    1. Alexey2005
      20.10.2016 12:08

      Толку не будет. На youtube речь зачастую зашумлена фоновой музыкой, говорить могут с акцентом, может говорить несколько человек одновременно, а качество самой записи бывает не самым высоким.
      В итоге вряд ли сгенерированные субтитры будут так уж сильно отличаться от того, что уже сейчас выдаёт youtube.


  1. Danov
    19.10.2016 22:26
    +1

    Это всё хорошо, но когда же MS встроит поддержку распознавания русской речи в Windows? И дождемся ли мы Кортану?
    Может кто из хабражителей предложит альтернативные варианты распознавания русской речи под винду?


    1. AlexeyNadezhin
      19.10.2016 22:43

      В Скайп прикрутили, теперь и во всё остальное наверное быстро прикрутят.


    1. Ghool
      20.10.2016 00:07

      Вот кстати да.
      Мне надо регулярно распознавать аудиофайлы. И толком ничего не нашёл.
      Есть прога от создателей «Читателя» — но она 12 тысяч стоит, чёт меня жаба задушила.

      PS Я думаю все эти исследования — про английский.
      С русским будет хуже.


  1. maniacscientist
    19.10.2016 22:45
    -1

    И как всегда — никакого продукта в результате, одни сервисы


    1. Kenya-West
      20.10.2016 07:21
      +1

      Чукча не писатель, сервис не продукт!


  1. SinsI
    19.10.2016 22:53
    +3

    >После 2 000 часов обучения человеческой речи по этим же аудиофайлам
    Это нормально — проверять нейросети на том же материале, на котором они и обучались?!


    1. EviGL
      19.10.2016 23:04
      +2

      Это неоднозначное построение предложения, скорее всего «по этим же» относится к стенографистам, а не к процессу обучения.


    1. Flux
      21.10.2016 16:10

      Есть такая штука как кросс-валидация.
      Будь уверен, в MS Research дураков нет, они знают на чем можно проверять а на чем — нет.


  1. timka05
    19.10.2016 23:09

    Брал одну лмпу Rev, стояла не помню уже где, то ли в торшере, то ли в люстре. Итог: от платы посыпались светодиоды, которые тупо отпаялись. Перегрев всей лампы.

    Часто даже вполне хорошие лампы страдают этим же — плохой теплоотвод. Алюминиевый корпус на котором плата с диодами через термопасту и в итоге все это еще в пластиковом белом корпусе — куда уходить теплу непонятно.


    1. timka05
      19.10.2016 23:16
      +2

      Темой промахнулся :(


  1. xenohunter
    20.10.2016 01:50
    +1

    Только вот для записи текста с голоса эти 5-11% весьма неприятны. Одно дело — человек, воспринимающий речь в процессе общения и строящий смысловую цепочку. Он может даже при записи «додумать» и записать что-то подходящее по смыслу. И совсем другое дело — программа, у которой понимания нет, и в те моменты, что она не распознает слова, в тексте появятся смысловые дыры.


  1. Areso
    20.10.2016 05:47

    Скажем так, у меня не идеальное произношение. Более того, оно откровенно плохое. Даже когда я пытаюсь воспроизвести на слух слово, которое я только что прослушал в записи от носителя, получается не очень, если верить автоматическим системам распознавания.
    При этом, я уже что только не пробовал, в том числе и тренировался перед зеркалом по всякому вытягивая губы и язык, пародируя преподавателей с ютуба, но если человек (в контексте) распознает мое three, third, thirty, то машина — нет. Прямо-таки гарантированно не распознает.


    1. hdfan2
      20.10.2016 07:24

      Не переживайте, такая проблема не только у вас.


    1. tmin10
      20.10.2016 14:06

      Пробовал сири на маке, мой английский она поняла хорошо, причём было видно, что по мере произнесения, она уточняет значения слов.


  1. ramzai
    20.10.2016 11:03

    Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit.

    CNTK (Computational Network Toolkit) — это имя собственное, https://www.cntk.ai/


  1. igorkozinov
    20.10.2016 11:23

    Распознавать это хорошо, а вот когда научится понимать и принимать решение… Вот тогда дробовик и понадобится!!!


  1. FSA
    20.10.2016 12:03

    Это они, по любому, на английском тренировались. Интересно было бы узнать на сколько хорошо их система распознает русскую речь, когда слова меняются и имеют кучу разных окончаний.


    1. mukizu
      20.10.2016 14:53

      Речь о распознавании, а не о понимании\анализе.


  1. duke_saiko
    21.10.2016 20:56

    Возможно, они и добились успехо в лабораториях, но их Кортана — глуха, тупа и страдает лёгкой формой дисклексии. Как ещё можно объяснить факт того, что Google сразу понимает фразу, а Кортана умудряется удивить.


  1. LonelyCruiser
    21.10.2016 21:07

    Вот как то так по-будничному приходят такие новости. А на самом деле появилась еще одна вещь, которую компьютер может делать так-же хорошо, как и человек. И еще одна потенциально вымирающая профессия (стенографист в данном случае).