IBM 100: Истоки работы над распознаванием речи

Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?

В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.

И речь здесь идет вовсе не о распознавании правильно поставленной речи, предложений, произносимых, например, профессиональным диктором. Нет, 5,5% — это показатель ошибок распознавания речи в ходе обсуждения двумя обычными людьми возможности покупки автомобиля или других тем.

Такое достижение стало возможным благодаря объединению LSTM (Long Short Term Memory) и языковых моделей Wave Net с тремя другими акустическими моделями. В результате компьютер в некоторых случаях распознает речь даже с меньшим количеством ошибок, чем человек (здесь средний показатель составляет 5,9%). Но разработчики IBM решили не останавливаться на достигнутом и сейчас хотят добиться минимального уровня ошибок с показателем в 5,1%.

Используемые сейчас речевые модели самообучающиеся. Причем они обучаются не только на удачных случаях распознавания сложных моментов речи, но и на неудачах — почти, как человек. С течением времени система снижает уровень ошибок в распознавании речи человека, улучшая общий результат.

Эксперты считают, что компьютерные системы могут достичь новых рекордов — тот же уровень ошибок при распознавании речи в 5,1% пока что представляет собой вызов для ученых и инженеров. Причем обычные тесты не могут выявить все проблемные места в технологиях распознавания речи, которые могут встретиться при разработке специализированных систем. «Например, разные наборы данных могут быть более и менее чувствительными в зависимости от разных аспектов задачи», — говорит Иешуа Бенджио, один из специалистов, работающих над созданием алгоритмов распознавания речи.

Кстати, результат оценки работы технологий распознавания речи во многом зависит еще и от системы оценки. Например, проценты ошибок, о которых говорилось выше, выводились исходя из стандартов методологии оценки SWITCHBOARD. Но есть и другая методика, которая называется Call Home. В этом случае оценивается количество ошибок в распознавании речи членов семьи при обсуждении случайных тем. Результат человека (уровень ошибок) — 6,8%. Максимальный же результат, полученный машинной системой — 10,3%. Очень неплохо, но уровня человека машины пока не достигли.



«Способность распознавать речь так же, как и человек — это вызов для специалистов по машинному обучению, поскольку речь человека, в особенности, на случайные темы, чрезвычайно сложна», — говорит Джулия Гирчберг, профессор из Колумбийского университета. «Также проблемой является оценка уровня распознавания речи самим человеком, поскольку у разных людей очень разные способности в отношении понимания речи собеседников. Когда мы сравниваем человека и машину, очень важно принять во внимание следующее: эффективность алгоритма и метод оценки уровня ошибок».

По мнению аналитиков из Gartner, достижения IBM могут предопределить будущее всей сферы искусственного интеллекта и «Интернета вещей».

«С распространением цифровых помощников вроде Alexa или Google Assistant снижение уровня ошибок в распознавании речи человека может послужить стимулом для повсеместного использования речевых интерфейсов, как в обычных, так и в корпоративных приложениях», — говорит представитель Gartner Марк Ханг.
Поделиться с друзьями
-->

Комментарии (4)


  1. DFooz
    29.03.2017 12:03
    +5

    Такое достижение стало возможным благодаря объединению LSTM (Long Short Term Memory) и языковых моделей Wave Net с тремя другими акустическими моделями. В результате компьютер в некоторых случаях распознает речь даже с меньшим количеством ошибок, чем человек (здесь средний показатель составляет 5,9%)

    где ссылка на статью? Хабр — серьёзный ресурс, но пост представлен в виде маркетинговой лажи. Аналогичная фигня и в предыдущем посте, о чём и было указано в комментариях
    https://habrahabr.ru/company/ibm/blog/324826/


  1. saintbyte
    29.03.2017 12:24
    +5

    Я где-то месяцов 6 назад пробовал распознавание от IBM, результаты были субъективно хуже чем у гугла. Так что гугл понимает мои дефекты речи лучше чем IBM


  1. VasakaInc
    29.03.2017 13:07
    +4

    Войс рекогнейшен текнолоджи:
    https://www.youtube.com/watch?v=l3TsKx89alU


  1. madrugado
    30.03.2017 09:13

    Я прошу прощения, но Иешуа — это у Булгакова, Yoshua — это Йошуа.