Google слышит лучше, искать проще / forpes.ru

Главная
Google слышит лучше, искать проще

Google слышит лучше, искать проще +18

01.10.2015 11:27

IvanGalavachov 14 9745 Источник

Google объявил о том, что они доработали свою систему голосового поиска для того что бы добиться, улучшенного распознавания речи пользователя в шумных местах.

Это всегда была одна из лучших систем распознавания речи, особенно она удобна при поиске с использованием смартфонов. Теперь функция голосового поиска стала еще более развитой чем когда-либо. Блог Google Research описывает в общих чертах улучшения, которые были приняты в обновленной системы.

С 2012 года поисковый гигант отошел от использования Метода Гауссовых Смесей (МГС) тридцатилетней давности в распознавании речи. В новых системах стали применятся глубокие нейронные сети (Deep Neural Networks). ГНС могут лучше распознавать какие звуки произносит пользователь в определенный момент времени, что значительно повысило точность распознавания.

Теперь специалисты компании Google объявили, что им удалось создать более совершенную нейронную сеть акустических моделей, которые используют алгоритмы коннекционистской временной классификации и дискриминационного обучения. Эти модели представляют собой особое расширение периодических нейронных сетей, которые являются более точными, особенно в шумном окружении, и невероятно быстрыми!

В традиционном распознавании речи голосовая форма, которую заполнил пользователь, разделялась на последовательные фреймы (отрезки) по 10 миллисекунд. Каждый фрейм проходил частотный анализ и полученный после вектор с характеристиками был пропущен через акустические модели, такие как ГНС, которые выдают вероятности по всем звуковым совпадениям. Скрытая Марковская Модель (СММ) помогает разгадать неизвестные детали на основе уже полученных, это дает возможность ввести своего рода структурирование этой последовательности вероятностных распределений. Эта модель в дальнейшем сочетается с другими источниками знаний, такими как Модель Произношения, которая связывает последовательности звуков с определенными словами, выбранного языка и Языковой Модели, которая в свою очередь выражает насколько данное слово относится к выбранному языку.

Распознаватель далее согласовывает всю эту информацию, дабы определить предложение, которое произносит пользователь. Если пользователь произносит, например, слово «museum» (mju:’z??m — фонетическая форма), то может быть сложно определить, когда звук «j» заканчивается и начинается звук «u». Однако, по правде говоря, определителю все равно когда происходит этот переход. Единственное, что его беспокоит, это именно те звуки, которые были произнесены.

Новая улучшеная акустическая модель основана на Периодических Нейронных Сетях (ПНС). В топологии ПНС существуют петли обратной связи, которые позволяют смоделировать временную зависимость. Когда пользователь произносит / U / в предыдущем примере, артикуляционный аппарат человека плавно переходит от звука /J/ до звука /М/ прежде всего. Попробуйте произнести слово «museum», для людей, свободно владеющим английским языком, это не составит труда и слово произнесется легко на одном дыхании, ПНС способна уловить этот момент.

Типом периодических нейронных сетей в данной система является длинная кратковременная память, которая с помощью ячеек памяти и сложного механизма стробирования запоминает информацию лучше чем другие ПНС. Стробирование — это метод выделения некоторого временного интервала для увеличения вероятности обнаружения полезных сигналов на фоне помех. Принятие в работу таких моделей уже значительно повысило качество распознавания голоса.

Следующим шагом было обучение акустической модели распознавать фонемы (звуки) в произнесенной речи, не делая прогноз на каждый фрейм. Модели с Ассоциативной Временной Классификацией подготавливают график с последовательностью «шипов", которые отображают последовательность звуков в полученном сигнале. Они могут это делать до тех пор, пока последовательность не будет нарушена.
По сути система распознавания голоса Google теперь может рассмотреть контекст, в котором было произнесено слово, отстраняясь от фоновых звуков.

Совсем другой вопрос: как сделать это все доступным и удобным в режиме реального времени? После большого количества итераций, программистам Google удалось создать однопотоковые стриминговые модели, которые обрабатывают входящие сигналы блоками, которые превышают по размеру блоки в стандартных акустических моделях, но при этом совершают меньшее число фактических вычислений. Уменьшение количества вычислительных операций значительно ускоряет процесс распознавания сказанного. Так же в программу обучения системы были добавлены искусственные шумы и реверберации (искусственное уменьшение звуков), что бы сделать систему распознавания более устойчивой к постороннему шуму. На видео ниже вы можете наблюдать, как система изучает предложение.

Тем не менее, оставалось решить еще одну проблему: система производит меньшее число прогнозов, но при этом они задерживаются приблизительно на 300 миллисекунд. Выдавая результат после полного завершения предложения, повышался уровень распознания, но при этом создавались дополнительные задержки для пользователей, что совсем неприемлемо для специалистов Goolge. Что бы решить проблему, система была обучена производить анализ и выдавать результат по каждой фразе до того, как она будет завершена. Это сделало процесс распознавание более синхронизированным с нормальным темпом произношения человека. Пользователю более не требуется ожидать, пока программа выдаст свой вариант произнесенной фразы.

Новые акустические модели уже используются для голосового поиска и команд в приложении Google (на Android и iOS) и для диктовки на устройствах на базе Android. Новые модели стали требовать меньшее количество ресурсов, стали более устойчивы к окружающему шуму и способны выдавать результат гораздо быстрее предшественников. Это делает голосовой поиск более приятным для пользователя

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Комментарии (14)

kAIST
01.10.2015 14:38
#8821880
+2
Пользуюсь голосовым поиском в машине очень часто, особенно в сочетании с google now. Кому то позвонить, написать, проложить маршрут, открыть приложение. Ну и дома иногда — поставить будильник, создать напоминание.
Единственное, что бесит — почему то упорно не хочет работать без интернета. Языковой пакет скачен, но все равно упорно лезет в интернет и без него отказывается распозновать
1. goodic
  01.10.2015 18:05
  #8822112
  Недавно анонсировали работу простых команд и в оффлайне. Что-то вроде «уменьши громкость» и тому подобное. У меня на Nexus 5 пока не работает
  1. kAIST
    01.10.2015 21:13
    #8822258
    Вот это то как раз понять не могу, зачем так сделано. Ну может же распознать «открой калькулятор», зачем без интернета то не сделать…

HostingManager
01.10.2015 15:34
#8821966
+12
Где вариант «никогда не использовал»?
1. KOLANICH
  01.10.2015 16:23
  #8822030
  -9
  Вариант убран намеренно, чтобы не провоцировать майора на допрос очень подозрительных гиков, его выбравших.

zv347
01.10.2015 15:52
#8821996
Окей, гугл, придется все-таки обновить поиск на Андроиде и попробовать привыкнуть к омерзительной белесой панели шторки…
Но вот удивительное дело: вроде бы голосовой поиск и быстрее, и удобнее, и я это знаю — а пользовался реально всего «пару раз». Видимо, какое-то подсознательное неприятие — вроде того как многим людям неприятно слышать запись своего голоса или эхо по телефону.
1. Danov
  01.10.2015 18:30
  #8822128
  +1
  Это подсознательное неприятие нового. Просто экономия ресурсов. Нужно напрячься, получить первый опыт. Затем сформировать навык.

goodic
01.10.2015 18:03
#8822106
+2
Но речь содержащую слова на двух разных языках сразу распознавать пока не может. Запросы вроде «Окей, Гугл. Перевод table» воспринимает как "… Перевод таблет" или "… Перевод таблетка".

Black_Shadow
01.10.2015 18:05
#8822114
+16
Вместо «Окей, Гугл», можно говорить «отлей в угол», тоже срабатывает :-)
1. vvzvlad
  01.10.2015 20:25
  #8822228
  +1
  Отклей кукол
  1. WerewolfPrankster
    02.10.2015 01:49
    #8822402
    Окей пугало
    
    Denai
    02.10.2015 02:06
    #8822412
    Ое уа — достаточно в большинстве ситуаций, во всяком случае моему пугалу
1. Halt
  02.10.2015 11:25
  #8822620
  -4
  А «слышь, ты, э…» работает? А то пацаны спрашивают, очень надо.

morfeusys
02.10.2015 13:14
#8822734
-2
Вообще-то например Ассистент Дуся под Android уже давно работает и в офлайне. Те команды, которые не требуют интернета, нормально отрабатываются.

	Постоянно что-то ищу.
	Редко, но использую.
	Пару раз воспользовался.
	Один раз тестировал, при покупке смартфона.