С тех пор, как на сцену распознавания речи вышло глубинное обучение, количество ошибок в распознавании слов кардинально уменьшилось. Но, несмотря на все те статьи, которые вы могли читать, у нас до сих пор нет распознавания речи человеческого уровня. У распознавателей речи много видов отказов. Для дальнейшего улучшения их нужно выделить и постараться устранить. Это единственный способ перейти от распознавания, подходящего для некоторых людей большую часть времени, к распознаванию, работающему для всех людей всё время.


Улучшения в количестве ошибочно распознанных слов. Тестовый голосовой набор был собран на телефонном коммутаторе в 2000 году из 40 случайных разговоров двух человек, чей родной язык – английский

Говорить о том, что мы достигли уровня человека в распознавании речи в разговорах, основываясь лишь на наборе разговоров с телефонного коммутатора, это всё равно, что утверждать, что робомобиль водит не хуже человека, протестировав его в единственном городе в солнечный день без всякого уличного движения. Произошедшие в деле распознавания речи в последнее время сдвиги удивительны. Но заявления по поводу распознавания речи на уровне человека слишком смелы. Вот несколько областей, в которых всё ещё необходимо добиваться улучшений.

Акценты и шум


Один из очевидных недостатков распознавания речи – обработка акцентов и фонового шума. Основная причина этого в том, что большая часть тренировочных данных состоит из американского говора с высоким отношением сигнала к шуму. К примеру, в наборе разговоров с телефонного коммутатора есть только беседы людей, чей родной язык – английский (по большей части, это американцы) с небольшим фоновым шумом.

Но увеличение тренировочных данных само по себе, скорее всего, не решит эту проблему. Существует множество языков, содержащих много диалектов и акцентов. Нереально собрать размеченные данные для всех случаев. Создание высококачественного распознавателя речи только для американского английского требует до 5 часов аудиозаписей, переведённых в текст.


Сравнение людей, занимающихся преобразованием речи в текст, с Baidu’s Deep Speech 2 на разных типах речи. Люди хуже справляются с распознаванием неамериканских акцентов – возможно, из-за обилия американцев среди них. Думаю, что люди, выросшие в определённом регионе, с гораздо меньшим количеством ошибок справились бы с распознаванием акцента этого региона.

При наличии фонового шума в движущейся машине отношение сигнал/шум может достигать величин в -5 дБ. Люди легко справляются с распознаванием речи другого человека в таких условиях. Автоматические распознаватели гораздо быстрее ухудшают показатели с увеличением шума. На графике видно, как сильно увеличивается отрыв людей при увеличении шума (при низких значениях SNR, signal-to-noise ratio)

Семантические ошибки


Часто количество ошибочно распознанных слов не является самоцелью системы распознавания речи. Мы нацеливаемся на количество семантических ошибок. Это та доля выражений, у которых мы неправильно распознаём смысл.

Пример семантической ошибки – когда кто-то предлагает «let’s meet up Tuesday» [давайте встретимся во вторник] а распознаватель выдаёт «let’s meet up today» [давайте встретимся сегодня]. Бывают и ошибки в словах без семантических ошибок. Если распознаватель не распознал «up» и выдал “let’s meet Tuesday”, семантика предложения не изменилась.

Нам нужно аккуратно использовать количество ошибочно распознанных слов в качестве критерия. Для иллюстрации этого я дам вам пример с наихудшим из возможных случаев. 5% ошибок в словах соответствует одному пропущенному слову из 20. Если в каждом предложении 20 слов (что для английского языка вполне в рамках среднего), то количество неправильно распознанных предложений приближается к 100%. Можно надеяться на то, что неправильно распознанные слова не меняют семантический смысл предложений. А иначе распознаватель может неправильно расшифровать каждое предложение даже с 5% количеством ошибочно распознанных слов.

Сравнивая модели с людьми важно проверять суть ошибок и следить не только за количеством неправильно распознанных слов. По моему опыту, люди, транслирующие речь в текст, делают меньше ошибок и они не такие серьёзные, как у компьютеров.

Исследователи из Microsoft недавно сравнили ошибки людей и компьютерных распознавателей схожего уровня. Одно из найденных различий – модель путает “uh” [э-э-э…] с “uh huh” [ага] гораздо чаще людей. У двух этих терминов очень разная семантика: “uh” заполняет паузы, а “uh huh” обозначает подтверждение со стороны слушателя. Также у моделей и людей обнаружили много ошибок совпадающих типов.

Много голосов в одном канале


Распознавать записанные телефонные разговоры проще ещё и потому, что каждого говорящего записывали на отдельный микрофон. Там не происходит наложения нескольких голосов в одном аудиоканале. Люди же могут понимать нескольких ораторов, иногда говорящих одновременно.

Хороший распознаватель речи должен уметь разделять аудиопоток на сегменты в зависимости от говорящего (подвергать его диаризации). Также он должен извлечь смысл из аудиозаписи с двумя накладывающимися друг на друга голосами (разделение источников). Это необходимо делать без микрофона, расположенного прямо у рта каждого из спикеров, то есть так, чтобы распознаватель работал хорошо, будучи размещённым в произвольном месте.

Качество записи


Акценты и фоновый шум – всего два фактора, к которым распознаватель речи должен быть устойчив. Вот ещё несколько:

• Реверберация в разных акустических условиях.
• Артефакты, связанные с оборудованием.
• Артефакты кодека, используемого для записи и сжатия сигнала.
• Частота дискретизации.
• Возраст говорящего.

Большинство людей не отличат на слух записей из mp3 и wav-файлов. Прежде чем заявлять о показателях, сравнимых с человеческими, распознаватели должны стать устойчивыми и к перечисленным источникам вариаций.

Контекст


Можно заметить, что количество ошибок, которые люди делают на тестах в записях с телефонной станции, довольно высоко. Если бы вы беседовали с другом, который не понимал бы 1 слово из 20, вам бы было очень сложно общаться.

Одна из причин этого – распознавание без учёта контекста. В реальной жизни мы используем множество разных дополнительных признаков, помогающих нам понимать, что говорит другой человек. Некоторые примеры контекста, используемые людьми, и игнорируемые распознавателями речи:

• История беседы и обсуждаемая тема.
• Визуальные подсказки о говорящем – выражения лица, движение губ.
• Совокупность знаний о человеке, с которым мы говорим.

Сейчас у распознавателя речи в Android есть список ваших контактов, поэтому он умеет распознавать имена ваших друзей. Голосовой поиск на картах использует геолокацию, чтобы сузить количество возможных вариантов, до которых вы хотите построить маршрут.

Точность систем распознавания увеличивается с включением в данные подобных сигналов. Но мы только начинаем углубляться в тип контекста, который мы могли бы включить в обработку и в методы его использования.

Развёртывание


Последние достижения в распознавании разговорной речи невозможно развернуть. Представляя себе развёртывание алгоритма распознавания речи, нужно помнить о задержках и вычислительных мощностях. Эти параметры связаны, поскольку алгоритмы, увеличивающие требования к мощности, увеличивают и задержку. Но для простоты обсудим их по отдельности.

Задержка: время от окончания речи пользователя и до окончания получения транскрипции. Небольшая задержка – типичное требование для распознавания. Она сильно влияет на ощущения пользователя от работы с продуктом. Часто встречается ограничение в десятки миллисекунд. Это может показаться слишком строгим, но вспомните, что выдача расшифровки — это обычно первый шаг в серии сложных вычислений. К примеру, в случае голосового интернет-поиска после распознавания речи нужно ещё успеть выполнить поиск.

Двунаправленные рекуррентные слои – типичный пример улучшения, ухудшающего ситуацию с задержкой. Все последние результаты расшифровки высокого качества получаются с их помощью. Проблема только в том, что мы не можем ничего подсчитывать после прохода первого двунаправленного слоя до тех пор, пока человек не закончил говорить. Поэтому задержка увеличивается с длиной предложения.


Слева: прямая рекуррентность позволяет начинать расшифровку сразу. Справа: двунаправленная рекуррентность требует подождать окончания речи перед тем, как начинать расшифровку.

Хороший способ эффективно включать будущую информацию в распознавание речи пока ещё ищут.

Вычислительная мощность: на этот параметр влияют экономические ограничения. Необходимо учитывать стоимость банкета для каждого улучшения точности распознавателя. Если улучшение не достигает экономического порога, развернуть его не получится.

Классический пример постоянного улучшения, которое никогда не развёртывают – совместное глубинное обучение [ensemble]. Уменьшение количества ошибок на 1-2% редко оправдывает увеличение вычислительных мощностей в 2-8 раз. Современные модели рекуррентных сетей тоже попадают в эту категорию, поскольку их очень невыгодно использовать в поиску по пучку траекторий, хотя, думаю, в будущем ситуация поменяется.

Хочу уточнить – я не говорю, что улучшение точности распознавания с серьёзным увеличением вычислительных затрат бесполезно. Мы уже видели, как в прошлом работает принцип «сначала медленно, но точно, а затем быстро». Смысл в том, что до тех пор, пока улучшение не станет достаточно быстрым, использовать его нельзя.

В следующие пять лет


В области распознавания речи остаётся ещё немало нерешённых и сложных проблем. Среди них:

• Расширение возможностей новых систем хранения данных, распознавания акцентов, речи на фоне сильного шума.
• Включение контекста в процесс распознавания.
• Диаризация и разделение источников.
• Количество семантических ошибок и инновационные методы оценки распознавателей.
• Очень малая задержка.

С нетерпением жду прогресса, который будет достигнут в следующие пять лет по этим и другим фронтам.

Комментарии (46)


  1. Fayon
    08.11.2017 13:19
    +1

    Эллевен!(с)


  1. mistergrim
    08.11.2017 13:29

    Не знаю, как насчёт распознавания речи, а вот с машинным переводом до сих пор серьёзные проблемы. ЕВПОЧЯ.


    1. worldmind
      08.11.2017 16:22

      Я всё ждал ABBYY Compreno, но там что-то заглохло, видимо не так всё радужно как поначалу кричали, хотя направление мне кажется верным.


  1. GarryC
    08.11.2017 13:55

    Есть мнение, что адекватный перевод без понимания просто невозможен.
    Может, и адекватное распознавание речи без понимания невозможно?


    1. mistergrim
      08.11.2017 14:10

      Это очевидно. Даже понимание шутки из пары слов вне контекста не всегда возможно. Нет, не её смысла, а банального распознавания слов — ведь у человека оно тоже далеко не на 100% работает.


    1. Lissov
      08.11.2017 15:13

      Абсолютно согласен. Во-первых, смысл очень помогает распознать, во-вторых осознать неправильное распознавание. Из опыта общения с Сири, оно очень часто промахивается совсем но при этом никогда не сомневается. Если человек говорит «я пойду в библиотеку возьму ...» и затем неразгорчиво «хнежку», то другой человек распознает «книжку» или переспросит, а компьютер может не сомневаясь вставить «снежку».
      Лучше всего этот эффект демонстрируют люди — дети очень часто распознают именно так «мимо», обычно в первую очередь песни. Я сам, слушая песни на малознакомом языке, часто понимаю их совсем не так, а потом читая слова сильно удивляюсь. С обучением это проходит, потому что даже когда неразборчиво, мозг подбирает логично возможные варианты по смыслу. Но опять таки, дети сразу спрашивают когда не понимают — как это можно там вставить такое слово. Компьютеры не понимают смысл и потому не удивляются.


      1. weedjy
        08.11.2017 17:15

        Скрипка-лиса…


        1. interprise
          08.11.2017 18:36

          я до сих пор слышу так про скрипку и лису


          1. pavel_kudinov
            08.11.2017 23:57

            Слово — самому Игорю Саруханову. Его комментарий о сложившемся каламбуре:
            " — В 94-м году ко мне пришел один из моих самых близких друзей, с которым написали много песен. Он принес стихи, и там подразумевался скрип колес. Потом в порыве творчества ему пришла мысль, ну раз все на образах, раз там какие-то вороны, что они склевали что-то в нашей судьбе, не конкретные вороны, а какие-то люди. Это какой-то образ. Поэтому он решил сравнить образ доброты со скрипкой такой сказочной, собирательный образ, а лужи, грязь дорог, вороны, он всех свалил, как бы образ зла. Я знаю точно, что он не придумал это специально. Просто случайно, по наитию, на уровне воздуха, запаха, кто-то сверху, как всегда, намекает: вот напиши так. И он написал: «Скрипка-лиса». Такая интрига. Причем, вы знаете, было смешно, когда я собственной рукой написал на ленте клипа Тиграна Кеосаяна: «Скрипка-Лиса», отдал профессионалам, а монтажер посчитал, что я сделал ошибку и набил: «Скрип колеса». Его ругали. Среди населения общество поделилось в процентном отношении 60 на 40. Я считаю, получился очень удачный клип, «Скрипка-Лиса» из больших форм, будем так называть, она все-таки около семи минут идет, имеет место. Я думаю, что Тиграну удалось рассказать эту историю и, более того, посвятить ее людям уехавшим и обездоленным. Это своего рода памятник всем трем волнам эмиграции. Я тоже считаюсь здесь вроде как первым. Мне очень приятно.
            И песня с этим названием не дает покоя, пришлось зарегистрировать оба: и «Скрипку», и «Скрип»."


        1. Alcpp
          09.11.2017 04:17

          Пора-пора-порадуемся на своем веку
          Красавицам Боку


          1. red75prim
            09.11.2017 06:20

            Классику забываете. Радуются они красавице Икуку (имя настоящее, возможно Кирибатийское), а мерси боку шепчут судьбе.


            1. Tyusha
              09.11.2017 09:36

              1. В детстве была уверена, что есть слово "расшепнуть" (мерси боку), по аналогии "сказать — рассказать".


              2. Ещё много приколов с маленькими детьми, когда они пользуются "Окей Гугл", т.к. трехлетние писать-читать не умеют. Мой например запросил: "Курочка Ряба", выдача: "Курящая баба" и картинки 18+.


              1. Bedal
                09.11.2017 16:02

                Эхех, а ещё, помню, был подарок, который «красив он, Ныярок». — в песне про Дунай.


            1. Stecenko
              09.11.2017 15:24

              Может, «Красавицам и кубку», все таки? В смысле женщинам, вину, оружию и транспортным средствам? По смыслу больше подходит. Красавица Икуку — явная ошибка распознавания.
              Сорри, если это была шутка.


              1. red75prim
                09.11.2017 15:41

                «Красавица Икуку» — это распространенная ошибка распознавания, да. Впрочем, я это воспринимал как-то по-другому, кажется «непонятно что с вот таким вот звучанием».


          1. WinPooh73
            09.11.2017 09:17

            Любимый город, синий дым Китая...


      1. LevC
        08.11.2017 17:15

        Да я и в некоторых отечественных песнях долгое время слышал не то, что было заложено создателями. Как пример: «миллион алый хрос», «скрипка лиса».


        1. Ugrum
          08.11.2017 17:23

          Слыхали львы...


        1. pavel_kudinov
          08.11.2017 23:58

          там действительно «скрипка лиса». цитата автора выше


        1. Alcpp
          09.11.2017 04:19

          Розовые розы
          с ветки соколовой


        1. pulsatrix
          09.11.2017 04:55

          «А Любовь Каксон стороной прошла»


        1. vbifkol
          09.11.2017 05:19

          Стоша?


        1. Nuwen
          09.11.2017 16:00

          Алёна, Алёна!
          Кричу я из телефона. (кручу я диск телефона)


    1. DnAp
      09.11.2017 18:43

      В распознавании речи проблема понимания решается следующим образом:
      Есть частотный словарь который выдает вероятность встретить два слова рядом друг с другом, когда мы распознали слово и получили 10 гипотез находим рядом стоящие слова и смотрим как часто они упоминаются. Ну и повышаем вес часто употребимой гипотезы.
      Это конечно сильно упрощенная модель, в проприетарных решениях, я уверен, уже давно что-то более сложное.


      1. Lissov
        09.11.2017 23:51

        «Проблема понимания», так не решается. Этот метод всё ещё не умеет понимать текст, а просто повышает шансы угадать основываясь на статистике. По сравнению с этим, человек действительно понимает текст, и переспрашивает всегда когда послышалось что-то не так.
        Ещё интересный вариант — некоторые люди иногда употребляют неправильные слова, причём с идеальным произношением. Вы не участвовали в диалогах вида «выключи холодильник, шумно! — ты имеешь в виду телевизор? — да, а я что сказал?».


        1. LorDCA
          11.11.2017 04:32

          Именно так это и решается. Получают фонемы и потом прогоняют их по K-nn. Если на пальцах, то можете себе представить такое огромное поле где группы фонем будут собраны вокруг маркеров. Дальше ваш новая группа фонем будет расматриватся к какому маркеру она ближе. Но как вы можете понять, сложность будет возрастасть с длинной фразы.
          Просто изначально сам подход с фонемами был сделан из за малых мощностей чипов. Но на данный момент, как вы можете заметить, все так и носятся с алгоритмами полувековой давности. Тоска в общем.


  1. SADKO
    08.11.2017 15:34

    Помню была у меня когда то раскладушка эриксон, синяя и никакая не сони, давно дело было.
    Так вот там было не то что бы прямо распознавание, но на любое действие можно было голосовую команду подвесить, раза три повторив оную, и потом оно работало…
    … просто работало, не смотря на шумы, алкоголь и всякие прочие вещества, которых тогда много было доступно разных…

    Ещё помню, была программа YesSir, которую на студии я запускал на отдельном компе с 95 виндой, миди портом и ещё одной програмулиной, превращавшей шорткаты в миди посылки.
    Это было очень удобно, «кубик пишем», «кубик стоп», «к началу», «к маркеру» это не просто производило впечатление на клиентов, а было реально полезно при работе с миди, сколько я не переназначал транспорт на кнопки ими никто включая меня не пользовался, а голосом пожалуйста, и да, она без переобучения понимала голоса разных людей, в том числе с армянским акцентом.


    1. EnigMan
      08.11.2017 15:58

      Так в описываемых Вами случаях требовалось распознавание одного-двух десятков команд, а от распознавателей речи требуется распознавать десятки тысяч слов — гораздо проще ошибиться. Я поупражнявшись с Алисой и помощником Ок Гугл понял, что внятность речи у меня порой страдает, а бывает гораздо гораздо хуже, но мы хотим, чтобы распознаватели все это распознавали без ошибок — простого решения тут нет.


    1. Baltasar
      08.11.2017 17:15

      Я давно загорелся подключить голосовое управление к играм, попробовал кучу программ, от древнего Game Commander до разных оболочек гугловского онлайн движка. Лучше всего на данный момент понимает VoxCommando. Процентов 90 из сказанного адекватно воспринимает. Кроме того ее довольно просто настраивать — не надо три раза произносить разные команды, достаточно напечатать фразу для распознавания. Настроил для переключения инструментов в графическом редакторе, основные команды в браузере и время от времени добавляю по паре команд под текущие нужды.


      1. Tallefer
        08.11.2017 18:10

        Во, а нельзя ли поделиться опытом? Интересует все, что не привязано к интернету и к штатной распознавалке виндов.


        1. Baltasar
          08.11.2017 19:28

          Ну про другие программы не буду говорить, так как своей задачи они толком не выполняют. Поработаю гуглом и кину пару полезных ссылок по VoxCommando.
          Ссылка на официальный сайт. Программа платная, но есть демо версия.
          Ссылка на подробную инструкцию по установке на форуме одной космолеталки. Там народ делает подобие голосового помощника, который помогает с запутанным интерфейсом этой леталки. Часть пользователей используют Voice Attack, потому что к ней есть готовый голосовой помощник с записанными командами ответами. Но как я понял VoxCommando лучше понимает русский язык. Работает он на движке Microsoft Speech Platform Runtime v11.0 и точность распознавания команд достигается за счет того, что поиск ведется не по всем словам, как у гугловского движка, а только по тем, к которым привязаны команды.
          Ссылка на канал вконтакте с подробными уроками по программе. У нее богатые возможности, и я освоил около 10% от ее функционала. И мне этого хватает.
          Ссылка на ютубовский канал этого же человека.
          Если хочется острых ощущений и взрыва мозга, то можно попробовать Simon. Тут и возня с пользовательскими базами, словарями произношений, и тренировка фонем раз по сто, и версия для линукса вроде есть. Но VoxCommando все равно лучше распознает.
          Из тех программ, которые завязаны на интернет движки наиболее интересен Laitis. Там и пользовательские наборы команд, и диктовка есть. Но чуть большее время отклика, привязка к интернету и худшее распознавание. У меня она с гугловским движком один раз из трех понимает команду «вставить». Пишет «отставить», «ставить» и так далее. Можно подключить другие онлайн движки из настроек, но я не стал этим заморачиваться.


          1. Tallefer
            08.11.2017 19:49

            Меня опыт применения интересовал, а не выдача гугла… :) Но ладно, все равно спасибо за подборку ссылок, кому-то наверняка пригодится. :)
            Упомянутое не устраивает по причине привязок. Хочется нечто старое и кондовое, по типу описанного эриксона из каментов.


            1. InterceptorTSK
              09.11.2017 18:27

              Voice Attack
              Какой никакой, а опыт, точнее результат опыта, готовый, и вроде бы симпатишно получается [за исключением чюдесного англицкого автора].
              Elite Dangerous — Astra (Voice Attack)


              1. Tallefer
                09.11.2017 21:55

                Вот как раз от войс аттака и хотелось уйти. :) Он привязан к винде, да еще и в английскому паку. Вон там ниже кто-то драгона юзал давно, но не знаю, поделится ли опытом…


        1. Caseor
          10.11.2017 17:53

          Game Commander не привязан к интернету и штатной распознавалке винды. Сам пользую для игры Elite Dangerous.
          По стабильности распознавания трудно что-то определенное сказать, т.к. у меня гарнитура, которая периодически вносит искажения в канал микрофона. О начале искажений узнать невозможно. Но замечено, что если в наушниках тишина, то ошибок распознавания меньше (наушники открытые, могут давать шум для микрофона).
          В программе можно записать фразу, которую потом произносить, можно написать буквами. Оба варианта работают, подбирал индивидуально к командам.
          Порой удивляет как программа распознаёт явно нечёткое произношение, иногда даже конец фразы другой (в запаре), но распознаёт верно.
          С одной командой война без конца. Очень плохо распознаёт, а чем заменить не придумывается. Длинные фразы (букв 10) распознаются существенно лучше, чем короткие (буквы три). Но длинные дольше произносить, легче привыкнуть к кнопке.
          Личное отношение — только для атмосферности в игре, больше нигде нет желания использовать, кнопки лучше.


          1. Tallefer
            11.11.2017 01:11

            Во, точно, забыл совсем об этой софтине, а ведь она у меня валяется уже лет 5… :)
            И спасибо за подробный отзыв! Пожалуй, на ней и остановлюсь, ща раскопал ее, запустил, вроде работает, а больше от нее и не надо.
            Не понял про войну с одной командой. Что-то не распознается?
            Мое отношение к таким прогам примерно то же, кстати. Но иногда сильно помогает, например, когда играешь с ноута, а там и обычных-то кнопок маловато… :)


            1. Caseor
              11.11.2017 12:31

              Baltasar о ней писал.

              Не понял про войну с одной командой.
              Короткая команда, очень высок шанс нераспознавания. Приходится повторять второй, третий раз. Причём это та команда, которая является макросом. Это самое полезное, что можно получить от голосового управления.


  1. SerJ_82
    08.11.2017 22:33

    Эммм… А разве Гугловский спич API — плохо понимает русский язык? И есть ли программы нормальные, основанные на их технологиях?


  1. Alcpp
    09.11.2017 04:23

    Помнится лет 15 назад я купил компакт диск с Dragon Speech вроде. Собирался с его помощью надиктовать курсовую. Дело застопорилось на том, что его нужно было научить каждому слову, повторяя это слово 3 раза.

    Диск вернуть не удалось.


    1. Tallefer
      09.11.2017 21:56

      А в остальном опыт положительный? То есть то, что успело выучиться, оно хорошо распознавалось?


      1. Alcpp
        10.11.2017 03:13

        Нет, конечно. На третьем слове я сдался.
        В мои планы не входило мой лексикон из 2-10 тыс. слов повторить 3 раза.

        Думаю, это было бы по трудозатратам чуть больше курсовой.


  1. InterceptorTSK
    09.11.2017 12:25

    Какой смысл распознавать речь, если до сих пор вменяемо не могут распознать текст? Не в плане текст со скана распознать, а в плане понять о чем речь идет в чистом тексте…
    При этом, опираться на текст во всем и вся может только конченный кретин… Пока не будет создан универсальный язык абстракций, который все что есть в мире ОДНОЗНАЧНО сопоставит с прочими ненужными штуками, типа русского языка или английского — ничего ни у кого никогда не получится…


  1. SvSh123
    09.11.2017 16:07

    Интересно, насколько хорошо компьютеры распознают Логлан, например?


    1. Tallefer
      09.11.2017 21:57

      Думается, на слух — не очень. Хотя я не читал словарь, но вдруг они этот момент тоже учли. :) А вот как текст — должно быть близко к идеалу.


  1. Sormovich
    10.11.2017 22:40

    Вай, карашо!
    А про визуальное то распознавание речи и забыли:
    www.realspeaker.me/ru


  1. LorDCA
    11.11.2017 04:38

    ИМХО, но мне так видится, что проблемы из за того что процесс распознавания расматривают как отдельный от процесса синтеза голоса. Ну как те слепые мудрецы, которые слона щюпали. :)