29 января 2021 года Mozilla объявила, что закрывает проект Mozilla Speech Proxy Server. Он будет отключен 28 февраля.
19 февраля 2021 года Mozilla автоматически удалит из браузеров пользователей расширения Voice Fill и Firefox Voice Beta, которые позволяли производить различное голосовое взаимодействие с браузером Firefox и использовать систему голосового ввода Mozilla.
Также Mozilla перестанет поддерживать WebSpeech API. Этот экспериментальный интерфейс позволял разработчикам добавлять голосовое взаимодействие в их веб-содержимое и сервисы.
Mozilla уточнила, что удалит все ранее полученные от пользователей данные через расширения VoiceFill и Firefox Voice Beta и WebSpeech API, которые они передавали для исследования и содействия развитию сервиса.
Mozilla ранее опубликовала исходный код голосовых расширений Voice Fill и Firefox Voice Beta на GitHub под свободной лицензией Mozilla Public License v 2.0. Эти репозитории будут доступны после окончания поддержки проекта в феврале этого года.
Mozilla добавила в браузер Firefox бета-версию голосового управления Firefox Voice в начале 2020 года. Тестовый запуск эксперементального расширения Voice Fill состоялся в 2017 году.
Moskus
История (где-то около 25 лет со времен IBM VoiceType в OS/2 Warp 4) мало кого учит, что голосовое управление имеет очень ограниченное применение, буквально для тех ситуаций, когда вы или не можете дотянуться до управляемого устройства, или у вас руки заняты (или у вас с ними что-то не так).
В остальном, оно ужасно: работает медленнее экранных и физических интерфейсов, его сложно использовать в произвольной среде из-за шума, оно контр-интуитивно (если не совмещено с экранным интерфейсом).
MeGaBoJIbT
Ок, допустим оставим за скобками людей с ограниченными возможностями для которых голосовое управление важно и полезно даже в таком виде.
Неочевидно, являются ли перечисленные недостатки принципиально непреодолимым ограничением голосового управления, или мы просто еще не умеем его правильно готовить.
Вдруг области где голосовое управление окажется мощным инструментом для большинства, существуют, просто мы их еще не нашли? Или не накопили критической массы технических решений / интерфейсных ноу хау.
Такие вопросы нужно и важно задавать для технического прогресса. И видимо в мозилле как non-profit организации решили что сделать это должны именно они. Скорее всего это было неверным решением, но задним умом все крепки.
Moskus
Чтобы задать вопрос, а что изменилось со времен VoiceType, задний ум не нужен.
Чтобы задуматься, являются ли эти ограничения принципиальными, не нужно писать ни одной строчки кода. Нужно, например, подумать, что быстрее — ткнуть в пункт меню пальцем (мышью) или прочитать вслух его название. Также, вспомнить что мы пока не научились свистеть даже на 1200 бод, чтобы общаться с интерфейсом на более быстром языке, так что пока приходится довольствоваться живым. Все голосовые интерфейсы сейчас основаны на естественном языке, и этот язык — главное ограничение, на стороне человека, а не машины.
MeGaBoJIbT
Что изменилось? Значительно выросло число разработчиков и развились многие области разработки, в том числе веб. Вдруг если мы выдадим некоторый удобный голосовой API на в разы большее число разработчиков, то количество перейдет в качество и они что-нибудь придумают. Не такое уж невероятное допущение.
В том то и дело, что Вы ограничены в своем мышлении существующими UI концепциями. Интерфейс клавиатуры-мышки тоже не сразу появился. Прежде чем интерфейс тыканья пальцем стало возможно повсеместно применять — понадобилось значительное количество инженерных разработок. Что если голосовые интерфейсы могут выстрелить с какой-то каким-то совершенно новым подходом который пока нам просто не приходит в голову? «Интуитивность» клавиатуры-мышки и тач интерфейсов обусловлена их популярностью. Просто они стали настолько распространены в нашем мире, что большинство знакомятся с ними в глубоком детстве.
Moskus
При чем здесь API и компьютеры вообще, речь об ограничениях человеческой речи.
MeGaBoJIbT
Тезис 1: вполне вероятно, что несмотря на все несомненные ограничения человеческой речи, сдерживающий фактор для распространения голосовых интерфейсов — не эти ограничения, а отсутствие удачной интерфейсной модели для них. (абзац 2 моего предыдущего сообщения)
Тезис 2: как минимум часть ограничений человеческой речи вполне вероятно преодолимы или не так важны в множестве задач.
В подкрепление тезиса 2: За последние дцать лет есть существенный прогресс в том же nlp, что делает еще одну попытку развить голосовые интерфейсы вполне обоснованной. (абзац 1 моего предыдущего сообщения).
anonymous
Возьмём фантастику: умный дом. Ты заходишь в темную комнату и вместо того, чтобы шарить поистине в поисках выключателя, просто командуешь "свет". Голосовые команды регулировки температуры в комнате или воды а ванной. Включение кондиционера или того же телевизора.
Вопрос не в ограничении человеческой речи, а том, что все слова или интонации имеют индивидуальное звучание: кто-то шепелявит, кто-то картавит, кто-то частит, заикается, "проглатывает" части слов, банально неправильно произносит слова или строит предложения. К примеру, вместо "сейчас" говорит "сичас", "щас", чичас". Чтобы учесть ВСЕ особенности человеческой речи и произношения да ещё для разных языков — это реально титанический труд.