В первую очередь, в основе платформы лежит функция Transcribe in Word — транскрипции надиктованного текста в письменный вид.
Главным преимуществом Microsoft называет то, что для работы сервиса понадобится только доступ к веб-версии Word из пакета Microsoft 365 и, собственно, само записывающее устройство, под которое подпадает как смартфон, так и ноутбук.
Режим транскрипции запускается в самом Word и после его активации, включается запись в формате WAV, которая в режиме реального времени выгружается на сервера компании и трансформируется в текст.
По заверениям разработчиков, новая система не только ведет запись в высоком качестве, но и даже способна разбить получаемую запись по голосам на действующих лиц, чтобы корректно оформлять отдельные реплики участников звонков. Кроме этого новая система может просто улавливать звук с устройства, то есть переводу в текст можно подвергнуть условную запись лекции с YouTube.
При этом новая функция работает и в режиме загрузки аудио. Конечно, в этом случае на обработку аудиофайла потребуется больше времени (при синхронном запуске транскрипция производится с задержкой всего в несколько секунд). Плюс существует ряд ограничений: принимаются к обработке только файлы форматов MP3, WAV, M4A или MP4, а объем каждого ограничен 200 Мб. Также пока существует ограничение на продолжительность переведенного в текст аудио. Сейчас пользователям Microsoft 365 официально с одного аккаунта доступна транскрипция 300 минут (5 часов) записи в месяц. У некоторых конкурентных узконаправленных сервисов этот параметр составляет 600 минут (10 часов). The Verge приводит, к примеру, сервис Otter.ai. Но важно понимать, что Otter.ai — нишевый монопродукт, а Word — огромный комбайн от Microsoft.
Transcribe in Word не появился из ниоткуда, работа компанией в этом направлении велась уже давно.
Так, еще в 2018 году компания представила сервис ввода и распознавания текста для дислексиков под названием Dictation for Office 365, о чем писалось на Хабре. Тогда же аннонсировали Immersive Reader — разработку, которая организует построчное прочтение текста с математическими формулами для облегчения восприятия смешанного текста.
Таким образом, система транскрипции речи в текст с должным качеством — это результат минимум трех лет работы инженеров компании, которые методично вывели узкоспециализированные «фишки» Office 365, которые изначально задумывались в помощь пользователям, с нарушением восприятия и ограниченными возможностями, на уровень общеприменимой функции.
Новая функция точно будет пользоваться популярностью, как стал популярен голосовой ввод поисковых запросов от Google. Вопрос только в том, когда Microsoft адаптирует новинку под другие языки, потому что пока Transcribe in Word доступен только на английском языке.
Sarymian
Это надо было написать в первом абзаце статьи, чтобы люди не читали лишнего. Суть новости — там что-то придумали, но русскоговорящие опять в пролёте. Спасибо за внимание.