Как синтез речи появился на ПК / forpes.ru

Главная
Как синтез речи появился на ПК

Как синтез речи появился на ПК +18

16.03.2020 15:38

Audioman 6 2800 Источник

В прошлый раз мы рассказали о цифровых синтезаторах речи и вспомнили, как в 1974 году Дональд Шерман (Donald Sherman), страдающий от паралича мышц лица, впервые использовал компьютер с системой Text-to-Speech, чтобы заказать пиццу по телефону. Тогда синтезатор работал на мейнфрейме, установленном в лаборатории Мичиганского государственного университета. Но с развитием технологий и появлением персональных компьютеров, TTS-решения стали мобильнее.

Расскажем о некоторых ранних разработках того времени.

^{Фото Springsgrace / CC BY-SA}

Синтезатор DECtalk

В 1981 году профессор Деннис Клатт (Dennis Klatt) из MIT связался с Digital Equipment Corporation, чтобы обсудить перспективы разрабатываемого им алгоритма для конкатенативного синтеза речи. Такая система соединяет в цепочку заранее записанные сегменты естественной речи. Представители компании увидели потенциал в наработках Клатта и решили использовать их, чтобы выпустить на рынок собственный голосовой синтезатор. Разработка велась три года, за которые проект успел дважды сменить название — с KLATTALK на CLATTER и, наконец, на DECtalk.

Релиз состоялся в 1984 году — корпус девайса был немногим больше кота. Устройство подключалось к любой вычислительной системе с асинхронным последовательным портом (COM-порт), а его поздние версии — к шине ISA. Также оно имело разъёмы для соединения с телефонной линией.

Эта особенность позволяла автоматизировать работу со входящими и исходящими звонками. Машина умела говорить девятью голосами: четырьмя мужскими, четырьмя женскими и одним детским. Каждый из голосов пользователь мог донастроить самостоятельно — изменить высоту звука и модифицировать передаточную функцию головы (стр.61). Более того, система позволяла корректировать произношение слов. Благодаря этой особенности её можно было научить петь.

Как и установка из Мичиганского государственного университета, DECtalk нашла применение в качестве «речевого протеза». Решение DEC было установлено в кресле известного астрофизика Стивена Хокинга вплоть до 2018 года. Тогда команда инженеров из Кембриджа заменила «ретрочип» на Raspberry Pi, но сохранила звук и интонации, генерируемые старым синтезатором, — так как ученый к ним привык.

В 90-х в компании DEC решили продать лицензию на технологию разработчиками сторонних аудиоустройств. Например, чип DECtalk стал частью звуковой карты Sound Blaster AWE32 (о реплике её прародителя мы писали у себя в блоге). В комплекте шло специализированное ПО TextAssist.

DECtalk стал довольно успешным продуктом. Однако по ряду причин Digital Equipment Corporation передали права на эту торговую марку компании Force Computers. Та, в свою очередь, перепродала её Fonix Speech, которая сегодня известна как SpeechFX. Она до сих пор предлагает синтезаторы речи на базе DECtalk для встраиваемых устройств.

S. A. M. — Software Automatic Mouth

В 1982 году разработчик Марк Бартон (Mark Barton) выпустил S. A. M. Это — один из первых коммерческих программных синтезаторов речи для 8-битных вычислительных систем: Atari 8-bit, Commodore 64 и Apple II.

В первом случае S. A. M использовал встроенный аудиочип POKEY. Его возможности позволяли создавать полифоническую музыку и эффекты в играх. И его реализация до сих пор используется в ряде эмуляторов, например MAME. В случае с Commodore 64 была задействована встроенная SID-схема с 4-битным ЦАП, что отрицательно сказалось на качестве воспроизведения речи.

^{Фото Federica Galli / Unsplash}

Что касается версии для Apple II, то синтезатор работал со стандартной расширительной платой и 8-битным цифро-аналоговым преобразователем. Позже S. A. M. появился и на первом компьютере Macintosh. Стив Джобс лично настоял на том, чтобы программа вошла в раннюю версию Mac OS. Компания заключила партнерское соглашение с Бартоном, и его разработка, сменив название на MacInTalk, стала частью экосистемы «яблочной корпорации».

Новинку сразу включили в презентацию компьютера в 1984 году. Машина самостоятельно представила себя на сцене, начав с фразы: «Hello. I’m Macintosh».

Полная речь Macintosh

«Привет, я Macintosh. Как же хорошо выбраться из этой сумки.

Я не привык к публичным выступлениям, но хотел бы поделиться с вами мыслью, которая впервые пришла мне, когда я увидел мейнфрейм IBM: „Не доверяйте компьютеру, который не можете поднять“.

Я бы мог говорить и дальше, но предпочту посидеть и послушать. С гордостью представляю вам человека, который стал для меня отцом… Стива Джобса».

?Сегодня S. A. M. почти нигде не используется и служит историческим наследием — в сети можно найти веб-версию синтезатора (и код на GitHub). Хотя в 2017 году инди-разработчики из Airdorf Games использовали инструмент для озвучивания персонажей в компьютерной хоррор-игре Faith.

Разумеется, это не все — лишь одни из первых — синтезаторы речи для ПК, выпущенные на рубеже веков. Но они проложили дорогу современным решениям, которые звучат более реалистично. Об используемых в них технологиях мы продолжим рассказывать в следующем материале.

Дополнительное чтение из нашего корпоративного блога «Мир Hi-Fi»:

«Машинный звук»: синтезаторы на базе нейросетей

История аудиотехнологий: синтезаторы и сэмплеры

Как устроен Sporth — ЯП для музыкальных live-сессий

Траутониум: немецкая волна в истории синтезаторов

Где взять аудиосемплы для ваших проектов: девять тематических ресурсов

Комментарии (6)

sintech
16.03.2020 20:31
#21395620
А подскажите пожалуйста момент в видео про dectalk где речь идет про AWE32?
1. KatbertW
  16.03.2020 21:20
  #21395732
  +2
  В ролике показан документ из журнала Compute! — это на 4:24
  1. sintech
    16.03.2020 21:48
    #21395814
    Спасибо, смотрел на телефоне, слишком мелко. ;)

voidptr0
16.03.2020 21:26
#21395748
-1
Вспомнилась Govorilka. Надеюсь о ней не забудут в следующих публикациях.

it_pm
17.03.2020 12:39
#21397526
Про Вокалоиды статья будет?

nik_vr
17.03.2020 18:38
#21399078
Говорящую мышь нужно упомянуть обязательно в следующих частях. В 90-х с ней игрались, наверное, все обладатели PC с Windows на борту.

Как синтез речи появился на ПК +18

Синтезатор DECtalk

S. A. M. — Software Automatic Mouth

Комментарии (6)

sintech

KatbertW

sintech

voidptr0

it_pm

nik_vr