"Задыхайся как Барт Симпсон!" -- ChatGPT  не откажет вам в этой просьбе! ;)
"Задыхайся как Барт Симпсон!" -- ChatGPT не откажет вам в этой просьбе! ;)

В мае 2024 года компания OpenAI вместе с новой языковой моделью представила важное дополнение для своего чат-бота. И мы получили продвинутый голосовой режим в ChatGPT. Уже на презентации стало понятно, что он обещает перевернуть наше представление о персональных ассистентах. Однако разработчики не спешили выпускать нововведение, очевидно, опасаясь, что его неготовность может разочаровать пользователей. Ждать обещанного пришлось не 3 года, а 3 месяца, но зато теперь голосовой режим вышел официально. Правда, без подвохов все равно не обошлось. Подробности - под катом.

Что умеет голосовой ассистент ChatGPT

Давайте сразу перейдем к самому "вкусному"! Ключевой особенностью нового голосового режима, по мнению экспертов, стала реалистичность синтезируемой речи ChatGPT. Он способен:

  • Выразительно говорить, передавая нюансы интонации и эмоциональной окраски

  • Петь, причем в самых разнообразных жанрах - от классической оперы до задорного народного напева

  • Менять темп, тембр и модуляции голоса, подстраиваясь под контекст

  • Читать текст с разной интонацией, передавая эмоции героев

  • Подражать узнаваемым голосам популярных персонажей - от Барта Симпсона до Мастера Йоды

  • Воспроизводить самые разнообразные звуки - от кашля до пения лягушки или лая собаки

Первые тесты подтвердили, что заявленные возможности работают именно так, как и обещали разработчики, и некоторые эксперты предположили, что причиной задержки запуска голосового режима ЧатГПТ стало перераспределение ресурсов компании на параллельный проект - поисковую систему SearchGPT на основе ИИ-технологий. То есть у разработчиков банально не хватало рук на то, чтобы довести новый режим до ума.

Голосовой режим ChatGPT пока находится "не в состоянии"...точнее в состоянии даже не беты, а альфы
Голосовой режим ChatGPT пока находится "не в состоянии"...точнее в состоянии даже не беты, а альфы

По другой версии причиной задержки стал громкий скандал. Дело в том, что один из голосов ChatGPT под названием Sky был сильно похож на голос знаменитой актрисы Скарлетт Йоханссон. Представители OpenAI обращались к ней с предложением о сотрудничестве, но актриса отказалась. В итоге компания приняла решение полностью отказаться от использования тембра, который хоть и не принадлежал "Черной Вдове", но все-таки очень напоминал ее.

Почему ChatGPT разговаривает как реальный человек

Помимо того, что новый голосовой режим ChatGPT позволяет ассистенту говорить максимально натуральным тембром, естественность достигается не только за счет грамотной речевой подстройки, но и других важных аспектов:

  • Задержка ответов ChatGPT составляет около 320 миллисекунд, что сопоставимо со скоростью реакции человека, как если бы вас слушал и отвечал живой собеседник.

  • ChatGPT сам понимает, когда его перебивают, но при этом не теряет нить разговора и контекст, а значит, вам не придется ждать, пока он завершит фразу, чтобы дополнить свой вопрос или переспросить его.

  • ИИ-ассистент способен говорить на десятках языков, таких как русский, английский, немецкий, а также довольно редких и нераспространенных вроде армянского и диалектов некоторых коренных народов.

  • Умеет распознавать языки "на слух" и мгновенно переводить фразы в режиме реального времени.

  • Может имитировать различные акценты, произношение, темп речи, эмоциональную окраску.

Интересной особенностью является способность к эмоциональному реагированию, что только добавляет его поведению естественности. В некоторых примерах ИИ-ассистент проявляет признаки усталости, начиная немного запинаться при счете, словно ему не хватает воздуха. Более того, ChatGPT умеет шутить и даже смеяться над юмором пользователя. Несмотря на то что иногда ChatGPT допускает некоторые неточности, качество речевой имитации зачастую действительно впечатляет.

Продвинутый голосовой режим нужно включать принудительно
Продвинутый голосовой режим нужно включать принудительно

Казалось бы, какую вообще нагрузку несут все эти возможности? Да, прикольно обменяться с голосовым ассистентом шутками или послушать его пародии. Но у столь продвинутой технологии должна быть прикладная функция. И она есть! Голосовой режим ChatGPT позволяет взаимодействовать с ним максимально естественным и интуитивным способом. А это уже открывает широкий спектр возможных применений:

  • Обучение и консультирование, в том числе изучение иностранных языков

  • Развлекательные приложения и виртуальное общение

  • Помощь людям с ограниченными возможностями в повседневной жизни

  • Озвучивание контента - от аудиокниг до подкастов

На каких языках говорит ИИ-ассистент ChatGPT

Разработка продвинутого голосового режима чат-бота потребовала серьезных усилий со стороны специалистов OpenAI. Перед запуском компания протестировала систему с участием более 100 внешних экспертов, представляющих 45 языков и 29 географических регионов.

На первом этапе голосовой режим будет доступен не всем
На первом этапе голосовой режим будет доступен не всем

Для обеспечения безопасности и предотвращения возможных злоупотреблений в систему были интегрированы специальные фильтры. Они блокируют генерацию аудиофрагментов, защищенных авторским правом, а также не позволяют ИИ-ассистенту выдавать себя за реальных людей, включая публичных персон.

В работе голосового режима все еще присутствуют некоторые неточности и сбои, но он их быстро исправляет. Например, в одном из примеров ChatGPT изначально неправильно определил звук кашля, но сам понял свою ошибку. Вероятно, с накоплением опыта и данных для обучения подобные проблемы будут устраняться.

В дальнейшем разработчики, несомненно, будут работать над повышением точности, надежности и безопасности голосового режима. Вполне вероятно, что в скором времени подобные технологии найдут широкое применение не только в ChatGPT, но и в других ИИ-системах, значительно расширяя спектр взаимодействия человека с машиной.

А где же обещанный подвох? Получить доступ к новому голосовому режиму сразу смогут не все. OpenAI будет распространять его постепенно. На первом этапе он будет доступен только ограниченному числу пользователей. Очевидно, это связано с тем, что нововведение пока не готово к релизу, и разработчики планируют собирать обратную связь, чтобы вносить коррективы в его работу. Общедоступная версия голосового режима выйдет лишь в течение нескольких месяцев.

Кроме этого голосовой режим в ChatGPT доступен только в приложении сервиса и не представлен в веб-версии. Поэтому, если вы хотите проверить, вошли ли вы в список избранных пользователей, вам потребуется установить нативный клиент чат-бота из App Store, Google Play или Mac App Store. Версии под Windows пока нет. Также приложение отсутствует и в AppGallery от Huawei. Но имейте в виду, что для загрузки программы вам потребуется иностранная учетная запись, а для использования ChatGPT - иностранный IP-адрес. Но если все звезды "сойдутся", вы сможете уже завтра порадовать своих друзей мудрыми советами Магистра Йоды или хрипом Барта Симпсона! ;)

Комментарии (2)


  1. Anti-antivakser
    16.08.2024 12:54

    Так вот оно что! Их презентация сбила меня с толку, я неправильно понял это и решил что эта функция уже была добавлена в мае и на основании этого я был в недоумении почему в приложении чата GPT 4o ничего такого нет? Оказалось что это было только представление того, каким оно будет в будущем. Теперь все ясно. Эти дурацкие обзоры избранных пользователей тоже сбивают с толку так как их версии чата говорят разными голосами смеются шутят и прочее а мой нет.


  1. d-sh
    16.08.2024 12:54

    У кого-нибудь доступ есть? Он научился не делать идиотских ошибок с ударениями и сокращениями/цифрами?