«ВКонтакте» внедрила технологию, которая позволит не слушать, а читать получаемые аудиосообщения. При расшифровке задействован ИИ. Нейросеть распознает речь даже при сложных условиях записи и понимает русскоязычный сленг.
Функция доступна части пользователей мобильного приложения. У всех остальных она появится в ближайшую неделю. Ее можно будет применять и для отправленных голосовых сообщений длительностью до 30 секунд.
Кроме того, голосовые сообщения теперь можно будет находить по простому поиску по тексту.
В будущем планируется внедрить новую функцию и на ПК-версии. Список доступных опций также расширят. В него добавят расшифровку пересылаемых сообщений и более длинных посланий.
Как отмечает команда разработчиков, работа нейросети рассчитана на высокие нагрузки платформы, так как аудиосообщениями ежемесячно обмениваются 30 млн пользователей. Кроме того, она расшифровывает записи быстрее, чем человек, утверждают представители соцсети.
«На самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке», — заявил Павел Калайдин, директор по исследованиям в области искусственного интеллекта соцсети.
См. также: «ВКонтакте, МФТИ и ВШМ СПбГУ создали курс по машинному обучению для преподавателей информатикиКак подчеркивают во «ВКонтакте», распознавание голосовых сообщений полностью автоматизировано, а сотрудники соцсети, как и другие сторонние лица, не обладают доступом к личным сообщениям. Функцию тестировали с марта.
См. также: «Как происходит рендеринг экрана сообщений ВКонтакте
ntfs1984
Давно пора и не только в ВК.
В последнее время умникам присылающим мне в текстовом чате голосовые сообщения — ответ прикладываю в формате .DOCX
Desiderio
Можно ещё снять и отправить видео, как Вы набираете текст ответа в редакторе.
tvr
А это идея, запись экрана в MIUI есть.
androidovshchik
тык
tormozedison
На смартфонах давно не проблема открыть DOCX.
mig126
Это если им пользовались. А так даже предустановленный ворд/эксель на самсунгах требует регистрации. Т.е. минут на 5-10 можно человека занять увлекательным квестом.
valera5505
Если ваши адресаты пользуются устройствами на iOS, то им ваши .docx не помеха — предпросмотр документов офиса есть из коробки в операционной системе.
Krivitskiy_Anton
Это гениально, возьму на заметку.
DrAndyHunter
Сообщение удаленоmithdradates
О, а это идея, возьму на вооружение. Уже порядком надоели.
mihmig
Можно будет написать бота для бесплатного распознавания голоса?
leremin
Чтение текста занимает меньше времени, чем его написание. С голосовыми сообщениями — нет. Имеем и неуважение к времени собеседника, и отсутствие стимула к нормальной формулировке фраз. Это лично мое мнение, если что.
Идея может и хорошая, но слова-паразиты, междометия и прочая вода тоже распознаётся же? Думаю, что не особо приятно будет это читать в большинстве случаев. Хотя от автора все зависит.
stranger777
Насколько я понимаю, функция не навязывается. Она исключительное благо, когда собеседник отправил голос, а именно прослушать его нет никакой возможности: шум, нужна тишина, нежелательное нарушение конфиденциальности, нет наушников, их долго доставать и т.п. Или вы предлагаете убрать голос вообще? А он иногда спасает: например, когда нужно передать что-то набегу, проще нажать одну кнопку и сказать пару слов, чем нажимать на клавиатуру «во все руки». Каждому формату своя задача.
MooNDeaR
Я сейчас такую америку открою, просто пипец. Если вам некогда отвечать — не отвечайте! :)
STFBEE
Во всех стандартных клавиатурах есть иконка микрофона — жмешь ее и говоришь — текст сам печатается
Invisibler
About temple church resulting you are the most video
Gorthauer87
Думаю можно приделать штуку, которая будет править и стилистику текста, а там и до поиска смысла и прочего скайнета недалеко
HellFir-e
эта вода всё равно будет лучше в текстовом варианте(если часто читать такое, думаю будет как с баннерной слепотой… глаза пройдут мимо), чем слушать блеяние на 10-15. секунд
D01
Вот пусть со слов-паразитов краснеют те, кто диктует. Зато это можно не слушать, а просто глянуть.
И было бы хорошо, если бы во всех мессенжерах аудиосообщения всегда сопровождались текстовой расшифровкой.
diogen4212
давно уже есть бот, преобразовывающий сообщения в текст, которого можно добавить в любую беседу, ничем не удивили
F0iL
Жаль, что в ВК нет функции запрета получения голосовых сообщений.
Что-то вроде, когда вам пытаются отправить подобное, отправителю сразу вылазит надпись «Пользователь ограничил круг лиц, которые могут отсылать ему ГС».
Must-have фича, как по мне.
Gorthauer87
Вообще если некоторым особо буйным в ответ на голосовуху слать это сообщение, то они думают, что такая функция реально есть.
F0iL
А это идея. Можно даже бота написать, чтобы автоматически отвечал типа «сообщение не доставлено»
AC130
Можно просто убрать из интерфейса диалога соответствующую кнопочку. И заодно сделать это конфигурируемым, чтобы можно было запретить присылать фото, видео, текст, аудиозаписи, файлы, ссылки, и пр. Списком чекбоксов конечно, настройки по-умолчанию для всех, для друзей, для не-друзей, с возможностью сделать для конкретного собеседника отдельные настройки.
StSav012
В приложении на чужом устройстве? Ну-ну.
lolhunter
Имхо — во всех мессенжерах должен быть белый список на голосовые. Я пользуюсь голосовым если надо что-то срочно, но пользоваться текстом нет возможности, например за рулем или сумки несу. Но у меня 1 голосовое на 1000 текстовых. У многих блин понос из голосовых. Достань наушники, послушай, ответь… И никакого поиска нет — через пару дней фиг найдешь в этом г то что нужно.
unwrecker
А зачем? Почему просто не отключить голосовые сообщения? Те, кому лень набирать могу пользоваться распознаванием голоса в клавиатуре.
p1nger
Работает в обратную сторону. Вот тебе пришло голосовое, а ты не хочешь(не можешь) его слушать — нажал кнопку и прочитал расшифровку.
unwrecker
Я никогда не хочу слушать голосовые. Если б они переводильсь в текст на стороне отправителя, то ещё и место на серверах и трафик экономился.
alexey_girin
Теперь товарищ майор будет получать распечатку ваших разговоров бестрее чем вы будете успевать их прослушивать.
Молодцы, ребята
libYOLOso
Датасеты для обучения откуда брали?
evgeniymx
Действительно, и мне стало интересно, что содержит соглашение ВК по поводу голосовых сообщений? Их обработку, хранение, передачу и так далее…
Anexroid
Подозреваю, что брали через программу тестирования VK Testers
glmf
Mail.ru Агент уже давно такую функцию сделал.
Rikcon
Товарищу майору просто накладно стало аудио слушать, долго, то пришлось запилить фичу )
androidovshchik
Не удивлюсь, если где-то госзаказ найдется)
namikiri
Хорошая возможность, удобная, правда не уверен в стабильности её работы, особенно в плане не совсем популярных слов и шумостойкости.
В священной войне вокруг голосовых сообщений хочу встать на сторону защиты этой функции. Голосовые сообщения — это инструмент. Те, кто страдает косноязычием, и в тексте не шибко приятны: ответы на содержательное текстовое сообщение чем-то вроде «)» или стикера, обилие пунктуационных и орфографических ошибок, неприятная лень в вопросе исправления слов, предложенных автокоррекцией — всё это исходит от тех же людей, которые «ммм ааа аэаэаэээ нннууу вооот» в голосовых.
Аудиосообщения полезны, как уже упоминалось ранее, для записи сообщения на бегу или в неудобных климатических условиях, для сохранения интонационной окраски послания (ненавижу сарказм в тексте!), для передачи не только непосредственно текста, но и звукового окружения, если это необходимо.
Слушать их не всегда удобно — и вот тут как раз приходит на помощь та самая возможность из статьи.
Rikcon
По поводу шумов то смотря как они их давят, вот недавно не весь интернет забугорный прогремела новая фишка — NVIDIA RTX Voice, судя по видосам творит чудеса, могут вполне себе стоечку закупить и фильтровать через него, а потом уже на распознавалку.
Вот ссылочка если вдруг не видели www.youtube.com/watch?v=Q-mETIjcIV0
n0isy
Когда я слышу слова «нейросеть восстановила», я лезу проверять бэкапы
Я к тому, что вместо исходников на вход попадает данные из другой ИИ? Не факт, что там не появились артефакты. KPI распознания может и возрасти. Но распознавание ЧЕГО?
embden
Мне кажется, если бы запрет аудиосообщений внесли бы в Конституцию, количество голосов "За" резко бы выросло.