Новейшие чипы для смартфонов от Qualcomm смогут определять звуковой ландшафт благодаря британскому стартапу Audio Analytics.

Audio Analytics может охарактеризовать окружающий звуковой ландшафт, а также идентифицировать отдельные звуки, например, звук сигнала дымового пожарного извещателя (на фото ниже).

Audio Analytic
Audio Analytic

Смартфоны уже несколько лет умеют различать слова пробуждения, такие как «Привет, Siri» и «Окей, Google» без чрезмерного использования батареи. Эти системы пробуждения работают на специальных процессорах с низким энергопотреблением, встроенных в более крупный набор микросхем телефона. Они опираются на используемые для обучения нейронной сети алгоритмы, чтобы распознавать широкий спектр голосов, акцентов и речевых паттернов. Но они распознают только свои слова пробуждения. Более общие алгоритмы распознавания всей речи требуют задействования более мощных процессоров телефона.

Сегодня Qualcomm объявила, что Snapdragon 8885G, ее последний набор чипсетов для мобильных устройств, будет включать в себя дополнительную часть ПО в той части полупроводникового пространства, в которой находится механизм распознавания слов пробуждения. 

Созданная стартапом Audio Analytic ( Кембридж, Великобритания) компактная звукораспознающая программная платформа ai3-nano будет использовать процессор малой мощности Snapdragon для прослушивания звуков, выходящих за рамки речи. В зависимости от приложений, предоставляемых производителями смартфонов, телефоны смогут реагировать на такие звуки, как дверной звонок, вскипание воды, детский плач, печатание на клавиатуре — библиотека из примерно 50 звуков, которая, как ожидается, увеличится до 150-200 в ближайшее время.

Первым приложением, доступным для этой системы распознавания звука, Audio Analytic называет AI Acoustic Scene Recognition. Вместо прослушивания только одного звука, технология распознавания отслеживает характеристики всех окружающих звуков, чтобы определить среду как хаотичную, живую, скучную или спокойную. Генеральный директор и основатель Audio Analytic Крис Митчелл объясняет:

«У окружающей среды есть два аспекта — событийность, которая относится к тому, сколько отдельных звуков звучит, и насколько они нам приятны. Скажем, я пошел на пробежку в парк, и там было много птичьих звуков. Скорее всего, мне это понравится, так что среда будет классифицирована как «живая». А может быть среда, в которой много неприятных звуков. Ее можно назвать «хаотичной».

Команда Митчелла выбрала эти четыре категории после анализа исследований восприятия звука. Затем они использовали специально созданный набор данных из 30 миллионов аудиозаписей для обучения нейронной сети.

Что будет делать мобильное устройство с этой новой осведомленностью об окружающих звуках, будет зависеть от производителей, использующих платформу Qualcomm. У Митчелла есть несколько идей:

«Например, шумовую среду поезда метро можно охарактеризовать как “скучная”, поэтому вы захотите усилить активное шумоподавление в наушниках, чтобы убрать низкий гул. Но когда вы выйдете из метро, вам нужна бОльшая прозрачность, чтобы услышать, например сигнал велосипедиста или автомобиля, поэтому шумоподавление должно быть уменьшено. На смартфоне вы также можете настраивать уведомления в зависимости от типа окружающей среды, от режима “без звука/на вибрации/с сигналом”, и того, какая мелодия стоит на звонке».

Я впервые встретился с Митчеллом два года назад, когда компания демонстрировала прототипы того, как ее технология анализа звука будет работать в интеллектуальных динамиках. С тех пор, как сообщает Митчелл, продукты, в которых используются технологии компании, доступны примерно в 150 странах. Большинство из них — это системы безопасности, распознающие звук бьющегося стекла, сигнала дымового пожарного извещателя или детский крик.

Подход Audio Analytic, как объяснил мне Митчелл, предполагает использование глубокого обучения для разделения звуков на стандартные компоненты. Для обозначения этих компонентов он использует слово «идеофоны». Этот термин также относится к представлению звука в речи, например «кряканье». После того, как звуки закодированы как идеофоны, каждый звук может быть распознан так же, как системы цифровых помощников распознают их слова для пробуждения. Такой подход позволяет движку ai3-nano занимать всего 40 КБ и полностью работать на телефоне без подключения к облачному процессору.

Митчелл предполагает, что после того, как эта технология будет внедрена в смартфоны, ее приложения вырастут за рамки безопасности и распознавания среды. Он ожидает, что первые примеры будут включать тегирование мультимедиа, игры и специальные возможности.

По его словам, тегирование мультимедиа предполагает, что система может искать записанное с телефона видео по звуку. Так, например, родитель может легко найти отрывок, на котором ребенок смеется. Или дети могут использовать эту технологию в играх, которые обучают, какие звуки издают животные.

Что касается доступности, Митчелл считает эту технологию благом для слабослышащих, которые уже полагаются на мобильные телефоны как на вспомогательные устройства. «Это поможет им обнаруживать и идентифицировать стук в дверь, лай собаки или сигнал детектора дыма», — говорит он.

После развертывания дополнительных возможностей распознавания звука они собираются работать над определением контекста, выходящего за рамки конкретных событий или сцен.

«Мы начали проводить ранние исследования в этой области. Так, наша система может сказать: «Похоже, вы готовите завтрак» или «Похоже, вы собираетесь выйти из дома».

Это позволит приложениям использовать эту информацию при включении системы безопасности, настройке освещения или температурного режима.


На правах рекламы

Прямо сейчас в OTUS стартовала новогодняя распродажа. Скидка распространяется абсолютно на все курсы. Сделайте подарок себе или близким - переходите на сайт и забирайте курс со скидкой. А в качестве бонуса предлагаем зарегистрироваться на абсолютно бесплатные демо-уроки :

  • Ознакомиться с календарем ближайших демо-уроков и вебинаров можно здесь.

ЗАБРАТЬ СКИДКУ