АудиоАрхив жизни, ИИ и речевая аналитика / forpes.ru

Главная
АудиоАрхив жизни, ИИ и речевая аналитика

АудиоАрхив жизни, ИИ и речевая аналитика

18.10.2024 09:20

555www555 0 7 Источник

Сегодня пятница и снова с вами выпуск бредовых идей для подумать на выходных :-).

В этом посте я хотел бы поднять вопрос недостатка программных средств для анализа и обработки аудиозаписей.

Аудиозапись сейчас переживает ренессанс, связанный с развитием технологии распознавания речи. На этой волне за морем-океаном появились и стали популярными диктофоны Plaud и подобные им. Диктофоны есть и у нас, но вот с софтом для обработки записей пока напряженка.

Я считаю очень перспективным и полезным в разных смыслах формат круглосуточной аудиозаписи жизни человека, такой своеобразный АудиоАрхив жизни. Такой архив даже а аудиоформате занимает вполне разумное место. Предположим, что в течении суток аудиозапись будет вестись 8 часов (в режиме голосовой активации, который не записывает паузы без звука). В режиме записи 16бит/16кгц 8часов записи занимают около 1ГБ, те на год непрерывной аудиозаписи жизни человека надо 300-400ГБ - вполне подъемный объем в текущих технологических условиях. Если переводить аудиозаписи в текст, то нужный объем памяти совсем смешной - мегабайты.

С точки зрения удобства записи, то тут тоже хорошо. Есть маленькие и легкие диктофоны (от 5*14*35мм и от 4г), время записи и автономности примерно на неделю и больше. Носить их можно, например, как кулон и скачивать записи по USB раз в неделю - это все ненапряжно.

Что можно получить, имея такой аудиоархив жизни, переведенный в текст? Да много чего, например:

Полный текст разговоров с привязкой к времени/дате. Можно находить любую информацию обычным поиском как по ключевым словам так и по времени. Соответственно можно, например, найти все идеи, задачи, поручения, расходы и тд (если приучиться их проговаривать) и далее с ними работать.
Проводить аналитику и статистику по используемым словам, фразам. Коррекция, контроль своей речи. Контроль речи для целей обучения чему угодно.
Использовать аудиоархив для медицинских целей: психологи, неврологи, логопеды и тд. В настоящее время, к примеру, диктофоны используются сомнологами для лечения храпа. Если приучиться проговаривать свое самочувствие (болит голова, боль в районе сердца, температура такая-то, давление такое-то), то это будет прямо ценная статистика с привязкой ко времени и дате для всех врачей.

Уже сейчас аудиобейджи, записывающие весь рабочий день, начинают активно применяться для персонала, работающего с клиентами как для целей контроля и улучшения качества обслуживания так и для целей документирования и дальнейшего разбора возможных конфликтных ситуаций.

Я не сильно разбираюсь в технологиях искусственного интеллекта (ИИ), но мне кажется, что если использовать аудиоархив жизни как датасет для обучения модели ИИ, то можно получить что-то интересное - некую модель личности.

Список возможных применений аудиозаписей можно продолжить, но я намеренно остановлюсь, что не создавать кашу в головах. Надеюсь какие-то идеи дополнят читатели Хабра в комментариях.

Буду рад, если этот пост сподвигнет кого-то на создание софта по описанным выше идеям или, возможно, по каким-то своим мыслям. К примеру, можно дополнить диктофоны какими-то другими датчиками, например, G сенсором и вести параллельный архив физической активности.

АудиоАрхив жизни, ИИ и речевая аналитика

Комментарии (0)