Бхакти Викаша Свами
Бхакти Викаша Свами

Всем привет! Меня зовут Саша Аксёнов, я — директор питерской студии разработки Unistory. Сегодня расскажу, как мы сделали кастомную видеоплатформу для религиозного проповедника и внедрили в нее искусственный интеллект.

Если по понедельникам вы не тренируете ИИ на расшифровку кришнаитских песнопений, то с вашей жизнью что-то не так →

Бхакти Викаша Свами — один из ведущих гуру организации, лично учился у Прабхупады, основателя «Международного общества сознания Кришны». Проповедник постоянно читает лекции в разных странах, активно занимается своим YouTube-каналом.

Два года назад мы в Unistory разработали для Бхакти и его лекций отдельный сайт, мини-YouTube для последователей и учеников. Кстати, я часто рассказываю про наши AI и web3 проекты в своем телеграм-канале — подписывайтесь :)

Youtube-канал заказчика
Youtube-канал заказчика

Сделали видеоплатформу для заказчика на Firebase, большой базе данных от Google, которая позволяет веб-сервисам и приложениям работать без бэкенда.

Лекции в формате видео и аудио выходят на YouTube и собственной площадке в большом количестве. Сейчас там больше 120 тысяч подписчиков, загружено больше 2500 видео.

Разработали собственную платформу, видеохостинг с расширенными возможностями
Разработали собственную платформу, видеохостинг с расширенными возможностями

Автоматизировать транскрибацию видео

Через два года после разработки площадки заказчик вернулся к нам с новой идеей: разместить на сайте расшифровки видео-лекций. Оказалось, что значительная часть аудитории Бхакти предпочитает именно текстовый формат. Но транскрибировать сотни и тысячи лекций вручную — непосильный труд. Нашей задачей стала автоматизация этого процесса.

Как это сделать? Если вам пришло в голову слово «нейросети», — поздравляем, вы не ошиблись. Дальше в кейсе подробно рассказываем, как мы автоматизировали перевод из видео в текст, с какими нюансами, и почему наша технология лучше любого сервиса транскрибации.

Пользователи приходят на платформу, чтобы читать, слушать и смотреть лекции Бхакти
Пользователи приходят на платформу, чтобы читать, слушать и смотреть лекции Бхакти

Провести интеграцию с Elasticsearch

Еще одна идея заказчика: помочь пользователям более точечно искать информацию на платформе.

Типичный юзеркейс: последователь приходит на YouTube-канал, чтобы посмотреть, например, что его духовный учитель думает об отношениях в семейной паре.

Поиск выдает ролики, и далеко не все из них релевантны запросу: некоторые про отношения с гуру или друзьями, другие — про взаимоотношения с Богом.

Дополнительная проблема: даже если пользователь нашел нужное видео, оно может длиться два или три часа и содержать много мыслей на самые разные темы. Вместе с заказчиком мы решили помочь последователям Бхакти найти ответы на их вопросы.

Подготовили алгоритмы, которые автоматически расшифровали тысячи многочасовых лекций
Подготовили алгоритмы, которые автоматически расшифровали тысячи многочасовых лекций

Whisper AI и ChatGPT

Чтобы транскрибировать видео, мы решили использовать специализированную нейросеть Whisper AI. Искусственный интеллект хорошо справляется с задачей транскрибации, но итоговый текст, как правило, недостаточно презентабельный.

Материал все равно требует ручной обработки, а в нашем случае из-за огромного количества видео это не представлялось возможным. Чтобы сделать качественный чистовик лекций вручную, пришлось бы загрузить несколько десятков сотрудников работой на месяц.

Чтобы обработать текст после транскрибации, мы реализовали алгоритм, который прогоняет расшифровку через ChatGPT. Результат — более качественная расшифровка лекции, стилистически выверенная и без ошибок.

Скрипт проводил обработку лекций в течение нескольких месяцев. Да, это долго — но в тысячу раз быстрее и дешевле, чем делать вручную.

Возможность модерации

При обработке текста через ChatGPT все равно сохраняется вероятность ошибок, стилистических и фактических. Мы решили дать пользователям возможность указать на эти ошибки.

Посетитель площадки может репортить о найденной ошибке администратору, который затем исправляет текст или отклоняет репорт. Сейчас заканчиваем работу над технической реализацией этой фичи.

Бхакти Викаша Свами
Бхакти Викаша Свами

Поиск по слову внутри видео

Мы превратили аудио и видео в текст, но перед нами стояла еще одна задача — помочь пользователям найти внутри лекций отдельные слова. В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.

В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.

Elasticsearch не может искать слово в аудио или видео, поэтому поиск на платформе происходит по расшифровкам лекций, которые мы автоматизировали на предыдущем этапе работ. Каждая расшифровка привязана к своей видео/аудио версии, поэтому Elasticsearch может найти, сколько раз в той или иной лекции упоминалось нужное пользователю слово.

В рамках UI мы разделили поиск на два варианта: обычный поиск и Deepsearch, поиск внутри лекций. Пользователь может выбрать, искать ему лекцию по названию или по словам, которые в ней упоминаются.

Реализовали возможность поиска по конкретному слову внутри всех видео, загруженных на платформу
Реализовали возможность поиска по конкретному слову внутри всех видео, загруженных на платформу

Результат и планы

У клиента было две задачи, и мы решили обе, полагаясь на AI-расшифровки текста. Пользователи площадки получили возможность читать лекции проповедника и точечно искать нужные видео на основе самого контента, а не только названия.

В ближайших планах — при запросе Deepsearch показывать точные тайминги, в которые Бхакти говорил искомое слово на видео. Тайминги также будут подтягиваться из текстовой версии.


Если интересуетесь нестандартным подходом к разработке и необычными проектами — подписывайтесь на мой Телеграм-канал. Здесь я рассказываю, как мы беремся за идеи, которые на старте кажутся невозможными, и доводим их до продакшна. Proof of concept за день, рабочий проект — за три месяца ?

Комментарии (4)


  1. ivankudryavtsev
    24.07.2024 07:13
    +1

    Кстати, я часто рассказываю про наши AI и web3 проекты в своем телеграм-канале — подписывайтесь :)

    Точно «кстати»? Я вот не увидел в контексте абзаца почему это «кстати». Ну а так - молодцы, некий разрыв шаблона. Прям технорелигиозный проповедник.


    1. unistory Автор
      24.07.2024 07:13

      Спасибо за небольшую редактуру) За «разрыв шаблона» — еще одно большое спасибо. Потому и решили написать этот кейс — необычный заказчик. Хотелось подсветить, в насколько разных сферах могут требоваться AI-инструменты.


      1. DikSoft
        24.07.2024 07:13
        +3

        Предлагаю интересный вызов: проанализировать массив полученных текстов и сделать на их корпусе генератор новых текстов (видео-то нынче не проблема), в которых в качестве входного параметра задавать рандомом слова из заголовков актуальных мировых новостей. Если получится хорошо - "гуру" с его текстами можно из цепочки выбросить за ненадобностью, вся монетизация может пойти в ИТ систему.

        Заодно любопытно будет посмотреть, есть ли разница в количестве потребителей, и какова будет тенденция , в рост или в ноль.

        Как вам идея для стартапа? )


        1. unistory Автор
          24.07.2024 07:13

          Идея кайфовая) но «выбрасывать» заказчика конечно не будем — любим его ❤️