![Бхакти Викаша Свами Бхакти Викаша Свами](https://habrastorage.org/getpro/habr/upload_files/b1e/4f7/429/b1e4f7429a145cc406b64943604d91a3.jpg)
Всем привет! Меня зовут Саша Аксёнов, я — директор питерской студии разработки Unistory. Сегодня расскажу, как мы сделали кастомную видеоплатформу для религиозного проповедника и внедрили в нее искусственный интеллект.
Если по понедельникам вы не тренируете ИИ на расшифровку кришнаитских песнопений, то с вашей жизнью что-то не так →
Бхакти Викаша Свами — один из ведущих гуру организации, лично учился у Прабхупады, основателя «Международного общества сознания Кришны». Проповедник постоянно читает лекции в разных странах, активно занимается своим YouTube-каналом.
Два года назад мы в Unistory разработали для Бхакти и его лекций отдельный сайт, мини-YouTube для последователей и учеников. Кстати, я часто рассказываю про наши AI и web3 проекты в своем телеграм-канале — подписывайтесь :)
![Youtube-канал заказчика Youtube-канал заказчика](https://habrastorage.org/getpro/habr/upload_files/725/41f/30b/72541f30b45016815274cea39572be1f.jpg)
Сделали видеоплатформу для заказчика на Firebase, большой базе данных от Google, которая позволяет веб-сервисам и приложениям работать без бэкенда.
Лекции в формате видео и аудио выходят на YouTube и собственной площадке в большом количестве. Сейчас там больше 120 тысяч подписчиков, загружено больше 2500 видео.
![Разработали собственную платформу, видеохостинг с расширенными возможностями Разработали собственную платформу, видеохостинг с расширенными возможностями](https://habrastorage.org/getpro/habr/upload_files/412/3be/991/4123be99147e32ab533d60f61bc298eb.jpg)
Автоматизировать транскрибацию видео
Через два года после разработки площадки заказчик вернулся к нам с новой идеей: разместить на сайте расшифровки видео-лекций. Оказалось, что значительная часть аудитории Бхакти предпочитает именно текстовый формат. Но транскрибировать сотни и тысячи лекций вручную — непосильный труд. Нашей задачей стала автоматизация этого процесса.
Как это сделать? Если вам пришло в голову слово «нейросети», — поздравляем, вы не ошиблись. Дальше в кейсе подробно рассказываем, как мы автоматизировали перевод из видео в текст, с какими нюансами, и почему наша технология лучше любого сервиса транскрибации.
![Пользователи приходят на платформу, чтобы читать, слушать и смотреть лекции Бхакти Пользователи приходят на платформу, чтобы читать, слушать и смотреть лекции Бхакти](https://habrastorage.org/getpro/habr/upload_files/cd9/423/0de/cd94230de219d9b2be8e11325db61b86.jpg)
Провести интеграцию с Elasticsearch
Еще одна идея заказчика: помочь пользователям более точечно искать информацию на платформе.
Типичный юзеркейс: последователь приходит на YouTube-канал, чтобы посмотреть, например, что его духовный учитель думает об отношениях в семейной паре.
Поиск выдает ролики, и далеко не все из них релевантны запросу: некоторые про отношения с гуру или друзьями, другие — про взаимоотношения с Богом.
Дополнительная проблема: даже если пользователь нашел нужное видео, оно может длиться два или три часа и содержать много мыслей на самые разные темы. Вместе с заказчиком мы решили помочь последователям Бхакти найти ответы на их вопросы.
![Подготовили алгоритмы, которые автоматически расшифровали тысячи многочасовых лекций Подготовили алгоритмы, которые автоматически расшифровали тысячи многочасовых лекций](https://habrastorage.org/getpro/habr/upload_files/7a7/6c8/238/7a76c8238dbe3b793b7c1c0cfdaa8299.jpg)
Whisper AI и ChatGPT
Чтобы транскрибировать видео, мы решили использовать специализированную нейросеть Whisper AI. Искусственный интеллект хорошо справляется с задачей транскрибации, но итоговый текст, как правило, недостаточно презентабельный.
Материал все равно требует ручной обработки, а в нашем случае из-за огромного количества видео это не представлялось возможным. Чтобы сделать качественный чистовик лекций вручную, пришлось бы загрузить несколько десятков сотрудников работой на месяц.
![](https://habrastorage.org/getpro/habr/upload_files/62a/56d/4ae/62a56d4aef23bea7d4982bc8d41fc396.jpg)
Чтобы обработать текст после транскрибации, мы реализовали алгоритм, который прогоняет расшифровку через ChatGPT. Результат — более качественная расшифровка лекции, стилистически выверенная и без ошибок.
Скрипт проводил обработку лекций в течение нескольких месяцев. Да, это долго — но в тысячу раз быстрее и дешевле, чем делать вручную.
Возможность модерации
При обработке текста через ChatGPT все равно сохраняется вероятность ошибок, стилистических и фактических. Мы решили дать пользователям возможность указать на эти ошибки.
Посетитель площадки может репортить о найденной ошибке администратору, который затем исправляет текст или отклоняет репорт. Сейчас заканчиваем работу над технической реализацией этой фичи.
![Бхакти Викаша Свами Бхакти Викаша Свами](https://habrastorage.org/getpro/habr/upload_files/02d/88f/a75/02d88fa757f217b78cf49bce5f90143f.jpg)
Поиск по слову внутри видео
Мы превратили аудио и видео в текст, но перед нами стояла еще одна задача — помочь пользователям найти внутри лекций отдельные слова. В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.
В качестве решения мы выбрали Elasticsearch — инструмент, который позволяет искать данные в огромных датасетах.
Elasticsearch не может искать слово в аудио или видео, поэтому поиск на платформе происходит по расшифровкам лекций, которые мы автоматизировали на предыдущем этапе работ. Каждая расшифровка привязана к своей видео/аудио версии, поэтому Elasticsearch может найти, сколько раз в той или иной лекции упоминалось нужное пользователю слово.
В рамках UI мы разделили поиск на два варианта: обычный поиск и Deepsearch, поиск внутри лекций. Пользователь может выбрать, искать ему лекцию по названию или по словам, которые в ней упоминаются.
![Реализовали возможность поиска по конкретному слову внутри всех видео, загруженных на платформу Реализовали возможность поиска по конкретному слову внутри всех видео, загруженных на платформу](https://habrastorage.org/getpro/habr/upload_files/ad4/b99/2f7/ad4b992f7f1c6ab4130291d510dc83fb.jpg)
Результат и планы
У клиента было две задачи, и мы решили обе, полагаясь на AI-расшифровки текста. Пользователи площадки получили возможность читать лекции проповедника и точечно искать нужные видео на основе самого контента, а не только названия.
В ближайших планах — при запросе Deepsearch показывать точные тайминги, в которые Бхакти говорил искомое слово на видео. Тайминги также будут подтягиваться из текстовой версии.
Если интересуетесь нестандартным подходом к разработке и необычными проектами — подписывайтесь на мой Телеграм-канал. Здесь я рассказываю, как мы беремся за идеи, которые на старте кажутся невозможными, и доводим их до продакшна. Proof of concept за день, рабочий проект — за три месяца ?
ivankudryavtsev
Точно «кстати»? Я вот не увидел в контексте абзаца почему это «кстати». Ну а так - молодцы, некий разрыв шаблона. Прям технорелигиозный проповедник.
unistory Автор
Спасибо за небольшую редактуру) За «разрыв шаблона» — еще одно большое спасибо. Потому и решили написать этот кейс — необычный заказчик. Хотелось подсветить, в насколько разных сферах могут требоваться AI-инструменты.
DikSoft
Предлагаю интересный вызов: проанализировать массив полученных текстов и сделать на их корпусе генератор новых текстов (видео-то нынче не проблема), в которых в качестве входного параметра задавать рандомом слова из заголовков актуальных мировых новостей. Если получится хорошо - "гуру" с его текстами можно из цепочки выбросить за ненадобностью, вся монетизация может пойти в ИТ систему.
Заодно любопытно будет посмотреть, есть ли разница в количестве потребителей, и какова будет тенденция , в рост или в ноль.
Как вам идея для стартапа? )
unistory Автор
Идея кайфовая) но «выбрасывать» заказчика конечно не будем — любим его ❤️