29 ноября 2023 года состоялись полуфинал и финал V Всероссийского фестиваля университетских технологических проектов HSE FEST. Победителями фестиваля стали проекты «Ньюмен», «MyMeet.AI» и «Nanoscience». С одним из проектов мы хотим познакомить читателей Habr.
Стартап MyMeet.AI – AI-ассистент для видеоконференций. Основная фича приложения – транскрибирование онлайн-звонков в виде отчета с кратким содержанием, задачами и ключевыми словами. Основатель стартапа и один из авторов разработки – студент ИТМО, Федор Жилкин.
Начнем с краткого посвящения наших читателей в суть проекта. Федор, расскажите, пожалуйста, основные цели и задачи проекта. В чем заключается уникальность MyMeet.AI?
MyMeet.AI – искусственный интеллект для онлайн-встреч. Сервис, который может автоматически записывать ваши встречи из календаря, транскрибировать любые медиафайлы (можно загрузить файл или позвать бота по ссылке на встречу), любой длины, на более чем 50 языках.
Для транскрипта мы с командой выделяем говорящих (спикеров), чтобы было точно понятно кто, когда и что говорил. По готовому транскрипту строится краткое содержание, выделяются основные договоренности, результаты и задачи с их дедлайнами и ответственными лицами.
Задача сервиса – упростить жизнь специалистам, чья рутинная работа сильно зависит от онлайн-коммуникаций (тимлиды, социологи, журналисты, продакты и проджекты, маркетологи, менеджеры по продажам и даже студентам). Мы со студентами ИТМО собрали большой набор данных, на котором обучили ChatGPT выполнять нашу задачу по преобразованию встреч в протоколы (отчеты). В будущем собираемся еще сильнее апгрейдить отчет (добавлять новые сущности помимо краткого содержания и задач), делать интеграцию с другими платформами (Телемост, SberJazz и др.), добавить чат – ответы на вопросы по базе отчетов, готовить полноценное B2B решение, которое будет работать в закрытом контуре.
Не могли бы вы определить современные тенденции и проблемы относительно сферы деятельности вашего проекта – перевода и транскрибирования материалов?
Из основных проблем я могу выделить две самые частые – плохое качество записи и наложение спикеров (когда кто-то кого-то перебивает). Единственная и главная тенденция в сфере транскрибирования – бесплатная система распознавания речи от OpenAI «Whisper» (самое мощное решение для транскрибации). Если говорить о тенденциях развития сервисов транскрибирования, они напрямую связаны с улучшением качества записи, разделением говорящих за счет расширения собственных знаний (вокабуляра, терминологии, техник распознавания ошибок).
На какой стадии инвестирования ваш проект находится сейчас и под какие задачи вы ищете раунд?
На данный момент мы находимся на стадии Pre-seed. Мы запустились, провалидировали гипотезу, получили приятный фидбэк: количество платных юзеров – больше 40 в месяц, 6 потенциальных B2B продаж. Сейчас активно запускаем маркетинг, а также привлекаем инвестиции в размере 20 млн. рублей. Раунд пойдет на наши рост и развитие – создание сложных моделей, расширение команды.
Какие программы инкубации и акселерации вы проходили?
Основной программой стал Акселератор в рамках фестиваля HSE FEST. Мы прошли в финал Фестиваля и заняли второе место, получили призы, приглашение на акселератор от ФРИИ и ценные знакомства с корпорациями, которые хотят запустить пилот с нами. Сейчас мы также проходим акселератор от ITMO. В будущем собираемся подаваться в Сколтех. Кроме того, мы регулярно питчимся на разных платформах (SPB Founders, Ингрия и др).
Каким вы видите свой стартап через 10 лет?
Я вижу свой стартап единорогом – полностью самостоятельной компанией, предоставляющей высококачественных цифровых ассистентов на любые профессиональные рутины.
Блиц-опрос:
Yandex или Amazon?
Если по капиталу и статусу, то Amazon. Если в общем, то конечно Яндекс.
Боты или веб-приложения?
Боты внутри веб-приложений
Английский или русский?
Для работы – английский, для жизни – русский.
RikkiMongoose
Насколько я понял, это попытка всё-таки создать отечественный Dragon Dictation.
Но Dragon-то был намного дешевле. Когда тебе надо расшифровать надиктованный текст, тебе не нужна опция распознавания разных участников - а платить ты будешь те же 2 рубля за минуту.
Какой используется движок? Для русского языка есть множество распознавателей - Яндекс, Гугл, от Ашманова, от Билайна, от Сбера. Собрать их в один сервис никто пока не удосужился. Но какой из них используется здесь? На главной странице - гордая плашка ChatGPT, который к распознаванию речи отношения не имеет. Странно, что в погоне за актуальностью не разместили там же Грету Тунберг или там скрины из "Слова Пацана".
Где гарантия, что текст транскрипта не утечёт конкурентам? Да нет её. Сразу видно, что авторы привыкли болтать по сети ("упростить жизнь специалистам, чья рутинная работа сильно зависит от онлайн-коммуникаций (тимлиды, социологи, журналисты, продакты и проджекты, маркетологи, менеджеры по продажам и даже студентам)."), а о наборе текстов имеют довольно приблизительное представление.