Вы когда-нибудь оказывались в ситуации, когда голова была полна идей, но записать их нет возможности? Тогда вы знаете, как бывает сложно быстро и качественно зафиксировать свои мысли. А может вам знакома ситуация, когда собеседник записывает голосовое сообщение на 5 минут с описанием какого-нибудь проекта, и вам приходится переслушивать его снова и снова, чтобы понять все детали. Столкнувшись с этим, я решил сделать Telegram-бота, который может превратить голосовое сообщение в структурированную заметку.
Для распознавания речи я решил использовать Yandex Speechkit, а для преобразования неформатированного текста в заметку использую ChatGPT. Так как API из России теперь использовать не разрешают, использую сайт ProxyAPI, однако цены оставляют желать лучшего. Если знаете более дешёвый аналог - буду рад, если поделитесь.
Форматирование текста у gpt-4 явно более качественное, чем у gpt-3.5. Заметки у него получаются более понятные, и он качественнее передает исходную информацию. Также неплохие результаты выдает YandexGPT, но цены на него примерно такие же, как и на gpt-3.5.
Немного о применении бота. С его помощью можно превратить поток мыслей, записанный в голосовое сообщение, во внятный текст, в котором ваши идеи будут расписаны по пунктам. Здесь же удобные голосовые заметки для студентов, которые автоматически превращаются в конспект, и быстрое фиксирование идей.
Интерфейс бота максимально простой - записываем или пересылаем голосовое сообщение, и получаем структурированную, четкую заметку. Таким образом, пользователь может создавать заметки, не прибегая к набору текста на клавиатуре, что особенно удобно в ситуациях, когда руки заняты. Также есть режим "текст", в котором бот просто распознает текст и выводит его с правильным форматированием. Позже добавлю возможность преобразовать неформатированный текст из пересланного сообщения в заметку.
Собственно бота можете найти здесь. Апдейты по разработке будут у меня в группе в ВК. Если есть идеи по улучшению бота, пишите в комментарии или в сообщения в группу, буду рад вашим идеям.
Комментарии (3)
dyadyaSerezha
05.04.2024 11:14Ну открыл я этот бот, нажал на start и что? И ничего. Никаких инструкций, ничего не понятно. Надо доделать нормально.
theurus
Джемини бесплатно работает, примерно как гпт3.5 https://ai.google.dev/
Со следующего месяца халяву подрежут, лимит будет 1500 запросов в день, но вроде можно будет несколько акков сделать.
И он может отвечать на вопросы по картинкам, так что в вашем боте можно будет сфотать что-нибудь и добавить в заметку. Типа фотаем объявление и говорим запиши контакты.
Распознавание речи от гугла тоже бесплатно работает. До 1 минуты на 1 запрос, я видел реализацию как люди резали и склеивали что бы получить больше минуты.
Зы мой gemini чат бот @kun4sun_bot впринципе может работать как ваш без переделки, если прописать ему в стиле(роль, системный промпт) что-нибудь типа "я буду тебе диктовать а ты переделывай в структурированную заметку, если видишь грубые ошибки то исправляй"