YouScriptor.com — перевод лекций с YouTube в PDF / forpes.ru

Главная
YouScriptor.com — перевод лекций с YouTube в PDF

YouScriptor.com — перевод лекций с YouTube в PDF +12

15.02.2025 09:56

xnxn 10 2700 Источник

Я много слушаю различных лекций на YouTube — в основном это античная и современная философия, математика, физика. В прошлом месяце я писал об экспериментах с распознаванием и оформлением текста и вот сейчас более менее довел проект YouScriptor.com до релизной версии.

Миссией проекта YouScriptor.com я вижу вклад в развитие образования и самообразования. You Scriptor с одной стороны ссылается на Youtube с другой Scriptor(лат) - писарь, который переписывал книги и хранил знания в монастырях, которые в то время были интеллектуальными центрами. Так же это дань уважения моей одной из любимых книг "Имя Розы" Умберто Эко

В разделе Scriptorium можно посмотреть историю уже распознанных видео и отфильтровать по автору канала или теме. Лично я чаще всего смотрю и читаю конспекты лекций авторов Зубов, Хаустов, Бугай - многие из который я уже кинул на распознавание и их можно читать

В новой версии значительно увеличена стабильность и скорость, добавлена мобильная версия, усовершенствован дизайн и эргономика и так же добавлена возможность сохранять результат в PDF документ.

Понятное дело, что я не писал собственные нейросети и языковые модели, подключены сторонние сервисы. На данный момент это OpenAI API. Вопреки ожиданиям многих основная сложность не распознать слова из речи, а оформить из слов оформленный и отформатированный текст. API работает нестабильно, иногда довольно редко глючит и выдает чепуху, но чаще выдает потрясающие результаты. Вот например по лекции о паттерне "компоновщик" он выделил куски кода и отдельно их оформил. При скачивании pdf есть даже подсветка синтаксиса (тут работа уже работа библиотек конвертации).

Для сравнения лекция о стохастическом управлении где много формул на распознавание

При этом, по причине того что это некоммерческий проект на энтузиазме, используется самая дешевая модель. Хотя не исключаю что в будущем можно будет экспериментировать и с другими моделями.

Единственное и ключевое ограничение сейчас - это необходимо, что бы автор не отключал субтитры к видео. Технически версия, которая скачивает аудиодорожку и распознает субтитры самостоятельно у меня есть, но пока я не готов выкладывать ее публично, так как работает она довольно долго и пока не уверен что сервер справится, если начнут массово кидать такие видео на распознавание. К частью, таких версий относительно не много, но думаю, со временем перенесу в паблик и эту функцию.

Комментарии (10)

gfiopl8
15.02.2025 11:44
#27924816
Тебе нужен google gemini. Бесплатный аккаунт дает делать до 1500 запросов в сутки, 1млн токенов в минуту, это почти безлимит, и он умеет сам распознавать голос, очень хорошо, лучше чем whisper.

Дают здесь https://aistudio.google.com/app/apikey и можно сделать больше 1 аккаунта если сильно надо.
1. xnxn Автор
  15.02.2025 11:44
  #27924838
  На текущем этапе я готов нести расходы на Open AI - это буквально несколько долларов в сутки. Если будет десяки и сотни тысяч запросов в день - тогда можно думать. Переходить на другую ЛЛМ имеет смысл только если там будет значительно лучше качество. Но OpenAI пока что лидер по качеству и качество постоянно улучшают.
  1. arse00n
    15.02.2025 11:44
    #27924876
    В каком месте он лидер, тем более мелкая старая модель 4o-mini (21 место в рейтинге арены сейчас).
    
    xnxn Автор
    15.02.2025 11:44
    #27924936
    Кроме качества распознавания есть еще удобство API и стабильность самого сервиса. Качество на данный момент считаю приемлимым и не думаю что это привлечет большее число пользователей. Есть и более важные моменты - например продвижение в поисковиках и если вам действительно понравился сервис и вы хотели бы его улучшить - кидайте ссылки на распознанные видео в соц. сетях. Будут пользователи - будет и развитие и улучшение сервиса - новые модели, подключение распознавания голоса и так далее

shishkin-mv-public
15.02.2025 11:44
#27925682
Приветствую, давно ощущал потребность именно в таком сервисе - ведь на Youtube публикуются в том числе и уникальные по своему содержанию лекции от "первоисточников", с которыми "без текста" часто нелегко серьезно работать.
1. xnxn Автор
  15.02.2025 11:44
  #27925700
  Спасибо, буду рад получить обратную связь по опыту использования
  1. shishkin-mv-public
    15.02.2025 11:44
    #27925824
    Как говорится, кейс с проблемой - это пусть совсем небольшая, но все же помощь.
    Вот здесь проблема с разметкой.
    
    xnxn Автор
    15.02.2025 11:44
    #27926076
    Спасибо, тут глюк странный, иногда нейросеть на выходе зачем-то принудительно отключает перенос строк в разметке. Почему это происходит - не ясно. Надо думать

Kedr2516
15.02.2025 11:44
#27926060
Обалдеть, обалденно! Спасибо.

qeeveex
15.02.2025 11:44
#27935552
Крутая штука! Отдельное спасибо за Scriptorium с историей. Можно открыть для себя новые каналы и позновательные видео.

@xnxn нет желания выложить в OpenSource. Хотя бы промпт? Просто переживаю что проект когда нибудь закроется, а так хоть будет возможность поднять selfhosted.

YouScriptor.com — перевод лекций с YouTube в PDF +12

Комментарии (10)

gfiopl8

xnxn Автор

arse00n

xnxn Автор

shishkin-mv-public

xnxn Автор

shishkin-mv-public

xnxn Автор

Kedr2516

qeeveex