Короткое 2–10‑минутное видео с пояснениями к статье сегодня стало почти обязательным: его ставят на страницу проекта, показывают на семинарах, пересылают коллегам. Но сделать такое видео — это часы подготовки слайдов, запись голоса и говорящей головы, монтаж и правки. И это совсем не то же самое, что “натуральная” генерация роликов: здесь важно аккуратно передать длинный контекст статьи, совместить несколько каналов — слайды, речь, субтитры, курсор — и сделать это понятно и профессионально.

Две ключевые задачи: слева — генерация презентации (PaperTalker), справа — оценка качества (Paper2Video).
Две ключевые задачи: слева — генерация презентации (PaperTalker), справа — оценка качества (Paper2Video).

Что именно предложили авторы

Работа Paper2Video решает проблему комплексно. Во‑первых, появляется первый открытый бенчмарк на 101 паре “статья — авторское видео” с метаданными: исходные слайды, лицо и голос докладчика. Во‑вторых, предлагается набор метрик, которые оценивают не только картинку, но и передачу знаний и запоминаемость. И, наконец, представлена мультиагентная система PaperTalker, которая автоматически собирает академическую презентацию: генерирует слайды, пишет субтитры, синхронизирует речь, управляет курсором и создает говорящую голову, подражая автору.

Статистика Paper2Video: темы из ML, CV и NLP; 4–28 слайдов и 2–14 минут на презентацию.
Статистика Paper2Video: темы из ML, CV и NLP; 4–28 слайдов и 2–14 минут на презентацию.

Почему это непросто

Презентация — это длинный мультимодальный объект. Нужно понять статью с множеством рисунков и таблиц, сжать ее до 10–20 слайдов, оформить так, чтобы ничего не поплыло, и синхронизировать голос, субтитры и указатель. Даже сильные видеомодели пока с трудом справляются с мелким текстом на экране, длинным контекстом и точным таймингом — отсюда потребность в модульной архитектуре и понятных метриках.

Как устроен PaperTalker

Система — это связка из нескольких агентов, каждый отвечает за свой канал.

  • Слайды. Генерация Beamer LaTeX прямо из текста статьи с последующей автодебагом. Ключевая идея — Tree Search Visual Choice: система перебирает визуальные варианты (масштабы фигур, размер шрифта), рендерит кандидатов и с помощью визуально-языковой модели выбирает тот, где ничего не переполнено и все читаемо.

  • Субтитры и фокусы внимания. По растеризованным слайдам формируется краткий сценарий: покадровые подписи и подсказки, куда должен указывать курсор.

  • Курсор. Позиции на слайде заземляются через модель взаимодействия с интерфейсом; WhisperX дает точные тайминги на уровне слов, чтобы указатель двигался между фразами, а не дергался внутри.

  • Речь и говорящая голова. F5‑TTS воспроизводит голос автора, а модели типа Hallo2 и FantasyTalking создают реалистичную мимику и верхнюю часть корпуса. Важная деталь — параллельная генерация по слайдам: это ускоряет процесс более чем в шесть раз.

Конвейер PaperTalker: тонкая оптимизация макета, привязка курсора и параллельная генерация.
Конвейер PaperTalker: тонкая оптимизация макета, привязка курсора и параллельная генерация.

Как они меряют качество

Обычных метрик для таких видео нет, поэтому команда предложила четыре:

  • Meta Similarity — насколько слайды и субтитры похожи на человеческую презентацию.

  • PresentArena — парное сравнение двух видео “кто лучше” по ясности, структуре и вовлеченности.

  • PresentQuiz — проверка передачи знаний: видео должно помочь правильно ответить на вопросы по статье.

  • IP Memory — запоминаемость автора и работы по короткому фрагменту, что ближе к опыту реальной конференции.

Набор метрик: сходство с человеком, парные сравнения, тест знаний и запоминаемость.
Набор метрик: сходство с человеком, парные сравнения, тест знаний и запоминаемость.

Что получилось на практике

На бенчмарке Paper2Video метод PaperTalker стабильно обходит базовые подходы. Он выигрывает чаще в PresentArena, показывает лучшую Meta Similarity и высокое качество синтеза речи за счет персонализации. В тесте информативности PresentQuiz он даже на 10% превосходит человеческие видео: меньше воды, больше фактов. Курсор и ведущий заметно помогают — добавляют к точности и увеличивают долю побед в парных сравнениях. В IP Memory PaperTalker — лучший: сочетание лица, голоса и продуманной структуры делает видео запоминающимся.

При этом система не тратит бесконечные ресурсы: слайдовый параллелизм дает более чем шестикратное ускорение производства при скромных затратах на инференс. А визуально — ближе всего к человеческим презентациям: без размытий текста и с аккуратным макетом, в отличие от end‑to‑end видеогенерации, которая зачастую ограничена несколькими секундами и не держит мелкий шрифт.

Сравнение результатов: PaperTalker — детальные, читаемые слайды и точный курсор; у end‑to‑end моделей — размытый текст и неполное покрытие.
Сравнение результатов: PaperTalker — детальные, читаемые слайды и точный курсор; у end‑to‑end моделей — размытый текст и неполное покрытие.

Пара слов о верстке слайдов

Отдельная изюминка — Tree Search Visual Choice. Небольшое, но очень практичное улучшение: перебор нескольких осторожно подобранных макетов с автоматическим выбором лучшего. Это гасит переполнения, исправляет подписи и делает итоговые кадры намного чище.

До и после тонкой оптимизации макета: переполнения уходят, читаемость растет.
До и после тонкой оптимизации макета: переполнения уходят, читаемость растет.

Почему это важно для сообщества

Работа закрывает сразу три пробела: дает референсный датасет, предлагает содержательные метрики и показывает готовую к применению систему. Для исследователей это новый полигон: можно мерить не только “красоту” картинки, но и передачу знаний и эффект запоминания. Для практиков — способ быстро получить качественное видео к статье без мучительного монтажа. И, что особенно ценно, архитектура модульная: каждый компонент можно улучшать отдельно — от генерации сценария до точной привязки курсора.

Ограничения и взгляд вперед

Есть куда расти: персонализация докладчика зависит от качества исходных данных, а автоматическое извлечение ключевых рисунков и таблиц из сложных LaTeX‑проектов всё еще требует аккуратности. Но уже сейчас результаты близки к авторским презентациям, а открытый код и данные обещают быстрое развитие экосистемы вокруг бенчмарка.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)