Буктрейлер, это видос от 90 до 180 секунд про книгу, как в кино, ну только не про кино.

Так СhatGPT видит первый кадр буктрейлера к книге "Война и Мир"
Так СhatGPT видит первый кадр буктрейлера к книге "Война и Мир"

Сначала я честно пытался найти исполнителя, ну как это обычно бывает, решил делегировать задачу. Они (исполнители) существуют, найти очень просто, но те примеры работ, что выложены в рамках портфолио, ну мягко говоря, напоминают презентации из 90х. Закат сменяется ночным небом, описание в стиле начальных титров из “Звездных войн” (ну те, которые под 45% уходят вверх экрана) и в конце колхозный Mockup самой книги. 

Короче, не захотел я так. 

От темы дизайна я далек, но на проблемы с креативностью, никогда не жаловался. Спросил ChatGPT - А как сделать самому и лучше? Нейросеть предложила написать сценарий  в котором разбить ролик на сцены до 15 секунд (это потому что большинство сеток не умеют пока генерировать видео длиннее).

В статье описана общая концепция, без пошаговой инструкции формата "тыкаем кнопку тут". С учетом развития платформ, скорее всего, через полгода такой мануал будет не актуальным. А нюансы использования интерфейсов удобнее уточнить у того же ChatGPT.

Как сделать сценарий?

Закидываем в ИИ весь текст книги и говорим чату. 

  • Ты сценарист, проанализируй книгу и напиши сценарий буктрейлера. 

ИИ генерит 8-10 сцен по 10-15 секунд, можно использовать первый вараинт, можно продолжать диалог и подправить, это уже вопрос вкусовщины. Дальше ChatGPT может дать советы, чем именно и что генерировать.

  • Если нужно: сделаю раскадровку, монтажные подсказки или текст для озвучки.

ВАЖНО! Сделать все в одном приложении не получится. У меня получились вот такие куски.

  • Сценарий

  • Картинки сцен и персонажей

  • Оживление картинок

  • Генерация голоса (озвучка)

  • Связка голоса и персонажей

  • Финальный монтаж

Спросить чем и что делать можно GPT  (меня он понимает даже с опечатками)

Поэкспериментировав я решил, что проще будет сделать картинки сцен и оживить их. Короткие видео по сценарию-промту ChatGPT генерировались криво, вот например - была сцена где на столе нужно было опрокинуть чашку кофе, кофе разливался на стол и документы. Сетка от Гугла (Gemini) вообще отказалась делать сославшись что это “деструктивное действие”, а рекомендованная Pika Labs почему-то переворачивала чашку наоборот (чашка вставала из лежачего положения). Кстати, Pika Labs единственный инструмент из рекомендаций от которого пришлось отказаться, видимо "не все йогурты одинаково полезны".

В итоге я решил сделать картинки сцен и оживить их. В том же ChatGPT: 

  • Напиши промт картинки для сцены №1

далее

  • Нарисуй картинку по промту (ну и вставляешь промт)

Чуть не забыл, выбор интересных глав, по которым делаются сцены, тоже можно доверить нейросети.

Можно сразу попросить нарисовать картинку, и это тоже работает, но я экспериментировал с разными ИИ, потому промежуточным продуктом был промт.

Далее, в моей задумке сцены должны были перебиваться цитатами из книги. Также просим ChatGPT 

  • Подбери цитаты из книги для сцен

Итого, теперь есть картинки сцен и цитаты, нужно оживлять.

Оживление картинок

Здесь методом проб и ошибок подобрал RunWay (https://app.runwayml.com/) Промты писал сам на русском, типа - "Люди на фоне - бегут" и в переводчик на английский.

По большому счету на этом этапе можно было и закончить, смонтировав перебивку картинок и цитат под бодрую музычку в CapCut. Но мне хотелось людей добавить с отзывами.

Персонажи с отзывами

Те кто писал, наверняка знают как сложно получить обратку от первых бета-ридеров. У меня из десяти человек которые первично согласились, что-то ответили всего трое. 

Короче, нужно было добавить потенциальных эмоций от прочтения. Нет реальных - генерируем (как сказал бы Трамп - "Fake it till you make it"). Задаем ChatGPT задачу прописать потенциальную целевую аудиторию и на основе нее образы читателей. 

На основе образов - фото (бабка за дедку, дедка за репку). Итого имеем фото персонажа.

получается как-то так

можно поработать над фото 

Далее, на основе образа персонажа генерируем отзывы.

Озвучка и сведение

Самая реалистичная озвучка у ElevenLabs (https://elevenlabs.io/).Там есть хорошая фишка с эмоциями, это паузы театральные, изменения интонации и вздохи.

Связка голоса и фото через HyGen (https://app.heygen.com/) Его ChatGPT не включил в рекомендации, сам нашел.

Окончательный монтаж

Собрал все в CapCut, музыку взял из внутренней библиотеки (тут нужно следить чтоб было открытое использование иначе ютуб блокирует). Кстати, тот же ChatGPT советовал генерить музыку нейросетью, но я уже поленился.

Общее время, включая исследования возможностей и ограничений разных нейронок, пробы и ошибки - дней 5 по 2 часа в день. По деньгам - самый дорогой ChatGPT - 20 долларов в месяц. Остальное 12-15 USD. Итого стоит рассчитывать долларов на 60-70. С пониманием инструментов сейчас можно сгенерировать ролик часа за 3-4. 

Основные сложности

  1. Главная проблема - иностранная карта для оплаты сервисов. 

  2. Долго и безрезультатно провозился с Pika Labs.

  3. Сценарий который пишет GPT нужно максимально упрощать, иначе в попытках добиться “киношного эффекта” процесс затянется до бесконечности.

Сервисы списком

Вот что у меня в итоге получилось https://vkvideo.ru/video-213347196_456239094

Комментарии (3)


  1. engine9
    27.06.2025 05:32

    Хорошо получился голос у второго персонажа, усталого предпринимателя. Если бы я делал трейлер, я бы его отзыв поставил в первые секунды. И хронометраж ужал бы до минуты или даже меньше. Первая девушка криповая. Еще смутила "разношрифтица" и отсутствие закадрового голоса. Читать текст с видео уже разленились даже люди старой закалки :)


    1. 3cx Автор
      27.06.2025 05:32

      Про закадровый голос. Я наоборот думал что нужно идти в текст и субтитры. Мысль хорошая, попробую.


  1. Vadim028
    27.06.2025 05:32

    соглашусь что хронометраж нужно сжимать и голос закадровый если добавлять то оставить и оживить текст синхронно в креативном "режиме караоке" (постепенное появление фраз, через масштаб, цвет и тп) ну как в лучших традиция "тип-топа" и подобных

    более того, я отчётливо увидел в Вашем ролике отголоски именно "верткального" формата в указанном стиле )