
Думаете, нейросеть для генерации видео Veo 3 — это непроходимый квест? Вовсе нет! Это как давать задание самому внимательному режиссёру. Всё просто: всего пара хитрых приёмов в запросе — и вот уже готова крутая видеосториз с идеальным светом, звуком и одним и тем же героем. Нет, это не магия, это умные промпты. Проверим?
Мы раскроем секреты, чтобы ваши ролики выглядели как снятые голливудской камерой. Готовьтесь к идеальным роликам без лишних слов.
I. Промпты для Veo 3: как создать идеальное видео?
II. Veo 3 для начинающих: примеры промптов от простого к сложному
...
В этой статье мы будем применять нейросеть Veo 3. Напомню, что она доступна в BotHub. Если зарегистрироваться тут, начислятся 100 000 капсов, которые можно потратить на генерацию.
Veo 3 от Google умеет создавать 8-секундные видео с озвучкой на основе текстовых указаний. Звуковая дорожка может включать диалоги, закадровый голос, шумовые эффекты или музыку.
А теперь слово нашему виртуальному подкастеру:
⮬
A podcast show, a woman in a grey sweater and dark brown tousled hair in an updo, she looks directly at the camera, with strands framing her face. She talks into a mic saying: This is Replicate's guide to prompting Veo 3…
Подкаст‑шоу: женщина в сером свитере с тёмно‑каштановыми растрёпанными волосами, собранными в пучок. Она смотрит прямо в камеру, несколько прядей обрамляют лицо. Она говорит в микрофон: Это руководство Replicate по тому, как правильно задавать промпты для Veo 3…
Veo 3: ваш новый режиссёр, который слушает каждое слово
Начнём с основ. Хорошо составленный промпт — это ключ к качественному видео. Чем подробнее вы сформулируете запрос простыми словами, тем легче Veo 3 будет понять вас и выдать именно тот результат, который вы хотите.
Включайте в описание следующие визуальные элементы:
Объект: кто или что в кадре — человек, животное, предмет или пейзаж.
Контекст: где находится объект? В помещении, на городской улице, в лесу?
Действие: что делает персонаж — идёт, прыгает, поворачивает голову?
Стиль: визуальная эстетика (кинематографично, мультяшно, в технике стоп‑моушен и т. д.).
Движение камеры: как она двигается — пролёт сверху, уровень глаз, вид сверху вниз, низкий ракурс.
Композиция: как кадр обрамлён — общий план, крупный план и т. д.
Атмосфера: настроение и свет. Например:
warm tones
(тёплые тона),blue light
(голубое свечение),nighttime
(ночь).
Не забудьте и про звук — о нём мы поговорим чуть позже.
Вот пример простого и подробного промпта.
A man answers a rotary phone.
Мужчина снимает трубку дискового телефона.
А теперь более развёрнутый вариант:
A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign. The zoom reveals the tension and the desperation etched on his face as he struggles to talk on the phone. The shallow depth of field focuses on his furrowed brow and the black rotary phone, blurring the background into a sea of neon colors and indistinct shadows, creating a sense of urgency and isolation.
Дрожащий наезд камеры идёт от далёкого размытости к кинематографичному крупному плану: отчаянный мужчина в потёртом зелёном плаще берёт трубку дискового телефона, закреплённого на облупленной кирпичной стене. Вокруг — зловещий свет зелёной неоновой вывески. Приближение камеры обнажает напряжение и отчаяние, возникшие на его лице, когда он пытается говорить. Малая глубина резкости выделяет нахмуренный лоб и чёрный дисковый телефон, превращая задний план в море неоновых бликов и размытых теней, усиливая ощущение тревоги и одиночества.
Во втором варианте мы добавляем структурные элементы, которые помогают Veo 3 понять, какое именно киношное ощущение требуется.
⮬ Базовый промпт
⮬ Подробный промпт
Единообразие персонажей: от «Человек смеётся» до «Джон в синем пиджаке философствует»
Если вы знакомы с системами вроде Midjourney, то знаете: там при повторном запуске одного и того же промпта на разных сид‑числах результат может сильно варьироваться.
С Veo 3 всё иначе. Даже простой промпт даст очень похожие варианты. Персонаж может выглядеть одинаково, носить ту же одежду и находиться в похожей обстановке. Это полезно, если в готовом видео есть небольшая ошибка — например, сбой в согласованности картинки или глюк в аудио: достаточно сменить сид, и, скорее всего, проблема исчезнет.
Вот пример: мы дважды запустили a woman laughs
(женщина смеётся) с разными сид‑числами. Посмотрите: она везде одна и та же, в той же одежде, смеётся одинаково, в том же интерьере, даже серьги у неё те же. Такая стабильность для моделей — редкость.
Если вы ещё не знаете, чего хотите, начните с разных, контрастных промптов. А если точно представляете нужные элементы, указывайте их максимально конкретно.
В этом примере можно поиграть с описанием:
внешности женщины (цвет волос, причёска, оттенок кожи),
её одежды,
места действия,
характера смеха,
причины смеха.
Вот два варианта:
⮬
a woman laughs long and loudly, she's in an office meeting and she's embarrassed afterwards
женщина долго и громко смеётся на рабочем совещании, а потом ей становится неловко
⮬
a woman laughs quietly, she's at home watching a tv show
женщина тихо смеётся у себя дома, глядя телевизионное шоу
Если вы будете каждый раз использовать одно и то же подробное описание героя, даже меняя остальную часть промпта, скорее всего получите одного и того же персонажа. Чем уникальнее и конкретнее такие описания, тем надёжнее Veo 3 будет поддерживать визуальную целостность между разными сценами. Чтобы не сбиться, удобно составить карточки персонажей с точными формулировками и использовать их снова и снова. Как Google удалось добиться такого поведения модели — загадка, но это определённо не случайная особенность.
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful.
Джон, мужчина около сорока лет, с короткими каштановыми волосами, в синем пиджаке и очках, задумчивый
⮬
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I am also John, and I look kind of the same as that guy over there (no subtitles!). He is in a bright light room.
Джон, мужчина около сорока лет, с короткими каштановыми волосами, в синем пиджаке и очках, задумчивый. Он говорит: Привет, я тоже Джон, и, похоже, я выгляжу так же, как тот парень там (без субтитров!). Он находится в ярко освещённой комнате.
⮬
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, my name is John, I am a character invented for this blog post (no subtitles!).
Джон, мужчина около сорока лет, с короткими каштановыми волосами, в синем пиджаке и очках, задумчивый. Он говорит: Привет, меня зовут Джон, я персонаж, придуманный специально для этой статьи (без субтитров!).
Другой надёжный способ — загружать вместе с текстовым промптом заранее созданный первый кадр видео (сгенерированный или реальное фото), который будут содержать нужные детали: внешний вид персонажа/персонажей, стиль видео, окружающую обстановку.
Промптинг аудио
Так как Veo 3 генерирует звук вместе с видео, нужно сразу указывать, что именно вы хотите услышать. Важно учитывать:
Что говорят персонажи (диалоги).
Фоновый шум сцены (например, шум оживлённой улицы, офиса или кафе).
Звуковые эффекты или посторонние звуки (например, звонок телефона).
Музыку, которая задаёт настроение (напряжённый саундтрек, весёлая поп‑песня и т. д.).
Реплики и как избежать субтитров
Персонажи, которых создаёт Veo 3, удивительно живые: они разговаривают, шутят, жестикулируют, иногда даже играют роли. Но если вы хотите, чтобы они говорили, нужно прямо указать это в промпте.
Есть два способа задать речь:
Явно:
A guy says: My name is Ben
(Парень говорит: Меня зовут Бен).Неявно:
A guy tells us his name
(Парень называет своё имя).
В обоих случаях получится видео с говорящим персонажем. В первом варианте он произнесёт ровно те слова, которые вы указали. Во втором модель сама подберёт имя и сформулирует реплику.
Пишем диалоги сами
Если вы явно прописываете реплики, старайтесь держать их короткими. Диалог должен умещаться примерно в 8 секунд звучания.
Если перегрузить персонажа слишком длинной фразой, он будет тараторить ненатурально быстро. А если, наоборот, дать слишком мало текста, то в кадре окажутся неловкие паузы или бессмысленный ИИ‑бормот (как во втором примере ниже). Без чётких указаний модель не всегда способна сама достроить нужные слова.
⮬
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: You have given me a really long prompt, and I have to speak very quickly and unnaturally to try and fit all these words into just 8 seconds, I'm going to be out of breath at the end of this, phew.
Джон, мужчина около сорока лет, с короткими каштановыми волосами, в синем пиджаке и очках, задумчивый. Он говорит: Вы дали мне невероятно длинный промпт, и теперь я должен тараторить очень быстро и неестественно, чтобы уложить все слова в 8 секунд. Я сейчас совсем собьюсь с дыхания, фух…
⮬ Очень коротко (и с «ИИ‑бормотом»):
John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I'm John.
(Джон, мужчина около сорока лет, с короткими каштановыми волосами, в синем пиджаке и очках, задумчивый. Он говорит: Привет, я Джон.)
Доверить сценарий самой Veo 3
Если вы не уверены в своём умении писать диалоги, используйте неявные промпты — Veo 3 сама придумает текст. А понравившиеся реплики можно просто расшифровать и потом использовать повторно.
Вот пример: мы попросили Veo 3 создать видео со стендапером. В первом случае дали модели свободу самой придумать шутку (A standup comic tells an awkward joke at a music festival, sounds of distant bands, noisy crowd, ambient background of a busy festival field (no studio audience).
— Стендапер рассказывает неудачную шутку на музыкальном фестивале; слышны отдалённые звуки музыкальных групп, шумная толпа, фоновый гул фестивального поля (без смеха студийной публики).
Во втором — вложили конкретную реплику прямо в промпт:
⮬
A standup comic tells an awkward joke at a music festival: You know what's great about music festivals? Watching 20,000 people pretend they knew this band before today while filming vertical videos they'll never watch.
Стендап‑комик рассказывает неудачную шутку на музыкальном фестивале: Знаете, что самое прекрасное на фестивалях? Смотреть, как двадцать тысяч человек делают вид, что знали эту группу ещё вчера, параллельно снимая вертикальные видео, которые они всё равно никогда не пересмотрят.
Если дать модели правильный промпт и достаточно контекста, Veo 3 вполне справляется с написанием диалогов. Вот несколько идей, которые можно попробовать, чтобы проверить гибкость модели:
a standup comic tells a joke
(стендапер рассказывает шутку).two people discuss a movie
(двое обсуждают фильм).a man is having an argument over the phone
(мужчина спорит по телефону).a woman tells us her life story
(женщина рассказывает историю своей жизни).
Как добиться правильного произношения
Иногда модель коверкает слова. Самый простой способ исправить это — записать слово фонетически. Это пригодится для всяких редких слов или названий, которые проще записать, например, по слогам, разделив дефисами.
Кто говорит что
При диалоге между несколькими персонажами Veo 3 иногда путает, кто произносит реплику. Особенно если описания героев похожи — тогда модель не понимает, кто есть кто.
Лучше уточнять в промпте, кто именно говорит:
The woman wearing pink says: But I'm the one who's wearing pink.
Женщина в розовом говорит: Но это я в розовом!
The man with the glasses replies: No, I'm the one with the glasses.
Мужчина в очках отвечает: Нет, это я в очках.
Как избежать появления субтитров: скажи это без кавычек и с чувством
Похоже, Veo 3 обучалась на множестве видео с вшитыми субтитрами, поэтому в сгенерированных роликах часто всплывают надписи внизу экрана, причём с ошибками. Они могут испортить итог, но есть несколько простых приёмов, как этого избежать:
Формулируйте реплики через двоеточие и без кавычек, например:
A guy says: My name is Ben
(Парень говорит: Меня зовут Бен) вместо (A guy says: "My name is Ben"
).Добавьте в промпт
(no subtitles)
, (без субтитров), — отрицательные уточнения хорошо работают в Veo 3.Если ничего не помогает, просто повторяйте:
No subtitles. No subtitles!
Недостающее звено между вашей фантазией и студийным смехом из ниоткуда
Если вы не прописываете в промпте, какой именно фоновый звук нужен, Veo 3 подбирает его сама. Иногда это подходит, но бывает и так, что модель придумывает неподходящее сопровождение. Один из типичных артефактов — смех живой студийной публики. Это уместно, если вы делаете пародию на ситком, но чаще мешает восприятию. Даже в примерах выше Veo 3 допустила этот сбой — вот случай, когда посторонний смех разрушил атмосферу сцены:
⮬ Пример того, как смех студийной публики в фоне испортил результат.
Промпт:a standup comic tells an awkward joke at a music festival
(стендапер рассказывает неудачную шутку на музыкальном фестивале)
Лучший способ избежать этого — явно прописывать ожидаемое аудио. В данном случае ситуацию исправило уточнение: sounds of distant bands, noisy crowd, ambient background of a busy festival field
(слышны отдалённые звуки музыкальных групп, шумная толпа, фоновый гул фестивального поля). Тогда итоговое видео звучит так, как задумано.
Промпты для музыки
С музыкой та же история: если хотите её услышать, укажите это в запросе.
Можно описать жанр, стиль и настроение явно. А можно оставить простор для фантазии модели и дать ей выбрать самой.
Стили
По умолчанию Veo 3 создаёт видео, похожие на профессионально снятые ролики: гладкие рекламные клипы, музыкальные видео или демонстрационные проекты.
Чтобы отойти от этого базового образа, стоит добавить в промпт стиль. Вот пример формулировки:
In the style of [style name]: A bearded man in a flannel shirt and weathered jeans sits cross-legged beside a flickering campfire, its amber light casting soft, dancing shadows across the pine-needle-strewn ground of a quiet forest clearing. Across from him, just beyond the edge of the firelight, stands a massive grizzly bear, calm and still, its fur catching the warm glow, eyes reflecting the flames with eerie intelligence. The two shake hands, like they're old friends.
В стиле [название стиля]: бородатый мужчина в фланелевой рубашке и поношенных джинсах сидит, скрестив ноги, у мерцающего костра. Янтарное пламя бросает мягкие, пляшущие тени на землю, усыпанную хвойными иголками, посреди тихой лесной поляны. Напротив него, за краем света, стоит огромный гризли — спокойный и неподвижный. Его мех ловит тёплый отблеск, глаза отражают пламя странным разумным блеском. Они пожимают друг другу лапу и руку, словно старые друзья.
Вы заметите, что меняется не только визуальный стиль, но и то, как двигаются и взаимодействуют персонажи.
При этом звук остаётся почти тем же, ведь мы не меняли описание аудио.
⮬ Исходное видео
⮬
In the style of LEGO…
(лего)
⮬
In the style of claymation…
(пластилиновая анимация)
⮬
In the style of South Park…
(«Южный парк»)
⮬
In the style of Pixar animation...
(анимация Pixar)
⮬
In the style of 8-bit retro…
(8-битная ретрографика)
⮬
In the style of graphic novel...
(графический роман)
⮬
In the style of origami...
(оригами)
⮬
In the style of Simpsons…
(«Симпсоны»)
⮬
In the style of blueprint…
(чертёж)
⮬
In the style of anime…
(аниме)
⮬
In the style of marble…
(мрамор)
Это лишь некоторые примеры — стоит попробовать и другие термины, медиатайтлы.
Движение камеры
Как и другие видеомодели, Veo 3 отлично реагирует на привычные указания о движении камеры. С их помощью вы можете управлять динамикой сцены. Например:
zoom in
(приближение);zoom out
(отдаление);left to right pan
(панорама слева направо);eye level
(уровень глаз);high angle
(высокий ракурс);worms eye
(взгляд червя — съёмка снизу вверх);dolly shot
(наезд камеры);zoom shot
(зум‑съёмка);pan shot
(панорама);tracking shot
(трэвеллинг, съёмка с проезда).
⮬
zoom out
(отдаление)
⮬
left to right pan
(панорама слева направо)
⮬
dolly shot
(наезд камеры)
Селфи‑стиль: горилла в джунглях ведёт блог
Удивительно, но Veo 3 очень убедительно создаёт видео в формате селфи. Мы заметили, что некоторые формулировки стабильно запускают этот режим.
Начинать стоит с A selfie video of…
(Селфи‑видео, где…) — это работает куда лучше, чем просто описывать человека с камерой.
Ключ к реалистичности — чтобы в кадре была видна рука. Отличный пример — с гориллой, где используется описание …holds the camera at arm's length. His long, powerful arm is clearly visible in the frame
(...держит камеру на вытянутой руке. Его длинная, сильная рука отчётливо видна в кадре). Именно это делает видео похожим на настоящее селфи, а не на банальный крупный план.
Помогает и естественное движение глаз. В примере с Токио используется …occasionally looking into the camera before turning to point at interesting stalls
(время от времени смотрит в камеру, а затем отворачивается, чтобы указать на интересные прилавки). Такой естественно блуждающий взгляд выглядит куда убедительнее, чем если персонаж будет всё время уставленным в камеру.
Вот два показательных примера:
A selfie video of a travel blogger exploring a bustling Tokyo street market. She's wearing a vintage denim jacket and has excitement in her eyes. The afternoon sun creates beautiful shadows between the vendor stalls. She's sampling different street foods while talking, occasionally looking into the camera before turning to point at interesting stalls. The image is slightly grainy, looks very film-like. She speaks in a British accent and says: "Okay, you have to try this place when you visit Tokyo. The takoyaki here is absolutely incredible, and the vendor just told me it's been in his family for three generations." She ends with a thumbs up.
Селфи‑видео тревел‑блогерши, которая исследует шумный токийский рынок под открытым небом. На ней винтажная джинсовка, глаза сияют от восторга. Дневное солнце бросает красивые тени между торговыми рядами. Она пробует разные блюда стритфуда, рассказывает, время от времени бросая взгляд в камеру и указывая на любопытные прилавки. Картинка слегка зернистая, напоминает плёночную съёмку. Она говорит с британским акцентом: «Обязательно загляните сюда, если будете в Токио! Такояки здесь просто потрясающие. Продавец сказал, что этот рецепт в его семье уже три поколения». Завершает видео жестом «палец вверх».
A handheld selfie‑style shot, from the point‑of‑view of a gorilla in a lush jungle. A large silverback gorilla holds the camera at arm's length. His long, powerful arm is clearly visible in the frame, and his face is perfectly framed. The gorilla says: "I'm just testing out this actually works and I'm going to post it on TikTok later. Essentially it felt cute might delete it later" (lips moving like he's saying it).
Съёмка в стиле селфи от лица гориллы в густых джунглях. Огромный серебряный самец горной гориллы держит камеру на вытянутой руке. Его длинная мощная конечность ясно видна в кадре, а лицо идеально попадает в центр. Горилла говорит: «Просто проверяю, работает ли это, — потом залью в TikTok. В целом получилось мило, может быть удалю позже» (губы двигаются в такт речи).
⮬
Tokyo travel blogger
(токийская тревел‑блогерша)
⮬
Gorilla selfie
(селфи гориллы)
Ещё одна деталь, которую показывает пример с Токио: добавление фразы The image is slightly grainy, looks very film-like
(Картинка слегка зернистая, выглядит как на плёнке) помогает избежать «чересчур чистого» ИИ‑стиля. В результате видео больше похоже на настоящую телефонную запись.
Физика
Одно из сильнейших преимуществ Veo 3 — реалистичная физика. Модель сохраняет естественность движения объектов и их взаимодействия даже при использовании различных художественных стилей. Падения, прыжки, упругие столкновения, движение жидкости — всё остаётся физически правдоподобным, даже если картинка при этом выполнена, скажем, в стиле оригами или пластилина.
⮬
LEGO
(лего)
⮬
origami
(оригами)
⮬
chrome
(хром)
⮬
paint
(краска)
Выводы
Veo 3 открывает потрясающие возможности для креаторов, но требует осознанного подхода. Главный вывод: думайте как режиссёр. Продумывайте не только то, что происходит в кадре, но и то, как это снято и что звучит. Теперь, оснащённые знаниями о том, как описывать персонажей, управлять камерой и назначать стили, вы готовы использовать всю мощь этой модели.