Раннее утро, тихая улица, а навстречу вам идёт бабушка в платочке, держащая на поводке… носорога.

Да, Google в этом году решил окончательно стереть грань между «снять фильм» и «написать промпт». Новая версия их генератора Veo 3 — это уже не шутка и не эксперимент, а очень серьёзное заявление. Речь идёт не о смешном десятисекундном ролике, а о полноценном кино: со светом, звуком, движением камеры и даже с элементами актёрской игры.

Сегодня мы разберёмся, что умеет Veo 3, посмотрим, на что он действительно способен, и самое главное — попробуем «снять» собственный ролик с озвучкой и атмосферой.

Не переключайтесь, будет интересно!

Где использовать Veo 3?

Начнём с ложки дёгтя. Veo 3 официально запустили только в США и ещё примерно в семидесяти странах. В списке вы не найдёте Россию, Беларусь, Великобританию и большую часть Европы. Чтобы легально попасть в число счастливчиков, нужен американский IP, местный номер телефона и аккаунт с активной подпиской.

Но не всё так грустно. Помимо оформления подписки, есть несколько рабочих обходных путей, которые позволяют протестировать нейросеть.

Одним из таких решений является BotHub! Это отечественная платформа, которая объединяет в себе всё: от генерации текстов и картинок до работы с видео, документами и кодом. Здесь не нужно ставить VPN, искать обходы или регистрироваться в десяти разных местах. В нем мы и будем тестировать нашу модель.

При регистрации по ссылке Bothub дарит 100 000 капсов — забирайте бонус и начинайте творить!

Что за зверь такой — Veo 3?

Google выкатил Veo 3 на I/O 2025. Если раньше генераторы видео выглядели как школьная поделка из картона и клея ПВА, то теперь у нас в руках зверь, который ведёт себя так, будто окончил ВГИК. Картинка выросла до 4K — теперь можно рассмотреть, как у героя ресницы шевелятся от ветра. И самое приятное, что модель наконец-то научилась слушать. Пишете «бабушка с носорогом» и получаете именно бабушку с носорогом, а не дедушку с бегемотом и случайным котом сбоку.

Ранее компания представила модели Imagen VideoPhenakiVideoPoetLumiere, а также Veo и Veo 2.

Но главный фокус начинается, когда Veo 3 открывает рот. Теперь он умеет генерировать диалоги и закадровый голос. И это ещё не всё: музыка и эффекты появляются сами — тревожные скрипки, лай собак или шелест травы. Вы не монтируете звук, он просто есть. Лично для меня это самая магическая часть: ещё вчера казалось, что с картинкой нейросети кое-как справятся, а вот голос — это территория актёров. А теперь, пожалуйста: в одном промпте у вас и актёр, и режиссёр, и композитор. Здесь явно приложил руку DeepMind, которые в прошлом году грозились научить нейросети превращать видео в звук. Ну что ж, похоже, они своё слово сдержали.

Как создавать ролики?

  • Text to Video. Создание с помощью текстового промпта

  • Frames to Video. Загрузите или сгенерируйте изображения для использования в качестве начальных и конечных кадров

  • Ingredients to Video. Загрузите или создайте изображения для использования в качестве предметных референсов

Давайте оценим несколько результатов!

Довольно реалистичное видео, которое бы сгодилось для рекламы Coca-сola.

А здесь у нас полноценное экшен видео с участием белки.

И напоследок посмотрим видео-сравнение с некоторыми из конкурентов.

Интересный факт: во все ролики от Veo 3 встроен водяной знак SynthID, но его не возможно увидеть человеческим глазом. Он нужен, чтобы распознать контент, сгенерированный ИИ. Это такая политика компании по борьбе с дезинформацией.

Давайте рассмотрим реальный пример использования модели в полноценной рекламной практике.

Компания Jellyfish, один из лидеров цифрового маркетинга и часть холдинга The Brandtech Group, начала активно использовать Veo в своей собственной ИИ-платформе Pencil. Технология уже применяется в рекламных кампаниях, а недавно получила и более необычное применение: совместно с Japan Airlines команда запустила проект по созданию бортовых развлечений, сгенерированных искусственным интеллектом.

В рамках партнёрства были представлены первые видеоролики, целиком созданные на Veo 3. Это демонстрация того, что генеративное видео перестаёт быть лишь инструментом для тестов пользователей и постепенно превращается в полноценный инструмент рекламы и медиа. Давайте оценим!

Выглядит очень даже внушительно, правда?

Пишем промпт правильно!

1. Кто в кадре?

Опишите персонажа(ей):

  1. Возраст, пол

  2. Внешность (цвет волос, одежда, детали)

  3. Эмоции или настроение

Пример: A young woman with short red hair, wearing a grey hoodie, looking anxious.

2. Что происходит

  1. Сформулируйте основное действие — коротко и ясно.

  2. Движения

  3. Жесты

  4. Взаимодействие с предметами или людьми

Пример: She walks slowly across a rainy street, then picks up a ringing phone.

3. Где всё происходит?

Уточните окружение, чтобы задать атмосферу:

  1. Локация

  2. Время суток или погода

  3. Детали интерьера/экстерьера

Пример: At a crowded metro station, in a foggy forest at dawn, inside a dimly lit diner.

4. Свет, звук и эмоции

Задайте настроение через атмосферу:

  1. Освещение

  2. Фоновая музыка или шумы

  3. Реплики (если нужны)

  4. Эмоциональная окраска

Пример: Soft piano music in the background, the sound of rain and distant traffic, she says: “I’m not coming back.”

5. Ракурс и движение камеры

Veo 3 отлично понимает киношные приёмы:

  1. Тип кадра (close-up, wide shot, drone shot)

  2. Движение (slow zoom in, shaky handheld, panning shot)

Пример: The camera slowly zooms in, shaky handheld close-up.

6. Визуальный стиль

Добавьте жанр или эстетику.

  1. Реализм или мультяшность

  2. Определённый жанр или эпоха

  3. Сравнение с кино/анимацией

Пример: In the style of a 90s action movie, anime aesthetic, film noir lighting.

Итоговый принцип

Собирайте промпт как короткий сценарий, в котором есть: персонажи → действие → место → атмосфера → ракурс → стиль.

Так у нейросети будет чёткая структура, и она выдаст максимально «киношный» результат!

Делаем свой ролик!

Давайте оживим бабушку с нашей обложки. Начинаем с промпта, использовать будем только его!

Бабушка-экшен

Описание сцены: An elderly woman in a floral headscarf and oversized sunglasses, confidently walking through a typical Soviet courtyard with cracked asphalt and rusty playground swings. She is holding two leashes: on the left a giant brown bear, on the right a heavy gray rhinoceros. Both animals wear hanging wooden signs — the rhino’s says “Review”, the bear’s says “of Veo 3”. The mood is epic and surreal.

Визуальные детали: cinematic wide shot, morning light, dramatic atmosphere, in the style of a 90s action movie trailer.

Камера: slow dolly zoom forward.

Звук: tense orchestral music with heavy drums, animals breathing, distant echo of city sounds.

Давайте посмотрим итог:

Получилось очень даже неплохо! Есть вопрос к ремню в правой руке. Вначале он немного сливается с шерстью медведя.

Резюмируя

+

4К графика с неплохой физикой предметов, точность совпадения с промптами

Нельзя контролировать создание звука или субтитров

Синхронизация губ со словами и отличное звуковое сопровождение

Высокая вероятность артефактов, которые не так просто убрать

Хорошая вариативность для создания материала

Дороговизна

Подводя итог, Google с Veo 3 действительно сделал шаг, который трудно назвать просто обновлением. Это уже не игрушка для энтузиастов, а инструмент, который спокойно может конкурировать с профессиональными студиями. Учитывая автоматическую озвучку, встроенные эффекты и почти кинокачественный рендеринг — не удивительно, что многие уже называют Veo 3 новым эталоном в мире генерации видео.

Конечно, пока сервис ограничен по регионам и требует обходных манёвров для доступа, но сам факт — мы видим, как кино и искусственный интеллект окончательно пожали друг другу руки. И, похоже, Google всерьёз намерен держать планку еще долгое время!

Спасибо за прочтение! Делитесь своим опытом создания видео с помощью нейросетей в комментариях. Возможно, у вас есть любимый сервис. Будем рады узнать о ваших работах!

Комментарии (0)