Я ML-инженер, который последние полгода все чаще использует генеративные нейросети для визуала. Фото уже почти не отличить от настоящих, но с видео всё сложнее. Моделей стало много, и главный вопрос, какая из них снимает реалистичнее?

Чтобы разобраться, я протестировал три самых обсуждаемых видеомодели: Sora 2 от OpenAI, Veo 3 от Google DeepMind и Grok Imagine от xAI.
Все три умеют генерировать видео по текстовому запросу, но работают совсем по-разному.

Зачем вообще это сравнение

С каждым апдейтом становится всё сложнее понять, кому верить глазами. Видео от ИИ уже попадают в трейлеры, рекламу и короткий контент, но результат зависит не только от промта, а от того, на какой модели всё это запущено.

Недавно в одном TГ-канале энтузиастов ИИ я наткнулся на эксперимент: там показали видео, созданные на одной фотографии и одинаковом промте, но сгенерированные разными моделями. Больше 400 человек поставили реакции и выбрали фаворитов. Оказалось, что мнения разделились неочевидно.

Grok Imagine: полная свобода, но без гарантий

Grok Imagine — экспериментальная модель от xAI, построенная, предположительно, на гибридной архитектуре Transformer + Latent Diffusion, где временная составляющая кодируется через learnable positional embeddings.
То есть, модель не “понимает видео”, а генерирует последовательность кадров с динамическим контекстом, что делает результат нестабильным, но иногда феноменально креативным.
Без цензуры, фильтров и водяных знаков. Даёт полную свободу в промтах, вплоть до самых дерзких сценариев.

Пример генерации Grok
Пример генерации Grok

Grok хорошо чувствует композицию и стиль, но страдает от нестабильности кадров: иногда лица “плавают”, а движения теряют логику. Это следствие того, что модель, похоже, меньше полагается на строгую диффузию и больше на собственные генеративные эксперименты.

? Подходит для: креативных концептов, музыкальных клипов, арта.
? Не подойдёт для: рекламы или реалистичных сюжетов.

Veo 3: инженер с камерой

Veo 3 — наследник Veo 2 и Imagen Video, использует Video Diffusion Transformer (VDT) с обучением на огромном корпусе видеоклипов (по слухам, >500M пар “видео + описание”).
Ощущение, что всё “на своём месте”: плавные движения, реалистичный свет, лица без глитчей.

Пример генерации Veo 3
Пример генерации Veo 3

Бесплатно можно протестировать на Whisk (5 видео в месяц), но для серьёзной работы модель платная. Фильтры есть, но нейросеть не блокирует промты, а просто интерпретирует их аккуратнее.

? Подходит для: маркетинга, промо-видео, короткого контента.
? Минус: ограниченный бесплатный доступ и закрытая инфраструктура.

Sora 2: мощь с ограничениями

Sora 2 от OpenAI сейчас — одна из самых сложных для доступа моделей (официально только в США и Канаде). По архитектуре это мультиагентная диффузионная модель, которая умеет строить физически правдоподобные сцены.
Но при этом Sora жёстко модерируется: водяные знаки, фильтры, ограничения по контенту.

Пример генерации Sora 2
Пример генерации Sora 2

Плюс — стабильность. Минус — слишком много цензуры и странная интерпретация инструкций.
Если задать чёткий промт вроде “человек идёт по пляжу с зонтом”, Sora иногда решает, что зонт должен лететь, а человек стоять.

? Подходит для: экспериментальных и исследовательских задач.
? Минус: низкая предсказуемость и строгие фильтры.

Что показали тесты и реакция аудитории

По реакции аудитории в телеграм-сообществе (~12000 участников):

  • Veo 3 уверенно лидирует по качеству и реализму;

  • Grok Imagine вызывает восторг у творческих пользователей — “сумасшедшие” идеи, неожиданные ракурсы;

  • Sora 2 чаще всего называют “самой стабильной, но слишком самовольной, даже из плохого промта получится что-то нормальное”.

И это, на мой взгляд, отражает суть гонки.
Сегодня не существует универсальной модели “для всего”: каждая создаёт свой язык видео.

Если смотреть под капот

Модель

Архитектура

Примерная скорость

Ограничения

Сильная сторона

Grok Imagine

Свободная генерация (возможно, собственный вариант diffusion+transformer)

15–30 сек/видео

Нет

Полная свобода

Veo 3

Multi-stage Video Diffusion

10–20 сек/видео

5 видео/мес бесплатно

Реализм

Sora 2

Diffusion + Physical Sim Engine

20–40 сек/видео

Цензура, водяные знаки. 30 видео/день бесплатно.

Стабильность

Итог

Если обобщить:

  • Grok Imagine — про вдохновение.

  • Veo 3 — про производство.

  • Sora 2 — про исследование границ.

Каждая из них снимает “будущее”, но в разном жанре. Главное понимать, зачем вы создаёте видео: для эмоции, реализма или тестов.

P.S. Если хотите сами увидеть разницу, найдите тот самый пост в ТГ-канале "N2D2": там выложены три видео, созданные по одному промту и изображению, которые наглядно показывают возможности каждой из моделей. Реально интересно посмотреть, какой стиль генерации людям больше заходит.

Комментарии (2)


  1. Romances
    20.10.2025 13:05

    а клинг и ранвей?


  1. Grommy
    20.10.2025 13:05

    Спасибо!!