Я ML-инженер, который последние полгода все чаще использует генеративные нейросети для визуала. Фото уже почти не отличить от настоящих, но с видео всё сложнее. Моделей стало много, и главный вопрос, какая из них снимает реалистичнее?
Чтобы разобраться, я протестировал три самых обсуждаемых видеомодели: Sora 2 от OpenAI, Veo 3 от Google DeepMind и Grok Imagine от xAI.
Все три умеют генерировать видео по текстовому запросу, но работают совсем по-разному.
Зачем вообще это сравнение
С каждым апдейтом становится всё сложнее понять, кому верить глазами. Видео от ИИ уже попадают в трейлеры, рекламу и короткий контент, но результат зависит не только от промта, а от того, на какой модели всё это запущено.
Недавно в одном TГ-канале энтузиастов ИИ я наткнулся на эксперимент: там показали видео, созданные на одной фотографии и одинаковом промте, но сгенерированные разными моделями. Больше 400 человек поставили реакции и выбрали фаворитов. Оказалось, что мнения разделились неочевидно.
Grok Imagine: полная свобода, но без гарантий
Grok Imagine — экспериментальная модель от xAI, построенная, предположительно, на гибридной архитектуре Transformer + Latent Diffusion, где временная составляющая кодируется через learnable positional embeddings.
То есть, модель не “понимает видео”, а генерирует последовательность кадров с динамическим контекстом, что делает результат нестабильным, но иногда феноменально креативным.
Без цензуры, фильтров и водяных знаков. Даёт полную свободу в промтах, вплоть до самых дерзких сценариев.

Grok хорошо чувствует композицию и стиль, но страдает от нестабильности кадров: иногда лица “плавают”, а движения теряют логику. Это следствие того, что модель, похоже, меньше полагается на строгую диффузию и больше на собственные генеративные эксперименты.
? Подходит для: креативных концептов, музыкальных клипов, арта.
? Не подойдёт для: рекламы или реалистичных сюжетов.
Veo 3: инженер с камерой
Veo 3 — наследник Veo 2 и Imagen Video, использует Video Diffusion Transformer (VDT) с обучением на огромном корпусе видеоклипов (по слухам, >500M пар “видео + описание”).
Ощущение, что всё “на своём месте”: плавные движения, реалистичный свет, лица без глитчей.

Бесплатно можно протестировать на Whisk (5 видео в месяц), но для серьёзной работы модель платная. Фильтры есть, но нейросеть не блокирует промты, а просто интерпретирует их аккуратнее.
? Подходит для: маркетинга, промо-видео, короткого контента.
? Минус: ограниченный бесплатный доступ и закрытая инфраструктура.
Sora 2: мощь с ограничениями
Sora 2 от OpenAI сейчас — одна из самых сложных для доступа моделей (официально только в США и Канаде). По архитектуре это мультиагентная диффузионная модель, которая умеет строить физически правдоподобные сцены.
Но при этом Sora жёстко модерируется: водяные знаки, фильтры, ограничения по контенту.

Плюс — стабильность. Минус — слишком много цензуры и странная интерпретация инструкций.
Если задать чёткий промт вроде “человек идёт по пляжу с зонтом”, Sora иногда решает, что зонт должен лететь, а человек стоять.
? Подходит для: экспериментальных и исследовательских задач.
? Минус: низкая предсказуемость и строгие фильтры.
Что показали тесты и реакция аудитории
По реакции аудитории в телеграм-сообществе (~12000 участников):
Veo 3 уверенно лидирует по качеству и реализму;
Grok Imagine вызывает восторг у творческих пользователей — “сумасшедшие” идеи, неожиданные ракурсы;
Sora 2 чаще всего называют “самой стабильной, но слишком самовольной, даже из плохого промта получится что-то нормальное”.
И это, на мой взгляд, отражает суть гонки.
Сегодня не существует универсальной модели “для всего”: каждая создаёт свой язык видео.
Если смотреть под капот
Модель |
Архитектура |
Примерная скорость |
Ограничения |
Сильная сторона |
|---|---|---|---|---|
Grok Imagine |
Свободная генерация (возможно, собственный вариант diffusion+transformer) |
15–30 сек/видео |
Нет |
Полная свобода |
Veo 3 |
Multi-stage Video Diffusion |
10–20 сек/видео |
5 видео/мес бесплатно |
Реализм |
Sora 2 |
Diffusion + Physical Sim Engine |
20–40 сек/видео |
Цензура, водяные знаки. 30 видео/день бесплатно. |
Стабильность |
Итог
Если обобщить:
Grok Imagine — про вдохновение.
Veo 3 — про производство.
Sora 2 — про исследование границ.
Каждая из них снимает “будущее”, но в разном жанре. Главное понимать, зачем вы создаёте видео: для эмоции, реализма или тестов.
P.S. Если хотите сами увидеть разницу, найдите тот самый пост в ТГ-канале "N2D2": там выложены три видео, созданные по одному промту и изображению, которые наглядно показывают возможности каждой из моделей. Реально интересно посмотреть, какой стиль генерации людям больше заходит.
Romances
а клинг и ранвей?