Какая нейросеть лучше генерирует видео: Veo 3, Sora 2 или Grok Imagine? / forpes.ru

Главная
Какая нейросеть лучше генерирует видео: Veo 3, Sora 2 или Grok Imagine?

Какая нейросеть лучше генерирует видео: Veo 3, Sora 2 или Grok Imagine? +8

20.10.2025 10:14

thedarksideblog10 2 4300 Источник

Я ML-инженер, который последние полгода все чаще использует генеративные нейросети для визуала. Фото уже почти не отличить от настоящих, но с видео всё сложнее. Моделей стало много, и главный вопрос, какая из них снимает реалистичнее?

Чтобы разобраться, я протестировал три самых обсуждаемых видеомодели: Sora 2 от OpenAI, Veo 3 от Google DeepMind и Grok Imagine от xAI.
Все три умеют генерировать видео по текстовому запросу, но работают совсем по-разному.

Зачем вообще это сравнение

С каждым апдейтом становится всё сложнее понять, кому верить глазами. Видео от ИИ уже попадают в трейлеры, рекламу и короткий контент, но результат зависит не только от промта, а от того, на какой модели всё это запущено.

Недавно в одном TГ-канале энтузиастов ИИ я наткнулся на эксперимент: там показали видео, созданные на одной фотографии и одинаковом промте, но сгенерированные разными моделями. Больше 400 человек поставили реакции и выбрали фаворитов. Оказалось, что мнения разделились неочевидно.

Grok Imagine: полная свобода, но без гарантий

Grok Imagine — экспериментальная модель от xAI, построенная, предположительно, на гибридной архитектуре Transformer + Latent Diffusion, где временная составляющая кодируется через learnable positional embeddings.
То есть, модель не “понимает видео”, а генерирует последовательность кадров с динамическим контекстом, что делает результат нестабильным, но иногда феноменально креативным.
Без цензуры, фильтров и водяных знаков. Даёт полную свободу в промтах, вплоть до самых дерзких сценариев.

Grok хорошо чувствует композицию и стиль, но страдает от нестабильности кадров: иногда лица “плавают”, а движения теряют логику. Это следствие того, что модель, похоже, меньше полагается на строгую диффузию и больше на собственные генеративные эксперименты.

? Подходит для: креативных концептов, музыкальных клипов, арта.
? Не подойдёт для: рекламы или реалистичных сюжетов.

Veo 3: инженер с камерой

Veo 3 — наследник Veo 2 и Imagen Video, использует Video Diffusion Transformer (VDT) с обучением на огромном корпусе видеоклипов (по слухам, >500M пар “видео + описание”).
Ощущение, что всё “на своём месте”: плавные движения, реалистичный свет, лица без глитчей.

Бесплатно можно протестировать на Whisk (5 видео в месяц), но для серьёзной работы модель платная. Фильтры есть, но нейросеть не блокирует промты, а просто интерпретирует их аккуратнее.

? Подходит для: маркетинга, промо-видео, короткого контента.
? Минус: ограниченный бесплатный доступ и закрытая инфраструктура.

Sora 2: мощь с ограничениями

Sora 2 от OpenAI сейчас — одна из самых сложных для доступа моделей (официально только в США и Канаде). По архитектуре это мультиагентная диффузионная модель, которая умеет строить физически правдоподобные сцены.
Но при этом Sora жёстко модерируется: водяные знаки, фильтры, ограничения по контенту.

Плюс — стабильность. Минус — слишком много цензуры и странная интерпретация инструкций.
Если задать чёткий промт вроде “человек идёт по пляжу с зонтом”, Sora иногда решает, что зонт должен лететь, а человек стоять.

? Подходит для: экспериментальных и исследовательских задач.
? Минус: низкая предсказуемость и строгие фильтры.

Что показали тесты и реакция аудитории

По реакции аудитории в телеграм-сообществе (~12000 участников):

Veo 3 уверенно лидирует по качеству и реализму;
Grok Imagine вызывает восторг у творческих пользователей — “сумасшедшие” идеи, неожиданные ракурсы;
Sora 2 чаще всего называют “самой стабильной, но слишком самовольной, даже из плохого промта получится что-то нормальное”.

И это, на мой взгляд, отражает суть гонки.
Сегодня не существует универсальной модели “для всего”: каждая создаёт свой язык видео.

Если смотреть под капот

Модель	Архитектура	Примерная скорость	Ограничения	Сильная сторона
Grok Imagine	Свободная генерация (возможно, собственный вариант diffusion+transformer)	15–30 сек/видео	Нет	Полная свобода
Veo 3	Multi-stage Video Diffusion	10–20 сек/видео	5 видео/мес бесплатно	Реализм
Sora 2	Diffusion + Physical Sim Engine	20–40 сек/видео	Цензура, водяные знаки. 30 видео/день бесплатно.	Стабильность

Итог

Если обобщить:

Grok Imagine — про вдохновение.
Veo 3 — про производство.
Sora 2 — про исследование границ.

Каждая из них снимает “будущее”, но в разном жанре. Главное понимать, зачем вы создаёте видео: для эмоции, реализма или тестов.

P.S. Если хотите сами увидеть разницу, найдите тот самый пост в ТГ-канале "N2D2": там выложены три видео, созданные по одному промту и изображению, которые наглядно показывают возможности каждой из моделей. Реально интересно посмотреть, какой стиль генерации людям больше заходит.

Комментарии (2)

Romances
20.10.2025 13:05
#28986900
а клинг и ранвей?

Grommy
20.10.2025 13:05
#28987094
Спасибо!!