Я работаю в маркетинге, и последние месяцы у нас проходят под знаком ИИ-видео. Как самые активные тестировщики новых моделей мы создаём промо, короткие ролики, визуальные эксперименты, и всё чаще встаёт вопрос: какая модель действительно справляется лучше?

Если с фото уже всё понятно, Midjourney, ChatGPT и Kandinsky вышли примерно на один уровень, то с видео всё ещё туманно. Одни модели поражают реализмом, другие — свободой, третьи ломаются на простых запросах.
Сегодня я разберу три самых обсуждаемых нейромодели: Sora 2, Veo 3 и Grok Imagine.

А чтобы не спорить на уровне вкусов, покажу, как люди реально выбирают лучшую: недавно я наткнулся на TГ-канал "N2D2", где провели опрос на 11 000 человек, и более 400 пользователей поставили реакции, выбирая, какая нейросеть делает самые впечатляющие видео.
Результаты неожиданны.

Как всё началось

Работая с визуальным контентом, быстро начинаешь чувствовать, где “ИИ”, а где “руки человека”. Раньше ИИ-видео выдавали себя сразу: лица плавились, движения были вязкими, как в старых симуляторах, а камера гуляла. Но последние месяцы всё поменялось.

Модели научились строить сюжет, подбирать свет, удерживать стиль.
И вот однажды, тестируя три нейросети для внутреннего проекта, я понял, что на глаз отличить стало почти невозможно. Так родилась идея сравнить всё честно: один промт, одно фото и три видео, созданных Sora 2, Veo 3 и Grok Imagine.

Grok Imagine — свобода без тормозов

Начнём с самого дикого. Grok Imagine — это художник-анархист среди нейросетей.
Здесь нет фильтров, цензуры, водяных знаков: хочешь, проси что угодно.

Иногда результат — просто шедевр: реалистичная камера, выразительный свет, настоящий вайб “инди-фильма”. А иногда — полная сюрреалистика: персонажи исчезают, мир плывёт, логика спотыкается на ровном месте.

Grok Imagine хорош для экспериментов и вдохновения. Это нейросеть-авантюрист, у которой гениальность и хаос идут рука об руку.

Губка Боб едет на машине в Grok
Губка Боб едет на машине в Grok

Veo 3 — Голливудский подход

Veo 3 от Google DeepMind — полная противоположность.
Если Grok — уличный художник, то Veo — оператор с голливудским опытом.

Видео выглядят плавно, свет естественный, лица как настоящие.
Самое сильное — синхронизация звука и изображения, которая обычно хромает у других моделей.

Я использовал Veo для тестового рекламного видео, и никто в команде не догадался, что это генерация. Правда, бесплатно можно сделать только пять видео в месяц на Whisk, дальше платно. Но качество здесь — аргумент само по себе.

Губка Боб в Veo 3
Губка Боб в Veo 3

Sora 2 — интеллект под надзором

Sora 2 — это свежая модель от OpenAI, и она ощущается как самая “осмысленная”.
Она понимает промты глубже, выстраивает сцены логично, может создавать целые мини-сюжеты. Иногда кадры выглядят настолько живо, что забываешь, что это не съёмка. Лучше других моделей генерирует людей, особенно "живые" форматы, по типу, интервью на улице или спорт.

Но… есть нюанс.
Sora 2 строго модерируется: цензура, фильтры, водяные знаки.
Она может отказать в генерации без объяснений и часто ломает стиль входного изображения. В общем, умна, но слишком осторожна.

Не дает создать даже Губку Боба в Sora 2
Не дает создать даже Губку Боба в Sora 2

Итоги

Каждая модель тянет в свою сторону:

  • Grok Imagine — чистый креатив и непредсказуемость.

  • Veo 3 — технологическая стабильность.

  • Sora 2 — интеллект с рамками.

Я бы не стал выбирать “победителя”, просто у каждой свой жанр.
Veo подойдёт для реклам и фильмов, Grok — для креативных концептов, Sora — для ситуаций, когда закончилось вдохновение.

P.S. Если хотите сами увидеть разницу, найдите тот самый пост в ТГ-канале "N2D2": там выложены три видео, созданные по одному промту и изображению, которые наглядно показывают возможности каждой из моделей. Реально интересно посмотреть, какой стиль генерации людям больше заходит.

Комментарии (0)