После 10 месяцев слухов, утечек и спекулятивных твитов от различных ИИ-энтузиастов компания OpenAI наконец-то представила свою долгожданную ИИ-модель для генерации видео - Sora.
Несколько дней назад ИИ-сообщество уже ожидало выхода Sora, и я был одним из тех, кто постоянно обновлял сайт Sora.com, как отчаявшийся любитель кроссовок, пытающийся приобрести лимитированные модели.
Если вы не можете получить доступ к сайту, посмотрите список поддерживаемых стран здесь. Возможно, вам придется воспользоваться VPN, если вашей страны нет в списке.
Честно говоря, я ожидал от Sora совсем немногого. Прошло почти 10 месяцев с тех пор, как мы услышали серьезные новости о видеомодели от OpenAI, и с учетом того, что такие новые имена, как Kling AI, Runway Gen-3 и Hailou AI, начали набирать обороты, я полагал, что Sora появится с опозданием.
Но я должен сказать, что после того, как я увидел некоторые из тех результатов, которыми поделились люди, я впечатлен. Возможно, она и впрямь может дать этим конкурентам фору.
Тем не менее, если несколько первых образцов произвели на меня впечатление, это еще не значит, что я решился на покупку. Есть много вещей, которые имеют значение, когда речь идет о ИИ-инструментах для создания видео:
Поддерживаемые исходные медиа (текст, изображение и видео)
Скорость генерации
Качество результата (разрешение, согласованность и длина)
Элементы управления редактированием (расширение, обрезка, объединение и т. д.)
Ценообразование
Именно на этих моментах я и сосредоточился. Я хочу понять, достаточно ли у Sora возможностей, чтобы оправдать ее использование, и, в конечном счете, стоит ли за нее платить.
Что такое Sora?
Если вы впервые слышите о ней, то Sora - это ИИ-инструмент для генерации видео от OpenAI, который может создавать короткие ролики из текста, изображений и даже других видео.
В начале этого года OpenAI представила предварительную версию Sora, рассказав о своих успехах в «моделировании мира» - по сути, обучении модели понимать и представлять аспекты физического мира.
Теперь Sora Turbo, более быстрая и усовершенствованная версия, выпускается как отдельный продукт, доступный пользователям ChatGPT Plus и Pro на сайте Sora.com.
Принцип работы Sora
Используя Sora Video Editor, вы можете создавать видеоролики длиной до 20 секунд, при этом сохраняя хорошее визуальное качество и следуя вашим промптам.
Вот основной процесс:
В нижней части экрана вы можете ввести текстовое описание желаемого видео.
Если вы предпочитаете начать с существующего изображения или видео, нажмите на «+» в поле ввода, чтобы загрузить свой файл. Помните, что права на все загружаемое вами должны принадлежать вам, и вы не можете загружать изображения или видео других людей без их прямого письменного разрешения.
Перед тем как нажать кнопку «submit», просмотрите и подкорректируйте настройки. Вы можете изменить соотношение сторон, разрешение, продолжительность и количество вариаций. Эти настройки повлияют на стоимость вашей генерации. Наведите курсор на значок «?», чтобы проверить, сколько кредитов будет потрачено при выбранных вами настройках.
После того как вы введете свой промпт, Sora начнет его обработку, которая может занять до минуты. Вы можете следить за ходом генерации видео, нажав на значок в правом верхнем углу страницы.
После того как видео будет сгенерировано, наведите курсор на превью в библиотеке, чтобы увидеть все варианты.
Нажмите на конкретную вариацию, чтобы рассмотреть ее поближе и получить доступ к инструментам редактирования. Вы можете доработать, переделать или расширить созданный клип, основываясь на том, что создала Sora.
Выглядит великолепно. Он напоминает мне инструмент для редактирования видео от Kling, Runway или RenderNet AI.
Примеры видеороликов
Теперь давайте посмотрим на некоторые видеоролики, сгенерированные Sora, и мои мысли по поводу каждого из них.
Промпт: A serene and otherworldly scene unfolds with high-resolution digital clarity, capturing a minimalist beach at twilight where fashionably dressed figures recline on floating chairs woven from delicate reeds, hovering just above the gentle waves; the ocean emits ethereal smoke particles that rise and form abstract patterns in the air; bioluminescent plankton in the water glow softly, illuminating the scene with a magical light as the chairs drift effortlessly along the shoreline.
Дым и брызги воды выглядят невероятно детализированными. Мне также нравится, как ведут себя предметы, плывя по воде. Похоже, Sora знает, как объекты должны двигаться и взаимодействовать в физической среде.
Промпт: Whales Soaring Skyward. (Subtle Remix): make the video more vibrant and the butterflies more colorful.
Это непростая задача, потому что нужно не просто придать видео реальный вид. А в том, чтобы сделать его красивым и ярким. Sora все же справилась с этой задачей.
Бабочки выглядят более красочными, а вся сцена кажется более сказочной, словно из сказки. Она не обязана подчиняться физике реального мира, но при этом выглядит профессионально и эффектно.
Промпт: Japanese Winter Market (Storyboard)
Людей ИИ-видео моделям генерировать всегда сложно. Даже здесь я замечаю некоторые странные детали - ногти выглядят странно, а конечности могут быть смещены. Большинство существующих моделей не справляются с анатомией человека, и Sora не исключение. Она не идеальна, но я вижу некоторые улучшения по сравнению с тем, что я видел раньше.
Промпт: Kraken Attack Chaos. The shot is foggy with sharp color contrast, the look and feel captured is found footage quality with low visibility, providing a sense of immediacy and chaos.
На этом примере видно, как Sora умеет создавать определенное настроение. Туманная обстановка, контраст и ощущение найденных кадров - все здесь на высоте. Кажется, что это могло бы подойти для трейлера фильма или короткометражки. Впечатляет, что Sora может работать с такой кинематографической эстетикой.
Промпт: Bling Zoo Aquarium (Storyboard). The ‘bling zoo’ shop in new york city is both a jewelry store and zoo.
ИИ-модели обычно испытывают трудности с текстом, и Sora - не исключение. Хотя в целом сцена выглядит хорошо, орфография нарушена, а текст неточен. Это похоже на то, что происходит с генераторами изображений. Рендеринг текста остается большой проблемой.
Ключевые особенности Sora
Одна вещь, которая привлекает мое внимание, - это интерфейс, который OpenAI разработала для Sora. Они не просто дали нам поле для ввода промпта и на этом остановились. Они представили множество функций: инструмент раскадровки, Remix, Recut, Loop, Blend и предустановки стилей.
Remix. Изменение сцены путем смены фона, замены объектов или добавления и удаления элементов.
Recut. Функция Recut позволяет сокращать и удлинять кадры видео.
Storyboard (Раскадровка). Покадровая компоновка видео, позволяющая лучше контролировать сложные последовательности.
Loop и Blend. Loop создает непрерывную анимацию, а Blend плавно объединяет два клипа в один.
Style Presets. Мгновенное применение предопределенного визуального стиля, например стиля papercraft, без необходимости бесконечно редактировать промпты.
Как Sora по сравнению с конкурентами
Сейчас я застрял в ожидании стабильного доступа. Из-за шумихи серверы перегружены, поэтому новые пользователи вообще не могут создавать видео. Если вы видите это сообщение об ошибке, вы не одиноки.
Как только я получу доступ, я планирую сравнить Sora с Runway Gen-3 и Kling, используя те же промпты, и посмотреть, какие результаты будут более согласованными и реалистичными.
А пока давайте попробуем сравнить предварительно созданное Sora видео с Runway Gen-3. Вот пример видео, созданного с помощью Sora:
Промпт: a family of grizzly bears sit at a table, dining on salmon sashimi with chopsticks.
Видео сгенерировано Sora
Этот 5-секундный ролик, представленный ниже, сгенерирован в Runway.
Видео сгенерировано Runway Gen-3 Alpha
Из того, что я вижу, результат Sora кажется более живым. Медведи не просто сидят на месте. Камера двигалась, и в сцене чувствовалась активность. Версия Runway Gen-3, напротив, выглядит более статичной, почти как слегка анимированное изображение.
Также мне нужно выяснить, соответствует ли заявленное «быстродействие» действительности. Ранняя исследовательская модель была медленной и дорогой в использовании. Sora Turbo должна быть значительно быстрее, но «быстро» в терминах ИИ все еще может означать несколько минут ожидания для 20-секундного ролика.
Улучшится ли эта скорость со временем? Возможно.
Цены на Sora
Если вы хотите использовать Sora, то в настоящее время она привязана к определенным планам подписки ChatGPT:
ChatGPT Plus ($20/месяц)
Вы сможете генерировать до 50 приоритетных видеороликов (1 000 кредитов) в месяц, создавать ролики с разрешением до 720p и длительностью до 5 секунд.
ChatGPT Pro ($200/месяц)
Вы ежемесячно сможете генерировать 500 приоритетных видео (10 000 кредитов), неограниченное количество видео с разрешением до 1080p и длительностью до 20 секунд. Также вы можете запускать до 5 генераций одновременно, а скачиваемые ролики будут без водяных знаков.
Сейчас многие люди, в том числе и я, находятся в ожидании стабильного доступа к Sora. Проблемы с мощностью сервера явно раздражают, а в социальных сетях полно пользователей, которые не могут зарегистрироваться или вообще генерировать видео.
Тем не менее, первые результаты работы Sora выглядят впечатляюще. Реалистичность и согласованность великолепны, и интересно представить, что это может значить для творческих людей, режиссеров и всех, кто хочет воплотить свои идеи в жизнь с помощью видео.
Но эти же возможности вызывают и серьезные опасения. С такими реалистичными видео мы должны признать риск злоупотреблений: фальшивых новостей, мошенничества и дипфейков.
Любопытно, что техно-блогер Маркес Браунли заметил: когда он попросил Sora сгенерировать видео с техническим обозревателем, в нем подозрительным образом присутствовало зеленое растение на столе, очень похожее на то, которое часто можно увидеть в его собственных видео.
Было ли это странным совпадением, или данные для обучения OpenAI включали его работы и повторяли эти детали? Трудно сказать наверняка, но это подчеркивает неопределенность, связанную с тем, как обучаются эти модели и что они могут случайно обнаружить.
В любом случае, если им удастся наладить доступ, поддерживать качество и создать сообщество, которое будет ответственно использовать инструмент, Sora может заменить Kling или Runway в качестве основного инструмента для создания видео с помощью искусственного интеллекта среди пользователей. Пока что я воздерживаюсь от окончательных выводов, пока не утихнет шумиха, нормально не заработают серверы, и у меня не появится шанс по-настоящему испытать ее.
Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Спасибо, что прочитали!
Комментарии (11)
dyadyaSerezha
10.12.2024 19:44foggy with sharp color contrast
Вот тут я бы запнулся, если бы сам был нейроннюкой. Туман и любой резкий контраст - вещи противоположные.
А на видео с медведями от Sora палочек вообще нет. Нехорошо.
amazingname
10.12.2024 19:44А можно будет загрузить свои детские чернобелые фотки и сделать достаточно достоверное видео, как ты мог реально выглядеть в детстве...
NeyroEntuziast Автор
10.12.2024 19:44Можно будет, конечно. Но это можно уже сейчас сделать в клинг, ранвэй и минимакс
amazingname
10.12.2024 19:44Помедленнее, я записываю: klingai.com , runwayml.com, minimaxai.me. Спасибо, записал.
FirstEgo
10.12.2024 19:44Я правильно понимаю, что приоритетные видео генерятся почти сразу, а "неограниченные" надо ждать? И сколько по итогу времени занимает генерация "прио" и сколько ждать генерации от "безлимитных"? Это сейчас для меня главный вопрос. По факту получается, если для безлимитной версии нужно ждать около пяти минут, то на минуту видео в 1080p затрачивается в среднем 20 минут. Около трёх минут видео за час рабочего времени. И за одну рабочую смену вполне реально собрать аниме серию взяв мангу как источник.
И вот тут даже у моего оптимизма начинает сосать под ложечкой... С одной стороны, если талантливый художник который и так хорошо делает свою работу сможет гораздо быстрее управиться - это одно. С другой стороны, через пару лет рынок аниме индустрии может заполониться конвейерной штамповкой (что на сегодняшний день и так происходит через каждые два-три тайтла). Но, всё же надежда умирает последней и я буду очень (ОЧЕНЬ) рад, если чаша весов склонится в первую сторону.
P.S. То что целый аниме сезон, пусть и среднего качества, теперь можно отрисовать одним человеком за один месяц и две сотни баксов - это просто взрыв центральной нервной системы. Есть множество аниме с посредственной рисовкой, что не мешает им быть хорошими. Ванпанчмен*, Джоджо* или Моб психо*, например (*не я является индивидуальной рекомендацией к просмотру). Так что, если хотя бы 5% из нейроаниме будут смотрибельными - это уже торт.
positroid
10.12.2024 19:44И за одну рабочую смену вполне реально собрать аниме серию взяв мангу как источник.
Нужно умножать на число попыток, чтобы отобрать даже не просто самые качественные, а просто удачные генерации - из 10 генераций подойти может одна, а может и не подойти ни одна.
Также у моделей (пока) проблемы с консистентностью мира/сюжета - даже если на вход подавать мангу - детали все равно будут отличаться и выглядеть будет достаточно рвано.
Можете посмотреть рекламные / музыкальные профессиональные видео, которые сделаны нейросетями - там явно видно смену кадра и композиции каждые ~5 секунд с нарушением целостности.Серию в 20 минут целостной будет собрать крайне затруднительно.
С другой стороны, можно генерировать в меньшем качестве и потом апскейлить, для аниме как будто высокая детализация не нужна. А в качестве альтернативы sora уже давно есть kling и minimax, качество которых близко к sora, а ценник и лимиты (безлимиты) вроде как гуманнее.
NeyroEntuziast Автор
10.12.2024 19:44Приоритетные, думаю, будут генерироваться сразу и без очереди.
Да, в принципе мульты можно генерировать
SOvA13
Переводчики обленились совсем. вставили текст от чатагпт, а на видео примеры просто забили.
NeyroEntuziast Автор
Спасибо тебе, добрый человек ). Видео почему-то не вставились нормально изначально. Просмотрел статью и добавил видео