OpenAI выпустила Sora — нейросеть для генерации коротких видео. Сервисом могут пользоваться владельцы платных подписок ChatGPT Plus и Pro, но после релиза даже им приходится ждать в многочасовой очереди. В этой статье смотрим интерфейс Sora, примеры видео, разбираемся с ограничениями и пытаемся сгенерировать своё видео.

Ограничения

Sora доступна только владельцам подписок ChatGPT Plus (20 долларов в месяц) и Pro (200 долларов в месяц). Первым в месяц выдают 1000 кредитов, чего хватит на создание 50 видео длительностью до 5 секунд с разрешением 720p. Этого хватит только для тестов. Для повышения лимитов надо перейти на более дорогой тариф. Тогда можно будет генерировать до 500 видео в приоритетной очереди и неограниченное количество в общей. Также можно будет создавать ролики длительностью до 20 секунд с разрешением 1080p. Видео можно скачивать, но с тарифом Plus в углу будет логотип OpenAI.

Помимо этого, перед началом работы надо согласиться с правилами сервиса. Их нарушение может привести к блокировке аккаунта без возврата средства:

  • Нельзя использовать видео людей без их согласия и видео людей моложе 18 лет.

  • Запрещено загружать медиафайлы, содержащие насилие и откровенные сцены.

  • На все загружаемые файлы должны быть авторские права.

Также в тарифе за 20 долларов нельзя создавать видео из загруженных медиафайлов, содержащих людей. Об этом пользователя предупреждают во время входа.

Sora доступна во всех регионах присутствия ChatGPT, кроме стран Евросоюза. Это из-за особенностей регулирования в ЕС.

Интерфейс

В нижней части экрана находится поле ввода запрос и настройки генерации. Можно выбрать соотношение сторон (16:9, 1:1, 9:16), разрешение (480p, 720p, 1080p), продолжительность (от 5 до 20 секунд), количество генерируемых видео (до четырёх за один раз). Также можно выбрать шаблон стиля видео, например, «архивный ролик» или стоп-моушен.

В левом углу есть следующие вкладки:

  • Explore — лента видео, которые генерируют пользователи. Понравившиеся ролики можно добавлять в избранное.

  • Library — коллекция сгенерированных видео.

  • Folders — папки, по которым можно группировать собственные видео.

В Sora есть Storyboard — инструмент для детальной настройки генерации. С его помощью можно описать, что должно происходить на каждой секунде видео. Режим подойдёт для создания 20-секундных роликов, чтобы не отдавать всё на усмотрение нейросети.

Генерируем видео

Для примера я попросил Sora сгенерировать пейзаж Москвы. Дополнительных указаний по конкретному месту, ракурсам и условиям не передавал. Из-за наплыва желающих генерация 5-секундного видео в разрешении 480p заняла полтора часа. Это с учётом того, что разрешение 480p отмечено как самое быстрое в создании.

В финальном видео сразу заметно, что у Sora своё представление о планировке Москвы. Открыточный храм Василия Блаженного оказался на набережной, хотя должен быть на самой Красной площади. Также видно, что сквозь Кремлёвский сквер (если это он) проходит автомобильная дорога, чего в реальности нет. Купола храмов разбросаны случайно и иногда показываются из обычных зданий. Деловой центр «Москва-сити» разделился на две части, находится в неправильной части города и силуэтом очень отдалённо напоминает реальную «Москву-сити».

Если вы никогда не видели центр Москвы, но слышали про красные стены, башни и купола церквей, то вы даже не поймёте, что с видео что-то не так. Люди, знакомые с Москвой, сразу заметят подвох. Также важно учитывать довольно низкое качество анимаций: машины и люди похожи на случайные цветные пятна.

Примеры видео

Ниже — примеры видео из ленты, которые сгенерировали другие пользователи и промпты к ним. На каждом заметны недочёты разной степени абсурдности.

Комментарии (5)


  1. Pifarh
    09.12.2024 23:48

    Ну как "побаловаться" для хобби так вобще круто.

    Сдается на марфонских дистанциях( 1.5 часа) одинаковых персонажей и мест "не вывести в показ" на существующем этапе развития технологии генерации видео. Понятно что там по 20 секунд пока генерится как первые версии Suno. Но держать какие то солид патерны-макеты(каких то мест-персонажей-действий) было бы прям для генерации любительских/профессиональных видео, весьма крупным эволюционным последствием.


  1. mbtr
    09.12.2024 23:48

    Здесь технология упирается в лимиты оправданных энергозатрат. Рендер видео на 2 порядка дороже, чем изображения, а для удачного варианта нужно много попыток. В итоге получится нишевый продукт, который подходит для произведений, где консистентность изначально не треубется. Сначала люди наспамят подобного, затем оно всем надоест.


  1. tcapb1
    09.12.2024 23:48

    Качество и реалистичность сильно лучше, чем у конкурентов, но да, странности видны почти в каждом ролике. Всё-таки, представления о мире у модели весьма своеобразные. Но движения в основном очень естественные.

    Нагенерил несколько роликов, все оказались очень далеки от того, что я хотел, хотя и смотрелись качественно. Видимо, как и с Suno, чтобы получить что-то, что тебе действительно надо, нужны сотни попыток.


  1. positroid
    09.12.2024 23:48

    Первым в месяц выдают 1000 кредитов, чего хватит на создание 50 видео длительностью до 5 секунд с разрешением 720p

    Не совсем верно, в 720p получится сгенерировать только 16 роликов.

    Мне больше интересно, когда они уже DALL-E проапгрейдят? Та же сора может выдавать изображения, да и были уже утечки, что их мультимодальная модель умеет в качественные картинки.


    1. Frady_Priva
      09.12.2024 23:48

      Так у них же каждый день презентация, так что думаю успеют ещё на неделе. Потому что с сентября лидирует Flux