Симуляция миров: как работает нейросеть SORA / forpes.ru

Главная
Симуляция миров: как работает нейросеть SORA

Симуляция миров: как работает нейросеть SORA

18.03.2024 08:01

Nikuson 6 10000 Источник

Видеоконтент стал неотъемлемой частью нашей жизни. ТикТок, Ютуб и прочие платформы с каждым днём всё больше используются людьми как способ отвлечься от повседневности и позволяют ненадолго предаться прокрастинации. Кто бы что ни говорил, но в 2024 году человек не представляет без него жизни, но создание качественного контента это довольно трудоемкая задача. В ней нам может помочь новая нейросеть OpenAI “SORA”.

В этой статье мы рассмотрим, как работает новая революционная нейросеть синтеза видео SORA, пофилософствуем на эту тему и, конечно, помечтаем о AGI.

❯ Введение

Диффузионные модели были успешны в генерации text-to-image (Dalle, Midjourney и т. п.) и привели к началу исследований в области генерации видео. Прошлые модели были, мягко говоря, очень плохи в плане качества и симуляции свойств реального мира, но OpenAI, как всегда, произвели революцию и запустили настоящую сенсацию по всему интернету. В SORA объединили все предыдущие достижения компании за последние годы и достигли поразительного уровня реализма видео.

Многочисленные исследования ранее занимались генеративным моделированием видеоданных, используя различные методы, включая рекуррентные сети,GAN (Generative adversarial networks), трансформеры и модели диффузии. Но в SORA предложен совершенно новый подход, который мы сейчас изучим.

❯ Представление видео как визуальных патчей

В основе SORA заложена та же идея, что и в LLM по типу GPT. Языковые модели хорошо показали себя в генерации текста отчасти из-за использования принципов токенизации, которые умело связывают и представляют текст в виде скрытых пространств. OpenAI переняли эту стратегию и ввели “визуальные патчи” для столь же эффективного представления видео.

Первым этапом в обучении SORA стало обучение такой сети, которая могла бы принимать необработанное видео в качестве входных данных и выводить скрытое представление визуальных патчей, сжатое как во времени, так и в пространстве. В последствии основная модель генерирует именно это латентное представление, которое позже декодируются обратно в пространство пикселей.

❯ Диффузионный… трансформер ???

SORA — объединение идей диффузионной генерации и трансформеров. На вход подаются зашумленные Гауссовским шумом патчи и кондиционируемую (про то, что это такое, подробнее я рассказал в статье про диффузию) уточняющую информацию, вроде текста. Далее трансформер учится подавлять этот шум, подобно U-net, генерируя новые уже чистые визуальные патчи. Идея диффузионных трансформеров не нова, ведь трансформеры показывают отличную масштабируемость и при должном обучении способны на невероятные вещи. Работа OpenAI просто доказывает эффективность этого метода в задаче text-to-video. Качество выборки заметно улучшается по мере увеличения обучающих вычислений.

❯ Полная гибкость

Все предыдущие генераторы видео в чем-то, но всегда были ограничены. Генерация до 4 секунд видео, фиксированное соотношение и шакальное разрешение 256*265 очень бесили. OpenAI считают наоборот, что обучение на совершенно разных форматах и продолжительностях в масштабах миллиардов видео из интернета — более выгодная стратегия. Sora генерирует видео в большом диапазоне от 1920x1080p до 1080x1920 и все, что между ними. Продолжительность видео тоже легко настраивается вплоть до одной минуты.

❯ GPT — сценарист SORA

Как и в DALL·E 3, тут также используется GPT для преобразования коротких запросов пользователя в более длинные мини-сценарии происходящего, которые уже и отправляются в видеомодель. С помощью этого конечные видео становятся более проработанными и интересными.

❯ Симулированные миры. Немного размышлений

Почему LLM так хорошо понимают наш внешний скудный мир мы точно не знаем. Мы просто не можем полноценно осмыслить многомерные скрытые пространства в которых они его представляют.

Ещё больше восхищает когда эти LLM начинают «воображать» как выглядит внешний мир в пространстве и времени за рамками железной коробочки, в которой они работают.

Есть предположения, что изучая терабайты информации в интернете языковые модели научились симулировать наше мышление. И с появлением SORA интересно представлять, как ИИ срисовывает уже наше воображение, наше восприятие внешнего мира.

Конечно для нейросети эти видео более объемное и глубокое представление, чем просто запись нашего 3Д мира, но большим, чем мы довольствуемся, просмотром со стороны рядового 3-мерного существа с 2-мерным зрением, мы не можем.

❯ Феномен SORA в интернете

Достаточно развитая технология неотличима от магии. Вполне ожидаемо, что такой крупный релиз вызвал массу обсуждений в сети. Многие из переживаний интернет-юзеров правда наталкивают на мысли, что с достаточным уровнем реалистичности сгенерированные миры и вправду будут полностью неотличимы от реального. В любом случае как решать вопросы этики исследователям ещё предстоит разобраться.

❯ Вывод. Генерация видео за пределами пикселей

Нейросети генерации видео уже стали выходить за рамки простой кучи пикселей. Речь идет о рассказывании историй, масштабных симуляциях и творчестве. Очень интересно, до чего такими большими шагами дойдет прогресс через ближайшие 10 лет.

Wake up, Neo. The Matrix has you.

Возможно, захочется почитать и это:

➤ Нейрофутуризм. К чему еще приспособят ИИ в ближайшем будущем?

➤ Нейросеть мне в помощь или как я сделал телеграм бота, который умеет переводить песни

➤ Полигон для творчества за 1500 рублей

➤ KC868-A8M: 8x8, GSM, RTC и прочие плюшки (плюс CAN для любителей)

➤ The Elder Scrolls III: Morrowind: чем цепляет эта нестареющая классика?

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Комментарии (6)

kovalensky
18.03.2024 08:13
#26623381
Как по мне переработанная версия Stable Diffusion, люди создавали аниме девочек в движении 60квс через склейку кадров.
1. NeiroNext
  18.03.2024 08:13
  #26626051
  Это совсем не то. Вы скорее всего имеете ввиду видео, которые получались через прогонку каждого кадра реального видео с генерацией на основе этого кадра и текстового запроса нового результирующего кадра.
  
  Тоесть получаем кадр, генерируем по текстовому описанию что-то новое и оставляем 60% оригинального кадра и 40 - сгенерированного. Повторяем это для каждого кадра. Вот и вся магия.
  
  Здесь же видео создаётся с нуля, с большим продуманным сюжетом, сложными взаимосвязями и в отличном качестве.
1. Valtezar
  18.03.2024 08:13
  #26631025
  Ну технологии конечно схожи. Но, если на Stable Diffusion делать видео, получается каша. То фон меняется независимо от того идет «человек» или просто стоит. То 6 пальцев то 8. То походка неестественная, И таких косяков очень много которые нужно исправлять руками в фотошопе. (а некоторые не исправить) А тут смотрел промо “sora” и оказывается, они говорят что у них таких болезней нет… если написать что человек идет, то значит что у человека должны быть руки, ноги, пальцы в том количестве в каком и есть у человека, и походка должна быть с учетом анатомии человеческого тела. Вот в чем инновация…
  
  У меня один вопрос: если я делаю видео в S.D. Длинной 5 минут, оно делается порядка часа. То тут наверное домашняя машина просто обалдеет… и делать ролик нужно будет только на tesla a100? Не меньше.

LinkToOS
18.03.2024 08:13
#26626355
идей диффузионной генерации

Генерация видео все равно производится на основе семплов. Но благодаря продвинутым технологиям ремастеринга, можно использовать семплы с очень сильным сжатием с большими потерями. Суть та же как при получении цветных видео с высоким разрешением, из материала архивных черно-белых видеопленок в плохом качестве. Алгоритмы стали крутые. Материал может содержать шума намного больше чем полезной информации, но восстановленная картинка получается фотореалистичной.
А диффузные преобразования нужны для сильного изменения исходного фото- и видеоматериала при создании библиотек, а заодно для уничтожения водяных знаков и сигнатур по которым определяется авторская принадлежность фото-видео материала. К генерации видео это имеет опосредованное отношение. И к хранению семплов тоже. Сжимать с потерями можно и без диффузии.

spax555
18.03.2024 08:13
#26627245
+1
как работает нейросеть SORA

Так и как она работает?

LinkToOS
18.03.2024 08:13
#26627919
Если очень коротко, то генерация в Sora основана на интеллектуальном сжатии. Библиотека создается из всех доступных видеоматериалов. Исходное видео обрабатывается нейросетью, с использованием алгоритмов распознавания. Полученный библиотечный объект имеет примерно такую структуру - сжатое видео, дескрипторы распознанных элементов картинки, описание содержания картинки, образцы текстур, элементы картинки сохраненные с малым сжатием.
По текстовому запросу пользователя производится поиск библиотечного объекта, описание содержания которого совпадает с текстом запроса. Выполняется реконструкция видео.