Почему Sora от OpenAI так плохо генерирует видео с гимнастками? / forpes.ru

Главная
Почему Sora от OpenAI так плохо генерирует видео с гимнастками?

Почему Sora от OpenAI так плохо генерирует видео с гимнастками? -2

13.12.2024 12:36

technokratiya 11 2100 Источник

На этой неделе компания OpenAI предоставила своим платным клиентам генератор изображений Sora Turbo, и в социальные сети хлынул поток работ с использованием Sora, многие из которых очень впечатляют. Единственное, в чем модель не очень хороша, так это в изображении гимнастики, и причины этого многое говорят о текущих проблемах генераторов обучающего видео.

Дисклеймер: это вольный перевод колонки издания Fast Company. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Sora оказалась практически неспособна создавать видео с гимнастами, создавая вместо них странных людей, которые прыгают по воздуху и иногда приземляются на три ноги или дополнительную голову.

Причина неудачи Sora, по мнению главного инвестора Menlo Ventures Диди Даса, кроется в ее понимании физики.

Большинство генеративных видеомоделей обучаются предсказывать появление новых пикселей на экране, говорит Дас, на основе пикселей, которые появились на предыдущих кадрах. Это может показаться похожим на то, как работают языковые модели, и это потому, что, в отличие от других популярных генераторов видео, Sora использует ту же архитектуру моделей‑трансформеров, что и большие языковые модели (LLM). И, как и в случае с большинством LLM, исследователи надеются, что видеогенераторы, угадывая, каким будет следующий набор пикселей, начнут формировать обобщенное понимание того, как устроен мир. Это означает формирование понимания физики — правил, управляющих перемещением объектов в пространстве. Исследователям ИИ предстоит еще поработать над этим.

«Некоторые говорят, что все получится, если подкинуть в проблему больше данных по гимнастике, но кажется маловероятным, что правильный способ „выучить физику“ — это дать достаточно примеров», — говорит Дас. «Но правила физики действуют во многих произвольных ситуациях, которых может и не быть в данных».

Представитель OpenAI, отвечая на вопрос о том, как он относится к видео с гимнастками, написал по электронной почте, что текущая модель Sora «может с трудом имитировать физику сложной сцены и не понимать конкретные случаи причинно‑следственных связей (например, на печенье может не появиться след после того, как персонаж его надкусит)».

Комментарии (11)

Bioman85
13.12.2024 12:54
#27670584
Понимать физику сложно, куда проще просто взять и пришить гимнасткам 3 ногу.

Ivan22
13.12.2024 12:54
#27670864
пошли придирки уже к каким-то реально редким кейсам. Значит прогресс серьезный

creker
13.12.2024 12:54
#27670974
Там не только гимнастка. У репортера на фоне 4 руки.
1. SolutionFound
  13.12.2024 12:54
  #27671092
  Это чтобы не упасть от увиденного
1. green_bag94
  13.12.2024 12:54
  #27671366
  Это уже серьёзно и трудно списать на недостаточный fps
1. pda0
  13.12.2024 12:54
  #27672818
  Ну, правильно. Двумя держать камеру, а нижние, чтобы потом статью писать.

Mox
13.12.2024 12:54
#27671124
Судя по картинке из статьи - проблема в низких fps обучающих видео, из-за чего невозможно научить плавности движения.
1. qiper
  13.12.2024 12:54
  #27676928
  Для таких скоростей условных 30 fps явно мало

HencoDesu
13.12.2024 12:54
#27671154
То есть мужик с камерой с дополнительной парой рук никого не смутил?

ForestDog
13.12.2024 12:54
#27672412
Не тот спорт она выбрала. Ей бы в Кунг-фу пойти.

qiper
13.12.2024 12:54
#27676920
Проблема случайно не из той же области, что и проблема с пальцами?