На этой неделе компания OpenAI предоставила своим платным клиентам генератор изображений Sora Turbo, и в социальные сети хлынул поток работ с использованием Sora, многие из которых очень впечатляют. Единственное, в чем модель не очень хороша, так это в изображении гимнастики, и причины этого многое говорят о текущих проблемах генераторов обучающего видео. 

Дисклеймер: это вольный перевод колонки издания Fast Company. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Sora оказалась практически неспособна создавать видео с гимнастами, создавая вместо них странных людей, которые прыгают по воздуху и иногда приземляются на три ноги или дополнительную голову. 

Причина неудачи Sora, по мнению главного инвестора Menlo Ventures Диди Даса, кроется в ее понимании физики.

Большинство генеративных видеомоделей обучаются предсказывать появление новых пикселей на экране, говорит Дас, на основе пикселей, которые появились на предыдущих кадрах. Это может показаться похожим на то, как работают языковые модели, и это потому, что, в отличие от других популярных генераторов видео, Sora использует ту же архитектуру моделей‑трансформеров, что и большие языковые модели (LLM). И, как и в случае с большинством LLM, исследователи надеются, что видеогенераторы, угадывая, каким будет следующий набор пикселей, начнут формировать обобщенное понимание того, как устроен мир. Это означает формирование понимания физики — правил, управляющих перемещением объектов в пространстве. Исследователям ИИ предстоит еще поработать над этим.

«Некоторые говорят, что все получится, если подкинуть в проблему больше данных по гимнастике, но кажется маловероятным, что правильный способ „выучить физику“ — это дать достаточно примеров», — говорит Дас. «Но правила физики действуют во многих произвольных ситуациях, которых может и не быть в данных».

Представитель OpenAI, отвечая на вопрос о том, как он относится к видео с гимнастками, написал по электронной почте, что текущая модель Sora «может с трудом имитировать физику сложной сцены и не понимать конкретные случаи причинно‑следственных связей (например, на печенье может не появиться след после того, как персонаж его надкусит)».

Комментарии (11)


  1. Bioman85
    13.12.2024 12:54

    Понимать физику сложно, куда проще просто взять и пришить гимнасткам 3 ногу.


  1. Ivan22
    13.12.2024 12:54

    пошли придирки уже к каким-то реально редким кейсам. Значит прогресс серьезный


  1. creker
    13.12.2024 12:54

    Там не только гимнастка. У репортера на фоне 4 руки.


    1. SolutionFound
      13.12.2024 12:54

      Это чтобы не упасть от увиденного


    1. green_bag94
      13.12.2024 12:54

      Это уже серьёзно и трудно списать на недостаточный fps


    1. pda0
      13.12.2024 12:54

      Ну, правильно. Двумя держать камеру, а нижние, чтобы потом статью писать.


  1. Mox
    13.12.2024 12:54

    Судя по картинке из статьи - проблема в низких fps обучающих видео, из-за чего невозможно научить плавности движения.


    1. qiper
      13.12.2024 12:54

      Для таких скоростей условных 30 fps явно мало


  1. HencoDesu
    13.12.2024 12:54

    То есть мужик с камерой с дополнительной парой рук никого не смутил?


  1. ForestDog
    13.12.2024 12:54

    Не тот спорт она выбрала. Ей бы в Кунг-фу пойти.


  1. qiper
    13.12.2024 12:54

    Проблема случайно не из той же области, что и проблема с пальцами?