ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми / forpes.ru

Главная
ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми

ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми +56

23.05.2019 03:19

Pochtoycom 82 39600 Источник

Технология из Гарри Поттера дошла до наших дней. Теперь для создания полноценного видео человека достаточно одной его картинки или фотографии. Исследователи машинного обучения из «Сколково» и центра Samsung AI из Москвы опубликовали свою работу о создании такой системы, вместе с целым рядом видео знаменитостей и предметов искусства, получивших новую жизнь.

Текст научной работы можно почитать тут. Там всё довольно интересно, с массой формул, но смысл прост: их система руководствуется «ориентирами», достопримечательностями лица, вроде носа, двух глаз, двух бровей, линии подбородка. Так она мгновенно улавливает, что человек собой представляет. И потом может переносить всё остальное (цвет, текстуру лица, усы, щетину и прочее) на любое другое видео человека. Адаптируя старое лицо к новым ситуациям.

Разумеется, это пока работает только на портретах. Модели нужен только один человек, с лицом, повернутым к нам, чтобы у него было хотя бы видно оба глаза. Тогда система может делать с ним что угодно, передавать ему любую мимику. Достаточно дать ей подходящее видео (с другим человеком с головой примерно в том же положении).

Ранее ИИ уже научился делать дипфейки, и интернет-пользователи знатно поиздевались над знаменитостями, вставляя их лица в порно и делая мемы с Николасом Кейджем. Но для этого им приходилось тренировать алгоритмы мегабайтами (а лучше – гигабайтами) данных, находить как можно больше изображений и видео с лицами знаменитостей, чтобы выдать более-менее пристойный результат. Сам создатель Deepfakes говорил, что на компиляцию одного короткого ролика у него уходит 8-12 часов. Новая система генерирует результат моментально, а на входе ей достаточно одной картинки.

С предыдущей системой мы никогда бы не смогли посмотреть на живую Мону Лизу, у нас есть только один её ракурс. Теперь, с алгоритмами, работающими по ориентирам, это становится возможным. Идеала не достичь, но уже что-то близко.

В работе московских исследователей также используется генеративно-состязательная сеть. Две модели алгоритма сражаются друг с другом. Каждая пытается обмануть оппонента, и доказать ему, что то видео, которое она создает – настоящее. Так достигается определенный уровень реализма: картинка человеческого лица не выпускается «в свет», если модель-критик не уверена в её подлинности более чем на 90%. Как говорят авторы в своей работе, в изображениях регулируются десятки миллионов параметров, но за счет такой системы, работа кипит очень быстро.

Если картинок несколько, результат улучшается. Опять же, проще всего получается работать со знаменитостями, которые уже сняты со всех возможных ракурсов. Для достижения «идеального реализма» нужны 32 снимка. В этом случае сгенерированные ИИ фото в невысоком разрешении будут неотличимы от настоящих фото человека. Нетренированные люди на этом этапе уже не способны выявить фейк – возможно, шансы остаются у экспертов или у близких родственников «подопытного» со всех этих изображений.

Если фото или картинка только одна, итог пока не всегда самый лучший. Увидеть артефакты на видео, когда голова находится в движении, можно без особых проблем. Сами исследователи говорят, что их самое слабое место – взгляд. Модель, основанная на ориентирах лица, пока не всегда понимает, как и куда человек должен смотреть.

Комментарии (82)

prostofilya
23.05.2019 06:34
#20188158
и зачем? новые фильтры для очередной соцсети?
1. BlazerLuna
  23.05.2019 07:00
  #20188196
  +1
  Как минимум вижу очевидное применение в кино, чтобы «оживлять» умерших актёров. Или омолодить постаревших. Учитывая, что для алгоритма нужно мало данных — результаты впечатляют.
  1. Keyten
    23.05.2019 17:44
    #20191832
    +1
    Довольно скоро можно будет создавать мультфильмы, анимируя каждого персонажа из одного-единственного рисунка.
    
    IGHOR
    23.05.2019 20:20
    #20192520
    +1
    А еще позже, рендер фильма по тексту книги.
    
    General_Failure
    24.05.2019 07:39
    #20193698
    А потом игры будут прогаться по сценарию :)
    
    pdima
    24.05.2019 13:21
    #20195302
    Ну а сценарий генерировать уже научились Better Language Models
    and Their Implications
    
    Keyten
    24.05.2019 15:15
    #20195978
    Я уже давно и много мечтаю об этом. Но тут есть проблема: вы откроете фильм, а там персонаж выглядит совсем не так, как вы представляли. И вообще у него усы (ну а что, автор же не говорил, что усов нет, а сети показалось, что они тут логичны).
    Так что рисовать персонажей руками и анимировать затем их — гораздо лучше.
    
    IGHOR
    24.05.2019 15:18
    #20195990
    Зато можно будет генерировать N вариантов фильма по тому же сюжету.
    И будет рейтинг не только фильмов, а его вариантов.
    Проголосуете за вариант без усов :)
    
    masai
    26.05.2019 18:39
    #20201534
    ну а что, автор же не говорил, что усов нет, а сети показалось, что они тут логичны
    Намекаете на штаны Арагона?
    
    А если серьёзно, то такое и с обычными фильмами, снятыми людьми, сплошь и рядом бывает.
1. ladomirr
  23.05.2019 07:27
  #20188238
  Я бы, например, с радостью «оживил» своих родственников, от которых только фотографии остались и которых я даже не видел вживую.
  1. prostofilya
    23.05.2019 07:39
    #20188260
    А смысл? Это же случайная мимика, а не достоверная.
    
    ladomirr
    23.05.2019 07:41
    #20188264
    лучше, чем ничего)
    
    Umpiro
    23.05.2019 14:32
    #20190650
    Ну, в данном случае, я вижу Мону Лизу, анимированную с маннеризмом кудере. Выглядит как химера. Вы точно хотите такого для ваших родственников? В отношении уже умерших, это по-моему уже какая-то форма некрофилии.
    
    BOM
    23.05.2019 17:32
    #20191768
    -2
    Кудере? Господи, зачем это здесь?
    
    Spaceoddity
    23.05.2019 23:41
    #20193070
    +1
    По аватарке не понятно? )) И да, пришлось гуглить!
    
    BOM
    24.05.2019 17:26
    #20196588
    Мне тоже пришлось загуглить. Крайне-крайне специфическая информация, чтобы предполагать, что она достаточно очевидна, для референции в комментарии.
    
    KodyWiremane
    24.05.2019 17:41
    #20196652
    Нужна статья на Хабре, чтоб можно было просто дать одну ссылку на любой случай)
    
    Keyten
    23.05.2019 17:46
    #20191840
    Со временем качество будет становиться всё лучше и лучше.
    
    rPman
    23.05.2019 17:59
    #20191920
    Речь даже не о качестве, а об отсутствии информации, которую невозможно восстановить, только подменить другой.
    
    Вы увидите человека в маске указанной фото, с мимикой и движениями другого человека а не того что на фото.
    
    Keyten
    23.05.2019 20:04
    #20192474
    +1
    А, так-то да, не спорю. Но, весьма вероятно, в будущем можно будет вбухивать туда сразу много разных кадров или куски видео. С умершим 100 лет назад предком, от которого одно фото, положим, так не получится, но большинство остальных реквестов вполне.
    
    dimm_ddr
    24.05.2019 10:07
    #20194220
    Вы увидите человека в маске указанной фото, с мимикой и движениями другого человека а не того что на фото.
    Ну, память штука такая, вы все равно не помните человека каким он был. Большая ли разница будет от того что на картинке он будет еще немного другим? То есть понятно что для кого-то это будет прямо сразу нет, но для большинства я думаю будет вполне нормально. Суть же будет не в том чтобы узнать человека после того как он умер, суть в том, чтобы его вспоминать и уменьшить боль от утраты — тут уже абсолютная точность не так уж и важна. В конце концов сейчас людям и просто фотографии хватает.
    
    Umpiro
    24.05.2019 13:21
    #20195312
    Большая ли разница будет от того что на картинке он будет еще немного другим?
    Личное дело каждого, конечно. Но для кого-то это очень даже большая разница. Возникает, можно сказать, вопрос об уважении к мертвым. Хотя некоторые, удивительно, и кремирования не допускают. Но. Надо еще понимать как это оживление происходит. Вспоминается 'Отчего это у вас шрам на лбу, потрудитесь объяснить этой даме.' И отношение 'большинства' как-то сразу меняется.
    
    ua30
    23.05.2019 16:32
    #20191440
    -3
    Кто в курсе, по одному изображению, при условии что мы знаем что на изображении представлено лицо, нельзя составить его трехмерную модель? Я почти уверен что можно. Недостающие полигоны генерируем на основе полученных. И все выйдет в сто раз реалистичней, и полностью управляемо.
    
    Но с усопшими, по крайней мере со своими родными, я бы так точно делать не стал. Жутко как то.
    
    rawzes
    24.05.2019 01:53
    #20193332
    +1
    В прошлом году на конференции Яндекса Николай Чинаев из VisionLabs делал доклад по этой теме
    
    kopch
    24.05.2019 13:41
    #20195412
    В этом году на YAC, риггинг и мокап тела по видео представили
  1. inferrna
    23.05.2019 08:02
    #20188306
    Скоро у каждой второй бабки в смартфоне будет анимированный давно почивший дедка. Советы будет ей давать, «ну ты старая, таво, не тужи», успокаивать.
    «Кладбище домашних животных» ещё вспомнилось.
    
    Yuuri
    23.05.2019 19:11
    #20192248
    «Чёрное зеркало», первая серия второго сезона.
1. oracle_and_delphi
  23.05.2019 11:50
  #20189618
  Как зачем?!
  В исторических фильмах должны быть достоверные лица исторических лиц!
  
  А не левые рожи актёров!
1. Kate1313
  23.05.2019 13:50
  #20190352
  Картины в музеях? Дикторы нарисованные для всяких обучающих программ или даже новостей? Анимация, мультики? Просто по приколу?)
1. ClearAirTurbulence
  23.05.2019 19:27
  #20192326
  +3
  для прона, конечно же!
  загружаешь фото из соцсети, и вуаля.
  осталось ещё только с телами разобраться, и довести до совершенства.
1. ClearAirTurbulence
  23.05.2019 21:26
  #20192692
  для прона, конечно же!
  загружаешь фото из соцсети, и вуаля.
  осталось ещё только с телами разобраться, и довести до совершенства.
  1. perfect_genius
    24.05.2019 17:04
    #20196510
    Вы о чём? Тут вон Хабр не может простую технологию проверки на дубликат реализовать, а вы как далеко замахнулись.
1. Deymos
  24.05.2019 07:17
  #20193664
  Человек, похожий на прокурора будет вытворять куда более жуткие вещи. И либо это можно быть фейком, либо преступник будет прикрываться тем, что есть технологии, которые могут реалистично что-то нарисовать и он невиновен.
  1. rPman
    24.05.2019 08:53
    #20193886
    Рынок давно ждет относительно надежные камеры с цифровой подписью, технически это реально сделать (чтобы взлом был относительно дорогим удовольствием) но потребует как минимум новых стандартов для этого
  1. Squoworode
    24.05.2019 12:10
    #20194888
    А ещё он сможет нарисовать своё лицо поверх себя, чтобы все признаки фейка были, а сделал всё равно сам
1. dotfinal
  24.05.2019 15:23
  #20196014
  Порно.
  
  Если не ошибаюсь, как раз порноиндустрия начала первыми в эту сторону копать. Скоро можно будет взять девушку, похожую на Монро, снять видео и заменить ее на Монро.
  Еще немного продвинется, чтоб результат был более качественный — и это уже можно использовать.
  
  Дальше — больше. Допустим, можно такую идею придумать — каталог заготовленных видео и каталог заготовленных селебрити. И сам выбирай, кто и как будет сегодня тебя развлекать.
  Ну а когда сеть реально сможет обучаться по нескольким фото, и результат будет не совсем вырвиглазным — то будет тебе каталог видео и возможность загружать любых девушек. Думаю, школьники не поскупятся, чтоб увидеть старшеклассниц in action.
  
  И, кстати, с точки зрения бизнеса очень удобно — обучение и рендер на удаленном сервере, никакого пиратства.

DS28
23.05.2019 06:39
#20188170
Увидел КДПВ — 4 разных человека, а вот Мона Лиза уже неплохо…
1. Sanovskiy
  23.05.2019 10:01
  #20188862
  Только страшная.
  1. Bookvarenko
    23.05.2019 10:03
    #20188874
    -1
    Симпатичная евреечка.
  1. dim2r
    23.05.2019 21:22
    #20192678
    -3
    похожа на похудевшего Путина

kinall
23.05.2019 07:41
#20188266
Следующий шаг — прикрутить тот ИИ, который делает upscale. И добро пожаловать в Зловещую Долину)

foxyrus
23.05.2019 07:51
#20188278
Алгоритм «натягивания» фото на живого актера выглядит намного круче.
JTG
24.05.2019 20:51
#20197246
+1

BackDoorMan
23.05.2019 08:00
#20188302
"Из одного кадра", простите. "С одного", это звучит как "с Ростова"
1. Sanovskiy
  23.05.2019 10:04
  #20188876
  ИМХО это отсылка к «Я угадаю эту мелодию с восьми нот»
  Т.е. он делает видео не из этого фото, а на основе всего лишь одного фото.
  КМК предлог «с» тут вполне применим с учетом смысла

Legomegger
23.05.2019 08:11
#20188352
Вот как в Хогвартсе оно работало…
1. Sanovskiy
  23.05.2019 10:05
  #20188878
1. vikarti
  23.05.2019 10:36
  #20189060
  Не так. Там еще и беседовать с портретами можно было по тем вопросам что знал оригинал. До этого пока еще далеко.
  1. maxwolf
    23.05.2019 13:27
    #20190210
    +2
    Гораздо ближе, чем многие думают (яркий пример годовой давности).
  1. dimm_ddr
    23.05.2019 14:25
    #20190600
    Да ну, это как раз совсем не сложно — нужно только загрузить информацию которой фото может делиться. Разве что лицевая мимика скорее всего пока что будет отставать, но это скорее инженерный сейчас вопрос. Игровым персонажам же научились делать лица которые выглядят правдоподобно, да еще и губы правильно шевелятся при разговоре. Берем такого персонажа с правильными фразами, обучаем на нем описанную сеть — и готово. Ничего непреодолимого уже и не осталось в общем-то. А если еще и изначально брать не персонажа, а специально подготовленную болванку с ключевыми точками, то вообще никаких проблем не должно быть.
  1. extempl
    23.05.2019 16:19
    #20191362
    С портретами — да. А вот с живыми газетными снимками, насколько я помню, нет.
  1. r0ck3r
    23.05.2019 21:29
    #20192704
    +1
    не только оригинал: во второй, кажется, части, когда разгромили спальню гриффиндора, у дамы с портрета спрашивали что случилось
    
    dimm_ddr
    24.05.2019 10:09
    #20194238
    Портреты в той вселенной сильно отличались от живых фотографий, там фактически своя разумная сущность сидела, которая, например, вполне могла из портрета уйти к соседу пообщаться. Я кстати не помню чтобы там именно с фотографиями разговаривали, мне кажется это опять же про портреты было.

Loki3000
23.05.2019 09:18
#20188648
С Моной Лизой можно любую дичь втирать — никто не проверит. А вот как выглядела Мерлин Монро все прекрасно представляют. Так что совершенно очевидно что результат работы сети даже близко не похож на то, что должно быть.
1. vav180480
  23.05.2019 10:03
  #20188872
  я так понял там изображение как шкурку накладывают на захваченый скелет видео другого человека, т.е. если строение черепа человека на изображении не совпадает со строением черепа человека на видео то получится как получится, т.е. человека на которого натягивают шкурку с изображения нежно еще и специально подбирать, хотя можно трансформировать скелет изображения под скелелет на видео
  1. masai
    23.05.2019 12:36
    #20189912
    Нет, там не «натягивают» изображение на скелет, а сразу генерируют портрет. Просто объяснение в статье написано как для домохозяек. Лучше оригинальную статью от авторов посмотрите.
1. roscomtheend
  23.05.2019 12:10
  #20189780
  Несчастную приклеили волосами к стенке так, что временами при разговоре кожа с черепа натягивается. Впрочем, в документальном фильме "Люди в чёрном" была объяснена причина столь непохожей на землян мимике.
  А М.Л. на первом "фото" выглядит страдающей — "Ну сколько можно меня использовать для демонстрации ваших ужасных алгоритмов".

Bookvarenko
23.05.2019 09:36
#20188708
Сначала вот это пожалуйста
1. Sanovskiy
  23.05.2019 10:06
  #20188882
  +3
  Бильбо одозначно с Леонова рисовали.
  1. xi-tauw
    23.05.2019 10:32
    #20189038
    +1
    Там в принципе интересная ситуация. Художник (Михаил Беломлинский) действительно рисовал Бильбо с Леонова, но сделал это, как сейчас говорят, без разрешения правообладателя (самого Леонова). Причем это случилось как раз в момент, когда вся эта тема массово обсуждалась в печати, и даже сам Никулин писал о том, что его образ используют в куклах, пародиях.
    Все благополучно разрешилось по факту — Беломлинский и Леонов встретились на каком-то мероприятии, где художник показал книгу с иллюстрациями. Леонову они очень понравились и вопрос можно было считать исчерпанным.
    В начале видео Леонов сам рассказывает об этой ситуации.
    
    vav180480
    23.05.2019 11:02
    #20189298
    +1
    Можно еще вспомнить про то что первый игровой фильм по Толкину был сделан в СССР:)
    
    oisee
    23.05.2019 14:05
    #20190464
    Телеспектакль это всё-же не игровой фильм =)
    
    vav180480
    23.05.2019 16:42
    #20191510
    Если объясните в чем принципиальная разница — соглашусь:)
    
    pehat
    24.05.2019 00:16
    #20193156
    +2
    Да уж, чего один Гэндальф в блестках стоит.
    
    vav180480
    24.05.2019 11:21
    #20194604
    А у Джексона Арагорн в штанах

noanswer
23.05.2019 12:13
#20189792
с эстетической точки зрения ожившие картинки выглядят чудовищно… с технической это очень круто

ну и вообще надо оживлять не шедевры живописи а фотографии реальных людей и сравнивать реальную мимику и то что нейросети нарисовали.

boulder
23.05.2019 15:12
#20190934
В СССР тоже существовал проект по реанимации Карла Маркса!
1. vav180480
  23.05.2019 16:44
  #20191520
  +1
  Ленина Гайдай побоялся оживлять, то что вечно живо оживиться не может.

LevOrdabesov
23.05.2019 18:07
#20191954
Чуть ли не в двухтысячных имел дистриб шароварной проги, которая не то что лица – вообще любое изображение анимировала на мимику. Единственно что нужно было ткнуть вручную мышью «тут глаза, тут рот».
Результат был сравнимый.
1. Astus
  23.05.2019 19:50
  #20192428
  Подозреваю, речь о «Reallusion CrazyTalk». Живы до сих пор и неплохо развились.
  1. LevOrdabesov
    23.05.2019 19:51
    #20192432
    Оно, спасибо.
    Интересно, какие там у них были нейросети в двухтысячных.
    
    masai
    23.05.2019 20:10
    #20192490
    В начале двухтысячных — скорее всего, никакие.
1. masai
  23.05.2019 20:17
  #20192510
  Результат был сравнимый.
  Это совершенно разные задачи. Я посмотрел видео про эту программу. Насколько я понял, это просто натягивание фото на 3D-модель как текстуры.
  
  Здесь же совершенно другое. Вы ничего не натягиваете. Показываете фото, а сеть его трансформирует в соответствии с ключевыми точками лица. Вы не задаёте 3D-модель, вы не выполняете привязку точек, это полностью end-to-end решение в виде одной модели. Более того, модель дорисовывает части изображения, которые не были видны. Например, зубы на анимации с Моной Лизой.
  
  Решение, представленное в статье — это не первое решение такого рода, но оно опирается на последние исследования, что позволило добиться высокого качества результата.
  1. LevOrdabesov
    23.05.2019 21:02
    #20192626
    +1
    Нет, задача ровно та же: анимировать изображение таким образом, чтобы движение было похоже на человеческую мимику.
    Раньше для этого нужен был оператор (минимально), теперь задача выполняется полностью автоматически.
    Но для меня, честно говоря, вопрос, зачем нужна полная автоматизация этой задачи. Ну, кроме «потому что могли» и очередной снапчат. Было бы здорово, например, анимировать выставки – детям могло бы быть интереснее; но оператор понадобится всё равно. И как-то больше видится массовая генерация фейков, и это печально.
    Ну и качество, ИМХО, таки сравнимое. Прорыва нет.
    
    masai
    23.05.2019 21:41
    #20192748
    Если глобально смотреть как на задачу анимации, то да. Но у этих задач разные входные данных, я об этом. Раньше кроме фото требовалась модель, привязка и не было возможности дорисовывать то, что не видно. Сейчас хватает только фото.

Astus
23.05.2019 19:50
#20192426
del

5334710
23.05.2019 21:25
#20192688
картины какие страшные стали вдруг

Alexklmn
24.05.2019 00:00
#20193130
Так, если ИИ берет ракурсы знаменитостей в сети, потом их анимирует и выкладывает в сеть, потом берет ролики из сети, анимирует и выкладывает, а затем… что же будет через n лет?!
1. vav180480
  24.05.2019 11:23
  #20194622
  Меня, как «знаменитость», это ну ооочень волнует.

Stirliz85
24.05.2019 04:38
#20193526
Монализа местами на Укупника стала похожа

redpax
24.05.2019 15:27
#20196040