Цифровые двойники известных политиков и актёров находятся под полным контролем «кукловода». Иллюстрация: Вашингтонский университет, 2015
Программы 3D-графики вкупе с нейросетями достигли такого качества, что фейковое видео практически неотличимо от настоящего. Скоро нельзя будет сказать с уверенностью, что человек на экране телевизора — настоящий политик, а не компьютерная симуляция.
В декабре 2015 года учёные из Вашингтонского университета представили технологию «цифровых двойников»: создание «живых» 3D-моделей из сотен фотографий одного персонажа. На знаменитостей и политиков в интернете собран огромный фотоархив. Программа создаёт модель, а та словно кукла на верёвочках — ею можно управлять как угодно, придавать разные выражения лица, произносить губами любую речь.
Сейчас в преддверии конференции по компьютерной графике SIGGRAPH 2017 та же группа исследователей опубликовала новую научную работу с продвинутой версией «цифровых двойников».
Теперь при обучении программы используются не только фотографии, но ещё видеоролики, так что обучение стало гораздо эффективнее. Для демонстрации технологии учёные выбрали известного персонажа — бывшего американского президента Барака Обаму. Это грамотный выбор, потому что в интернете огромное количество HD-видеоматериала с ним. Для обучения нейросети доступны миллионы кадров видео.
Нейросеть изучила во всех деталях особенности мимики Обамы: движения губ при каждом звуке, появление морщинок около глаз, изменения формы бровей и наклона головы. Мимику подопытного персонажа связали со звуками, которые он произносит: нейросеть обработала не только кадры видеороликов, но и звуковые дорожки к ним.
Таким образом, слабый ИИ научился синхронизировать мимику лица и движение губ с любой произвольной речью, которую исследователи подают на вход нейросети.
В тизере к научной работе сравниваются реальные видеозаписи выступлений Обамы и результат, синтезированный нейросетью.
Нужно заметить, что синтезированный результат заметно отличается от оригинала, но всё равно выглядит весьма реалистично.
Исследователи подчёркивают, что раньше для получения «цифровых двойников» людей заставляли многократно повторять одни и те же фразы перед камерами, чтобы записать все сочетания морфем и мимики. Теперь это можно делать по общедоступным видеоматериалам. Правда, не на каждого человека в интернете найдётся достаточно видеоматериалов, чтобы подделать его личность, но со временем пользователи сами решают эту проблему, закачивая в социальные сети гигабайты своих фотографий и видеороликов.
С практической точки зрения этой технологии тоже найдётся применение. Например, один из соавторов научной работы Айра Кемельмахер-Шильзерман (Ira Kemelmacher-Shlizerman) говорит, что она улучшит качество видеоконференций, синтезируя недостающие кадры, если они выпадают из видеопотока. Если звук идёт без помех, а видео лагает, то такой синтез дополнит картинку или повысит её разрешение. Конечно же, технология может найти применение в компьютерных играх и виртуальной реальности, если игрок общается с виртуальным персонажем. Теперь речь виртуального персонажа станет более реалистичной, и он может быть цифровой копией какого-нибудь настоящего человека. Например, можно «оживить» какую-нибудь историческую личность из недавнего прошлого только по его аудиозаписям. Конечно же, облегчится создание фейков в политических целях. Если сейчас они лепятся в «Фотошопе» и вбрасываются в соцсети, то в будущем фейковые видео покажут по ТВ.
Авторы признают, что технология пока работает неидеально. Например, если Обама немного поворачивает лицо от камеры, то части его рта могут отделиться от лица и наложиться на фон. Но это мелкие погрешности, которые можно исправить дополнительным обучением нейросети.
Другой недостаток созданной модели — она не моделирует эмоций. Выражения лица абсолютно нейтральны и практически всегда одинаковы. Таким образом, в некоторых случаях цифровой двойник теряет реалистичность: его выражение лица кажется слишком серьёзным для легкомысленных слов, которые он произносит. Или наоборот — слишком легкомысленным для очень серьёзных речей. Впрочем, такие казусы случаются и с настоящими политиками в реальной жизни.
Созданная технология похожа по принципу работу на программу для создания цифровых двойников Face2Face, где мимика и речь одного человека переносится на лицо другого. В своей научной работе авторы из Вашингтонского сравнивают результаты своей нейросети с программой Face2Face. Они объясняют, что в случае с Face2Face всегда требуется видеопоток для имитации, а их модель работает только по звуковой записи.
Комментарии (48)
helg1978
14.07.2017 02:49+9пойду перечитаю Generation Pi
kuragami
14.07.2017 10:51+2«По своей природе любой политик — это просто телепередача. Ну, посадим мы перед камерой живого человека. Все равно ему речи будет писать команда спичрайтеров, пиджаки выбирать — группа стилистов, а решения принимать — Межбанковский комитет. А если его кондрашка вдруг хватит — что, опять всю бодягу затевать по новой?»
LoadRunner
14.07.2017 13:40А я Хайнлайна вспомнил.
burundukh
14.07.2017 15:05+1а еще есть вот такое муз-видео произведение.
сейчас это уже ретро. кто то может и смахнет ностальгическую слезу)
Заголовок спойлераWizard_of_light
14.07.2017 07:04+1Ага. Значит, когда ИИ завоюет мир, можно будет полагаться только на встречу вживую. Пока киборги-двойники совершенства не достигнут…
sim-dev
14.07.2017 08:25+1Что сейчас в СМИ начнется — от фальшивого президента до фальшивых протестующих! Как теперь жить, кому
или чему верить? Всё можно подделать…Dima954
14.07.2017 09:13+1Тут вопрос в том, кто теперь первым сможет использовать эту технологию, чтобы биржу трясти.
Так скоро дойдем до того, что каждое публичное заявление будет подписываться каким либо аналогом эцп, а иначе по умолчанию считаться фейком.pant-79
14.07.2017 09:35А вот не мешало бы, да. Ответственность каждого политика за сказанные им слова была бы выше.
sim-dev
14.07.2017 10:11Он же политик — перед кем он отвечать будет?!
pant-79
14.07.2017 10:14Ну как. Вот прижмут его на какой-нибудь телепередаче с его невыполненными обещаниями, будет он отпираться, мол «я не я» и т.д. А ему покажут — вот запись, вот ваша ЭЦП. Не выполнили? Не выполнили. Рейтинг в пол.
NoRegrets
14.07.2017 10:36Если политик откажется от своих слов, сказанных публично — это политический труп. Уже сейчас. А нашей стране никакая эцп не поможет.
А вот биржой можно будет манипулировать.AllexIn
14.07.2017 12:20+3ROFL.
Слежу сейчас за одним политиков, на которого очень надеялся(не буду имя упоминать, чтобы полит срач не разводить).
Так он свои слова переиначивает и легко менят утверждения от выступления к выступлению. А поддержка только растет.
Так что про «политические труп» — это вы очень оптимистично загнули. Переобуюываются на следующий день и ничего их карьере политика не делается.il--ya
15.07.2017 01:19И в политике, и на бирже — главное тренд. Если политик оседлал тренд (не будем называть имён, да — все и так всё поняли), то он может говорить что угодно. А когда тренд выдохнется — до*будтся до любой ерунды, и — рейтинг в пол. Можно, конечно, создавать тренды (опять же — без имён) — но на это нужно уйму ресурсов гробить. Рано или поздно ресурсы кончаются.
HEKOT
14.07.2017 10:51Постойте-постойте. Вот до сегодняшнего момента, когда такой технологии ещё не было, и наличие видеозаписи являлось доказательством произнесённых слов. Кого прижали? Кто за базар ответил?
pant-79
14.07.2017 11:06Да, по-моему, никто. Нет системы, которая бы все это учитывала и которой бы всецело доверял электорат. ЭЦП на видео могло бы стать частью этой системы. Если бы еще переводили речь в текст, регистрировали это все в каком-нибудь блокчейне, да еще бы систематизировали с целью формирования репутации… тогда бы лет через 50 все бы сработало…
QWhisper
14.07.2017 12:17Видел какого то нашего мэра, который условно в 15 году говорил что в 16 году мост сдадут, а в 16 говорил, вы что, кто вам такое мог сказать, я? я не говорил. Ну и что что запись есть, я не мог такого сказать. Так что политикам таким будет и дальше плевать.
pant-79
14.07.2017 12:25Им плевать потому, что нет такой системы, которая влияла бы на их рейтинг. А так как именно они определяют, какая система рулит, и введение эффективной системы им невыгодно, то ее никогда и не создадут… Ну, пока электорат сам не организуется и сам эту систему не сделает. При нынешнем отношении электората к политике этого не произойдет скорее всего никогда. Из под пинка бы навязать, но это уже ор насчет тирании и недемократии. Его политики сами с удовольствием организуют.
Электорат можно поздравить только с одним — они имеют тех политиков, каких заслуживают.EugeneButrik
14.07.2017 14:04Ну будет такая «система рейтинга», ну упадёт
кармарейтинг одного из политиков в минус, и дальше-то что?
Ну скажет этот политик: «Мне враги/конкуренты/»система"/кровавый режим рейтинг слили, сволочи проплаченные, а так я — няша няшная, вы чего!". И будут у него также последователи/электорат/паства, которые и сами в это верить будут безоговорочно, так ещё и войны священные будут устраивать, убеждая в этом других (им почему-то всегда нужно собирать вокруг себя «таких же» (единомышленников от словосочетания «одна мысль») :)
HEKOT
14.07.2017 12:32+1Я не об этом. Я о том, что даже если политика поймать за руку на вранье, отвечать он не будет. Независимо от технологии, применявшейся для поимки.
pant-79
14.07.2017 12:39Я не говорю, что технология сама по себе способна решить такую проблему. Только технология в связке с отношением общества. С некой политической культурой, зачатки которой сейчас есть наверное только в США. А у нас вообще конь не валялся.
il--ya
15.07.2017 01:29«да еще бы систематизировали с целью формирования репутации»
Кстати, одно время думал на эту тему. Был бы такой ресурс — где политически активные граждане могли бы быстренько составить мнение по поводу любого политика, его отношение к различным актуальным вопросам (в динамке), выбрать политика, который бы максимально подходил к их собственным политическим взглядам, следить за его деятельностью, выставлять оценки и т. д. Даже у проституток есть сайты, где можно выбрать подходящую по десятку критериев. А чем политики хуже?Am0ralist
15.07.2017 10:57+1Что-то после вашего сообщения представил себе холивары, а так же накрутку плюсов и минусов рейтингов враждующими фанатами на сайтах проституток…
inscriptios
14.07.2017 09:19Понравился источник иллюстрации в начале статьи: «Вашингтонский уерверситет».
andyshark1974
14.07.2017 09:43Даже неудивительно :-)
Я в свое время покупал CrazyTalk (года 2-3 назад еще). Никаких проблем — заливаешь любой персонаж, ставишь базовые точки (губы, глаза, форму лица), даешь звук. Дополнительно можно еще и эмоций добавить (удивление например). Программа имитирует движение губ, лица, головы, глаз, эмоции и все по простой звуковой дорожке. В нужные моменты можно вставить нужную эмоцию.
Никакой нейросети не надо — достаточно простого компьютера. Стоимость копеечная.
Aytuar
14.07.2017 09:43В Gost in the Shell как раз была фраза что видео теперь не доказательство преступления, его легко подделать. Так что лет через 10-20-30 так и будет думаю.
JekaMas
14.07.2017 18:33Озато у многих странных людей теперь будет оправдание) вроде «это не я, о носительно известный актер, пса трахал, а вот нейронно-трахательная сеть все нарисовала».
mistik_max
14.07.2017 14:05Здорово, вспомнился рассказ Пелевина "Поколение П", там точно также политиков делали)
amarao
14.07.2017 14:22+3Все вспомнили Пелевина, а я вспомню Винджа. У него описывалась коммуникационная система, которая восстанавливала недостающие биты. До состояния, когда можно было общаться с голограммой на канале в сотни бод. Текст проходил, а всё остальное реконструировалось.
Вижу перывые шаги к этому
bagrintsev
14.07.2017 18:33-1Ну собственно всегда новые технологии нужно на ком-то изначально обкатывать, будь то крысы, обезьяны или например Обама.
zim32
15.07.2017 00:06+1А может качество финальной картинки не очень потому что оригинальный Обама это синтезированный двойник? М…
u010602
Я замечаю рваные движения ртом в конце некоторых предложений. Кроме того мимика разгоняется и тормозит неестественным образом, как будто пытаясь успеть за текстом.
NLO
НЛО прилетело и опубликовало эту надпись здесь
il--ya
Да, чувствуется плохой lip sync, и очень много хаотичных движений губами не к месту. Пока что качество не ахти. Но я уверен, технология будет развиваться дальше.
Например, можно тренировать не только по существующим записям «героя», а на любом англо-говорящем материале. А потом уже дополнять ужимками и манерами Обамы.