На прошлой неделе Warner Bros. отправили уведомление видеохостингу Vimeo о нарушении авторских прав согласно Закону об авторском праве в цифровую эпоху (Digital Millennium Copyright Act, DMCA). В уведомление был включён обычный список нелегально закачанных видеоматериалов, правами на которые владеет Warner. Там были эпизоды шоу «Friends», «Pretty Little Liars», а также две закачки с видео из фильма Ридли Скотта «Бегущий по лезвию» (Blade Runner).
Обычный пример нарушения авторских прав? Не совсем. В Warner сделали удивительную ошибку. Часть видео (заявление от Warner уже отозвано) не была взята из фильма. Точнее, была взята, но в таком виде, который мир ещё не видел.
Это была часть проекта по кодированию данных с помощью машинного обучения, в котором классическая сказка про андроидов за авторством Филиппа Дика была восстановлена из горсти цифр.
Иначе говоря, компания Warner отправила DMCA-запрос на искусственно восстановленное видео из фильма, в котором рассказывают об искусственных существах, неотличимых от людей, поскольку не смогла отличить симуляцию и настоящую вещь.
Разбираем «Бегущий по лезвию» при помощи ИИ
Теренс Броуд [Terence Broad] – исследователь из Лондона, работающий над дипломом по специальности «творческие вычислительные методы». Его диссертация "Автокодирование кадров видео" звучит скучно, пока вы не начинаете понимать, что она является ключом к странному переплетению культуры ремиксов, авторских прав в интернете и искусственного интеллекта, приведшему Warner к решению отправить запрос на удаление нелегального видео.
Целью Броуда было применение «глубинного обучения» – фундаментальной техники ИИ, использующей алгоритмическое машинное обучение – к видео. Он хотел посмотреть, на что способен ИИ, если его научить понимать данные из видеоряда.
В видео содержится огромное количество визуальной информации. Когда вы смотрите видео на компьютере, вся эта информация предварительно кодируется и сжимается, чтобы затем быть раскодированной и распакованной. Без этого файлы были бы слишком большими и не поместились бы на жёстком диске.
Обычно кодирование видео заключается в работе алгоритма, использующего стандарт сжатия, разработанного людьми, которые выбирали все его параметры – сколько данных сжимать, в какой формат, как упаковать их, как уменьшить разные параметры вроде отношения сторон, звука, метаданных и т.п.
Броуд хотел научить нейросеть управлять процессом кодирования видео самостоятельно, без вмешательства человека. Нейросеть – это машинная симуляция функций, выполняемых мозгом и центральной нервной системой. Это механическая форма ИИ, работающая на решение сложных задач теми же методами, что и ЦНС – используя различные свои части для сбора информации и передачи её всей системе.
Броуд надеялся, что в случае успеха этот новый способ может стать «новой техникой в подготовке экспериментальных изображений и видео». Но до того ему надо было обучить нейросеть смотреть кино – не так, как это делают люди, но так, как это подходит машине.
Мечтают ли кодировщики об электроовцах (или как научить ИИ смотреть кино?)
Броуд выбрал вариант нейросети под названием «свёрточный автокодировщик» [convolutional autoencoder]. Для начала он настроил «выученную метрику схожести» [learned similarity metric], чтобы помочь кодировщику разобраться с данными «Бегущего по лезвию». Метрика выдаёт кодировщику выбранные кадры фильма, а также «ложные» данные, или данные, не являющиеся частью фильма. Сравнивая данные фильма с внешним «мусором», кодировщик учится распознавать сходные черты наборов данных, пришедших из фильма. Иначе говоря, он выучил, как выглядит фильм.
Научившись распознавать данные фильма, кодировщик уменьшил каждый кадр до представления в виде числа из 200 цифр, и затем реконструировал это число обратно в новые кадры, с целью добиться совпадения с оригиналом. Броуд выбрал небольшой размер файла, из-за чего результат реконструкции оказался очень размытым. Наконец, Броуд дал указание кодировщику восстановить последовательность реконструированных кадров, чтобы они шли в том же порядке, что и кадры в оригинальном фильме.
Кроме «Бегущего по лезвию», Броуд научил свой автокодировщик смотреть фильм «Помутнение», анимированный с помощью ротоскопирования. Оба фильма – это адаптации знаменитых произведений Филиппа Дика в жанре научной фантастики, и Броуд решил, что они как раз подойдут для его проекта.
Для каждого из фильмов обучение повторялось по шесть раз, и каждый раз Броуд подправлял алгоритм, чтобы помочь машине «умнее» подходить к задаче чтения собранных данных. Вот как избранные кадры «Бегущего по лезвию» выглядели для кодировщика после шестой тренировки. На картинке представлено два ряда кадров «до/после». Слева – оригинальный, справа – интерпретация кодировщика.
Во время шести тренировок Броуд использовал только выбранные кадры из двух фильмов. По окончанию шестой тренировки и точной подстройки, Броуд запустил нейросеть на реконструкцию обоих фильмов целиком на основе полученных ею знаний. Вот пример того, как у неё получился «Помутнение»:
Броуд пояснил Vox, что версия фильма от нейросети была полностью уникальной и созданной на основе того, что она увидела в оригинальном фильме. «По сути, вы видите фильм с точки зрения нейросети. Поэтому реконструкция – это интерпретация фильма системой (и других фильмов, которые я прогнал через модели), основанная на ограниченном репрезентативном „понимании“.
Почему произведения Филиппа Дика идеально подходят для такого проекта
Дик – легендарный писатель-фантаст, чья работа совмещала изучение социальных проблем с метафизическими исследованиями и вопросами реальности нашей Вселенной. Множество экранизаций его работ включают „Особое мнение“, „Вспомнить всё“, „Меняющие реальность“, и сериал от Amazon TV „Человек в высоком замке“.
И, конечно, знаменитый рассказ „Мечтают ли андроиды об электроовцах?“, вдохновивший создание фильма „Бегущий по лезвию“ – антиутопического шедевра научной фантастики и одиного из величайших фильмов всех времён. В фильме работа персонажа Харрисона Форда Рика Декарда состоит в выслеживании и уничтожении „репликантов“ – группы развитых андроидов, которые почти идеально могут выдавать себя за людей. Антагонист героя, Рой Бэтти, является одним из репликантов – эту знаменитую роль исполнил с убедительной „усталостью от жизни“ актёр Рутгер Хауэр. Бэтти пытается совладать со своей человечностью, одновременно борясь за продление своей жизни и стремясь победить в схватке с Декардом до того, как тот „отправит его на пенсию“.
Дика очень беспокоил вопрос пропасти между „видимостью реальности“ и „настоящей реальностью“. В свой диссертации Броуд указал, что, по его мнению, эти две работы Дика для этой симуляции было очень подходящими:
Для исследования этих тем (субъективности рациональности) вряд ли может найтись более подходящий фильм, чем „Бегущий по лезвию“ (Blade Runner, 1982), ставший одним из первых произведений, изучающих субъективность, и постоянно концентрирующий внимание на глазах, фотографиях и других символах восприятия.
Другой фильм, использованный в качестве модели, это „Помутнение“ (A Scanner Darkly, 2006), является ещё одной экранизацией романа Филиппа Дика 1977 года. Этот рассказ также исследует природу реальности, и его реконструкция нейросетью особенно интересна, поскольку каждый кадр фильма уже был реконструирован аниматором, прорисован поверх вручную.
То есть, использование „Бегущего по лезвию“ в проекте с искусственным воссозданием материала имеет глубокое символическое значение. „У меня было чувство, что первым фильмом, воссозданным нейросетью, должен быть “Бегущий по лезвию».
Головоломка с копирайтом
Все эти сложности и нюансы н/ф-культуры и искусственного обучения не дошли до человека, решившего отправить запрос на удаление материала от имени Warner Bros. Возможно, именно из-за этого, после того, как Vox связалась с Warner, последняя провела внутреннее расследование и восстановила два видео, прежде изъятые с сайта.
Тем не менее, Броуд сообщил Vox, что то, как он использовал в своём исследовании ИИ фильм «Бегущий по лезвию», вряд ли составит образцово-показательное дело о нарушении авторских прав: «Никто ещё не делал видео таким образом, поэтому и прецедентов для этого нет, и нет пока законных определений того, являются ли такие реконструированные видеоматериалы нарушением копирайта».
Неважно, будут ли ещё возникать вопросы авторских прав вокруг его видеофильмов, эксперименты Броуда не остановятся на «Бегущем по лезвию». На сайте Medium в статье, описывающей проект, он написал, что «был удивлён, как хорошо модель повела себя, как только я стал тренировать её на „Бегущем по лезвию“, и что он „однозначно будет проводить больше экспериментов с тренировками моделей на большем количестве фильмов в будущем, чтобы увидеть, что из этого выйдет“.
Потенциал машин чётко и просто „прочитывать“ и воссоздавать видеоматериалы открывает удивительные возможности, как для ИИ, так и для создания видео. Очевидно, им предстоит ещё долгий путь до того момента, когда нейросеть Броуда создаст какую-нибудь потрясающую видеотехнологию, но мы точно можем сказать уже сейчас – мы видели то, чему вы бы никогда не поверили.
Комментарии (50)
T-362
06.06.2016 16:48+2Какая неоднозначная технология, такими темпами первый ИИ действительно убьет всех человеков научившись на данных об ОЖИДАНИЯХ от ИИ.
А про видео — как видно на примерах — нейросети нужно больше избирательности — лица уж очень напоминают Волдеморта, или нужна вторая сеть занимающаяся обучением актерами, если получится заставить комплекс сетей с разными специализациями сообща «смотреть» и «показывать» фильм — вот тогда будет прорыв, хотя результаты уже поражают.TiPo
06.06.2016 20:45Кстати, интересное предположение об убийстве людей на основе ожидания этого убийства.
Исходя из вашего предположения и упоминания Волан-де-Морта мне подумалось, что в будущем пластической хирургии операции будет делать машина, возможно, без изъявления пожеланий пациента. На основе данных, которые содержат в себе представление людей о прекрасном.
К чему это я? Представляю себе сценарий, когда в мире будущего будет центральная система ИИ, которая будет передавать какую-либо метаинформацию своим подразделениям. ИИ хирургу в том числе. Так вот, произойдёт какой-то сбой, осознание того, что нужно уничтожить человечество попадёт в центральную систему ИИ, передастся подсистемам. А наш хирург решит во время операций вырезать людей.
И это только хирург, а что будет с остальными подсистемами?
Ух… Что-то я зафантазировался.T-362
07.06.2016 11:03Такое уже было, в вархаммере 40к.
Intercross
07.06.2016 13:51ИИ самоудалится из-за множественных нарушений копирайта на поведение, описанное в различных литературе, фильмах и т.д.
Триумф правообладателейT-362
07.06.2016 14:00Сомнительно что ИИ с самосознанием решит самоудалится из-за такой низменной и бессмысленной причины. Кстати, а будет ли это считаться доведением до самоубийства?
swelf
06.06.2016 16:52+10Чем такая симуляция отличается от плохого сжатия? и почему кто-то должен предположить, что это симуляция, а не перекодирование?
Вобще странная формулировка «реконструкция видео», а может мой смартфон тоже смотрит фильм в кинотеатре а потом просто реконструирует его дома в файл, и никакая это не экранка.ilya42
06.06.2016 17:20+5В этом как раз и фишка эксперимента — попытка стереть грань между механическим кодированием-декодированием и творческим переосмыслением. Пусть это «переосмысление» пока выглядит как убогое пережатие, но по сути оно имитирует человеческое. Как в том анекдоте: «Слышал я «Битлз», не понравилось. Картавят, фальшивят...» И вот тут уже возникает интересный юридический вопрос — где заканчивается перекодировка и начинается создание производного произведения.
avost
06.06.2016 17:49+5Толко что в этой истории от «творчества» и от «переосмысления»-то? Фильм пережали в нейросеть, другой сетью пожали кадры, а потом первой сетью плохо восстановили пожатое.
Nekto_Habr
06.06.2016 20:04+2Ну так всё общение можно представить в виде плохо переписанных (от слова рерайт) чужих мнений.
avost
07.06.2016 08:38Да, когда приходят какие-нибудь религиозные агитаторы-фанатики, примерно так и происходит. Говорят плохо запомнеными шаблонными цитатами, при отклонении от генерального курса впадают в ступор.
Nekto_Habr
07.06.2016 10:23Не только они. Вот взять любой комментарий из этой статьи — разве что-то подобное уже не было произнесено кем-то на вашей памяти? Иногда меняется только объект обсуждения, да и то нечасто.
Это я к тому, что результат работы обсуждаемой нейросети действительно похож на плохо пережатое видео. Однако есть детали, которые делают всю разницу. И этих деталей больше, чем в нашем с вами банальном диалоге.avost
07.06.2016 11:46+1Разница в позиции — считать внешнюю, по отношению к кадрам, информацию из нейросети «интеллектом» или просто специфической разновидностью памяти. Я считают это просто памятью.
А так — Хорхе Луис Борхес: Пьер Менар, автор «Дон Кихота» :)Nekto_Habr
07.06.2016 14:43Разумеется, это не интеллект. И, по-моему, даже не память (которая, кстати, к интеллекту имеет не самое отдалённое отношение). А так же — не просто плохое пережатие. Думаю, это некое начало, чего-то большого.
Эмм… Пелевин, Виктор Олегович — «Зенитные кодексы Аль-Эфесби»
OutOfMemory
06.06.2016 20:46Я после прочтения заголовка ожидал нечто большее. Распознавание лиц актёров, или образов в стиле DeepDream.
А тут действительно просто пережали поток неким нейронным алгоритмом, который при наличии сильного шума даже лица превращает в бесформенную кашу.xHR
06.06.2016 21:20+1Если я правильно понял, то от исходного фильма здесь всего лишь по 200 байт информации на кадр. То есть весь фильм хронометражем в 117 минут поместился бы на дискету в сжатом виде.
avost
07.06.2016 08:30+1Только к этой дискете в комплекте идёт специфический многогигабайтный разархиватор и вся информация, что не уместилась не дискете, содержится там.
swelf
08.06.2016 10:22+1Было ли здесь переосмысление? какието чуть более сложные алгоритмы кодирования, не более Переосмысление, это когда ты помнишь, «Вот человек, кажется со светлыми волосами, пошел кажется туда», возможны ошибки сюжета, порядок событий, какието события теряются и то это из-за проблем с памятью у людей, стихи теже например вы же не переосмысливаете, вы их заучиваете. В данном случае попытались сымитировать плохую память для мащины, да и скорее не память, а зрение. Ведь кроме визуального образа не было переделано ничего, инверсию цветов провели да и все.
shteyner
08.06.2016 15:01+1Да, была бы крутая сеть. Записывает кадр: в кадре Харисон Форд (39 лет), на лице выражение 42, в пыльном (название марки одежды), на заднем плане комната в стиле 60х детективного агенства средней потасканности с небольшим налетом новизны. Все предметы в стиле будущего для 80х. За окном пролетает машина будущего. И так далее. Голос и звуки так же синтезируются.
Все объекты данного фильма будут браться из памяти, если же такого объекта нет — можно взять что-нибудь похожее. Если тебе не нравится концовка — просто поменяй её)
pnetmon
06.06.2016 17:57+1>> И, конечно, знаменитый рассказ „Мечтают ли андроиды об электроовцах?“… новеллы Ф.Дика 1977 года. Этот рассказ также исследует природу реальности
— эти произведения не являются рассказами, в отличии от произведения взятого за основу кинофильма «Пророк»
Лучше бы он взял «Крикуны» (Вторая модель) — где искусственный разум порождал новые модели.
liptipton
06.06.2016 18:14+3Зажали фильм с потерями и каждому кадру присвоили временную метку.
Вот если сжать другой фильм и восстановить первой нейросетью…
Alexey2005
06.06.2016 18:57+2В чём тут проявляется ИИ? Даже в тех нейросетях, которые рисуют сюр на основе картин и фотографий, и то больше от творчества.
Вот если бы этой нейросети скормили сначала «Аватар», потом «Звёздные войны», а потом она бы восстановила блокбастер, где ситхи сражаются против джедаев за Пандору, попутно вербуя себе учеников из аборигенов, вот это была бы и вправду «вещь, которой мир ещё не видывал», действительно стирающая грань между реальным и искусственным разумом.Sadler
06.06.2016 19:08+4Эта работа — просто механическое использование autoencoder'а, ничего интересного в реализации нет. Автора статьи, видимо, заинтересовал лишь забавный факт: один ИИ распознал исходник после обработки другим ИИ.
NeoCode
06.06.2016 19:57Да, вот если бы нейросеть, наученную на одном фильме, натравить на другой… как здесь только с видео… вот была бы психоделика))
Sadler
06.06.2016 20:12Если натравить на целый фильм, шаблоны получатся достаточно универсальными, так что дикой психоделики вряд ли стоит ждать. Я прямо сейчас учу такую сетку, результат не впечатляет. Видимо, мне по вычислительным русурсам до гугла далеко.
Sadler
06.06.2016 20:23Результат, sparse autoencoder, 1500 шаблонов 16x16OutOfMemory
08.06.2016 16:53Я не специалист в нейросетях, но меня интересует следующее.
Почему нейросети не могут восстанавливать лица «человеческим» алгоритмом, подобным составлению фоторобота?
Зачем ей 1500 шаблонов 16х16, когда в фоторобот можно закинуть 15 параметрических шаблонов?
Вот Рутгера Хауэра она превращает в Воландеморта, хотя как мне кажется ей должно быть понятно, кто это. Ну или просто понятно, что это человек со стандартным лицом, а не гуль из Фалаута.Sadler
08.06.2016 17:21Автоэнкодеры как в работе выше, так и мой, неспециализированы, они в большинстве своём неспособны отличить человека от дерева (и вообще различать объекты целиком), они работают на примитивном уровне различения градиентов, светотени, текстуры, базовой формы. Наш мозг действует сходным образом, у нас тоже есть такое базовое представление за одним исключением: оно трёхмерное, а весь плоский видеопоток достраивается воображением до трёхмерного, так что у нас не вызывает сложности узнать себя на фото.
Есть более сложные глубинные сети (утрируя можно считать, что это набор автоэнкодеров структуры вида e-e-e-d-d-d), которые интерпретируют все эти показатели в тот самый «человеческий» алгоритм, там на определённом уровне Вы можете уже увидеть вполне логичные с человеческой т.з. признаки. Просто лично мне с ними сложно работать, а autoencoder'ы просты и часто вполне эффективны.
Sadler
08.06.2016 17:39Зачем ей 1500 шаблонов 16х16, когда в фоторобот можно закинуть 15 параметрических шаблонов?
Кстати, моя недавняя статья на GT имеет некоторое отношение к этому. Как раз сейчас занимаюсь реализацией сети с шаблонами произвольной формы и размера (в рамках разумного, конечно).
NeoCode
06.06.2016 22:28Ну так психоделика получалась при многократной обработке изображения. С видео это тоже можно провернуть — кроме вычислительных мощностей никаких препятствий нет.
daiver19
06.06.2016 21:14+4Еще одно применение бездумное применение НС к уже решенной задаче… Следующим шагом будет НС которая «переосмыслит математику» и будет складывать числа с помощью deep-learning.
ekerlostw
06.06.2016 21:23+1Думается мне подобная методика может найти отличное применение при создании анимационных и мультипликационных многосерийных фильмов — обучил машину стилистике произведения и скармливай ей эскизы, получая на выходе готовый кадр…
OutOfMemory
08.06.2016 17:02Так можно пойти дальше — заставить машину генерировать сценарии.
А простые мультики с плоской графикой типа Лунтика и Смешариков итак уже заскриптованы стандартными анимациями, я думаю там уже всё автоматизировано на 90%.
StrikerusRus
07.06.2016 11:37+1Господа, это же будущее! Только представьте, подсовываешь локально запущенной нейросети текстовый документ со сценарием свежего фильма и смотришь фильм! А какое обширное поле для войны правообладателей с пиратами! А еще ловля зрителей с ноутбуками на задних рядах, быстро шлепающих по клавиатуре о том что происходит на экране.
StarWars_Ep12_TextRIP.txt / 100Кб скачать бесплатноtmin10
08.06.2016 11:36Зачем писать руками? Есть же нейронная сеть, которая описыват происходящее на видео.
Sadler
08.06.2016 13:06Боюсь, для такого понадобится слишком большой жизненный опыт, т.е. разве что подключать мозг самого пользователя и использовать его воображение для восстановления деталей. Почти по Лукьяненко.
avost
07.06.2016 11:52+1Вообще, странно, что копирасты пошли на создание прецедента. Теперь дело за малым — доработать технологию, чтобы получить хотя бы одно «переосмысление» какого-либо фильма, мало отличимое от оригинала и дальше можно свободно выкладывать пиратское видео под видом «переосмысленного» искином.
maxlilt
08.06.2016 14:55Обученная нейросеть действует подобно персонажам, рассказывавшим анекдоты по номерам. "- Номер 200. — Мы неприличных анекдотов при дамах не рассказываем!". И от ответственности это не избавляет, так как теоретически, нейросеть может запомнить каждый кадр фильма во всех подробностях.
MichaelBorisov
09.06.2016 23:05Мне кажется, автор видео просто удачно «загрузил» правообладателей. По сути дела им был применен алгоритм сжатия видео с большими потерями. Пусть он и реализован на нейросети, от этого он не перестает быть алгоритмом. Результаты работы алгоритма не являются результатами творческого труда.
Кроме того, хоть видео и значительно отличается от оригинала, но для его создания был применен оригинал, права на который принадлежат правообладателям. Можно задаться вопросом, откуда автор автоэнкодера взял оригинал и под какой лицензией? Содержала ли эта лицензия право на автоматическую обработку видео какими-либо программами? Или это была лицензия исключительно для домашнего просмотра, какие обычно сопровождают DVD-диски?
В общем, мне кажется, с юридической точки зрения здесь все не в пользу автоэнкодеров.
tmin10
Интересно, сколько весит сама нейросеть, что-то мне кажется, что для распаковки кадров из кучки цифр нужно иметь очень большую нейросеть, которая помнит много взаимосвязей в кадрах, а то выходит отличный алгоритм сжатия видео с большими потерями.
VioletGiraffe
+1. Это из той же оперы, что самораспаковывающийся архив, который не читает никаких дополнительных данных, но в себе уже содержит всё.
С другой стороны, избыточность внутри видеоданных явно зашкаливает, надо только научиться её извлевать.
slonopotamus
Более того, можно любое заранее выбранное видео упаковать в 1 бит или даже в ноль. И в комплекте будет идти алгоритм разархиватора, на пару гигов.
Vjatcheslav3345
И в комплекте операционной системы будет идти алгоритм разархиватора, на пару гигов…
sumanai
Периодически обновляясь на новую версию…