Даже если вы не знаете, что такое дипфейки, вы наверняка с ними сталкивались. Хотя изменённые и поддельные медиа не являются чем-то новым, дипфейки выводят их на совершенно новый уровень, используя искусственный интеллект для создания изображений, видео и аудио, которые кажутся реальными, но на самом деле таковыми не являются. Дипфейки (DeepFake) — это синтетические медиа, в которых человек на существующем изображении, видео или записи заменяется чьим-либо подобием. Технология DeepFake представляет собой одно из самых интригующих и противоречивых достижений в сфере ИИ. Поскольку дипфейки становятся всё доступнее, а их качество растёт, они создают серьёзные проблемы и в то же время дают новые возможности развития в различных сферах жизни человека.

Как создаются дипфейки

Сегодня технология дипфейков построена на сложных нейронных сетях, которым требуются огромные объёмы данных и вычислительные мощности для создания убедительного поддельного контента. Они основаны в первую очередь на использовании генеративно-состязательных сетей (GAN). Представленные в 2014 году Яном Гудфеллоу и его командой, GAN явили собой прорыв в этой области, позволяющий создавать более сложные и убедительные дипфейки. В этой технологии используются две нейронные сети: одна генерирует поддельные изображения, а другая пытается определить их подлинность, постоянно улучшая реалистичность результата.

Генеративно-состязательные сети (GAN)

GAN включают в себя две модели машинного обучения: генератора и дискриминатора. Первая создает изображения или видео, которые выглядят реальными, в то время как вторая оценивает их подлинность по набору реальных изображений или видео. Таким образом устанавливается состязательный процесс, который продолжается до тех пор, пока дискриминатор не перестанет отличать сгенерированные изображения от реальных, что приводит к очень убедительным дипфейкам.

GAN изучают нюансы человеческих выражений и движений. Они позволяют реалистично манипулировать медиа, синтезируя новый контент, имитирующий стиль и детализацию исходных данных. Это делает GAN невероятно мощным средством создания вводящих в заблуждение медиа, которые продолжают становиться всё более и более неотличимыми от подлинных.

Дополнительные модели ИИ

Помимо GAN, для повышения реалистичности дипфейков также применяются другие инструменты:

  • автоэнкодеры — помогают сжимать и распаковывать изображения, сохраняя их качество;

  • распознавание и отслеживание лиц — позволяет легко менять или корректировать лица и их черты в видеороликах;

  • синтез голоса и обработка звука — клонирует голоса и с высокой точностью синхронизируют их с видео для создания реалистичного звука, соответствующего видеоконтенту;

  • ПО для композинга и модифицирования видео улучшает результат, повышающая его реалистичность.

Все перечисленные технологии часто интегрируются в платформы и приложения, чтобы упростить создание дипфейков. Такой подход также делает их доступными не только для профессионалов в области визуальных эффектов, но и для широкой публики. Некоторые примеры этих платформ — DeepFaceLab, FaceSwap и Reface.

Полезное использование дипфейков

Несмотря на высокий потенциал зловредности, технология дипфейков уже достаточно часто применяется с позитивными целями и привносит положительный вклад во многие сферы нашей жизни. Поэтому вероятность того, что её когда-нибудь совсем запретят, очень невысок.

Кинопроизводство и развлечения

Технологии дипфейков используются для улучшения визуальных эффектов в фильмах и телепередачах, восстановления вокала актёров, улучшения дубляжа на иностранном языке, омоложения актёров в сценах с воспоминаниями, или даже завершения работ после смерти актёра или его выхода на пенсию. Например, дипфейки применялись для омоложения персонажей в фильме «Ирландец».

Образование и искусство

При помощи дипфейков уже активно создают интерактивный образовательный контент, оживляющий исторических личностей или вымышленных персонажей. Это обеспечивает более увлекательный опыт обучения в самых разных условиях: от преподавания в классе до сценариев профессиональной подготовки. Например, в американском городе Санкт-Петербурге, расположенном в штате Флорида, в Музее Дали транслируется фейковое видео, на котором художник-сюрреалист Сальвадор Дали представляет свое искусство и делает селфи с посетителями:

Видео было создано путём извлечения более 6000 кадров из старых видеоинтервью и их обработки в течение 1000 часов перед наложением на лицо актёра. Текст состоял из цитат, собранных из различных интервью и писем с новыми комментариями, призванных помочь посетителям сопереживать художнику и проникнуться его творчеством. Всего 45 минут отснятого материала, разделённого на 125 видеороликов, позволили создать более 190 000 возможных комбинаций в зависимости от ответов посетителей, даже добавили комментарии о погоде. В заключение Дали поворачивается и делает селфи со своей аудиторией.

Здравоохранение

В медицине технология DeepFake помогает проводить персонализированные терапевтические сеансы, на которых вместо врачей выступают дипфейки людей, кому пациент доверяет, чтобы сделать терапию более эффективной. Также технология может повысить диагностический потенциал выявления новообразований во время проведения магнитно-резонансной томографии (МРТ).

Ещё одним примером является дипфейковое видео с участием популярного футболиста Дэвида Бекхэма, в котором он говорит о малярии на девяти языках:

Зловредное использование дипфейков

С другой стороны, дипфейки также используются и в злонамеренных целях. 

Политическая дезинформация

В дипфейковом видео может быть изображён политический деятель, делающий подстрекательские заявления или поддерживающий политику, которую он никогда не поддерживал. Это потенциально может повлиять на общественное мнение и, возможно, вызвать волнения.

Дипфейковый фишинг

Применяется с целью заставить человека совершить несанкционированные платежи или добровольно предоставить конфиденциальную информацию. Зачастую дипфейковый фишинг начинается с аудиодипфейка лица, которому доверяют. Преступник, замаскированный под номинальное лицо, связывается с жертвой через веб-конференцию или голосовые сообщения, а также применяет другие формы социальной инженерии, используя чувство срочности, чтобы заставить человека действовать импульсивно. Мошенники могут создавать аудиоклоны, которые звучат точно так же, как друзья или члены семьи, и использовать их по телефону, чтобы обманом заставить людей отправлять деньги.

Контент для взрослых

Некоторые веб-сайты позволяют клиентам приобретать без согласия фейковые изображения или видео 18+ с участием выбранных ими людей. В других случаях преступники объединяют общедоступные фотографии ничего не подозревающих людей, знаменитостей или даже несовершеннолетних, создают откровенные изображения и видео, которые затем используют для вымогательства или мести.

Автоматизированные дезинформационные атаки

DeepFake также может использоваться для автоматических дезинформационных атак, таких как теории заговора и неверные теории о политических и социальных проблемах. Достаточно очевидным таким примером является  видео с Марком Цукербергом, утверждающим, что у него есть «полный контроль над данными миллиардов людей» благодаря Spectre, вымышленной организации из романов и фильмов о Джеймсе Бонде.

Злоупотребление изображением

Знаменитости и общественные деятели часто становятся объектами дипфейков. Так, без личного согласия их изображения используются для создания неприемлемого или вредного контента. Это не только влияет на их частную жизнь, но также наносит ущерб имиджу и может привести к судебным тяжбам. Одним из самых пугающе убедительных примеров является дипфейк Моргана Фримена. Впервые видео было опубликовано в прошлом году голландским каналом YouTube Diep Nep, автором концепции стал Боб де Йонг, а озвучку сделал Боэт Шоувинк:

Современные технологии обнаружения дипфейков

Разработка инструментов для выявления дипфейков стала решающей в борьбе с цифровой дезинформацией. Некоторые из лучших методологий:

  • Анализ уровня ошибок. Выявляет несоответствия в цифровом изображении или видео, которые предполагают манипуляцию. Метод подразумевает анализ ошибок сжатия цифровых файлов и применяет глубокое обучение для распознавания закономерностей, типичных для дипфейков.

  • Обнаружение дипфейков в режиме реального времени. Некоторые инструменты предназначены для работы в режиме реального времени и используют ИИ для анализа видеопотоков и оповещения пользователей о наличии дипфейков во время их трансляции. Это крайне важно для средств массовой информации и прямых трансляций, где необходима немедленная проверка.

  • Обнаружение дипфейков в аудио. Методология анализирует тонкие голосовые шаблоны и обнаруживает незначительные аномалии, которые могут указывать на манипуляции. Это особенно полезно для проверки подлинности аудиофайлов и защиты от мошенничества с использованием имитации голоса.

  • Мультимодальные методы обнаружения объединяют несколько источников данных и сенсорных входов. Совместно анализируется как аудио, так и визуальные элементы. Такая интеграция помогает выявить расхождения между ними, которые могут остаться незамеченными при отдельном анализе.

10 советов по определению дипфейков

Вот несколько ключевых техник, основанных на популярном дипфейковом видео из фильма «Человек-паук: нет пути домой», в котором лицо нынешнего актера «Человека-паука» Тома Холланда заменяется лицом бывшего актера «Человека-паука» Тоби Магуайра:

Асимметричный подбородок и пугающе гладкое лицо вызывают подозрение в дипфейке.
Асимметричный подбородок и пугающе гладкое лицо вызывают подозрение в дипфейке.
Что-то в текстуре кожи лица делает Питера Паркера похожим на компьютерную графику.
Что-то в текстуре кожи лица делает Питера Паркера похожим на компьютерную графику.
Освещение вокруг лица выглядит неестественно мягче.
Освещение вокруг лица выглядит неестественно мягче.
  1. Как мы уже успели понять, наиболее распространённый метод, используемый в дипфейках, — это замена лиц. Внимательно осмотрите лицо на предмет каких-либо неровностей или размытостей. Часто именно здесь технологии дипфейков не могут плавно совместить изменённое лицо с телом. На изображениях выше у персонажа слишком гладкое лицо и асимметричный подбородок.

  2. Проверьте дефекты контуров лица на границе волосистой части головы и фона. Они могут выглядеть неровными или неестественно резкими по сравнению с остальной частью изображения.

  3. В видеороликах плохая синхронизация губ с голосом может быть явным индикатором дипфейка. В этом случае движения рта не совпадают с произнесенными словами.

  4. Дипфейкам часто не удаётся идеально воспроизвести текстуру кожи, она выглядит неестественной.

  5. Освещение и тени в дипфейках могут не совпадать с естественными источниками света.

  6. Обратите внимание на более длинные, чем обычно, паузы между словами и предложениями. Голос человека также может звучать плоско и безжизненно.

  7. Дипфейки ещё не научились реалистично имитировать моргание, поэтому его либо вообще не будет, либо оно будет очень редким. Также отсутствие движения глаз является признаком дипфейка. Воспроизвести естественное движение глаз сложно, поскольку они обычно следят за собеседником и реагируют на него.

  8. Обратите внимание на роботизированные движения тела, головы и мимики в целом.

  9. Убедитесь, что видео или голосовой клип взят из известного и надёжного источника.

  10. Начинайте телефонные разговоры с коллегами, используя секретные пароли или специальные вопросы. Если говорящий вас не понимает или игнорирует, это может быть голосовой клон.

Нельзя отрицать огромный потенциал дипфейков в развитии таких сфер, как развлечение, образование и даже здравоохранение. Однако не стоит игнорировать и риски, связанные с их неправомерным использованием для распространения дезинформации, нарушения конфиденциальности и мошенничества. Как технологии дипфейков эволюционируют, так и технологии их обнаружения не стоят на месте. Также по всему миру всё больше внимания уделяется правовому регулированию использования дипфейков.

Комментарии (3)


  1. ChePeter
    14.06.2024 07:45

    А законы, например РФ, разрешают роботам утверждать, что они люди?

    Т.е. говорит он/она складно, но при этом одинаковым голосом одинаково повторяет фразу, что он/она человек.

    Закон такое враньё допускает?


    1. Moog_Prodigy
      14.06.2024 07:45

      Вы не читали "Поколение П" ?

      Не знаю про закон, но пока что "вручную" озвучить того или иного персонажа просто голосом от реального человека довольно просто и относительно дешево (дубляж). Подделать голос намного проще, чем видео, при этом даже компьютеры никакие могут не потребоваться. Это еще чуть ли не с каменного века практикуется :)


  1. ssj100
    14.06.2024 07:45

    Скоро дойдет и до этого

    Вождь из Эквилибриума
    Вождь из Эквилибриума