Само слово «дипфейк» (deepfake) впервые появилось в 2017 году на платформе Reddit. Однако технологическая основа была заложена еще в 2014 году с изобретением генеративно-состязательных сетей (GANs) Яном Гудфеллоу. 

Сначала дипфейки использовались для создания юмористического контента, но их потенциал для мошенничества, дезинформации и кибератак запустил ответную волну инноваций. Началась настоящая гонка по разработке технологий распознавания дипфейков. Об этом и не только — в нашем материале.

Как сегодня создают дипфейки 

Современные реалистичные дипфейки создают в основном с помощью двух сложных архитектур искусственного интеллекта: генеративно-состязательных сетей и автоэнкодеров.

Генеративно-состязательные сети (GANs)

Эта технология стала прорывной потому, что в ней искусственный интеллект сам учится создавать правдоподобные данные. GAN состоят из двух нейросетей, которые работают в режиме постоянного соревнования:

  1. Генератор создает изображения «с нуля», пытаясь сгенерировать максимально реалистичную подделку;

  2. Дискриминатор пытается определить — изображение настоящее или поддельное. 

В процессе этого противостояния генератор постепенно учится создавать настолько качественные изображения, что дискриминатор не может отличить их от настоящих. Изначально генератор производит лишь случайный шум, но с каждой итерацией его результат все больше напоминает целевое изображение, пока оно наконец не становится практически неотличимым от оригинала.

Автоэнкодеры

В отличие от GAN, автоэнкодеры часто используются для замены лиц в уже существующих видео. Этот метод также включает две нейронные сети:

  1. Кодировщик (энкодер) сжимает исходное изображение, выделяя его ключевые характеристики — основные черты лица, позу, освещение;

  2. Декодировщик восстанавливает изображение из этого сжатого представления.

Для создания дипфейка используют два автоэнкодера. Один обучается на изображениях исходного лица (донора), а другой — на изображениях «целевого» лица. После обучения кодировщик, выделяющий черты донора, соединяется с декодировщиком, воссоздающим лицо цели. В результате система накладывает мимику одного человека на внешность другого.

Работа кодера и декодера для создания дипфейка. Источник: https://link.springer.com/
Работа кодера и декодера для создания дипфейка. Источник: https://link.springer.com/

Насколько технология доступна и совершенна

Нейросети нужен огромный объем исходного материала. Для качественного видео-дипфейка используют сотни и тысячи изображений и видеозаписей человека в разных ракурсах, при разном освещении и с разными выражениями лица. Для базового сходства голоса достаточно всего 3 секунд аудио, но для полного воспроизведения интонаций и манеры речи могут потребоваться часы записей.

А вот обрабатывать эти данные и сгенерировать дипфейк можно по-разному — через GAN или автоэнкодеры. Потом видео еще доводят до совершенства — синхронизируют движение губ с речью, корректируют освещение и тени, сглаживают переходы между кадрами. 

Рост числа файлов-дипфейков в сети. Источник: https://deepstrike.io/
Рост числа файлов-дипфейков в сети. Источник: https://deepstrike.io/

Технология активно растет как в качестве, так и в количестве. В 2023 году в сети было около 500 тысяч дипфейков, а в 2025 году счет пошел на миллионы. В среднем человек может распознать лишь 24% качественных подделок. В 2024 году компаниям каждый инцидент с дипфейком стоил в среднем $500 000.

При этом технология стала гораздо дешевле. Например, дипфейковый робозвонок с голосом Джо Байдена в 2024 году «стоил» злоумышленникам всего $1 и был создан менее чем за 20 минут.

В реальность этой картинки даже кто-то поверил...
В реальность этой картинки даже кто-то поверил...

Технологию используют для омоложения актеров, в компьютерных играх, для использования образов знаменитостей в рекламе, для повышения интерактивности в развлечении и образовании. Дипфейки еще не на 100% совершенны, но быстро развиваются. Как правило, подделку выдает неестественное моргание, размытие или дрожание контуров лица при повороте головы, неидеальная синхронизация движения губ с речью, несоответствия в освещении и тенях.

Какими были первые патенты

Одними из первых на новый вызов отреагировали крупные технологические компании и финансовые институты, которые из-за мошенничества с дипфейками сильно рискуют безопасностью и деньгами. В 2020-2021 годах были поданы и впоследствии опубликованы ключевые заявки, заложившие основу для современных детекторов.

Например, патент US20210142065A1 2021 года на «методы и системы для определения дипфейков» описывает систему, использующую ансамбль так называемых «слабых классификаторов». Каждый такой классификатор анализирует определенную характеристику видео: 

  • отслеживает аномалии в движении губ и зубов;

  • вычисляет пульс по микродвижениям головы;

  • ищет несоответствия в аудиодорожке. 

Это не фото из интернета, а пример из патента US20210142065A1. Интересно, авторы заплатили актеру?
Это не фото из интернета, а пример из патента US20210142065A1. Интересно, авторы заплатили актеру?

Решения каждого классификатора объединяются «сильным классификатором», что позволяет с высокой точностью определить, подлинный контент или нет.

Другой пример — патент US20220129664A1, тоже 2021 года, «система и метод распознавания дипфейкового видео». Он делает акцент на анализе состояний глаз, которые часто некорректно воспроизводятся алгоритмами синтеза. В изобретении предлагается отслеживать изменения в кадрах с помощью моделей с долгой краткосрочной памятью (LSTM), что позволяет улавливать несоответствия, незаметные человеческому глазу. 

Анализ биометрических несоответствий и использование сложных архитектур нейронных сетей для обработки временных рядов используют для анализа и сейчас. 

Современный патентный ландшафт

К 2025 году общее число патентов и заявок идет на тысячи, больше всего со стороны США и Китая. Сейчас лидеры по качественным разработкам и патентам:

  1. Крупнейшие технологические корпорации, такие как Google и компании Марка Цукерберга; 

  2. Корпорации из сферы кибербезопасности — McAfee и Regula;

  3. Финансовые гиганты, включая JPMorgan Chase и Wells Fargo. 

В основном текущие разработки и патенты делятся на такие категории: 

  1. Комплексные ансамблевые системы, которые объединяют множество моделей для анализа разных признаков подделки; 

  2. Распознавание в режиме реального времени — особенно востребовано для защиты видеоконференций и верификации пользователей; 

  3. Использование «объяснимого ИИ», чтобы системы не только обнаруживали дипфейк, но и могли понятно объяснить, почему это подделка. 

McAfee в своем патенте US20240312249A1 предлагает использовать ансамбль из трех различных моделей: 

  • бинарного классификатора;

  • фильтрующей модели;

  • анализатора качества изображения. 

Такой подход позволяет снизить число ложных срабатываний и повысить надежность детекции при разных условиях.

Патент WO2025122163A1 от Google решает одну из самых сложных проблем — отслеживание происхождения изменяемого контента. В нем предлагается технология, основанная на сравнении эмбеддингов (такой способ понятно для ИИ представить информацию) подделки с эмбеддингами известных генеративных моделей. Это позволяет не только выявить факт подделки, но и потенциально определить, каким именно инструментом она была создана.

JPMorgan Chase, стремясь создать масштабируемое решение для финансового сектора, запатентовали систему (US11727721B2), которая интегрирует результаты нескольких детекторов и выдает итоговую оценку вероятности подлинности контента. Этот подход относится к категории решений, легко внедряемых в корпоративные процессы.

В России тоже есть свои разработки. Например, патенты, полученные Сбером еще в 2022 году. Патент №2768797 защищает использование ансамбля нейросетевых моделей класса EfficientNet, а патент №2774624 — метод разбиения видео на множество фреймов и анализа микроизменений в цветах объектов на кадрах. Объединенная система, по данным разработчика, демонстрирует эффективность в 98% и способна обрабатывать видео с несколькими лицами в кадре, выявляя то, которое было синтетически изменено.

Итоги

Патентная активность в сфере дипфейков — индикатор глобальной «гонки вооружений» между создателями и определителями такого рода контента. Из узкоспециализированной области компьютерного зрения она превратилась в критически важный сегмент рынка кибербезопасности, привлекающий инвестиции и разработчиков.

Судя по текущим трендам, основная работа сейчас направлена на унификацию и стандартизацию детекторов, ужесточение законодательства (как, например, в ЕС, США и Китае), превентивные решения, такие как обязательные «водяные знаки» на всем ИИ-контенте. Интересно, что появилось решение с признанием внешности человека его интеллектуальной собственностью, как в Дании

Вероятно, технологии обнаружения дипфейков в ближайшие годы станут таким же неотъемлемым элементом цифровой инфраструктуры, каким когда-то стали антивирусы. При этом чем лучше системы распознавания, тем лучше могут работать генеративно-состязательные сети для создания дипфейков, так как тем совершеннее будет их дискриминатор. 

О сервисе Онлайн Патент:

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:


Комментарии (0)