
Само слово «дипфейк» (deepfake) впервые появилось в 2017 году на платформе Reddit. Однако технологическая основа была заложена еще в 2014 году с изобретением генеративно-состязательных сетей (GANs) Яном Гудфеллоу.
Сначала дипфейки использовались для создания юмористического контента, но их потенциал для мошенничества, дезинформации и кибератак запустил ответную волну инноваций. Началась настоящая гонка по разработке технологий распознавания дипфейков. Об этом и не только — в нашем материале.
Как сегодня создают дипфейки
Современные реалистичные дипфейки создают в основном с помощью двух сложных архитектур искусственного интеллекта: генеративно-состязательных сетей и автоэнкодеров.
Генеративно-состязательные сети (GANs)
Эта технология стала прорывной потому, что в ней искусственный интеллект сам учится создавать правдоподобные данные. GAN состоят из двух нейросетей, которые работают в режиме постоянного соревнования:
Генератор создает изображения «с нуля», пытаясь сгенерировать максимально реалистичную подделку;
Дискриминатор пытается определить — изображение настоящее или поддельное.
В процессе этого противостояния генератор постепенно учится создавать настолько качественные изображения, что дискриминатор не может отличить их от настоящих. Изначально генератор производит лишь случайный шум, но с каждой итерацией его результат все больше напоминает целевое изображение, пока оно наконец не становится практически неотличимым от оригинала.
Автоэнкодеры
В отличие от GAN, автоэнкодеры часто используются для замены лиц в уже существующих видео. Этот метод также включает две нейронные сети:
Кодировщик (энкодер) сжимает исходное изображение, выделяя его ключевые характеристики — основные черты лица, позу, освещение;
Декодировщик восстанавливает изображение из этого сжатого представления.
Для создания дипфейка используют два автоэнкодера. Один обучается на изображениях исходного лица (донора), а другой — на изображениях «целевого» лица. После обучения кодировщик, выделяющий черты донора, соединяется с декодировщиком, воссоздающим лицо цели. В результате система накладывает мимику одного человека на внешность другого.

Насколько технология доступна и совершенна
Нейросети нужен огромный объем исходного материала. Для качественного видео-дипфейка используют сотни и тысячи изображений и видеозаписей человека в разных ракурсах, при разном освещении и с разными выражениями лица. Для базового сходства голоса достаточно всего 3 секунд аудио, но для полного воспроизведения интонаций и манеры речи могут потребоваться часы записей.
А вот обрабатывать эти данные и сгенерировать дипфейк можно по-разному — через GAN или автоэнкодеры. Потом видео еще доводят до совершенства — синхронизируют движение губ с речью, корректируют освещение и тени, сглаживают переходы между кадрами.

Технология активно растет как в качестве, так и в количестве. В 2023 году в сети было около 500 тысяч дипфейков, а в 2025 году счет пошел на миллионы. В среднем человек может распознать лишь 24% качественных подделок. В 2024 году компаниям каждый инцидент с дипфейком стоил в среднем $500 000.
При этом технология стала гораздо дешевле. Например, дипфейковый робозвонок с голосом Джо Байдена в 2024 году «стоил» злоумышленникам всего $1 и был создан менее чем за 20 минут.

Технологию используют для омоложения актеров, в компьютерных играх, для использования образов знаменитостей в рекламе, для повышения интерактивности в развлечении и образовании. Дипфейки еще не на 100% совершенны, но быстро развиваются. Как правило, подделку выдает неестественное моргание, размытие или дрожание контуров лица при повороте головы, неидеальная синхронизация движения губ с речью, несоответствия в освещении и тенях.
Какими были первые патенты
Одними из первых на новый вызов отреагировали крупные технологические компании и финансовые институты, которые из-за мошенничества с дипфейками сильно рискуют безопасностью и деньгами. В 2020-2021 годах были поданы и впоследствии опубликованы ключевые заявки, заложившие основу для современных детекторов.
Например, патент US20210142065A1 2021 года на «методы и системы для определения дипфейков» описывает систему, использующую ансамбль так называемых «слабых классификаторов». Каждый такой классификатор анализирует определенную характеристику видео:
отслеживает аномалии в движении губ и зубов;
вычисляет пульс по микродвижениям головы;
ищет несоответствия в аудиодорожке.

Решения каждого классификатора объединяются «сильным классификатором», что позволяет с высокой точностью определить, подлинный контент или нет.
Другой пример — патент US20220129664A1, тоже 2021 года, «система и метод распознавания дипфейкового видео». Он делает акцент на анализе состояний глаз, которые часто некорректно воспроизводятся алгоритмами синтеза. В изобретении предлагается отслеживать изменения в кадрах с помощью моделей с долгой краткосрочной памятью (LSTM), что позволяет улавливать несоответствия, незаметные человеческому глазу.
Анализ биометрических несоответствий и использование сложных архитектур нейронных сетей для обработки временных рядов используют для анализа и сейчас.
Современный патентный ландшафт
К 2025 году общее число патентов и заявок идет на тысячи, больше всего со стороны США и Китая. Сейчас лидеры по качественным разработкам и патентам:
Крупнейшие технологические корпорации, такие как Google и компании Марка Цукерберга;
Корпорации из сферы кибербезопасности — McAfee и Regula;
Финансовые гиганты, включая JPMorgan Chase и Wells Fargo.
В основном текущие разработки и патенты делятся на такие категории:
Комплексные ансамблевые системы, которые объединяют множество моделей для анализа разных признаков подделки;
Распознавание в режиме реального времени — особенно востребовано для защиты видеоконференций и верификации пользователей;
Использование «объяснимого ИИ», чтобы системы не только обнаруживали дипфейк, но и могли понятно объяснить, почему это подделка.
McAfee в своем патенте US20240312249A1 предлагает использовать ансамбль из трех различных моделей:
бинарного классификатора;
фильтрующей модели;
анализатора качества изображения.
Такой подход позволяет снизить число ложных срабатываний и повысить надежность детекции при разных условиях.
Патент WO2025122163A1 от Google решает одну из самых сложных проблем — отслеживание происхождения изменяемого контента. В нем предлагается технология, основанная на сравнении эмбеддингов (такой способ понятно для ИИ представить информацию) подделки с эмбеддингами известных генеративных моделей. Это позволяет не только выявить факт подделки, но и потенциально определить, каким именно инструментом она была создана.
JPMorgan Chase, стремясь создать масштабируемое решение для финансового сектора, запатентовали систему (US11727721B2), которая интегрирует результаты нескольких детекторов и выдает итоговую оценку вероятности подлинности контента. Этот подход относится к категории решений, легко внедряемых в корпоративные процессы.
В России тоже есть свои разработки. Например, патенты, полученные Сбером еще в 2022 году. Патент №2768797 защищает использование ансамбля нейросетевых моделей класса EfficientNet, а патент №2774624 — метод разбиения видео на множество фреймов и анализа микроизменений в цветах объектов на кадрах. Объединенная система, по данным разработчика, демонстрирует эффективность в 98% и способна обрабатывать видео с несколькими лицами в кадре, выявляя то, которое было синтетически изменено.
Итоги
Патентная активность в сфере дипфейков — индикатор глобальной «гонки вооружений» между создателями и определителями такого рода контента. Из узкоспециализированной области компьютерного зрения она превратилась в критически важный сегмент рынка кибербезопасности, привлекающий инвестиции и разработчиков.
Судя по текущим трендам, основная работа сейчас направлена на унификацию и стандартизацию детекторов, ужесточение законодательства (как, например, в ЕС, США и Китае), превентивные решения, такие как обязательные «водяные знаки» на всем ИИ-контенте. Интересно, что появилось решение с признанием внешности человека его интеллектуальной собственностью, как в Дании.
Вероятно, технологии обнаружения дипфейков в ближайшие годы станут таким же неотъемлемым элементом цифровой инфраструктуры, каким когда-то стали антивирусы. При этом чем лучше системы распознавания, тем лучше могут работать генеративно-состязательные сети для создания дипфейков, так как тем совершеннее будет их дискриминатор.
О сервисе Онлайн Патент:
Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:
Онлайн‑регистрация программ, патентов на изобретение, товарных знаков, промышленного дизайна;
Опции ускоренного оформления услуг;
Бесплатный поиск по базам патентов, программ, товарных знаков;
Мониторинги новых заявок по критериям;
Онлайн‑поддержку специалистов.