Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.

Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.

Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

Кто в зоне риска

Как мы уже отмечали в нашей прошлой статье про статистику связанных с документами преступлений, физические подделки широко распространены и их производство поставлено на поток. Однако такие подделки дороги; а зная особенности автоматизированных процессов в онлайн онбординге и KYC процедур - использовать их для обмана компьютеров, а не людей, - невыгодно. Другое дело цифровые подделки: берется любое фото настоящего документа (а утечки с такими данными, к сожалению, регулярны), далее следуют всего пара манипуляций в фоторедакторе или обращений к генеративному ИИ - и подделка готова при минимальных или вовсе нулевых затратах. Нацелены такие подделки, прежде всего, на финансовый сектор, особенно на банковские и микрофинансовые организации. Автоматизация генерации позволяет буквально “спамить” финансовые организации заявками на кредиты в надежде, что на очередной отправке фото документа система распознавания и проверяющий за ней сотрудник пропустят фейк. Цифровые подделки также используют для обхода KYC процедур и онлайн верификации.

При этом дешевизна цифровой подделки не говорит о ее примитивности. На беглый взгляд человек может не заметить подвоха: детали могут быть видны только при увеличении изображения и сравнении подозрительных регионов с окружением. Но мошенники прекрасно понимают, что системы распознавания смотрят на документ иначе: для них изображение документа это просто набор реквизитов, которые необходимо извлечь в структурированной форме. А значит, неидеальная замена фото владельца или несовпадения в резкости вставленных букв не являются недостатком.

Восемь способов подделать фото документа

Мы проанализировали большое количество реальных подделок документов и составили список наиболее распространенных типов атак. Что мы выделили: 

Copy-Move подмена символов. Поменяли одну цифру на другую внутри одной картинки путем копирования из другого поля на этом же изображении. Интересный факт: наиболее часто так правят дату рождения.

Примеры модификаций типа Copy-Move на уровне символов. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций типа Copy-Move на уровне символов. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Подмена поля. Перенесли ФИО или иные реквизиты из другого документа.

Примеры модификаций в виде подмены полей документа. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде подмены полей документа. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Подмена фотографии. Фото владельца заменяется другим.

Примеры модификаций в виде подмены фото владельца документа. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде подмены фото владельца документа. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Подмена целого документа. Замена документа в кадре другим документом.

Примеры модификаций в виде замены документа в кадре. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде замены документа в кадре. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Склейка. Документ собран из других документов путем объединения их частей.

Примеры модификаций в виде склейки документов с разных изображений в одном кадре. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде склейки документов с разных изображений в одном кадре. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Наложение текста. Добавление новых данных поверх изображения встроенными функциями фоторедакторов.

Примеры модификаций в виде наложения текста поверх поля в фоторедакторе. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде наложения текста поверх поля в фоторедакторе. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Маскирование информации. Скрытие нежелательных реквизитов.

Примеры модификаций в виде маскирования информации. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.
Примеры модификаций в виде маскирования информации. В первой строке оригинальные изображения, во второй модифицированные, в третьей маски с модифицированными областями.

Посторонние объекты. Мошенники нередко пытаются загрузить образцы документов с интернета. Такие изображения содержат водяные знаки, надписи, графические элементы в виде линий и т.п.

Примеры модификаций в виде наложения одиночных водяных знаков, сигнализирующих о шаблоне документа.
Примеры модификаций в виде наложения одиночных водяных знаков, сигнализирующих о шаблоне документа.
Примеры модификаций в виде наложения периодических водяных знаков.
Примеры модификаций в виде наложения периодических водяных знаков.
Примеры модификаций в виде графических элементов, присущих шаблонам документа с открытых источников с объяснением значений реквизитов.
Примеры модификаций в виде графических элементов, присущих шаблонам документа с открытых источников с объяснением значений реквизитов.

Чтобы иметь возможность защититься от таких атак, необходимы качественные данные с подробной разметкой для обучения соответствующих моделей выявления модификаций. Поэтому, мы решили создать собственный набор данных, который был бы ориентирован на документы, удостоверяющие личность.

Как создавался MIDV-DM

Часть вышеописанных методов модификаций изображений не встречаются в опубликованных датасетах. А те, которые встречаются, имеют существенные отличия в домене - многие датасеты для задачи выявления модификаций изображений составлены из фотографий людей, городских и природных сцен (см. CoMoFoD, MICC-F220, CASIAv1 и CASIAv2). Copy-move крупного животного в сцене зоопарка и одного маленького символа на фотографии документа в высоком разрешении кардинально отличаются по сложности детектирования. Наборы изображений документов с модификациями, такие как DocTamper, FantasyID или T-SROIE, не покрывают все описанные выше атаки: фокус в них сделан на детально проработанных модификациях, тогда как грубые вставки или вотермарки не рассматриваются. Чтобы исправить ситуацию, мы решили сделать набор данных со всеми вышеописанными видами атак на изображения документов, который назвали MIDV-DM. Его название состоит из следующих частей: MIDV - Mobile Identity Document Video (название семейства датасетов), и DM - Document Manipulation.

В качестве основы датасета мы взяли набор MIDV-2020. Он содержит 10 типов документов, удостоверяющих личность, для каждого типа доступно 100 уникальных по заполнению шаблонов. Все шаблоны в этом датасете были распечатаны, заламинированы и отсняты на камеры смартфонов в сложных сценариях. Для имитации каждой из 8 типов атак мы выполняли геометрическую нормализацию документа, производили соответствующую модификацию с помощью OpenCV или ImageMagick, затем вставляли документ обратно на фон и генерировали маску для изображения с модифицированной областью.

В итоге получили 8000 модифицированных изображений с детальной разметкой, которые могут использоваться учеными для совершенствования методов выявления поддельных изображений документов. Также в датасет включены 1000 оригинальных фото документов из MIDV-2020, не содержащих цифровых модификаций. Набор данных MIDV-DM доступен для скачивания через FTP по ссылке ftp://smartengines.com/midv-dm/.

Мы взяли один из лучших детекторов редактирования изображений. И он не справился...

Задача выявлений модификаций изображений может рассматриваться в одной из следующих постановок: детекции и локализации. В задаче детекции необходимо установить только факт модификации, тогда как в задаче локализации - точное положение модифицированной области. Сразу уточним, что для применения моделей в индустриальных системах задача ставится в терминах локализации, так как только в таком случае достигается интерпретируемость ответа системы.

Чтобы оценить сложность созданного MIDV-DM датасета, мы рассмотрели state-of-the-art решения для выявления модификаций изображения. В качестве тестируемой модели была выбрана IML-ViT - нейросеть на основе архитектуры трансформер, показавшая существенное превосходство на популярных бенчмарках CASIAv1, COVER, NIST16, IMD-20 и многих других. Она работает с изображением в достаточно высоком разрешении (1024×1024), и позволяет одновременно решать как задачу детекции, так и локализации.

Прогнав через IML-ViT 9000 фото документов из MIDV-DM (1000 оригинальных фото из MIDV-2020 и 8000 модифицированных), мы замерили качество детекции и локализации в терминах классических метрик Recall, Precision и F1-Score. Отдельно мы также замерили критически важную для практических систем метрику частоты ложных срабатываний (FPR, False Positive Rate). Получили следующие результаты по качеству детекции (т.е. качество бинарной классификации факта модификации на уровне изображений):

Датасет/метрика

FPR

Recall

Precision

F1-Score

MIDV-DM (порог=0.5)

1.00

1.0

0.889

0.941

MIDV-DM (порог=0.961)

0.987

0.991

0.889

0.937

Видим, что в рамках решения задачи детекции IML-ViT помечает практически все настоящие изображения из MIDV-2020 как модифицированные (FPR близок к 1 даже после донастройки порога принятия решения). 

Далее мы попробовали проанализировать ответ модели по части локализации модифицированных областей. Получили такие результаты:

Датасет/метрика

FPR

Recall

Precision

F1-Score

CASIAv1

-

-

-

0.795

MIDV-DM (порог=0.5)

0.056

0.447

0.184

0.261

MIDV-DM (порог=0.961)

0.012

0.302

0.409

0.347

При тестировании IML-ViT мы также построили график зависимости значений метрик от порога принятия решения.

График зависимости метрик качества работы IML-ViT на датасете MIDV-DM в зависимости от порога принятия решения.
График зависимости метрик качества работы IML-ViT на датасете MIDV-DM в зависимости от порога принятия решения.

Как локализатор, state-of-the-art модель IML-ViT тоже не справляется в домене документов: если на сценах природы из CASIAv1 по метрике F1-Score IML-ViT достигает значения 0.795, то на MIDV-DM получается всего 0.261 “из коробки”, и 0.347 после настройки порога.

Разница в качестве более чем в 2 раза!

Заключение

Ввиду активной цифровизации финансовых и KYC сервисов, большинство атак на сегодня происходит не на бумажный документ, а на его цифровое представление. Опасность таких подделок заключается в их массовости, вызванной, прежде всего, дешевизной их автоматической генерации. Поэтому современный цифровой онбординг требует не только OCR и проверки подлинности документа, но и технологий обнаружения цифровых манипуляций.

Мы надеемся, что разработанный нами датасет MIDV-DM поможет исследователям в разработке эффективных решений определения цифровых подделок в домене документов.

Другие наши открытые датасеты для задач распознавания и проверки подлинности документов можно посмотреть здесь: https://smartengines.ru/science/dataset/

Статья написана по мотивам доклада,  представленного на международной конференции ICMV-2025 в г. Париж, Франция. Ссылка на работу: A. V. Chuiko, I. A. Kunina, S. A. Usilin, C. Chen, S. Tan, D. P. Nikolaev and V. V. Arlazarov, “MIDV-DM: A Document-Oriented Dataset for Image Manipulation Detection and Localization,” Computer Optics, vol. 49, no 6, pp. 1093-1101, 2025, DOI: 10.18287/COJ1768.

Ссылка на IML-ViT: Ma X, Du B, Jiang Z, Du X, Al Hammadi A Y, Zhou J. IML-ViT: Benchmarking image manipulation localization by vision transformer. arXiv preprint arXiv:2307.14863 (2024).

P.S. Кстати, против нас все это не работает. Мы уже давно такое ловим и даже круче.

Комментарии (0)