Всем привет! Мы в Smart Engines занимаемся распознаванием документов и часто об этом рассказываем, а еще мы часто публикуем результаты наших исследований в научных статьях и докладах. В результатах за прошлый год мы упомянули, что создали два открытых датасета. Совсем недавно мы писали о созданном нами наборе данных MIDV-2020. Теперь настало время DLC-2021. Ну что, поехали?


##MIDV-2020 (как и другие наборы семейства MIDV) предназначены для тестирования алгоритмов поиска и распознавания документов в предположении, что в мире нет мошенников. Однако все мы понимаем, что нужно как-то проверять, что камере действительно показан паспорт. Более того, алгоритмы для решения этой задачи нужно открыто оценивать и сравнивать. А значит - нам нужен новый открытый набор данных для экспериментов.

Атак на системы распознавания существует великое множество, однако хардкорные подделки встречаются редко. В большинстве случае наша цель - мелкие жулики, надеющиеся обмануть систему подручными способами. Например, они могут нагуглить фото чужого паспорта или сфотографировать свой, потом его зафотошопить, а потом показывать исправленное изображение на мониторе или распечатать такую "подделку" на принтере. Более официально это называется атака на предъявление (presentation attack) или атака ретрансляции (rebroadcast attack). Именно для оценки алгоритмов, детектирующих такие атаки, мы создали открытый набор аннотированных видеопоследовательностей DLC-2021.

Описание датасета

Мы рассматриваем три варианта атаки: показ черно-белой копии документа, показ цветной неламинированной копии и показ фотографии на мониторе. Итого, для каждого документа у нас есть четыре варианта, считая исходный. Основой DLC-2021 служат документы из MIDV-2020. Сами по себе они - муляжи, однако их можно использовать для оценки отдельных конкретных алгоритмов ловли тех или иных атак ретрансляции. На рисунке 1 можно посмотреть на все четыре варианта для греческого паспорта, а в таблице 1 - на общее количество снятых видеоклипов. Всего в датасете 80 различных документов (10 типов, по 8 штук на каждый).

Рисунок 1 - Греческий паспорт и его подделки
Рисунок 1 - Греческий паспорт и его подделки

Таблица 1 - Количество видеоклипов по вариантам.

Смарт-фон

Разреше-ние

FPS

Вариант документа на видео

Всего

Оригинал

Цвет. копия

Чб копия

Фото экрана

Samsung S10

3840 х 2160

30

140

283

121

200

744

iPhone XR

3840 х 2160

60

70

201

51

200

522

Samsung S10

1920 x 1080

30

40

-

39

-

79

iPhone XR

1920 x 1080

30

40

-

39

-

79

Всего

290

484

250

400

1424

Когда жулик снимает на камеру мобильника, он может попробовать дополнительно обмануть систему, добавив необычное, например, розовое, освещение или перекрыв часть документа пальцами. Если вы используете детекторы аномалий, анализирующие цветность, или же детекторы на основе нейронных сетей, важно учесть все эти особенности. Ведь сложно угадать, что скажет сеть, обученная на картинках, снятых при обычном комнатном освещении, на черно-белую копию, освещенную радужной лампой. Далее на рисунках можно посмотреть на разные примеры освещений и искажений.

Много картинок
Рисунок 2 - Освещение на исходных документах
Рисунок 2 - Освещение на исходных документах
Рисунок 3 - Освещение на черно-белых копиях
Рисунок 3 - Освещение на черно-белых копиях
Рисунок 4 - Пальцы и другие лишние элементы на изображениях
Рисунок 4 - Пальцы и другие лишние элементы на изображениях
Рисунок 5 - Блики на ламинированных документах
Рисунок 5 - Блики на ламинированных документах

Эксперименты и бейзлайны

В научном сообществе принято одновременно с датасетом сразу публиковать и бейзлайны для основных задач, которые на нем можно решать. Обычно для них используют простые в реализации, открыто опубликованные или даже тривиальные детекторы, чтобы провести нижнюю границу результатов.

Так, для DLC-2021, как можно догадаться по предложенным вариантам атак, мы опубликовали бейзлайны для трех типов бинарной классификации: 

  1. исходный документ или фото на экране; 

  2. исходный документ или цветная неламинированной копия;

  3. исходный документ или черно-белая копия.

Для начала для всех трех задач мы замерили тривиальные детекторы следующих видов: 

  1. Детектор всегда говорит, что показан документ без подозрительных свойств;

  2. Детектор всегда говорит, что показана копия;

  3. Детектор выдает случайный ответ из взвешенного распределения, учитывающего баланс классов в обучающей выборке (усредненно по 10 прогонам); 

  4. Детектор выдает случайный ответ из равномерного распределения (усредненно по 10 прогонам).

Также в задаче детекции монитора мы замерили качество предбученного на ImageNet ResNet-50 из TensorFlow Model Garden, заменив последний слой на бинарную классификацию и дообучив только его.  В задачах детекции цветных и черно-белых копий использовать ResNet-50 не получилось, так как он стабильно переобучивался на имеющемся объеме данных. Так что для детекции цветных копий мы обучили сверточную сеть из 12 слоев (архитектуру можно найти в оригинальной статье), а для детекции черно-белых копий оставили только тривиальные классификаторы. В таблицах 2-4 можно посмотреть оценки детекций.

Таблица 2 - Оценки детекции монитора.

Метрика

Сеть

Тривиальный классификатор

Аномалий не обнаружено

Всё подделка

Взвешенное

Равномерное

Качество

89.67%

59.63%

40.37%

51.28 ± 0.38%

50.16 ± 0.31%

Точность

85.89%

-

40.37%

40.29 ± 0.45%

40.53 ± 0.29%

Полнота

89.03%

0.00%

100.00%

42.93 ± 0.59%

50.20 ± 0.34%

Таблица 3 - Оценки детекции цветной копии.

Метрика

Сеть

Тривиальный классификатор

Аномалий не обнаружено

Всё подделка

Взвешенное

Равномерное

Качество

83.61%

8.92%

91.08%

74.39 ± 0.19%

49.98 ± 0.21%

Точность

96.01%

-

91.08%

91.10 ± 0.07%

91.07 ± 0.15%

Полнота

85.56%

0.00%

100.00%

79.67 ± 0.20%

49.99 ± 0.17%

Таблица 4 - Оценки детекции чб копии.

Метрика

Тривиальный классификатор

Аномалий не обнаружено

Всё подделка

Взвешенное

Равномерное

Качество

60.83%

39.17%

44.06 ± 0.25%

50.09 ± 0.26%

Точность

-

39.17%

39.22 ± 0.15%

39.26 ± 0.25%

Полнота

0.00%

100.00%

77.82 ± 0.32%

50.11 ± 0.35%

Вместо выводов

Мы уверены, что датасет будет полезен тем, кто работает в сфере анализа изображений документов, особенно, документов, удостоверяющих личность. В конце концов, в нашей области открытых датасетов крайне мало. Ссылайтесь на нас 

D. V. Polevoy, I. V. Sigareva, D. M. Ershova, V. V. Arlazarov, D. P. Nikolaev, M. Zuheng, M. L. Muhammad and J. Burie, “Document Liveness Challenge dataset (DLC-2021),” J. Imaging, vol. 8, no 7, pp. 181-1-181-12, 2022, DOI: 10.3390/jimaging8070181,

если используете его в публикуемых работах. И помните, что данные являются движущей силой в развитии современного ИИ.

P.S. DLC-2021 можно также использовать для увеличения выборки при решении стандартных задач распознавания документов, например, детекции документа на изображении или в видеопотоке, типизация, поиск фотографии лица. Можно использовать как выборку для проведения конкурсов по ловле атаки на предъявление. Можно даже пытаться использовать эти данные как часть выборки для PRNU-анализа изображений, который популярен при поиске дипфейков.

Комментарии (0)