Всем привет! Мы в Smart Engines занимаемся распознаванием документов и часто об этом рассказываем, а еще мы часто публикуем результаты наших исследований в научных статьях и докладах. В результатах за прошлый год мы упомянули, что создали два открытых датасета. Совсем недавно мы писали о созданном нами наборе данных MIDV-2020. Теперь настало время DLC-2021. Ну что, поехали?
##MIDV-2020 (как и другие наборы семейства MIDV) предназначены для тестирования алгоритмов поиска и распознавания документов в предположении, что в мире нет мошенников. Однако все мы понимаем, что нужно как-то проверять, что камере действительно показан паспорт. Более того, алгоритмы для решения этой задачи нужно открыто оценивать и сравнивать. А значит - нам нужен новый открытый набор данных для экспериментов.
Атак на системы распознавания существует великое множество, однако хардкорные подделки встречаются редко. В большинстве случае наша цель - мелкие жулики, надеющиеся обмануть систему подручными способами. Например, они могут нагуглить фото чужого паспорта или сфотографировать свой, потом его зафотошопить, а потом показывать исправленное изображение на мониторе или распечатать такую "подделку" на принтере. Более официально это называется атака на предъявление (presentation attack) или атака ретрансляции (rebroadcast attack). Именно для оценки алгоритмов, детектирующих такие атаки, мы создали открытый набор аннотированных видеопоследовательностей DLC-2021.
Описание датасета
Мы рассматриваем три варианта атаки: показ черно-белой копии документа, показ цветной неламинированной копии и показ фотографии на мониторе. Итого, для каждого документа у нас есть четыре варианта, считая исходный. Основой DLC-2021 служат документы из MIDV-2020. Сами по себе они - муляжи, однако их можно использовать для оценки отдельных конкретных алгоритмов ловли тех или иных атак ретрансляции. На рисунке 1 можно посмотреть на все четыре варианта для греческого паспорта, а в таблице 1 - на общее количество снятых видеоклипов. Всего в датасете 80 различных документов (10 типов, по 8 штук на каждый).
Таблица 1 - Количество видеоклипов по вариантам.
Смарт-фон |
Разреше-ние |
FPS |
Вариант документа на видео |
Всего |
|||
Оригинал |
Цвет. копия |
Чб копия |
Фото экрана |
||||
Samsung S10 |
3840 х 2160 |
30 |
140 |
283 |
121 |
200 |
744 |
iPhone XR |
3840 х 2160 |
60 |
70 |
201 |
51 |
200 |
522 |
Samsung S10 |
1920 x 1080 |
30 |
40 |
- |
39 |
- |
79 |
iPhone XR |
1920 x 1080 |
30 |
40 |
- |
39 |
- |
79 |
Всего |
290 |
484 |
250 |
400 |
1424 |
Когда жулик снимает на камеру мобильника, он может попробовать дополнительно обмануть систему, добавив необычное, например, розовое, освещение или перекрыв часть документа пальцами. Если вы используете детекторы аномалий, анализирующие цветность, или же детекторы на основе нейронных сетей, важно учесть все эти особенности. Ведь сложно угадать, что скажет сеть, обученная на картинках, снятых при обычном комнатном освещении, на черно-белую копию, освещенную радужной лампой. Далее на рисунках можно посмотреть на разные примеры освещений и искажений.
Много картинок
Эксперименты и бейзлайны
В научном сообществе принято одновременно с датасетом сразу публиковать и бейзлайны для основных задач, которые на нем можно решать. Обычно для них используют простые в реализации, открыто опубликованные или даже тривиальные детекторы, чтобы провести нижнюю границу результатов.
Так, для DLC-2021, как можно догадаться по предложенным вариантам атак, мы опубликовали бейзлайны для трех типов бинарной классификации:
исходный документ или фото на экране;
исходный документ или цветная неламинированной копия;
исходный документ или черно-белая копия.
Для начала для всех трех задач мы замерили тривиальные детекторы следующих видов:
Детектор всегда говорит, что показан документ без подозрительных свойств;
Детектор всегда говорит, что показана копия;
Детектор выдает случайный ответ из взвешенного распределения, учитывающего баланс классов в обучающей выборке (усредненно по 10 прогонам);
Детектор выдает случайный ответ из равномерного распределения (усредненно по 10 прогонам).
Также в задаче детекции монитора мы замерили качество предбученного на ImageNet ResNet-50 из TensorFlow Model Garden, заменив последний слой на бинарную классификацию и дообучив только его. В задачах детекции цветных и черно-белых копий использовать ResNet-50 не получилось, так как он стабильно переобучивался на имеющемся объеме данных. Так что для детекции цветных копий мы обучили сверточную сеть из 12 слоев (архитектуру можно найти в оригинальной статье), а для детекции черно-белых копий оставили только тривиальные классификаторы. В таблицах 2-4 можно посмотреть оценки детекций.
Таблица 2 - Оценки детекции монитора.
Метрика |
Сеть |
Тривиальный классификатор |
|||
Аномалий не обнаружено |
Всё подделка |
Взвешенное |
Равномерное |
||
Качество |
89.67% |
59.63% |
40.37% |
51.28 ± 0.38% |
50.16 ± 0.31% |
Точность |
85.89% |
- |
40.37% |
40.29 ± 0.45% |
40.53 ± 0.29% |
Полнота |
89.03% |
0.00% |
100.00% |
42.93 ± 0.59% |
50.20 ± 0.34% |
Таблица 3 - Оценки детекции цветной копии.
Метрика |
Сеть |
Тривиальный классификатор |
|||
Аномалий не обнаружено |
Всё подделка |
Взвешенное |
Равномерное |
||
Качество |
83.61% |
8.92% |
91.08% |
74.39 ± 0.19% |
49.98 ± 0.21% |
Точность |
96.01% |
- |
91.08% |
91.10 ± 0.07% |
91.07 ± 0.15% |
Полнота |
85.56% |
0.00% |
100.00% |
79.67 ± 0.20% |
49.99 ± 0.17% |
Таблица 4 - Оценки детекции чб копии.
Метрика |
Тривиальный классификатор |
|||
Аномалий не обнаружено |
Всё подделка |
Взвешенное |
Равномерное |
|
Качество |
60.83% |
39.17% |
44.06 ± 0.25% |
50.09 ± 0.26% |
Точность |
- |
39.17% |
39.22 ± 0.15% |
39.26 ± 0.25% |
Полнота |
0.00% |
100.00% |
77.82 ± 0.32% |
50.11 ± 0.35% |
Вместо выводов
Мы уверены, что датасет будет полезен тем, кто работает в сфере анализа изображений документов, особенно, документов, удостоверяющих личность. В конце концов, в нашей области открытых датасетов крайне мало. Ссылайтесь на нас
D. V. Polevoy, I. V. Sigareva, D. M. Ershova, V. V. Arlazarov, D. P. Nikolaev, M. Zuheng, M. L. Muhammad and J. Burie, “Document Liveness Challenge dataset (DLC-2021),” J. Imaging, vol. 8, no 7, pp. 181-1-181-12, 2022, DOI: 10.3390/jimaging8070181,
если используете его в публикуемых работах. И помните, что данные являются движущей силой в развитии современного ИИ.
P.S. DLC-2021 можно также использовать для увеличения выборки при решении стандартных задач распознавания документов, например, детекции документа на изображении или в видеопотоке, типизация, поиск фотографии лица. Можно использовать как выборку для проведения конкурсов по ловле атаки на предъявление. Можно даже пытаться использовать эти данные как часть выборки для PRNU-анализа изображений, который популярен при поиске дипфейков.