Представьте зал суда. Прокурор с гордостью представляет неопровержимые, как ему кажется, доказательства: отпечаток пальца, запись с камеры наблюдения, ДНК-экспертизу. Всё сходится идеально, виновность очевидна. И тут адвокат, заявляет: «Ваши доказательства подходят и к его брату-близнецу». В зале повисает тишина, судья хмурится. Технологии, на разработку которых были потрачены миллионы, оказываются недостаточно надёжными.
Это не эпизод из криминального сериала, а отсылка к реальным случаям, в которых современные системы столкнулись с проблемой идентичных данных. Например, в 1985 году в США две сестры-близнеца обманывали систему правосудия, перекладывая вину друг на друга (в итоге, удалось доказать причастность каждой к мошенническим действиям и осудили их обеих).
Или случай из Германии 2009 года, когда братья-близнецы Хассан и Аббас О. избежали суда за кражу драгоценностей из-за неспособности полиции доказать, кому именно из них принадлежат найденные отпечатки пальцев и ДНК.
-----
Недавно я написала статью о некоторых сценариях обхода биометрических систем в кинематографе и мне указали на то, что я не затронула тему однояйцевых близнецов. Тема, действительно, интересная.
Физическая биометрическая идентификация однояйцевых или монозиготных близнецов (бывает еще поведенческая, но это тема для отдельной статьи) - частная задача биометрии, актуальная для систем с критически высокой стоимостью ошибки (например, в оборонке). Однояйцевых близнецов в популяции совсем немного и тему обсуждают нечасто. По сути, задача сводится к одному вопросу - сможет ли система отличить однояйцевых близнецов друг от друга. Но каждый новый кейс сияет ярко, потому что является аномалией и указывает на несовершенства существующих технологий.
Давайте разбираться, в чем же сложность и что нам говорят исследования. Сначала мы посмотрим на проблематику в отдельных типах биометрических систем и затем, соберем все воедино.
Много слов о биологии, проблеме и исследованиях
Биометрическая идентификация основана на принципе уникальности. Мы используем отпечатки пальцев, радужную оболочку глаза и лицо, потому что они кажутся уникальными для каждого человека. И в большинстве случаев это действительно так.
Но однояйцевые близнецы — это исключение из правил, неплохой стресс-тест для любой системы. Потому что их идентичность глубже, чем просто внешние черты. Их генетический код может иметь идентичную последовательность ДНК, за исключением мутаций de novo, которые возникают после разделения эмбриона и редко затрагивают области, релевантные биометрическим данным. Это значит, что разница между близнецами — не макроуровневые особенности, вроде формы носа или структуры радужки, а микроскопические детали, которые часто скрываются даже от самых современных алгоритмов.
Теория о близнецах: генетика и реальная идентичность
Близнецы бывают разные. В широком смысле, их обычно классифицируют, как:
Двуяйцевые (дизиготные) близнецы.
Их генетическая схожесть не выше, чем у обычных братьев и сестёр. С точки зрения биометрии, это типичный случай, который не вызывает серьёзных проблем.Однояйцевые (монозиготные) близнецы.
Они появляются в 3-4х случаях из 1000, когда одна оплодотворённая яйцеклетка делится, создавая двух (или больше) эмбрионов с идентичным генетическим кодом. Но даже здесь есть вариативность: в процессе роста и развития могут появиться эпигенетические различия, которые делают их не совсем одинаковыми, влияя скорее на фенотипические проявления (например, структуру тканей), а не напрямую на биометрические параметры, такие как отпечатки пальцев или текстура радужки. Изменения могут начинаться на ранних этапах эмбрионального развития.
Современные методы, такие как SNP-генотипирование, могут различить идентичных близнецов на молекулярном уровне (но они пока не играют значимой роли в биометрических системах). А исследование 2021 года показывает, что идентичными, с точки зрения генома, являются около 15% монозиготных близнецов. И это - очень важная информация, потому что традиционно считается, что все или почти все однояйцевые близнецы генетически идентичны или почти идентичны, а эпигенетические различия (например, модификации ДНК) могут возникать в процессе жизни, влияя на развитие организма, но не изменяя последовательность генов.
Эмпирические исследования однояйцевых близнецов, связанные с биометрией, как правило, не включают в себя этап исследования генетической идентичности участников (не могу утверждать относительно всех существующих в мире исследований, но мне не встречались, да и понятно, что проводить ДНК-тест для каждого участника - занятие не из дешевых). А значит, мы не знаем, сколько реально идентичных близнецов участвовали в выборках исследований. Как и не знаем степень соответствия генома участников.
Подчеркну, что степень генетической идентичности может влиять на физиологические параметры, такие как текстура кожи, структура радужной оболочки или особенности отпечатков пальцев. Без точного знания генетической идентичности близнецов, участвующих в исследовании, сложно определить, какие из выявленных различий обусловлены случайными факторами развития, а какие — минимальными генетическими вариациями, включая мутации de novo. Так что, это может вносить погрешности в интерпретацию данных о точности биометрических систем.
Почему технологии сталкиваются с проблемами?
Различить однояйцевых близнецов бывает сложно не только потому, что их внешность схожа. Например, рисунок отпечатков пальцев формируется на 10–16 неделе внутриутробного развития и зависит как от генетики, так и от случайных факторов: давления амниотической жидкости, температуры и углов соприкосновения с маточной стенкой. В результате крупные узоры (дуги, петли, завитки) у близнецов могут совпадать, но микродетали — поры, окончания линий — различаются.
Для систем, работающих с крупными признаками, такие различия становятся невидимыми. А если добавить к этому загрязнённые сенсоры, плохое освещение или неидеальное положение пальца, то даже ультрасовременные алгоритмы начинают ошибаться. Так что, идентичные близнецы с микроскопическими отличиями, находятся на грани разрешающей способности современных алгоритмов.
Отпечатки пальцев: от генетического кода до микроскопических отличий
Рисунок отпечатков закладывается на 10–16 неделе внутриутробного развития, когда на подушечках пальцев начинают появляться первичные гребешки. Этот процесс обусловлен взаимодействием генетики и микроскопических случайностей. Исследования показали, что три ключевых сигнальных пути — WNT, BMP и EDAR — управляют формированием гребешков:
WNT стимулирует рост клеток, формируя гребешки.
BMP подавляет рост, создавая бороздки.
EDAR регулирует форму и размер гребешков.
Эти сигнальные пути работают как сложная система "включений" и "выключений", где малейшие колебания в их активности приводят к уникальным рисункам. Например, гребешки начинают формироваться в трёх точках подушечки пальца: в центре, у ногтевого ложа и в складке сустава. Их рост направляется волнами, взаимодействующими с анатомией пальца. Чем больше подушечка и раньше начнётся формирование гребешков, тем выше вероятность, что узор будет завитком. Позднее начало часто приводит к образованию арок.
Генетические сигналы WNT, BMP и EDAR играют ключевую роль, но они действуют в комплексе с другими молекулярными путями, такими как FGF и SHH, регулирующими клеточную миграцию и пролиферацию. Современные научные работы пока не дают полного понимания механизма, так как взаимодействие между этими путями остаётся предметом активных исследований, и влияние среды внутри утробы на финальный рисунок отпечатков ещё не до конца изучено.
У однояйцевых близнецов генетика задаёт крупные паттерны, но микродетали — минуции, поры, расстояния между линиями — формируются под влиянием случайных факторов. Исследования, такие как работы учёных из Фуданьского университета, показали, что даже небольшие различия во времени активации сигнальных путей или форме подушечки приводят к уникальным рисункам. Например, если гребешки одного близнеца начнут формироваться на день позже, их узоры будут уже разными.
Любопытный оффтоп — связь между гребешками и волосяными фолликулами. Оказалось, что те же пути WNT, BMP и EDAR, которые управляют формированием отпечатков, отвечают за развитие волос. На пальцах этот процесс останавливается на ранней стадии, и вместо фолликулов образуются гребешки.
Как распознаются отпечатки?
Современные технологии распознавания опираются на выделение ключевых точек (минуций): окончания линий, разветвления и поры. Точность таких систем зависит от качества сенсоров и алгоритмов. Чтобы распознать детали, нужны точные сенсоры:
Оптические сенсоры фиксируют 2D-изображение.
Емкостные сенсоры измеряют электрическое сопротивление, определяя рельеф кожи, но в реальных системах они уязвимы к проблемам сухости кожи, сильным загрязнениям или наличию масла.
Ультразвуковые сенсоры создают трёхмерную карту отпечатка, анализируя глубину и текстуру линий, используются, например, в Samsung Galaxy.
Проблемы с близнецами и статистика ошибок
В начале статьи я упоминала громкое дело в Германии, где отпечатки пальцев братьев-близнецов стали тупиком для расследования. На месте преступления была найдена перчатка. По отпечаткам пальцев и ДНК внутри перчатки полиция вышла на подозреваемого, у которого был монозиготный брат-близнец. Оба - Хассан и Аббас О. - были арестованы. Однако эксперты не смогли установить, кому именно принадлежала перчатка, и братья были отпущены на свободу без предъявления обвинений и суда. Кстати, речь идет о краже драгоценностей на сумму в 6 млн евро.
Статистически, вероятность совпадения крупных узоров у монозиготных близнецов достигает 74%, что гораздо выше, чем у неидентичных родственников (32%). Это создает значительные трудности в криминалистике и других областях.
Распознавание лиц: за кулисами биометрических технологий
Распознавание лиц основывается на задаче поиска и сопоставления уникальных характеристик. Камера фиксирует изображение, после чего система выделяет ключевые черты: расстояние между глазами, форма носа, контуры губ, структура челюсти. Эти параметры преобразуются в цифровой шаблон — embedding, который затем сравнивается с базой данных. Современные алгоритмы, такие как ResNet и FaceNet, используют глубокие нейронные сети, обученные выделять как видимые, так и тонкие невидимые признаки, например текстуру кожи или отражения света. Эти embedding сопоставляются с помощью таких метрик, как косинусное расстояние, что позволяет эффективно различать лица.
Для обучения систем используются крупные наборы данных, такие как VGGFace2 или CASIA-WebFace, содержащие миллионы изображений лиц с различными ракурсами, выражениями и условиями съёмки. Например, ArcFace и CosFace применяют усовершенствованные функции потерь, что позволяет минимизировать рассеяние данных внутри одной категории (например, снимки одного человека) и увеличивать различия между категориями. Это делает их одними из самых точных алгоритмов на сегодняшний день.
Современные подходы включают технологии 3D-сканирования, создающие трёхмерные модели лица для устойчивости к изменениям угла наклона или освещения. Face ID от Apple — пример успешного применения этой технологии в коммерческих устройствах. Термограммы, фиксирующие тепловые рисунки лица, повышают уникальность данных, но из-за дороговизны используются только в специализированных системах. Динамическое распознавание, анализирующее микродвижения, такие как моргание или улыбка, защищает от атак с использованием статичных изображений.
Инновации, такие как генеративные сети (GAN), помогают синтезировать дополнительные данные для обучения, улучшая точность алгоритмов. Однако GAN также могут использоваться для создания deepfake, что представляет угрозу безопасности. Мультимодальные подходы, комбинирующие данные о лице с голосом или манерой движений, находят применение в задачах, где ошибки недопустимы.
Близнецы: стресс-тест для технологий
Монозиготные близнецы, чьи лица имеют почти идентичную геометрию, бросают вызов любым алгоритмам. Современные системы могут работать на основе геометрических и текстурных признаков, таких как расстояние между глазами, форма носа, структура скул. У близнецов эти параметры могут быть настолько схожи, что различить их становится чрезвычайно трудно. Хотя, современные алгоритмы обучаются на специальных наборах данных (например, Twins Days), чтобы минимизировать ошибки в таких случаях.
Известный случай сестёр Чжоу из Китая: они на протяжении нескольких лет использовали паспорта друг друга, посетив более 30 стран, включая Китай, Японию, Бразилию, Россию (страны, в которых, как считается, реализованы одни из самых сложных систем безопасности аэропортов), пока китайские власти в 2022 году не раскрыли их аферу. Как именно власти обличили их схему - история умалчивает.
Исследование, проведённое с использованием набора данных Twins Days Университета Нотр-Дам, показало, что при идеальных условиях (нейтральное выражение, студийное освещение) алгоритмы могут различать близнецов с минимальной ошибкой. Одна из систем достигла уровня EER (Equal Error Rate) всего 0.01 (в лабораторных условиях).
Но добавьте неидеальные условия — например, мимику, очки или плохое освещение — и точность резко падает. Даже самые современные алгоритмы, такие как ArcFace или CosFace, начинают ошибаться.
Более того, если изображения сделаны с разницей в несколько лет, вероятность ошибки идентификации в паре монозиготных близнецов возрастает. Это связано с микроскопическими изменениями лица, такими как морщины или асимметрия, которые могут запутать алгоритмы, обученные на шаблонах без учёта возрастных изменений в парах близнецов. В одном из экспериментов, системы смогли различить близнецов лишь в 80% случаев, причём точность падала до 50%, если изображение-шаблон было сделано больше года назад.
Концепция сходства и двойники
Распознавание (Face recognition) и сходство (Face similarity) — это не одно и то же. Если задача распознавания в идентификации заключается в соответствии шаблону, то сходство направлено на оценку, насколько два лица похожи.
Например, сеть, обученная Sadovnik et al., была специально разработана для оценки визуального сходства. Она анализировала пары лиц, где схожесть оценивалась людьми, и достигла AUC 0.9799. Это впечатляющий результат, но та же сеть оказалась менее эффективной для задач идентификации, что подчёркивает разницу между этими двумя задачами.
На практике, сходство может помогать фильтровать сложные случаи. Например, если два лица имеют высокую степень сходства, система может передать эти данные для более глубокого анализа, вместо того чтобы принять их за одного человека.
В отличие от близнецов, двойники (doppelgängers) — это лица, которые имеют высокую степень схожести, но не связаны генетически. С увеличением баз данных вероятность встретить двойника возрастает. Например, в крупных системах с миллионами записей, таких как государственные системы безопасности или коммерческие приложения, вероятность ложного совпадения может расти экспоненциально. Работа с двойниками актуальна для систем, где требования к точности менее критичны, в отличие от задач безопасности.
Одно из исследований показало, что при уровне ложных срабатываний FAR 1% до 99.99% субъектов в больших базах демонстрировали ложные совпадения для определённых пар двойников. Чем больше база данных, тем выше вероятность, что два лица окажутся настолько схожими, что система примет их за одного человека. Даже продвинутые системы, демонстрируют высокий уровень ошибок при работе с двойниками.
Радужная оболочка: вглядываясь в глаза идентичности
Радужная оболочка глаза давно считается одним из самых надёжных инструментов биометрии. Её уникальная текстура формируется на ранних этапах внутриутробного развития и остаётся практически неизменной на протяжении всей жизни. В отличие от отпечатков пальцев, которые могут стираться, или лица, которое подвержено возрастным изменениям, структура радужной оболочки стабильна.
Как формируется радужка?
Радужная оболочка формируется в первые шесть месяцев внутриутробного развития и принимает окончательную структуру к 8 месяцам беременности. Её структура является результатом сложного взаимодействия генетических и случайных факторов. Генетика определяет базовые параметры: цвет, плотность пигментации, начальную геометрию крипт и сосудов. Однако окончательный рисунок радужки создаётся под воздействием случайных процессов, таких как скорость деления клеток, особенности сосудистого роста и распределение пигмента.
На поверхности радужки формируются микроанатомические структуры (МАС), такие как крипты, радиальные борозды и сосудистая сеть. Они расположены хаотично, их пространственное распределение варьируется даже между двумя глазами одного человека. У однояйцевых близнецов МАС демонстрируют макроскопическое сходство, но микроскопические различия остаются, что создаёт технический вызов для систем распознавания.
Технология распознавания радужки
Современные системы распознавания радужки используют инфракрасное сканирование, чтобы захватить текстуру радужной оболочки. Почему именно инфракрасное излучение? Оно позволяет выделить детали, которые невидимы при обычном освещении, такие как сосудистая сеть и крипты. Камера фиксирует изображение с высоким разрешением (обычно 640×480 пикселей или выше), после чего данные передаются в систему анализа.
Классический процесс распознавания включает несколько этапов:
Локализация радужки. Алгоритмы выделяют область радужной оболочки, исключая зрачок и склеру. Часто используется метод Хафа для определения окружностей.
Нормализация. Радужка переводится в полярную координатную систему для устранения искажений, вызванных различными углами взгляда или расширением зрачка.
Извлечение признаков. Применяются фильтры Габора для выделения текстурных особенностей радужки, таких как частота, ориентация и амплитуда текстур. Эти данные преобразуются в бинарный код — уникальный "отпечаток" радужки.
Сравнение шаблонов. Код радужки сравнивается с эталонами в базе данных. Основной метрикой для оценки сходства является Хэммингово расстояние, измеряющее разницу между бинарными кодами. Современные алгоритмы могут дополнительно использовать сверточные сети для повышения точности.
Проблемы работы с близнецами
Основная трудность заключается в схожести их радужек на макроуровне. Если их генетическая программа идентична, а внутриутробные условия схожи, это может привести к одинаковой цветовой палитре, плотности сосудов и базовым геометрическим особенностям крипт.
Коммерческие системы, основанные, например, на Daugman’s IrisCode, используют множество текстурных признаков (здесь стоит заметить, что IrisCode - это широко используемый коммерческий алгоритм). Однако, если разрешение изображения недостаточно высокое или условия съёмки далеки от идеальных, мелкие различия могут быть утеряны.
Эксперименты показывают, что точность распознавания близнецов снижается на 20–30% по сравнению с общей популяцией. Например, при анализе 50 пар однояйцевых близнецов стандартные алгоритмы достигли точности 80%, но для оставшихся 20% потребовалось использование дополнительных методов, таких как глубокие нейронные сети.
Кроме того, даже небольшие изменения угла взгляда, расширения зрачка или освещения могут значительно повлиять на результаты.
Примеры сложностей в реальных условиях
В системе Aadhaar (Индия), обслуживающей более миллиарда человек, были зафиксированы случаи, когда близнецы регистрировались одновременно, вызывая ложные совпадения. Проблемы возникли из-за несовершенства алгоритмов, а не из-за принципиальной недостаточности данных радужки и были решены за счёт внедрения дополнительных параметров анализа, включая динамику зрачка. Сама система, также использует комбинацию данных (лицо, отпечатки, радужка).
Вместо заключения
Для систем с высокими требованиями к безопасности, таких как банковские системы или системы контроля доступа в секретные объекты, точная идентификация, даже в случае монозиготных близнецов, является важной. Хотя эта задача может считаться редкой, ее решение способствует повышению надежности и эффективности таких систем. Сочетание нескольких подходов идентификации, применение мультимодальных подходов и точного оборудования снижают вероятность ошибок, и в широком смысле и в задаче распознавания идентичных близнецов.
На текущий момент, например, компания VisionLabs рассказывает, что их система биометрической идентификации успешно различает даже близнецов, а компания TBS Biometrics провела тесты своего биометрического оборудования на идентичных близнецах, демонстрируя способность различать их.
Дальнейшие исследования в этой области позволят создать более надежные и универсальные методы идентификации, способные справиться с широким спектром вариаций биометрических данных.
Спасибо, что дочитали до конца! Я надеюсь, что Вы узнали что-то новое или интересное!