Группа ученых из Калифорнийского университета в Сан-Диего продемонстрировала, что даже самые продвинутые системы обнаружения дипфейков можно обмануть. Для этого достаточно внедрить входные данные или состязательные примеры в каждый видеокадр дипфейка.
Состязательные примеры представляют собой слегка измененные входные данные, которые заставляют системы искусственного интеллекта допускать ошибку. Причем, данный метод работает даже после сжатия видео.
«Наша работа показывает, что атаки на детекторы дипфейков могут быть реальной угрозой», — отмечает соавтор работы Шехзин Хуссейн. По его словам, можно создавать дипфейки, даже не понимая ничего в работе модели машинного обучения, используемой детектором.
Типичные детекторы дипфейков фокусируются на лицах в видеороликах: сначала отслеживают их, а затем передают данные лица в нейронную сеть, которая определяет, настоящее оно или поддельное. Например, дипфейки не могут воспроизводить моргание, и детекторы фокусируются на движениях глаз.
Если же злоумышленники имеют некоторое представление о работе детекторов, то они могут разработать входные данные для их нацеливания на слепые зоны.
Исследователи создали состязательный пример для каждого лица в кадре видео. Алгоритм оценивает набор входных преобразований, как модель оценивает реальные или поддельные изображения. Затем он использует эту оценку для преобразования изображений таким образом, что они работают даже после сжатия и распаковки. Измененная версия лица вставляется в видеокадры. Этот процесс повторяется для всех кадров видео, чтобы создать итоговый дипфейк-ролик.
Исследователи протестировали свои дипфейки в двух сценариях: в первом хакеры имеют полный доступ к модели детектора, включая конвейер извлечения лиц, а также архитектуру и параметры модели классификации; во втором злоумышленники могут запрашивать модель машинного обучения только для определения вероятности того, что кадр будет классифицирован как настоящий или поддельный.
В первом сценарии вероятность успеха атаки для несжатых видео превышает 99%. Для сжатых видео — 84,96%. Во втором сценарии коэффициент успеха составил 86,43% для несжатого видео и 78,33% — для сжатого.
Команда отказалась публиковать свой код, чтобы его не могли использовать злоумышленники.
Для улучшения детекторов исследователи рекомендуют подход, аналогичный состязательному обучению: во время обучения противник продолжает генерировать новые дипфейки и детектор продолжает совершенствоваться.
Ранее исследователи из Бингемтонского университета совместно с Intel предложили определять дипфейки на основе невидимых для глаза изменений цвета кожи, обусловленных кровообращением. Метод фотоплетизмограммы позволяет регистрировать изменения кровяного потока с использованием источника инфракрасного или светового излучения и фоторезистора или фототранзистора.
ValRusDev
Это всегда будет борьбой щита и меча.
Graid
Или получится как с капчами, долго боролись, но в итоге практически сдались. Люди в итоге страдали больше чем боты. Сейчас они вроде как есть, но фильтруют только самые простейшие атаки.
Vilgelm
Сейчас капчи куда более продвинутые как раз стали, по сути большинство — это или рекапча\hcaptcha, где надо выбирать велосипеды (и которую так просто не передать на распознавание), или аналог еще похлеще, где надо искать одинаковые изображения 10 раз подряд. Все это сложнее чем даже легендарная рапидшаровская капча с котиками.
Graid
Не знаю в чем продвинутость. Механизм давно отлажен, популярность рекапчи ее же и проблема. Интегрировать сервис, по разгадывание занимает от силы 30 мин.
При желании и объёмах можно своё решение сделать. Нужны чистые прокси, прогревать куки на них, небольшой реверс JS и сеть успешно распознающая переходы, автобусы и светофоры, etc?.