Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео / forpes.ru

Главная
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео

Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео +1

01.09.2025 12:47

andre_dataist 0 983 Источник

Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные правки не бросаются в глаза и идеально прячутся в настоящем контексте. Авторы FakeParts показывают, что именно эти частичные манипуляции сейчас опаснее всего: они обманывают и людей, и алгоритмы, и при этом их почти негде честно тестировать. Команда предлагает решение — новый класс дипфейков FakeParts и большой бенчмарк FakePartsBench.

FakePartsBench — первый датасет, специально созданный для включения дипфейков FakeParts и результатов современных генеративных моделей ИИ.

Почему это проблема сегодня?

Современные генераторы видео уже не оставляют привычных следов. В эксперименте авторов люди, даже зная, что перед ними может быть ИИ‑контент, заметно чаще ошибались на частичных правках, чем на классических дипфейках. Падение — более чем на треть. Лучшие детекторы тоже просели: где‑то они цепляются за низкоуровневые артефакты и ломаются на диффузионных моделях, где‑то видят семантику, но пропускают аккуратно сделанные кусочные подмены.

Что именно предлагают авторы

FakePartsBench — это свыше 25 тысяч коротких роликов, собранных из реальных видео и сгенерированных источников. В набор сбалансированно входят как полностью синтетические ролики, так и три типа частичных манипуляций:

пространственные: подмена лица, удаление и достраивание областей;
временные: интерполяция кадров;
стилевые: изменения цвета и текстуры без нарушения структуры сцены.

Все снабжено тонкой разметкой на уровне кадров и пикселей. Важная деталь — высокое разрешение и современные модели, включая закрытые системы вроде Sora и Veo2: именно они формируют реальный фон угроз, а не только лабораторные примеры.

Пайплайн FakePartsBench включает как полностью поддельные, так и частично поддельные дипфейк‑видео: временные, пространственные и стилевые правки.

Как собирался набор

Для реальных видео использовали открытые датасеты (DAVIS, YouTube‑VOS и др.). Полные дипфейки генерировали разными режимами: от текста к видео, от изображения к видео, а также гибрид TI2V; промты извлекались визуально‑языковой моделью PaLI‑Gemma 2, а исходные кадры и описания сохранялись.

Частичные манипуляции строились модульно:

FaceSwap на базе InsightFace;
Inpainting и outpainting с подбором масок через Grounded‑SAM‑2, заполнением DiffuEraser/ProPainter и согласованным достраиванием границ AkiRA;
Интерполяция движения с Framer;
Стилевые правки с RAVE, когда, например, меняется цвет животного, но сохранена динамика сцены.

Такое покрытие дает реалистичный спектр атак — от микроправок до сложных композиций.

Распределение длины подписей по числу слов в FakePartsBench

Распределение тем набора данных FakePartsBench

Что показали тесты

Команда сравнила как кадро‑ориентированные, так и видео‑ориентированные детекторы: от классических CNN и частотных моделей до подходов на базе CLIP и современных видеоархитектур (например, DeMamba, AIGVDet). Ситуация такова:

универсальный провал на сложных кейсах: точность резко падает и на полных дипфейках, и на FakeParts;
старые CNN‑детекторы почти полностью теряют сигнал на диффузионных видео;
модели с опорой на семантику (CLIP‑семейство) лучше видят тонкие локальные правки, но хуже справляются с цельными роликами, сгенерированными качественными T2V‑системами;
гибриды, совмещающие пространственные признаки и движение (оптический поток), выигрывают на подмене лиц, но все еще уязвимы к аккуратному inpainting/outpainting.

Иными словами, сегодня приходится выбирать между чувствительностью к артефактам и пониманием смысла. FakePartsBench позволяет измерять этот баланс честно и подталкивает к объединению сильных сторон.

Люди тоже ошибаются

В пользовательском исследовании с онлайн‑интерфейсом около 80 участников по 20 роликов на человека сделали примерно 1,6 тыс. оценок. Средняя точность — 75,3%. Лучше всего участники выявляли яркие стилевые правки, сложнее — микроправки объектов и интерполяцию. Полностью синтетические ролики высокого качества (например, с согласованным движением и стабильным светом) тоже нерредко считаются реальными.

Первая страница, которую видят аннотаторы для видео 1.

Облако слов из человеческих объяснений: чаще всего люди опираются на динамику, освещение, текстуры и физику сцены.

Что это меняет

Работа аккуратно вскрывает слепую зону: частичные правки особенно коварны, потому что сохраняют контекст, но подменяют смысл. Нужны детекторы, которые одновременно:

чувствительны к локальным несоответствиям и мелким пространственным ошибкам,
учитывают движение и согласованность света/теней во времени,
не зависят от конкретной генеративной модели и разрешения.

Авторы показывают, что комбинирование семантики и динамики действительно помогает, но впереди много инженерной работы. Ограничения честно описаны: генерация такого набора стоит дорого, полезно изучать влияние размера редактируемой области, а также контролировать риски неправильного использования. Тем не менее, сообщество получает реалистичный полигон для следующего поколения детекторов.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.