
Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные правки не бросаются в глаза и идеально прячутся в настоящем контексте. Авторы FakeParts показывают, что именно эти частичные манипуляции сейчас опаснее всего: они обманывают и людей, и алгоритмы, и при этом их почти негде честно тестировать. Команда предлагает решение — новый класс дипфейков FakeParts и большой бенчмарк FakePartsBench.

Почему это проблема сегодня?
Современные генераторы видео уже не оставляют привычных следов. В эксперименте авторов люди, даже зная, что перед ними может быть ИИ‑контент, заметно чаще ошибались на частичных правках, чем на классических дипфейках. Падение — более чем на треть. Лучшие детекторы тоже просели: где‑то они цепляются за низкоуровневые артефакты и ломаются на диффузионных моделях, где‑то видят семантику, но пропускают аккуратно сделанные кусочные подмены.
Что именно предлагают авторы
FakePartsBench — это свыше 25 тысяч коротких роликов, собранных из реальных видео и сгенерированных источников. В набор сбалансированно входят как полностью синтетические ролики, так и три типа частичных манипуляций:
пространственные: подмена лица, удаление и достраивание областей;
временные: интерполяция кадров;
стилевые: изменения цвета и текстуры без нарушения структуры сцены.
Все снабжено тонкой разметкой на уровне кадров и пикселей. Важная деталь — высокое разрешение и современные модели, включая закрытые системы вроде Sora и Veo2: именно они формируют реальный фон угроз, а не только лабораторные примеры.

Как собирался набор
Для реальных видео использовали открытые датасеты (DAVIS, YouTube‑VOS и др.). Полные дипфейки генерировали разными режимами: от текста к видео, от изображения к видео, а также гибрид TI2V; промты извлекались визуально‑языковой моделью PaLI‑Gemma 2, а исходные кадры и описания сохранялись.
Частичные манипуляции строились модульно:
FaceSwap на базе InsightFace;
Inpainting и outpainting с подбором масок через Grounded‑SAM‑2, заполнением DiffuEraser/ProPainter и согласованным достраиванием границ AkiRA;
Интерполяция движения с Framer;
Стилевые правки с RAVE, когда, например, меняется цвет животного, но сохранена динамика сцены.
Такое покрытие дает реалистичный спектр атак — от микроправок до сложных композиций.


Что показали тесты
Команда сравнила как кадро‑ориентированные, так и видео‑ориентированные детекторы: от классических CNN и частотных моделей до подходов на базе CLIP и современных видеоархитектур (например, DeMamba, AIGVDet). Ситуация такова:
универсальный провал на сложных кейсах: точность резко падает и на полных дипфейках, и на FakeParts;
старые CNN‑детекторы почти полностью теряют сигнал на диффузионных видео;
модели с опорой на семантику (CLIP‑семейство) лучше видят тонкие локальные правки, но хуже справляются с цельными роликами, сгенерированными качественными T2V‑системами;
гибриды, совмещающие пространственные признаки и движение (оптический поток), выигрывают на подмене лиц, но все еще уязвимы к аккуратному inpainting/outpainting.
Иными словами, сегодня приходится выбирать между чувствительностью к артефактам и пониманием смысла. FakePartsBench позволяет измерять этот баланс честно и подталкивает к объединению сильных сторон.
Люди тоже ошибаются
В пользовательском исследовании с онлайн‑интерфейсом около 80 участников по 20 роликов на человека сделали примерно 1,6 тыс. оценок. Средняя точность — 75,3%. Лучше всего участники выявляли яркие стилевые правки, сложнее — микроправки объектов и интерполяцию. Полностью синтетические ролики высокого качества (например, с согласованным движением и стабильным светом) тоже нерредко считаются реальными.


Что это меняет
Работа аккуратно вскрывает слепую зону: частичные правки особенно коварны, потому что сохраняют контекст, но подменяют смысл. Нужны детекторы, которые одновременно:
чувствительны к локальным несоответствиям и мелким пространственным ошибкам,
учитывают движение и согласованность света/теней во времени,
не зависят от конкретной генеративной модели и разрешения.
Авторы показывают, что комбинирование семантики и динамики действительно помогает, но впереди много инженерной работы. Ограничения честно описаны: генерация такого набора стоит дорого, полезно изучать влияние размера редактируемой области, а также контролировать риски неправильного использования. Тем не менее, сообщество получает реалистичный полигон для следующего поколения детекторов.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.