Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные правки не бросаются в глаза и идеально прячутся в настоящем контексте. Авторы FakeParts показывают, что именно эти частичные манипуляции сейчас опаснее всего: они обманывают и людей, и алгоритмы, и при этом их почти негде честно тестировать. Команда предлагает решение — новый класс дипфейков FakeParts и большой бенчмарк FakePartsBench.

FakePartsBench — первый датасет, специально созданный для включения дипфейков FakeParts и результатов современных генеративных моделей ИИ.
FakePartsBench — первый датасет, специально созданный для включения дипфейков FakeParts и результатов современных генеративных моделей ИИ.

Почему это проблема сегодня?

Современные генераторы видео уже не оставляют привычных следов. В эксперименте авторов люди, даже зная, что перед ними может быть ИИ‑контент, заметно чаще ошибались на частичных правках, чем на классических дипфейках. Падение — более чем на треть. Лучшие детекторы тоже просели: где‑то они цепляются за низкоуровневые артефакты и ломаются на диффузионных моделях, где‑то видят семантику, но пропускают аккуратно сделанные кусочные подмены.

Что именно предлагают авторы

FakePartsBench — это свыше 25 тысяч коротких роликов, собранных из реальных видео и сгенерированных источников. В набор сбалансированно входят как полностью синтетические ролики, так и три типа частичных манипуляций:

  • пространственные: подмена лица, удаление и достраивание областей;

  • временные: интерполяция кадров;

  • стилевые: изменения цвета и текстуры без нарушения структуры сцены.

Все снабжено тонкой разметкой на уровне кадров и пикселей. Важная деталь — высокое разрешение и современные модели, включая закрытые системы вроде Sora и Veo2: именно они формируют реальный фон угроз, а не только лабораторные примеры.

Пайплайн FakePartsBench включает как полностью поддельные, так и частично поддельные дипфейк‑видео: временные, пространственные и стилевые правки.
Пайплайн FakePartsBench включает как полностью поддельные, так и частично поддельные дипфейк‑видео: временные, пространственные и стилевые правки.

Как собирался набор

Для реальных видео использовали открытые датасеты (DAVIS, YouTube‑VOS и др.). Полные дипфейки генерировали разными режимами: от текста к видео, от изображения к видео, а также гибрид TI2V; промты извлекались визуально‑языковой моделью PaLI‑Gemma 2, а исходные кадры и описания сохранялись.

Частичные манипуляции строились модульно:

  • FaceSwap на базе InsightFace;

  • Inpainting и outpainting с подбором масок через Grounded‑SAM‑2, заполнением DiffuEraser/ProPainter и согласованным достраиванием границ AkiRA;

  • Интерполяция движения с Framer;

  • Стилевые правки с RAVE, когда, например, меняется цвет животного, но сохранена динамика сцены.

Такое покрытие дает реалистичный спектр атак — от микроправок до сложных композиций.

Распределение длины подписей по числу слов в FakePartsBench
Распределение длины подписей по числу слов в FakePartsBench
Распределение тем набора данных FakePartsBench
Распределение тем набора данных FakePartsBench

Что показали тесты

Команда сравнила как кадро‑ориентированные, так и видео‑ориентированные детекторы: от классических CNN и частотных моделей до подходов на базе CLIP и современных видеоархитектур (например, DeMamba, AIGVDet). Ситуация такова:

  • универсальный провал на сложных кейсах: точность резко падает и на полных дипфейках, и на FakeParts;

  • старые CNN‑детекторы почти полностью теряют сигнал на диффузионных видео;

  • модели с опорой на семантику (CLIP‑семейство) лучше видят тонкие локальные правки, но хуже справляются с цельными роликами, сгенерированными качественными T2V‑системами;

  • гибриды, совмещающие пространственные признаки и движение (оптический поток), выигрывают на подмене лиц, но все еще уязвимы к аккуратному inpainting/outpainting.

Иными словами, сегодня приходится выбирать между чувствительностью к артефактам и пониманием смысла. FakePartsBench позволяет измерять этот баланс честно и подталкивает к объединению сильных сторон.

Люди тоже ошибаются

В пользовательском исследовании с онлайн‑интерфейсом около 80 участников по 20 роликов на человека сделали примерно 1,6 тыс. оценок. Средняя точность — 75,3%. Лучше всего участники выявляли яркие стилевые правки, сложнее — микроправки объектов и интерполяцию. Полностью синтетические ролики высокого качества (например, с согласованным движением и стабильным светом) тоже нерредко считаются реальными.

Первая страница, которую видят аннотаторы для видео 1.
Первая страница, которую видят аннотаторы для видео 1.
Облако слов из человеческих объяснений: чаще всего люди опираются на динамику, освещение, текстуры и физику сцены.
Облако слов из человеческих объяснений: чаще всего люди опираются на динамику, освещение, текстуры и физику сцены.

Что это меняет

Работа аккуратно вскрывает слепую зону: частичные правки особенно коварны, потому что сохраняют контекст, но подменяют смысл. Нужны детекторы, которые одновременно:

  • чувствительны к локальным несоответствиям и мелким пространственным ошибкам,

  • учитывают движение и согласованность света/теней во времени,

  • не зависят от конкретной генеративной модели и разрешения.

Авторы показывают, что комбинирование семантики и динамики действительно помогает, но впереди много инженерной работы. Ограничения честно описаны: генерация такого набора стоит дорого, полезно изучать влияние размера редактируемой области, а также контролировать риски неправильного использования. Тем не менее, сообщество получает реалистичный полигон для следующего поколения детекторов.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)