Security Week 2307: утечка обучающих датасетов из нейросетей / forpes.ru

Главная
Security Week 2307: утечка обучающих датасетов из нейросетей

Security Week 2307: утечка обучающих датасетов из нейросетей +7

13.02.2023 14:49

Kaspersky_Lab 8 1900 Источник

Исследователи из университетов США и Швейцарии опубликовали научную работу, в которой исследуется утечка данных, используемых для обучения нейросетей. Конкретно изучались диффузионные модели, а большинство экспериментов проводились с разработками Stable Diffusion и Imagen, генерирующими картинки по текстовому запросу. Для них было показано несколько вариантов атак, в результате которых генерируется не «новое» изображение, а практически идентичная копия картинки из обучающего датасета.

Исследование вносит вклад в общее обсуждение этичности использования авторских изображений для обучения нейросетей. В середине января несколько художников даже подали иск к создателям подобных сервисов, в котором, в частности, как источник проблем упоминается Stable Diffusion. Новые методы, провоцирующие утечки обучающих изображений, могут использоваться как для выведения сервисов «на чистую воду», так и для улучшения защиты исходных картинок разработчиками. В некоторых случаях, когда в датасетах содержится приватная информация, исключить утечки может быть особенно важно.

Самый простой метод «атаки» показан на картинке ниже. По текстовому запросу, содержащему имя и фамилию реального человека, выдается очень похожая на оригинал фотография с традиционными для алгоритмов машинного обучения «криповатыми» изменениями. Исследователи выяснили, что главным триггером таких утечек является большое количество дубликатов одной и той же картинки в датасете — речь идет о десятках копий. Из 500 случайно выбранных часто копируемых изображений авторам работы удалось сгенерировать 109 практически идентичных копий. Большинство из них — фотографии людей, продуктов или логотипы, как показано на первом скриншоте в статье.

Тестирование проводилось и на тех изображениях, которые присутствуют в датасете в единственном экземпляре. В этом случае процент «утечек» серьезно снижается и возникают трудности уже с отделением настоящих дубликатов от картинок по мотивам обучающего датасета. Пожалуй, самая интересная атака предлагает нейросети дорисовать картинку на основе фрагмента:

Как минимум с искусственными примерами данный метод позволяет надежно определить, имеется ли какое-то изображение в датасете. В теории это поможет доказать нарушение авторских прав либо приведет к утечке приватных данных. В качестве решения проблемы исследователи предлагают очевидное: убрать из обучающего набора дубликаты. Кроме того, предлагается метод внесения искажений в обучающие картинки, снижающий сходство сгенерированной картинки с оригиналом. Наконец, поднимается вопрос предварительного тестирования систем генерации картинок с использованием «изображений-канареек»: это позволит получить объективную оценку в виде доли изображений, выдаваемых почти без изменений.

В исследовании также сравнивается приватность датасетов в разных алгоритмах — диффузионные сети сравниваются с генеративно-состязательными (GAN). Последние ввиду своих особенностей допускают меньше утечек, но и в них иногда «создаются» изображения, практически идентичные таковым из обучающего набора.

Что еще произошло:

Новая статья экспертов «Лаборатории Касперского» рассказывает о веб-маяках: трекинговых пикселях или скриптах. Приведена интересная статистика популярности различных трекеров в вебе: в первой тройке — инструменты компаний Google, Microsoft и Amazon. В почтовых сообщениях чаще всего встречаются трекеры сервисов Mailchimp, Sendgrid и интернет-магазина Rakuten.

В свежем патче библиотеки OpenSSL закрыта серьезная уязвимость, позволяющая читать данные из оперативной памяти и инициировать отказ в обслуживании.

Свежая история о компрометации учетных данных сотрудника, на этот раз от социальной сети Reddit. Взлом учетки обеспечил организаторам атаки доступ к внутренней документации и исходному коду, но не к пользовательским данным.

Издание Ars Technica рассказывает об уязвимости в игре DOTA 2, которую компания Valve не могла исправить больше года. Точнее, уязвимость присутствовала в движке Javascript V8 от компании Google, который используется в игре. Промедление с выпуском патча для известной уязвимости привело к распространению вредоносных модов к игре в марте прошлого года.

На прошлых выходных был взломан почтовый сервер регистратора Namecheap, от имени которого распространялись фишинговые сообщения.

Комментарии (8)

Max_Pershin
00.00.0000 00:00
#25226108
+3
Как раз читал материалы судебного дела группы художников. Но авторы нейросети заявили что можно потребовать убрать свою работу из датасета? Но вот я плохо понимаю как это возможно, неужели после каждого такого заявления они её заново переучивают?
1. MountainGoat
  00.00.0000 00:00
  #25226816
  +2
  Я думаю речь идёт о блокировке имени этого художника в запросе, при работе через сайт.

v1000
00.00.0000 00:00
#25226166
Интересно, а есть ли определение "плагиата" изображения в зависимости от четкости изображения? Понятно, что если использовать мегапиксельную картинку, это плагиат. Но если в обучении используется 32х32 пиксела? Понятно, что это изображение все равно создано на основе оригинального, но где граница того размера, меньше которого полученное изображение нельзя считать тождественным оригинальному?
1. Max_Pershin
  00.00.0000 00:00
  #25226254
  Да нет там такого. Там такие объемы, такие кластеры... З2, насмешили, это в учебной сети для распознавания цифр.
1. Max_Pershin
  00.00.0000 00:00
  #25226286
  Хотя возражение это можно принять только если вы Малевич)
1. MountainGoat
  00.00.0000 00:00
  #25226812
  В первом StableDiffusion используется 512*512, во втором 768*768.

MountainGoat
00.00.0000 00:00
#25226820
Не видел детали этого исследования, но практически уверен, что они достигли этого, посылая в нейросеть вместо запросов "логотип Нетфликс на красной стене", специально сконструированные запросы вида "feibiiFeesui0IlaOch9eilei0Aesoo4". Если я прав, то, чтобы получить из нейросети конкретное изображение таким способом, совершенно не нужно, чтобы оно было в материалах обучения: большая часть изображения закодирована в запросе.
1. andrettv
  00.00.0000 00:00
  #25248024
  Исследование поверхности атак на ML-алгоритмы - https://towardsdatascience.com/how-to-attack-machine-learning-evasion-poisoning-inference-trojans-backdoors-a7cb5832595c