Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей / forpes.ru

Главная
Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей

Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей +47

25.07.2019 17:54

JetHabr 20 20000 Источник

Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом UCLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

«Анонимизированные» данные лежат в основе множества процессов: от современных медицинских исследований до персональных рекомендаций и ИИ-технологий. К сожалению, согласно проведённому исследованию, в любых сложных датасетах практически невозможно успешно анонимизировать данные.

Из анонимизированного датасета должна быть полностью удалена вся идентифицируемая персональная информация, чтобы остались только основные полезные данные, которыми исследователи могут оперировать, не опасаясь нарушить приватность. Например, больница может удалить имена, адреса и даты рождения пациентов из массива историй болезней в надежде, что исследователи смогут использовать остальные данные для обнаружения скрытых связей между состояниями.

Но, на практике, данные можно разными способами деанонимизировать. В 2008-м анонимный датасет рейтинга фильмов от Netflix был деанонимизирован с помощью сравнения рейтингов с данными на сайте IMDb. Адреса проживания нью-йоркских таксистов были раскрыты на основе анонимного датасета отдельных поездок по городу. А предложенные австралийским Минздравом анонимные данные о медицинских счетах могут быть идентифицированы с помощью перекрёстного сопоставления с «прозаичными фактами», такими как годы рождения матери и ребёнка, или матери и нескольких детей.

Исследователи из бельгийского Лувенского католического университета (UCLouvain) и Имперского лондонского колледжа построили модель для оценки лёгкости деанонимизации любого произвольного датасета. К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

Несмотря на это, брокеры данных вроде Experian продают «деидентифицированные» датасеты, содержащие о каждом человеке гораздо больше информации. Исследователи указали на данные, проданные компании-разработчику ПО Alteryx — в нём содержится по 248 атрибутов для 120 млн американских домохозяйств.

Исследователи утверждают, что их результаты доказывают недостаточность усилий по анонимизации для соответствия требованиям законодательства, например, GDPR (general data protection regulation).

«Наши результаты опровергают утверждения о том, что восстановление идентификационной информации невозможно…».

«Дальше они ставят под сомнение соответствие текущих методик деидентификации стандартам анонимизации из современных законов о защите данных, таких как GDPR и CCPA (Калифорнийский закон о неприкосновенности частной жизни потребителей), и подчеркивают необходимость выхода, с правовой и нормативной точек зрения, за рамки модели деидентификации «выпустил-и-забыл»».

Другие подходы к обработке массивных датасетов могут больше соответствовать современным критериям защиты информации. Дифференцированная приватность, практикуемая компаниями вроде Apple и Uber, намеренно размывает каждую единицу информации усреднённо по всему датасету, тем самым мешая деанонимизации с помощью предоставления технически некорректной информации о каждом человеке.

Гомоморфное шифрование не позволяет считывать данные, но ими всё ещё можно манипулировать. Результаты тоже будут зашифрованы, но их может расшифровать контролёр данных. И в конечном итоге, мы придём к синтетическим датасетам, что подразумевает обучение ИИ на реальной, идентифицируемой информации, на основе которой будут генерироваться новые, фальшивые единицы данных, которые статистически будут идентичны, но при этом никак не связаны с конкретными людьми.

Комментарии (20)

Victor_D
25.07.2019 21:27
#20435191
В некоторых компаниях аналитикам просто запрещено делать в такой базе запросы, которые содержат количество записей меньше определенного порогового значения. Таким образом, анонимность более-менее сохраняется.
1. Gymmasssorla
  26.07.2019 00:45
  #20435671
  +2
  Что значит "более-менее"?
  
  В "некоторых" компаниях, "некоторым" сотрудникам, кое-что запрещено, Вы это всерьёз? А как насчёт государства, хакеров?
1. algotrader2013
  26.07.2019 12:04
  #20437225
  Интересно. А как это технически реализовано? Если у аналитика есть доступ к SQL или к написанию кода для MapReduce, то даже поставив прокси сервер, парсящий дерево запроса и дропающий «опасные» запросы (например, делая предзапрос на count(*) на необходимые таблицы с необходимыми условиями, и сравнивая его с порогом), перед СУБД, можно составить запрос, аггрегирующий миллион записей, при этом умножающий значения 999999 из них на 0.
  Если же такого доступа нет, а есть что-то вроде уродских блок-схем и программирования мышкой, то да, верю, что, потеряв в перфомансе и возможностях, можно добиться сохранения анонимности, но тем, кто в таких условиях платит аналитикам ЗП, и ждет от них адекватного результата, можно только посочувствовать…
  1. Andrey_Rogovsky
    26.07.2019 15:43
    #20438699
    Все запросы логируются
    У ИБ будет куча вопросов по каждому запущенному вручную

orion76
25.07.2019 22:18
#20435309
+5
Сдаётся мне что фраза:

анонимность более-менее сохраняется

полнейший эквивалент: «немножко беременна».-)
1. esc
  26.07.2019 11:07
  #20436781
  Не совсем так. Могут определить какую-то группу людей. Скажем, жителей определенного микрорайона или пользователей провайдера. Вроде и сильно сужается круг по сравнению со всеми жителями Земли (или кто там может быть в датасете) но это далеко не идентификация каждого конкретного человека.
  1. Qwerty710
    26.07.2019 19:11
    #20439787
    А кому это вообще нужно? С большим успехом можно взломать почту/базу данных/что-то ещё. Конечно, по сравнению с населением Земли, микрорайон будет очень даже конкретным, но дальше процесс если и пойдёт, то довольно туго… Кому это надо?

funca
25.07.2019 22:23
#20435325
+3
Кто владеет информацией, тот правит миром. На земле чуть больше 7 миллиардов человек, а значит для идентификации достаточно всего 33 бит.

Если бы кто-то действительно ставил целью дать возможность гражданам обращаться с ПД как со своей собственностью, то для этого бы не требовалось городить весь этот правовой огород. Для регулирования было бы достаточно существующих норм в области авторского права и интеллектуальной собственности.

Очевидно, что данные с возможностью идентификации ценнее, нежели без нее. Задача «защиты» ПД не в ограничении сбора таких данных. Напротив, многие принимаемые законы направлены на упрощение идентификации пользователей. Цель состоит в создании условий при которых массивы данных будут аккумулироваться только на подконтрольных властям территориях и снижении утечек наружу. Вопросы анонимности больше касаются последнего — что, в какой мере и на каких условиях должно раскрываться. Граждане, понятное дело, здесь мимо кассы.
1. SlavikF
  26.07.2019 00:11
  #20435607
  > чуть больше 7 миллиардов человек, а значит для идентификации достаточно всего 33 бит.
  
  Ну это верно только если у каждого человека уникальный сет (set) демографических атрибутов (битов). Что конечно же не так.
  1. Wizard_of_light
    26.07.2019 04:10
    #20435933
    Ну, в статье вон пишут, что оперируют базами с 248 атрибутами, причем ещё неизвестно, сколько значений у каждого атрибута. И только для одной страны. С такой избыточностью вычислить можно даже кота и его коврик.
    
    roscomtheend
    26.07.2019 11:51
    #20437105
    Это только при стабильности атрибутов и уникальности значений, если атрибутов 100500, но уникальных комбинаций 500, то вы неотличимы от коврика (да и для большинства задач не нужно — ну покажут коврику рекламу и ничего страшного, всё равно за неё уже заплатили). Если у вас значения плавают, то сопоставит сильно сложнее (скоращает количество параметров).
1. agat000
  26.07.2019 03:29
  #20435907
  Ну или так: чтобы свободными данными не пользовался любой желающий бесплатно. нужна инфа — плати сюда.
1. orion76
  26.07.2019 08:08
  #20436141
  Вообще не понимаю, какой смысл защищать ПД от «утечек».
  Если ПД утекли (а они утекли, я еще в 2000г. находил свои ПД(паспорт, ОМС и т.п.) в различных «базах» на CD, и я в тех базах был не один) то обратно их не вернешь.
  И поменять скомпроментированные данные, мягко говоря, проблематично:
  
  Заменить ФИО, адрес и т.п.
  
  Поменять все удостоверения личности и т.п.
  
  Изменить все документы на «частную собственность».
  
  Обновить все заключенные договора.
  
  и т.д. и т.п.
  
  Более практичнее ( с точки зрения простого гражданина конечно же), было бы разработать и начать внедрять «систему», которая сделает использование ПД во вред их владельцам невозможным, или хотя бы сильно затруднит.
  
  Ну а так как всем рулят «рыночные отношения», пока будет спрос(на ПД) — будет предложение.
  Ужесточение наказания за «кражу» ПД просто увеличит доходы одних и немного уменьшит доходы других участников преступления.
  И никуда мы не денемся, с подводной лодки-)
  1. xander27
    26.07.2019 19:21
    #20439815
    Более практичнее ( с точки зрения простого гражданина конечно же), было бы разработать и начать внедрять «систему», которая сделает использование ПД во вред их владельцам невозможным, или хотя бы сильно затруднит.
    Я тоже о таком думал. Например что бы не надо было бояться оставить где-то паспортные данные. Но тут, кажется, немного другая проблема. Связь ваших идентификационных данных и некоторых данных которые бы вы не хотели, что-бы связали с вами. Например, медицинские данные или данные покупок — в том плане что например связать записи из условного датасета о венерических заболеваниях с реальным человеком.
  1. akrikkit
    26.07.2019 21:27
    #20440201
    А каким образом можно сделать использование ПД во вред их владельцам невозможным с учётом так называемых «рыночных отношений»?
    
    orion76
    27.07.2019 14:32
    #20441733
    Идеи?
    У меня есть кое-что получше — алгоритм!-)
    
    1.Надо собрать статистику случаев «неправомерного» использования ПД.
    2.Разбить эти «случаи» на категории по признакам «похожести» случаев.
    3.Оценить каждую категорию по критерию наибольшего вреда.
    4.Взять самую вредную категорию и собрать по ней больше информации по способам «эксплуатации уязвимости» ПД.
    
    Думаю, этих данных должно хватить на первое время, чтобы генерировать идеи-)
1. esc
  26.07.2019 11:15
  #20436833
  С какого это ПД должны быть собственностью? ПД это индентификатор. Как название фильма (и уточняющие данные, типа года выпуска). Если названия нельзя будет упоминать в суе без благословления правообладателя, то сильно упростило бы работу с негативными отзывами, конечно. Но обществу такое не нужно.

DarkWolf13
26.07.2019 11:51
#20437109
Неуловимый Джо неуловим только потому, что он нафиг никому не сдался. Все упирается в цену вопроса! Следы всегда остаются будь они реальные или цифровые. Даже пресловутый ТОР и тот не дает гарантии анонимности. Если кто-то человек/организация/страна очень захотят выяснить личность и найти это будет вопросом времени. (может быть это будет несколько отвлеченным примером, но в 1977 году после теракта в метро буквально из осколков нашли всех причастных)
1. Qwerty710
  26.07.2019 19:21
  #20439813
  Тогда уж надо понимать, что и шифрование рано или поздно «хакнут».
  1. DarkWolf13
    26.07.2019 19:34
    #20439851
    совершенно верно. У любой информации есть время жизни и относительно этого надо выбирать шифрование. КАк у военных есть оперативная информация которая устаревает уже через 4..8 часов и для нее нет смысла использовать супер стойкие шифры, достаточно и простого, который хоть и взламывается то происходит это после потери актуальности передаваемого зашифрованным сообщения