![](https://habrastorage.org/webt/j1/a4/_f/j1a4_finykfs5xqf-ounfhyxh98.jpeg)
Есть мнение, что «обезличенная» информация, которую так любят собирать и использовать многие компании, на самом деле не защитит человека от деанонимизации, если данные вдруг утекут в сеть или будут использоваться в чьих-то интересах. Cloud4Y рассказывает, так ли это.
Минувшей осенью основатель Adblock Plus Владимир Палант проанализировал продукты Avast Online Security, AVG Online Security, Avast SafePrice и AVG SafePrice и сделал вывод, что компания Avast использует своё популярное антивирусное ПО для сбора и последующей продажи пользовательских данных. Поднявшаяся шумиха быстро сошла на нет, ведь исполнительный директор Avast Ондрей Влчек убедил пользователей в том, что собираемые данные были максимально обезличены, то есть лишены какой-либо привязки к личности конкретного человека.
«Наша компания не позволяет рекламодателям или третьим лицам получать доступ через Avast или любые данные, которые позволили бы третьим лицам нацеливаться на конкретного человека», — заявил он.
Однако исследование, проведённое студентами Гарвардского университета, показывает, что обезличивание собираемой информации — это далеко не гарантия защиты от «деанонимизации», то есть раскрытия личности человека по данным, имеющимся в базе. Молодые учёные создали инструмент, который прочёсывает огромные массивы наборов потребительских данных, которые попали в открытый доступ в результате небрежности, взлома или другого рода утечки.
Программе скормили все базы данных, которые утекали в сеть с 2015 года. В том числе — данные аккаунтов MyHeritage, пользовательские данные Equifax, Experian и пр. Несмотря на то, что многие из этих баз данных содержат «обезличенную» информацию, студенты говорят, что выявить реальных пользователей было не так уж и сложно.
Принцип работы довольно прост. Программа берёт список идентифицирующей личность информации (e-mail или имя человека), после чего сканирует все утёкшие базы данных на предмет информации, совпадающей с заданными параметрами. Если совпадения находятся, то студенты получают больше информации о человеке. И порой этих сведений достаточно, чтобы чётко идентифицировать его.
Собирая кусочки вашей личности
![](https://habrastorage.org/webt/xo/1e/sd/xo1esdqtdfzsjhhy8y6ohiqxk54.jpeg)
Индивидуальная утечка похожа на кусочек головоломки. Сама по себе она не особенно полезна, но когда многочисленные утечки собираются, превращаясь в единую базу данных, то можно получить удивительно четкую картину нашей личности. Люди могут забыть про эти утечки, но у хакеров есть возможность использовать эти данные и спустя много времени. Надо только собрать ещё несколько деталей головоломки.
Представьте, в то время как одна компания может хранить только имена пользователей, пароли, адреса электронной почты и другую основную информацию об учётной записи, другая компания может хранить информацию о ваших просмотрах и поисковых запросах или данные о вашем местоположении. Сама по себе эта информация не позволит идентифицировать вас, но в совокупности может раскрыть многочисленные личные подробности, о которых могут не знать даже ваши ближайшие друзья и семья.
Цель студенческого исследования — показать, что такой вот сбор данных, как бы его ни обезличивали, всё равно несёт потенциальную угрозу для пользователей. Набор данных из одного источника легко связать с другим через строчку, которая присутствует в обоих наборах. То есть не стоит думать, что ваша личная информация находится в безопасности только потому, что компания, занимающаяся сбором и хранением данных, уверяет в их полном обезличивании.
Этому есть и другие доказательства. Например, в одном британском исследовании учёные с помощью машинного обучения смогли создать программу, способную правильно идентифицировать 99,98% американцев в любом анонимном наборе данных, используя только 15 характеристик. Другое исследование, проведённое представителями Массачусетского технологического института, показало, что пользователи могут быть идентифицированы в 90% случаев, если использовать только четыре базовых параметра.
Получается, что по отдельности утечки информации довольно болезненны, но в совокупности становятся подлинным кошмаром.
Проблема – не только в компаниях
Но не стоит винить одни лишь компании. Несмотря на многочисленные скандалы, связанные с утечками конфиденциальных данных, которые стали чуть ли не еженедельным явлением, общественность сильно недооценивает влияние этих утечек и взломов на личную безопасность. А потому игнорирует базовые меры безопасности. Так, после анализа одной из выходных наборов данных программы, студенты из Гарварда установили, что из 96 000 паролей, содержащихся в базе, лишь 26 000 были уникальными.
То есть люди банально ленятся придумывать что-то сложное, используя шаблонные пароли. Вот, к примеру, недавняя публикация на Хабре на эту тему. В лидерах — пароли «12345» и «123456». С такой защитой никакие технологии от взлома не спасут. Сложно защитить данные человека, если он сам не прикладывает никаких усилий для этого.
Есть нюанс: в России действуют "Методические рекомендации по применению приказа Роскомнадзора от 5 сентября 2013 г. N 996 «Об утверждении требований и методов по обезличиванию персональных данных» (утв. Роскомнадзором 13.12.2013). Эти рекомендации позволяют добиться действительно высокого уровня обезличивания. И если не экономить на этой процедуре, заменяя ФИО на ID (все, наверное, помнят, как чудесным образом имена детей бывшего генпрокурора России, Артёма и Игоря Чайки, в Росреестре превратились в коды ЛСДУ3 и ЙФЯУ9).
Что ещё можно добавить? Про важность использования уникальных паролей сказано уже столько, что нет смысла повторяться. А компании по-прежнему будут заниматься сбором данных, успокаивая нас обещаниями максимально всё обезличивать. Вот только, как вы видите, этим обещаниям не всегда можно доверять.
Что ещё полезного можно почитать в блоге Cloud4Y
> Как «сломался» банк
> Неприкосновенность личной жизни? Нет, не слышали
> Kaboom: необычный сапёр
> Диагностика сетевых соединений на виртуальном роутере EDGE
> Устойчивые к CRISPR вирусы строят «убежища» для защиты геномов от ДНК-проникающих ферментов
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью! Пишем не чаще двух раз в неделю и только по делу.