Исследование: 72% анонимного трафика можно связать с реальными пользователями / forpes.ru

Главная
Исследование: 72% анонимного трафика можно связать с реальными пользователями

Исследование: 72% анонимного трафика можно связать с реальными пользователями +14

08.02.2017 14:25

krasandm 23 10300 Источник

Рекламодатели отдали бы все на свете, чтобы иметь возможность подсматривать через плечо, какие страницы пользователи просматривают в сети. Они хотят знать, какие сайты человек посещает, как он попал на них, как долго он на них остается, куда отправляется дальше. А заодно собрать максимально возможное количество личной информации о нем.

Конечно, для этого им необязательно находиться с пользователем в одном помещении: десятки встроенных трекеров почти на каждом сайте собирают информацию о действиях пользователя, а куки, хранящиеся в браузере, подсказывают рекламодателям, как часто он посещает сайт. Но главная мечта любого рекламодателя заключается в объединении всей этой рассеянной информации в единый профиль, который соответствует каждому отдельному пользователю, то есть, создать полноценный портрет каждого человека в Интернете.

Компании, которые составляют профили пользователей, обычно делают это под псевдонимом: так они могут получить много демографических данных, но как правило, они не объединяют поведенческие данные с индивидуальной идентичностью. Группа исследователей из Стэнфордского и Принстонского университетов разработала систему, которая может собрать эти данные воедино, просто исследуя историю просмотров.

Когда команда протестировала технологию на 374 реальных людях, которые предоставили свою историю просмотра, и деанонимизатор определил профили добровольцев в Твиттере почти за три четверти часа.

Исследователи исходили от предположения, что человек скорее перейдет по той ссылке, которой поделились друзья в социальных сетях, чем по случайной ссылке. Учитывая эту информацию, а также историю браузера анонимного источника, исследователи могут вычислить вероятность того, что какой-либо пользователь Твиттера создал эту историю просмотра. Такая привычка переходить по ссылкам демаскирует пользователя, и этот процесс занимает меньше минуты.

Для тестирования алгоритма исследователи собрали добровольцев, которые загрузили расширение для Google Chrome, извлекающее историю просмотра. Так как Твиттер использует собственное сокращение URL – t.co, программа легко могла обнаружить, на какие сайты пользователь перешел через эту социальную сеть. Программа извлекла по 100 ссылок с каждого пользователя и пропустила их через систему деанонимизации. В течение нескольких секунд алгоритм выдает 15 наиболее удачных результатов из всех возможных пользователей Твиттера, в порядке максимального соответствия. Затем добровольцев спросили, есть ли у них аккаунты в Твиттере и просили войти, чтобы подтвердить свою личность. Алгоритм выбрал правильный профиль в 72% случаев, а в 81% профиль оказывался в ТОП-15.

Чтобы такой метод сработал в реальном мире, где люди неохотно делятся своими данными пусть даже для научных целей, доступ к «цифровому следу» нужно добывать каким-то другим путем. Владельцами по крайней мере части истории просмотра зачастую становятся рекламодатели, интернет-провайдеры и, конечно же, спецслужбы.

С помощью трекеров рекламодатель может составить представление о пользователе, однако простейшие блокировщики рекламы могут им помешать. Провайдеры имеют возможность получить много данных о том, какие сайты посещает их клиент, кроме тех случаев, когда страницы защищены протоколом HTTPS, шифрующим трафик. Тем не менее, людей все еще можно идентифицировать с помощью незашифрованных сайтов: исследователи смогли «разоблачить» почти треть добровольцев, используя только HTTP-трафик. VPN-сервисы могут ограничить прямые попытки деанонимизации, но при этом не помешают сбору куки и другим методам отслеживания, которые могут обеспечивать добытчика информации непрерывной историей просмотра.

Исследователи уверены: если вы хотите использовать микроблог под своим собственным именем, то ничего не сможете сделать, чтобы избежать техники деанонимизации — даже если человек не публикует твиты, а просто просматривает чужие профили, он не останется незамеченным. Они также отмечают, что программа не использует какую-либо уязвимость сервиса. Пользователи обычно сами дают ту информацию, которую нужно только собрать. Исследование подразумевает, что открытые социальные сети и подробные отчеты в них о своей деятельности расходятся с конфиденциальностью. По мнению создателей деанонимизатора, сохранить конфиденциальность в Твиттере невозможно без отказа от основной функции социальной сети – ее общедоступности.

Не спасут от деанонимизации такие функции браузеров, как приватный режим просмотра в Safari или режим инкогнито Chrome. После того, как окна в одном из таких режимов закрыты, браузер удаляет историю посещения, но не мешает работать трекерам или, например, спецслужбам отслеживать трафик.

Не все так категорично, как кажется. С помощью Tor – программы, которая обеспечивает анонимность в интернете за счет маршрутизации трафика случайным образом через сеть серверов, – можно укрыться ото всех, кроме, пожалуй, самых упрямых «шпионов». Но для среднестатистического пользователя, не знакомого с современными технологиями сохранения конфиденциальности, завеса анонимности очень тонкая. Как и для тех, кто больше заинтересован в том, чтобы профили оставались открытыми и их «фолловили» как можно больше интересных людей, чем в сокрытии данных от маркетологов или интернет-провайдеров.

Поделиться с друзьями

-->

Комментарии (23)

Kicker
08.02.2017 18:06
#9875306
А ссылку на расширение?)
И почему вы обвиняете бедных рекламодателей? Они в этих данных заинтересованы очень относительно.

vics001
08.02.2017 18:36
#9875420
Рекламодатели отдали бы все на свете, чтобы иметь возможность подсматривать через плечо, какие страницы пользователи просматривают в сети.

Я смотрю распространение мифа о рекламодателях как о шпионах, так может далеко зайти. Рекламодателям важно дать рекламу и добиться привлечения покупателя, отсюда следует, что надо дать максимально релевантную рекламу, а собирать данные о пользователях к рекламным агентствам и биржам и то зачем столько данных надо?
1. ukt
  08.02.2017 20:12
  #9875610
  Я смотрю распространение мифа о рекламодателях как о шпионах
  Возможно заинтересованны не рекламодатели, а третьи лица, которые ~~сливают~~ продают инфу.
  Недавняя новость, о «подглядывающем» телевизоре, тоже помогает распространению «мифа».

Ivan76
08.02.2017 19:04
#9875500
У меня уже давно основной браузер это Tor, нет, мне нечего скрывать, но не нравится когда анализируют мои действия
1. bfDeveloper
  08.02.2017 20:13
  #9875614
  +3
  Как будто Tor защищает от поведенческого анализа. Максимум, что он даёт — сокрытие точки выхода в интернет, а дальше всё как обычно. Для хоть какой-то анонимности нужен выключенный js и cookies, что делает совершенно неюзабельным большинство сайтов. А использовать соцсети хоть из бункера через личный канал президента не анонимно по определению, на то они и соцсети.
  </паранойя>
  1. vgivanov
    08.02.2017 21:56
    #9875750
    -2
    Для релевантного поведенческого анализа нужно копить статистику, поэтому нужно, чтобы у юзера был сравнительно постоянный айпи-адрес. Tor — не тот случай.
    
    kAIST
    08.02.2017 22:23
    #9875778
    +1
    Для статистики ip адрес совсем не нужен. Тем более полно пользователей сидят за натом, и редко кто вообще имеет не динамический ip.
    
    bfDeveloper
    09.02.2017 15:28
    #9877244
    +1
    Статистику можно хранить в куках, в БД, если вы залогинены или с вас можно снять нормальный отпечаток (а его почти всегда можно снять). Релевантная реклама гуглом совсем не по IP выдаётся. А как правильно заметили ниже, сам факт использования анонимайзеров и отключения куков и js сужает круг поиска до очень маленькой группы лиц.
    Технических способов для анонимности мало, нужны социальные. Ну и вообще надо понимать, что именно вам надо и от кого, что и как вы собираетесь скрыть.
    
    vgivanov
    09.02.2017 23:12
    #9878254
    -1
    Если я залогинен — то вопросов нет.
    
    Fingerprints, как я понимаю, скорее метод для поиска штучных злоумышленников. Для массового применения в рекламе он вряд ли подойдёт — слишком затратен (по крайней мере пока).
    
    Про куки — поподробнее пожалуйста. Сколько статистики можно накопить за одну сессию и какая от неё польза в определении интересов юзера? (Имеется в виду, разумеется, что при закрытии браузера куки чистятся).
    
    По поводу «рекламы не по IP» — тоже не очень понятно. На всех моих домашних устройствах (разные гаджеты, разные браузеры, один адрес) реклама одинаковая. Если она не по IP выдаётся — то как?
    
    sumanai
    10.02.2017 12:39
    #9879206
    Если она не по IP выдаётся — то как?
    
    Очевидно, что рекламные сети успешно склеили профили ваших устройств в один.
    
    vgivanov
    10.02.2017 16:27
    #9879680
    Мне не очевидно. На новом свежеподключённом устройстве — реклама такая же. При работе через прокси — другая. Ещё гипотезы будут?
    
    sumanai
    10.02.2017 16:50
    #9879716
    На новом свежеподключённом устройстве
    
    Случайно в аккаунт гугла для синхронизации не заходили?
    
    vgivanov
    10.02.2017 18:15
    #9879948
    Случайно в аккаунт гугла для синхронизации не заходили?
    
    Упаси бог.
  1. boblenin
    08.02.2017 23:17
    #9875848
    +2
    Отключеный js и cookies уже сразу относит вас к настолько маленькой группе пользователей, что потом лично вас можно идентифицировать просто по списку посещенных ресурсов.
  1. Arqwer
    09.02.2017 15:48
    #9877290
    А если сносить всё после каждой сессии сёрфинга? Например в Qubes OS есть такая удобная фишка как одноразовая виртуалка. По щелчку ярлыка браузер запускается в чистой новой виртуальной машине, которая уничтожается сразу после его закрытия. И трафик через тор.
    И разве тор браузер не удаляет куки после закрытия?
    
    fpir
    09.02.2017 15:57
    #9877330
    И как это защитит, если вы один из 2-х людей в мире, которые заходят на сайт группы «сливки», а потом на гиктаймс(условно)?
    Ведь статья описывает именно «социальный» патерн деанонимизации.
    
    Arqwer
    09.02.2017 16:07
    #9877380
    Если между этими действиями куки не удалятся то никак. Но можно завести привычку открывать разные сайты в разных сессиях тор-браузера, или почаще кликать кнопку new identity, что затруднит такой анализ, так как куки будут удалены.
    
    fpir
    09.02.2017 16:47
    #9877516
    А ещё не держать акка на мордокниге, и заходить туда по поводу, а не посмотреть, что там звезда на обет ела. И внезапно, даже Тор не очень требуется.

Carwrecker
08.02.2017 20:52
#9875688
"Рекламодатели отдали бы все на свете, чтобы иметь возможность подсматривать через плечо, какие страницы пользователи просматривают в сети" — что то не припомню чтобы хоть раз в жизни тыкнул на контекстную рекламу. Но подозреваю что масса платёжеспособных тётушек/бабушек/дедушек туда таки тыкает...

sumanai
08.02.2017 21:24
#9875720
+1
По моему, соцсети не являются анонимными по определению. Не понимаю, что эти исследователи пытались доказать.

lxpin
09.02.2017 11:23
#9876602
-1
правильно понимаю, что расширения типа ghostery защищают от подобного трекинга?
1. Arqwer
  09.02.2017 16:01
  #9877358
  +1
  На сколько я понимаю их принцип работы — они защищают лишь частично. Они удаляют следящие жучки, но никто не гарантирует, что ghostery удалит все жучки.
  1. redmanmale
    09.02.2017 17:54
    #9877744
    +1
    ghostery сама имеет доступ к истории браузинга, и отправляет на свои сервера данные о заблокированных жучках (что по сути равносильно сливу истории).