6 января 2021 года толпа протестующих захватила Капитолий США. Несколько десятков проникли внутрь здания в места, обычно закрытые для публики, в том числе в кабинеты парламентариев и зал заседаний. Естественно, они сразу начали делать селфи, снимать видео — и тут же публиковать в соцсетях. Некоторые даже стримили в прямом эфире.
Среди бунтующих оказалось и несколько пользователей твиттероподобной соцсети Parler. Это выяснилось по GPS-метаданным с их видеороликов. Дело в том, что Parler не зачищает эти метаданные в стандартном порядке, как это делают остальные соцсети, чтобы защитить приватность людей.
Казалось бы, как провести анализ метаданных, если сайт недоступен с понедельника, когда компания Amazon отказалась его обслуживать. Но благодаря юной хакерше @donk_enby у нас есть архив на 56,71 ТБ со всеми данными, опубликованными в соцсети.
donk_enby входит в коллектив Archive Team, который занимается архивированием разных сайтов. Особенно тех, которым грозит закрытие (скажем, Reddit постоянно банит разные коммьюнити за якобы хейтерство, как это произошло с /r/fatpeoplehate, или, например, все сайты на платформе Google Sites точно уйдут в офлайн 1.10.2021). Архивируются также сайты, где размещается важный контент. В случае Parler это было важно, потому что именно здесь ультраправые националисты США планировали свои акции. Они использовали и другие платформы, которые считаются альтернативой мейнстриму: Gab, MeWe, Zello и Telegram.
В архиве Parler за всё время накопилось 1,1 млн видеозаписей. Метаданные выглядят примерно так:
Анализ всех файлов, опубликованных 6 января (день мятежа), выявил 618 видеороликов с GPS-координатами на территории Капитолия и рядом с ним. Известно, что аналогичный анализ провела ФБР в рамках масштабной кампании поиска бунтовщиков, по меньшей мере 20 из которых уже находятся под стражей.
Полученные данные дают представление о том, как пользователи сайта Parler роятся на территории Капитолия.
Осада 6 января продолжалась около двух часов и привела к гибели пяти человек, в том числе офицера полиции Капитолия, которого ударили огнетушителем. На стенах 220-летнего здания нанесены граффити, внутри разбиты окна, перевёрнуты столы. Среди видеороликов от повстанцев есть интересная запись из кабинета спикера Палаты представителей Нэнси Пелоси с включённым компьютером, на экране которого открыто письмо с предупреждением от службы безопасности.
Точное местоположение пользователей Parler внутри здания на самом деле трудно определить. Координаты в метаданных не позволяют понять, на каких этажах они находятся. Кроме того, они показывают расстояние с ограничением примерно 11 метров.
Другие точки за пределами Капитолия показывают поток протестующих от Национального торгового центра.
В интервью Gizmodo donk_enby говорит, что начала архивировать сообщения Parler в день сбора протестуюших у Капитолия 6 января. Когда стало ясно, что Amazon намеревается удалить приложение со своих серверов, она удвоила свои усилия, стараясь скачать абсолютно весь контент Parler.
По оценке @donk_enby, ей удалось сохранить более 99% всех сообщений Parler, включая 1,1 млн видео с указанием местоположения пользователей. В отличие от большинства своих конкурентов, Parler не смог внедрить механизм удаления конфиденциальных метаданных из видеофайлов до их публикации в интернете.
Анализ фотографий в соцсетях даёт много полезной информации. В понедельник от работы отстранили двух сотрудников полиции Капитолия: один сделал селфи с бунтовщиками, а другой надел красную кепку MAGA и направлял их по зданию.
Деанонимизация человека по его GPS-координатам
Вообще, при анализе GPS-метаданных всех видеозаписей отдельного пользователя Parler за всё время, если их достаточное количество, то можно составить некоторый профиль на человека, вплоть до определения его домашнего адреса и места работы. Даже если это анонимный профиль, мы можем узнать имя человека только по его GPS-координатам.
Нужно иметь в виду, что GPS-записи пользователей можно получить не только в результате бага на сайте Parler. Сбором этих координат занимаются десятки трекинговых компаний. Например, в рамках проекта Privacy газеты NY Times был изучен файл с более 50 миллиардами записей. Каждая запись в базе данных — местоположение одного смартфона. Период — несколько месяцев в 2016 и 2017 годах.
Журналисты NY Times раздобыли этот файл от трекинговой компании. Это самый крупный и наиболее информативный массив данных, когда-либо утёкший в открытый доступ.
Визуализация GPS-координат из датасета
Мы рассказывали в статье «Как отслеживают людей по „анонимизированным" датасетам», что такая история перемещений собирается буквально на каждого пользователя мобильного телефона. Трекинг выполняется через любое мобильное приложение, у которого есть разрешение на доступ к информации о местоположении устройства или если нет такого права. Например, приложение Facebook отслеживает местоположение пользователей, даже если запретить это в настройках. Затем информация продаётся брокерам.
Ряд научных исследований показал, что личность человека легко установить по истории его перемещений. Учёные пришли к выводу, что действительно точную и длительную историю геолокации абсолютно невозможно обезличить. Это как отпечатки пальцев или ДНК человека.
В то же время компании продолжают утверждать, что данные являются «анонимными», чтобы успокоить людей по поводу столь инвазивного мониторинга. Кроме того, согласно законодательству Российской Федерации и других стран, частным компаниям никто не запрещает свободно собирать и продавать данные о местоположении и другую персональную информацию, пока эта информация считается анонимной. Поэтому компании и пользуются лазейкой для сбора и продажи массивных баз данных с якобы анонимными GPS-координатами.
История геолокации многое говорит о человеке, но трекинговые фирмы собирают гораздо более подробное досье на каждого человека, включая туда информацию с других трекеров, в том числе история действий в интернете, просмотренных страниц и поисковых запросов на персональном компьютере, ноутбуке, планшете и смартфоне; видеоролики, фильмы и передачи, запущенные на экране телевизора и многое другое.
Большинство пользователей не возражает против сбора данных в мобильных приложениях, потому что не осознают масштаба слежки и готовы мириться с ней ради удобства потребления и коммуникации. «Самый большой трюк, который когда-либо провернули технологические компании, — они убедили общество следить за собой», — пишет NY Times.
nullptr
В чем смысл этой статьи-откровения? Что имея координаты объекта можно узнать, где он находится? Что в фотографиях и видео есть метаданных с временем и координатами? Что пару дней назад какие-то мужики собрались потусить на площади перед зданием и залезли в него?
commanderxo
Очевидно же, предъявляя два безусловных факта (протестующие забрались в Капитолий, рядом с Капитолием пользовались Parler), читателю предлагается самому сделать вывод, что именно мессенджер и является корнем зла, а все его пользователи — опасны для общества.
Если бы «исследователи» рядом выложили ещё пару карт, с географическим распределением в тот день постов в Твиттер и Фэйсбук, то мысли читателя могут пойти не в том направлении, поэтому будем писать только о Parler. А то, вдруг ещё кто-то начнёт задумываться о том, почему вообще люди вышли на протест, почему охрана была частично с ними солидарна, и т.д.
Трудно бороться с истоком проблемы, гораздо проще повесить все грехи на Parler. Выпилил неугодных из сети — и вот ты уже не самоназначившийся цензор, а светлый борец за демократию.
Moskus
Остаётся также открытым вопрос о том, как они угадали, что акцию планировали "ультраправые националисты", хотя среди тех, кого узнали по фото — предельно разношёрстная публика.
Мастерство журналистского вранья в современной ситуации — это, главным образом, смешение правдивых и очевидных фактов с откровенными домыслами, но так, чтобы это не бросалось в глаза. Похоже на то, как перед финансовым кризисом 2008го, долговые обязательства, по которым никто не собирался платить, мешали с надёжными.
NeoCode
Я например узнал очень полезную информацию — что оказывается в США есть люди, сохраняющие терабайтные архивы с разных сайтов и соцсетей. Я думал, что такие энтузиасты-романтики сейчас уже не встречаются.
Moskus
Такие люди есть, и в этом есть определенный смысл (особенно, в контексте политики) — расхожее и изначально некорректное выражение «Гугл помнит всё» стало еще более неверным после того, как поиск по заданному временному интервалу многих поисковиков (включая Гугл) оказался обрезан до фиксированных интервалов ранних дат, которые нельзя ограничить по поздней дате. Одна из форм лжи, специфичная для электронных коммуникаций — утверждать, что что-то не было сказано, потому что предъявить тот или иной пост уже нельзя. Также, по поводу удаленных высказываний можно сколько угодно спекулировать, что же они значили, потому что контекст может быть также потерян.
Архивирование постов — одна из наименее неконструктивных форм «игры в героев справедливости», если, конечно, доступ к этим архивам не используется выборочно для проталкивания какой-то идеологии.