image

Журналисты The New York Times получили базу данных геолокаций со смартфонов, включающую около 50 миллиардов локаций. Из этих точек состоят ежедневные маршруты 12 млн жителей США. Проанализировав базу, журналисты отметили, что по ней легко можно определить личность владельца конкретного устройства.

NYT получила данные от некоей малоизвестной технологической компании, которая специализируется на сборе данных. В ходе эксперимента по анализу локаций журналисты поняли, к примеру, кто посещал владения актера Джонни Деппа, определили маршруты сотрудников Белого дома, а также выяснили, в какой детский сад водит детей один из высокопоставленных офицеров и во сколько он приходит домой по выходным.

В издании отметили, что сбор данных о локациях пользователей обычно основан на том, что эти данные обезличены и хранятся в безопасности.

Однако на деле это не так:

image
image
image
image

Профессор права и исследователь приватности из Джорджтаунского университета Пол Ом в комментарии журналистам пояснил, что сделать эти данные анонимными так же трудно, как обезличить ДНК. Злоумышленнику достаточно знать лишь две локации — работы и дома — чтобы определить личность перемещающегося человека.

Подробный же анализ данных геолокаций дает полную картину жизни человека, его графика, привычек, наличия заболеваний, важных событий в жизни.

К примеру, журналисты по геолокациям смогли найти певицу из Вирджинии Мэри Миллбен, которая выступала на официальных концертах перед тремя президентами, в том числе Дональдом Трампом. «Это пугает, что вы знаете список мест, где я была и все это благодаря моему телефону. Это для меня дискомфортно, и я уверена, что и для любого другого человека дискомфортно знать, что компании в любой момент смогут получить такие данные, не важно для чего они им», — заявила та в комментарии изданию.

Как отметили в NYT, далеко не всегда такие данные собирают известные компании. Представитель одной из мелких фирм заверил, что ей невыгодно перепродавать собранные данные, так как это может серьезно навредить бизнесу. image
Журналисты задались вопросом: давали бы пользователи соглашение на сбор их данных, если бы знали обо всем этом? В NYT считают, что компании, которые зарабатывают на личных данных огромные деньги, не пойдут на уступки при уведомлении пользователей добровольно, поэтому эту меру должен законодательно ввести Конгресс.
См. также: «Как отслеживают людей по «анонимизированным» датасетам»

Комментарии (11)


  1. Sayaka
    24.12.2019 12:52
    +2

    1. Fedorkov
      24.12.2019 14:50
      -2

      Я заметил, что с каждым годом люди, далёкие от айти становятся в целом всё грамотнее в вопросах информационной безопасности. Вполне возможно, что пляшущие свинки — это временное явление вроде неприятия идей Земмельвейса.


      1. Sayaka
        24.12.2019 15:56

        Жаль что я, будучи безопасником вижу обратную картину.


        1. Fedorkov
          24.12.2019 17:33

          Лет 10 назад я вообще не встречал людей, далёких от айти, которых бы беспокоила приватность в сети. С каждой утечкой фотографий какой-нибудь знаменитости таких людей становится всё больше.

          Наши не такие далёкие предки массово начали мыть руки перед едой; вполне возможно, что мы застанем потомков, которые также массово будут соблюдать информационную гигиену.


  1. nidalee
    24.12.2019 16:02

    Призываю PastorGL и в эту тему, в контексте его комментариев:

    Как разработчик геоинформационной системы, аналитика которой целиком строится на собранных треках пользователей, попрошу отставить панику и прекратить истерику.
    Вы, очевидно, не владеете темой, и даже не представляете, насколько дорого отыскать нужный userid в коммерческом датасете какого-нибудь Tamoco или SafeGraph. Их там сотни миллионов. И это очень грязные данные, из которых извлечь знания ещё надо постараться.

    Прокомментируете, в частности, этот фрагмент?
    К примеру, журналисты по геолокациям смогли найти певицу из Вирджинии Мэри Миллбен, которая выступала на официальных концертах перед тремя президентами, в том числе Дональдом Трампом. «Это пугает, что вы знаете список мест, где я была и все это благодаря моему телефону. Это для меня дискомфортно, и я уверена, что и для любого другого человека дискомфортно знать, что компании в любой момент смогут получить такие данные, не важно для чего они им», — заявила та в комментарии изданию.
    Это «ученый изнасиловал журналиста» или кто-то таки смог?


    1. AllexIn
      24.12.2019 16:07
      +2

      С чего вы взяли что PastorGL является специалистом? Кроме его сомнительных заявлений других пруфов нет, так что его высказывания можно спокойно игнорировать.


      1. nidalee
        24.12.2019 16:16

        Попытка не пытка.


    1. sergof
      24.12.2019 16:11

      Я присоединяюсь к призыву. Третий день думаю о его эпичных "Я пишу такую автоматику… Я в точности знаю… И вообще". Очень интересно узнать что он скажет на этот раз.


      1. Desavian
        24.12.2019 17:06
        +2

        Он рассматривает данные с обратной стороны, поэтому для него они обезличены. Нельзя взять 12 миллионов треков и по ним определить 12 миллионов человек, не имея о них никакой информации.
        Но если вам необходимо определенное количество людей и вы знаете необходимые реперные точки, по ним вы сможете найти нужный полный трек.

        Если взять аналогию — представьте себе вы актер, перед вами заполненный зал. Вы никогда не сможете найти всех знакомых вам людей в зале. Но, если тетя Маша скажет вам что придет на концерт и постарается сесть поближе к сцене, вы без проблем отсмотрите первые ряды и найдете ее.

        Так что данные эти обезличены только в рамках общего поиска. При поиске по реперным точкам, они мгновенно становятся личными, позволяющими увидеть кто куда и когда перемещается.

        Алгоритмов вычисления огромное количество и самые сложные позволяют выявить даже пары муж/жена, которые большую часть дня находились рядом.

        Для простых же паттернов вообще ничего не требуется. Знаете где живет и работает человек. Отсекаете все треки по этим двум точкам, остаются только люди, работающие в одном месте и живущие в одном доме. Дальше берете промежуток не в день, а в неделю и смотрите различия в этих 3-4 треках… вуаля. И так можно делать с любым количеством записей имея минимальные знания об объекте поиска… потому что каждый день мы заходим в магазин, садимся в машину, спускаемся в метро.

        Резюмируя — нифига эти данные не обезличены. Просто потому что обезличенность является фактором только тогда, когда требуется найти этого человека. А если вы его хотите найти — подобные данные дают почти мгновенный результат. Считать же данные обезличенными просто потому что _пока никому не надо сделать их личными_ — просто смешно.

        RicoScrewdriver

        Ну так вполне логично что если вы хотите найти конкретного человека, вы о нем хоть что-то да знаете. Узнать место проживания и работы — легче легкого, а затем, как я выше писал, за несколько дней вы получаете гарантированно опознанные треки этого человека.


    1. RicoScrewdriver
      24.12.2019 17:01
      +2

      В самой статье NYT написано, что это не так уж и сложно, но необходимо знать про искомого человека некоторые данные, например для частных домов достаточно будет лишь адреса дома, т.к. почти каждую ночь userid вашего телефона будет именно по этому адресу.


    1. tmin10
      24.12.2019 17:05
      +1

      Если там есть уникальный номер устройства и данные подобно тем, что сохраняет гугл в истории геолокации, то почему бы и нет? Если UserID меняется очень часто — уже связать будет сложнее, но если он постоянный, то всё должно быть возможно.