Если вы следите за новостями, вы могли заметить, что компания под названием Cambridge Analytica как-то зачастила в заголовках. СМИ рассказывают следующую историю:

Некая сомнительная британская компания, занимающаяся анализом данных, при помощи 24-летнего гения разработала инновационную технологию для того, чтобы взломать Facebook и украсть 50 млн профилей пользователей. Затем они использовали эти данные чтобы помочь кампаниям, связанным с Трампом и с Брекзитом, психологически манипулировать избирателями через целевую рекламу. В результате на референдуме в Британии люди проголосовали за выход из Евросоюза, а Трампа избрали президентом США.

К сожалению, почти все описанные утверждения вводят в заблуждение или просто неверны.


Во-первых, не было никакого взлома.

Собранные данные были взяты из профилей пользователей после того, как пользователи давали разрешение на доступ к данным стороннему приложению. Помните такие небольшие окошки с подтверждением, появляющиеся, когда вы хотите поиграть в Candy Crush или войти через FB, чтобы не создавать новый пароль для случайного сайта? Ага, вот эти самые:



Учёный из Кембриджа, Александр Коган – не связанный с Cambridge Analytica – сделал приложение «Проверьте вашу личность» [Test Your Personality], разрекламировал его, оплачивая по $1 за установку людям через сайт для краудсорсинга Amazon Mechanical Turk, и использовал полученные разрешения для сбора данных из профиля. Приложение установило 270 000 человек, поэтому можно было ожидать, что оно собрало информацию из 270 000 профилей – но на самом деле, оно обработало 50 миллионов профилей.

50 миллионов профилей???

Да. В том безрассудном 2014-м году у Facebook была возможность под названием «разрешение для друзей», позволявшая получать доступ к профилям не только установившего приложение человека, но и к профилям всех его друзей. Чтобы это предотвратить, необходимо было включить определённую настройку в разделе приватности, о которой вообще мало кто знал (вот статья из блога от 2012 года, где объясняется, как это сделать). Именно при помощи «разрешения для друзей» Коган преумножил 270 000 разрешений до числа в 50 млн профилей.


То, что данные пользователей FB раздавались их друзьями без уведомлений и разрешений, было поводом для серьёзных опасений, о котором сторонники приватности говорили ещё тогда. Поэтому в 2015 году, перед лицом роста критики и давления, FB удалила эту возможность, объясняя это желанием дать пользователям «больше контроля» над их данными. Это решение вызвало шок у разработчиков приложений, поскольку возможность иметь доступ к профилям друзей была чрезвычайно популярной (см. комментарии под анонсом отключения возможности от 2014 года). Сэнди Паракилас, бывший менеджер FB, рассказал Bloomberg, что до отключения этой возможности ею пользовались «десятки или даже сотни тысяч разработчиков».



Подведём предварительный итог; на этот момент у нас есть два ключевых момента:

  1. Ничто из вышеописанного не связано со «взломом» FB или использованием каких-то ошибок. Речь идёт об использовании возможности, предоставленной FB всем разработчикам, которой воспользовались не менее десятков тысяч из них.
  2. Собранные данные не относятся ко внутренним данным FB. Эти данные разработчики собирали из профилей людей, скачивавших их приложение (и их друзей). У FB на пользователей собрано гораздо больше данных, чем есть в общем доступе, и эти данные есть на всех пользователей этой платформы. К ним есть доступ только у FB. Судя по всему, этот момент пишущие об этой истории журналисты так и не смогли понять – они постоянно ставят знак равенства между «внутренними данными FB» и «данными, собранными из профилей пользователей при помощи стороннего приложения». Но между этими понятиями большая разница.

Важность второго момента становится очевидной, если вы почитаете тексты вроде такого:
Саймон Мильнер, директор политики FB по Британии, в ответ на вопрос, есть ли у Cambridge Analytica (CA) данные из FB, ответил: «Нет. У них есть много данных, но это не данные пользователей из FB. Это могут быть данные о людях, пользующихся FB, собранные ими самостоятельно, но это не какие-то предоставленные нами данные».

Этот текст предлагался в качестве доказательства того, что FB врала политикам по поводу взаимоотношений с компанией CA. Но если понять разницу между внутренними данными FB и данными, собранными на FB сторонними разработчиками, становится ясно, что то, что говорит директор политики FB, скорее всего, правда.

Так как со всей этой историей стыкуется CA?

Они заплатили Когану за сбор 50 млн профилей. Чья идея это была изначально, выяснить уже сложно. Коган говорит, что CA пришла к нему с предложением, а CA говорит, что Коган пришёл к ней. Как бы там ни было, утечка данных была именно такой; это были не внутренние данные FB, а правила по распространению данных. Разработчикам разрешалось собирать все данные пользователей, которые им были нужны для их приложений, но им не разрешалось (даже в 2014-м году) собирать эти данные для продажи их третьим лицам.

И всё же, вне зависимости от официальных правил FB, по-видимому, компания не слишком старалась следить за тем, как её разработчики используют собранные данные. Возможно, из-за этого, когда FB впервые обнаружила, что Коган продал данные CA в 2015-м, она удовольствовалась лишь получением письменного подтверждения обеих сторон того, что собранные данные удалены.



То, что существовало ещё не менее десятков тысяч разработчиков, имевших доступ к такой информации, означал, что данные, собранные на FB неизбежно будут продаваться или как-то ещё поступать к третьим лицам. И недовольный ситуацией бывший менеджер из FB это подтвердил:
На вопрос о том, как именно FB контролировала данные, поступавшие внешним разработчикам, он ответил: «Никак. Совсем. Как только данные уходили с серверов FB, не было никакого контроля и никаких идей по поводу того, что с ними происходит дальше». Паракилас сказал, что он «всегда предполагал о существовании чёрного рынка» данных, набранных с FB, переданных сторонним разработчикам.
Учитывая, насколько распространённой была практика сбора данных, и что у многих разработчиков было доступ к большему количеству пользователей, чем 270 000, почему именно CA попала в заголовки СМИ?

Всё дело в том, как журналисты, особенно Кэрол Кэдвалладр из Observer, оформила эту историю. Большая часть публикаций продвигала два взгляда на эту проблему. Во-первых, информатор из CA раскрыл «большую утечку» данных из FB, и эту проблему мы уже описали. Во-вторых, эта «утечка» была связана с успехом президентской кампании Трампа.


Кристофер Вайли – выдающийся ум, «взломавший» FB

Вторая точка зрения такая же сомнительная, как и первая, и основана по большей части на помпезных заявлениях Кристофера Уайли – бывшего работника CA с розовыми волосами. Кэрол Кэдвалладр, годами работавшая с этой историей, в различных интервью рассказывала о том, что она подошла к ней не как журналист-исследователь, а как автор очерков. Это значит, что она больше внимания уделяла «человеческой стороне истории», или, проще говоря – Крису Уайли. У такого подхода есть свои плюсы и минусы, но крупнейшим минусом служит то, насколько сильно зависели её статьи в результате от рассказов Уайли, в которых он изобразил себя молодым дарованием, находящимся в центре всемирных политических заговоров.

Кэдвалладр полностью одобряет такую самопрезентацию Уайли, и подобострастно описывает его, как «умного, забавного, дерзкого, мудрого, жадного до знаний, интригующего, невозможно молодого». «Траектория его карьеры, как и большая часть аспектов его жизни, была выдающейся, несообразной, невероятной». «Уайли живёт для идей. Он без умолку говорит часами подряд». «Когда Уайли всё своё внимание обращает на что-либо, его стратегический мозг, его внимание к деталям, его способность планировать на 12 шагов вперёд становятся тем, за чем страшновато наблюдать». «В его набор выдающихся талантов входят политические навыки такого высокого уровня, что по сравнению с ними „Карточный домик“ выглядит, как кулинарное шоу».

Ого. Вот это парень.

Подход Кэдвалладр с концентрацией на личности делает статьи проще и помогает скрыть существенные технические детали, вместо этого выдавая сенсационные цитаты и личные истории из жизни Уайли, его друзей и коллег. Подобная информация может дать пищу для размышлений, если подойти к ней критически – но это бывает редко. Вместо этого Кэдвалладр просто поверила в историю, рассказанную Уайли: «К моменту, когда мы впервые встретились лично, я ежедневно разговаривала с ним по нескольку часов».

Так что давайте обратимся к недосмотру и чуть более критически изучим заявления Уайли:

  • Стив Бэннон хотел использовать большие данные в качестве оружия – легко поверить.
  • CA заявляет, что способна предоставить эффективные инструменты для психологического позиционирования и манипуляций – истинно так.
  • Крис Уайли занимался сомнительным бизнесом и считает себя частично ответственным за происходящее – естественно.
  • Самореклама CA реально соответствует эффективности предлагаемых ими услуг – хммммм…

Последний пункт наиболее важный, и ему приведено наименьшее количество доказательств.

Может появиться искушение указать на неожиданную победу Трампа, но в этом деле есть много ставящих в тупик факторов. Трамп действительно победил. Но он выиграл у самого непопулярного кандидата от Демократов в современной истории, пытавшегося провести Демократическую партию на третий срок подряд (а такого не бывало с 1940-х годов). Более того, выиграл он с очень небольшим преимуществом и проиграл голосование за популярность.


Александр Никс, директор CA, стоит на фоне большого количества впечатляющих графиков

Может ли всё это быть свидетельством точности психологического позиционирования CA? Возможно, но тогда мы сталкиваемся с опасностью работы с неопровержимой гипотезой. Лучше было бы изучить отношение количества побед и поражений CA. К сожалению, у нас нет доступа к списку её клиентов, но мы знаем, что впервые она получила известность, работая над президентской кампанией Теда Круза. Да, да – Теда Круза, сенатора от республиканцев, которого Трамп раздавил на республиканских внутрипартийных выборах, несмотря на всю «мощь» CA, которой обладал первый. Не я первый замечаю это очевидное противоречие – Мартин Роббинс отметил то же самое в статье от прошлого года:
История республиканских внутрипартийных выборов заключается в том, что модные данные CA проиграли чуваку с веб-сайтом, сделанным за тысячу баксов. Превращение этой истории в захватывающую сагу о непобедимом научном вуду, неумолимо тащившем Трампа к победе проходит с большой натяжкой. Они вообще на кого-то ещё работали? Без списка клиентов очень легко избирательно подходить к победителям.
Смысл используемых CA технологий заключается в том, чтобы на основе данных из соцсетей строить алгоритмы, способные точно предсказать эффективность воздействия сообщений на человека на основе его личности и психологического портрета. Именно это имеют в виду статьи, рассказывающее об использовании психографики для микротаргетинга избирателей. Но большая часть заявлений об эффективности таких технологий крайне преувеличена. Коган – учёный из Кембриджа, оказавшийся в центре дискуссии – писал что-то подобное. Он заявлял, что его назначили козлом отпущения и утверждал, что собранные им личностные профили оказались не такими уж и полезными для составления предсказаний для микротаргетинга:
— В ходе нашего дальнейшего исследования этой темы, — писал он,- мы обнаружили, что у предсказаний, выданных нами SCL, шансы неправильно описать все 5 свойств личности в 6 раз превышали шансы описать их все верно. Короче говоря, даже если эти данные и были использованы для микротаргетинга, в реальности это могло только навредить достижению цели.
Когана нельзя назвать беспристрастным источником информации, но его заявления совпадают с различными исследованиями, продемонстрировавшими не самые блестящие результаты в попытках манипуляции через соцсети. Возьмём, к примеру, противоречивое исследование FB по «управлению разумом», на которое в последнее время ссылались несколько журналистов. И ни в одном из упоминаний этого исследования не описано, насколько оно оказалось провальным.

FB проводил эксперимент на 689 000 пользователей, подправив алгоритм выдачи новостей так, чтобы показывать им чуть больше или чуть меньше обновлений статусов их друзей, содержащих положительно или отрицательно окрашенные слова. Как известно любому исследователю, с такой большой выборкой вы гарантированно получите статистически значимые различия между группами. Более важным параметром будет сила обнаруженного эффекта. В исследовании FB разница оказалась по-настоящему пугающей: люди, видевшие меньше негативных обновлений, использовали на 0,05 положительно окрашенных слов больше на каждую сотню в своих обновлениях статусов, а те, кто видел меньше позитивных обновлений, использовали на 1 положительно окрашенное слово меньше на каждую сотню. Именно так. FB мог бы манипулировать людьми так, чтобы они использовали на 1 положительно окрашенное слово меньше на каждую сотню. На основе этого нельзя сказать, что FB беспомощна, ведь большее вмешательство привело бы к более сильным результатам, но важно видеть вещи в перспективе.


Заметьте, что ось y начинается не с 0

Получается, что реальная история состоит не в том, будто Коган, Уайли и CA разработали невероятно высокотехнологичный «хак» FB. Всё дело в том, что, если не считать продажу данных Коганом, они использовали распространённые методы, разрешённые на FB до 2015 года. С момента, когда эта история стала достоянием общественности, компанию CA заклеймили, как предосудительную и неэтичную – по крайней мере, именно так она рекламирует себя потенциальным клиентам. Но большая часть повторяемых СМИ заявлений – просто бездумное повторение того, что CA и Крис Уайли сами рассказывают о себе, без критического взгляда на факты. Проблема в отсутствии достаточного количества свидетельств того, что компания способна на то, что она о себе заявляет, и полно свидетельств того, что она не настолько эффективна, насколько любит притворяться; например, вспомним, что Тед Круз не попал в президенты.

Никто не защищён полностью от маркетинга или политики, но практически нет доказательств того, что CA будет лучше любой другой PR-компании или специалистов по политической агитации и по позиционированию избирателей. Кампании по политическому позиционированию и дезинформации, включая и рекламу от России [США обвинили Россию во вмешательство в последние выборы президента; Россия официально отвергла эти обвинения / прим. перев.], конечно, повлияли на результат последних выборов, но стали ли они критическим фактором? Был ли этот фактор более влиятельным, чем заявление Коми [бывший директор ФБР / прим. перев.] о повторном открытии расследования дела с электронной почтой Хиллари Клинтон за неделю до выборов? Или заявление сторонников Брекзита о том, что каждую неделю Евросоюз крал из фонда здравоохранения по ?250 млн [по ?350 млн / прим. перев.]? Я как-то скептически отношусь к этому.

Уточню, что я не утверждаю, будто CA и Коган невиновны. По меньшей мере, ясно, что они занимались вещами, идущими вразрез с правилами о распространении данных на FB. Точно так же FB явно слишком много позволяла своим разработчикам в плане доступа к частным данным. Я утверждаю, что CA не является злыми кукловодами, какими их пытаются представить. Она больше похожа на Трампа – делает чрезвычайно преувеличенные заявления по поводу своих возможностей, что привлекает к ней повышенное внимание.

Комментарии (28)


  1. pnetmon
    30.03.2018 17:18
    -2

    «взломе» Facebook

    Более интересно почему Гигтаймс обошла волна сообщений на эту тему. А вот опровержения — да пожалуйста


    1. hippohood
      31.03.2018 17:03

      Возможно, потому что не было взлома?


      1. pnetmon
        31.03.2018 19:10

        Может мировые СМИ на ушах стояли и стоят из за такого использования Фейсбука. И что такое можно легко провернуть с другими соц сетями и приложениями на смартфонах. И из-за "не государственных" людей которые интересно применяют соц сети на территориях других государств.


        Вот волны про такое применение соц сетей на гигтайме и не было.


        А уж про взлом вы сами придумали, комментарий такой трактовки не имел.


  1. Alozar
    30.03.2018 17:38
    +1

    В общем, очередное изнасилование журналиста учёным.
    Facebook не контролирует данные, которые собрала некая программа с явного согласия пользователя? А как она может их контролировать? Это аналогично требованию в адрес библиотеки, чтобы они контролировали использование данных из книг по химии, а то вдруг кто-то динамит сделает. Бред же.


    1. kablag
      30.03.2018 18:24

      А как она может их контролировать?

      теоритически — прописать в договоре, как программа может использовать эти данные. Например, не передавать далее. Но это скорее на уровне проверки на честность и ухода от претензий.


      1. vassabi
        30.03.2018 18:26
        +1

        в договоре это и так прописано.
        Вот как заставить соблюдать этот пункт договора?

        , когда FB впервые обнаружила, что Коган продал данные CA в 2015-м, она удовольствовалась лишь получением письменного подтверждения обеих сторон того, что собранные данные удалены.
        теперь разве что долго и нудно судиться и доказывать, что они не были удалены, или удалены, но кто-то их украл до этого…


        1. Alozar
          30.03.2018 18:28

          Фейсбуку никак. Аналогично можно требовать от автосалонов контроля за поведением покупателей на дороге. Требовать можно, но смысла не имеет.


        1. ClearAirTurbulence
          30.03.2018 22:58

          Очень просто. Факт продажи либо безвозмездной передачи данных компанией другим лицам может быть доказан, в таком случае очевидно нарушение пункта договора компании с ФБ, и к ней могут быть применены меры, предусмотренные договором. В западных юрисдикциях такие пункты работают лучше, чем у нас.


          1. krundetz
            02.04.2018 12:47

            А как доказать, что данные собраны с Фейсбук?


  1. dimanhursky
    30.03.2018 17:41
    +3

    нас не взломали — мы сами все отдали на блюдце с голубой каемочкой. Поэтому это не взлом.


    1. zoonman
      31.03.2018 08:14

      Здесь проблема не в Facebook, а в неэтичном использовании данных разработчиками.
      Я работаю с Facebook API на протяжении 5 лет, за них я видел множество изменений направленных на ограничение доступа к функциям Facebook. Из-за говнюков вроде Когана и Cambridge Analytica теперь практически невозможно сделать нормальное приложение для Facebook.


      1. AllexIn
        31.03.2018 09:15
        +2

        Что такое «нормальное приложение»? По описанию урезали функции с получением инфы о друзьях.
        Получается, нормальное — то которое срет спамом друзьям?


        1. zoonman
          31.03.2018 16:38

          Ну если в вашей голове нормальные приложения умеют делать только это, то мне вас искренне жаль.

          А если хотите пример — прочитать апдейты друзей, отфильтровать их используя машинное обучение и показать в своем интерфейсе. Это все то, чего нельзя делать.


          1. AllexIn
            31.03.2018 17:09

            А какие приложения это делали? Дайте пример хороших приложений, которые были массовыми и перестали работать из-за запрета читать друзей?


  1. Welran
    30.03.2018 19:47

    Кстати насколько вообще эти данные полезны? Вот стало вдруг интересно что делают с данными многочисленные психологические тесты, тесты на политические предпочтения, профессиональные тесты. Их результаты ведь намного более подробны.


    1. vmarunin
      30.03.2018 23:19

      С одной стороны это must have для эффективного таргетинга рекламы.
      С другой стороны всего 50 миллионов пользователей, данные от 2015 года. Страшно подумать насколько больше данных у того же Гугла, собственно Facebook и т.д. и ничего, живём.


    1. humanelement
      31.03.2018 07:39

      Конкретно тесты тут вообще ни при чём. Это просто популярный вид приложений для социальных сетей.
      Приложение лишь имело разрешение на сбор данных из профиля и профилей друзей. Цель была только на максимальное количество установок.


      1. Welran
        31.03.2018 09:50

        Вот именно популярный, значит они собирают очень хорошие базы данных с не бесполезными данными типа имени и возраста, а с реальными предпочтениями пользователей. Их психологические профили, каких ценностей придерживаются и тп. Я не говорю что тесты имеют отношения к CA. А то что у них высококачественные данные о миллионах пользователей.


  1. numitus2
    31.03.2018 00:32

    Так что это за данные? Имя фамилия город, день рождения?


    1. geisha
      31.03.2018 00:51

      Там скриншотец есть сразу после спойлера. Если не читаете — хоть картинки просматривайте прежде чем лезть в комментарии.


      1. Welran
        31.03.2018 09:55
        +2

        На скриншоте видно демографическую пирамиду (данные пол, возраст) и несколько круговых диаграмм и какая то карта (видимо данные по местоположению). Не особо то и информативно и совпадает с предположением.


        1. geisha
          31.03.2018 23:48

          Ещё и ткнуть в нужную картинку. Ок, держите


          Вот сюда нажать и потом внимательно смотреть

          image


      1. kgbplus
        31.03.2018 10:24
        +1

        В статье столько туповатых гифок, что среди них теряются полезные изображения


  1. agaruppa
    31.03.2018 01:01

    Цукерберг перелогинтесь. Фэйсбук мастдай!


  1. Ockonal
    31.03.2018 10:46

    А как они таргетировали точечно рекламу?
    И если доступ к этой информации фейсбук закрыл еще в 2015, то как они получали актуальные данные, чтобы их как-то использовать?


    1. vassabi
      31.03.2018 13:04

      ну например: имя и пол очень редко меняется, адрес — тоже нечасто, возраст легко посчитать, профессии, привычки, политические и вкусовые предпочтения — по лайкам.


      1. Ockonal
        31.03.2018 16:26

        Но чтобы собирать эти лайки (актуальные), нужна возможность слить свежие данные. Как можно анализировать человека, чтобы подсунуть ему что-то связанное с выборами, если данные от него за 2015 год? Если я правильно понимаю, то фейсбук закрыл слитие всего этого еще тогда.


        1. vassabi
          01.04.2018 03:26

          понятно, что все любят собирать актуальные лайки, но я думаю, если некто в 2015м активно топил за республиканцев, то врядли он сейчас в лагере демократов. Или, напрмер, если он тогда ставил свой +1 под записями против ограничений на продажу оружия (или наоборот — за), или под выступлением пастора\муллы\пресвитера\макаронного монстра то опять-таки — выводы по этим плюсикам врядли протухли и сейчас. Аналогично про негров, налоги, геи, легалайз — и вот вам уже есть, что предложить заказчику, для того чтобы «подсунуть что-то связанное с выборами»©, не так ли?