Привет, Хабр,

Можно ли с помощью данных управлять миром? Ну, ответ, очевиден. Вопрос в том, как…

Все уже слышали об успехе компании CambridgeAnalytica в предвыборной гонке Трампа и небезызвестного Brexit.

Статья собрала большое количество поклонников. В ней рассказаны потрясающие результаты, которых позволяет добиться современная аналитика. Однако, эти результаты достижимы только при соблюдении определенных нюансов, о которых умолчали авторы статьи и о которых мы хотели бы рассказать. Эти нюансы могут превратить данную задачу из легко решаемой в невозможную или наоборот.

Первый нюанс это доступ к данным. Несомненно, для того, чтобы делать какие-либо выводы о людях, нужны данные о них. В статье описано, что данные получались одним из трех способов: покупкой, сторонними приложениями, либо через API.

Про API сразу стоит сказать, что это довольно ограниченный инструмент – поэтому для обработки большого количества данных такой вариант не подойдет (как правило, спустя определнное количество запросов к API всплывает CAPTCHA).

Второй вариант – сторонние приложения – на наш взгляд – очень узкий – сперва нужно «заманить» в это приложение всех пользователей. По заверениям авторов статьи – у них база на более 200 млн человек – вряд ли 200 млн людей ставили специальное приложение и проходили опросы. К тому же — методика добычи опросов из социальных данных – это целое искусство – довольно сложно получить правильные ответы, потому что сама методика определяется интерфейсом, постановкой вопроса, восприятием и многими другими вещами.

Третий вариант с покупкой данных выглядит самым вероятным, но не факт, что исчерпывающим. Хотя рынок данных на Западе и является более продвинутым и прозрачным, тем не менее и у него есть ограничения. Если бы конечно данная компания имела связи с крупнейшей социальной сетью – тогда и в API нет необходимости и покупать ничего не нужно. Но вопрос A/B тестирования сохраняется: нужно сделать огромное количество показов, чтобы научиться различать предпочтения людей на том уровне детализации, как описано в статье. Вспоминая рынок Programmatic даже таргетинги по достаточно базовым интересам или принадлежности к группам пока далеко не всегда достижимы.

Второй нюанс — алгоритмы. Вот тут сомнений нет в том, что авторы говорят правду, поскольку на сегодняшний момент и вычислительные мощности и математика на высочайшем уровне и позволяют строить довольно качественные алгоритмы. Кто хочет удостовериться лично – просто посмотрите статьи с типичных конференций по Машинному обчению и поймете, что все возможно, причем за довольно короткий срок.

В основном это алгоритмы машинного обучения с учителем, которые формируют обучающую выборку из тематических групп социальных сетей. Например, для того, чтобы сформировать пул людей, активно поддерживающих Трампа, можно найти в Facebook соответствующую группу и внимательно их проанализировать, отобрав типичных людей. Аналогично можно найти людей, поддерживающих Хиллари Клинтон. Итого, у нас получится 2 набора людей, которых нам нужно различать. Дальше — дело техники. Для этих людей с помощью API выгружается большое количество признаков (можете только взглянуть, сколько всего там есть, например, для Facebook или для ВКонтакте).

Далее, с помощью нехитрых методов машинного обучения, например, логистической регрессии, строится классификатор, который умеет разделять эти обьекты. После этого уже дело за малым — готовым классификатором «пройтись» по социальной сети (на самом деле достаточно по релевантным группам) и отобрать целевую аудиторию, с которой уже можно работать посредством, например, таргеттированной рекламы.

Есть также и эвристические алгоритмы, например, одно время в социальной сети ВКонтакте нельзя было посмотреть людей, которые имеют наибольшее кол-во подписчиков (совсем давно это можно было сделать, перейдя на вкладку люди, потом эту возможность на какое-то время убрали). В этом случае можно применить эвристические идеи, основанные на известной идее предпочтительного присоединения из теории веб-графов. Например, описанный здесь.

Примечательно, что описанный в статье метод практически не использует API социальной сети (поэтому и не упирается в ее ограничения), не строится никаких графов, тем не менее — как видно, алгоритм работает довольно качественно. Существует также набор алгоритмов и методов для анализа текстовой информации из социальных сетей, в которых применяются идеи тематического моделирования, рекурентных нейронных сетей и многое другое. Примером этой аналитики является сервис BrandWatch.

Третий нюанс это охват аудитории. На сегодняшний момент – одна из острых проблем в цифровой рекламе – где ее показывать, чтобы захватить необходимую им целевую аудиторию. В экосистеме RTB это так называемые паблишеры (publishers) – ресурсы, которые на которых собственно располагаются баннеры таргетированной рекламы. В данном случае проблем у коллег не было – они использовали рекламу в социальной сети.

Другими словами, чтобы получить результаты, описанные в статье основная проблема с получением данных. Применение же алгоритмов это в данном случае скорее ремесло, чем know-how. Но это ремесло очень важно применять правильно, что значит, например, уметь отвечать на следующие вопросы:

— Какого качества алгоритма достаточно, чтобы решение было окупаемым?

— Как правильно выбрать целевую группу и обучающую выборку для обучения алгоритма?

— Как можно обойти ограничения API социальных сетей, используя эвристические алгоритмы?

— Как часто надо переобучать модель?

— Как поставить рассчет модели «на поток», за какими метриками нужно следить?

Этому ремеслу мы и учим в нашей Школе.

К сожалению, наш опыт показывает, что даже участие и успешное выступеление в соревнованиях Kaggle не помогают при решении индустриальных задач (к похожему заключению пришли и любители соревнований по спортивному программированию – участие в соревнованиях типа ACM имеет мало общего с индустриальной разработкой ПО). Более того, данный опыт приобретается лишь методом проб и ошибок и никогда не будет описан в книгах – даже мы на своих лекциях рассказываем не все тонкости, которые применили на практике.

Напоминаем о датах начала наших курсов:

Курс для аналитиков — 17 апреля
Курс для менеджеров — 18 апреля
Курс в Санкт-Петербурге — 24 апреля

Также у нас есть новый курс. К нам поступало много запросов касательно дистанционного обучения. Отвечая на эти запросы мы сделали онлайн вводный курс. Этот курс является вводным в машинное обучение и анализ данных и, с одной стороны, позволяет вам познакомиться с этими дисциплинами, а с другой готовит слушателей к нашим основным курсам. Записаться на подготовительный курс можно здесь.
Поделиться с друзьями
-->

Комментарии (3)


  1. mephistopheies
    04.04.2017 07:48
    +1

    а меня всегда интересовал вопрос, вот билайн такой большой, у него так много денег, и очевидно, что какие то там 2.5 миллиона за курс ну это мелочи для такой конторы; почему билайн не делает, как другие цивилизованные компании, бесплатные курсы? за примерами ходить не нужно далеко, мейлру, яндекс и тд


    1. ServPonomarev
      04.04.2017 09:06

      Это не совсем билайн. Скорее ассоциированный с одним из руководителей сайд проект.


      1. mephistopheies
        04.04.2017 09:22
        +2

        ну был бы не билайн, то и хостлось бы все это не на билайне и не использовался бы их бренд, то как оно там устроено изнутри внешнему наблюдателю не известно; со стороны видно что это курсы билайна, все дата саенс сообщество называет их курсами билайна, а не курсами, ассоциированными с одним из руководителей стороннего проекта; ну и со стороны видна мелочность огромной компании, так себе пиар