Disclaimer. Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Эта статья — расшифровка большого интервью. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.



Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.

Зачем приложение Facebook запрашивает доступ к нашей камере, микрофону и контактам


Интервьюер: – Приведу небольшой пример. На что мы соглашаемся, когда ставим на смартфон приложение «Фейсбук». Итак, оно имеет доступ к данным: о контактах, о запущенных приложениях, о файлах на usb-накопителях, имеет неограниченный доступ к интернету, может запускаться при включении смартфона, менять обои, скачивать файлы, по запросу просматривать смс, снимать видео, звонить, записывать звук. Зачем всё это нужно?

Артур Хачуян: – Ну, на самом деле под каждой этой функцией есть реальная функция «Фейсбука», под каждым из этих запросов. И «Фейсбук» скажет, что, конечно же, всё это нужно для улучшения взаимодействия с приложением. Но мы-то с вами понимаем, что это делается для сбора данных.

Записывают ли приложения наши разговоры


На самом деле здесь тоже есть такая тонкая грань – сейчас вам приведу пример: есть люди, которые сильно очень сильно «паранойят» из-за того, что «Я что-то сказал, «Яндекс»-навигатор это услышал, я начал получать рекламу» или, условный «Фейсбук» (неважно) – «Я где-то говорил, у меня приложение лежало на столе»…

Здесь есть три пути развития, так сказать… вот этой параноидальной истории. Первый – людям просто показалось, они забыли, что какой-то контент потребляли где-то когда-то, либо они просто попали в статистическую выборку, что люди их возраста, интересов и их паттерна поведения вот в этот момент должны заинтересовать курсами английского языка. Они что-то там говорили и им кажется, что кто-то за ними следит.

Читаются ли наши сообщения в соцсетях


Но есть на самом деле вторая история, я много раз проводил такие эксперименты: делаются два чистых аккаунта в соцсетях, с одного в другой пишется сообщение, типа «друг поехали в Сыктывкар» (я всё это в шутку рассказываю, я в жизни не знаю, где Сыктывкар), но через два-три дня начинаешь получать рекламу о турах туда. То есть соцсеть сканирует личные сообщения, что вроде как и нарушает соглашение с ней, но ты это никак не докажешь. А запущенные мобильные приложения очень часто собираются, чтобы понять на самом деле доход этого человека. Очень много делали таких исследований ребята: знаете, вызываете такси с одного и того же места с «Айфона» и «Андроида», и разный ценник даёт таксопарк, потому что они определяют платформу, определяют запущенные приложения… Окей, сначала определяют платформу и понимают, кому нужно какую стоимость для платформы.

Как приложения могут рассказать все о человеке


А запущенные приложения – это вообще такая фишка, которая позволяет о человеке много чего сказать. Как понимаем, кто он? По контенту, который он потребляет. Мы можем по установленным приложениям понять всё, вплоть до сексуальной ориентации. Какие приложения установлены – это, соответственно, реальные интересы этого человека. То есть если у него установлена какая-нибудь «приложуха» для фрахтования самолётов частных – окей. Если установлен «Букинг» какой-нибудь, «Авиты», прочие приложения для продажи или есть очень много приложений для каких-то дешёвых покупок и скидок, кэшбеков – в общем, сами понимаете. Если вы сами сейчас посмотрите свои приложения…

Как не выкладывать ничего в интернет и все равно там оказаться


И.: – Или он игроман, предположим…
А. Х.: – Да, конечно, можно сразу же понять. Элементарно, в каком банке у него счёт.
И.: – Слушай, для начала давай откроем секрет для всех о том, что когда человек что-то пишет в своей социальной сети или публикует фотографию, это видят не только его подписчики.
А. Х.: – Да, это верно. Я всегда показываю такую, большую картинку, где есть портрет среднестатистического российского пользователя социальных сетей. Там он, его друзья, друзья друзей, друзья друзей до третьего колена. Это огромный объём аудитории, порядка восьмисот тысяч пользователей, которые видят иногда случайным образом контент этого человека (из-за современных интегральных лент в социальных сетях), но самая здесь большая ошибка новичка в том, что у человека может вообще не быть аккаунта в социальных сетях, но он куда-то пришёл на какое-то мероприятие, его «сфоткали», он там что-то сделал, потом это выложили, и, соответственно, некие знания попали в эту огромную базу открытых источников.
И.: – То есть он может сидеть в ресторане или быть на митинге, будучи на заднем плане какой-то фотографии – его опознает система…
А. Х.: – Спереди какая-нибудь молодая девушка сделает селфи на свою 6-мегапиксельную фронтальную камеру и, собственно, всё…

Какие данные собираются по моим фото в соцсетях


То есть мы, опять же, в данном случае с фотографией извлекаем знания об этом человеке, а потом эти знания будем сравнивать с другими полученными фотографиями, то есть «машина эта – ваша или не ваша», то есть если вы её года за полтора публиковали минимум раз пять, был один и тот же номер, марка, цвет… Она при этом не была ни на «Авто.ру», «Дром.ру», нет её среди ваших друзей – тогда мы этот автомобиль присвоим к вам.

И.: – И поймёте мой примерный достаток?
А. Х.: – Да. Или потом, когда вы поедете по МКАДу и вас встретит такой большой «диджитал-суперсайд» (большой телевизор), на которых почти на всех стоит распознавание номеров автомобилей. Они за триста метров распознают номер вашего автомобиля, передадут нам, а мы скажем, какую рекламу вам показывать.
И.: – Вы получаете данные с каждого билборда, в котором встроена камера?
А. Х.: – Нет, у нас есть партнёр, один из крупнейших поставщиков наружной рекламы, у нас есть API, они передают нам номер автомобиля – мы говорим, каким контентом этот человек интересовался. То есть здесь с точки зрения бизнеса – решение двух задач: чтобы не показывать рекламу чего-то, с чем человек уже столкнулся; ну и, соответственно, в потоке выбрать процентов 80–90 людей со схожими интересами и показать им какой-то определённый контент.

Как и зачем компании вычисляют мое местоположение


Сейчас самая живая история (не наша) – она связана с анализом «вай-фая». Во всех торговых центрах, когда человек приходит, подключается к «вай-фаю», соответственно, его mac-адрес отслеживается – мы можем понять, как человек перемещался. Это очень специфическая такая тёмная материя, потому что вроде поставщики оборудования ввели новые протоколы, которые мешают такому отслеживанию, а вроде как Apple не очень-то хорошо реализовал этот протокол, и всё равно можно эти mac-адреса реально получать – соответственно, отслеживать, как человек перемещался.

Как по моему местоположению можно вычислить мою зарплату


А потом, условно, этот торговый центр «Метрополис», в котором стоит эта система, делится данными с условным «инпо-аналитикс» (условно, оператор всех этих данных в метро). И мы можем понимать, на какой станции вы сели, на какой вышли. Соответственно, собирая о вас данные несколько дней, можно понять, где вы живёте, где вы работаете – практически для всех: то, что ближе – работа, то, что дальше – это дома. Соответственно, можно понять, живёте вы рядом с «Метрополисом» или нет, как часто перемещаетесь. Вообще, по времени захода и выхода человека в метро можно понять его стиль поведения – рабочего, студента, приезжих, мам с детьми… Ну, реально есть статистические зависимости. И, соответственно, уточняя эту выборку, мы можем понять, где какой человек работает. Плюс, ещё добавить туда его фотки с соцсетей. Потом, как только мы поймём, где он работает, можно понять примерно его должность по каким-то там параметрам; соответственно, потом сравнить это с «Хедхантером», «Суперджобом», понять среднюю зарплату для этого места, для этой должности. Таким образом, соответственно, набираются знания.

И.: – Предложить ему кредит на определённых условиях.
А. Х.: – Да-да. Потом он поедет в какую-то страну, зачекинится там где-то, сфотографируется в том же «Фейсбуке» – «Я из Шереметьево лечу в Панаму». Можно посмотреть по «Скайсканер», сколько стоят билеты в эту дату по количеству запросов людей в место назначения, сколько стоит отель – ну и, соответственно, понять, сколько люди тратят на отпуск, как часто они путешествуют, какие у них есть свободные средства и, собственно, на основании этого делать прогнозы и так далее.
И.: – Продавать коммерческие продукты, банковские продукты.
А. Х.: – Да. Либо банковский продукт, либо управление финансами, либо в налоговую его сдать, потому что у индивидуального предпринимателя карточка привязана к юрлицу, и он налоги сдаёт, скажем, на 100 тысяч, а тут новую тачку себе купил. Вот. Такое тоже есть.

Как искусственный интеллект «читает» наши фото в соцсетях и какие делает выводы


И.: – Я выкладываю в «Инстаграм» фотографию. На ней я, скажем, изображён на фоне автомобиля, около какого-то дома, я одет в определённую одежду. Как эти искусственные алгоритмы начинают смотреть на меня и что они начинают понимать?
А. Х.: – Окей, мы зашли на страницу, собрали эту фотографию. Первое, что делается – это выделяется ваше лицо, для того чтобы понять – вы это или не вы, ваш ли это аккаунт. Может, это кто-то другой сделал фотографию или вы кого-то сфотографировали. Следующий шаг – собственно, «свёрточные» сети для распознавания образов (компьютерное зрение). Наша задача понять, что есть на фотографии? Большого количества вещей понять нельзя. Нам нужно понять автомобиль, цвет, марку, ну и, соответственно, распознать номер. Можно понять цвет верхней, нижней одежды; возможно, фасон; возможно, с точностью 70–80% стиль причёски. Как-то так. Если это селфи сделал человек, то можно цвет глаз определить.
И.: – А причёску как мы можем использовать?
А. Х.: – Ну, длину волос… Ой, вы знаете, «бьюти»-бренды с ума сходят по этому. Шампуни какие-то продают определённым женщинам, с определённым цветом волос.
И.: – Название бренда шампанского на столе можно определить?
А. Х.: – Да. Можно не только бренд шампанского определить. Можно определить, что это за алкоголь. То есть бокал вина можно определить. Если бутылки нет – марку не определить. Но для большинства алкоголя бутылки специфические – там, «Джек Дэниелс» с определённой формой… и так далее. По образам можно понять, что это такое было и составить выборку о том, что люди пьют. Есть очень много коммерческих клиентов, которые просят найти людей, которые любят устраивать вечеринке дома с «Кока-Колой» и «Джеком Дэниелсом», например; а потом что-то с ними делают. Как-то так.

То есть человеку бренд дарит какой-то подарок. Он думает: «О, как круто! Меня случайно выбрали»! А на самом деле всё это было не случайно. Был оценен его потенциал привлечь новую аудиторию, связи, скорость распространения контента, 50 разных метрик.

Что искусственный интеллект думает о достатке Тимати, глядя на его фото с Lada Priora

 
И.: – Слушай, я предлагаю тебе небольшую игру. Я тебе покажу популярных, или типичных для «Инстаграма» фотографии, а ты расскажешь, что может увидеть искусственный интеллект на них и какие выводы сделать. Начнём: первая.



А. Х.: – Я думаю, стиль одежды, марку автомобиля, место можно понять. Тут, я вижу, есть огнетушитель. Можно понять 100 %, что это парковка. Парковка супермаркета, судя по фотографии, судя по пакету. Я бы на месте искусственного интеллекта 100% его записал бы в таксисты. Но, «смэтчив», скажем так, его внешний вид (имеется в виду одежда), марку автомобиля и синие пакетики, он бы попал в определённый класс населения с доходами 50–80 тысяч…
И.: – Микрокредиты, автомобиль недорогой…
А. Х.: – Да-да-да.

Как можно собирать данные о человеке, который еще не родился


И.: – Одна из самых популярных в «Инстаграме» фотографий – она была первой до прошлого года, когда появилось ещё что-то более популярное.



А. Х.: – Ну, здесь всё понятно. Здесь главный вывод, который будет сделан – это беременность. Алгоритм оценит месяц этой девушки либо по фотографии, либо скорее всего по… Беременные хоть раз делают текст типа «Ребята, мы на третьем месяце» или «Ждём чуда». Но то же самое можно сделать по фотографии.
И.: – По тексту или объёму живота можно определить месяц?
А. Х.: – Да-да. Да. Есть очень небольшая выборка медицинская, сделанная… Для чего это делается: мы определяем дату предполагаемых родов. Соответственно, мы будем знать, когда ребёнку будет полгода, восемь месяцев, год, два, три, пять…
И.: – И двадцать пять!
А. Х.: – Да-да. И в каждый из этих моментов маме будет предлагаться определённый материал: детская одежда, памперсы для двухлетних, для двухмесячных и так далее, и тому подобное. Но что самое главное, некий задел на будущее, мы уже будем знать дату рождения ребёнка. Сначала плюс-минус, но затем, если сделают уточняющую дополнительную публикацию – мы уже начали собирать данные об этом ребёнке. Он ещё не родился, а у нас уже появились на него некие знания. Это на самом деле, конечно, ужасающая история с точки зрения, не знаю… чёрного зеркала.

Какие данные собираются с фото Рамзана Кадырова


И.: – Что можно понять по этой фотографии?



А. Х.: – На самом деле здесь люди сразу же наберут свой «вес экстремизма» за счёт оружия. Распознавание оружия на фотографии, мгновенное распознавание оружия на фотографии очень часто используется в «сториз», во всём-всём-всём. То есть у них сразу галочка появится, что они «сфоткались» с оружием. И если этот человек наберёт некий уровень опасности, то эти сигналы сразу будут отправлены в органы, контролирующие оборот оружия, потому что… Это же «Калашников», правильно я понимаю? Вроде-то как огнестрельное оружие у нас запрещено. Ну, тем не менее. Да, несколько людей. Я не знаю, есть тут аватарка у пользователя, нет?
И.: – Пользователь – собственно сам Рамзан Кадыров, но он удалил свой профиль.
А. Х.: – Ага, окей. Ну, это в истории, соответственно, всё останется. Вот этот автомат распознать нельзя, а этот «Калашников» точно можно.
И.: – А если это игрушка будет?
А. Х.: – Ну, есть всё равно специфические вещи. У игрушек, как правило, ремень не такой зелёный… Я не специалист в этом. Знаю, что у нас достаточно хорошо заточено распознавание оружия. Здесь, мне кажется, какой-то рожок модифицированный, то есть там порядка десяти тысяч параметров есть различных по распознаванию оружия… Надрезанного, модифицированного – как-то там ещё… Я не спец в этой области.

Почему фотографироваться с чужими машинами – это плохо


И.: – Девушка с дорогим классическим автомобилем.



А. Х.: – С дорогим классическим автомобилем, у которого нет номера. Скорее всего, модель автомобиля можно будет распознать. Но здесь явно видно – есть алгоритмы, которые распознают горизонт по полу. То есть здесь явно видно, что автомобиль находится явно выше пола, то есть он попадёт в экспонируемые, плюс здесь нет номера, плюс это скорее всего единственная фотография с этой машиной и скорее всего эта же машина есть на других фотографиях в этой геолокации, поэтому она не будет распознана как её. Вижу, что здесь по заднему фону можно понять, что это за страна, потому что это специфический язык. Я понимаю, что это – какая-то Чехия, нет? Плаца де Скопице… Ну, это что-то такое. По тексту, по лингвистике можно понять, что это за страна, если там геометки нет. Всё, больше о человеке сказать нельзя, кроме как об одежде и так далее. Но это, опять же, отдых такого, условно городского типа, туриста, который любит путешествовать. Как-то так. На самом деле люди, которые фотографируются подобным образом с дорогими подарками, с дорогими машинами, им всегда занижается уровень достатка. Не знаю почему, но статистически, как правило, вот так происходит.
И.: – Следующий. «Инстаграм».

Что нам говорит Инстаграм Медведева




А. Х.: – Двое мужчин. Первое, что мы должны будем определить – чей это аккаунт. Это обычные люди. Отсюда какое знание будет получено? Что эти люди отдыхают на природе – это очень частая категория для людей, которые любят отдыхать на природе. Соответственно, они могут попасть в весьма странные сегменты – например, дачники. У них сезон дач – им, не знаю там, видеонаблюдение продают, юридические услуги. Ну, в общем, у дачников есть некий свой паттерн поведения.
И.: – Ты сказал: определить владельца аккаунта. У Владимира Путина нет «Инстаграма» и нет общедоступных данных.
А. Х.: – И вот он бы тоже попал в дачники. Ну, если бы это был не Владимир Путин, а какой-то другой человек, которого, скажем, его друг сфотографировал, то о нём его знания тоже появились бы.

Что мы можем узнать о Путине через соцсети


И.: – Если мы проанализируем информацию о нём, известную в сети, с помощью всех возможных алгоритмов, что бы мы могли получить, что бы мы узнали о Владимире Путине по итогам этого исследования?
А. Х.: – Мне кажется, мы узнали бы слишком много на самом деле. Стоимость (имеется в виду в машино-часах) обработки всей информации, которая есть о Владимире Путине, превысила бы коммерческую эффективность данного запроса.
И.: – Но если мы возьмём и проанализируем людей, которые на его фотографиях присутствуют, какие-то предметы и так далее, мы сможем сопоставить эти данные и получить какой-то интересный результат, как ты думаешь?
А. Х.: – Вряд ли интересно именно по Владимиру Владимировичу, но мы проводили такие исследования много раз по разным чиновникам (я потом могу вам показать пример исследования) следующим образом: мы брали десять тысяч самых крупных государственных закупок «Нашей России», людей, которые эти закупки размещают, производят; и вот там по фотографиям, по связям пытались построить карту (у меня есть такой проект – «Интерактивная карта») из тех десяти тысяч госзакупок – там очень интересно (я вам потом покажу). Там все люди сгруппированы в такие кучки, кластеры, и вот они торгуют только между собой. Почему-то вот совпало их наличие на всех возможных фотографиях, яхтах, связях и так далее с тем, как они размещают государственные закупки. Уж почему так получилось, мы не знаем.

Куда продают наши данные и для чего


И.: – Мы выяснили, что эту информацию можно взять из сети. Как её можно использовать?
А. Х.: – Есть множество разных кейсов – хороших, плохих и так далее. Большинство людей на первом уровне пытаются собрать некие контактные данные, собрать условную спам-базу, продать её кому-то там, куда-то там и так далее. Чуть более честные ребята второго уровня – они собирают какую-то информацию, делают аналитику, продают эту аналитику. Мы перешли на условный третий уровень – мы продаём знания. То есть мы не продаём какие-то выгрузки каких-то там комментариев публикаций, мы не продаём контактные данные конкретных людей, мы собираем всё вокруг какого-то события, мероприятия, географической точки и извлекаем оттуда знания. Кто были эти люди, как часто они путешествовали, какое порно они смотрели, есть ли у них собаки, квартиры, машины, жёны, дети и так далее. И вот эти знания уже продаём без привязки к конкретным людям.

Можно ли установить ориентацию человека по данным из соцсетей


И.: Или делаете из них какие-то определённые выводы. Если практически к этому подойти, можно ли, например, установить, условно говоря, сексуальную ориентацию человека, который её не афиширует, и узнать соотношение в обществе? В процентном соотношении.



А. Х.: – Можно, да. На самом деле это очень легко делается, потому что люди (я просто очень много проводил таких экспериментов по «Тиндеру» и по прочим социальным сетям для знакомств)… Люди, как правило, группируются в кластеры, и даже если они внешне скрываются, можно понять, кто с кем как коммуницирует внутри этих кластеров. Это одна из запретных метрик, которую мы не передаём клиентам.
И.: – Но какие алгоритмы для этого могут быть использованы? Какие данные для этого могут быть использованы?

Как по лайкам человека понять о нем все


А. Х.: – Самая основная, наверное, история – это контент, который человек потребляет. Это лайки. Все сейчас считают, что их никто не видит. А это действительно так, и нельзя никаким техническим методом получить лайки какого-то конкретного пользователя, не собрав весь контент, который находится в социальной сети. Для решения конкретно этой задачи достаточно какого-то узкоспециализированного контента – например, вы возьмёте и соберёте всё порно во «Вконтакте», крупнейшем порно-трекере и, соответственно, посмотрите, кто его лайкал (а для «Вк» это примерно каждый восьмой пользователь лайкает порно – до сих пор мы не понимаем почему). Соответственно, потом на основании этого можно всех людей условно сегментировать, скажем так, по интересам.

Мы два или три года назад с «Лайфом» проводили такое исследование, когда был «праймериз» «Единой России», и они обязали всех ребят, которые собираются пойти в «Единую Россию» (4400 кандидатов)… Где-то на 600 из них подали свои аккаунты в социальных сетях – мы посмотрели, какое порно они лайкают. Там было очень смешно: где-то 70–75 человек засветились в такой, нелицеприятной активности – кто-то Навального лайкал, кто-то – «Роспил», кто-то – детскую порнографию. В общем, это было смешно.

Всё это ведёт к тому, что мы пытаемся пользователям объяснить: что бы вы ни делали, всё это попадёт в открытый доступ. Потому что сейчас люди не понимают, что то, что говорится в открытом доступе – оно действительно в открытом доступе, и ты это никак не сотрёшь оттуда, никак не избавишься.

И.: – То есть люди думают, что они рассказывают о себе в профиле в своей социальной сети, а больше можно узнать по тому, как они лайкают? Если раньше гадалка гадала по руке, то теперь вы берёте, анализируете лайки и получаете анализ предпочтений.

А. Х.: – Да, по употреблённому контенту можно понять всё, что угодно. Кто этот человек: домохозяйка, мама с ребёнком, какие у неё интересы вообще? И самое главное, что с точки зрения бизнеса на основании этого можно сделать прогноз: какой продукт человек купит через неделю, месяц, полгода, год. Вот, у нас есть мужчина, у него только что родился ребёнок, мы знаем, что у него есть машина – мы ему сразу предлагаем детское кресло. Да, или это, например, молодая девушка, которая зашла, скажем, на сайт интернет-магазина, её идентифицировали, мы знаем все её фотографии за последние пять лет в «Инстаграме», какого цвета верхнюю и нижнюю одежду она одевала, в какую погоду, в каком эмоциональном окрасе и так далее – и. собственно, предлагаем ей идеальный вариант.

Как узнать телефон человека


И.: – Я понимаю, что вы не используете эту информацию в открытую, не передаёте, но можно ли узнать более, скажем так, интимные данные о человеке – узнать номер телефона, хотя он нигде его не выкладывает у себя в профиле, узнать, как он передвигается по городу, где он находится в данный момент.

А. Х.: – Можно. Первая история, связанная с номером телефона: все всегда попадаются на каких-то досках объявлений – это реально бич всех. Я вам такую историю приведу: мы когда-то давно делали исследование под надзором компетентных органов: значит, дали «скрипту» денег, чтобы он закупил наркотики у разных ребят – в «Торе» там, в «Телеграме» и так далее. Но только у тех, у кого из них был известен номер телефона, и этот номер телефона можно было как-то деанонимизировать.
И.: – «Скрипт» – это автоматический робот?
А. Х.: – Да, конечно. Соответственно, большинство вот этих вот начинающих наркобарыг погорели на следующем: у них номер телефона реально чистый, не привязанный ни к чему, ни к соцсетям. Но они на «Авито» что-то продавали! Поэтому можно понять, где они территориально находятся, потому что все рядом со своим местом жительства продают. Ну и, соответственно, кто они. Потому что по тем товарам, которые человек продаёт, тоже можно сделать некие предположения о том, кто этот человек. Ну и, соответственно, мы потом сопоставляли места, где они живут, и места, куда они ездят оставлять «подарочки».

Как помогать родителям контролировать детей в соцсетях


Мы однажды запускали проект по анализу действий несовершеннолетних (родительская опека). Тогда он ещё назывался «Родительский контроль. Мы себе выбрали тогда такой смешной слоган: «Лучше мы, чем ФСБ». На самом деле была абсолютно благая идея: мы собирались предупреждать родителей несовершеннолетних о том, что ребёнок какую-то непотребщину производит. У нас сейчас около семисот тысяч несовершеннолетних ежедневно пишут какую-то хрень, за которую к ним могут прийти и по головке их не погладить: хачей сжигать, стёкла бить и так далее. Мы подумали (как разработчики госалгоритмов зная, какой уровень некой «экстремистости» должен набрать человек до того, как государство проведёт с ним некое целевое действие), что правильнее предупреждать родителей. Ну, в общем, сторонники Навального, в частности Алексей Булков, не очень правильно восприняли эту новость – в «Фейсбуке» написали кучу всякого гнева. Было смешно, но когда ты получаешь 5-тысячный комментарий «Когда Навальный станет президентом – такие, как ты, будут сидеть в тюрьме», как-то не очень комфортно…

Но на самом деле мы к этому спокойно относимся, потому что люди просто не понимают, что происходит. То есть они – вот, сволочи, из Сколково будут собирать личную переписку, геоперемещения… Ну, там по каждому пункту… Мы к Сколково вообще никакого отношения не имеем. Какие геоперемещения, какие «чекины»? Ну, в общем, какие личные сообщения? В общем, как-то так.



И.: – Типа, взрослых кошмарят на митингах, и вот, за детей взялись… Какие-то были интересные результаты «Родительского контроля»?
А. Х.: – Да, на самом деле вся эта история «стартанула» сначала из исследования: мы решили взять 30 тысяч случайных несовершеннолетних, которые совершают какую-то непотребщину, найти их родителей и написать ботами их родителям: смотри, твой ребёнок написал, что завтра пойдёт сжигать хачей (и там какая-то цитата и так далее). Ну, в общем, где-то 99,8% родителей нас послали в жопу и сказали: вы вообще кто такие, что вы делаете? А мы абсолютно мирные, честные посылы написали: обратите внимание, данный материал в реестре запрещён и так далее, и тому подобное. В общем, нас все послали в жопу. Мы поняли, что у нас люди очень любят истерить по поводу паранойи – государство лезет в трусы, но на самом деле они настолько халатно относятся к своим данным, что очень сложно им что-то объяснить. Просветительская работа – она самая мерзкая, самая неблагодарная.

Как производители фитнес браслетов и смартфонов зарабатывают на данных о своих клиентах


И.: – А правильно ли я понимаю, что некоторые компании, как «Джабон», которая делает браслеты для активности…
А. Х.: – Финтес-трекеры.
И.: – «Хуавей», которая делает смартфоны… Помимо продажи гаджетов, они очень хорошо зарабатывают на том, что знают о своих клиентов очень много и продают их?
А. Х.: – Да, продают, как правило, знания об этих людях среднестатистические, начиная от американского Минздрава, заканчивая «мэтчингом» этих данных с «Фейсбуком» по привязанным аккаунтом и продаже этих историй рекламным площадкам. Это тоже вроде как не очень этичная история, но с другой стороны, как бы проблема здесь в людях, которые не читают соглашение. В соглашении написано, когда и кому будут передаваться данные, в каком объёме.

Как невинный гаджет раскрыл расположение американских военных баз


Но ещё был такой интересный кейс (не знаю, сталкивались ли вы). Есть такое приложение «Страва» – это фтинес-трекер. Они в начале этого года сделали очень крутой проект. Они сделали карту: весь мир — гигантская тепловая карта того, как люди бегают, катаются – в общем, треки, их фитнес-треки. И на самом деле компания даже не подумала о том, скольких людей они засветили. Все военные базы секретные США в Сирии, Ливии были подсвечены.

И.: – То есть по карте это официально просто пустыня, в которой…
А. Х.: – Да. В какой-нибудь сирийской или ливийской пустыне, где как бы ничего нет, там есть такие треки людей, которые каждый день там бегают очень и очень активно. Получается, что они «спалили» кучу военных баз в Америке и так далее. Это всё очень быстро подчистили, но тем не менее вот такой интересный прецедент был.

Приложения для знакомств – самый надежный источник приватных данных


И.: – Тот же самый «Тиндер» – один из самых любимых источников информации для вас.
А. Х.: – Мой, да. Потому что там есть реальные интересы людей – можно по фотке «смэтчить» «Фейсбук» собственно с «Тиндером», и там вообще есть информация, что этому человеку реально интересно, что он делает и так далее: люблю охоту, рыбалку и… как-то так. Есть очень много систем, которые прогнозируют явку на выборы, политические предпочтения, кто за какую партию проголосует. Здесь, единственное, есть момент о том, что у нас большое количество электората – оно не очень цифровое. Как-то так. Но даже о них можно некие знания понять. Там… Кто где в ЖКХ ругался, судился с кем.
И.: – По каким данным?
А. Х.: – Открытый Госреестр и Госправосудие, Суд РФ. У нас судебная практика почти полностью открыта. Там не очень качественные данные, но они открыты. Есть там… служба судебных приставов, жёлтые страницы, сайты ЖКХ региональных. Отовсюду можно собрать кусочки информации.

Как данные из соцсетей могут повлиять на российскую политику


И.: – Но самое простое – это сбор информации про людей с оппозиционными взглядами, насколько я понимаю? Они молоды и активны.
А. Х.: – Да, конечно, есть такое.
И.: – Как ты думаешь, как это в будущем может изменить общероссийскую политику – использование Big data?
А. Х.: – Думаю, что вряд ли особо сильно как-то. Поясню почему: потому что в данной ситуации всем понятно, кто у нас выборы выигрывает – не потому, что они нечестные, а просто потому, что вот так большинство голосует. Поэтому здесь единственное, для чего могут быть использованы Большие данные – думаю, для повышения явки и как-то правильной работе с лидерами мнений, сегментация, агитация. Сейчас очень много приходит запросов на предвыборные кампании мэра в Москве. Ну, всем понятно, кто мэром станет – не потому, что куплено, коррупция – все проголосуют за Сергея Семёныча, с этим ничего не сделать. И у остальных кандидатов задача набрать минимум какой-то или, как в Госдуму, они процент какой-то должны набрать. Вот, как-то так.

Значение сбора данных из соцсетей в победе Трампа


Но такого успеха, конечно, как у президента США, вряд ли здесь удастся добиться: во-первых, потому что у нас вот такая вот выборная система; а во-вторых, я не очень-то верю в успех президента США. Я думаю, 30-40% ему реально микротаргетинг принёс, но не космическую победу.

И.: – Расскажи, что там за алгоритмы могли быть использованы?
А. Х.: – Там всё было на самом деле очень просто. Все сейчас пинают «Кембридж-аналитику» за то, что они якобы что-то где-то нарушили, но по сути дела никто не сидит в тюрьме по очень простой причине: потому что законы нарушены не были. Была куча тестов в «Фейсбуке», какой-то «пирожок»… Ну знаете, их полно. Люди проходят эти тесты и никогда не читают лицензионные соглашения. А там всё чётко: данные их используются для продажи на рекламную платформу. Люди проходят абстрактные тесты, какой-то пирожок или какой-то хлебушек, красный или синий, – на основании этого они делают психометрические выводы, за кого человек будет голосовать. Но там важно, не за кого человек будет голосовать – важно понять, какая у него проблема: мексиканец, который боится не получить работу или американец, который боится её потерять из-за мексиканцев – эти люди группируются в маленькие группки, и потом условный президент в виде таргетированной рекламы этим людям говорит: мы вам поднимем зарплату, а вам отменим обамовское здравоохранение, вам запретим (мексиканцам) работать, вам – разрешим (мексиканцам) работать.

То есть это такой условный микротаргетинг, который показывает каждому человеку не двухчасовую прямую линию с президентом, а какие-то определённые моменты, то есть реальные проблемы, которые президент собирается решить.

Можно ли предсказывать преступления и искать преступников через соцсети


И.: – Скажи, пожалуйста, как вы ищите антисоциальные какие-нибудь элементы – педофилов, маньяков, убийц? Можно ли вообще предугадать, что это случится, что человек совершит преступление, или как его эффективно предотвратить?

А. Х.: – Тема предотвращения преступлений сейчас – одна из самых активных в мире. Мы очень активно вкладываемся в эту историю, пытаемся её трансформировать. Основной из кейсов, который у нас есть – это система для расстановки ППС. Это алгоритм, который с утра «генерит» информацию, куда нужно поставить патрульно-постовую службу в зависимости от задачи. Фанатов ли мы хотим оприходовать, либо мы хотим снизить уровень криминогенной активности (кражи, насилие), или хотим наркобарыг поймать. То есть мы собираем определённый набор данных, делаем из этого выводы, смотрим на нашу какую-то статистику историческую и говорим: сюда, сюда, сюда, в такое-то время, ехать они должны таким-то образом; и наш некий целевой показатель снижаем.

Наш максимум в Подмосковье… Сколько мы делали? Ну, где-то 7–8% — мы снижали криминогенную активность где-то – это кражи домашние, это уличные грабежи. Это максимальный показатель, которого нам пока удалось добиться.

Что касается маньяков и всех прочих ребят, когда мы встраиваемся в процесс добора каких-то дополнительных улик – здесь стандартный кейс такой: вот есть среднестатистический следователь, на него пришло какое-то убийство; всё, что он может потребовать с мобильного оператора, когда пройдёт суд и полтора года после суда – это он получит, не знаю… 300 тысяч номеров мобильных телефонов вокруг какой-то конкретной геоточки. Сделать с ними он ничего не может. Он загружает эти номера к нам, мы, соответственно, можем оставить из них 5–7 людей, которые были как-то связаны, находились рядом с ними, можно поговорить с ними и так далее. А все остальные, может, мимо просто на машинах проезжали.

Есть ещё история, связанная с фанатами, тоже очень популярная история. Вот сейчас, перед чемпионатом у нас стадионы покупают системы удалённой идентификации, для того чтобы: когда отбитый фанат заходит на сайт – и ему говорят – билетов нет, или он приходит потом на стадион, его там распознают – и его не пускают, потому что он написал у себя в «Инстаграме», что «завтра идём мочить русских», там, на «Локомотиве»… Вот как-то так.

Что касается педофилов, мы достаточно давно, к сожалению, в этой теме, и там есть одна очень большая проблема. Мы где-то четыре года назад начали этим заниматься: сделали ботов, которые путешествуют по интернету, общаются со взрослыми мужиками на форумах определённых и пытаются как-то с ними пообщаться и какие-то факторы выделить их поведения, запросы и так далее. Это работало слишком хорошо: слишком много людей было найдено – столько людей наша правоохранительная система через себя пропустить не может. А главное, что по текущему законодательству человека нельзя посадить за лайки в соцсетях, и это хорошо, подчёркиваю – хорошо. И как бы нельзя человека посадить за намерение совершить какой-то акт. То есть в данном случае мы можем только сгенерировать рекомендацию, и дальше участковый должен как бы пойти и кого-то за руку поймать. А это, сами понимаете, работает в 100 тысяч раз медленнее, чем работает алгоритм.

Можно ли навсегда удалить свои данные из интернета?


И.: – Могу ли я вообще удалить что-то из интернета или это абсолютно?..
А. Х.: – Это практически невозможно, потому что необходимо будет общаться с каждым владельцем каждого ресурса. Есть так называемый закон о забвении, который вроде обязывает всех это делать, но юридически он распространяется только на поисковые системы. У нас лично есть форма на сайте для удаления данных о себе, но нельзя нам в дальнейшем запретить эти данные о людях собирать, потому что законодательство текущее не очень хорошо работает.

Как соцсети могут помочь утечке моего пароля?


Такая есть ещё интересная статистика: в начале этого года Международная ассоциация банков делала очередной обзор о информационной безопасности – у них был такой интересный показатель: возросли в шесть раз кражи с денежных счетов, когда был взломан секретный пароль. То есть: вы сейчас подумайте о своём секретном пароле… Что у вас там стоит – кличка животного девичья фамилия матери и подумайте о том, могу ли я узнать эти данные из открытых источников? Могу ли я узнать кличку домашнего животного, любимое блюдо или девичью фамилию матери из открытых источников. Соответственно, я могу зайти в банк, восстановить пароль и взломать ваш банк. Вот, Европейская ассоциация – у них в 6 раз увеличились кражи именно по этой статье, потому что люди ставят ответ «кличка домашнего животного», а потом пишут в «Фейсбуке» кличку домашнего животного. Собственно, вот как-то так. Мне кажется, через пять лет кошмар совсем будет происходить, потому что текущее поколение – они не понимают, что соцсети – это навсегда, что это открыто, что если сейчас какая-то девушка станцует пьяная на столе, а через 20 лет она станет классным руководителем, то все дети смогут найти это видео из архивов и потом начать шантажировать.

И.: – Ты себя не чувствуешь таким… злым гением немножко, потому что ты обрабатываешь данные людей всё-таки не в интересах их самих, а такого условного «большого брата»?

А. Х.: – Есть такое на самом деле, да, но у меня есть такая отмазка, которой я собственную совесть успокаиваю: возьмём, например, кейс – человек уволен за то, что он набухался (это реальная абсолютно история), человека уволили (ну там, пьяный в сториз выложил и его спалили и уволили). Моя концепция следующая: если работодатель захочет за ним следить – он за ним будет следить, по открытым источникам или по закрытым источникам; если государство хочет следить за человеком, оно может это сделать любым образом – оно может прослушку ему поставить, а может посмотреть его публичные фотографии. Я в этом случае бренд «Калашников» – можно тысячу людей убить карандашом, а можно расстрелять их из автомата; плохо, печально, но я, как инженер, придерживаюсь концепции, что не оружие убивает людей, а люди. Вопрос в том, кто эти данные получит и как он ими будет распоряжаться.

Но, конечно, все с моей концепцией не согласны. Они считают (цитирую с комментариев в «Фейсбуке»): «Так же и Гитлер оправдывался»! или «Так же, типа, эссесовцы оправдывались!» Те данные, которыми мы оперируем – люди сами их отправили в открытый доступ; мы просто научились из этого извлекать факты.

Как приложения для знакомств станут более эффективны


И.: – Мне кажется, вы можете заработать ещё больше денег, если просто будете искать пару для людей идеальную на более крутом уровне, чем это делает «Тиндер» или кто угодно.
А. Х.: – Да, ждите конца года – мы сейчас работаем над приложением для знакомств.
И.: – То есть люди всё-таки будут счастливее, счастливы?..
А. Х.: – Моё идеальное приложение для знакомств – это не «Тиндер», не «магазин мяса», мой идеальное приложение – это когда ты зашёл, авторизовался соцсеточкой (мы получили минимум информации) и тебе сразу же предложили идеальных кандидатов. Наша главная в этом случае проблема – определить текущую эмоциональную, психическую стадию человека, чтобы понять, кого ему конкретно подбирать. Что ему сейчас нужно: секс на один раз, любовь всей жизни, ну и так далее. Мы уже достаточно долго работаем над этим вопросом.

Неожиданные результаты исследований проституток


И.: – Слушай, как можно опознать человека, которому нужен секс на один раз по его социальным сетям, по фотографиям?
А. Х.: – Фотки… Ну, сложно сказать. Есть такое среднестатистическое, может, у кого-то представление: фотки алкоголя – одинокий холостяк, просмотр порно… Давно мы делали исследование: мы брали 20–30 тысяч проституток со всяких разных сайтов, по фоткам их «мэтчили» в соцсетях и делали исследование, какие ВУЗы они заканчивали. Ну, соответственно, смотрели, как они с людьми коммуницируют.
И.: – То есть вы искали зависимость между образованием и их положением?
А. Х. – Да. Нет никакой зависимости на самом деле. Вообще. Как в МГИМО есть такие девушки и мальчики так и в каком-нибудь урюпинском ВУЗе. Нет никакой зависимости.
И.: – Это народная профессия?
А. Х.: – Да. Древнейшая народная профессия.


Сериал в тему


После прочтения интервью невольно вспоминается сериал — Person of Interest. Рекомендуем всем его к просмотру.



Быть может будущее уже наступило и мы все в поле зрения, подозреваемые.

Немного рекламы :)


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Комментарии (54)


  1. NeoCode
    09.11.2019 14:03

    Понятно что в интернете о человеке можно узнать почти все:)
    А вот можно ли изменить человека и общество, используя интернет?
    Понятно, что если человек скажем фашист или расист, а ему показать антифашистскую пропаганду, то это не только не поможет, а наоборот — человек будет только раздражаться. А как насчет легкого смещения акцентов в выдаваемой информации, незаметного для сознания и призванного воздействовать скорее на подсознание? Причем эффект должен проявляться очень тонко, не на конкретном человеке и не сразу, а на огромных выборках и постепенно. Возможно ли такое?
    В общем, кто владеет информацией тот владеет миром. Приятно только одно — что создатели соцсетей и поисковиков — люди неглупые и цивилизованные (собственно, они и кормятся с продуктов высокоразвитой цивилизации, было бы странно если бы они при этом были другими).


    1. cubit
      09.11.2019 23:18

      Не глупые — да, цивилизованные — кто знает…


    1. Areso
      11.11.2019 01:30

      А как насчет легкого смещения акцентов в выдаваемой информации, незаметного для сознания и призванного воздействовать скорее на подсознание?

      Окно Овертона


      1. vadbars
        11.11.2019 08:40
        +1

        Насколько знаю, нет системных доказательств действенности этого приема (равно как и «25-й кадр» и т.п.).
        По сути это просто эффект повторяемости (как в любой рекламе), привыкание и работа авторитета. Множество ссылок и упоминаний создает иллюзию его существования. Загадочное и «иностранное» название метода придает ему дополнительную значимость — Окно Сиськина звучало бы хуже )).
        В общем, окно Овертона — лучший пример использования Окна Овертона. )


    1. ra3vdx
      12.11.2019 19:28

      Общество — в принципе возможно. Артур в том числе и об этом рассказывал. До конца не дочитал интервью, ибо смотрел это и многие другие его ролики, в том числе и сам снимал его.
      Это довольно просто. Допустим, условный Фейсбук немного меняет свой алгоритм выдачи и начинает показывать людям посты, имеющие какую-либо социальную, политическую или иную окраску. Реальные посты реальных людей. Меняется просто частота их появления в лентах пользователей по какому-то признаку: стране, политической ориентации… чего угодно. Итог немного предсказуем)


  1. GeBoN
    09.11.2019 18:00

    Почему-то вот совпало их наличие на всех возможных фотографиях, яхтах, связях и так далее с тем, как они размещают государственные закупки. Уж почему так получилось, мы не знаем.
    Интересное совпадение.(чешу затылок).


  1. GeBoN
    09.11.2019 18:09

    Вот, Европейская ассоциация – у них в 6 раз увеличились кражи именно по этой статье, потому что люди ставят ответ «кличка домашнего животного», а потом пишут в «Фейсбуке» кличку домашнего животного.

    image
    Всегда выбираю для восстановления пароля «кличка домашнего животного», но никогда там её не использую.))
    Применяю свой набор ответов на такие вопросы.


  1. gregor58
    09.11.2019 19:31

    Вот интересно! Интервьюируемый говорит, что компании которые собирают и обрабатывают данные отдельных групп и конкретных людей в чьих-либо интересах (что по сути является слежкой, которая без специальных разрешений вообще-то запрещена) такие белые и пушистые и ничего особенного не делают собирая их из открытых источников. Ссылается на то, что оружие и убивает и защищает, в зависимости от того кто и для чего его использует. Но ведь этим компаниям все-равно кто и с какой целью будет их использовать. Мало того, часто они заведомо знают для чего эти данные будут использовать, чтобы сделать лучшую выборку. И может формально они и не нарушают, еще слабо разработанное законодательство в этой сфере, но фактически становится ясно, что они совершают преступление.


    1. tmin10
      09.11.2019 20:28

      Но где та тонкая грань, когда просмотр открытых источников становится слежкой?
      Например познакомился парень с девушкой и решил получше узнать её интересы: нашёл профиль в одной соцсети, в другой, почитал, что она пишет в комментариях. А если он это сделал не руками, а спец софтом, который сразу выдал некую подборку материалов по человеку? А если это была не девушка, а коллега по работе? Когда это уже слежка, которую надо запретить?
      Всё это открытые источники, которые люди наполняют сами.


  1. Areso
    09.11.2019 20:05

    Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.

    Только Гугл до сих пор неверно определяет мой пол, даже имея настоящие имя и фамилию, ага.
    А. Х.: – На самом деле здесь люди сразу же наберут свой «вес экстремизма» за счёт оружия. Распознавание оружия на фотографии, мгновенное распознавание оружия на фотографии очень часто используется в «сториз», во всём-всём-всём. То есть у них сразу галочка появится, что они «сфоткались» с оружием. И если этот человек наберёт некий уровень опасности, то эти сигналы сразу будут отправлены в органы, контролирующие оборот оружия, потому что… Это же «Калашников», правильно я понимаю? Вроде-то как огнестрельное оружие у нас запрещено.

    И фотка с Калашниковым — ни о чем не говорит.
    Потому что если взять не конкретного Рамзана Кадырова, а случайного Васю из Интернета — то там может быть что угодно:
    1) ММГ (модель массогабаритная)
    2) пневматика
    3) пневматика для игры в страйкбол
    4) охотничий карабин на базе АК (не меньше полудюжины разных моделей)
    5) наконец, там может быть настоящий АК. Я стрелял с настоящего АК, и если предположить, что я сделал глупость и попросил сфотать меня с ним перед, во время, или после стрельб, а потом выложил эти фотки в Интернет, то как это должно меня характеризовать? Правильный ответ: никак, кроме того что мужчина (с шансом в 99% Вась Пупкин) держит что-то, очень похожее на вид на АК (подчеркну — именно на вид).
    P.S.: В России огнестрельное оружие не запрещено, передайте там эксперту. А ограничен оборот, хранение и использование.
    Мы два или три года назад с «Лайфом» проводили такое исследование, когда был «праймериз» «Единой России», и они обязали всех ребят, которые собираются пойти в «Единую Россию» (4400 кандидатов)… Где-то на 600 из них подали свои аккаунты в социальных сетях – мы посмотрели, какое порно они лайкают. Там было очень смешно: где-то 70–75 человек засветились в такой, нелицеприятной активности – кто-то Навального лайкал, кто-то – «Роспил», кто-то – детскую порнографию. В общем, это было смешно.

    Из чего вдруг лайканье Навального или Роспила должно стать нелицеприятной активностью? Хотя, конечно, слабо сочетается с желанием попасть в ЕдРо… С другой стороны, ребята полайкали господина Навального или Роспил и поняли, что бабло есть только у победителей, а победители — это ЕдРо. И решили сделать выбор.
    Несите следующего эксперта, что ли.


    1. zim32
      10.11.2019 10:00

      Да там не нужна 100% точность. Есть какая-то статистика, к примеру из ста процентов у 75% настоящий автомат. Из ста процентов людей с фото на фоне яхты 15% интересует покупка виллы в Ницце. И все. Чтобы рубить на этом бабло больше и не надо


      1. JamboJet
        11.11.2019 00:06

        Причем про это написано прямым текстом: «если этот человек наберёт некий уровень опасности, то эти сигналы сразу будут отправлены в органы, контролирующие оборот оружия».
        Также и с яхтой, набираешь определенный уровень вероятностного достатка и тебе начинают совать рекламу замков в Англии, личных самолетов и инвестиционных фондов.


    1. Daddy_Cool
      11.11.2019 01:26

      У нас есть стрелковые клубы, всё легально — можно пострелять из чего угодно и пофоткаться.


      1. Areso
        11.11.2019 01:28

        Да я-то в курсе, что есть и клубы и тиры, а вот герой интервью, похоже, что не совсем.


        1. Daddy_Cool
          11.11.2019 01:56

          Суть вопроса какая — есть ли значимая корреляция между тем, что человек сфотографировался с оружием с незаконными насильственными действиями со стороны этого человека. Фиг его знает. С одной стороны у нас полно балбесов которым только дай в руки что-то посерьезнее водяного пистолета так они расстреляют всю очередь за напитками, а с другой — люди у которых оружие есть относятся к нему все же ответственно. С третьей стороны — кавказские республики это вообще другая жизнь, наверняка с другими корреляциями. Ну вот… наберут статистику и узнают.


  1. dartraiden
    09.11.2019 20:54

    Насчёт «я говорил вслух о сепульках и мне теперь везде показывают рекламу сепулек» объяснение очень простое и складывается из нескольких факторов:
    — человек, когда озабочен проблемой (не просто же так он о ней заговорил) имеет склонность искать связанную с ней информацию в интернете. Он ещё вчера об этом мог подумать, что-то близкое искать, а сегодня заговорить. А ещё искать могут его собеседники. А они ещё и выходят в интернет через одно и то же соединение (дома или в офисе).
    — человек запоминает такие случаи (потому что они выделяются), а вот случаи, когда он поговорил вслух о чём-то и ему не показали соответствующую рекламу, он склонен игнорировать (в них ничего примечательного нет). По-моему, для такого когнитивного искажения есть даже научное название.

    Вообще, без каких-либо статистических данных говорить о том, что «приложения подслушивают» всерьёз невозможно — поскольку всё это базируется на субъективном «ну вот я это замечал».


    1. reinvent
      10.11.2019 11:38

      Лично у меня был опыт такой.
      Сидели за обедом с коллегой, и случайно выяснилось, что он катается на роликах. Я катался давно, меня тема заинтересовала — разговорились. Я уже лет 20 про ролики не разговаривал, не то что искал что-то. Ну и после обеда увидел обилие рекламы.
      Ещё пример. На даче друг поймал ежа и повез своим в качестве сюрприза. Приезжаем, он говорит: смотрите, кого я привез. И все домашние и гости кричат: ёжик, ёжик!!! Помучили ежа и решили его покормить, и тут одна девушка достает смартфон и пишет «чем кормить» и Яндекс услужливо подставляет «ёжиков»


      1. tmin10
        10.11.2019 11:58

        Не раз читал про такое, но нигде не видел, чтоюы автор попробовал научный метод, чтоюы доказать или опровергнуть гипотезу. Выбрать новую случайную тему, поговорить про неё, проверить. И так несколько раз.
        Выключить на смартфоне сеть, проверить, что не воспроизводитмя результат.


    1. roscomtheend
      11.11.2019 11:30

      Есть знакомые "за нами следят, телефон подслушивает" ещё чуть и про чтение мыслей радиоточкой начнут. "Вот, вчера поговорили, а сегодня эта реклама везде", но никогда не помнят какая реклама была (через день не помнят уже и ту, которая "везде"). Самое смешное, что даже специально не стараясь увидел полезший блок рекламы сайтоконструкторов (или чего-то типа), а через пару дней зашёл разговор о сайтах (не конструкторах, но близко). Можно было-бы подумать что "вот, подслушал нас директор Интернета и теперь показывает всякое) и был бы "опыт" как у reinvent. Надо записывать какая реклама появляется, тогда и будет понятно, а не как типичный гуманитарий. У нас-вот когда-то утка поселилась, посмотрел "чем кормить" на первом месте утка. Совпадение? Не думаю. У куча подобных прохладных историй в комментариях, когда никто не удосужился ничего проверить.


  1. Ceph
    09.11.2019 21:03

    В ходе всей статьи честно пытался понять, чем же они лучше ФСБ. Так и не понял.
    Интервьюируемый не забывает при каждой возможности подчеркнуть, что:
    — «все в рамках закона»
    — «сами выложили»
    — «все равно кто-нибудь другой воспользуется»
    — «только рекламы ради»
    — «ну узнали, и ничего страшного»
    — «время такое, все так делают» и прочее.
    Почему он врет себе — ясно, но когда он считает других имбецилами, который в эти сказки поверят — это оскорбляет.
    — Но я, как инженер, придерживаюсь концепции, что не оружие убивает людей, а люди.
    — Так вы и убили-с, и гордо нам сейчас рассказываете, как вы это классно делаете.


    1. DmitrySpb79
      09.11.2019 23:29

      Он и не должен быть лучше или хуже. Закон не запрещает анализировать открытые данные, почему он должен скрывать этот факт или врать себе? Вполне интересная тема для дата анализа :)

      Только вчера статья здесь была — даже просто анализируя время сообщений пользователей хабра, можно получить любопытные данные, вплоть до времени похода на ланч — habr.com/ru/post/475058
      Люди и не задумываются, как много можно узнать, если начать искать закономерности в паттернах.

      И еще, есть известный принцип (точную цитату не помню) — если кто-то пользуется сервисом бесплатно, то он товар а не клиент, об этом тоже стоит помнить.


      1. pyrk2142
        10.11.2019 05:19

        Закон не запрещает анализировать открытые данные, почему он должен скрывать этот факт или врать себе? Вполне интересная тема для дата анализа :)
        Закон не запрещает многие вещи и в реальной, и в виртуальной жизни, которые многими людьми считаются мерзкими, опасными или злонамеренными, плюс всегда есть недоработки в законах.

        Проблема таких компаний и исследований в том, что они лезут и пытаются добыть те данные, которые люди не хотят отдавать. Законно? Скорее всего. Социально приемлемо? Очень спорно.


        1. DmitrySpb79
          10.11.2019 09:15

          Да, спорно. Хотя я например, не против таргетированной рекламы — если уж реклама все равно неизбежна, лучше пусть показывают то что мне интересно.

          пытаются добыть те данные, которые люди не хотят отдавать

          Простой пример, глядя на время вашего сообщения (05:19) можно предположить что вы живете в США :) Но ведь время сообщения не является секретными или приватными данными. Как «запретить» анализировать такие данные? Да в общем никак.

          Но считать «мерзкой» математику или статистику глупо, это всего лишь математика. Если это используется для мошенничества, это уже плохо, да.


          1. Ceph
            10.11.2019 12:31

            К математике (как и любой другой области знания, сколь бы бы «сомнительной» она не была) претензий нет. Но кто-то применил эти знания к личным данным, кто-то продал обработанные данные дальше, и кто-то использовал в своих целях. Но люди, реализующие два первых уровня, не признают или не хотят признавать свой «вклад» во всю схему.
            Ну а реклама, сколь бы точной она не была, существует для выгоды продавца, и в ущерб мне (поскольку только делает вид, что покупка будет выгодна, равно как и подменяет мои нужды своим «лучшим выбором»), и критическое отношение к ней более чем оправдано.


            1. DmitrySpb79
              10.11.2019 12:53

              Ключевое слово тут «неизбежна». Если уж реклама есть, пусть лучше будет таргетированная, чем всякая ненужная хрень. Хотя, эффективность рекламы вообще имхо никакая. Я только 1 раз за 10 лет сделал покупку, кликнув по рекламной ссылке.

              Ну и сейчас есть тенденция отказа от рекламы и перехода к платным подпискам (youtube, netflix). Что наверно правильно, и есть более цивилизованный этап развития сервисов, чем мигающие рекламные баннеры.

              Опыты по использованию big data в торговле вроде давно проводились (как пример www.vedomosti.ru/business/articles/2018/03/01/752359-x5-big-data ), но точность всего этого крайне низка, и вроде все это так и заглохло.

              Ну а реклама, сколь бы точной она не была, существует для выгоды продавца

              Не только. Любая покупка это ведь взаимовыгодный процесс. Я бы не отказался, если б мне выводили в рекламе что-то реально нужное и полезное по той теме что я ищу. Но в реале это нефига не работает.


              1. sshikov
                10.11.2019 16:46

                >Хотя, эффективность рекламы вообще имхо никакая.
                Именно. Поэтому заявления типа «фейсбук знает о вас все» и выглядят как попытка получить еще бабла на исследования.

                Если бы знали — случаев типа описанного выше («Только Гугл до сих пор неверно определяет мой пол, даже имея настоящие имя и фамилию, ага.») не было бы. А они вполне типичны — во всяком случае по рекламе я вижу, что мой пол, ага, они тоже определить неспособны. А даже если способны — то уж сделать из этого выводы не в состоянии совершенно.


                1. DmitrySpb79
                  10.11.2019 20:19

                  Ага, только сегодня в почтовый ящик кинули здоровенный бумажный каталог игрушек от местного супермаркета, там Лего и прочая фигня. И зачем он мне, если сын уже в университете учится :)

                  Big data в ритейле перспективная штука, хотя пока все это в зачаточном состоянии.

                  Но мысли автора в целом верные — современные соцсети достаточно хорошо кешируются гуглом и хранят много всего, что при желании и целенаправленном поиске может дать очень много информации о человеке.


    1. pyrk2142
      10.11.2019 05:27

      Почему он врет себе — ясно, но когда он считает других имбецилами, который в эти сказки поверят — это оскорбляет.
      Имхо, это обычная реклама собирателя данных: «Ваши клиенты не хотят вам ничего говорить и посылают менеджеров, которые непрерывно лезут с вопросами? Обратитесь к нам, мы умеем доставать то, что люди не хотят доставать. Социальные группы, доход, взгляды, ориентация? Можем все, зависит от денег. Абсолютно законно.» Реклама свою цель найдёт. А моральные ценности? Да кого в современном IT они волнуют.


  1. qvan
    09.11.2019 23:14

    А когда уже будет где-то в продакшене? Или уже есть? Вот никто ничего не предложил — ни одна реклама. Все показывают только то, что ты искал.


  1. DmitrySpb79
    09.11.2019 23:20

    В теории все круто, а на практике почему-то подбор фильмов на основе истории просмотра в Netflix работает из рук вон плохо, Амазон присылает на почту рекламу товаров которые я давным-давно купил (причем у них же), и так далее.


    1. 907
      10.11.2019 09:13

      Пока они только учатся… все впереди… скоро при приватном (не телефонном ) разговоре все будут выключать свою мобилу… А самые предусмотрительные уже сейчас это делают...


      1. solderman
        10.11.2019 18:00

        Дык енто еще в 90х практиковалось — собрались, выложили на стол телефоны и аккумуляторы рядом с ними, потом разговоры.
        Вон кто-то из гейтсов, или цукерманов вообще заклеивает камеры на всех девайсах.


  1. keydon2
    09.11.2019 23:35
    +2

    Потому что в данной ситуации всем понятно, кто у нас выборы выигрывает – не потому, что они нечестные, а просто потому, что вот так большинство голосует. Поэтому здесь единственное, для чего могут быть использованы Большие данные – думаю, для повышения явки и как-то правильной работе с лидерами мнений, сегментация, агитация. Сейчас очень много приходит запросов на предвыборные кампании мэра в Москве. Ну, всем понятно, кто мэром станет – не потому, что куплено, коррупция – все проголосуют за Сергея Семёныча, с этим ничего не сделать

    Такой скользкой попытки и клиентов не обидеть и в мерзавцах не отметиться я давно не видел. Здесь прекрасно все и даже реклама есть.


  1. sterr
    10.11.2019 00:03

    Гугл точно следит. Была ситуация. Стоим, курим. Подходят 2 мужика, спрашивают где опрессовать гидравлический шланг. Отвечаем. Уходят. Через час примерно полезла реклама РВД. Причем на протяжении минимум года про рвд нигде я не упоминал и не сталкивался. И это был не первый случай. Просто иногда определить трудно, если об этом говорили и например искали в интернете. Причем мог искать не я, а кто-то другой в этой же сети WiFi на работе. Причем это достаточно прикольно выглядело — я утром на горшке листаю сайты и гугл мне подкидывает рекламу. Приходя на работу я узнаю о схожих проблемах. Но гугл хотя бы относительно честен — при запрете ему микрофона (причем он используется всеми приложениями гугла), контекст перестал реагировать на разговоры. Но стал реагировать на модель телефона, просматриваемые картинки. Причем так как зацепиться ему в основном было не за что, в последних контекстах предлагает купить телефон, который у меня и так есть.


  1. nikolainefedov
    10.11.2019 09:15

    Я уже ничему не удивляюсь. Пароли стараюсь придумывать никак не связанные с собой лично. И за своим общением в соцсетях слежу, чтоб не проболтаться о чем-либо сугубо личном


  1. vladinozem
    10.11.2019 10:19

    Неприятно осознавать, что за тобой следят. Пароли меняю почти каждый месяц, но все равно иногда взламывают. Стараюсь придумывать максимально длинные пароли


    1. tmin10
      10.11.2019 12:01

      Как можно взломать пароль длиной 30 символов, сгенерированный случайно?


    1. metric_ghost
      10.11.2019 15:25

      При частой смене паролей и взломах прежде всего нужно проверить то, с чего в инет выходите. Я вообще не меняю, но пароли уникальны для всех сервисов — пока взломали только те, которые утекли с сайтов.


  1. trueMoRoZ
    10.11.2019 10:49

    секретные военные базы, которые рассекретил фитнес трекер. это ж эпик! интересно, у нас такой же уровень секретности у военных?)


    1. mstislav_r
      10.11.2019 12:14

      Уровень такой же. Но есть ситуации, когда нарушение 100% будет стоить кому-то жизни, тогда конечно телефоны и прочее остается на базе.


    1. tmin10
      10.11.2019 16:36

      Хм, у нас даже на производстве, где есть секретность, сдают телефоны и фитнес-браслеты. Нужно специальное разрешение получить, чтобы при себе такую технику иметь.


      1. pyrk2142
        10.11.2019 17:26

        В итоге анализ треков показывает, что десятки устройств каждое утро прибывают к неприметному зданию проходной завода, массово остаются неподвижными на 9 часов и возвращаются тем же маршрутом назад. Абсолютно обычная картина :)


        1. tmin10
          10.11.2019 17:28

          Местоположение заводов обычно не скрывается (по крайней мере не всех). Возможно на совсем секретных есть другие правила. Кто знает, на то они и секретные.


          1. JamboJet
            11.11.2019 00:42

            Так о том и речь: на обычном заводе чапельников и поведение пользователей обычное. А вот там где заставляют сдавать устройства явно есть что то ценное, секретное, интересное.


    1. pyrk2142
      10.11.2019 17:31

      Я очень сильно сомневаюсь, что трекеры на самом деле рассекретили военных. Почти уверен, что заинтересованные организации уззнают о существовании базы почти сразу после строительства, следят за ними в нужной степени, а публикация данных с трекеров лишь дала возможность обычным, не очень заинтересованным людям посмотреть на карту и поржать «Какие же военные тупые».


      1. JamboJet
        11.11.2019 00:50

        Смысл любой секретности — ограничение круга знающих лиц. Если раньше о секретной операции знали три полковника в КГБ и ЦРУ, то это нормально. Если после слива о ней знают сто военных в ста странах, тысяча сотрудников агентств и корпораций и десять тысяч назойливых журналистов-фанатиков-экозащитников-террористов — это фейл.


  1. Gumrak
    10.11.2019 12:14

    "сделали ботов, которые путешествуют по интернету, общаются со взрослыми мужиками на форумах определённых и пытаются как-то с ними пообщаться"


    Я знал, что все эти "Соня 11 лет' и "Леся 13 лет" в реальности старые э… провокаторы.


  1. annasmirn
    10.11.2019 13:03

    Интервью-то интересное, только вот эти все слежки, взломы и прочие хитрости уже надоели как-то.


  1. Sabubu
    10.11.2019 20:58

    Честно, часть расказанного напоминает фантастические истории. Да ну, вряд ли их искуственный интеллект так просто определит страну по фото или по надписи. Думаю, это больше теоретические рассуждения, что можно определить, если нейросеть заточить именно на это. Точно так же нейросеть не поймет смысл фразы и "Купил билеты на Кубу" для нее ничем не отличается "Зря мы не разбомбили Кубу в 1950-м" или "Едьте сами на свою Кубу, а я лучше на дачу съезжу". Номера машин и лица, впрочем, распознавать вполне реально, да.


    Потому, те, кто выкладывают свою рожу в соцсети, наверно не против, чтобы их потом по ней распознавали. Не хотели бы — не выкладывали бы.


    Кстати, заметил, что у некоторых школьниц на фото в соцсети часто лица спрятаны, и может быть не указана настоящая фамилия. Подрастающее поколение не такое и глупое.


    Там было очень смешно: где-то 70–75 человек засветились в такой, нелицеприятной активности – кто-то Навального лайкал, кто-то – «Роспил», кто-то – детскую порнографию.

    Интересно, как "лайканье" Навального поставили на одну ступеньку с детской порнографией, которой вообще-то по идее в соцсетях быть не должно.


  1. Daddy_Cool
    11.11.2019 01:38

    Насчет изменений в людях.

    если сейчас какая-то девушка станцует пьяная на столе, а через 20 лет она станет классным руководителем, то все дети смогут найти это видео из архивов и потом начать шантажировать.

    Думаю… фиг. Станет просто пофиг, кто там что делал если это не запрещено законом и не касается лично тебя. Всем достаточно своих проблем и задач.

    Насчет слежки. Следят. Однозначно.
    Стори 1.
    Захожу в кабинет к шефу, а у него читалка разобрана — аккумулятор помер от старости, стали обсуждать и искать аккумуляторы по образу и подобию погибшего… На 3.7 В. На его стационарном компе. Мой телефон лежал рядом на столе. Нашли, не нашли, не важно. Прихожу домой и думаю — не прочитать ли на ночь глядя парочку анекдотов? С домашнего ноута. Захожу на сайт, а там… реклама аккумуляторов на 3.7 В. Откуда спрашивается?
    Стори 2.
    Разговариваю по телефону, рассказываю, что хочу навести порядок в лабе и наклеить наклейки — что где лежит. Долго вспоминаю штуку для этого — ну там… набираешь буковки и получаешь ленту с надписью… которая клеится. Дома на компе обнаруживаю рекламу этикет-принтеров.
    Стори 3.
    Нам на работу нужна индукционная печка. Обсудили с коллегами. Дома… да. Вот она родимая — рекламка того что нужно. Примечание — на работе я на телефоне ничего не ищу потому что на каждом шагу компы с большими экранами.


    1. yea
      11.11.2019 11:51

      Первая и третья история может объясниться тем, что из рабочей сети кто-то искал вещи, а вы и ваши аккаунты/девайсы с этой сетью проассоциированы. То, что реклама показывалась уже на другом устройстве, не новость — есть, думаю, как минимум десяток способов собрать в кучу все ваши (и иногда не ваши) устройства и привязать их к абстрактному профайлу.


      1. Daddy_Cool
        12.11.2019 00:25

        Стори 4. Свежий апдейт.
        Сегодня звонит знакомая, просит помочь с переездом. Какое-то время мы обсуждаем сколько сумок-чемоданов, размер авто, во сколько и т.п… Вечером захожу к матери другой знакомой — она просит настроить ей Whatsup. Наши телефоны лежат рядом, я что-то ищу в своём, что-то ищу на её, и т.п… И вдруг я вижу на её телефоне рекламу… переездов — типа трезвые и аккуратные грузчики, и т.п… Уточнение — на моем телефоне не работает Wi-Fi, т.е. тут имеет место вычисление меня по координатам.
        — — —
        Я захожу на хабр и вижу аж 12 интересных статей/заголовков — начинаю их открывать… Видимо матрица решила меня срочно отвлечь, чтобы я не написал этот коммент. )


  1. vadbars
    11.11.2019 10:35

    На сайте (они ж теперь Tazeros) — прикольный сервис «Удали свои данные». Зашел на сайт, указал свои социальные сети, почту и т.п. По сути, способ добровольной самоидентификации. ))
    «В настоящий момент в одном из наших хранилищ открытых данных может находится информация о вас. Вы можете отправить нам единоразовый запрос на удаление всей информации, привязанной к любым указанным идентификаторам (аккаунты в социальных сетях, электронные почты или телефоны). Обращаем ваше внимание, что информация будет удалена до момент направления запроса, если после этого момента вы опубликуете материалы в открытый доступ они будут проиндексированы.»


  1. DrunkBear
    11.11.2019 11:27

    Если начну всем рассказывать, что дома лежит $100500 в бачке и меня никогда не бывает дома с 11 до 5 — наверняка ко мне зайдут в этот промежуток, поинтересоваться деньгами, хоть это и незаконно и я сам буду виноват.
    Если поставлю панорамное окно, выходящее на улицу и буду устраивать оргии — наверняка набегут ценители прекрасного и в какой-то момент стану сайтозвездой — тут я тоже виноват, хоть это тоже незаконно.
    Если выливаю все данные о себе в соцсети, не читая EULA (всё, что вы залили становится нашим и хранится сколько мы захотим) и кто-то собирает эту информацию вполне законно — то виноваты все, но не я?
    Забавная логика.
    PS интересно, когда соцсети догадаются собирать биометрические данные, в стиле «узнай, у кого ещё похожие отпечатки пальцев и голос»? /sarcasm