В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data.
 
11 апреля Twitter объявил о прекращении контракта с DataSift. Казалось бы, ну и что? Фактически это означает начало Большой Игры, результаты которой можно сравнить с III Мировой. Звучит жутковато? Давайте расставим фигуры на доске и посмотрим.

Мы снимаем сериал про Big Data короткими сериями, так что предполагается, что зрители достаточно смышлёные и обладают широким кругозором, чтобы самостоятельно достраивать мизансцены и действия главных действующих лиц, когда они не в кадре.
 
Расставим некоторые фигуры на шахматной доске: США, Южная Америка, Европа, Китай, Россия, Twitter, Facebook, ВКонтакте — и посмотрим некоторые ходы в развитии партии под названием «Управление миром: Социальные сети и медиа».
 
Жили-были люди, они любили слушать истории и сказания о прошлых столетиях, потом появились книги о прошлых годах, позже — газеты с информацией за недели и дни, теперь есть соцсети с данными по миру за часы и Твиттер — за минуты. Это предел обычных людей (людей-датчиков) по «изданию» и получению информации.

P.S. Секунды и миллисекунды — это уже компьютеры и автоматы, «человечество» будущего, но об этом в другой серии.
 
Люди-датчики генерят моря и океаны медийной информации, в тысячи раз превышающие «стандартные СМИ» — газеты, журналы, радио и ТВ. Потоки мнений, высказываний людей, фото и видео-материалы, расширяют, а порою и полностью меняют целые индустрии: исследования, социология, PR, журналистика, маркетинг, транспорт, развлечения и т.д. Анализ данных социальных сетей позволяет решать «по-новому» (объемы, скорость, полнота) задачи во множестве индустрий. Поэтому в начале десятилетия Salesforce купил канадскую аналитическую платформу Radian6 за $380млн, а HP — Autonomy за $12млрд. Российский рынок также не остался в стороне — несколько коммерческих структур вложили средства в исследования и разработку в области аналитики социальных медиа.
 
Для аналитических платформ нужно много информации — разнообразной и многогранной. С началом эпохи интернета информация от людей агрегируется в разных «хранилищах»: сайтах и комментариях, форумах, блог-платформах, социальных сетях, микроблогах, фото- и видео-сервисах. Для доступа к пользователям Южной Америки американский Google купил (а затем «удавил в объятиях») Orkut, для Кубы американцы создали отдельную «подставную» социальную сеть, а Китай приложил огромные административные государственные усилия, чтобы изгнать американские социальные сервисы из страны.
 
Разные «хранилища» аккумулируют разные «виды» людей и информации (например, см. www.slideshare.net/Taylli01/2014-43472028 для пользователей интернет в России). Но для полноты картины для всех индустрий нужны данные из разных хранилищ, и вот тут на сцену выходят компании Большой Четверки: американские TopSy и gnip, английская DataSift и российская SDS/BrandAnalytics.
 
Каждая из 4-х уникальных систем «сбора и анализа» обладает своими специфическими особенностями (вследствие ориентации на определенные страны и рынки, языки, типы источников, объемы данных), но в этой серии речь идет о другой, более глобальной, плоскости:
 
1. TopSy — всегда считался большим другом Twitter и хранителем архивов последней, компании совместно делали множество интересных проектов, в том числе и «предсказание» следующего президента США. Для рынка стало огромным сюрпризом, когда TopSy был куплен за $200 млн в самом конце 2013 года, но не Twitter'ом, а… Apple. Да-да, тем самым производителем iPhone и iPad. На досуге интересно поразмышлять о причинах и следствиях. Напомним, что Национальная Библиотека Конгресса также заявила, что твиты — наследие человечества и хранит данные, начиная с 2012 года.
2. Следствием «увода» TopSy последовал быстрый (всего-то 3 месяца) ответ со стороны Twitter — компания в марте 2014 года покупает gnip (по оценкам рынка за $240 млн).
3. Таким образом, через год после сделок Apple-TopSy и Twitter-gnip, сегодняшнее объявление об «изгнании» английской DataSift компании из США «закапсулировали» в себя _открытый коммерческий доступ_ к стратегическим данным.
 
Обратите внимание на выделение в последнем пункте — именно здесь кроется много интересного: американо-английские компании 4 года основные разработки направили на обработку большого по объему, но небольшого (1-2 десятка) набора источников. В это же время SDS/BA вкладывались в обработку и топ-ресурсов (включая двусторонние соглашения с Одноклассниками, Мой Мир и др.), и десятков тысяч других источников (сайты и комментарии, форумы, блоги, видео и фото-хостинги). Разнообразие источников значительно расширяет возможности и применение в огромном море потребностей для разных областей человеческой деятельности.
 
Глобальные структуры (типа Samsung и HP), украинские, казахские, немецкие, французские, компании, работающие в арабских странах — напрямую или через агентства, уже активно используют универсальность российского подхода. После отсечения «независимого» DataSift теперь интерес будет еще выше — концентрация капитала сменяется концентрацией информации.

UPD 12апр: Коллеги из телеком-сектора на днях подсказали новый тренд в их индустрии: Net Neutrality — страны начинают защищаться и выстраивать самодостаточную инфраструктуру, или, как минимум, более защищенную в нынешнем однополярном мире. Количество сообщений на данную тему в развитых странах выросло на порядок в последнюю неделю.  

UPD 13апр: Премьер-министр Дмитрий Медведев подписал постановление, согласно которому Роскомнадзор получил право проверять переписку пользователей социальных сетей. В соответствии с подписанным постановлением, опубликованным на сайте правительства, у Роскомнадзора появилось право устанавливать факты приема, передачи, доставки и обработки сообщений в социальных сетях. Кроме того, ведомство будет осуществлять просмотр и анализ ресурсов организатора распространения информации, записывать и фиксировать действия, доступные пользователям, пишет «Коммерсант».

В следующих сериях поговорим о более приземленных для сегодняшнего дня вещах: NoSQL или колоночные СУБД, куда плывет «Голубой гигант», откуда растут ноги у слуха, что «данные кончаются».
 
1-я серия. Big Data — как мечта
2-я серия: Big Data негатива или позитива?
3-я серия: «Кнопка Обамы»
4-я серия. Революция мозгов

Комментарии (4)


  1. ServPonomarev
    13.04.2015 15:41

    Ну и где тут признаки 3-й мировой информационной войны? Закрывают доступ — неплохо, но по факту — накопленных данных уже достаточно для построения самых смелых когнитивных моделей. А что в реальном времени не мониторятся хотелки и страхи пользователей конкретных сетей — не беда. Всегда есть альтернативные источники.


  1. OzzyTech Автор
    13.04.2015 16:19

    Речь не про конкретных клиентов DataSift (хотя потеря такого источника как Twitter — реальная беда, как бы Вам не казалось), а про ограничение доступа к данным в рамках компаний одной страны (США). Не вдаваясь в крутые конспирологические теории — уже несколько лет во всех странах (развитых интернет-инфраструктурно) мониторинг инфополя через соцсети/медиа — обязательный прогностический аппарат. Информация всегда была ценностью, а в объемах сотен миллионов людей — суперценна.


    1. ServPonomarev
      14.04.2015 09:50

      Хотите получать логи твиттера по крайней мере для русских пользователей? Без проблем. Сотрудничайте с владельцами сетевой инфраструктуры и слушайте.


      1. OzzyTech Автор
        14.04.2015 10:11

        В трех предложениях Вы намешали и спутали столько… несуразностей, что нет смысла комментировать.