В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В этой серии поговорим о лингво-аналитике высокоскоростных потоков неструктурированных текстов и сообщений соцмедиа и представим «Эврику» — наш ответ «Алхимикам».

Интернет, в своем нынешнем восприятии обществом, это связанный набор сообщений: личной переписки в мессенджерах, ссылки между статьями в СМИ, обсуждений в блогах, игровые чаты, тематические сериалы на Хабре, или, как преобразилось в мировоззрении новых поколений — ссылки на ответы поисковика после набора запроса «Чем сегодня заняться?»

Если приглядеться, то основа основ: Связи и Тематики. Про аналитику «связей» говорить не будем (это к АНБ, на чьи возможности по электронной слежке сегодня отказался покушаться даже «всемогущий Сенат США»). А вот Тематическая аналитика (что недавно получило свое название — Brand Analytics — в пресс-релизе между Facebook и DataSift, а в России существует уже 3 года в виде названия проекта) и связанные с ней разнообразные вкусности — прекрасная тема (!) для новой серии.

Чтобы не раздувать серию приведем, тезисно, текущий «уровень угрозы» и ссылки на конкретные кейсы, для которых потребовались новые решения и подходы, для желающих поисследовать более глЫбоко:

— Объем коммуникативных сообщений, генерируемый человечеством, приближается к 20 миллиардам в сутки, основной поток – непубличный (различные мессенджеры, почта).

— Объем публичных русскоязычных сообщений в социальных медиа (соцсети, Твиттер, комментарии в СМИ, блоги, форумы, фото- и видео-хостинги, сайты отзывов и пр.) – 1 миллиард в месяц. Объемы «классических» редакционных и «грамотных» сообщений СМИ составляет менее 1% из общего потока данных (до 10 млн из 1 миллиарда).
Открытая реал-тайм статистика потоков данных социальных медиа и СМИ доступна по адресу br-analytics.ru/statistics

— Для обработки 30-40 млн сообщений в сутки (1.000 сообщений в секунду в пике) необходимы новые методики и алгоритмы обработки данных. Потоки социальных медиа – это неструктурированные «неграмотные» (не являющиеся классическими СМИ), малосвязанные, с большим количеством орфографических и пунктуационных ошибок, зачастую многосмысловые и многоязычные сообщения.

Задачи и проблемы, которые необходимо решать в современном динамичном мире (практические кейсы предыдущих лет):

Акция “Всем миром” (кейс от 1 октября 2013 года) — задача класса «Оперативная социология»: реал-тайм мониторинг реакции на динамично изменяющуюся, подверженную влиянию популярных медийных персон, заинтересованную и большую часть общества; выявление знаковых, заранее непрогнозируемых, модулирующих активное распространение в обществе, сообщений для быстрой реакции со стороны задействованных в обсуждении структур (в данном кейсе – ТВ-каналы и операторы мобильной связи).

--- “Прямая линия с Путиным” (кейс от 25 апреля 2013 года)
— задача класса «Кнопка Обамы»: реал-тайм выделение неизвестных активных тем и определение тональности каждой темы.

“Любовь и ненависть” на карте России, зима 2014-2015: исследование эмоционального состояния 35 млн пользователей социальных медиа во всех регионах России.

— Совсем сегодняшнее: тематические виджеты для сайтов в рамках спецпроекта МинКульта по «Ночь музеев»

Из лент (соцсети, фото Instagram, видео YouTube):

Ждем вас на Ночь музеев в Люмьерах 2.0. Начинаем в 20:00 с экскурсии по выставке «Советское фото» от… t.co/evIDYZVltl
twitter.comThe Lumiere Center 1 мин. назад

А вчера мы ездили на ночь музеев))) Очень интересно было
vk.com — Елена Иванова — 2 мин. назад

Кто хочет на ночь музеев сегодня?? пишите мне или звоните)компанию составим 89260860xxx
vk.com — Надежда Породзинская — 3 мин. назад

Через час выхожу из дома на ночь музеев) Кто хочет тоже — пишите)
vk.com Дарья Климович — 3 мин. назад

… монологи, Лидия Мастеркова о Владимире Немухине и о себе. Всех ждем, вход…
instagram.com — Moscow Museum Of Modern Art — 6 мин. назад

«Ночь музеев » в Петербурге: квест в Михайловском замке, Санкт-Петербург, 17 мая 2015
youtube.com — Сегодняшние Новости — 3 ч. назад


Для решения задач подобного класса было необходимо разработать совершенно новые подходы и решения. IBM, SAP, Microsoft, Samsung и другие гиганты за последние 10-20 лет потратили миллиарды денег на технологии обработки «классических» текстов (СМИ, корпоративные документы, архивные данные).

Но эти миллиарды и наработки не помогают в решении новых задач. И здесь выигрывает тот, кто быстрее принимает решения (см. серию Большая игра — megamozg.ru/company/palitrumlab/blog/14154 про Apple и Twitter в борьбе за поставщиков неструктурированных Big Data). В продолжении Большой Игры IBM, «плюнув» на затраченные ранее средства (в отличие от того же SAP, который уже 2 года пытается решить проблематику лингвистики русского языка силами своих европейских центров) приобрел в марте проект AlchemyAPI, уже имеющего скоростные технологии обработки миллиардов текстов на нескольких западных языках.

На правах «рекламы в сериале», а точнее «для тех, кто давно искал»:

Наш «отчет Чемберлену» (о котором мы упоминали в 6-й серии) последовал незамедлительно: в мае 2015 года мы выделили новые технологии в самостоятельное отдельное публичное решение для возможности использования сторонними компаниями – Eureka Engine (http://EurekaEngine.ru), представляющее высоконагрузочное облачное решение и промышленный API для включения в существующие или разрабатываемые командами, компаниями и организациями технологические комплексы.

«Эврика» уже работает «на благо» РИА «Новости» и Samsung, Mail.ru и РосТуризм, Atonomy и Brand Analytics, агентств и компаний в разных странах. Если у вас стоят задачи по обработке больших потоков неструктурированных данных (тематическое сюжетирование для редакции, сортировка кучи входящих документов в правильные отделы, определение языка текстов, выявление именованных сущностей и т.п.) — welcome!

Решение всегда найдется, верно?

Комментарии (2)


  1. excoder
    27.05.2015 00:43

    Спасибо за серию! Вопрос: с какой скоростью работает ваш модуль NER?


  1. OzzyTech Автор
    27.05.2015 13:12

    На одном «стандартном» сервере (некая стандартная конфигурация) — до 500 кбайт/сек.
    И спасибо за отзыв :)