Только ленивый (включая и сценаристов нашего сериала) уже не высказался со своим мнением по поводу «Who is Big Data?» Сегодня давайте порассуждаем не про объемы, а про скорострельность потоков данных. Англоязычное слово Bolt имеет так много смыслов, что легко можно подобрать другой смысл для двухбуквия BD вместо Big Data — Bolt Data, в том числе: удар молнии, вылетать, выболтать, говорить быстро и невнятно.
Модное поветрие обращать внимание только на объемы (Big) уже привело к массовому разочарованию обычного населения. Вот выступает на очередной конференции очередной представитель очередного портала, скажем, с базой данных резюме: «У нас настоящая огромная Биг Дата! 20 миллионов резюме! В прошлом месяце мы переехали на новый 8-64-192-ядерный сервер с 4-8-32 ТБ памяти!»
Дышим ровно и представляем картинку Древнего Египта: 20 000 рабов перетаскивают огромные каменные блоки и возводят очередную, 105-ую, Пирамиду Хеопса. Поскольку ЗАДАЧА определяет решение, а не РЕШЕНИЕ придумывает себе задачу, то для местного Тутанхамона и «древне-египетского портала резюме» такой объем данных (20 миллионов карточек) — плюнуть и растереть.
Представим картинку: почесывая толстое брюшко выходит утром на балкон МантесумХеопс-XXI и повелевает: «Найти мне к вечеру 5 новых омывательниц ног, вчерашних пришлось скормить львам». Поворачивается и уходит, и работа закипает: каждый из 20 000 рабов бросают каменные блоки, хватают по 1 000 резюме, быстренько просматривают каждое за 20 секунд, и к обеду у Главного Евнуха уже 20-30 резюме для собеседования. МантесумХеопс-XXI и его голодные львы — довольны, сыты и счастливы. И рабы тоже передохнули от таскания террабайт камней («ядер»).
Как видим, результат достигнут ВОВРЕМЯ и без лишних умных слов. А назовет ли кто-то сей процесс Big Data или нет — древним египтянам по папирусу. Так что когда вы видите очередное клише, то расслабьтесь, и подумайте о Древнем Египте :-)
Сегодня прошла очередная Прямая линия с В.В. Путиным. Задачка с технологической точки зрения куда более интересная (мы уже обсуждали в прошлой серии про «Кнопку Обамы»), чем пирамида резюме, в том ключе, что для подрастающего научно-технического поколения и для интересующихся ново-египтян позволяет на реальном примере обсудить Bolt Data и поговорить о лингвистике.
Вот график реакции (см. выше один из переводов слова Bolt — говорить быстро и невнятно) сотен тысяч русскоязычных пользователей соцмедиа: журналистов, политических деятелей, экономистов, мам, пап, бабушек и внуков:
Возможно ли обработать подобный «поток сознания» с помощью 20 000 древне-египетских рабов? Не получается. Ведь только 2-3% обсуждений/комментариев происходит в широко-публичных местах (крупные группы в ВК или ФБ, текстовых трансляцих федеральных агентств и СМИ), остальные «народные выкрики» происходят в рупоры личных аккаунтов для друзей, подруг. Смотреть за каждым из миллиарда аккаунтов Твиттера, Фейсбука или ВКонтакте — на Земле народа не хватит.
Вот такие задачки мы и именуем rtBD&A — real-time Big Data & Analytics (по-русски, типа: аналитика неструктурированных данных больших объемов в реальном времени). С "rt" — понятно, с BD (Big/Bolt Data) — тоже понятно, всего-то введен фактор ограничения по времени (в радиотехники есть соответствующий термин «скважность»), давайте чуть раскроем A — Analytics. Оставим в стороне проблематику «слУшать» миллионы и миллиарды публичных сообщений (про эти системы мы говорили в предыдущей серии), поговорим о проблеме «слЫшать», а также о необходимости «понимать» язык птиц, зверей и людей.
Вот здесь нам и пригодится крутая система модулей E-ngine (название у системы конечно другое, но до публичного объявления пока остановимся на таком, для нашего сериала это не принципиально): по «живому потоку» данных, генерируеммому миллионами людей, нужно:
— Определить язык сообщения;
— Провести лингвистическую обработку текста;
— Определить, что текст о «Путине», а не о «путИне» (если кто не в курсе — это время промыслового лова рыбы);
— Классифицировать сообщение (определить существующую тематику или предложить новую);
— Выявить объекты NER (именованные сущности — фамилии, населенные пункты, названия заводов и пр.), причем не-словарными методами (ну не было в словарях и Википедии объекта «Челябинский метеорит» до катастрофы);
— Определить тональность высказывания (позитив-нейтральность-негатив), причем важная объектная тональность, а не просто «как обычно делается»;
— и еще всякое по мелочи…
— На сладкое: грамотность и пунктуация наших текстов в соцмедиа — ну вы сами знаете :-)
Чтобы усилить представление, давайте прикинем на пальцах: за 4 часа (время Прямой линии) в публичных популярных соцмедиа (микроблоги, соцсети, новости и комментарии, форумы, блоги, видео, обзоры, отзывы) пользователями генерится порядка 8-10 млн русскоязычных (кириллических) сообщений (наша публичная реал-тайм статистика по соцмедиа). Т.е. для обработки «на лету» нужно успевать обрабатывать до 1.000 неструктурированных сообщений В СЕКУНДУ и «молотить» такой поток модулями E-ngine.
Средняя «по больнице» длина сообщений в русскоязычном интернете ~1 Кб. Оценить скорости работы E-ngine вы можете самостоятельно. Для оценки можно использовать презентационные данные системы Compreno (разработка наших друзей и замечательной команды Abbyy) — очень сильный и прекрасный инструмент, на разработку которого потрачено тысячи человеко-лет: для обработки 1 Кб текста понадобится 5-10 секунд, но и качество обработки «книжного языка» — очень высокое.
Итак, краткое содержание серии:
1. Не ловимся на уже избитый и местами даже «убитый» термин Big Data — термин явно ждет судьба гордого термина 90-х «Портал», которое можно встретить в названии везде и всюду, типа «Портал вечернего клуба танцев в селе Подосиновики».
2. Сквозь прищур оцениваем великолепную длину ног новой PR-щицы, щебещущей про «наши петабайты» никому не нужных данных. Данные нужны нужные.
3. И вОвремя.
4. Интеллектуальные решения, методы и алгоритмы имеют тем бОльшую ценность, чем выше скорость решений, методов и алгоритмов. Не все задачи можно растащить на 20 000 древне-египетских рабов.
А между сериями можно порассуждать на досуге про новый путь «Голубого гиганта»: IBM продал Lenovo подразделение ПК, задружился с Twitter, направил 10 000 сотрудников на переобучение в Data Scientist, и на днях купил AlchemyAPI (замечательный движок типа E-ngine для нескольких западных языков).
На фоне долгожителя и «вечно молодого» IBM (выбрасывает старое, быстроменяется на новое) совсем не удивляет скоротечная жизнь великого когда-то и амбициозного Sun Microsystems (замечательные серверы были, кстати, и Java живее всех живых), а теперь и новая новость, что когда-то мировой финский лидер мобильного мира Nokia (приобретенный недавно Microsoft'ом) решил прикарманить «непотопляемых и вечных» Lucent/Alcatel, которые даже в паре не смогли противостоять китайцам.
Не останавливайтесь надолго под красивыми знаками, как бы Big Data их не звали — это всего лишь красивые раскрученные названия. Двигайтесь — решайте задачи, а не заучивайте решения. Желаем постоянно меняться и открывать новые дороги — это так интересно давать новым решениям новые имена.
P.S. У вашей компании есть понимание как решать задачи типа приведенных выше «не-египетским путем»? Вы чувствуете в себе задатки Data Scientist и примерно понимаете, как «опознать» ситуацию с «Челябинским метеоритом» за 3 минуты, а не 3 часа (как среагировала пресса)? Вы способны алгоритмизировать выявление новых методик спам-ботов Твиттера? Тогда вы находитесь на одном из многих, но точно верном пути — у вас прекрасное будущее.
В следующих сериях: NoSQL или колоночные СУБД, откуда растут ноги у слуха, что «данные кончаются», человечество — как всемирный мусорщик.
1-я серия. Big Data — как мечта
2-я серия: Big Data негатива или позитива?
3-я серия: «Кнопка Обамы»
4-я серия. Революция мозгов
5-я серия: Большая игра. Частное мнение
Комментарии (4)
OzzyTech Автор
17.04.2015 11:04У вас есть сильная необходимость и много денег, чтобы получить результаты подобного исследования? )) Brand Analytics совместно с ВЦИОМ предоставляли данные в реал-тайме по выступлениям президентов (и России, и США) в 2013 году — логистически удовольствие не дешевое, потому что требует много дополнительной работы, связанной с тем, что люди реагируют не одномоментно. Сказали про пенсии, например, тема в комменатриях начнется от 30 сек до 15 минут, когда в эфире уже совсем про другое. Исследование после завершения события — там все значительно проще, но все равно требует работы аналитиков (Data Sientist).
ServPonomarev
17.04.2015 12:17Вы пишете серию постов и статей, вот и хочется увидеть какую-то конкретику. Вы нафармили почти в реальном времени кучу комментариев — хорошо. Но вот вопрос, что вы с ними сделали — повис в воздухе. Или это будет в следующей части?
OzzyTech Автор
17.04.2015 14:19М-да, видимо с моей стороны совсем плохо с изъяснением. Будем над этим работать ))
Не очень понимаю используемый Вами термин «нафармили». Вы ожидаете подробного описания достаточно старых решений и применений? Типа — www.kommersant.ru/doc/2181606 — по итогам Прямой линии в 2013г в режиме реал-тайм?
Построение распределенной системы оперативного получения публичных данных соцмедиа — задача куда более сложная, чем, например, поисковые краулеры. Поэтому, видимо, и специализированных компаний в мире — по пальцам пересчитать. Задача хранения и оперативного поиска в миллиардах сообщениях — другой огромный пласт и проблематик. Лингвистическая обработка высоконагруженных потоков неструктурированных данных — отдельная песня. И т.д., и т.п.
Но все это вышеприведенное — это инструментарий для нового решения как старых задач, так и для новых задач, которые без этого инструментария решать, фактически, нереально. В сериале мы, вообщем-то, не ставили задачи показывать полноценные технологические цепочки, которые компании выстраивают годами, некоторые потом «плюют» на свои команды и покупают чужие решения или компании. Упор скорее делается на метафизический опыт и подхода к задачам, которые, по сути, определяют потенциальное будещее развитие индустрии/й.
Проблематика использования обсуждаемого «инструментария» для пост-фактумных или реал-тайм задач — схематична, усложняемая в некоторых случаях ограничениями по публичности. Например, по тем же «прямым линиям» — технологически это было интересно 2-3 года назад, когда в мире происходил выбор множества технократических (не всегда технологических) решений для решения подобных задач, с привлечением социологов, исследователей, психологов и пр. -ологов.
Одним из «бумов» 2015-го года (началось где-то осенью 14-го) — промышленная прогностика. Возможно сыграла роль активная и позитивная по результатам политическая прогностика. Другой мощный сформированный «бум» — оперативное реагирование на жалобы и просьбы клиентов. Этим не ограничивается, конечно, есть еще несколько интересных трендов (от маркетинга до фондового рынка). При этом «старые» тренды никуда не уходят — начиная от сентябрьских выборов в 57 регионах России до выборов в США (гонка началась).
Так что задач и направлений множество, расписывать подробно какое-то отдельное мини-направление, наверное, можно, но нужно ли?
ServPonomarev
Ну так и где исчисливые хоть как-то результаты анализа потока сообщений во время выступления Путина? Хотя-бы график тональности сообщений?