В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A.

В мире есть множество самых великих книг, которые пережили столетия и даже тысячелетия. Заложенные в этих книгах знания — универсальны. Китайские военные стратегмы, Библия, индийская Махабхарата содержат в том числе шаблоны и каноны, которые могут быть применимы к взаимоотношениям людей и в I, и в XI, и в XXI с XXXI веках. Но промышленной революции XIX-XXI веков (паровозы-космос-компьютеры-интернет) нужна была своя философия.

Уже свыше 100 лет мы используем законы Диалектического материализма (гениальная троица Маркс-Энгельс-Ленин не только обсуждали свержение монархий, но и были самыми великими мыслителями конца II тысячелетия). Законы отрицания отрицания, борьбы и единства противоречий, перехода количества в качество, цикличность развития — это все и про Big Data тоже.

На рубеже тысячелетий (пафосно, правда? можно проще — в конце 90-х) поисковые машины были простыми — один сервер. Если совсем было денег некуда девать, то два сервера. Раз в полгода-год, с ростом Интернета (тогда было принято писать с заглавной) поисковая машина переносилась на более новую (с 64 Мб памяти и 128Гб дисков на 128/256). Аппорт и Яндекс размещались в нескольких юнитах на Красноказарменной и Смоленке, а самый крутой мировой поисковик Altavista представлял из себя настоящего монстра — 2 сервера от DEC, изделия которых, собственно, и рекламировал поисковик.

Через несколько лет наступил технологический кризис: количество данных уже не помещалось на 1-2 сервера — закономерно сработал «Закон перехода количества в качество» и (очень-очень упрощенно до примитивизма) voila! — на смену старой парадигмы «надо новый крутой сервер (желательно от DEC или Sun)» пришел Google с идеей «много дешевых железок».

Данная парадигма существует и хорошо живет, данных становится все больше, подсистемы становятся системами, но данных еще и еще больше! Закон перехода количества в качество полакомившись «железом» (hard) отрастил новые клыки и вонзил зубки в «мягкое» (soft). Возникали модные OS и языки, новые операционки Гугла или переписанный Яндексом FreeBSD уже не помогали решать новые задачи обработки Big Data, — на лицо очередная революционная ситуация, разродившаяся «детским слоном» Hadoop: много дешевых «железок» дополнились распределенным по всем железкам «мозгами».

Мечта технократа — максимальная децентрализация! Больше данных — просто будет больше «узлов» решетки. Еще больше данных? — Добавим еще железа с «мозгами». Смена задачи для других данных? Просто зальем новые «мысли» в железные мозги. Поскольку каждый узел решетки решает простейшие задачи, то новые «мысли» из стандартных элементов-нейронов сделать быстро и просто.

Уверен, что вы уже продолжили дальше цепочку диалектических законов мироздания. Но в сериале приходится ориентироваться на всех читателей, а не только на Шерлоках Холмсах, так что зафиксируем: материя — это единство пространства и времени, даже термин такой есть — пространство-время. А чтобы человечеству было жить не скучно, то есть ограничение — скорость света. Чем больше данных в решетке Hadoop, тем больше точат зубы Законы диамата.

Самый юморной диалектический закон — Закон отрицания отрицания. Только очередная молодая научная поросль победила прежних стариков-супостатов и отрастила бороды, как приходят внуки и громят отцов — причем, в чем и заложен юмор, под лозунгами дедов!

Hadoop-денцентрализатор не справляется с временнЫм-измерением материи пространства-времени для задач rtBD&A (real-time Big Data & Analytics), в которых появляется такая сущность («гнусность») данных, как временнАя ценность: последние данные имеют важность значительно большую, чем предыдущих.

Следуя цикличности развития появилось централизованное решение — технология IMC (In-Memory Computing): один дорогущий компьютер, в котором, фактически, есть только быстрая память — формально дисковые накопители (самые медленные узлы в цепочке потоков данных) присутствуют, но на 30-х ролях. Все последние (самые важные) данные присутствуют в быстрой памяти, аналитические мозги работают с данными «со скоростью света».

В качестве примера реальной полезности IMC разработки на базе SAP HANA по популярной теме последних лет – интеллектуальные электроэнергетические системы. Основная задача – оптимизация генерации и потребления, и, как следствие – сокращение затрат на электроэнергию. А также оперативный мониторинг и прогнозирование. Каждый дом оснащен «умным счетчиком». Замеры показаний ведутся каждые несколько минут и обрабатываются аналитической системой больших данных, интегрированную с ГИС. В системе можно увидеть общую картину энергопотребления и получить подробную информацию по каждому району и дому: как меняется энергопотребление в зависимости от погодных условий, времени года и суток. И на основе этих реальных и точных данных можно планировать энергоснабжение одного из самых оживленных и энергоемких районов.

Нужен калькулятор с большим количеством нулей, чтобы посчитать выгоду в таких масштабных проектах размером с Манхэтен или Бразилиа. Но текущая стоимость IMC решений (сотни тысяч $) отсекает 99% желающих, значит пока это не массовое решение и поиск продолжается.

Куда пойдем дальше? Ждет ли нас «помесь» Hadoop-IMC, или динамические «гибридные облака» с наборно-изменяемыми «узлами», или переход на молекулярно-химические компьютеры (не зря же природа выбрала такой подход)? Жизнь покажет.

Вот как проходил процесс разработки Платформы rtBD в нашем случае:
1. Первые 3-4 месяца (весна-лето 2012) — облако, подбирались оптимальные наборы «ядра-память». Стоимость размещения данных в облаке на тот период была очень высокая (первый ТБ), а финансов — как у всех всегда, то есть мало.
2. Следующий год (2013) — разовая закупка разнокалиберных серверов (HP) для основных подсистем по результатам облачных экспериментов. Ужимались по дискам, брали немного быстрых, но основные массивы — медленные SATA (10 ТБ).
3. В 2014 году ускорялись и масштабировались — покупка дешевых (по сравнению с HP) серверов с быстрыми дисками. С нашими партнерами апробировали в параллель с основной веткой и ветку на SAP HANA — выигрыш был по скорости до 5 раз, но клиентам был достаточен наш SaaS или более дешевые, чем HANA, облака.
4. 2014-15 год — гибридная распределенная схема, включая клиентский «одна система — один сервер» в распределенной сети потоков данных.
5. Отрицание-отрицания (к п.1): теперь десятки ТБ архивных данных хранятся в супер-дешевых облаках :-)

В следующих сериях поговорим о более насущных для сегодняшнего дня вещах, но в продолжение сказанного: NoSQL или колоночные СУБД, куда плывет «Голубой гигант», откуда растут ноги у слуха, что «данные кончаются».

UPD для Хабра: Данный «сериал» публикуется на Мегамозге, вокруг сложилась группа «сочувствующих», теперь хочется снова «пощупать», насколько данная тематика интересна для читателей Хабра: возможно кто-то присматривает работу в области rtBD или есть задумки, решения, готовые модули — у нас есть вакансии, мы любим партнество и не любим изобретать велосипед.

Big Data — как мечта. 1-я серия
2-я серия: Big Data негатива или позитива?
3-я серия: «Кнопка Обамы»

Комментарии (2)


  1. propell-ant
    07.04.2015 10:21
    +1

    Уже свыше 100 лет мы используем законы Диалектического материализма
    если мы — это западная цивилизация, то да, больше ста лет, а вообще — китайцы уже давно в курсе.
    image Инь-Ян видели? Это про единство двух противоположностей.

    А в целом да, диалектика рулит


    1. OzzyTech Автор
      07.04.2015 11:04

      Конечно, законы мироздания существуют не зависимо от того, знаем мы о них или нет: думаем ли, что существует некий «теплород» или узнаем о химической реакции горения, считаем, что боги двигают Солнце и Луну или это «тупое» влияние физических законов… Ацтеки знали про колесо и про борьбу противоположностей, но не смогли «запустить колесо прогресса» и перетаскивали грузы волоком. Роль МЭЛ — в формировании и распространении уже существующих законов и приложение их к конкретике развития общества в эпоху промышленной революции, что позволили применять эти знания на практике.