Множество иностранных авторов сходятся к тому, что эпоха Big Data подошла к концу. И в данном случае под термином Big Data понимаются технологии, основанные на Hadoop. Многие авторы, даже могут с уверенностью назвать дату, когда Big Data оставила этот мир и эта дата — 05.06.2019.

Что же произошло в этот знаменательный день?

В этот день, компания MAPR обещала приостановить свою работу, если не сможет найти средства для дальнейшего функционирования. Позднее, в августе 2019 года MAPR был приобретен компанией HP. Но возвращаясь к июню нельзя не отметить, трагичность этого периода для рынка Big Data. В этом месяце произошел обвал биржевых котировок акций компании CLOUDERA – ведущего игрока на обозначенном рынке, которая произвела слияние с хронически неприбыльным HORTOWORKS в январе этого же года. Обвал был весьма существенен и составил 43%, в конечном итоге капитализация CLOUDERA снизилась с 4,1 до 1,4 миллиарда долларов.

Невозможно не сказать, что слухи о надувании пузыря в сфере технологий, базирующихся на Hadoop, ходили еще с декабря 2014 года, но он мужественно продержался еще почти пять лет. Слухи эти основывались на отказе Google, компании в которой зародилась технология Hadoop, от своего изобретения. Но технология, прижилась, на время перехода компаний к облачным средствам обработки и бурного развития искусственного интеллекта. Поэтому, оборачиваясь назад, можно с уверенностью сказать, что кончина была ожидаемой.

Таким образом, эра Big Data подошла к концу, но в процессе работы над большими данными компании осознали все нюансы работы над ними, выгоды, которые Big Data может принести бизнесу, а также научились пользоваться искусственным интеллектом для извлечения ценности из сырых данных.

Тем интереснее становится вопрос о том, что же придет на смену этой технологии и как будут дальше развиваться технологии аналитики.

Дополненная аналитика


Во время описываемых событий, компании, работающие в сфере анализа данных, не сидели на месте. О чем можно судить исходя из информации о сделках, произошедших в 2019 году. В текущем году была осуществлена крупнейшая сделка рынка – приобретение Salesforce аналитической платформы Tableau за 15,7 млрд. долларов. Менее крупная сделка произошла между Google и Looker. Ну и конечно нельзя не отметить приобретение компанией Qlik — биг дата платформы Attunity.

Лидеры рынка BI и специалисты Gartner заявляют о грандиозном сдвиге в подходах к анализу данных этот сдвиг полностью разрушит рынок BI и приведет к замене BI на AI. В данном контексте необходимо отметить, что аббревиатура AI это не «Artificial intelligence» а «Augmented Intelligence». Давайте поближе рассмотрим, что скрывается за словами «Дополненная аналитика».

Дополненная аналитика, как и дополненная реальность базируется на нескольких общих постулатах:

  • возможностью общаться с использованием NLP (Natural Language Processing), т.е. на человеческом языке;
  • использование искусственного интеллекта, это значит, что данные будут предварительно обработаны машинным интеллектом;
  • и конечно же рекомендации, доступные пользователю системы, которые как раз-таки сгенерировал искусственный интеллект.

По мнение производителей аналитических платформ, их использование будет доступно для пользователей не обладающим специальными навыками, такими как знание SQL или подобного скриптового языка, не имеющих статистической или математической подготовки, не обладающими знаниями в области популярных языков, специализирующихся на обработке данных и соответствующих библиотек. Такие люди, называемые «Citizen Data Scientist», должны обладать лишь выдающейся бизнес квалификацией. Их задача – уловить бизнес-инсайты из подсказок и прогнозов, которые будет давать им искусственный интеллект, а уточнять свои догадки они смогут, используя NLP.

Описывая процесс работы пользователей с системами такого класса можно представить себе следующую картину. Человек, приходя на работу и запуская соответствующее приложение помимо привычного набора отчетов и дэшбордов, которые можно анализировать стандартными подходами (сортировка, группировка, выполнение арифметических действий) видит определенные подсказки и рекомендации, что-то типа: «Для того, чтобы достичь KPI по количеству продаж вам следует применить скидку на продукты из категории «Садоводство»». Кроме этого человек, может обратиться к корпоративному мессенджеру: Skype, Slack т.д. Может задать роботу вопросы, текстом или голосом: «Выведи мне пять самых прибыльных клиентов». Получив соответствующий ответ, он должен принять оптимальное решения, исходя из своего опыта в бизнесе и принести компании прибыль.

Если сделать шаг назад, и взглянуть на состав анализируемой информации, и на этом этапе продукты класса дополненной аналитики могут упростить жизнь людям. В идеале предполагается, что пользователю потребуется лишь указать аналитическому продукту на источники желаемой информации, а программа сама позаботится о создании модели данных, связке таблиц и тому подобных задачах.

Все это должно, прежде всего, обеспечить «демократизацию» данных, т.е. любой человек может заниматься анализом всего массива имеющейся у компании информации. Процесс принятия решений должен быть подкреплен методами статистического анализа. Время доступа к данным должно быть минимальным, так как не требуется писать скрипты и SQL запросы. Ну и конечно, можно будет сэкономить на высокооплачиваемых Data Science специалистах.

Гипотетически технологии открывают весьма радужные перспективы для бизнеса.

Что заменяет Big Data


Но, собственно, начал я свою статью с Big Data. И развить эту тему я не мог без краткого экскурса в современные BI инструменты, базой для которых, часто и служит Big Data. Судьба больших данных теперь четко предрешена, и это облачные технологии. Я акцентировал внимание на сделки, совершенные с BI производителями с целью демонстрации, что теперь каждая аналитическая система имеет под собой облачное хранение, а облачные сервисы имеют BI в качестве front end.

Не забывая о таких столпах в сфере баз данных как ORACLE и Microsoft необходимо отметить избранное ими направление развития бизнеса и это облако. Все предлагаемые сервисы можно найти в облаке, но некоторые облачные сервисы уже нельзя получить on-premise. Ими проделана значительная работа по использованию моделей машинного обучения, созданы библиотеки доступные пользователям, настроены интерфейсы для удобства работы с моделями от ее выбора до установки времени старта.

Еще одним важным преимуществом использования облачных сервисов, которое озвучивается производителями, является наличие практически неограниченных дата сетов по любой тематике, для тренировки моделей.

Однако, возникает вопрос, насколько облачные технологии приживутся в нашей стране?

Комментарии (22)


  1. DrunkBear
    29.10.2019 15:08
    +1

    Где-то я такие песни уже слышал…
    Точно! "больше не нужно будет вводить формулы в компьютер, достаточно будет всего лишь показать формулу на бумаге и компьютер выдаст решение" (с) инженеры 50х.
    Backend облаков (кстати, Оракл и МС заявили об облачном альянсе) крутится на том же hadoop + object store, то что hadoop замели веником под красивый и современный облачный ui — ничего не значит.
    И у вас фактологическая ошибка: обвал акций CLDR — прям обвал — был в конце мая, с $11 до 5, сейчас акции торгуются в районе 9, средняя цена за 52 недели $9.97.
    «программа сама позаботится о создании модели данных, связке таблиц и тому подобных задачах» — пусть для начала на кошкахреляционных базах потренируется, а то виденные мной ORM до сих пор не предел мечтаний.
    PS облачных технологий в стране навалом, в основном — приватные, изредка — гибридные облака. Дикси использовали публичные облака, но после фейла во время охоты на Телеграмм с банхаммером, не уверен, что не сделали облако гибридным.


    1. ASenterprise Автор
      29.10.2019 15:21

      Не согласен про фактологическую ошибку, на графике очень четко видно обвал:
      image
      «hadoop замели веником под красивый и современный облачный ui» — на мой взгляд это большое дело, особенно для понимания как этим пользоваться лицам принимающим решения.


      1. DrunkBear
        29.10.2019 15:32

        Перечитал ещё раз и понял, что потерял контекст: речь об июне же, но при этом используется «В этом месяце», что и сбило меня с толку. Возможно, лучше «в тот месяц»?
        Лица, принимающие решения и раньше не видели потрохов систем, для этого есть отделы аналитики, которые перерабатывают датасеты и рисуют графики, уже привычные конечным бизнес-пользователям.
        Прототипы автоматизированных bi-систем видел, но не впечатлён: их natural language — английский, а круг решаемых задач весьма примитивный, решения весьма типичных задач «где мы больше всего теряем деньги в этом квартале?» или «а ну-ка, блокируй фрод!» они не дают и смогут дать не раньше появления работающего AI, а без этого вспоминается байка про 1с, за которым бухгалтеры сами пишут лёгкий и понятный код (практически на натуральном языке, ага).


        1. ASenterprise Автор
          29.10.2019 15:39

          Ну я как раз и говорю про заявления BI вендоров и видения будущего от Gartner, усилия направлены в эту сторону. Пока, в исполнении есть нюансы, не без этого.


          1. DrunkBear
            29.10.2019 16:09

            А, эти балаболыконсалтеры…
            — согласно одному из прогнозов аналитика Gartner, к 1993 году ожидался вывод из эксплуатации последнего мейнфрейма (Серия IBM Z до сих пор обновляется и продаётся)
            — в 2006 году Gartner счёл, что наиболее эффективной стратегией для Apple будет прекращение выпуска аппаратного обеспечения.
            IMHO: Крупный бизнес, у которого крупные деньги и крупная бигдата, вряд ли отдаст кластеры в детские дома и немедленно начнёт лить петабайты в облака (в 2 сразу, для отказоустойчивости), мелкому за глаза для анализа хватит и Excel (да и денег у мелкого бизнеса нет на эти игры), среднему проще нанять команду, получить решение и дальше расти.


            1. ASenterprise Автор
              29.10.2019 16:16

              Те, кто уже вложился в железо и проект конечно не откажутся. Интересно было бы узнать динамику стартов новых проектов.


          1. Archi_Pro
            30.10.2019 12:26

            пока то что я вижу это попытки продать продукт компаниям которые не хотят или не могут нанять дорогой персонал вида дата инжинеров, дата сантистов
            а BI который разговаривает с пользователем через Алексу и соотвествено амазон клауд я уже видел и видел растерянные лица СБшников которые не знали как это квалифицировать, когда финансовая инфа компании льется в чужое облако без всяких договоров и НДА


            1. ASenterprise Автор
              30.10.2019 12:35

              Все правильно, история в том числе об этом

              пока то что я вижу это попытки продать продукт компаниям которые не хотят или не могут нанять дорогой персонал вида дата инжинеров, дата сантистов

              СБшиники да — встревожены


              1. Archi_Pro
                30.10.2019 13:48

                да тут много всякого, взять хотя бы 152ФЗ, если залить клиентские данные в облако то это будет нарушение ФЗ.


                1. ASenterprise Автор
                  30.10.2019 14:17

                  Сейчас не буду копаться в законах, да и юрист из меня слабоватый. Но, на одной из конференций, был приглашен специалист из правового консалтинга который утверждал, что хранение данных в облаке, даже иностранном не запрещено. Отмечал, что собирать данные нужно на российский сервер, а потом можно передавать в любое облако. Сослаться на законы не хватает квалификации, транслирую, что было мною услышано.


                  1. Archi_Pro
                    31.10.2019 11:55

                    Если лить в облако вместо перс данных только ключ — айдишник а перс данные хранить в Россиюшке то тогда норм, хотя юристы пока с фз 152 не знают что делать и трактуют любое слово в любую сторону, так что под отзыв лицензии или еще какую канитель можно попасть и если ты банк или телеком или еще какой авиа перевозчик то шутить с риском потери лицензии не будешь


  1. kioto
    29.10.2019 16:23
    +1

    Хайповое название, а по факту идите в облака. Вот, где Биг Дата.


    1. ASenterprise Автор
      29.10.2019 17:11

      Так о том и речь, я про тенденции.


  1. Yo1
    29.10.2019 16:27
    +1

    аффтор путает платформу хадупа с канторами-дистроклепателями. место малоизвестного mapr просто займет майкростофт с его mssql2019. в mssql2019 тот самый hadoop+spark пойдет в комплекте.
    а клаудера вероятно тоже загнется с такими закидонами. они для проформы выкладывают в опенсорс свои продукты, а на деле позванивают клиентов и вымагают деньги на супорт. заявляют что хрен вы там бесплатно что-то без нас соберете.


    1. DrunkBear
      29.10.2019 16:55

      А не тогда ли Cloudera подняла цены на лицензии?
      И, кстати, не отменила ли express edition?


      1. Yo1
        29.10.2019 17:31

        за ценами на лицензии не следил и про express не слышал. вроде не было такой редакции. у них еще можно скачать их сборку (полный дистрибутив) бесплатно, но с февраля они это закроют. скачать дистрибутив смогут лишь обладатели подписки. цены что-то около $6k за ноду в год. странновастая стратегия мягко говоря, учитывая рост облаков и возможность в пару кликов поднимать хадуп кластеры в облаках.


        1. DrunkBear
          29.10.2019 17:53

          — Я вас дважды огорчу(с)
          Текущий ценник от $10к/нода в год + доп плата за ядра и место на дисках на 1 ноде выше определённого свежие цены
          Бесплатный Express вроде ещё существует, но надолго ли? Типы лицензий, express ещё указан
          Есть и другие редакции, но они странны составом, хоть и изрядно дешевле.
          К тому же, Cloudera после слияния с Hortonworks и смерти MapR осталась единственным раскрученным поставщиком сборок hadoop.


  1. Archi_Pro
    30.10.2019 12:17

    Закат эпохи Big Data прям не заголовок а кликбейт
    Генерация информации ускоряется но маркетологи анононсировали загат эпохи больших данных
    пожалуй куплю попкорн и подожду когда они выкатят новую эпоху, интересно что это будет:
    эпоха громадных данных?
    эпоха ту фрекен матч данных?


    1. ASenterprise Автор
      30.10.2019 12:38

      Тут скорее о закате Hadoop в его классическом понимании. Данные растут, спору нет.


      1. DrunkBear
        30.10.2019 13:36

        А куда лить, если не в Hadoop?
        Ceph? Glusterfs? А специалистов по ним где брать и за чей счёт переезд?
        Spark over ceph есть, но со скоростью, судя по тестам ребят из Red Hat, там проблемы.
        В общем, я не против, но слишком много вопросов и слишком мало профита.
        PS чистый hadoop никому давно не нужен, по крайней мере, MapR(YARN не нужен, GUI тоже), продвигавшая его, таки загнулась.


        1. Archi_Pro
          31.10.2019 11:58

          вот кстати интересный вопрос куда лить то что сейчас льют в дата лэйк?
          возможно MPP базы и всякие клик хаусы хорошы но ведь они под определенные сценарии использования


          1. DrunkBear
            31.10.2019 13:12

            Многие вендоры сделали коннекторы для своих MPP под spark.
            Только в ценнике и стоимости владения по сравнению с hadoop совсем не уверен,
            а если добавить переобучение админов и переезд…
            Hadoop получился штукой с открытой архитектурой: можно начать стартовым комплектом из 3 дешёвых серверов (или виртуалок), и добавляя более скоростные ноды вместе с выводом старых, понемногу расширить и ускорить кластер практически до любого уровня за недорого, при этом, достаточно детально описанной и избавленой от детских болячек.
            Альтернатив не вижу — или стартовый комплект с ценой крыла самолёта, или сыроватый для прода, или специалистов на весь мир 4.5 человека и 3 из них говорят на хинди.