Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera? / forpes.ru

Главная
Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera? -4

22.02.2021 13:49

Cloudera 24 2600 Источник

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Что новенького в Cloudera?

Пожалуй, начнём немного издалека для тех, кто не так активно следит за развитием проектов экосистемы Hadoop: компании Hortonworks и Cloudera объединились в 2019 году под общим названием Cloudera. С этого момента началась новая ветка в истории развития дистрибутива Hadoop, так как усилиями уже общей команды стартовала работа над новой сборкой, которая включила в себя всё лучшее из обоих миров. В 2019 году состоялся первый релиз нового дистрибутива Cloudera Data Platform (дальше - CDP), в который вошло более 50 лучших в своем классе инструментов с открытым исходным кодом для работы с большими данными.

Так что же такого интересного предлагает Cloudera Data Platform? В рамках платформы мы предоставляем корпоративное облако данных для данных любого типа, в любой инстраструктуре, от периферии до ИИ. CDP работает в различных средах: локальной, в частном и публичном облаке, или в гибридном варианте архитектуры.

Теперь более подробно о названиях всех вариантов дистрибутива. Версия для традиционной локальной инсталляции на железо называется CDP Private Cloud Base. Она является фундаментом для расширения локальной архитектуры до частного облака (поэтому и имеет такое название). Полноценная же архитектура частного облака, куда входит часть Base (уровень хранилища) и аналитические приложения на Kubernetes (уровень вычислений), называется CDP Private Cloud Plus/Max. С версией для публичных облаков всё проще - CDP Public Cloud. При этом это полноценный PaaS, тесно интегрированный с нативными сервисами большой тройки: AWS, Azure и GCP.

Благодаря единой панели управления, фреймворку Cloudera SDX (Shared Data Experience) и неизменному набору сервисов, работа с платформой выглядит одинаково, независимо от среды развёртывания, что позволяет реализовать полноценную гибридную архитектуру. При этом набор доступных сервисов позволяет работать с данными любого типа от периферии до ИИ с обеспечением безопасности корпоративного уровня (шифрование данных в пути и покое, полная керберизация кластера) и data governance:

Также в самом наборе инструментов появились интересные новинки:

С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021.
В конце лета прошлого года в дистрибутив был добавлен доработанный и готовый к работе в продуктиве Apache Ozone - S3 совместимое объектное хранилище, своего рода преемник HDFS, который закрывает многие из его слабых мест и позволяет делать гораздо более плотные конфигурации узлов (мы тестировали 350TB на узел - стабильная работа всех нагрузок).
После приобретения компании Arcadia Data в стеке появился полноценный BI компонент Cloudera Data Visualization, работающий со всеми основными движками аналитики данных: Hive/Impala, Solr, Druid.
Приобретение компании Eventador в 2020 году позволило добавить функционал аналитики потоковых данных с помощью SQL на базе Flink - теперь с потоками данных из Кафка можно работать как со стандартными таблицами в СУБД и создавать материализованные представления для, например, передачи трансформированных потоков обратно в Кафку.
В начале этого года Cloudera объявила о включении проекта Apache Iceberg в дистрибутив, что позволит ещё более гибко работать с огромными наборами данных благодаря снапшотам, поддержке эволюции схемы и возможностям откатов к предыдущим версиям по времени.

Изначально архитектура частного облака поддерживалась только на базе платформы Red Hat OpenShift, но в ближайшее время выходит CDP Private Cloud Plus с поддержкой встроенного кубернетеса, что значительно упростит инсталляцию и ускорит внедрение гибридной архитектуры. Пользователи смогут быстрее начинать работу с данными, получат все преимущества облачной инфраструктуры, и при этом данные будут храниться в локальном ЦОДе.

Как вы можете видеть дистрибутив Hadoop от Cloudera активно развивается и эволюционирует, у нас большие планы на этот год. В конце хотели бы сразу ответить на пару вопросов, которые могли у вас появиться во время прочтения этой статьи.

Есть ли бесплатная версия дистрибутива, как это было раньше с HDP/CDH?
Выпуск бесплатной версии для коммерческого использования дистрибутива CDP не планируется. На данный момент можно скачать триальную версию с сайта или получить временную лицензию через аккаунт менеджера, а также рассматривается возможный выпуск версии для образовательных целей в будущем.

А что же со всеми любимыми сборками HDP/CDH?
Эти дистрибутивы не будут обновляться и постепенно заканчивают свой жизненный цикл поддержки (HDP2x/CDH5x уже закончили с концом 2020 года, такая же судьба настигнет HDP3/CDH6 в скором времени). Более того, репозитории даже этих версий уже не доступны для публичного доступа - для этого теперь также требуется лицензия.

В тексте упоминался ИИ, что платформа предлагает для работы с моделями МО кроме Zeppelin?
В дистрибутиве есть дополнительный компонент - Cloudera Machine Learning (также известный как Cloudera Data Science Workbench), отвечающий за организацию полного цикла работы над моделями МО. Это полноценная MLOps платформа на кубере с центральным репозиторием метаданных, версионированием моделей, возможностью совместной работы в любом IDE (Jupyter Lab/Notebook включён по умолчанию) и любыми библиотеками, безопасным соединением с основным кластером и возможностью внедрения готовых моделей как функций в бизнес-процессы через REST API.

Пожалуйста, оставляйте свои комментарии к статье, какие еще вопросы о наших продуктах и технологиях вам было бы интересно обсудить?

Комментарии (24)

Cheypnow
24.02.2021 12:35
#22725364
"С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021."

Можно уточнить о какой конкретно версии идет речь? Релиз Spark 3.1.0 же отменили и вроде пока не ясно когда будет 3.1.1
1. Kiryl_Halozhyn
  24.02.2021 20:51
  #22728424
  Все верно, тк 3.1.0 официально не будет, то речь идёт о 3.1.1. Версия у нас в дистрибутиве сейчас это 3.0.1. Мы планируем добавить 3.1.1 версию почти сразу после официального релиза вместе с коннекторами к Куду и Hbase, которые не успели выпустить с 3.0. Ходят слухи, что 3.1.1 будет в конце марта

DiamondBK
24.02.2021 12:35
#22725366
Добрый день!
1) Правильно ли я понимаю, что все, кто купил ранее лицензию CDH должны покупать новую на CDP?
2) Ранее у вас была бесплатная редакция CDH, многие ей пользуются. В текущей ситуации с закрытием бесплатного дистрибутива получается, что пользователь на express должен искать альтернативу CDH или покупать лицензию и мигрировать в CDP. Как при таком рваном векторе развития продукта можно ему доверять?
1. opan
  24.02.2021 15:16
  #22726520
  Удивительная вещь конкуренция — до объединения было две хороших компании, после объединения ни одной.
  1. EvgenyVilkov
    25.02.2021 11:40
    #22730906
    Чисто ради интереса — а какие критерии вы вкладываете «в хорошая компания»?
    
    opan
    25.02.2021 12:04
    #22731094
    В данном случае я имею ввиду клиенториентированность. Уважение к сообществу, в котором она находится, и во многом благодаря которому имеет возможности для развития.
    Закрыть под лицензию то, что всегда распространялось свободно (я имею ввиду репозитории старых версий cdh), то, чем люди по всему миру пользуются — это очень странное решение. Думаю, что при наличии прямого конкурента на рынке такое вряд ли произошло бы.
    
    Возможно что сам продукт стал лучше после объединения, но я не могу посмотреть, потому что на запрос триала, который я отправил дней 10 назад через форму на сайте, мне никто не ответил)
    
    EvgenyVilkov
    25.02.2021 12:38
    #22731332
    Ну бесплатного в этом мире ничего не бывает, это же понятно. Нет CDH открытого — идите в Apache Big Top. Нет нужных сервисов в Big Top, идите за покупкой саппорта в Cloudera. Как компания может развивать за просто так?
    Конкурентов да, по сути больше нет. Все остальные поделки на базе big top с устаревшими версиями не назовешь конкурентами.
    
    С другой стороны, Клаудера обещала выложить исходники CDP. Полгода как просрочили и отчета пока нет.
    
    bigdata-dev
    26.02.2021 11:07
    #22736652
    в мире полно бесплатного софта, начиная с ubuntu и firefox, до ngnix и mariadb.
    странный ход от клоудеры конечно. и ценник убийственный. может конечно в краткосрочной перспективе удастся вытянуть денег с тех кто подсел на бесплатную сборку, но в долгосрочном это убивает интерес к хадуп, который и так уже не на взлете.
    большинство будет ориентироваться на альтернативы хадуп экосистемы, что то типа k8s+spark.
    
    EvgenyVilkov
    26.02.2021 12:48
    #22737276
    Очень странное заявление про Hadoop который не на взлете и убийственный ценник. Посчитайте TCO и cost per performance и вы поймете что конкурентов по сути у Cloudera нет. Именно CDP с их перечнем сервисов, а не других сборок.
    
    Удачи вам с k8s+spark когда будете искать команду на 3000-4000 человеко дней с таймлайном год для проекта.
    
    bigdata-dev
    26.02.2021 14:05
    #22737720
    вы видно не в теме, mapr помер, hdp ушел на дно и был поглощен полуживой клоудерой. у клоудеры акции в глубоком минусе, явно облака все перетягивают.
    клоудера вымогает $6к за узел в месяц. месяц Карл. 10 узлов тянут на $2M за 3 года. при том, что к клоудере все равно какую-то полноценную субд надо будет закупать. это сравнимо со всякими oracle exadata, если не дороже. при этом нам, к примеру, пришлось выкидывать их сборку spark, свой hue собирать и многое другое. в тюнинг Импалы у нас думаю тысяча человекочасов вложено и все равно валится с ошибками памяти.
    
    EvgenyVilkov
    26.02.2021 14:15
    #22737792
    On prem узел Cloudera в год стоит $8k в год.
    10 улов за 3 года — $240k + налоги. Карл, куку. За такие деньги вы только посмотрите как другие смотрят на Exadata.
    
    Для какой цели вам надо СУБД то закупать?
    CDP закрывает все задачи системы интеграции данных в гомогенной архитектуре тк имеет в сборке сервисы на все виды нагрузки.
    Если вы не знаете как это сделать, это не означает что это невозможно. Максимум что вам понадобится, Карл, это какой-нибудь постгресик под метаданные.
    
    bigdata-dev
    26.02.2021 15:03
    #22738096
    $8k было до поглащения hdp, сейчас они нам $6к в месяц уже насчитали. не знаю, может бедным странам на востоке скидки какие дают, нам видно скидки не полагаются. но все равно, на кой кастрированный клоудерой хадуп, не имеющего полноценного решения даже за $240к? то что клоудера продвигает в своей коробке все равно мусор. Импала это по сути интерфейс на медленный hdfs, как источник к BI не годиться. Импала все тянет в инмемори, чуть серьезней нагрузка и executors ноды валятся с Memory limit exceeded. но самое потрясающее, что нода координатор тянет себе в память весь датасет, какой надо отдать клиенту.
    поэтому к клоудере приходится ставить нормальную субд для ad-hoc BI запросов.
    
    EvgenyVilkov
    26.02.2021 16:02
    #22738420
    Как же я тогда на Impala получаю 1млн SQL запросов в сутки на 14 узлах при утилизации CPU процентов так на 30?
    
    Как же тогда интерфейс на медленный HDFS (а правильно все же говорить про паркет да желательно новый который с Page Indices) показывают производительную лучше чем GreenPlum при высококонкурентной нагрузке 50+ одновременных аналитических запросов?
    Может вы просто не умеете правильно работать с технологией? Или не умеете делать правильный сайзинг (типа поднимем 100500 ущлов 8 CPU 64 Gb)?
    
    Ну и очень хочется понять как вам так уникально насчитали $6k в месяц, если все ценники официально опубликованы и это можно проверить.
    Хм. правда возможно они для бедных восточных стран?
    
    bigdata-dev
    26.02.2021 17:10
    #22738846
    как же так — в соседней теме я вам уже рассказывал, но вы предпочли слиться
    habr.com/ru/company/itsumma/blog/539328/#comment_22622646
    на счет «100500 ущлов 8 CPU 64 Gb» (tm) это реально рекомендация клоудеры. их хренатень под названием kudu рекомендует 1000 таблетов на узел, т.е. если у тебя тысяча таблиц, с сотнями партиций и всякие dev, uat, pre-prod разделы, понадобится невообразимое кол-во мелких узлов. и врятли 100500 хватит
    
    EvgenyVilkov
    26.02.2021 17:29
    #22738974
    В соседней теме вы мне так и не сказали характеристики узлов между прочим.
    8\64 (еще пади и с минимальным кол-вом маунтов на узел) — такие узлы я бы рекомендовал только для спарк обработки и то если вы идете в историю с облаком. Никто вменяемый не будет будет в он прем такие узлы делать и ждать после этого чуда.
    
    Где вы найдете тот же GreenPlum с такими параметрами? Impala — это полноценный MPP движок, работающий над данными HDFS. И сайзить его надо именно с подходом проектирования классических MPP.
    
    Kudu кстати великолепно сожительствует с HDFS под онлайн нагрузкой с доступом из Imapala. Но если вы ищете охеретительно быстрый доступ по ключу то лучше смотреть в сторону Phoenix. Все это есть в сборке CDP.
    
    Те если все таки вы не разобрались это не значит что технология плохая.
    
    Yo1
    26.02.2021 18:34
    #22739304
    я два раза указал, что Impala Daemon Executors mem_limit итак уже поднят до 80Gb и лимит на запрос 64G. этого совершенно достаточно, что бы сделать выводы. нехватало бы памяти на узле, была бы соответствующая ошибка, а так хорошо видно что executor свои 80G получает, но не способен их грамотно распределить между конкурирующими запросами.
    если уж так приспичило, на каждом узе по 128G памяти, 20 ядер. совершенно нормальные узлы, на которых и так уже большая часть ресурсов выделена Импале, которая ничего сложного и не делает. все тяжелые ETL / скоринги делает map-reduce и спарк.
    
    EvgenyVilkov
    26.02.2021 18:47
    #22739382
    Переподписки памяти на хосте между импалой и ярном нет?
    Так же я советовал определиться сколько запросу надо памяти и какой мемлим в итоге суммарный по узлам (mem_lim * кол-во узлов)
    
    bigdata-dev
    26.02.2021 19:19
    #22739480
    нет. переподписки нет, запрос падает потому что не может получить свои законные 64G на Executor, который хоть и имеет 80G, но выполняет сразу несколько запросов.
    Memory left in process limit: 9.51 GB
    
    тому запросу еще 9.51 GB дозволялось скушать, но Executor уже съел свои 80GB лимита выполняя другие запросы. если убрать конкруентов, запрос замечательно исполняется.
    
    EvgenyVilkov
    27.02.2021 10:47
    #22741458
    Ну так надо правильно настроить admission control. Если памяти свободной не будет, то запрос встанет в очередь. В профиле запроса можно увидеть, поискав строку admission, стразу он выполняться начал или ожидал высвобождения ресурсов.
    Во второй ветке impala наоборот приколы были, когда при отсутствии конкуренции и наличии большого кол-ва тредов Impala начинала поднимать дополнительные сканеры, которые быстро кпирались в лимит запроса. В этом случае надо было ограничивать кол-во сканеров через параметр сессии.
    В третьей ветке появился параметр в ресурсном пуле max cap который не выделяет всю память запросу, а задает только верхний предел. Это избавило от проблемы переедания лишней памяти например теми пользователями, которые любили задать максимум чтобы не заморачиваться.
    
    Kiryl_Halozhyn
    26.02.2021 15:06
    #22738110
    Для скачивания триальной версии форма не нужна — это можно сделать прямо на сайте (у этой версии будет только встроенная СУБД). Для получения доступа к триалу полноценной версии напишите мне в личку — помогу с организацией процесса
1. EvgenyVilkov
  25.02.2021 11:38
  #22730890
  КМК пользователь на express может остаться на express. Единственная проблема — что теперь (недели две как) express скачать нельзя с оф сайта
1. Kiryl_Halozhyn
  26.02.2021 15:01
  #22738086
  Добрый!
  1) Не всегда, зависит от условий актуального договора. Обычно для заказчиков с активной лицензией мы предлагаем варианты перехода на CDP на тех же условиях.
  2) Все верно. Вектор развития всегда был нацелен на корпоративных заказчиков, в этом плане ничего не поменялось. Стоимость лицензии обычно окупается в несколько (десятков/сотен) раз после внедрения платформы, поэтому это небольшая цена по сравнению с бенефитами

EvgenyVilkov
24.02.2021 12:35
#22725368
Cloudera Data Visualization является доп компонентном к CDP? или к Workbench?
1. Kiryl_Halozhyn
  24.02.2021 20:57
  #22728446
  Зависит от форм-фактора, в частном и публичном облаках он включён в основной дистрибутив. В локальной версии Base он является доп компонентом и работает на базе Workbench’а