От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data / forpes.ru

Главная
От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data +5

19.12.2019 12:11

Plarium 8 3800 Источник

Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.

Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.

Инструменты для анализа данных

Инструменты для анализа данных — это ресурсы, которые поддерживают функцию оперативного сбора, анализа и визуализации данных. Они полезны для любой компании, которая уделяет внимание потребительским предпочтениям, данным, рыночным трендам и т. д. Сегодня набирают популярность многие эффективные и общедоступные открытые ресурсы, что усложняет выбор самой успешной платформы. Возможностей для анализа данных сейчас очень много, но хочется найти оптимальный вариант.

В мире информационной аналитики автоматическим сбором, обработкой и анализом данных занимаются как крупные компании, так и небольшие. Чтобы помочь вам выбрать подходящую платформу, мы составили список из 5 топовых аналитических инструментов. Это лучшие продукты, которые существуют на сегодняшний день в этой сфере. Оценивались они по следующим критериям:

функциональность,
легкость изучения (и поддержка со стороны комьюнити),
популярность.

С этой подборкой вам будет проще подобрать оптимальный аналитический инструмент для вашей деятельности. Итак, вот 5 наиболее популярных ресурсов для обработки Big Data на текущий момент:

Apache Cassandra
Apache Hadoop
Elasticsearch
Presto
Talend

1. Apache Cassandra

Платформа Apache Cassandra, разработанная в 2008 году Apache Software Foundation, представляет собой бесплатный и доступный любому пользователю инструмент для управления базой данных. Apache Cassandra распространяется и работает на основе NoSQL. Управление данными осуществляется через кластерные формы, соединяющие несколько узлов в центрах обработки многокомпонентных данных. В терминологии NoSQL инструмент Apache Cassandra также обозначен как «столбцовая база данных».

В первую очередь, эта система востребована в приложениях для Big Data, которые работают с актуальными данными, например, в сенсорных устройствах и социальных сетях. Кроме того, Cassandra использует децентрализованную архитектуру, которая подразумевает, что функциональные модули, такие как сегментирование данных, устранение отказов, репликация и масштабирование, доступны по отдельности и работают в цикле. Более подробную информацию можно узнать в документации Apache Cassandra.

Ключевые характеристики Apache Cassandra:

Возможность функционирования на не очень мощном оборудовании.
Архитектура Cassandra, которая построена на основе технологии Dynamo от Amazon и реализует систему базы данных с использованием ключей.
Язык запросов Cassandra.
Развернутое распределение и высокая масштабируемость применения.
Отказоустойчивость и децентрализованная система.
Оперативная запись и считывание данных.
Настраиваемая совместимость и поддержка фреймворка MapReduce.

Скачать: http://cassandra.apache.org/download/

2. Apache Hadoop

Apache Hadoop представляет собой общедоступный аналитический инструмент для распределенного хранения и обработки больших пакетов данных. Кроме того, Apache Hadoop предоставляет услуги для доступа к данным с помощью набора утилит, которые позволяют выстроить сеть из нескольких компьютеров. Внутренняя структура Apache Hadoop лояльна к поддержке крупных компьютерных кластеров. Более подробную информацию можно узнать в документации Apache Hadoop.

Ключевые характеристики Apache Hadoop:

Платформа с высокой масштабируемостью для анализа данных на уровне петабайта.
Возможность хранить данные в любом формате и парсить при чтении (на выбор есть структурированные, частично структурированные и неструктурированные форматы).
Редкий отказ узлов в кластере. Но даже если это происходит, система автоматически заново воспроизводит данные и переадресовывает остаточные данные.
Возможность взаимодействовать с другой приоритетной платформой анализа данных. Использование не только NoSQL, но и пакетов, диалогового SQL или доступа с низким значением задержки для бесперебойного процесса обработки данных.
Экономичное решение, так как открытая платформа функционирует на сравнительно недорогом оборудовании.

Скачать: https://hadoop.apache.org/releases.html

3. ElasticSearch

Elasticsearch — это инструмент на основе JSON для поиска и анализа Big Data. Elasticsearch предоставляет децентрализованную библиотеку аналитики и поиск на основе архитектуры REST по решенным вариантам использования. Также платформа Elasticsearch проста в управлении, в высокой степени надежна и поддерживает горизонтальную масштабируемость. Более подробную информацию можно узнать в документации Elasticsearch.

Ключевые характеристики Elasticsearch:

Сборка и поддержка программ-клиентов на нескольких языках, таких как Java, Groovy, NET и Python.
Интуитивно понятный API для управления и мониторинга данных, который обеспечивает полный контроль и наглядность.
Возможность комбинировать несколько видов поиска, включая геопоиск, поиск по метрикам, структурированный и неструктурированный поиск и т. д.
Использование стандартного API и формата JSON на основе архитектуры REST.
Расширенные возможности при анализе данных благодаря машинному обучению, параметрам мониторинга, предоставления отчетов и безопасности.
Актуальная аналитика и параметры поиска для обработки Big Data с помощью Elasticsearch-Hadoop.

Скачать: https://www.elastic.co/downloads/elasticsearch

4. Presto

Продукт Facebook Presto выделяется за счет стабильной скорости обработки коммерческих данных. Presto функционирует в качестве децентрализованной библиотеки запросов на основе SQL, которая может отлично взаимодействовать с Hadoop, MySQL и другими ресурсами. Для работы с совместными аналитическими запросами по отношению к различным источникам информации Presto использует децентрализованную открытую схему. Система Presto также предоставляет качественную интерактивную аналитику, недаром ее считают одним из лучших общедоступных инструментов для анализа Big Data. Более подробную информацию можно узнать в документации Presto.

Ключевые характеристики Presto:

Адаптивная многопользовательская система, поддерживающая одновременное выполнение нескольких операций с памятью машины, операций ввода/вывода (I/O) и запросов с интенсивной вычислительной нагрузкой на CPU.
Обеспечение оптимизации для достижения высокой производительности, включая такую важную опцию, как генерация кода.
Возможность расширения и дальнейшей интеграции для создания нескольких кластеров.
Различные настройки и конфигурации для поддержания многочисленных вариантов использования с несколькими ограничениями и параметрами производительности.
Возможность комбинировать в одном запросе данные из множества источников и организовывать анализ Big Data.
Поддержка стандартов ANSI SQL (в дополнение к ARRAY, JSON, MAP и ROW).

Скачать: https://prestodb.github.io/download.html

5. Talend

Talend считается одним из представителей нового поколения инструментов в сфере Big Data и облачной интеграции. Talend остается открытой платформой, которая предлагает свой способ автоматической и упрощенной интеграции Big Data. Среди дополнительных решений от Talend стоит отметить проверку качества данных, управление данными и генерацию собственного кода с помощью графического мастера. Более подробную информацию можно узнать в документации Talend.

Ключевые характеристики Talend:

Повышение коэффициента «время-эффективность» для планов с участием Big Data.
Agile DevOps для ускоренной обработки Big Data.
Упрощение работы Spark и MapReduce за счет генерации собственных кодов.
Более качественные данные благодаря машинному обучению и обработке информации на естественном языке.
Упрощение процессов ELT (Extract, Load и Transform) и ETL (Extract, Transform и Load) для Big Data.
Оптимальная настройка всех процессов в DevOps.

Скачать: https://www.talend.com/download/

Заключение

Миром правит информация. Чтобы стать лидером, компании необходимо отслеживать данные и уметь правильно с ними работать. Если вы планируете укрепить свои позиции, выявляя потребительские предпочтения, рыночные тренды, эффективные бизнес-модели и будущие перспективы, то следует пристально рассмотреть передовые инструменты для анализа данных.

Не стоит упускать из внимания статистические данные вашей деятельности и недооценивать их значение. Также важно понимать трафик ваших коммерческих данных. Воспользовавшись одним из представленных выше аналитических инструментов (или же любым другим), вы получите много новой информации и сможете значительно увеличить свои шансы на успех. Поэтому, чтобы двигаться в верном направлении, не забывайте о ваших данных, анализируйте их, работайте с ними и берите на вооружение полученный результат.

Комментарии (8)

Geckelberryfinn
19.12.2019 15:33
#21034500
Перечисленным продуктам уже сто лет в обед, смысл о них писать, они у всех и так на слуху?
У меня другой вопрос: что делает Excel, HTML5 и CSS3 на приведенной картинке для привлечения внимания?
1. DrunkBear
  19.12.2019 17:35
  #21035438
  На самом деле, Excel хватит для анализа небольших больших данных (срезы по 16-32 Гб поместятся в оперативке и могут быть преобразованы в инсайты датасатанистами).
  Про аналогичное использование HTML + CSS не знаю, видимо, это будут представители сверхновой волны анализа? /irony
  1. stanislavnikitin
    20.12.2019 14:29
    #21039716
    Недавно была новость про одного президента СНГ, написавшего нейронную сеть на HTML. Сетка даже предсказала процветание и технологическое лидерство )))
    
    DrunkBear
    20.12.2019 15:07
    #21039962
    Срази видно, человек писал, старался, а мог бы и у голосового помощника спросить c абсолютно тем же результатом! /sarcasm

nlinker
20.12.2019 07:49
#21037936
Ну и зоопарк развели в этих ваших бигдатах :-))

Но если серьёзно, время Hadoop уже уходит, и Spark теперь de-facto стандартный инструмент для обработки больших данных. Сам Hadoop может быть интересен только в виде hdfs + yarn, однако и тут у него есть серьёзные конкуренты в лице k8s и mesos. Короче, в вашем списке Hadoop лишний, а наоборот, не хватает Spark
1. DrunkBear
  20.12.2019 15:06
  #21039958
  Ой-вэй, куда это hadoop уходит, ведь даже не попрощался? /irony
  А данные под Spark где будут лежать?
  Если серьёзно, в последних Cloudera Open Day показывали менеджер для YARN + k8s в 1 флаконе, Оракл тоже обещал docker + k8s из коробки (точнее, из Oracle linux), так что большой вопрос, кто куда пойдёт и с кем скрестится.
  1. somurzakov
    20.12.2019 19:40
    #21041378
    данные будут лежать в s3.
    А анализ этих данных будут делать через managed решение типа Snowflake/databricks и не забивать голову инфраструктурой и прочей канализацией. По крайней мере мне кажется такой формируется тренд — в сторону готовых решений, без фреймворков для фреймворков для запуска кластера
    
    DrunkBear
    22.12.2019 12:16
    #21046398
    В облаке?
    Или разворачивать локальное хранилище, переливать все данные туда и только после этого жить без java + фреймворки фреймворков для запуска фреймворков, типа spark-on-yarn?