Как отмечено в статье Survey shows huge popularity spike for Apache Spark:
«Apache Spark - это Тейлор Свифт программного обеспечения в мире больших данных. Технология с открытым исходным кодом существует и популярна в течении нескольких лет. Но 2015 год стал важной вехой, когда Spark прошел путь от перспективной технологии до настоящей суперзвезды.
Одна из причин, по которой Apache Spark стал таким популярным, заключается в том, что Spark предоставляет саентистам и инженерам данных мощный унифицированный движок, который является одновременно быстрым (в 100 раз быстрее, чем Apache Hadoop), так и простым в использовании. Это позволяет различным специалистам по данным решать разнообразные проблемы, например, задачи машинного обучения, вычисление графов, потоковая обработка и выполнение в режиме реального времени различных запросов в гораздо большем масштабе.
В этой статье мы обсудим некоторые ключевые термины, с которыми можно столкнуться при работе с Apache Spark.
1. Apache Spark
Apache Spark - это мощный движок с открытым исходным кодом, построенный для скорости, простого использования, сложной аналитики, в котором есть API на Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Hadoop MapReduce в памяти или в 10 раз быстрее на диске. Его можно использовать для построения приложений данных как библиотеки или выполнения интерактивного специального анализа данных. Spark включает в себя большое количество библиотек для работы с помощью SQL с датафреймами и датасетами, MLlib для машинного обучения, GraphX для работы с графами и Spark Streaming для обработки данных в режиме реального времени. Вы можете комбинировать эти библиотеки в одном приложении. Кроме того, Spark может работать локально, на Hadoop, Apache Mesos, автономно или в облаке. Он может получить доступ к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.
Первоначально он был разработан в Калифорнийском университете Беркли в 2009 году. Обратите внимание, что создатель Spark Матей Захария с тех пор стал СТО Databricks и преподавателем Массачусетского технологического института. С момента своего выпуска Spark быстро внедряется организациями в широком спектре индустрии. Интернет-гиганты, такие как Netflix, Yahoo и Tencent стремительно быстро внедрили Spark во внутренние процессы, коллективно обрабатывая несколько петабайт данных в кластерах из более чем 8000 узлов. Быстро возникло сообщество в области больших данных с более чем 1000 участниками разработки кода и более чем 187000 участниками в 420 группах Apache Spark Meetups.
2. RDD
Под капотом Apache Spark лежит понятие абстракции данных как распределенного набора объектов. Эта абстракция данных, называется Resilient Distributed Dataset (RDD), позволяет писать скрипты, которые преобразуют эти распределенные наборы данных.
RDD - это неизменяемая распределённая совокупность элементов ваших данных, которые могут храниться в памяти или на диске в кластере машин. Данные распределены между машинами на вашем кластере, которые могут работать параллельно с низкоуровневым API, которые предоставляют возможность трансформации и действия. RDD отказоустойчивы, так как отслеживают поток данных для автоматического восстановления потерянных данных в случае сбоя.
Ниже представлен фрагмент кода Apache Spark, использующий Python и RDD для подсчета количества слов:
Open textFile for Spark Context RDD
text_file = spark.textFile("hdfs://…")
Execute word count
text_file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)
3. DataFrame
Как и RDD, DataFrame - это неизменяемая распределенная коллекция данных. В отличии от RDD, данные организованы в именованные столбцы, как таблица в реляционной базе данных. Разработан для того, чтобы сделать обработку больших данных еще проще, датафрейм позволяет разработчикам придавать структуру распределенному набору данных, обеспечивая абстракцию более высокого уровня. Он предоставляет возможность манипулировать данными с помощью API различных языков и делает Spark доступным для более широкой аудитории, помимо специализированных инженеров данных.
Ниже приведен фрагмент кода Apache Spark, использующий SQL и датафрейм для запроса и объединения различных источников данных:
Read JSON file and register temp view
context.jsonFile("s3n://…").createOrReplaceTempView("json")
Execute SQL query
results = context.sql("""SELECT * FROM people JOIN json …""")
4. Dataset
Представленный в Spark 1.6 Spark Dataset предоставляет API, с помощью которого пользователи могут легко выражать преобразования на объектах, а также повышает производительность и преимущества надежного механизма выполнения Spark SQL.
Обратите внимание, что начиная со Spark 2.0 API DataFrame было объединено с API Dataset, что позволило использовать больше подходов в обработке данных. Из-за унификации разработчикам теперь требуется изучать меньшее количество документации и они работают с одним высокоуровневым и безопасным API называемым Dataset. Концептуально Spark DataFrame - это псевдоним для коллекции универсальных объектов Dataset [Row], где Row - это универсальный нетипизированный объект JVM. Dataset, напротив, представляет собой коллекцию сильно типизированных объектов JVM, заданный вами классом на Scala или Java.
case class Person (email: String, iq: Long, name: String)
// Прочитать JSON файл и конвертировать его в Dataset используя класс
val ds = spark.read.json("…").as[Person]
5. MLlib
Apache Spark предоставляет базовую библиотеку машинного обучения - MLlib - которая предназначена для простоты, масштабируемости и легкой интеграции с другими инструментами. Благодаря масштабируемости, языковой совместимости и скорости Spark саентисты могут быстрее решать и воспроизводить свои задачи.
С самого начала проекта Apache Spark MLlib считался основополагающим для успеха Spark. Ключевое преимущество MLlib заключается в том, что она позволяет саентистам сосредоточиться на задачах и моделях вместо того, чтобы решать сложности, связанные с распределенными данными (такими как инфраструктура, конфигурации и так далее). Инженеры данных могут сосредоточиться на разработке распределённых систем с помощью простых в использовании API Spark, в то время как саентисты могут использовать масштаб и скорость ядра Spark. Не менее важно и то, что Spark MLlib - это библиотека общего назначения, предоставляющая алгоритмы для большинства сценариев использования, в то же время позволяя сообществу развивать и расширять ее для специализированных сценариев. Чтобы ознакомиться с ключевыми терминами машинного обучения, пожалуйста, ознакомьтесь с Machine Learning Key Terms, Explained Мэтью Майо.
6. ML Pipelines
Обычно запуск алгоритмов машинного обучения включает в себя последовательность задач, включая предварительную обработку данных, извлечение признаков, обучение модели и этапы валидации. Например, классификация текстовых документов может включать в себя сегментацию и очистку текста, извлечение признаков и обучение классификационной модели с кросс-валидацией. Хотя есть много библиотек, которые мы можем использовать для каждого этапа, соединить все этапы воедино не так просто, как может показаться, особенно с огромными наборами данных. Большинство библиотек машинного обучения не предназначено для распределённых вычислений или не обеспечивают возможность создания и поддержки пайплайна.
ML Pipelines - это высокоуровневое API для MLlib, которое находится в пакете «spark.ml». Пайплайн состоит из последовательных этапов. Существует два основных этапа пайплайна: трансформация и оценивание. Трансформация заключается в сборе данных и выдаче подготовленного набора данных. Например, токенизатор - это трансформатор, который преобразует набор данных с текстом в набор данных с токенизированными словами. Оценивание должно сначала произойти на входном наборе данных, чтобы создать модель, которая является трансформатором, преобразующим входной набор данных. Например, логистическая регрессия - это алгоритм, который обучается на наборе данных с метками и признаками, а затем создает логистическую регрессивную модель.
7. GraphX
GraphX является компонентом Apache Spark для графов и параллельных графовых вычислений. На высоком уровне GraphX расширяет Spark RDD с помощью абстракции Graph: ориентированного мультиграфа со свойствами, закрепленными на каждой вершине и ребре. Для обеспечения вычислений графов GraphX предоставляет набор фундаментальных операторов (например, subgraph, joinVerticles и aggregateMessages), а также оптимизированный вариант Pregel API. Кроме того, GraphX включает в себя растущую коллекцию алгоритмов и конструкторов графов для упрощения задач аналитики графов.
8. Spark Streaming
Spark Streaming - это расширение ядра Spark Api, которое позволяет инженерам данных и саентистам работать с данными в режиме реального времени из различных источников данных, включая (но не ограничиваясь) Kafka, Flume и Amazon Kinesis. Эти обработанные данные могут быть отправлены в файловые системы, базы данных и дашборды. Его ключевой абстракцией является является дискретный поток, или короче говоря, DStream, который представляет собой поток данных, разделенный на небольшие части. DStream построен на RDD, основной абстракции Spark. Это позволяет Spark Streaming легко интегрироваться с любыми другими компонентами Spark, такими как MLlib и Spark SQL.
Такое объединение разрозненных возможностей обработки данных является ключевой причиной быстрого внедрения Spark Streaming. Это позволяет разработчикам очень легко использовать единый фреймворк для удовлетворения всех своих потребностей в обработке.
9. Structured Streaming
Представленный как часть Apache Spark 2.0, Structured Streaming - это высокоуровневая надстройка поверх движка Spark SQL. Это декларативный API, который расширяет DataFrame и DataSet, поддерживающий пакетные, интерактивные и потоковые запросы. Преимущество этого подхода заключается в том, что он позволяет разработчикам применять свой опыт работы со статическими наборами данных (т.е. пакетными) и легко применять его к бесконечным наборам данных (т.е. Потоковой передаче).
10. spark-packages.org
spark-packages.org - это своего рода хранилище документаций для сообщества с целью отслеживания растущее число пакетов с открытым исходным кодом и библиотек, которые работают с Apache Spark. Пакеты Spark облегчают пользователям поиск, обсуждение, оценку и установку пакетов для любой версии Spark и позволяют разработчикам легко интегрировать пакеты для своих целей.
Пакеты Spark включают в себя интеграцию с различными источниками данных, инструментами управления, библиотеками более высокого уровня, специфичными доменными библиотеками, алгоритмами машинного обучения, примерами кода и другим контентом Spark. Примеры пакетов включают в себя Spark-CSV (который теперь включен в Spark 2.0) и пакеты интеграции Spark ML, включая GraphFrames и TensorFrames.
11. Catalyst Optimizer
Spark SQL является одним из наиболее технически задействованным компонентом Apache Spark. Он поддерживает как SQL-запросы, так и DataFrame API. В основе Spark SQL лежит оптимизатор Catalyst, который использует расширенные функции языка программирования (например, соответсвует шаблонам Scala и квазицитаты), является новым способом создания расширяемого оптимизатора запросов.
Catalyst основан на конструкциях функционального программирования Scala и разработан с учетом этих двух целей:
Легкость добавления новых методов и функций оптимизации Spark SQL.
Предоставление возможности внешним разработчикам расширять оптимизатор (например, добавление правил, новых источников данных, поддержка новых типов данных и т.д.)
Кроме того, Catalyst поддерживает оптимизацию как в целях скорости работы, так и в целях использования ресурсов.
Для получения дополнительной информации ознакомьтесь с Deep Dive into Spark SQL’s Catalyst Optimizer и вебинаром Apache Spark DataFrames: Simple and Fast Analysis of Structured Data.
12. Tungsten
Tungsten - это кодовое название проекта по внесению изменений в механизм выполнения Apache Spark, который фокусируется на существенном повышении эффективности памяти и процессора для приложений Spark, чтобы приблизить производительность к возможностям современного оборудования. Эти возможности включают в себя следующие направления:
Управление памятью и двоичная обработка: использование семантики приложений для контролируемого управления памятью и устранения излишних расходов на объектную модель JVM и сбор мусора.
Вычисления с учетом кэша: алгоритмы и структуры данных для использования иерархии памяти
Генерация кода: использование генерации кода для современных компиляторов и процессоров
Никаких диспетчеризаций виртуальных функций: это уменьшает количество вызовов ЦП, которые могут оказать глубокое влияние на производительность при отправке миллиарды раз
Промежуточные данные в памяти против регистров ЦП: Tungsten Phase 2 помещает промежуточные данные в регистры ЦП. Это на порядок сокращает количество циклов для получения данных из регистров ЦП, а не из памяти
Разворачивание циклов и SIMD: Оптимизирует механизм выполнения Apache Spark, чтобы использовать преимущества современных компиляторов и способности процессоров эффективно компилировать и выполнять простые циклы (в отличии от сложных графиков вызов функций)
Для получения дополнительной информации ознакомьтесь с Project Tungsten: Bringing Apache Spark Closer to Bare Metal, Deep Dive into Spark SQL’s Catalyst Optimizer и Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop.
13. Continuous Applications
В Apache Spark 2.0 добавлено разнообразие за счет API DataFrame и DataSet, применяется новый подход к просмотру потоковой передачи в режиме реального времени. То есть возможно рассматривать потоковую передачу не как нечто неструктурированное, а как статическую таблицу данных (где вы знаете все данные), либо как непрерывную таблицу данных (где постоянно поступают новые данные).
Таким образом, вы можете создавать комплексные непрерывные приложения, в которых возможно выполнять те же запросы к пакетной обработке данных в режиме реального времени, выполнять ETL, генерировать отчеты, обновлять или отслеживать конкретные данные в потоке. Эта комбинированная пакетная обработка и возможность создания запросов в режиме реального времени к структурированному потоку является уникальной возможностью, немногие потоковые движки предлагают подобное.
Комментарии (7)
sshikov
28.11.2021 16:42+3В Apache Spark 2.0
Спарк 2.0 это что-то уже настолько старое… У меня недавно не приняли баг в Jira на версию 2.4.5, потому что 2.4.8 будет кажется последней версией в этой ветке. Так что эта статья 2016 года прилично устарела.
Moltem
28.11.2021 17:44+1Норм статья:) быстро по всему прошлись:)
А будет разбор слово каждого пункта с практикой?:) чтобы ссылку на docker указали и можно было самому поиграться и попробовать:)
VorobevEI Автор
28.11.2021 17:47Спасибо за приятный комментарий) хорошая идея с практикой, возможно через некоторое время займусь)
sshikov
28.11.2021 20:13+6Я вас разочарую — статья просто кривой перевод устаревшего текста. Текущий спарк — версии 3.2.0, и он очень далеко ушел от описываемого тут.
Скажем, вот, замечательный и вполне типовой перл, он же миф:
>(в 100 раз быстрее, чем Apache Hadoop)
Быстрее чем что? Спарк как правило работает поверх Хадупа, используя его файловую систему HDFS для хранения и Yarn для запуска задач (хотя умеет и иначе), так что не может быть «быстрее» ни каким образом. Это просто теплое с мягким, спарк и хадуп — разные вещи.
>Spark запускает программы до 100 раз быстрее, чем Hadoop MapReduce в памяти
Spark не запускает никакие программы — он этим просто не занимается. Это кривой перевод. Он выполняет аналогичные преобразования быстрее, чем если написать их на API MapReduce (что далеко не очевидно, кстати, потому что написать в обоих случаях можно сильно по-разному, с разной эффективностью).
Впрочем, это уже тоже не актуально, потому что если в 2015 году еще кто-то писал на MapReduce, то сейчас таких придется поискать днем с огнем, просто потому, что это очень неудобно, и появилась куча инструментов получше.EvgenyVilkov
01.12.2021 21:36подписываюсь под каждым словом !
в 2015 году разве что сбертех лабал map reduce и ждал чуда
sshikov
01.12.2021 22:29>map reduce
Ну я и сам пописывал, прямо скажем, и даже несколько позже 2015. Чисто для понимания, можно ли что-то принципиально другое сделать, если взять инструмент пониже уровнем. Но быстро понял, что даже Apache Crunch, который сильно ниже уровнем, чем спарк, все равно по сравнению с MapReduce упрощает работу в разы.
korsetlr473
Пора уже написать статью по сравнению всех этих подобных Apache X , сколько их сейчас там ? штук 8 ? даже уже не знаешь что брать и применять и их отличия