Spark. План запросов на примерах / forpes.ru

Главная
Spark. План запросов на примерах

Spark. План запросов на примерах

15.04.2024 06:12

val6789 4 2400 Источник

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Исходные данные

Будем работать с 3 таблицами:

campaigns – партиционирована по полю loading_id
campaigns_not_partitioned – точно такая же таблица, но не партиционирована
stats – таблица, с которой будем тестить джойны

Таблица campaigns / campaigns_not_partitioned

Схема таблицы campaigns / campaigns_not_partitioned

Коротко про виды планов

Всего существует 4 плана:

Parsed Logical Plan – план после парсинга ячейки с кодом, отлавливает синтаксические ошибки
Analyzed Logical Plan – план после семантического анализа, подтягиваются конкретные таблички и столбцы с типами данных
Optimized Logical Plan – оптимизации к предыдущему плану, например, упрощает лишние операции для повышения производительности
Physical Plan – как физически будет исполнен запрос на кластере, конкретные файлики, пути, форматы, партиции и т. д.

Планы запросов при чтении таблицы campaigns

Далее мы будем смотреть только на физический план, т.к. он отражает фактический алгоритм обработки данных. Чтобы чтение было комфортным, есть оглавление с быстрыми ссылками на сами запросы.
Погнали!

Самый обычный селект
Самый обычный фильтр
Селект одного столбца
Селект одного столбца + фильтр
Кэширование
Переименование, добавление нового столбца
Селект с функциями
Группировка
Distinct
Sort
Агрегирующие функции
DropDuplicates
Window functions
Union
Join
Repartition
Комплексные условия

1. Самый обычный селект

Что ж, пойдемте изучать план:

1) FileScan parquet
Наша таблица читается из схемы, перечисляются все поля, формат данных – паркет, который хранится на hdfs по указанному пути, партиций нет (в данном случае берем все), фильтров нет, указывается схема данных.

2) ColumnarToRow
Исходные данные хранятся в паркет-файлах поколоночно, но в спарке датафрейм по сути содержит множество строк, поэтому нам нужно преобразование колонок в строки.

Напомню, что первая таблица была партиционированной по полю loading_id. Теперь посмотрим на непартиционированную таблицу:

Выборка всех полей из таблицы campaigns_not_partitioned

Что поменялось?
Location вместо CatalogFileIndex стал InMemoryFileIndex.
CatalogFileIndex используется, когда мы читаем партиционированную таблицу полностью.
InMemoryFileIndex используется, когда мы читаем непартиционированную таблицу или отдельные партиции.

Тип джойна	Наличие левого фильтра	Наличие правого фильтра	Комментарий
inner	+	+	оба ключа не null
left	-	+	левая таблица может содержать null
right	+	-	правая таблица может содержать null
full	-	-	обе таблицы могут содержать null