Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизированные алгоритмы. Результаты тестирования показывают, что движок эффективно справляется с большими объемами данных, что помогает лучше анализировать информацию и принимать обоснованные бизнес-решения.

В статье мы представим процесс создания ETL, который включает извлечение данных из источников, их преобразование для соответствия требованиям целевой системы и загрузку в конечное хранилище. Apache Hive – это система управления данными, построенная на Hadoop, которая позволяет выполнять SQL-подобные запросы к большим объемам данных, хранящимся в распределенных файловых системах. ClickHouse, в свою очередь, является колоночной системой управления базами данных (СУБД), оптимизированной для обработки аналитических запросов в реальном времени. Создание ETL-движка [1; 2] между этими двумя системами позволяет обеспечить эффективный перенос и обработку данных, что открывает новые возможности для анализа и бизнес-аналитики. В статье мы подробно рассмотрим этапы разработки такого движка, включая извлечение данных из Hive, их трансформацию и загрузку в ClickHouse, а также поделимся практическими примерами реализации. Актуальность работы заключается в том, что Clickhouse является улучшенным инструментом для работы с BI-инструментами, следовательно, его целесообразно использовать при создании дашбордов и витрин данных. Также Clickhouse более удобен для обработки больших данных, масштабирования и распределенных вычислений. Процесс обработки данных реализован при помощи технологий: Apache Hive, Clickhouse, Apache Airflow (необходим для того, чтобы создать в нем даг, который будет работать по расписанию с определенными требованиями, которые укажет пользователь), Jupiterlab (технология, в которой требуется произвести реализацию алгоритма), Apache Spark (распределенная вычислительная платформа, предназначенная для обработки больших данных, она поддерживает различные языки программирования, включая Python). Язык реализации алгоритма Python. Python становится популярным выбором для реализации ETL-движков благодаря простоте и читаемости кода. Кроме того, поддержка параллельной обработки и интеграция с облачными сервисами делают Python универсальным инструментом для обработки больших объемов информации. Наконец, активное сообщество и доступная документация способствуют быстрому обучению и решению возникающих проблем. Библиотеки, которые понадобятся в Python: PySpark (для взаимодействия со Apache Spark), argparse (для того, чтобы передавать данные из дага в скрипт в Jupiterlab), airflow (для того, чтобы создать даг в Apache Airflow с необходимыми параметрами), pendulum (для того, чтобы конкретно указать timezone для работы движка и дага), ipywidgets (для реализации дружественного интерфейса в приложении, чтобы пользователи могли пользоваться данным движком). Цель работы заключается в создании ETL-движка для репликации данных их Apache Hive в Clickhouse. Данный движок должен транспортировать данные из Apache Airflow в Clickhouse. Требуется определить основные подцели:

  • создать шаблоны для создания дага. Требуется создать два шаблона дага, один включает все библиотеки, необходимые для создания дага, а другой содержит непосредственно скрипт создания дага;

  • создать несколько классов. Необходимы классы для работы с таблицей в Clickhouse, для создания таблицы в Clickhouse, для работы с таблицей в Apache Hive, для работы с файлами hdfs и для создания основного класса, в котором будет произведена реализация работы всех классов и в который будут передаваться аргументы из дага;

  • создать приложение с интерфейсом, встроенное в Jupiterlab, с помощью которого пользователь сможет сам создавать свой даг и ставить в расписание в Apache Airflow;

Реализация алгоритма по созданию движка

  1. Требуется создать два шаблона и положить их в папку templates. Первый шаблон необходимо назвать libraries.py. В него поместим все библиотеки, необходимые для создания дага и выполнения определенных модификаций при этом. Второй шаблон необходимо назвать template_create_dag.py, в нем выполним скрипт непосредственно по созданию дага. Шаблоны должны объединяться в один питоновский файл, принять параметры из приложения, откуда пользователь передает параметры по созданию дага . После этого в Apache Airflow должен появится даг, включающий скрипт из объединенных шаблонов.

  2. В Jupiterlab следует создать пять классов, которые будут реализовывать необходимый нам алгоритм. Изначально определяются необходимые параметры, которые передаются из дага, такие как названия таблиц и баз данных, а также учетные данные для подключения к ним. После этого программа считывает введенные аргументы и сохраняет их для дальнейшего использования. Это позволяет пользователю гибко настраивать поведение программы в зависимости от его потребностей. Класс ManagerHelper представляет собой мощный инструмент для управления данными между системами Impala и ClickHouse, используя возможности Apache Spark. Он инкапсулирует логику создания и обработки таблиц, обеспечивая удобный интерфейс для взаимодействия с базами данных. Конструктор класса принимает необходимые параметры, такие как имя таблицы и базы данных в ClickHouse, а также учетные данные для подключения. Это позволяет легко настраивать объект ManagerHelper для работы с различными источниками данных. Внутри класса создаются экземпляры вспомогательных классов, таких как ImpalaHelper, HDFSHelper и ClickHouseHelper, которые обеспечивают доступ к специфическим функциям работы с данными. Эти классы помогают разделить ответственность и упрощают поддержку кода. Например, ClickHouseHelper отвечает за взаимодействие с ClickHouse, в то время как ImpalaHelper предоставляет методы для работы с Impala. Такой подход способствует лучшей модульности и переиспользованию кода. Класс также включает методы для генерации SQL-запросов, необходимых для создания таблиц в ClickHouse на основе структуры таблиц в Impala. Метод generate_create_table_sql определяет логику обработки как партиционных, так и непартиционных таблиц. В зависимости от наличия партиций вызываются соответствующие методы для обработки данных. Это позволяет эффективно управлять различными типами таблиц и обеспечивает гибкость при работе с изменениями в структуре данных.

  3. Далее требуется создать интерфейс, с помощью которого пользователи будут создавать для себя даги, с определенными параметрами. Необходимо создать интерактивный интерфейс для работы с Apache Spark и базами данных, используя библиотеку ipywidgets. Он включает чекбокс для выбора полной перезаливки данных, текстовые поля для ввода расписания и названий таблиц, а также поля для выбора даты. Пользователь может инициировать действия через кнопки, такие как создание DAG или получение информации о таблице. Основная цель – упростить взаимодействие с данными и автоматизировать процессы для пользователя.

Внедрение ETL-движка для переноса данных из Hive в ClickHouse позволяет значительно улучшить процессы обработки и анализа больших объемов информации. Это решение обеспечивает интеграцию разрозненных данных, повышает их качество за счет трансформации и очистки, а также автоматизирует загрузку, что сокращает время на получение актуальной информации. Использование ClickHouse, известного высокой производительностью и возможностями работы с аналитическими запросами в реальном времени, в сочетании с мощными инструментами ETL позволяет компаниям эффективно реагировать на изменения в бизнес-среде и принимать обоснованные решения на основе качественных данных.

Комментарии (10)


  1. ssmaslov
    17.01.2025 05:31

    Почему нельзя было использовать один из стандартных движков? Из описания выглядит как наколеночная поделка ради поделки. Про текстовые параметры подключения которые куда то вводятся и сохраняются... Если я правильно понял о чем это, так же просто нельзя делать...


    1. DmitriiReshetnikov Автор
      17.01.2025 05:31

      Моя практика показывает, что все существующие движки клика далеки от совершенства


    1. miksoft
      17.01.2025 05:31

      "один из стандартных движков "

      А можно пример?
      Мне в голову кроме Informatica и dbt больше ничего не приходит.


  1. Ver_P
    17.01.2025 05:31

    Ух ты). Опять помесь гпт с бредом студента для набора текста для реферата. Как настроить хабр, чтобы уведомления о новых "статьях" этого автора не приходили?


    1. DmitriiReshetnikov Автор
      17.01.2025 05:31

      Ну раз вы так активно пишите гневные комментарии, хотя бы тут, попробуйте свою позицию хоть чуть-чуть аргументировать


      1. QtRoS
        17.01.2025 05:31

        А вы как автор статьи отрицаете, что она сгенерирована нейронкой?

        И независимо от этого вопроса, хотелось бы понять ваши мотивы публикации такого материала. Напоминает "тени на стене пещеры" Платона, описание кода без самого кода...


  1. YAKOROLEVAZAMKA
    17.01.2025 05:31

    а где сам движок, описание классов, хотя бы ссылка на гитхаб?

    сделать import hive, clickhouse_connect, pd.read_sql(), insert_dataframe() можно без всего вышеперечисленного, нужен только py-файл и cron


    1. andrey_dvin
      17.01.2025 05:31

      pd.read_sql(), insert_dataframe() тоже с большой долей вероятности не нужны. большую часть трансформаций всеже можно внутри бд сделать.


      1. YAKOROLEVAZAMKA
        17.01.2025 05:31

        Hive это не бд, это движок позволяющий работать со структурированными файлами как с таблицами - писать к ним sql-запросы

        Т.е. сама суть статьи это как взять файл и записать его в CH (а не как подключить файл внутри CH в качестве источника)


  1. drno-reg
    17.01.2025 05:31

    Любопытно было бы вгзлянуть на реализацию, не думали выложить код в githib/gitverse ?