Мэдисон — инженер-аналитик, увлекающаяся данными, предпринимательством, писательством и образованием. Ее цель — преподавать так, чтобы это было полезно для каждого, независимо от того, начинает ли он карьеру или уже работает в инженерии 20 с лишним лет.

И так вы поняли, что вам не помешала бы дополнительная помощь в работе с данными. Но кого конкретно следует искать, вы не знаете, ведь существуют дата-аналитики, дата-инженеры, а теперь… и инженеры-аналитики?!

Не разобравшись, можно подумать, что дата-инженеры и инженеры-аналитики — это одно и то же. Звучит-то ведь похоже, верно? Но на самом деле у инженеров-аналитиков и дата-инженеров разные обязанности. Поэтому выбор подходящего для вас и вашей организации специалиста зависит от ваших потребностей, места, которое он занимает по отношению к бизнесу, и навыков, необходимых для работы.

TL;DR: Инженеры-аналитики vs дата-инженеры

По сути, инженеры-аналитики находятся ближе к бизнесу и сосредоточены на самих данных, в то время как дата-инженеры находятся ближе к инженерии и больше сосредоточены на процессах и инфраструктуре для корректного предоставления данных.

Чтобы представить это в перспективе, предположим, что вы работаете в отделе разработки и отвечаете за запуск нового продукта. В этом случае вы будете работать с дата-инженером, чтобы убедиться, что на странице продукта на сайте компании отображается правильная информация. Он также будет отвечать за то, чтобы на этой странице должным образом отслеживался трафик.

Уже после того как все это настроено, вы вместе с инженером-аналитиком будете работать на тем, чтобы в хранилище данных поступали данные и показатели, необходимые вам для отслеживания успеха вашего продукта. Или если данные в их текущем виде не пригодны для использования, в области его компетенции также будет создание набора данных, который позволит вам получить нужные метрики. 

Понятно? Теперь давайте подробнее рассмотрим организационные различия между инженерами-аналитиками и дата-инженерами, а также их прямые обязанности.

Какое место они занимают по отношению к бизнесу?

Инженеров-аналитиков обычно можно найти в отделе аналитиков или специалистов по работе с данными, который в свою очередь занимает место где-то между бизнес-отделом и командой инженеров. Они выступают в роли связующего звена между двумя отделами, поскольку в своей работе оперируют как техническими, так и бизнес-концепциями. Обычно это подразумевает тесное общение с заинтересованными сторонами, чтобы понять их потребности, а затем построить на их основе модели данных. По этой причине инженеры-аналитики также должны быть знакомы с моделями транзакционных баз данных, в том числе и как организовать потребление таких данных хранилищем.

Отличительной чертой инженеров-аналитиков является бизнес-контекст. Поскольку модели данных, создаваемые инженерами-аналитиками, строятся с учетом интересов бизнеса, им важно не только знать различные метрики, но и понимать то, как именно они будут использоваться. 

В отличие от них, дата-инженеры обычно входят в состав инженерной команды. Они редко взаимодействуют с бизнес-отделом, и вместо этого общаются с инженерами-аналитиками. Задачи перед ними обычно ставит посредник — например, Scrum-мастер или руководитель проекта, — который решает, что наиболее важно для бизнеса с инженерной точки зрения. По своей сути дата-инженеры отвечают за сбор данных в транзакционную базу данных и различные интеграции.

Чем различаются их навыки?

Важно отметить, что навыки часто варьируются в зависимости от вашей организации и ее размера. Ниже приведены общие различия в навыках между этими двумя специальностями. 

Инженеры-аналитики

Роль инженера-аналитика стирает грань между технологиями и бизнесом. Хотя обязанности могут сильно отличаться в разных компаниях, каждый инженер-аналитик должен обладать как минимум следующими навыками.

Моделирование данных

Инженеры-аналитики обладают глубоким пониманием моделирования и преобразования данных. Это означает, что они знают, как собрать воедино сложную логику для создания автоматизированных, многократно используемых наборов данных, которые служат основой для ваших дашбордов и отчетов.

SQL

Хотя знание SQL важно для каждого специалиста по работе с данными, инженеры-аналитики говорят на SQL как на родном языке, поскольку это основной язык, используемый для моделирования данных, и ядро многих популярных инструментов. Именно SQL позволяет им запрашивать базы данных в вашем хранилище и рассчитывать KPI.  

Хранилище данных

Ваше хранилище данных (или место, где хранятся все ваши данные) находится в распоряжении инженера-аналитика. Он настраивает архитектуру хранилища таким образом, чтобы оно было правильно оптимизировано для использования аналитиками и вашей платформой визуализации данных.

Важной частью такого хранилища является также четкое понимание правильных ролей и разрешений, которые обеспечивают безопасность данных. Популярные хранилища данных, такие как Snowflake, Databricks и BigQuery, выполняют одну и ту же задачу, но каждое из них имеет свои уникальные особенности. Но если вы разбираетесь в одном из них, вы легко научитесь использовать и другие.  

Инструменты современного стека данных

Современный стек данных можно разбить на нескольких различных частей, но две из них являются основными: потребление (ingestion) и оркестровка (orchestration). Инженеры-аналитики разбираются в том, как использовать эти инструменты для манипуляции данными внутри стека. 

Для организации потребления данных им необходимо иметь представление о нескольких наиболее популярных инструментах сбора данных, таких как Fivetran, Stitch и Airbyte. Fivetran и Stitch — это более удобные для быстрого развертывания инструменты с довольно простыми настройками, в то время как Airflow — это инструмент с открытым исходным кодом, требующий более глубоких технических знаний. 

Инженеры-аналитики также должны быть знакомы с инструментами оркестровки (или инструментами, которые помогают развернуть ваши модели данных в продакшене). Однако, в зависимости от вашей команды, этим навыком могут обладать и дата-инженеры.

Интересно, что Airflow более популярен среди дата-инженеров, в то время как инженеры-аналитики предпочитают другие инструменты, такие как Prefect и Dagster. Но на самом деле эти предпочтения зависят только от опыта и навыков в написании кода.

dbt 

dbt — это инструмент, используемый для трансформации данных. Этот инструмент сочетает в себе знания инженера-аналитика в области моделирования данных и SQL, а также предлагает уникальные возможности для упрощения моделирования.

Он помогает инженеру-аналитику создавать модульные, эффективные и легко читаемые модели данных, сокращая количество повторяемого кода с помощью таких расширенных функций, как макросы, и множества других пакетов, которые можно легко установить.

Интересный факт: dbt фактически создал специализацию инженера-аналитика!

Аналитические дашборды

Хотя некоторые могут утверждать, что создание информационных дашбордов — основная обязанность аналитиков данных, инженеры-аналитики также умеют создавать визуализации с помощью таких популярных инструментов, как Tableau, ThoughtSpot и Looker. В конце концов, именно их модели данных служат основой для визуализации. Поэтому инженерам-аналитикам важно понимать, как взять эти наборы данных и затем использовать их для отображения данных именно так, как это нужно заинтересованным сторонам. 

Дата-инженеры

Как и у инженеров-аналитиков, обязанности дата-инженера обычно варьируются в зависимости от типа компании, в которой он работает, и конкретной отрасли, но в целом их можно разделить на три основные категории: специалисты общего профиля, специалисты по конвейерам и специалисты по базам данных. Однако независимо от того, к какой категории они относятся, каждый дата-инженер должен обладать следующими навыками.

Python

Если вы работаете дата-инженером, вам необходимо знать Python. Этот язык обычно используется в таких инструментах оркестровки, как Airflow, Dagster и Prefect, но он также широко применяется для разработки API, интерактивного тестирования и написания скриптов. К счастью, он является одним из самых простых для понимания и изучения, что делает его столь популярным в мире данных. 

DevOps

Инженерия данных — это разработка приложений и обеспечение их правильного развертывания в производстве. В зависимости от обязанностей в вашей команде и ее размера, дата-инженер может отвечать и за внесение нужных изменений в код. 

Если нет, то он, по крайней мере, должен быть знаком с облачными сервисами, такими как AWS, Google Cloud и Azure. Знание хотя бы одной из этих платформ необходимо для размещения практически любого сервиса, поддерживающего различные приложения. Отдельно можно отметить, что знание Kubernetes, сервиса оркестровки контейнеров с открытым исходным кодом, характерно для дата-инженеров, которые много занимаются DevOps.  

Bash

Bash — это язык командной строки, который упрощает навигацию по каталогам и редактирование файлов. Он часто используется в скриптах развертывания в DevOps, позволяя автоматизировать трудоемкие задачи. 

Git

Git — это система контроля версий, которая помогает отслеживать изменения кода, чтобы инженеры могли их легко сохранять и совместно работать над кодом в своих командах. Это также отличный инструмент для использования в качестве "лучшей практики" на случай, если в производство будет отправлен неверный код и его развертывание придется откатывать.

Инструменты оркестровки 

Как уже говорилось, инструменты оркестровки, такие как Airflow, Dagster и Prefect, также важны и для дата-инженеров. В зависимости от состава вашей команды и квалификации каждого члена, за это может отвечать как дата-инженер, так и инженер-аналитик. Честно говоря, тут действительно все зависит от вашей организации. Однако, поскольку дата-инженеры зачастую владеют языком Python, на котором работают эти платформы, то, скорее всего, эта задача будет возложена именно на их плечи.

Так кого же нанимать?

А теперь самое интересное. Какой именно специалист подходит вашей команде? В общем, вот полезная визуальная схема, позволяющая понять разницу.

=
=

Хотя границы между этими специализациями могут быть размыты, вы можете учитывать эти различия, когда будете думать о том, чего вы пытаетесь достичь, и о конкретных проблемных моментах, которые вы надеетесь устранить.

Ваши данные беспорядочны и ими сложно пользоваться? → Инженер-аналитик

Предположим, вы столкнулись с проблемами качества данных — от неверных и недостающих данных до полного отсутствия данных, — которые затрудняют использование ваших данных. В этом случае вам нужно нанять инженера-аналитика.

Инженеры-аналитики отвечают за конвейер данных от их получения до визуализации, поэтому именно они будут внимательно следить за данными, чтобы убедиться, что они соответствуют стандартам компании. Другими словами, если данные отсутствуют или неверны, они первыми узнают об этом. Инженер-аналитик может провести тестирование с помощью таких инструментов, как dbt и re_data, настроить оповещения и принять превентивные меры, чтобы данные всегда выглядели так, как нужно. 

Проблемы со сбором данных на вашем сайте? → Дата-инженер

Дата-инженеры обычно занимаются внутренними процессами сайта, которые помогают собирать все важные данные о клиентах. Если вы не собираете эти данные или испытываете проблемы с их сбором, вам необходимо нанять дата-инженера.

Инженеры-аналитики обычно работают с данными после того, как они уже собраны, и занимаются их перемещением из точки А в точку Б. Дата-инженеры, с другой стороны, могут помочь разработать системы и процессы, обеспечивающие отправку этих данных в место, где они могут быть использованы аналитиками. 

Ваши данные разбросаны по нескольким разным платформам? → Инженер-аналитик

Если у вас возникли проблемы с созданием единого источника достоверных данных, то вам стоит нанять инженера-аналитика. Инженеры-аналитики отвечают за хранилище данных, которое выступает в качестве единого источника достоверных данных для всех данных компании. Они заносят данные в это хранилище из различных источников, очищают исходные данные, а затем формируют базовые модели данных. Помимо прочего, они помогут вам правильно документировать и консолидировать источники данных, чтобы метрики и KPI были согласованы во всех сферах бизнеса.

Вам нужен индивидуальный конвейер данных? → Дата-инженер

Хотя это может быть спорной точкой зрения, если вы хотите создать собственный конвейер данных, лучше нанять дата-инженера, потому что у них обычно больше опыта работы с такими инструментами, как Airflow, которые требуют глубоких знаний Python, DAG и облачной инфраструктуры.

Создание пользовательского конвейера данных может оказаться довольно технически сложным для человека с небольшим опытом работы с данными. Хотя некоторые инженеры-аналитики, безусловно, могут взяться за эту работу, им обычно удобнее использовать более простые в обслуживании инструменты для построения конвейеров данных, такие как Prefect и Dagster.

Выбор правильного инженера

Понимание проблемных моментов, которые вы пытаетесь решить, поможет вам нанять эксперта по данным нужной специализации для вашей организации - и сделать процесс найма более эффективным. 

Помните: инженеры-аналитики сосредоточены на самих данных, обращая внимание на такие вопросы, как качество, свежесть и адекватное время поступления. Они управляют данными на всех этапах их обработки. В свою очередь, дата-инженеры занимаются инфраструктурой данных на сайте и в системах компании, а также инструментами, поддерживающими конвейеры обработки данных.

Хотя эта статья представляет собой обзор различий между этими двумя ролями, не забывайте, что в разных компаниях они разные. Поэтому обсудите это со своими командами по работе с данными и технологиями, чтобы лучше понять, какие пробелы существуют и кто лучше всего подойдет для их устранения. А еще лучше — отправьте им эту статью и попросите указать сценарии и конкретные навыки, которые они сочтут наиболее актуальными. Счастливого найма!


В заключение приглашаем всех желающих на открытое занятие «Reverse ETL. Почему? Зачем? Как?» 18 марта. На занятии разберёмся:

— Что такое операционные данные и почему они важны для бизнеса?
— Какие инструменты есть на зарубежном рынке?
— Почему тренд на их использование так и не дошел до российских компаний?

Записаться на урок можно на странице курса "Data Warehouse Analyst".

Комментарии (0)