Дата-инженер – это человек, который работает с данными. Довольно простое определение, под которым скрывается несколько слоев.
Давайте вместе разбираться что же это за зверь дата-инженер?
Роль дата-инженера определяется зрелостью компании. Основным фактором для появления дата-инженера является – желание работать с данными и извлекать из них пользу.
Многие компании со временем понимают ценность данных, не зря же существует выражение: "Данные – это новая нефть".
Основной концепт, который используют компании при найме дата-инженера и определение его роли – это Data Governance.
Я люблю объяснять всё на примерах, поэтому давайте представим компанию "ООО Рога и Копыта". Компания развивается, есть сайт, есть покупатели, есть написанный бэкенд и прочее. Данная компания успешна в продаже рогов и копыт.
Но у компании стоит новая цель – это развиваться дальше, улучшать свой сервис по продаже рогов и копыт, чтобы опередить конкурентов и поэтому им нужен дата-инженер.
Дальнейший рассказ я буду вести о том как это могло бы выглядеть для этой компании. Вместо "ООО Рога и Копыта" может быть любая компания, возможно мой рассказ будет применим и к вашей компании.
Для начала я бы разделил дата-инженеров на "ветки".
Первая ветка – это кор (ядро). Данные дата-инженеры используют определенные инструменты, которые позволяют им собрать "ядро". Под "ядром" я понимаю основу, архитектуру и принципы по которым собираются данные в компании.
Данные, которые собирает "ядро" используются как "эталон", они обычно являются "источником правды". Мы сейчас не будем говорить про то, какие инструменты используют люди из "ядра". Но оговорюсь, что там может быть что угодно: open source, платный софт или что-то самописное.
Также "ядро" может делать фреймворки, интерфейсы или другой софт для коллег, который облегчал бы работу с данными.
"Ядро" собирает "сырые" данные и предоставляет их "как есть" без изменений. Иногда может проводить операции нормализации и денормализации.
Вторая ветка – продуктовые дата-инженеры. Они чаще всего уже используют данные, которые собрали коллеги из "ядра". продуктовые ДИ не подключают источники и не собирают изначальные данные. Они помогают бизнесу расти. Не зря я их назвал "продуктовые дата-инженеры". Это не обязательно говорит о том, что эти дата-инженеры занимаются только продуктом. Они могут заниматься финансами, расходами, будущими проектами и прочими направлениями, на которые нацелена сейчас компания. Здесь я хотел бы скорее подчеркнуть то, что продуктовый дата-инженер, не занимается тонкой настройкой "ядра". Он помогает бизнесу расти.
Стоит также отметить, что продуктовые дата-инженеры могут отличаться друг от друга. Для примера: наша команда "ядра" собрала данные по продажам рогов и копыт, и также таблицу с пользователями.
Сейчас у бизнеса стоит две задачи:
Посчитать соотношение мужчин и женщин каждый месяц, чтобы делать корректные акции, которые помогут бизнесу расти.
Посчитать количество рогов и копыт, которые покупают мужчины и женщины в разбивке по дням. Задачи довольно простые, но пути решения этих задач могут быть различными. Всё зависит от команды "ядра".
Теперь подробнее:
Команда "ядра" могла написать свой фреймворк для работы с данными и поэтому чтобы выполнить поставленные задачи, продуктовому дата-инженеру нужно взять этот фреймворк, использовать оттуда нужные методы и получить желаемый результат.
Также может быть, что фреймворка нет, но есть какой-то общедоступный инструмент для построения потоков, который утвердила команда "ядра" и он нам поможет выполнить данные задачи. Для примера в этом инструменте можно создать поток вообще не написав ни строчка кода. А просто переставляя кубики и соединяя их стрелочками.
А если нет ни того, ни другого, то команда продуктовых дата-инженеров сама решает то, как она будет выполнять эти задачи. Команда может использовать что угодно: open source, платный софт или что-то самописное.
Третья ветка – она опциональна и зависит от зрелости компании. Это ML дата-инженеры. Она является специфической, потому что тут нет "стандарта" и невозможно четко сказать кто такой ML дата-инженер.
Но я бы выделил эту сущность как – дата-инженер, который шарит за Data Science (DS), который понимает что нужно data-scientist-ам и понимает как лучше оптимизировать таблицы и хранение данных для ML задач.
ML дата-инженеры могут использовать данные как от "ядра" так и от продуктовых дата-инженеров.
Все эти ветки могут существовать в одной компании.
Но также не стоит отказываться от работы в компаниях, если у них нет ML. Возможно он им не нужен или они просто не доросли до такого уровня.
Третья и вторая ветки идут из первой.
Чаще всего так устроено, что дата-инженеры из второй или третьей ветки не занимаются работой "ядра", они часто могут не знать тех технологий, которые использует "ядро".
Но в тоже время "ядро" часто имеет навыки, которые позволяют заменить вторую или третью ветку, так как дата-инженеры из "ядра" обладают более сильными и расширенными навыками.
И бывает также, что вторая и третья ветка могут не пересекаться по своим навыкам.
По этой причине в компании может существовать все три ветки одновременно.
Также стоит отметить, что существование данных веток зависит от зрелости компании. Формат веток тоже зависит от зрелости компании.
Потому что вся дата-инженерия – это набор принципов, которые базируются на концепте data governance.
Это всё, что я хотел рассказать про дата-инженеров, если я что-то упустил или вы хотели бы углубиться в какое-то направление, то пишите об этом в комментариях.
Также если вам необходима консультация/менторство/мок-собеседование и другие вопросы по дата-инженерии, то вы можете обращаться ко мне. Все контакты указаны по ссылке.
atues
Плоховато с данными у автора: на картинке все мужчины либо с бородой, либо дурно выбриты. Вы не в курсе, что существуют такие мужчины (и их много), что чисто бреются?
Кроме того, все 7 персонажей - в очках. Вывод: будешь работать дата-инженером, непременно испортишь себе зрение. Так себе представление о роде человеческом.
Все мужчины - темноволосые и среди них нет ни одного лысого или коротко стриженного. Ошибочка, однако: есть и светловолосые и стриженные.
Вот так, без всяких инструментов, я получил ряд бесспорных "выводов", которые непосредственно следуют из предложенной автором картинки.
Готовя статью о данных и их обработке, неплохо бы озаботиться представлением этих самых данных. Их репрезентативностью. Рисунки должны способствовать пониманию и иллюстрировать важные идеи. Ваша картинка - профанация для привлечения внимания.
Ну, Вы поняли - минус. Ничего личного )))
morheus9
[Звуки открывания форточки]
Ninil
Мне кажется, ваш ироничный комментарий - очень тонкий намек на ход мыслей автора в самой статье. Если это так, то я оценил и хлопаю в ладоши)