Наверное я бы начал с того, что данные – это реально нефть и даже лучше.
Выгода от данных больше чем от нефти, потому что когда компании добывают нефть они получили все нужные материалы из неё и нефть закончилась.
А данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.
Как я говорил в прошлой статье про Big Data – мы из одной "широкой" таблицы можем извлечь множество полезных инсайдов.
И что нам это даёт? А даёт то, что после анализа данной таблицы данные в ней не исчезают, это не конечный ресурс.
Поэтому если у нас появится ещё какая-то гипотеза по нашим пользователям или продажам, то мы снова сможем обратиться к этим таблицам и извлечь новые данные для бизнеса, которые помогут ему расти.
Будет понятнее на примере: у нас есть наша любимая компания ООО "Рога и Копыта" и у неё есть определённый ассортимент товаров. Также стоит учитывать, что наша компания работает по всей России.
Основной склад у нас находится в Москве, а товары покупают по всей России как я сказал ранее.
И получается, что каждый раз мы делаем отправку из Москвы в регионы.
Давайте на примере этого кейса рассмотрим как можно улучшить бизнес используя данные.
Я сейчас постараюсь верхнеуровнево рассказать об этом кейсе. Я часто буду использовать какие-то абстракции и примитивы. Моя задача – это дать вам понимание как могут быть полезны данные.
Ну что же, начнём.
Представим, что мы Product Owner и у нас появляется следующая гипотеза – а увеличатся ли наши продажи, если мы привезем товар ближе для покупателей?
После формирования гипотезы мы определяем KPI, к которым мы будем стремиться.
В нашем примере возьмём две метрики, на которые мы будем смотреть при проверки гипотезы:
оборачиваемость товара
средний чек
Что мы имеем сейчас? У нас на руках гипотеза и показатели, которых мы хотим достичь. И в этом нам помогут данные.
Мы сейчас начнём углубляться в данные, я буду приводить разные примеры, поэтому я хотел бы дать небольшой дисклеймер, который по моему мнению должен упростить понимание.
Дисклеймер
Когда я буду говорить про таблицы, стоит держать в голове мысль, что модель данных может быть разной.
Поэтому когда я буду использовать таблицу с продажами, то давайте представим, что в ней есть все нужные нам атрибуты:
цена продажи
маржа
дата создания заказа
дата выдачи заказа
и прочее.
Я в данной статье не хотел бы углубляться в моделирование данных. Это тема для отдельного разговора, а сейчас хотелось бы больше рассказать про извлечение ценностей из данных.
Процесс со стороны бизнеса
В начале мы хотим понять какой ассортимент привести ближе к покупателю и поэтому я вижу такой порядок действий:
Мы берём нашу таблицу с продажами и пользователями.
Объединяем их и получаем информацию о том кто и куда чаще всего заказывает товары и также какие товары.
Формируем ассортимент для отгрузки.
Затем наша задача – это выбрать тот регион, в котором будет происходить проверка гипотезы и поэтому мы выделяем для проверки Новосибирскую область.
Затем мы отгружаем туда часть нашего ассортимента, который мы определили выше. Всё поедет на наш склад в Новосибирской области и там уже будет доступен для покупателей.
На этом этапе мы начинаем уже следить за качеством доставки из Москвы в Новосибирск, смотрим за такими параметрами как:
Время отгрузки.
Время в пути.
Количество потерь при доставке.
И прочее.
Наш процесс прошёл хорошо и мы привезли наш товар.
Разгрузили, положили на склад. И сразу же начались заказы этого товара.
И всё это потому, что мы предоставили ценность для наших покупателей – это скорость получения товара.
Благодаря таким действиям мы обошли конкурентов, предоставили ценность для покупателей и улучшили свои показатели.
И теперь когда мы подтвердили свою гипотезу, то мы можем масштабироваться и проводить подобные эксперименты в других регионах России.
Здесь также стоит сразу отметить, что на каждом этапе проверки нашей гипотезы для компании генерируются данные.
И эти данные мы можем использовать как для анализа текущей гипотезы, так и для проверки будущих гипотез и сравнительного анализа.
Процесс со стороны дата-инженерии
Если теперь посмотреть на этот процесс со стороны данных, а не бизнеса, то мы получаем следующую картину.
На каждом из этапов, которые я перечислил выше участвуют данные и эти все данные могут находится в разных состояниях. Также данные могут поступать из различных источников.
Далее мы с вами разберемся откуда и какие данные берутся для проверки нашей гипотезы.
Пойдем также по порядку.
Формирование KPI
Чтобы сформировать KPI, по которым мы будем оценивать успешность нашей гипотезы нам необходимо провести анализ текущих продаж и оборачиваемость товара.
Этот процесс не такой сложный, потому что мы для анализа используем свои данные и они уже лежат в БД, которые ранее для нас собрала команда ядра.
О команде ядра вы можете узнать из прошлой статьи.
Формирование ассортимента
Для определения ассортимента мы также воспользуемся нашими двумя таблицами: продажи и пользователи. Данная таблица нам позволит собрать данные по продажам за любой период.
Но для более качественного анализа нам понадобится ещё несколько таблиц: текущие остатки и остатки поставщиков.
Благодаря этим двум таблицам мы сможем понять – есть ли у нас возможность закупить ассортимент, который определили выше или нам нужно искать аналоги.
Стоит также отметить, что таблица с актуальными остатками товара от поставщика хранится у самого поставщика и он нам предоставляет эти данные по API.
Поэтому задача команды ядра – настроить получение данных из API в нашу БД, чтобы у нас всегда было актуальное состояние по остаткам поставщиков.
Отслеживание поставок
При помощи данных из таблиц выше мы сформировали матрицу ассортимента, который должен поехать в Новосибирск и теперь мы хотим следить за всеми этапами:
Время отгрузки от поставщика.
Время отгрузки с нашего Московского склада.
Время в пути.
И прочее.
Поэтому мы воспользуемся таблицами:
Отгрузки от поставщика.
Отгрузки между складами; Москва -> Новосибирск.
Рекламация.
Здесь также стоит отметить, что таблица "отгрузки от поставщика" формируется при помощи API.
Поэтому процесс получения данных по API также должна реализовать команда ядра. А остальные таблицы для данного этапа формируются на нашей стороне.
Отслеживание KPI
Вот мы с вами успешно доставили весь необходимый товар на склад Новосибирска и начинаем следить за нашими KPI.
Напомню, что мы установили KPI:
Оборачиваемость товара.
Средний чек.
И для того, чтобы быстро оценивать выполнение наших KPI мы сделаем витрины для будущих дашбордов.
Витрина (data mart) нам нужна для того, чтобы не обращаться к большой таблице с продажами.
Благодаря созданию витрин мы исключаем лишнюю нагрузку на нашу БД и улучшаем также опыт использования данных для всех заинтересованных.
Просто представьте – что будет работать быстрее?
Запрос к таблице, в которой более миллиарда записей или в которой не более тысячи записей?
Я думаю, что ответ очевиден: чем меньше таблица – тем быстрее мы сможем отдать результат.
Поэтому для каждого KPI мы будем формировать витрины, которые ускорят процесс получения данных для Product Owner и исключат лишнюю нагрузку на нашу БД.
Резюме
Мы с вами рассмотрели, что такое данные и как они могут приносить пользу компании.
На самом деле я привел только один из примеров бизнеса, но таких решений может быть множество.
А о том как развиваются компании и откуда берутся такие решения вы можете узнать из статьи "Как растут компании".
Ещё я хотел бы отметить, что весь процесс доставки данных осуществляют дата-инженеры. В данном кейсе у нас участвует команда ядра и продуктовые дата-инженеры.
Команда ядра собирает сырые данные для оценки гипотезы, формирования KPI и интегрируют API от сторонних компаний.
А продуктовые дата-инженеры помогают Product Owner получать верные данные по гипотезе. Формируют витрины и улучшают процесс работы с данными.
В данной статье я ставил перед собой цель – это показать то, что данные – это новая нефть.
И также, что данные – это нескончаемый ресурс, который можно постоянно перерабатывать, улучшать и обогащать.
Благодаря данным вы или ваша компания можете стать лучше, поэтому следите за данными, используйте их правильно и самое главное – используйте данные так, как будто вы владелец бизнеса, старайтесь приносить пользу при помощи данных.
Также если вам необходима консультация/менторство/мок-собеседование и другие вопросы по дата-инженерии, то вы можете обращаться ко мне. Все контакты указаны по ссылке.
kuzzdra
Очень смелое допущение.