Данные – это новая нефть / forpes.ru

Главная
Данные – это новая нефть

Данные – это новая нефть -9

11.10.2024 06:00

k0rsakov 2 3900 Источник

Наверное я бы начал с того, что данные – это реально нефть и даже лучше.

Выгода от данных больше чем от нефти, потому что когда компании добывают нефть они получили все нужные материалы из неё и нефть закончилась.

А данные никогда не закончатся – это первое. А второе – данные можно перерабатывать и каждый раз получать выгоду.

Как я говорил в прошлой статье про Big Data – мы из одной "широкой" таблицы можем извлечь множество полезных инсайдов.

И что нам это даёт? А даёт то, что после анализа данной таблицы данные в ней не исчезают, это не конечный ресурс.

Поэтому если у нас появится ещё какая-то гипотеза по нашим пользователям или продажам, то мы снова сможем обратиться к этим таблицам и извлечь новые данные для бизнеса, которые помогут ему расти.

Будет понятнее на примере: у нас есть наша любимая компания ООО "Рога и Копыта" и у неё есть определённый ассортимент товаров. Также стоит учитывать, что наша компания работает по всей России.

Основной склад у нас находится в Москве, а товары покупают по всей России как я сказал ранее.

И получается, что каждый раз мы делаем отправку из Москвы в регионы.

Давайте на примере этого кейса рассмотрим как можно улучшить бизнес используя данные.

Я сейчас постараюсь верхнеуровнево рассказать об этом кейсе. Я часто буду использовать какие-то абстракции и примитивы. Моя задача – это дать вам понимание как могут быть полезны данные.

Ну что же, начнём.

Представим, что мы Product Owner и у нас появляется следующая гипотеза – а увеличатся ли наши продажи, если мы привезем товар ближе для покупателей?

После формирования гипотезы мы определяем KPI, к которым мы будем стремиться.

В нашем примере возьмём две метрики, на которые мы будем смотреть при проверки гипотезы:

оборачиваемость товара
средний чек

Что мы имеем сейчас? У нас на руках гипотеза и показатели, которых мы хотим достичь. И в этом нам помогут данные.

Мы сейчас начнём углубляться в данные, я буду приводить разные примеры, поэтому я хотел бы дать небольшой дисклеймер, который по моему мнению должен упростить понимание.

Дисклеймер

Когда я буду говорить про таблицы, стоит держать в голове мысль, что модель данных может быть разной.

Поэтому когда я буду использовать таблицу с продажами, то давайте представим, что в ней есть все нужные нам атрибуты:

цена продажи
маржа
дата создания заказа
дата выдачи заказа
и прочее.

Я в данной статье не хотел бы углубляться в моделирование данных. Это тема для отдельного разговора, а сейчас хотелось бы больше рассказать про извлечение ценностей из данных.

Процесс со стороны бизнеса

В начале мы хотим понять какой ассортимент привести ближе к покупателю и поэтому я вижу такой порядок действий:

Мы берём нашу таблицу с продажами и пользователями.
Объединяем их и получаем информацию о том кто и куда чаще всего заказывает товары и также какие товары.
Формируем ассортимент для отгрузки.

Затем наша задача – это выбрать тот регион, в котором будет происходить проверка гипотезы и поэтому мы выделяем для проверки Новосибирскую область.

Затем мы отгружаем туда часть нашего ассортимента, который мы определили выше. Всё поедет на наш склад в Новосибирской области и там уже будет доступен для покупателей.

На этом этапе мы начинаем уже следить за качеством доставки из Москвы в Новосибирск, смотрим за такими параметрами как:

Время отгрузки.
Время в пути.
Количество потерь при доставке.
И прочее.

Наш процесс прошёл хорошо и мы привезли наш товар.

Разгрузили, положили на склад. И сразу же начались заказы этого товара.

И всё это потому, что мы предоставили ценность для наших покупателей – это скорость получения товара.

Благодаря таким действиям мы обошли конкурентов, предоставили ценность для покупателей и улучшили свои показатели.

И теперь когда мы подтвердили свою гипотезу, то мы можем масштабироваться и проводить подобные эксперименты в других регионах России.

Здесь также стоит сразу отметить, что на каждом этапе проверки нашей гипотезы для компании генерируются данные.

И эти данные мы можем использовать как для анализа текущей гипотезы, так и для проверки будущих гипотез и сравнительного анализа.

Процесс со стороны дата-инженерии

Если теперь посмотреть на этот процесс со стороны данных, а не бизнеса, то мы получаем следующую картину.

На каждом из этапов, которые я перечислил выше участвуют данные и эти все данные могут находится в разных состояниях. Также данные могут поступать из различных источников.

Далее мы с вами разберемся откуда и какие данные берутся для проверки нашей гипотезы.

Пойдем также по порядку.

Формирование KPI

Чтобы сформировать KPI, по которым мы будем оценивать успешность нашей гипотезы нам необходимо провести анализ текущих продаж и оборачиваемость товара.

Этот процесс не такой сложный, потому что мы для анализа используем свои данные и они уже лежат в БД, которые ранее для нас собрала команда ядра.

О команде ядра вы можете узнать из прошлой статьи.

Формирование ассортимента

Для определения ассортимента мы также воспользуемся нашими двумя таблицами: продажи и пользователи. Данная таблица нам позволит собрать данные по продажам за любой период.

Но для более качественного анализа нам понадобится ещё несколько таблиц: текущие остатки и остатки поставщиков.

Благодаря этим двум таблицам мы сможем понять – есть ли у нас возможность закупить ассортимент, который определили выше или нам нужно искать аналоги.

Стоит также отметить, что таблица с актуальными остатками товара от поставщика хранится у самого поставщика и он нам предоставляет эти данные по API.

Поэтому задача команды ядра – настроить получение данных из API в нашу БД, чтобы у нас всегда было актуальное состояние по остаткам поставщиков.

Отслеживание поставок

При помощи данных из таблиц выше мы сформировали матрицу ассортимента, который должен поехать в Новосибирск и теперь мы хотим следить за всеми этапами:

Время отгрузки от поставщика.
Время отгрузки с нашего Московского склада.
Время в пути.
И прочее.

Поэтому мы воспользуемся таблицами:

Отгрузки от поставщика.
Отгрузки между складами; Москва -> Новосибирск.
Рекламация.

Здесь также стоит отметить, что таблица "отгрузки от поставщика" формируется при помощи API.

Поэтому процесс получения данных по API также должна реализовать команда ядра. А остальные таблицы для данного этапа формируются на нашей стороне.

Отслеживание KPI

Вот мы с вами успешно доставили весь необходимый товар на склад Новосибирска и начинаем следить за нашими KPI.

Напомню, что мы установили KPI:

Оборачиваемость товара.
Средний чек.

И для того, чтобы быстро оценивать выполнение наших KPI мы сделаем витрины для будущих дашбордов.

Витрина (data mart) нам нужна для того, чтобы не обращаться к большой таблице с продажами.

Благодаря созданию витрин мы исключаем лишнюю нагрузку на нашу БД и улучшаем также опыт использования данных для всех заинтересованных.

Просто представьте – что будет работать быстрее?

Запрос к таблице, в которой более миллиарда записей или в которой не более тысячи записей?

Я думаю, что ответ очевиден: чем меньше таблица – тем быстрее мы сможем отдать результат.

Поэтому для каждого KPI мы будем формировать витрины, которые ускорят процесс получения данных для Product Owner и исключат лишнюю нагрузку на нашу БД.

Резюме

Мы с вами рассмотрели, что такое данные и как они могут приносить пользу компании.

На самом деле я привел только один из примеров бизнеса, но таких решений может быть множество.

А о том как развиваются компании и откуда берутся такие решения вы можете узнать из статьи "Как растут компании".

Ещё я хотел бы отметить, что весь процесс доставки данных осуществляют дата-инженеры. В данном кейсе у нас участвует команда ядра и продуктовые дата-инженеры.

Команда ядра собирает сырые данные для оценки гипотезы, формирования KPI и интегрируют API от сторонних компаний.

А продуктовые дата-инженеры помогают Product Owner получать верные данные по гипотезе. Формируют витрины и улучшают процесс работы с данными.

В данной статье я ставил перед собой цель – это показать то, что данные – это новая нефть.

И также, что данные – это нескончаемый ресурс, который можно постоянно перерабатывать, улучшать и обогащать.

Благодаря данным вы или ваша компания можете стать лучше, поэтому следите за данными, используйте их правильно и самое главное – используйте данные так, как будто вы владелец бизнеса, старайтесь приносить пользу при помощи данных.

Также если вам необходима консультация/менторство/мок-собеседование и другие вопросы по дата-инженерии, то вы можете обращаться ко мне. Все контакты указаны по ссылке.

Комментарии (2)

kuzzdra
11.10.2024 07:00
#27404158
данные можно перерабатывать и каждый раз получать выгоду

Очень смелое допущение.

vilgeforce
11.10.2024 07:00
#27404760
Продам много гигабайт данных, недорого