Вне зависимости от отрасли количество данных для каждого бизнеса из года в год растет.  

Например, в ритейле ежедневно обновляются данные из системы управления торговым залом и кассовых систем, строительство собирает данные из BPM или BIM-систем, современные производства используют системы ERP и WMS, IoT-датчики.  

И абсолютно у всех есть различные бухгалтерские, CRM, HRM-системы, таблицы Excel, PDF-файлы, базы данных. 

С помощью анализа этой информации можно отследить тенденции и запланировать изменения в бизнесе, оптимизировать процессы, усовершенствовать взаимодействие с клиентами и поставщиками, сформировать новые конкурентные преимущества. 

Но если не внедрить грамотное управление всеми этими данными, они могут стать причиной новых проблем. 

Проблему хаоса в данных помогает решить Data Warehouse (DWH, корпоративное хранилище данных, КХД) – единый репозиторий, который объединяет и структурирует текущие и исторические данные из разных источников для дальнейшего построения аналитических отчётов на их основе. 

Задуматься о внедрении КХД особенно стоит компаниям, которые: 

  • Осуществляют регулярный анализ большого объема разноформатных данных из разрозненных источников 

  • Сталкиваются с необходимостью проводить глубокий, исторический анализ данных 

  • Работают с высоконагруженными системами, содержащими критически важные для бизнеса данные 

  • Нуждаются в структурированных данных для обеспечения специфической отчетности по ролям и подразделениям 

Как DWH формирует ценность бизнеса и помогает экономить?

Грамотное внедрение корпоративного хранилища данных способно сократить затраты на процесс обработки данных: 

  • Оптимизирует процессы работы с данными 

  • Помогает определить ключевые метрики для бизнеса 

  • Ускоряет обработку сложных запросов  

  • Обеспечивает анализ данных в режиме реального времени 

  • Совершенствует процессы принятия решений 

Порядок в данных, которого помогает достичь DWH, позволяет повысить ценность компании на рынке.  

Согласно международным стандартам финансовой отчетности, базы данных — это нематериальный актив (intangible assets) компании, который повышает ее рыночную стоимость. 

По отчету BrandFinance стоимость нематериальных активов публичных компаний по итогам 2023 года составляет 61.9 трлн.$, и растет примерно на 8% в год, в то время как материальные активы остаются на том же уровне. Такая динамика роста говорит о том, что инвестиции в инфраструктуру управления данным выгодно влияют на капитализацию компании. 

Примеры стоимости нематериальных активов некоторых международных компаний  
Примеры стоимости нематериальных активов некоторых международных компаний  

В российской практике задача оценки стоимости данных как актива до сих пор не решена, но подходы уже обсуждаются и в ближайшем будущем будут внедрены. 

Что делать, чтобы не было «больно» на старте проекта DWH?

Многие компании осознают важность внедрения корпоративного хранилища данных, однако не все понимают, что при неграмотном, хаотичном и спешном подходе проект может привести к высоким затратам и усугублению проблем в работе с данными. 

Проблемы возникают как у компаний, которые только задумываются о внедрении хранилища, так и у тех, кто уже попробовал и внедрил проект самостоятельно. Рассмотрим каждую ситуацию детальнее: 

 

Еще не внедрили КХД  

В штате компании есть аналитики, которые вручную собирают данные из разных источников, но количество этих источников растёт, а качество ручного сбора падает. 

В таких ситуациях при внедрении корпоративного хранилища встают вопросы: 

  • С чего начать внедрение DWH? 

  • Кто должен быть в команде внедрения, как распределить роли в проекте? 

  • Как навести порядок во всех существующих источниках и интегрировать их с DWH? 

 

Уже внедрили КХД 

В компании внедрено хранилище, но оно реализовано наспех, не учтены растущие потребности бизнеса, необходимые задачи не решаются, затраты на поддержку КХД растут. 

Компания сталкивается с вопросами: 

  • Стоит ли перепроектировать DWH? 

  • Какую методологию выбрать? 

  • Как учесть все изменения в источниках данных, бизнес-процессах, стратегии компании? 

Компании могут годами строить корпоративное хранилище и тратить миллионы на систему, которая не может быть органически встроена в дальнейшую стратегию развития бизнеса. 

В одном из предыдущих материалов на Хабре рассказывали про опыт внедрения DWH, которой стал для компаний дорогим удовольствием и только усугубил проблемы с данными 

 

*** 

В первую очередь, и тем компаниям, которые уже предприняли неудачные попытки внедрения, и тем, кто находится только в начале проекта, стоит предпринять ряд похожих шагов. 

Определить уровень зрелости компании в управлении данными

Прежде чем приступать к непосредственной разработке хранилища, стоит оценить, на каком уровне зрелости управления данными (Data Management Maturity Assessment, DMMA) находится компания. 

Начальный уровень (Ad-hoc)  

Минимальный уровень (Повторяемый) 

Установленный уровень  

 

Управляемый уровень 

Оптимизированный уровень

- Отсутствие управления процессами  

- Результаты аналитики зависят от конкретных людей  

- Отчетность не автоматизирована и собирается вручную  

- Проблемы качества данных не решаются 

- Определены некоторые роли и процессы  

- Появляется управление процессами  

- Негативные последствия низкого качества данных осознаны  

- Начинается внедрение инструментов аналитики 

- Данные становятся ценным активом   

- Процессы стандартизированы  

- Качество данных более прогнозируемо  

- Внедряются гибкие и масштабируемые инструменты 

-Централизованное управление и руководство процессами  

- Для оценки процессов внедрены KPI  

- Внедрено управление рисками, связанными с данными  

- Измеримое повышение качества данных 

- Процессы легко спрогнозировать  

- Риски сведены к минимуму  

- Можно измерить степень достижения целей, зависящих от управления данными 

На российском рынке мало компаний, достигших управляемого и оптимизированного уровня, такого уровня зрелости достигает отдельный крупный бизнес и в отдельных подразделениях. 

Оценка поможет понять, какие у компании есть слабые и сильные стороны в работе с данными, и куда двигаться дальше. 

Понять, какую конечную задачу решает внедрение

 Даже компании, которые находятся на одном уровне зрелости, могут ставить перед собой разные задачи, иметь разное представление о том, что такое DWH и разную готовность к изменениям.  

Решать проблемы с данными каждой конкретной компании необходимо, тем способом, который будет наиболее выгоден с точки зрения вложений и дальнейшего развития, а технологии и методологии выбирать в соответствии с индивидуальными задачами. 

В компании сформировалось мнение о том, что, внедрив DWH, можно решить все сложности, связанные с бизнес-аналитикой. На старте проекта команда столкнулась с проблемой управления данными. 

При более глубоком аудите выяснилось, что главной трудностью, стоящей перед бизнесом, оказалось отсутствие порядка в данных (в информационных системах разных подразделений использовались несопоставимые нормативные базы, справочники и классификаторы), а ручная проверка данных и формирование отчетности занимали недели.  

Задачи были решены внедрением системы управления НСИ и BI-системы, которая автоматизировала аналитику и сократила затраты на ручной труд сотрудников по исправлению ошибок в мастер-данных. 

В данной ситуации внедрение DWH стало бы лишней тратой бюджетов и усугубило бы изначальные проблемы с НСИ. 


Для того, чтобы оценить поставленные задачи на возможность реализации, стоит: 

  • Определить, чего не хватает в текущем процессе управления данными 

  • Договориться и синхронизироваться с пониманием ценности данных и ожиданиями у участников процесса: команда внедрения, топ-менеджмент, бизнес-пользователи 

  • Понять, есть ли в компании необходимые ресурсы: бюджеты, команда, технологии 


Внедрение корпоративного хранилища данных - проект, который не терпит спешки.  

Крупная компания в сфере энергетики запланировала построение КХД на стадии перевнедрения ряда критически важных информационных систем и столкнулась с проблемами в процессах, связанных с качеством данных.  

По результатам аудита приоритеты по задачам изменились. Было принято ключевое решение начать с проекта по НСИ, с помощью которого решались проблемы с качеством данных.  

Таким образом, к реальному проекту по внедрению DWH подошли только спустя 5 лет, когда уже была выстроена методология работы с метаданными, а также автоматизированы справочники номенклатур по всем подразделениям и филиалам. Именно такой подход помог компании сэкономить не менее 10 млн на неудачные попытки построения DWH. 


При подготовке к проекту DWH может помочь внедрение BI-системы, которая будет использоваться как MVP (Minimum Viable Product) инструмент для выявления проблем с качеством данных и процессами. 

Внедрение даже одного тестового отчета и подготовка данных на уровне витрин поможет быстро и с минимальными затратами понять, что будет стоп-фактором перед более масштабным проектом внедрения хранилища. 

Спроектировать решение (стек, методология, roadmap)

На данном этапе в основу проекта ложатся поставленные ранее задачи и цели, критерии их успешности, учитываются имеющиеся политики компании относительно безопасности данных и импортозамещения, состояние и требования к инфраструктуре, подбирается команда для реализации проекта. 

На этапе проектирования необходимо выбрать стек технологий и подходящую методологию моделирования данных для хранилища. 

Как выбрать методологию проектирования, подходящую вашему бизнесу, мы рассказывали в прошлой статье на Хабре. 

Бывает ли DWH из коробки?

DWH можно строить на проприетарном или open source ПО, размещать в облаке или on-premise. 

При этом эффективнее использовать комбинацию из разных инструментов, так как идеального решения из “коробки” для построения хранилища не существует.  

Проприетарное ПО чаще всего требует развертывания дополнительных программных продуктов, например, при использовании таких решений как Arenadata необходимо развернуть оркестратор, и сам вендор рекомендует для этого open source инструмент Airflow. 

Максимальную отказоустойчивость и масштабируемость могут обеспечить облачные решения, однако, их применение зависит от политики безопасности в компании. 

Самым сложным для поддержки является вариант построения собственной инфраструктуры. Несмотря на финансовые выгоды, такой вариант требует регулярного обновления продуктов и привлечения обширного штата сотрудников (DataOps, SRE-инженеры). 

Какой стек выбирать?  

Наибольшее разнообразие продуктов для построения КХД предлагает open source ПО, при этом одна и та же задача на проекте может закрываться несколькими средствами. 

При разработке проекта корпоративного хранилища данных стоит использовать масштабируемые технологии и гибридные методологии, адаптируя лучшие практики под уникальные бизнес-задачи.  

Инструменты для построения хранилища данных подбираются индивидуально в зависимости от целей, требований и возможностей каждой компании. 

В статье мы делимся стеком, который используем в проектах внедрения корпоративных хранилищ данных. 

Чаще всего выбираем следующие инструменты: 

Для экстракции  

  • Airbyte - open source инструмент для репликации, интеграции данных между исходной системой и staging слоем хранилища. Предоставляет гибкость, удобный интерфейс и возможность создания Custom API выгрузок. 

  • Apache Kafka  -  open source система обмена сообщениями для обработки потоковых данных в реальном времени. Обеспечивает высокую пропускную способность на основе горизонтального масштабирования, отказоустойчивость и производительность. 

  • Debezium - платформа с открытым исходным кодом, набор коннекторов для CDC (Capture Data Change) - захвата и доставки изменений данных в источниках. 

 

Для процессинга  

  • Dagster - оркестратор ETL-процессов и конвейеров обработки данных с отрытым исходным кодом. Современный, простой в использовании, позволяет строить сложные data pipelines. 

  • DBT – open source фреймворк для трансформации данных и документирования процессов обработки данных на базе SQL-шаблонов, облегчает создание модели хранилища и автоматизирует преобразование данных.  

 

Для хранения 

  • PostgreSQL и Greenplum - СУБД, подходящие при работе с транзакционными данными 

  • СlickHouse - СУБД, хорошо зарекомендовавшая себя как витрина для построения отчетности и при необходимости быстрых вычислениях. Используем для хранения в случаях, когда нет требований к транзакционности, данные можно выгружать частями, и они легко перезаписываются. 

Для сопровождения 

  • MinIO  - высокопроизводительный open source сервер хранения объектов для организации объектного хранилища 

  • Docker – платформа разработки, доставки и запуска контейнерных приложений для организации процесса непрерывного развертывания CI/CD (Continuous Integration & Continuous Delivery) 

  • ELK Stack - набор инструментов, обеспечивающий сбор, хранение и обработку логов 

 

Метаданные 

Для сбора метаданных и отрисовки процессов в визуальном компоненте выбираем платформу Open Metadata, демонстрирующую максимальную гибкость и простоту использования среди прочих open source датакатологов и предоставляющую возможность быстро создать кастомные интеграции. 


Чтобы не было “больно” при построении или рефакторинге DWH, необходимо:

  • Определить себя с точки зрения ситуации сейчас + уровень зрелости (AS IS) 

  • Зафиксировать истинные задачи - действительно ли ваши проблемы решит хранилище, что необходимо исправить прежде, чем внедрять DWH 

  • Договориться о результатах (Defenition of Done) с заинтересованными лицами 

  • Спокойно спроектировать решение  

  • Дисциплинированно реализовывать его 

С чего стоит начать, в зависимости от уровня зрелости управления данными в компании: 

Если вы на Начальном уровне зрелости 

Если вы на Минимальном уровне зрелости 

Если вы на Установленном уровне зрелости 

Если вы на Управляемом или оптимизированном уровне зрелости 

- Аудит внутренних и внешних процессов компании, источников и типов данных 

- Управление НСИ для оптимизации работы с данными 

- Постановка задач 

- Составление дорожной карты проекта 

Внедрение DWH: 

- Cоздание концепции 

- Подбор методологии и стека 

- Построение архитектуры 

- Тестирование 

- Поддержка 

- Усиление команды проекта DWH 

- Аудит имеющегося хранилища 

- Рефакторинг отдельных модулей

для повышения производительности, устранения ошибок и расширения возможностей хранилища 

Применение новых практик управления данными 

Комментарии (0)