Речь идет про отрасль хранения данных (DW, Data Warehousing) и анализа данных (BI, Business Intelligence). И вот две доминирующие альтернативы архитектуре данных Кимбалла: 

  1. Независимая архитектура Data Mart («Витрина данных»)

Начнем с подхода, который на практике лучше не использовать. Итак, при таком подходе аналитические данные развертываются на уровне отделов, не заботясь о совместном использовании и интеграции информации в масштабах всего предприятия, как показано на изображении:

Как правило, каждый отдел определяет требования к данным из операционной системы источника. Отдел работает с ИТ-специалистами или внешними консультантами над созданием базы данных, которая отвечает его потребностям, отражает его бизнес-правила и предпочтительную маркировку. Работая изолированно, эта витрина данных отвечает аналитическим требованиям отдела. 

Между тем другой отдел заинтересован в том же источнике данных, а многие отделы стремятся к одинаковым показателям производительности. Но поскольку один отдел не имеет доступа к витрине данных, изначально созданной другим отделом, он самостоятельно идет по аналогичному пути, получая результат, который содержит аналогичные, но немного отличающиеся данные. Когда бизнес-клиенты из этих двух отделов обсуждают эффективность организации на основе отчетов из своих соответствующих репозиториев, неудивительно, что ни один из результатов не совпадает. 

Эти автономные аналитические хранилища представляют собой архитектуру DW/BI, которая, по сути, не консолидирована, не спроектирована в одно целое. И хотя ни один из лидеров отрасли в теории не поддерживает такие независимые витрины данных, этот подход на практике широко распространен, особенно в крупных организациях. Это путь наименьшего сопротивления для быстрого развития при относительно низких затратах, по крайней мере в краткосрочной перспективе. Разумеется, многочисленные несогласованные извлечения данных из одних и тех же операционных источников и избыточное хранение аналитических данных в долгосрочной перспективе неэффективны и расточительны. 

  1. Веерная архитектура корпоративной информационной фабрики Инмона

Схема ниже иллюстрирует упрощенную версию подхода веерной информационной корпоративной фабрики (CIF — Corporate Information Factory):

С помощью CIF данные извлекаются из исходных операционных систем и обрабатываются через систему ETL, иногда называемую сбором данных. Атомарные данные, полученные в результате этой обработки, попадают в базу данных в третьей нормальной форме (3NF). Этот нормализованный атомарный репозиторий в архитектуре CIF называется корпоративным хранилищем данных (Enterprise Data Warehouse, EDW). Хотя архитектура Кимбалла предполагает необязательную нормализацию для поддержки обработки ETL, нормализованное хранилище EDW — обязательная конструкция в CIF. Как и подход Кимбалла, CIF поддерживает координацию и интеграцию корпоративных данных. 

Организации, которые приняли подход CIF, часто предоставляют для бизнес-клиентов доступ непосредственно к хранилищу EDW, так как оно содержит актуальные данные высокого уровня детализации. Однако последующие процессы доставки данных ETL также заполняют нижестоящие среды отчетности и аналитики для поддержки бизнес-клиентов. Хотя они часто имеют размерную структуру, результирующие аналитические базы данных обычно отличаются от структур в области представления архитектуры Кимбалла тем, что они часто ориентированы на департаменты, а не организованы вокруг бизнес-процессов, и заполнены агрегированными данными вместо атомарных деталей. Если процессы ETL доставки данных применяют бизнес-правила, выходящие за рамки базового суммирования, такие как переименование столбцов в подразделениях или альтернативные вычисления, может быть сложно связать эти аналитические базы данных с атомарным хранилищем EDW.

Существует также гибридная веерная и кимбалловская архитектура, которая заполняет CIF-ориентированное EDW-хранилище, куда полностью закрыт доступ бизнес-клиентам для анализа и составления отчетов. Это всего лишь источник для заполнения области представления в кимбалловском стиле, данные здесь размерные, атомарные (дополнены агрегатами), ориентированы на процессы и соответствуют архитектуре шины хранилища данных предприятия. 

Если вы уже вложили средства в создание 3NF EDW-хранилища, но оно

не оправдывает ожиданий пользователей в отношении быстрой и гибкой отчетности и анализа, этот гибридный подход может подойти для вашей организации. Если вы начинаете с чистого листа, то на гибридный подход, вероятно, будет потрачено больше времени и денег как во время разработки, так и в процессе эксплуатации. 

Эта информация  взята из дополненного издания известной работы «Инструментарий хранилища данных» Ральфа Кимбалла (того самого) и Марджи Росс. Новое издание получило название «Инструментарий хранения и анализа данных. Полное руководство по размерному моделированию». Книга предназначена для разработчиков в сфере хранилищ и анализа данных, инженеров и менеджеров. Полезной ее найдут и аналитики данных, и люди, активно взаимодействующие с DW/BI. Перед нами действительно значимая книга по этой тематике, положительно оцененная специалистами и имеющая высокий рейтинг на Amazon. Новое издание актуализировано с учетом новых веяний в DW/BI и представляет собой разбор размерного моделирования на практических примерах. Книга состоит из множества глав, где помимо чистой теории есть и объяснение моделей на кейсах из реальных сфер занятости: из здравоохранения, образования, бухгалтерского учета и многих других. Каждая отдельная глава рассматривает один такой пример и адаптированную под него архитектуру хранения и аналитики данных.

Комментарии (1)


  1. lazutkinAN
    21.06.2024 17:09

    Поиск решения в архитектуре - это всегда компромисс. Очень точно подмечены важные различия подходов, про которые многие не знают (или упрощают)