Для анализа и управления данными сегодня недостаточно просто внедрить и настроить ПО. Важно использовать системный подход, который объединит ETL, BI, ML и Data Governance в одну управляемую платформу.  

Основой такой платформы или инфраструктуры данных становится гибкое, масштабируемое, ориентированное на бизнес-задачи корпоративное хранилище данных DWH.  

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz. Разбираемся, почему модель a16z становится новым стандартом для компаний, внедряющих корпоративное хранилище данных.

Что такое модель a16z или Unified Data Infrastructure 2.0

В 2020 году эксперты венчурной компании Andreessen Horowitz (a16z) провели исследования среди передовых data-driven компаний и выделили ключевые тренды, определившие новую архитектуру данных: 

  1. Инструменты аналитики мигрируют в облако, что обеспечивает высокую гибкость, масштабируемость и простоту эксплуатации

  2. Требуются более производительные и надежные хранилища, объединяющие возможности Data Lake и СУБД (например, поддерживающие ACID-транзакции и интерактивные SQL-запросы) 

  3. ETL- процессы (извлечение-обработка-загрузка) заменяются более гибкими ELT-пайплайнами (извлечение-загрузка-обработка)

  4. Стандартные инструменты оркестрации задач уступают место концепции Dataflow Automation, в которой данные становятся центральным объектом, а их перемещение и обработка между системами происходят автоматически в рамках единого потока, без необходимости дублировать логику в коде оркестратора 

  5. Бизнес-аналитика, разработка отчетности и создание дашбордов становятся доступными для пользователей без технического бэкграунда (self-service BI) 

  6. Повышаются требования к соблюдению политики безопасности и конфиденциальности, поэтому процессы распределения прав доступа централизуются на data-платформе 

Кроме того, в последние годы увеличивается число разнообразных источников данных для аналитики (SaaS, API, внешние источники), сливаются в единую data-платформу аналитическая, ИИ и ML-инфраструктуры, растет популярность dbt и принципов DataOps – версионирование, CI/CD, тестирование данных и других. 

Все эти наблюдения приводят Andreessen Horowitz к созданию подхода единой инфраструктуры данных Unified Data Infrastructure (UDI, модель a16z).

В UDI все ключевые процессы работы с данными (сбор, хранение, трансформация, анализ, визуализация, ML) строятся на единой платформе, а отдельные технологии подбираются в зависимости от уникальных задач каждой конкретной компании. 

На текущий момент актуальна версия Unified Data Infrastructure 2.0, цель которой - устранить разрозненность в ИТ-инфраструктуре и повысить управляемость данных на всех этапах жизненного цикла. 

Unified Data Infrastructure 2.0
Unified Data Infrastructure 2.0

Как устроена архитектура Unified Data Infrastructure 2.0

  •  Sources – слой источников данных 

Данные поступают в хранилище из разных источников — CRM, ERP, веб-сервисов, сенсоров, Excel-файлов, БД и других. 

  •  Ingestion and Transport – передача и наполнение 

Слой обеспечивает доставку данных из источников в хранилище данных. На нем осуществляется репликация данных, real-time сценарии загрузки, оркестрация дата-пайплайнов и Reverse ETL - процесс обратного перемещения преобразованных данных в операционные инструменты и бизнес-приложения. 

  • Storage – слой хранения данных 

Непосредственно Data Warehouse (DWH) и (или) Data Lake, Data Lakehouse хранилища данных. Storage oбъединяет структурированные данные в единую версию правды для последующей аналитики, Data Science или ML. 

  • Query and Processing – запросы и вычисления / обработка по запросу 

Слой, в котором осуществляются аналитические запросы, ad-hoc обработка, выполнение SQL/ML-запросов в моменте 

  • Transformation - трансформация данных 

Слои, в которых осуществляются операции изменения структуры и содержания данных: очистка, нормализация, агрегация, объединение 

  • Analysis & Output Layer – потребители данных 

Инструменты для предоставления данных в удобной, понятной для пользователя форме BI-дашбордов, отчетов, визуализаций. Доставка ML-инсайтов в продуктовые или операционные системы. 

  • Уровень поддержки, управления и контроля - Data Governance, Data Discovery, Data Observability, Entitlements & Security  

Интегрируется со всеми уровнями архитектуры — от хранения до аналитики, и обеспечивает: 

  • Соответствие политике безопасности 

  • Соблюдение регуляторных требований (GDPR, Закон о персональных данных) 

  • Мониторинг, алертинг, формирование data lineage 

  • Контроль качества данных и доступов 

Преимущества подхода к построению DWH, ориентированного на a16z

Unified Data Infrastructure (2.0) — это устойчивая, гибкая и масштабируемая инфраструктура, охватывающая все аспекты работы с данными от BI до ML.  

В своих проектах мы используем архитектурный подход к построению DWH, ориентированный на UDI 2.0., который подразумевает отказ от сложносоставных, изолированных решений в пользу единой, сквозной платформы данных. 

Пример концепции DWH на базе UDI 2.0.
Пример концепции DWH на базе UDI 2.0.
Пример концепции DWH на базе UDI 2.0.
Пример концепции DWH на базе UDI 2.0.
Пример концепции DWH на базе UDI 2.0.
Пример концепции DWH на базе UDI 2.0.
  • Связность слоев и прозрачные потоки данных 

Проектируем пайплайны так, чтобы движение данных от источника до потребителя было прозрачно и управляемо. Такой подход повышает доверие к аналитике и снижает количество инцидентов. 

Для обеспечения прозрачности в общую архитектуру встроены инструменты оркестрации (Airflow, Dagster), мониторинга (Prometheus, Grafana), логирования (ELK Stack), lineage и другие. 

  • DataOps и версионирование 

A16z-подход предполагает управление данными как кодом для повышения стабильности системы. 

Мы применяем практики CI/CD для DWH: пайплайны разворачиваются через Git, тестируются, проходят код-ревью, а изменения в моделях данных версионируются так же, как в приложениях.

  • Унификация витрин и BI 

Все витрины данных (Data Marts) строятся по единому шаблону, что исключает дублирование расчетов и расхождения в метриках. 

При этом BI-инструменты (Qlik, FineBI, PIX BI) интегрируются напрямую со слоями хранилища, а не с промежуточными выгрузками, поэтому данные обновляются централизованно.

Подход к проектированию DWH на основе модели a16z обеспечивает

  • Производительность хранилища

    Сокращает дублирование данных, упрощает избыточную логику и пайплайны 

  • Быструю адаптация под меняющиеся бизнес-сценарии 

    Каждый компонент можно заменить или настроить 

  • Единый контроль доступа

    И соответствие требованиям (compliance) 

  • Масштабируемость

    Позволяет развивать отдельные компоненты, не ломая общую архитектуру 

  • Сокращение стоимости владения DWH 

    За счет объединения компонентов в платформу с единым управлением и поддержкой 

Внедрение DWH по a16z может быть особенно полезно в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.  

Даже если технологический стек у компаний различается, наличие стратегического видения того, как компоненты должны взаимодействовать, становится важным фактором в управлении на основе данных. Unified Data Infrastructure помогает структурировать технологический «зоопарк», который почти неизбежно возникает, когда организация начинает активно двигаться в сторону data-driven культуры. 

Благодаря подходу сокращается путь от сбора данных до действия, появляются реальные сценарии автоматизации и аналитики, а инфраструктура остается устойчивой и масштабируемой. 

Комментарии (0)