Рассмотрим три типа облачных хранилищ данных, их различия и области применения.



Озеро данных


Озеро данных (data lake) — это большой репозиторий необработанных исходных данных, как неструктурированных, так и частично структурированных. Данные собираются из различных источников и просто хранятся. Они не модифицируются под определенную цель и не преобразуются в какой-либо формат. Для анализа этих данных требуется длительная предварительная подготовка, очистка и форматирование для придания им однородности. Озера данных — отличные ресурсы для городских администраций и прочих организаций, которые хранят информацию, связанную с перебоями в работе инфраструктуры, дорожным движением, преступностью или демографией. Данные можно использовать в дальнейшем для внесения изменений в бюджет или пересмотра ресурсов, выделенных коммунальным или экстренным службам.

Хранилище данных


Хранилище данных (data warehouse) представляет собой данные, агрегированные из разных источников в единый центральный репозиторий, который унифицирует их по качеству и формату. Специалисты по работе с данными могут использовать данные из хранилища в таких сферах, как data mining, искусственный интеллект (ИИ), машинное обучение и, конечно, в бизнес-аналитике. Хранилища данных можно использовать в больших городах для сбора информации об электронных транзакциях, поступающей от различных департаментов, включая данные о штрафах за превышение скорости, уплате акцизов и т. д. Хранилища также могут использовать разработчики для сбора терабайтов данных, генерируемых автомобильными датчиками. Это поможет им принимать правильные решения при разработке технологий для автономного вождения.

Витрина данных


Витрина данных (data mart) — это хранилище данных, предназначенное для определенного круга пользователей в компании или ее подразделении. Витрина данных может использоваться отделом маркетинга производственной компании для определения целевой аудитории при разработке маркетинговых планов. Также производственный отдел может применять ее для анализа производительности и количества ошибок, чтобы создать условия для непрерывного совершенствования процессов. Наборы данных в витрине данных часто используются в режиме реального времени для аналитики и получения практических результатов.

Озеро, хранилище и витрина данных: ключевые различия


Все упомянутые репозитории используются для хранения данных, но между ними есть существенные различия. Например, хранилище и озеро данных — крупные репозитории, однако озеро обычно более рентабельно с точки зрения затрат на внедрение и обслуживание, поскольку в нем по большей части хранятся неструктурированные данные. 

За последние несколько лет архитектура озер данных эволюционировала, и теперь способна поддерживать бо?льшие объемы данных и облачные вычисления. Большие объемы данных поступают от разных источников в централизованный репозиторий. 

Хранилище данных можно организовать одним из трех способов:


  1. Как управляемый сервис, предлагаемый поставщиками облачных решений.
  2. Как программное решение с управлением внутри компании и соблюдением строгих протоколов безопасности, которые необходимы при следовании нормативным требованиям.
  3. Как устройство, которое обычно предлагается в форме готового решения, сочетающего в себе программное и аппаратное обеспечение.

Данные в хранилище легче использовать для различных целей, чем данные в озере. Это связано с тем, что данные в хранилище структурированы, их легче извлекать и анализировать.

Витрина данных содержит небольшой по сравнению с хранилищем и озером объем данных, которые разбиты на категории для применения конкретной группой людей или подразделением компании. Витрина данных может быть представлена в виде различных схем (звезды, снежинки или свода), которые определяются логической структурой данных. Формат свода данных (data vault) является самым гибким, универсальным и масштабируемым.

Существует три типа витрин данных:


  1. Зависимая витрина данных, которая состоит из частей корпоративного хранилища данных. В ней хранятся комплекты первичных данных хранилища.
  2. Независимая витрина данных, которая представляет собой отдельную систему, относящуюся к определенной части компании.
  3. Гибридная витрина данных, которая включает в себя данные из хранилища и независимых источников. Этот тип витрин обычно отличается более быстрым доступом к данным и удобным пользовательским интерфейсом.

Выбор типа и структуры репозитория данных во многом зависит от потребностей и нужд компании. Если для вас это актуально, воспользуйтесь преимуществами гибридного облачного хранилища, которое отличается универсальностью и возможностью масштабирования, а также более комплексного, взвешенного подхода к решению проблем и принятию решений.

IBM предлагает различные решения для облачного хранения и интеллектуального анализа данных.




Танмай Синха (Tanmay Sinha)

Директор программы, Db2 Portfolio




Ссылка на блог