Метаданные или метаинформация – это данные, которые предоставляют информацию о других данных.
Например, текст книги – это сами данные, а главы книги – это уже метаданные. Эту информацию также можно обрабатывать, например, посчитать количество глав в книге.
Для понимания метаданных также можно представить опцию «свойства» для файла на компьютере. Например, метаданные файла с изображением описывают размер изображения или вес файла, алгоритм сжатия и т. д.
В области BI чаще всего работают с метаданными баз данных и BI-платформ. Однако нередко встречаются и метаданные сервисов обработки данных (например, Airflow), ML-моделей, а также других сервисов управления метаданными.
Метаданные баз данных включают такие элементы, как схемы, таблицы, view, колонки и связи между ними. В свою очередь, метаданные BI-систем охватывают сущности моделей данных (таблицы, колонки, связи), дашборды (используемые визуализации) и отдельные визуализации (тип визуала, задействованные поля и меры).
Чем полезны инструменты работы с метаданными?
Основной смысл обработки метаданных заключается в повышении доверия пользователей к данным. Сервисы работы с метаданными помогают увидеть, что данные в системе полные, верные и актуальные.
Инструменты работы с метаданными:
Предоставляют функционал каталога данных и сопутствующих ему возможностей, таких как поиск метаданных, их описания и происхождения;
Реализуют функции управления качеством данных, таких как мониторинг обновления данных и настройка тестирования данных;
Создают единую среду для обсуждения полноты и качества данных.
Рассмотрим подробнее возможности инструмента OpenMetadata
Получение метаданных
OpenMetadata предоставляет большой спектр реализованных коннекторов к хранилищам данных, сервисам дашбордов, брокерам сообщений, инструментам управления машинным обучением.
Так как большинство сведений о данных содержат хранилища данных, то у OpenMetadata большое разнообразие коннекторов к хранилищам разнообразной архитектуры.
Разметка данных
Описания
По умолчанию из БД OpenMetadata можно получить наименование сущности, её тип и описание. Если описание не указано в источнике, то его можно заполнить через интерфейс.
Однако, нужно помнить, что OpenMetadata только собирает метаданные из источников, но ничего не делает в обратном направлении. OMD нельзя использовать как инструмент проектирования и создать сущность в источнике из интерфейса, также нельзя и изменить сущность в источнике через OMD.
Поэтому описание, заполненное через интерфейс, не повлияет на описание в источнике. Рекомендуется использовать функцию «Запросить описание» и по запросу редактировать описание на стороне источника данных.
Для ETL-процедур и view возможно также получение SQL-кода. Для продвинутых пользователей по работе с данными, обладающими навыками SQL, это очень удобно так как не приходится специально запускать клиент СУБД, чтобы посмотреть как собирается таблица или представление.
Тегирование
Помимо описания в интерфейсе OMD возможно введение терминов глоссария и тегов, которые расширяют метаданные источника.
Тег призван классифицировать ресурс данных. Он не определяет семантику или значение данных, но помогает определить класс данных. Например, определенные данные могут быть конфиденциальными. Классификация используется для обеспечения соблюдения правил и помогает в защите данных.
Теги могут быть объединены в классификацию. Например, можно объединить теги, связанные с политикой управления доступами к данным.
Если пользователю необходимо ознакомиться со всеми чувствительными к распространению данными, то из классификатора можно перейти в просмотр всех сущностей, размеченных этим тегом.
Глоссарий
Глоссарий — это узкоспециализированный словарь для описания концепций и терминологии организации, который способствуют общему и согласованному пониманию данных.
В отличие от тегов, термины глоссария через их описание определяют значения данных, относящиеся к определенной предметной области. В OpenMetadata возможно вести несколько глоссариев, содержащие одинаковые по названию понятия, означающие разное в своих предметных областях.
Кроме этого, внутри самого глоссария поддерживается иерархическая структура терминов. Сами термины могут иметь синонимы из других терминов глоссария или ссылаться на связанные с ними понятия.
Таким образом, OpenMetadata предоставляет много степеней свободы в использовании инструмента глоссария, поэтому нужно тщательно подходить к его проектированию. Четко определенный и централизованный глоссарий упрощает знакомство с организационной терминологией, а также помогает в использовании правильных источников информации для аналитики. Через понятие глоссария можно легко найти все данные, связанные с ним.
Владельцы метаданных
Назначение владельцев крайне важно для пользователей, взаимодействующих с метаданными, как конечный источник информации, к которому можно обратиться при любых вопросах к метаданным ресурса.
В системе есть возможно назначать владельцев данных, которыми могут выступать как команда, так и несколько отдельных пользователей. Владельцы будут иметь доступ к выполнению всех операций с метаданными этого ресурса, редактировать описание, теги, термины глоссария и т. д. Рекомендуется командное владение ресурсами данных, так как отдельные пользователи имеют только часть представления о рассматриваемом ресурсе данных.
OpenMetadata поддерживает иерархическую структуру прав, владелец базы данных автоматически распространяется на владение схемами базы данных и таблицами в ней.
Поиск метаданных в каталоге
Основное предназначение сервисов работы с метаданными – создание каталога описания данных, единого и единственного источника информации о данных.
Для эффективного обращения с каталогом OpenMetadata предоставляет удобный интерфейс обнаружения данных на основе Elasticsearch.
В OpenMetadata можно искать данные с помощью различных стратегий, выполняя, например, ключевой поиск по всем доступным в инструменте метаданным или по их наименованиям и описаниям.
Также можно составить поисковой запрос с логическими операторами и строгими критериями свойств метаданных.
Наконец, можно использовать ассоциативный поиск. Например, можно использовать переход к метаданным из глоссария.
Происхождение данных
В OpenMetadata реализован инструмент Data lineage, который описывает движение данных от источника до места применения через точки обработки данных. Метаданные такого характера наглядно позволяют отследить ошибки преобразования данных. Пользователи могут визуализировать, где используются данные, как и с помощью чего они преобразуются.
По умолчанию в OMD создаются связи между представлениями (view) и таблицами, на которых они построены. Остальные связи нужно внести через интерфейс, один раз созданная связь будет наследоваться на другие визуализации. Если загружены метаданные ETL-процедур, то на их основе можно также построить связь. Кроме того, можно добавить любую связь и в ее описании самостоятельно добавить SQL код.
Data lineage – удобный инструмент, который упрощает пользователям поиск зависимостей в данных и помогает уменьшить количество ошибок, связанных с качеством данных.
Качество данных
Одним из критериев доверия данным является возможность проверки их качества и актуальности.
Профилирование
Для первоначальной оценки полноты и корректности данных в OMD реализован инструмент профилирования.
Профилирование данных — это первый шаг в подготовке к использованию данных, направленный на понимание основных характеристик.
Профилировщик данных помогает собирать статистику использования таблиц за определенный период времени, такую как вставка данных в таблицу, их обновление и удаление.
Также инструмент позволяет проверить наличие нулевых и пустых значений в столбцах, дубликаты в уникальных столбцах, выявить аномалии данных, получить представление о распределении количества данных по столбцам.
Вся эта информация также является метаданными, но направленной не на полноту их описания, а на их техническое качество.
Тестирование
Более подробной обработкой, нацеленной на увеличение качества данных, можно назвать проверку данных по тестам.
OpenMetadata поддерживает тесты для таблиц и столбцов для всех реализованных коннекторов к хранилищам данных. Можно настроить бизнес-ориентированные тесты или тесты, относящиеся к технической стороне данных.
В OMD есть настройка no-code тестов, позволяющая выбирать через интерфейс предопределенные варианты проверки и указывать параметры теста. Существующие no-code тесты охватывают большую область проверки качества данных, но для более сложной проверки может понадобиться написание пользовательских тестов. В OMD предусмотрена возможность добавлять собственные тестовые сценарии через OMD API и Python SDK, но это требует соответствующих технических компетенций.
Тестовые сценарии возможно организовывать в наборы тестов, с помощью которых источник данных будет проверяться по множеству критериев.
Менеджер инцидентов
Для централизованного управления и контроля над тестами в OMD реализован менеджер инцидентов. С его помощью работа над проблемами качества данных становится более рациональной и эффективной.
Инструмент позволяет полностью настроить процесс устранения сбоев в качестве данных, от уведомления об инциденте до создания задачи с ответственным за разбор случая и регистрацией причин сбоя для информирования пользователей.
В OMD возможно настроить как внутреннее оповещение через систему уведомлений, так и отправку сообщений о сбое в качестве данных во вне, например, на электронную почту.
После регистрации инцидента и уведомления команды или пользователя, OMD позволяет взять инцидент в работу и назначить ответственного за выполнение из команды, отвечающей за данный ресурс.
Регистрировать причины сбоя и оставлять комментарии по его устранению крайне важно, так как исторические записи о прошлых инцидентах служат руководством для устранения неполадок и приводят к более эффективному решению будущих инцидентов. Поддержка высоких стандартов качества данных упрощается, когда команде и пользователям легко доступен весь контекст ранее полученных ошибок.
Общение внутри OMD
OpenMetadata — это платформа для совместной работы с данными.
Только что мы затронули важную тему общения команды и пользователей при решении инцидентов качества данных.
Кроме этого, OMD создает полноценную среду для обсуждения всех аспектов работы с метаданными для того, чтобы не было необходимости переносить их на внешние системы и терять важную информацию.
Оповещения
В OpenMetadata реализована система оповещений. Владельцы ресурсов данных получают все обновления по умолчанию. Также реализована возможность подписки пользователей на обновления по любому ресурсу независимо от их владельцев.
При работе с метаданными пользователи могут запросить у владельцев заполнить информацию в описании или тегах, что создаст соответствующую задачу и отразится в уведомлении владельцев данных.
С другой стороны, владельцы могут создавать объявления для информирования о предстоящих изменениях в ресурсе данных, которые отражаются на странице сведений об объекте данных в виде баннера. Также все пользователи, которые подписаны на ресурс, получат уведомление об этом объявлении.
Обсуждения
Чтобы поспособствовать сотрудничеству между пользователями и владельцами данных и улучшить понимание данных, в OpenMetadata реализован функционал бесед, позволяющий обсуждать детали метаданных прямо внутри платформы.
OMD дает возможность отвечать на сообщения в беседе и создавать целые цепочки обсуждений по любым действиям в любом ресурсе данных. Пользователи могут начать обсуждение любого описания, тега, объявления, термина глоссария, инцидента и т. д.
Итоги
OpenMetadata — это мощный инструмент, который позволяет эффективно управлять данными в организации. Он объединяет в себе интерактивную документацию данных, мониторинг качества данных и централизованную коммуникацию по вопросам данных.
Максимальную пользу от использования OMD можно достичь, если обратить внимание на следующие аспекты:
Формирование живого сообщества пользователей данных для обмена знаниями и опытом;
Внимательное проектирование терминов и тегов для обеспечения структурности и согласованности метаданных;
Закрепление ответственных за областями данных для повышения ответственности и доступности;
Настройка системы оповещений для своевременного реагирования на проблемы с данными.
С таким подходом OpenMetadata становится не просто инструментом, а основой культуры данных в организации.
Матренина Елизавета, бизнес-аналитик компании Conteq.
lazy_val
Метаданные и основные данные (master data) - это одно и то же, или нет?
Мы тут про обычный MDM говорим? Или о чем-то другом?
Пример:
В одном
печальноизвестном банке (по крайней мере некоторое время назад) один и тот же клиент (физическое или юридическое лицо) мог числиться по разному в зоопарке территориальных и функциональных ИТ-систем (клиентских, кредитных, маркетинговых) как Иванов Иван Иванович, Иван Иванович Иванов, Иванов Иван, Иван Иванов, Ванька, и т.д. Описываемый в статье инструмент позволяет как-то понять, речь идет об одном и том же клиенте, или о разных?