Каталоги данных стали неотъемлемой частью современной архитектуры данных. Они играют ключевую роль в управлении метаданными, обеспечивая прозрачность, контроль и повышение эффективности работы с данными. В последние годы эта область активно развивается, и на российском рынке также появляются успешные истории внедрения. В этой статье мы рассмотрим текущее состояние open-source решений и уделим особое внимание применению больших языковых моделей в каталогах данных.
Я со своей стороны хочу разобраться в текущем состоянии этой части современного open-source стэка данных и внимательнее посмотреть на некоторые новые аспекты.
На одном из англоязычных ресурсов недавно вышла статья о ландшафте open-source дата инжиниринга в 2024 году. Передовыми решениями среди платформ метаданных там признаются Amundsen, Apache Atlas, Datahub, Marquez, ckan и Open Metadata. Много зарекомендовавших себя и полюбившихся продуктов представлено, но, очевидно, не все из них в 2024 году одинаково передовые.
Для того, чтобы понять как open-source решения выглядят на фоне проприетарных продуктов можно воспользоваться awesome-листом. В нем можно еще обнаружить такое решение как OpenDataDiscovery. Только эта платформа, наряду с Open Metadata, поддерживает 10 характеристик из 11 максимально возможных для каталога данных. Эти одиннадцать характеристик охватывают почти весь возможный функционал современных каталогов данных. Туда входят, например, возможность построения сквозной прослеживаемости данных(линейджа), возможность поиска по каталогу, учет сущностей, относящихся к ML, наблюдаемость (observability) и другие. Кроме основных характеристик в этом списке еще выделяют такие функции как возможность кастомизации UI, количество коннекторов, пуш и пулл-стратегии закачки метаданных, но эти функции считаются дополнительными, к оценке всех каталогов их не применяют.
Уровни продвинутости дата каталогов
Анализ представленного листа позволяет выделить четыре уровня продвинутости (по количеству поддерживаемых основных функций) для всех дата каталогов:
Уровень I. Наиболее продвинутые и с богатым функционалом: DataHub, OpenMetadata, OpenDataDiscovery, Select Star.
Как видим в топе находятся сразу 3 open-source решения и одно проприетарное - Select Star.
Уровень II. Широкие возможности, но не хватает отдельных функций: Amundsen, Atlan, Informatica, Monte Carlo, Grai.
Уровень III. Базовый функционал с меньшим набором продвинутых фичей: Atlas, Azure Data Catalog, CKAN, Collibra, DataGalaxy, Datafold, Marquez (OpenLineage), Stemma, Talend
Уровень IV. Ограниченный функционал: Alation
На мой взгляд такая классификация не полностью отражает заложенный в платформах потенциал, так как важно еще не формальное наличие поддержки какой-то функции, а еще и удобство и функциональность. Например, не количество коннекторов, а их качество, насколько быстро устраняются проблемы с ними и много других характеристик. Возможны также различия в отнесении той или иной системы к разным уровням из-за их совершенствования и получения новых возможностей. Но для целей анализа можно применить указанное выше деление.
Одной из особенностей листа, на котором основывается анализ, является то, что в нем нет многих продвинутых систем дата каталогов, которые разрабатываются в нашей стране компаниями Аренадата, Т-банк (новое название Тинькофф) и другими. Не говорится также и о весьма продвинутом решении от компании Сибур диджитал.
Использование генеративного ИИ (Gen AI) в каталогах данных
Следующей темой, которую я бы хотел осветить в данном обзоре, является использование больших языковых моделях в каталогах данных. Некоторые проекты уже начали заявлять о готовности внедрять их в свой функционал (LLM-ready) или даже о состоявшемся внедрении. Но в целом пока нужно признать, что LLM-моделям мгновенно не удалось стать стандартной фичей в дата каталогах. На эту тему к данному времени уже есть научные статьи (1, 2), отражающие многие вызовы, пока не позволяющие безболезненно задействовать LLM в существующих решениях.
Во-первых, LLM часто с трудом понимают специфические для организации теги и таксономии. Во-вторых, они часто не могут сгенерировать подходящие описания, если несколько активов имеют одно и то же имя. В третьих, не имея доступа к полному сценарию использования данных, LLM не может достичь нормального понимания организационной семантики и, как следствие, генерировать релевантные описания.
Для преодоления этих препятствий скорее всего понадобится некий фундаментальный сдвиг, когда у LLM должен будет появиться более широкий доступ к данным, нежели классический набор метаданных из названий таблиц, полей, их описаний и тегов. Возможен ли такой сдвиг мы узнаем лишь со временем.
Тем не менее, чат-боты с на базе Gen AI, автоматизированные описания и генерация диаграмм в каком-то виде уже начинают появляться в каталогах данных.
Возможные новые функции LLM в каталогах данных
Несмотря на вызовы, большие языковые модели открывают новые возможности для автоматизации и улучшения работы с метаданными:
Автоматическое описание данных: LLM могут генерировать описания и аннотации для столбцов и таблиц, облегчая пользователям понимание структуры и содержания данных.
Идентификация связей: Модели могут обнаруживать и описывать связи между разрозненными наборами данных.
Классификация и категоризация данных: LLM могут автоматически классифицировать и категоризировать данные, улучшая навигацию и поиск в каталогах данных.
Интерактивные помощники (чат-боты): LLM могут служить в качестве интерактивных помощников, отвечая на вопросы пользователей, помогая находить нужные данные и предоставляя рекомендации.
Семантический поиск: Использование LLM позволит осуществлять семантический поиск, находя данные не только по ключевым словам, но и по их значению и контексту.
Примеры успешных внедрений в России
Далее хотелось бы коснуться успешных примеров внедрения передовых решений для управления метаданными на российском рынке
На Хабре за последние годы появилось несколько интересных публикаций на тему каталогов данных. Мне понравились статьи:
-про Open Metadata из блога МКБ
-про Datahub из блога СберМаркета
-про Apache Atlas
-про своё решение от Тинькофф
-про lineage моделей машинного обучения от Билайн.
Как видим, тема дата каталогов в середине 2024 года жива и даже уже имеет набор историй успеха в нашей стране.
Заключение
Платформы DataHub, OpenMetadata и OpenDataDiscovery, находятся на передовой прогресса, предлагая богатый функционал и наиболее продвинутые решения среди open-source систем.
Применение больших языковых моделей открывает новые возможности для автоматизации и улучшения работы с метаданными, делая каталоги данных более доступными и функциональными. Но о широком и более-менее полезном внедрении их в функционал пока говорить рано.
На российском рынке также появляются успешные примеры внедрения дата-каталогов, что подтверждает актуальность и перспективность данного направления.
Важно продолжать следить за развитием этой области и учитывать новые возможности, которые открывают LLM для улучшения работы с данными.