Data Mesh, Data Fabric, Lakehouse: разбираем модные термины / forpes.ru

Главная
Data Mesh, Data Fabric, Lakehouse: разбираем модные термины

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины +1

28.02.2026 21:33

TanyaVSdannye 7 9200 Источник

Если вы работаете с данными, то за последние пару лет точно слышали эти слова: Data Mesh, Data Fabric, Data Lakehouse. Их можно увидеть в заголовках конференций, вендорскиех презентациях и вакансиях для дата-архитекторов, но если копнуть глубже, начинается путаница.

Почему вообще возникает путаница?
Еще лет 10 назад все было просто, был Data Warehouse (хранилище данных) как единый источник правды для отчетов и BI, был Data Lake (озеро данных) – место хранения для любых данных в сыром виде, чтобы была возможность экспериментировать с данными.

Но потом случилось три вещи:

Данных стало слишком много и они стали слишком разными (теперь не только таблички, но и логи, картинки, сенсорные потоки).
Бизнес перестал ждать, сейчас отчеты за прошлый месяц уже никому не нужны, все данные нужно смотреть здесь и сейчас, процессы стали гораздо быстрее меняться, за всем нужно следить.
Облака породили зоопарк инструментов, теперь данные живут в AWS, Azure, on-premise, в SaaS-сервисах – и все это надо как-то соединять.

Data Lakehouse

Долгое время у компаний была «двухголовая» архитектура: данные копировались в Data Lake для гибкости и отдельно в Data Warehouse для производительности, но это приводило к дублированию данных, рассогласованности и лишним расходам на ETL-процессы - то есть при росте количества данных возникали проблемы.

Что предлагает Lakehouse?

Lakehouse – это попытка объединить лучшее из двух миров: хранилище как в Data Lake и возможности как в Data Warehouse.
Берем хранилище как в Data Lake: дешевое объектное хранилище (S3, ADLS), открытые форматы (Parquet, ORC).
Берем возможности как в Data Warehouse: ACID-транзакции, управление схемой, оптимизация запросов.

Технически это реализуется через специальные слои поверх озер – транзакционные форматывроде Delta Lake, Apache Iceberg или Apache Hudi.

Кому это нужно?

Компаниям, которые устали таскать данные туда-сюда, тех, кому нужно на одних и тех же данных крутить и BI-отчеты и ML-модели, а также проектам, где важна единая версия правды и без дублирования.

В чем проблема?

Lakehouse не решает проблемы интеграции данных из разных источников и не меняет организационную структуру.
Инструменты вокруг Iceberg/Delta зреют, но местами «сыроваты».
Ваши инженеры не обязаны уметь делать что-то в Spark и открытые форматы.

Так, Lakehouse – это про технологическую конвергенцию, это все же эволюция, а не революция.

Data Fabric

Ваши данные живут везде: в облаках, в старых on-premise системах, в CRM, в ERP, в Excel-файлах у кладовщика и чтобы получить целостную картину, приходится строить сложные пайплайны, копировать данные туда-сюда и только после этого мучительно сводить метрики.

Что предлагает Data Fabric?

Data Fabric – это интеллектуальный интеграционный слой поверх всех ваших источников:

Ему не нужно двигать данные, fabric работает через виртуализацию, запрос идет к данным там, где они лежат.
Он управляется метаданными, система сама знает, где какая таблица лежит, кто к чему имеет доступ, как связаны сущности внутри нее.
Он использует AI, активные метаданные помогают автоматически находить связи и оптимизировать запросы внутри системы.

Кому это нужно?

Крупным компаниям с гибридной или multi-cloud инфраструктурой, тем, кто не может перенести все данные в одно место (регуляторика, legacy). Также полезно будет тем сценариям, где нужны реалтайм-данные из разных источников сводить без копирования и дубликации.

В чем проблема?

если есть бардак с каталогом и качеством данных, Fabric этот бардак только усугубит.
виртуализация медленнее физического копирования, для тяжелых аналитических запросов могут потребоваться кэши или материализованные представления.
построить по-настоящему умный Fabric не просто, не быстро и не дешево.

Так, Data Fabric – это про интеграцию и унификацию доступа, когда нельзя (или слишком дорого) все свозить в одну кучу.

Data Mesh: когда централизация ломается об организацию

Классическая архитектура подразумевает центральную команду данных, которая обслуживает весь бизнес, но пока ваша компания маленькая – это работает, а когда бизнес-юнитов становится уже очень много, центральная команда становится бутылочным горлышком:
- Чтобы получить новую витрину, нужно вставать в очередь к дата-инженерам;
- Команда данных не знает и не может знать бизнес-контекст так же хорошо, как сами участники этого процесса.

Что предлагает Data Mesh?

Data Mesh – это в первую очередь организационная, а не техническая парадигма и она включает в себя:

Владение данными по доменам, чтобы каждый бизнес-домен (маркетинг, продажи, производство) сам отвечал за свои данные.
У каждого датасета есть владелец, документация, SLA, к ним относятся как к продукту для внутренних потребителей.
Центральная платформенная команда дает доменам инструкции и поддержку чтобы они могли сами готовить свои данные.
Единые стандарты (безопасность, метаданные) согласуются централизованно, но применяются гибко юнитами внутри.

Кому это нужно?

Это нужно крупным корпорациям (1000+ сотрудников) с автономными бизнес-юнитами или компаниям поменьше, но, где центральная команда данных уже не справляется с потоком запросов.

В чем проблема?

Это ОЧЕНЬ сложно, Data Mesh требует зрелой культуры данных и сильных доменных команд.
Перестройка на такой формат может занять 6–18 месяцев и более, это очень долгий и трудоемкий процесс.
Есть риск хаоса при переходе, так как изменения глобальные.
Не продается "из коробки", нет возможности просто взять и купить Data Mesh, это подход, а не технология и для него нужна сильная команда специалистов внутри компании.

Data Mesh – это про масштабирование организации данных, а не про замену технологий, это ответ на вопрос как нам выжить, когда нас станет слишком много.

Сводная таблица со сравнением

Как не запутаться и выбрать свое

Исходите из своих проблем и болей:
- Данные дублируются, дорого хранить, тяжело считать -> cмотрите в сторону Lakehouse.
- Данные размазаны по 100500 системам, и вы не можете сделать сводный отчет -> мотрите в сторону Data Fabric.
- Центральная команда данных задыхается от запросов, бизнес недоволен скоростью -> Смотрите в сторону Data Mesh.
Поймите, что они не исключают друг друга. Можно построить Lakehouse как базовое хранилище, сверху накинуть Data Fabric, чтобы отдавать данные из этого Lakehouse и других систем, а по мере роста внедрять Data Mesh-принципы, где домены сами становятся поставщиками данных через ту самую Fabric-платформу .

Резюме для тех, кто дочитал

Мир данных окончательно усложнился и в 2026 году уже недостаточно знать только SQL и уметь собирать дашборды, уже нужно понимать архитектурные парадигмы. Запомните главное:
Lakehouse – это про то, где и как хранить.
Fabric – про то, как связать то, что уже есть.
Mesh – про то, кто за что отвечает.

Ни одна из этих концепций не является серебряной пулей, они лишь инструменты в арсенале архитектора данных, и уже ваша задача здесь не гнаться за хайпом и модными концепциями, а выбрать тот набор инструментов, который подходит в вашей ситуации и лечит боль именно вашей компании.

?Больше про полезные навыки и задачи аналитика данных в моем тг канале ?Таня и Данные?

Комментарии (7)

Myclass
28.02.2026 23:23
#29601928
И на каждом этапе одни и те-же люди доказывают, что наконец-то они нашли пилюлю для всех проблем, чтобы через какое-то время опять про следующую пилюлю расказать итд. При этом не забывают 'приверженцев' и понимателей особенностей и нужности старых технологий забрасать всевозможными ярлыками. С агилем то-же самое. Отвергается всё старое, чтобы в новом это старое поновой изобрести...
1. TanyaVSdannye Автор
  28.02.2026 23:23
  #29601932
  Кажется, в изменениях и есть сама суть развития. Думаю, что нормально даже в случае чего возвращаться к старому через трансформации, без них не была бы понятна ценность этого самого «старого».

Ninil
28.02.2026 23:23
#29601946
Почему вообще возникает путаница?

В очередной статье читаю эту фразу... Да никто из не путает! По крайней мере из нормальных инженеров! За много лет ни разу не встречал лично человека, которой бы путал. Зато авторы статей и прдвигаторы личных брендов нередко эту фразу упоминают для того, чтобы написать ещё одну статью с азбучными истинами. Придумайте уже другое что ли введение!) ИИ в помощь)

Data Fabric

Прошло от Майкрософта с его Fabric. По сути маркетинговый термин. И ничего более.
1. TanyaVSdannye Автор
  28.02.2026 23:23
  #29601948
  Спасибо за ваше мнение, по поводу путаницы и «нормальных» инженеров - Лиду инженеру да, конечно, это очевидно, но в начале пути действительно можно запутаться с терминами, так как их не мало, именно поэтому сложность статьи указана как «простая»
  
  Если вы их не путаете, все же не значит, что их не путает никто

WaitEvent
28.02.2026 23:23
#29602432
Берем возможности как в Data Warehouse: ACID-транзакции, управление схемой, оптимизация запросов.

Технически это реализуется через специальные слои поверх озер – транзакционные форматывроде Delta Lake, Apache Iceberg или Apache Hudi.

нет там ни acid ни понятия транзакции, все что есть - атомарность на уровне одной таблички.
1. Ninil
  28.02.2026 23:23
  #29602870
  Не надо быть таким строгим, это же "Мир Авито"! Там и не такие чудеса возможны :)
  PS это сраказм)

Shum1k
28.02.2026 23:23
#29604780
Сразу вспомнил про эту статью

https://habr.com/ru/articles/846296/.

Data Mesh, Data Fabric, Lakehouse: разбираем модные термины +1

Data Lakehouse

Что предлагает Lakehouse?

Кому это нужно?

В чем проблема?

Data Fabric

Что предлагает Data Fabric?

Кому это нужно?

В чем проблема?

Data Mesh: когда централизация ломается об организацию

Что предлагает Data Mesh?

Кому это нужно?

В чем проблема?

Сводная таблица со сравнением

Как не запутаться и выбрать свое

Резюме для тех, кто дочитал

Комментарии (7)

Myclass

TanyaVSdannye Автор

Ninil

TanyaVSdannye Автор

WaitEvent

Ninil

Shum1k