Lakehouse – это не просто модное слово. Это попытка объединить лучшее из data lake и data warehouse, дешевое хранение S3, гибкость open source и производительность DWH.

На третьем митапе, организованным CedrusData совместно с Лемана Тех, сообщество обсудило реальные кейсы: как Лемана Тех переходит с Greenplum на Trino, почему Азбука Вкуса выбрала Nessie вместо Tabular и в формате круглого стола, обсудили какие боли остались актуальными.

Lakehouse в Лемана Тех: от архитектуры до оптимизации

Команда Лемана Тех начала поиски альтернативы для Greenplum, когда стало ясно, что для следующего масштабирования кластера понадобится не только добавить мощностей(cpu/ram/ssd) в существующий кластер, а уходить в более сложную историю, закупать целиком новый комплект оборудования и расширять количество серверов.

Выводы:

  1. Выбор предметной области для эксперимента. Команда с большим объемом данных и малым числом потребителей, остановились на clickstream (события с сайта и мобильного приложения).

  2. Выбрали технологии для DLH (Data Lakehouse): Trino, Iceberg, HMS (Hive Metastore), S3.

  3. Получили разделение compute и storage. А Trino развернули в k8s для удобного управления и легких операций up/down scale требуемых ресурсов.

  4. Настроили мониторинг DLH и выложили часть с пользовательскими запросами в общий доступ. Мы открыты для ваших предложений и доработок, отправляйте их через issues или PR в репозитории.

Репозиторий: Trino Monitoring System with ClickHouse & Grafana

Презентация
Видео

Опыт использования Nessie в Азбуке Вкуса

Команда столкнулась с проблемами при работе с первым каталогом данных на базе Tabular. Но со временем стало понятно, что у продукта слабая поддержка, а также проблемы с очисткой данных и контролем доступа к S3. Решение нашлось в Project Nessie, который стал не просто заменой, а полноценным инструментом для управления данными как кодом. Nessie позволяет создавать ветки, мерджить изменения и работать с данными так же, как в Git.

Выводы:

  1. Переход с Tabular на Nessie.

  2. Git-семантика для данных. Работа с ветками, коммитами и тегами упростила разработку и тестирование новых фич.

  3. Кейсы использования: песочницы, тестовые стенды и консистентные данные сократили время на разработку и повысили доверие к аналитике.

Презентация
Видео

Круглый стол: Проблемы и вызовы построения lakehouse-платформ

Выводы (слишком краткие, стоит посмотреть запись)

  1. Lakehouse – не замена, а дополнение DWH
    Он не устраняет необходимость классических хранилищ, но снижает затраты и упрощает интеграцию данных.

  2. Выбор технологий: open source vs vendor-решения
    Участники выбирают продукты open source из-за активного сообщества, но для безопасности нужны также и вендорские инструменты.

  3. Проблемы здесь и сейчас
    Оптимизация производительности, автоматизация обслуживания таблиц (очистка, оптимизация) и контроль доступа остаются главными болевыми точками.

  4. Будущее: гибкость и автономность
    Фокус на автоскейлинг, стриминговые данные и интеграцию с новыми компонентами, для управления правами и ролевым доступом.

Участники дискуссии
  • Модератор: Дмитрий Зуев, Руководитель отдела дата инженерии, Positive Technologies

  • Алексей Крюков, Руководитель направления кибербезопасности, Азбука Вкуса

  • Михаил Благов, Руководитель направления развития практик работы с данными, Т-Банк

  • Юрий Гаврилов, Руководитель группы внедрения инструментов self-service аналитики, S7 Airlines

  • Петр Гуринов, Руководитель практики инженерии данных, Лемана Тех

  • Владимир Озеров, Генеральный директор, Кверифай Лабс

Видео

Итоги

Митап объединил практиков, которые доказали, lakehouse – это не мода, а инструмент для решения конкретных бизнес-задач. Лемана Тех показала, как разделение хранения и вычислений в Trino/Iceberg сокращает затраты на хранение данных на несколько порядков, а Азбука Вкуса рассказала, как Nessie помогает работать с данными как с "кодом" для быстрого тестирования гипотез. Круглый стол подчеркнул важность гибкости: open source решения доминируют, но требуют баланса между масштабируемостью и безопасностью.

Спасибо всем, кто присоединился к Lakehouse Meetup #3 – как в офлайн-формате, так и онлайн. Ваша активность, вопросы и обсуждения сделали мероприятие живым.

Не забудьте посмотреть записи докладов прошедших митапов и подписаться на Телеграм-каналы про Trino и Apache Iceberg.

Комментарии (0)