Какими инструментами пользуются российские дата-инженеры в 2024-м? Как в реальности сравнить производительность Postgres и распределённых баз данных? Как строить RAG-системы, дающие нейросетям доступ к данным, которых не было в обучающей выборке? И как развивается сейчас космическая индустрия?

В сентябре мы проведём конференцию по дата-инжинирингу SmartData 2024. Сейчас её программа уже составлена полностью, и представляем её Хабру.

Содержание

  • Use Cases

  • Базы данных под капотом

  • Управление данными

  • Инструменты

  • DataOps

  • Стриминг

  • Архитектура платформ данных

  • Другое


Use Cases

В блоке «use cases» не теоретизируют, а разбирают конкретные случаи из реальной практики: здесь много докладов формата «как мы сделали то-то».

The State of Data, RU Edition

Олег Кочергин

Positive Technologies

Существуют общемировые исследования о том, какие инструменты для работы с DE, BI и MLOps востребованы. А что с этим конкретно в России?

Прямо сейчас Олег проводит исследование и приглашает вас тоже поучаствовать — пройдите анонимный опрос по ссылке.

А на конференции он поделится результатами и сравнит их с западными. Сделает выводы о том, что выходит из моды, что популярно и что набирает обороты.


Как мы тестировали 5 способов загрузки данных в Greenplum и что из этого вышло

Татьяна Дидова

АЭРО

Из-за архитектурных особенностей Greenplum грузить данные классическим способом — не всегда хорошее решение. При росте объема данных загрузка данных на мастер ухудшает производительность кластера, и когда грузишь сотни гигабайт данных, приходится искать другие способы. Каждый из них обладает разной скоростью, пропускной способность и гибкостью с точки зрения объема данных.

Татьяна с командой решила протестировать и сравнить 5 способов загрузки данных: insert, copy, pxf, gpfdist, spark-connector. И выяснить, какой из них лучше подходит для той или иной задачи.


Каждый байт на вес золота. Опыт построения DMP в рекламе Яндекса

Алексей Стыценко

Яндекс

Алексей расскажет про платформу управления данными Logos. Она была создана в Рекламных технологиях Яндекса для построения надежных пайплайнов обработки данных с помощью YTsaurus.

Он также расскажет про основные компоненты платформы. Как в Яндексе описывают данные и ETL-процессы их обработки, как устроено тестирование, приемка и релизный цикл, как мониторят продакшен-процессы и качество данных, организуются пересчеты данных в прошлое для разных сценариев, документируются данные и процессы. И еще много интересного.


dbt в деле: реальные кейсы и лайфхаки

Антон Александров

Детский мир

В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим проблемам в управлении и запуске SQL-запросов. Отсутствие эффективного механизма управления зависимостями, релизами и отладкой ошибок усложняло выполнение задач аналитиками. В докладе подробно рассмотрят процесс внедрения dbt (data build tool) для систематизации и оптимизации работы с данными.

Обсудят ключевые этапы внедрения, включая разработку пайплайнов в Airflow, автоматизацию CI/CD-процессов и обучение сотрудников. Особое внимание уделят практическим кейсам автоматизации релизов, улучшению качества данных и ускорению аналитических процессов. Представят конкретные результаты внедрения dbt, такие как сокращение времени выполнения задач и улучшение управляемости данных.


Как построить пайплайн RAG с использованием LLamaIndex

Алсу Нурутдинова

Positive Technologies

Алина Кочева

Positive Technologies

RAG (Retrieval Augmented Generation) — это подход, который дополняет большие языковые модели с помощью обогащения контекста пользовательскими данными. Он сочетает в себе процесс извлечения информации из баз данных (как правило, векторных) с последующей генерацией текста. Это позволяет моделям предоставлять ответы, основанные на данных, которые не были им видны в процессе обучения, но есть в базе данных.

Как и в любой сложной системе, есть ключевые моменты, которые нужно и важно учитывать при построении. Во время доклада спикеры расскажут, что требуется, чтобы создать надежный конвейер RAG. Обсудим основные моменты, которые помогут лучше понять концепцию дополненной поисковой генерации на примере чат-бота для технической поддержки.


Сервисы ML Inference нейросетей в Рекламе

Дмитрий Ульянин

Яндекс

Как создать эффективные сервисы инференса нейросетей в масштабах десятков тысяч ядер и сотен GPU для десятка заказчиков.

Доклад ориентирован на тех, кто:

  • занимается MLOps, ML Inference;

  • интересуется, как выглядят сервисы инференса в Яндекс Рекламе;

  • строил большие системы из сервисов, которые упираются в CPU и mem;

  • любит разрабатывать свои сервисы на C++ и вкладываться в эффективность и оптимизации.


Использование вероятностных структур данных для оптимизации ETL-процессов

Дмитрий Вертлиб

Честный знак

При обработке больших данных с использованием фреймворка Apache Spark часто возникает большое количество промежуточной информации, шафл и спилл, что негативно влияет на производительность не только самого ETL-процесса, но и всего вычислительного комплекса. Для снижения этих факторов используется предварительная фильтрация информации.

Существует большое количество способов фильтрации, различающихся по эффективности. В докладе рассмотрят использование вероятностных структур данных в качестве фильтров. Пройдем путь от списков, минуя broadcast hash join и bloom filter join, к своей реализации ленивого сегментного фильтра на основе XOR-функций.


Оптимизации сериализатора ВКонтакте

Илья Асадуллин

VK

Илья Кокорин

VK

ВКонтакте использует формат бинарной сериализации TL как основной способ общения клиентов с серверами баз данных, серверов баз данных между собой, а также хранения информации на диске. Роль формата сериализации TL во ВКонтакте примерно сравнима с ролью формата сериализации Protobuf в Google.

К сожалению, долгое время поддержка языка TL в инфраструктуре ВКонтакте была неэффективной: обработка каждого запроса приводила к большому числу аллокаций памяти, копирований и виртуальных вызовов. Во время доклада вам расскажут об оптимизациях поддержки языка TL в инфраструктуре ВКонтакте и об идеях, которые можно применить для оптимизации работы с другими форматами бинарной сериализации.


Базы данных под капотом

Все пользуются БД, но не все по-настоящему понимают, как они работают «внутри».

Шардированный не значит распределенный: что важно знать, когда PostgreSQL мало

Евгений Иванов

Яндекс

Олег Бондарь

Яндекс

Известно, что одни БД хорошо масштабируются вертикально, а другие горизонтально, но в рассуждениях об этом редко приводят конкретные числа производительности. Доклад Евгения и Олега, наоборот, полностью построен на эмпирическом исследовании этого вопроса. Подход прост: установили PostgreSQL и распределенные СУБД на одинаковые кластеры из трех железных серверов и сравнили, используя популярный бенчмарк TPC-C.

Из-за безграничных возможностей настройки Postgres и отсутствия универсального конфига пришлось попробовать разные варианты его настройки. Это позволило честно сравнить Postgres с распределенными СУБД: CockroachDB и YDB — и ответить на вопрос, в какой именно момент Postgres становится мало и как с этим быть.


Storage для lake

Александр Казанский

Т-Банк

Построение инфраструктуры больших данных с использованием архитектурных паттернов на основе озер данных становится все популярнее. Ключевой компонент, необходимый для построения лейка, — масштабируемая система хранения данных.

Александр расскажет про Ceph — программно-определяемую систему хранения данных общего назначения с открытым исходным кодом.

Посмотрим, какие ключевые функции предоставляет Ceph и почему эту систему стоит выбрать для реализации лейка on-prem. Обсудим мифы, которыми успела обрасти эта система, и типовые ошибки, которые совершают те, кто только начинает работать с Ceph.


One More Way to Make Backup in Ignite

Николай Ижиков

Apache Software Foundation

Николай разработал еще один способ создания резервной копии данных в Apache Ignite. Он называется cache dumps. В докладе он расскажет про API, дизайн, особенности реализации, оптимизации.


Apache Arrow: быстрее, ниже, сложнее

Евгений Глотов

SberAutoTech

Apache Arrow — темная лошадка. Этот фреймворк находится под капотом других фреймворков обработки данных и используется для их взаимодействия. Поскольку Arrow лежит на самом низком уровне, вы могли с ним и не столкнуться в решении ваших повседневных задач. Однако изучив его и начав более интенсивно использовать, можно значительно повысить производительность решений, что особенно актуально в условиях оптимизации бизнесом вычислительных мощностей.


Schema Registry: Ultimate Guide

Тимофей Брунько

Yandex Cloud

Schema Registry — сервис, обеспечивающий хранение схем и контроль совместимости изменения схем. Тимофей расскажет о мотивациях, побуждающих пользователей к использованию реестра схем, и о видах реестров схем, которые разные мотивации порождают.

Рассмотрим представителей Schema Registry и особенности их внутреннего устройства, а также форматы данных, для которых в Schema Registry реализована поддержка.


Введение в Velox — универсальный нативный движок исполнения запросов

Павел Солодовников

CedrusData

В докладе будет описана относительно новая библиотека Velox, представляющая собой векторизованный нативный (C++) движок исполнения запросов.

Первая часть доклада содержит общие сведения о библиотеке, ее происхождении, концепцию deconstructed database и место Velox в ней.

Вторая часть — о Presto и Prestissimo, внутренней архитектуре исполнения запросов в Presto и о том, как эта схема повлияла на внешний и внутренний облик Velox.

В третьей части сконцентрируемся на технических нюансах того, как можно кастомизировать исполнение планов в Velox.


Как мы делаем облачный Greenplum

Леонид Борчук

Yandex Cloud

База данных Greenplum разрабатывалась как on-premise решение, но в Yandex Cloud смогли запустить ее как managed database. И теперь поделятся опытом со всеми, у кого есть или планируется инсталляция Greenplum — неважно, on-premise или облачная. Леонид расскажет, как у Yandex Cloud в облаке решаются задачи:

  • обеспечения отказоустойчивости;

  • резервного копирования и восстановления;

  • реконфигурации БД.

С какими проблемами столкнулись, почему они возникли, какие есть способы решения и что в итоге выбрали.


Data sketches — быстро, дешево и (почти) точно!

Сергей Жемжицкий

Arenadata

Доклад о дата-скетчах, или потоковых алгоритмах обработки и анализа данных (HyperLogLog, CPC, Theta, Count-min, FDT, KLL и других), предназначенных для решения круга задач (подсчет уникальных элементов, распределение элементов, определение их частоты и т. д.), в которых получение точных результатов требует значительных затрат вычислительных ресурсов и времени.

Если приблизительные результаты допустимы, то дата-скетчи позволяют получить их значительно быстрее традиционных вариантов. При этом в случае пакетной обработки данных альтернатив часто может не быть, а в случае потоковой обработки данных скетчи — единственное жизнеспособное решение.


Пишем свой cluster manager для Apache Spark

Александр Токарев

Яндекс

В докладе вам расскажут, как Spark запускает распределенные процессы на физическом уровне. Обсудим существующие реализации кластер-менеджеров в Spark, таких как Standalone, YARN или Kubernetes.

В основной части выступления речь пойдет об абстракциях Spark, которые реализуют взаимодействие приложения с кластер-менеджером. Расскажут, как в Яндексе реализовали эти абстракции для интеграции с планировщиком ресурсов YTsaurus. Кроме того, разберем, что нужно сделать для поддержки расширенных возможностей запуска, таких как использование Dynamic Allocation или запуск с использованием GPU.


Оптимизация распределения партиций в последовательности задач распределенной обработки данных

Милена Булкина

Т-Банк

Shuffle, который возникает при обработке больших данных, — дорогостоящaя операция, оказывающая сильное влияние на время выполнения пайплайна. С помощью уменьшения количества shuffle-данных можно существенно ускорить время выполнения последовательности задач.

Рассмотрим существующие алгоритмы для shuffle. Милена предложит альтернативный подход, который минимизирует количество перемещаемых данных с учетом возможного перекоса данных на узлах.


Управление данными

Как навести порядок в двух эксабайтах данных?

Максим Гудзикевич

Яндекс

Кирилл Осинцев

Яндекс

В компании с быстрорастущим объемом данных ориентироваться в них становится сложнее с каждым днем. В этой ситуации помогают каталоги данных, однако информация в них, как правило, заполняется пользователями собственноручно или берется из ERM-связей небольших БД. В Яндексе же во внутреннем DataCatalog научились автоматически на основе логов ETL-операций и ad hoc-расчетов собирать Data Lineage системы YTsaurus.

Максим и Кирилл расскажут, как пытаются стать единой точкой истины о всех данных компании. Будет интересно поставщикам и потребителям данных, дата-инженерам и дата-аналитикам, пользователям MapReduce-систем.


От ручного труда к автоматической генерации проверок качества данных

Александр Мадумаров

Инновационный центр «Безопасный транспорт» ГКУ ЦОДД

В любом проекте по построению хранилищ данных очень важен вопрос контроля качества данных. Это достаточно рутинный и трудозатратный процесс, подверженный влиянию человеческого фактора.

Чтобы сократить эти факторы, команда Александра разработала универсальный процесс автоматизации data quality. Важно было сделать легко масштабируемый единый инструмент для мониторинга качества данных, который позволит быстро внедрять процессы data quality в любые продукты, основанные на данных. В разработке всего процесса применяли технологии Airflow, Python, Spark, Hive, Vertica, Grafana.


Как быстро запустить процесс ведения каталога данных в компании на примере DataHub

Наталья Журавлева

Ozon

Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент относительно быстро.

Доклад будет полезен специалистам в области data governance, владельцам данных, аналитикам DWH, аналитикам данных, архитекторам DWH.

Технологии: DataHub, Airflow, Vertica, ClickHouse, Superset, Confluence.


Data Lineage: как настроить в зоопарке технологий и зачем это нужно

Булат Усманов

Купер (ex-СберМаркет)

В докладе обсудим, как настроить Data Lineage с использованием DataHub для разнородных источников и какие преимущества это принесет инженерам данных и бизнесу: принятие обоснованных решений, снижение операционных рисков и повышение доверия к данным.

Рассмотрим шаги для интеграции DataHub с различными системами, такими как Kafka, Trino, dbt, Airflow, PostgreSQL, ClickHouse, S3, OpenAPI, Feast, Tableau, Metabase и т. д. и кратко познакомимся с реальными примерами успешного внедрения.


Инструменты Data Quality: как, зачем, почему. Опыт Т-Банка

Дмитрий Руднев

Т-Банк

Существует множество подходов к внедрению инструментов DQ, и универсального решения для всех нет. Дмитрий поделится опытом T-Банка по внедрению DQ-инструментов: от перехода с полностью in-house решения к модульному подходу на основе open source. Он объяснит, зачем, почему и как принимали эти решения.


Как мы сократили TTM создания дашбордов

Анар Багиров

Авито

Анар расскажет, с какими проблемами столкнулись пользователи при создании дашбордов в Redash.

Обсудим:

  • почему создание дашбордов в Redash занимает много времени;

  • какие возникли ограничения из-за использования Vertica в качестве основы DWH;

  • как в начале использовали ClickHouse и почему отказались от этого решения;

  • как ClickHouse помогает ускорить работу дашбордов;

  • что такое датасеты в Redash;

  • как датасеты позволяют сократить TTM создания дашбордов;

  • какие проблемы появились и как планируется их решать;

  • какие дальнейшие планы по улучшению BI-инструмента компании.


Assessing Data Pipeline Quality & Sanity with Data Angiograms

Sri Vishnu Chanderraju

CueZen

Доклад вдохновлен медицинской процедурой под названием «коронарная ангиография», где врач вводит пациенту в кровеносную систему контрастное вещество. Оно видно на рентгеновских снимках, что позволяет получать информацию о состоянии сосудов сердца. Что, если мы применим эту идею к потокам данных?

Цель доклада — показать, как можно проводить и end-to-end sanity checks для конвейера данных, и тестировать качество самих данных, которые проходят по этому конвейеру. Причем делать это с помощью популярных технологий — например, GitLab Pipelines, GitHub Actions, Docker, библиотеки для тестирования вроде pytest, JUnit и так далее.


Как жить с data swamp

Александр Боргардт

duckstax.com

Часто с накоплением данных в DWH оно превращается в data swamp, и создавать отчеты становится сложнее. Существуют ли подходы для создания отчетов, когда у вас есть data swamp? Да, один из таких подходов — это уменьшение размерности данных и их обработка вне data swamp.

Остается вопрос: где обрабатывать срез данных в 0.5-1 ТБ? Вариантов много: взять Spark, начать строить новый DWH и надеяться, что он не превратится в data swamp.

А можно по-другому? Да, нужен ноутбук с GPU и современные инструменты cuDF and CuPy.

Из доклада вы узнаете, какие есть тренды и как выбирать технические решения для обработки данных. Какие еще проблемы возникают и как их решать.


Data mesh: ожидания vs реальность

Петр Гуринов

Лемана ПРО (Леруа Мерлен)

В компании Петра начали свой переход к концепции data mesh в далеком 2019-м, когда это не было мейнстримом. Он расскажет, какой путь прошли за пять лет, что из запланированного получилось и на какие грабли наступили.

Пройдемся по следующим блокам:

  • Культура data mesh.

  • Организационная трансформация: значимость изменений на уровне организационной структуры и переход на модель доменов для успешного внедрения data mesh.

  • Сервисы: какие должны быть коммунальными, а какие — как продукты, которые можно развернуть в своем периметре.

  • Централизованная команда и центры компетенций.


Инструменты

Как работает Apache Iceberg на примере Trino

Владимир Озеров

CedrusData

Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрим архитектуру и реализацию Apache Iceberg на примере взаимодействия с compute-движком Trino.


Автогенерация синтетических данных с использованием алгоритмов ML

Данила Самошкин

Neoflex

Анастасия Коткова

Neoflex

Данила и Анастасия расскажут о потребностях в использовании синтетических данных и о современных подходах к их формированию.

В основной части более предметно погрузимся в то, как в Neoflex решаются задачи генерации данных с использованием различных алгоритмов машинного обучения на платформе Neoflex Dognauts. Речь пойдет о подходах к генерации синтетических датасетов и оценке их качества.

В заключение спикеры поделятся результатами экспериментов на демопримерах.


Обработка событий в Snowplow: от сбора до аналитики

Мария Бученкова

Детский мир

Владимир Седельников

Детский мир

Snowplow может выступать хорошей open source-альтернативой Google Analytics, однако в исходном варианте не приспособлен для работы с Hadoop.

Мария и Владимир расскажут, как написали собственную обработку событий на Spark, накапливая данные в HDFS и загружая обработанные события в ClickHouse для аналитики. Они опишут, с какими проблемами столкнулись при разработке и какой опыт приобрели при использовании dbt-репозиториев от Snowplow.


NiFi. Пишем код для codeless-системы

Бронислав Житников

Positive Technologies

NiFi — инструмент, в котором без написания кода можно сделать почти все благодаря широкой палитре процессоров данных. А с учетом возможностей писать скрипты и вызывать внешние приложения кажется, что можно обойтись без написания кода, — но иногда наступает момент, когда нужно открыть IDE и создать новый процессор. Нужно ли это делать, когда и какие знания требуются для того, чтобы расширить функциональность NiFi, — об этом и расскажет Бронислав.


От хайпа до продакшена: data mesh на Airflow + dbt

Никита Юрасов

Toloka

Леонид Кожинов

Toloka

Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад Леонид и Никита рассказывали про подход к интеграции dbt и Airflow, а сейчас хотят поделиться своей библиотекой, которую выложили в open source.

Эта библиотека позволяет интегрировать dbt — относительно новый, но уже достаточно популярный инструмент для описания трансформаций и Airflow — известный всем оркестратор ETL-процессов.

Доклад будет состоять из трех частей:

  • Сперва спикеры напомнят, как у них все устроено, при чем тут data mesh, dbt и Airflow.

  • Затем перейдут к анализу конкурентов, которых у их библиотеки dbt-af не так много.

  • В конце покажут, насколько удобно dbt-af позволяет решать поставленные перед ней задачи.


Проблемы обработки Excel-файлов в Apache NiFi и как их решать

Игорь Шемаров

Axenix

Apache NiFi — это мощный инструмент для автоматизации процессов сбора, агрегации и передачи данных. Он предоставляет удобный веб-интерфейс для настройки и мониторинга потоков данных, позволяя пользователям эффективно управлять данными в реальном времени. Обработка Excel-файлов в Apache NiFi может быть необходима в ситуациях, когда требуется:

  • Перенести данные из Excel в другую систему, такую как база данных или облачное хранилище.

  • Обрабатывать большие объемы данных Excel и производить с ними различные операции, такие как фильтрация, трансформация, агрегация и т. д.

  • Автоматизировать процесс обработки данных Excel, особенно если он регулярно повторяется.

Предоставленный в NiFi процессор обработки Excel-файлов не идеален, он может потерять данные при конвертации. Попытаемся решить эту проблему вместе с Игорем.


Airbyte. 2 года в продакшене

Александра Попова

СберЗдоровье

Александра расскажет об опыте использования ELT-инструмента Airbyte на реальном проекте. Рассмотрит ключевые моменты внедрения, подсветит преимущества и недостатки, а также обсудит с вами вызовы, с которыми пришлось столкнуться.

Она также поделится практическими советами для успешного внедрения Airbyte у себя в проде.


DataOps

Оркестратор пайплайнов для небольшой команды инженеров и аналитиков: как мы используем Dagster

Алексей Завальский

Bestplace

Дмитрий Крылов

Bestplace

Особенность пайплайнов в Bestplace в том, что их пишут и дата-инженеры на Python, и аналитики в Jupyter-ноутбуках. Как сделать удобный оркестратор для тех и для других, при этом силами небольшой команды?

В 2020 году в Bestplace обратили внимание на Dagster, стали его ранними пользователями, взаимодействовали с его командой разработки и в итоге успешно используют его уже несколько лет.

Дмитрий и Алексей расскажут про опыт внедрения и эксплуатации Dagster, его преимущества для решения различных дата-инженерных задач, а также про сборку Dagster-пайплайнов из YAML и Jupyter-ноутбуков.


CI/CD для большого хранилища данных

Арсений Бирюков

Т-Банк

Разработка хранилища данных — сложная задача, причем не с технической, а с операционной точки зрения. Любое хранилище постоянно приходится дорабатывать — изменять ETL-процессы, переделывать таблицы, оптимизировать производительность.

Например, в Т-Банке работает около 100 дата-инженеров, и они релизят изменения в хранилище почти каждый день. Постоянная параллельная разработка порождает целый ворох специфических проблем, для решения которых просто не существует готовых решений. Поэтому пришлось разработать свой инструмент для CI/CD в хранилище данных. Арсений расскажет, зачем в Т-Банке это сделали, какие проблемы решили и почему считает, что система самая лучшая и прогрессивная на земле.


CI/CD в большом on-premise Datalake-проекте

Александра Чекмарева (Китченко)

Честный знак

Никита Благодарный

Честный знак

В компании спикеров есть большой монорепозиторий, в котором хранится разнородный код для их Datalake — Scala-код для Spark, DDL для различных БД, DAG и Airflow, служебные скрипты. Вам расскажут, как структурировали репозиторий и строили для него CI/CD-процессы, чтобы они:

  • Работали инкрементально — собирали / тестировали / деплоили только те части, которые менялись.

  • Работали параллельно, чтобы обеспечивать полную сборку / деплой за приемлемое время.

  • Собирали один и тот же код под разные версии Spark.

  • Учитывали при тестировании реальное окружение целевых систем.

  • Были максимально демократичны (доступны широкому кругу разработчиков) и при этом безопасными для прода.


Стриминг

Как мы строим систему распределенного трейсинга, в которой можно терять данные

Игорь Балюк

Авито

Зачастую к системам обработки и доставки данных предъявляются строгие требования по надежности: все данные должны быть доставлены.

В Авито строят систему сбора логов и распределенного трейсинга, которая обрабатывает более 15 миллионов событий в секунду от более 2 тысяч сервисов, и можно терять данные!

Рассмотрим архитектуру системы Авито. Игорь расскажет про уловки, которыми можно пользоваться из-за отсутствия строгих гарантий. Как откинуть данные, если мы не хотим хранить все? И как понять, какие данные нужны? Как в компании выстраивают передачу данных в условиях отказа узлов и дата-центров? Сконцентрируемся на архитектуре этой системы и ее эволюции, но домен сбора трейсинга и логов тоже затронем.


Как мы Apache Kafka на Redpanda меняли

Роман Ананьев

Авито

Для целей отказоустойчивости, масштабирования и увеличения производительности в ряде ключевых инфраструктурных сервисов Авито заменили Apache Kafka на Redpanda. В докладе расскажут, чем не устроила Kafka, какие альтернативы рассматривали, как их тестировали, почему в итоге остановились на Redpanda, что дал переход.


Debezium Engine: практическое руководство по использованию

Анастасия Сашина

Т-Банк

Когда кто-то слышит «Debezium», многие думают о нем как о Kafka Connect. Однако помимо Kafka Connect и Debezium Server существует еще одна реализация, о которой мало говорят, — Debezium Engine.

В докладе рассмотрим библиотеку Debezium Engine, где ее использовать, а где не стоит. Реализуем тестовое приложение на Java, в котором проанализируем Debezium Engine с точки зрения архитектуры. Выявим его сильные и слабые стороны.

Будет интересно начинающим техническим специалистам, а также тем, кто заинтересован в разработке систем по обработке больших данных.


Архитектура платформ данных

Рецепт платформы потоковой обработки данных на Apache Flink

Данил Сабиров

Яндекс.Такси Технологии

Apache Flink в инфраструктуре Яндекс Go работает более 4 лет. Но до недавнего момента воспользоваться им могли лишь некоторые продвинутые разработчики — так как Flink не такой дружелюбный, как может показаться на первый взгляд. Все изменилось, когда спрос на стриминг от различных DWH Яндекс Go побудил их запустить проект по снижению порога входа в потоковую обработку данных.

Данил расскажет, какую инфраструктуру построили вокруг кластеров Apache Flink, начиная от одной и заканчивая сотней Flink job, и о том, какой API выбрали для описания пайплайнов. В итоге получили платформу, в которой DE могут легко создавать поставки, не сталкиваясь со сложностями управления Apache Flink job и используя удобный DSL.


Data Vault 2.0. В каких случаях внедрять, разбор основных проблем применения методологии при построении DWH на Greenplum

Денис Лукьянов

Ecom.tech

При внедрении Data Vault на Greenplum возникает множество корнер-кейсов, которые могут привести как к просадке производительности системы, так и высокому ТТМ задач на создание десятков лишних объектов. В докладе разберем «продовую» версию концепции DV Ecom.tech на примере моделирования абстрактных продаж с объяснением всех принятых решений и возможных альтернатив.


Разделяй, властвуй и замораживай: построение DWH с использованием Iceberg REST Catalog

Валентин Пановский

BestDoctor

Валентин расскажет о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage). Дополнительно обсудим текущие альтернативы в рамках так называемого Modern Data Stack.


Другое

Это реальный космос: space-индустрия сегодня

Яна Харлан

Бюро 1440

Завершающий доклад конференции будет не конкретно про дата-инжиниринг, но узнать интересное можно и из него.

Кратко обсудим историческую связку космоса с военными технологиями и постепенный переход к использованию космических технологий как инструмента бизнеса для массовых сервисов.

Рассмотрим явление частного бизнеса в космосе, всё ещё огромную зависимость от институциональных заказчиков, объемы инвестиций и скорости возврата средств.

В основной части — о глобальной смене экономической парадигмы. Рассмотрим ёмкость рынка, количество выводимых аппаратов и то, какими крутыми становятся сервисы. Разберем, отчего же рынок формально стагнирует и как изменилась стоимость введения, масса спутников, стоимость спутников.


CDC от источника до хранилища: как в банке Синара построили CDC с применением продуктов Arenadata

Иван Клименко

Arenadata

Change Data Capture от популярных источников (Oracle, PostreSQL) с применением Debezium, построенном на Kafka Connect, трансформациями в Apache NiFi и сохранением в начальный слой хранилища Greenplum.

Почему именно CDC, а не прямые выгрузки? Обсудим сложности при внедрении, связанные с информационной безопасностью и нагрузкой на транспортные системы, варианты решений по трансформациям и доставке данных до хранилища, варианты разбора данных на хранилище до stage-слоя.


Обсуждения

Помимо привычного формата докладов, будет два круглых стола, где наверняка окажется сломано немало копий:


Lightning Talks

«Lightning talks» — это специальный формат «коротких докладов», позволяющих динамично обсудить тему. Таких будет целый ряд, подробности — на сайте.


Заключение

О докладах рассказали, осталось упомянуть несколько вещей:

  • У нас нестандартный формат «онлайн + офлайн»: первый день (4 сентября) полностью онлайновый для всех, а вот 8-9 сентября можно либо присутствовать лично на московской площадке, либо подключиться удалённо.

  • Если интересно посмотреть доклады предыдущих SmartData, можете посмотреть их на YouTube или в VK.

  • Но вообще, конечно, конференция — это не только доклады. Живое общение не менее важно, просто его на Хабре по пунктам не опишешь.

  • А вся остальная информация и билеты — на сайте.

Комментарии (0)