Мы уже рассказывали Хабру, что новая SmartData — это конференция про data engineering. Но что именно это значит на практике, какие доклады подходят под такое определение? На момент анонса мы могли объяснить только общими словами, а вот теперь программа конференции готова — так что показываем всю конкретику. Под катом — описания всех докладов.
А в преддверии конференции будет ещё и маленькое бесплатное онлайн-мероприятие о жизни дата-инженеров: 1 декабря на YouTube пройдёт разговорное шоу, где участники программного комитета конференции (Паша asm0dey Финкельштейн, Олег olegchir Чирухин, Дарья Буланова, Сергей Бойцов) обсудят свои проблемы и провалы — грубо говоря, как они тратили слишком много времени на решение простой задачи. Увидимся в YouTube-трансляции.
Оглавление
Streaming
«Flink + Zeppelin: Streaming data analytics platform», Jeff Zhang
Flink — мощный инструмент для потоковой обработки данных, при этом требует много от разработчика. Несмотря на то, что Flink поддерживает SQL, написать и запустить джоб во Flink не так просто. К счастью, Apache Zeppelin упрощает эту ситуацию. Кроме того, на Zeppelin можно выполнять интерактивную потоковую аналитику данных при помощи Flink и создать реалтайм-дашборд, при этом писать HTML/JS-код не нужно.
Джефф в своем докладе расскажет, как использовать Flink на Zeppelin, чтобы построить собственную платформу для потоковой аналитики данных.
Чем хорош спикер: Главный коммитер в Zeppelin
Чем хороша тема: Zeppelin — это индустриальный стандарт Exploratory Data Analysis (EDA). Джефф будет рассказывать про новую версию, которой еще нет ни у кого в продакшне.
Кому будет полезно: Всем, кто использует Zeppelin или Flink в продакшне.
«По пути из Kafka в NiFi: Как не сломать и не потерять», Роман Коробейников
В докладе рассказывается о построении отказоустойчивой схемы работы кластера Apache NiFi при использовании Apache Kafka в качестве источника входных данных.
Чем хорош спикер: VirtualHealth помогает американской системе здравоохранения решать их задачи. А где, как не там, будет большой поток данных?
Кому будет полезно: Доклад для тех, кто хочет справиться с большими нагрузками на NiFi и интеграцией с Kafka.
Почему здесь и сейчас: В VirtualHealth работают с очень большим потоком данных и знают, как с этим справиться.
«Advanced usage patterns of Scala UDF in PySpark», Андрей Титов
При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность приложения.
К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.
В этом докладе Андрей расскажет, как:
- заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
- создать pyspark.sql.Column на базе UDF вместо использования spark.sql(...);
- использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
- избежать повторного вызова UDF на одних и тех же данных;
- настроить логирование с помощью встроенного log4j.
Чем хорош спикер: Последнее время по долгу службы занимается стримингом на Spark и сталкивается с проблемами перфоманса.
Кому будет полезно: Тем, кто работает со Spark, дата-инженерам и разработчикам, которые напрямую взаимодействуют со Spark (Spark-инженеры).
Почему здесь и сейчас: предлагаются их нестандартные решения, о таком пути мало кто знает, очень глубокий взгляд на проблему.
«Stateful streaming: Кейсы, паттерны, реализации», Дмитрий Бугайченко
В докладе поговорим о популярном сейчас подходе к обработке данных — обработке потоков, уделив особое внимание работе с состоянием. Обсудим, в каких случаях состояние может быть востребовано и какие подходы к реализации функциональности поддержания состояния используют популярные фреймворки. В том числе поговорим о том, как сделать внутреннее состояние потокового обработчика доступным внешним клиентам.
Storage
«Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта», Александр Слуцкий
Kusto — это новая и стремительно набирающая обороты платформа для работы с Big Data. Несколько лет назад она завоевала весь Майкрософт, и сейчас Kusto используют буквально все сервисы Azure для анализа данных. Над Kusto также построены все линейки security и log analytics-продукты Майкрософта: Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection и многие другие. Вне Майкрософта Kusto существует под именем Azure Data Explorer, и с успехом используется в сферах e-commerce, gaming, manufacturing, automotive и других отраслях.
В докладе Александр расскажет, что отличает Kusto (Azure Data Explorer) от других решений, покажет, как сложная обработка лайв-стримов телеметрии размером в миллиарды строк (терабайты данных) может занимать секунды, и приоткроет занавес архитектуры, на которой построен Kusto.
Чем хорош спикер: Создатель этой базы — может отвечать на все вопросы про детали реализации и на любые вопросы по проекту.
Чем хороша тема: Интересный кейс создания с нуля нового распределенного движка базы. Это востребовано в Майкрософте и активно используется в компании.
Кому будет полезно: Тем, кто хочет написать или модифицировать свое хранилище.
Для тех, кто уже в облаке Майкрософта и хочет разобраться в нюансах использования.
«Kusto (Azure Data Explorer): Architecture and internals», Евгений Рыжик
Kusto набирает обороты настолько стремительно, что мы решили взять два доклада про эту платформу. Доклад Евгения дополняет предыдущий доклад Александра Слуцкого, углубляя понимание того, как Майкрософт приходит к такому результату.
Это будет рассказ о принципах построения с нуля новой базы данных для работы с логами и телеметрией. Рассмотрим особенности запросов на структурированные и неструктурированные данные, подход и технику масштабирования, оптимизацию запросов, а также оптимальное использование базовых сервисов Azure для реализации нетривиального облачного сервиса.
«NeoFS: Хранение объектных данных по своим правилам», Станислав Богатырев
NeoFS — опенсорсная система, которая помогает решить проблему хранения фиксированных данных в ненадежной среде в соответствии с заданными пользователем правилами. Теперь можно разместить недорогие компьютеры и организовать на них хранение больших данных в нескольких офисах или даже дома у членов распределенной команды. NeoFS поддерживает протокол AWS S3, так что можно не переписывать любимый софт. А с помощью политики размещения можно хранить данные рядом с обработчиками и экономить время на передаче данных по сети.
Станислав хочет поделиться примером того, как можно заменить централизованный S3 для хранения сырых данных более доступным решением и организовать политики так, чтобы обработка данных стала более эффективной. А также рассказать, зачем нужны мультиграфы, гомоморфная криптография, многоходовые игры, доказательства с нулевым разглашением и прочий матан.
Чем хорош спикер: Разработчик этой системы с нуля.
Чем хороша тема: Интересный подход к построению собственных хранилищ и экосистем.
Кому будет полезно: Тем, кого интересуют внутренности хранилищ или тем, кто хочет собственное хранилище.
«Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse», Павел Якунин
В банке есть множество систем: генерирующих, хранящих и иногда анализирующих различные клиентские и внутренние данные. Часто эти системы слабо связаны между собой и образуют Data Silo. Во многих случаях это происходит из-за сложности правил доступа к данным, определенных регуляторами.
Существование Data Silo мешает использовать данные для поиска новых возможностей бизнеса. В Дойче нашли эффективный путь преодоления этой проблемы и построили безопасный и любимый аналитиками DWH на основе Clickhouse, Kafka и Spark.
В докладе Павел объяснит, чем вызвана фрагментация данных в его организации, и какие типичные сценарии аналитики из-за этого страдают. Он расскажет, каким образом удалось построить безопасный DWH на Clickhouse, способный объединить в себе данные из разных источников, предоставить интерактивный инструмент для исследований и не нарушить существующих регуляций и правил. Слушатель сможет узнать о принятых архитектурных решениях и их причинах, собранных граблях, а также решить для себя, подходит ли Clickhouse в качестве DWH в его организации.
Чем хорош спикер: Прошел всю дорогу создания DWH в компании DE, знает, какие решения там принимались и почему.
Чем хороша тема: ClickHouse — актуальная технология, BA на ней строят немногие, тем интереснее об этом послушать.
Кому будет полезно: Тем, кому интересны альтернативные подходы к построению хранилища BI.
«The latest and greatest of Delta Lake», Jacek Laskowski
Чем хорош спикер: Знаменитый эксперт в области Spark, автор серии книг «Взгляд изнутри» об Apache Spark, Delta Lake, Apache Kafka и Kafka Streams.
Чем хороша тема: Тема про то, что рано или поздно все превращается в SQL. DeltaLake — это понятная масштабируемая опенсорсная альтернатива для тех, кто использовал реляционные базы данных.
Кому будет полезно: дата-инженерам, которые хотят внедрить DeltaLake.
«Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет», Максим Стаценко
Доклад Максима будет про плюсы и минусы различных решений для хранения данных: облака или bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata и другие.
Работая в крупных компаниях, спикер попробовал много решений, сравнил их на одинаковых данных и задал вопросы их разработчикам или поставщикам. Итогом стал доклад, в котором Максим поделится опытом и размышлениями, какие решения для каких случаев подходят больше.
Если вы собираетесь построить или перестроить свое хранилище данных, то данный доклад поможет вам сократить список технологий, которые стоит попробовать перед выбором решения, которое подходит именно вам.
Чем хороша тема: Хороших обзоров существует мало, ребята устанавливали решения для хранения своих данных на свои кластера, много чего попробовали в поисках ответа на вопрос.
Кому будет полезно: СТО небольших компаний и те, кто стоит перед проблемой выбора хранилища.
«SQL-миграции в Postgres под нагрузкой», Николай Аверин
Как обновить значение атрибута для всех записей таблицы? Как добавить первичный или уникальный ключ в таблицу? Как разбить таблицу на две? Если ваше приложение может быть недоступно какое-то время для проведения миграций, то ответы на эти вопросы не представляют сложности. А что делать, если миграции нужно проводить на горячую — не останавливая базу данных и не мешая другим с ней работать? А если при этом таблицы большие (сотни гигабайт), баз данных несколько и серверов приложений тоже несколько?
На эти и другие вопросы, возникающие при проведении миграций схемы и данных в PostgreSQL, Николай постарается дать ответы в виде практических советов.
Чем хорош спикер: У человека глубокая экспертиза в PG, что редкость для тех, кто не работает в профильных компаниях.
Чем хороша тема: Считаем, что миграции под нагрузкой — это сложно, нужно уметь делать.
Кому будет полезно: Тем, кому нужно делать миграции в контексте больших данных, те, для кого обычные механизмы миграции уже перестали работать.
Tooling
«Пишем гибкие пайплайны для дата-платформ с Dagster», Андрей Кузнецов
На сегодняшний день не так часто говорят про унификацию построения дата-пайплайнов — особенно в ситуации, когда приходится вырываться из Java/Scala-мира и строить цепочки из компонентов со смешанными языками и технологиями.
Как подружить Spark + Scala-джобы и Python-приложения? Dagster дает удобные компоненты для написания и отладки таких пайплайнов, при этом имеет большое число интеграций с де-факто стандартами систем оркестрации, вычисления и так далее.
В докладе Андрей расскажет, зачем это нужно и как писать на Dagster пайплайны с переиспользуемыми блоками и гибкой архитектурой.
Чем хорош спикер: 7 лет преподавал, занимается ML и DE в Одноклассниках, продвигает эту идею в своей компании.
Чем хороша тема: Раскрывает альтернативный взгляд на проблему оркестрации дата-платформы.
Кому будет полезно: Всем, кто что-то оркестрирует.
«Версионирование структуры баз данных на примере хранилища», Владислав Шишков
Владислав расскажет про версионирование структуры баз данных на примере хранилища в Lamoda:
- как ушли от SVN + Python + Jira + cron к Git + Liquibase + Bamboo;
- как решали вопросы удобства разработки структур баз данных и какие есть подводные камни;
- как поменяли процесс тестирования и деплоя.
Чем хорош спикер: Во время подготовки доклада Владислав обнаружил и исправил проблему в своем решении, добавив об этом информацию в доклад.
Кому будет полезно: Любой разработчик, который работает с любой базой данных, будь это простенький бэкенд апишки или же целое хранилище. После этого доклада участники смогут легко научиться версионировать код для баз данных и быстро с ним работать.
«CI/CD для Ml-моделей и датасетов», Михаил Марюфич
В индустрии многим знакома ситуация, когда вы быстро задеплоили модель, сделанную DS на коленке. А через месяц, когда ее нужно переобучить на новых данных или добавить новый признак, оказывается, что DS по каким-то странным причинам не может этого сделать (потерял код или стер данные, на которых создавал модель).
Вывод модели в продакшн — это не только ее упаковка в условный контейнер, но и фиксация процесса ее обучения, и дальнейший мониторинг ее работы. Подробное описание того, как модель была получена, позволяет избежать потерь знаний и результатов экспериментов.
Чем хорош спикер: Внедряет культуру MLOps в Одноклассниках.
Кому будет полезно: Дата-инженерам, перед которыми стоит задача продуктизации ML.
«Scio — data processing at Spotify», Neville Li
Scio — опенсорсный Scala API для Apache Beam и Google Cloud Dataflow, созданный Spotify для обработки петабайтов данных, как в режиме батчей, так и в потоковом режиме. Сейчас Scio используют десятки компаний.
Поговорим об эволюции big data в Spotify: от Python, Hadoop, Hive, Storm, Scalding до современного мира облаков и бессерверных вычислений. Рассмотрим, как выглядят классические кейсы использования «за кадром», например, Discover Weekly, Wrapped, a также трудности, с которыми пришлось столкнуться команде.
Поговорим и о некоторых фичах, которые выделяют Scio у Spotify из ряда других big data- фреймворков для Scala, включая Algebird, macros, shapeless и magnolia. Эти фичи делают обработку больших объемов данных легче, безопаснее и быстрее.
Industry use-cases
«Оцифровка рабочего в режиме реального времени», Алексей Коняев
«Цифровой рабочий» — это система, позволяющая определять местоположение людей и техники как на улице, так и внутри помещений с высокой точностью, а также получать телеметрию с различных датчиков.
В докладе речь пойдет о том, как с помощью Kafka, Clickhouse и Esper данные с носимых устройств доходят до интерфейса системы, где оператор в режиме реального времени может наблюдать за отслеживаемыми объектами, получать предупреждения о внештатных ситуациях и контролировать различные показатели на аналитической панели.
Кому будет полезно: Тем, кому нужно делать комплексную архитектуру или stateful-обработку данных.
«Enterprise data platform: Инфраструктура данных как полигон для проверки бизнес-гипотез», Андрей Жуков
Доклад об опыте S7 в построении платформы данных. Андрей расскажет, как соединить между собой прогрессивные технологии, красивые книжки о data governance и суровую реальность авиакомпании с легаси. А еще покажет, как уложить данные, следить за ними, делать их открытыми и нужными для каждого сотрудника компании.
Что S7 используют: Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.
Кому будет полезно: Тем, кому предстоит построить хранилище, чтобы узнать еще какие-то подходы. Всем, кто хочет построить свою платформу данных, но боится все сделать неправильно.
«Predictive Maintenance в S7: Как данные помогают сделать ваш полет безопаснее», Валентин Азанов
И еще один доклад от S7. Валентин расскажет об опыте S7 в анализе телеметрии с различных бортов, о способах работы с такими данными, созданных инструментах и крутых инсайтах.
Что S7 использует: Apache Spark, Apache Airflow, Python, R.
Чем хороша тема: Команда S7 решает сложную оптимизационную задачу, связанную с предсказаниями.
Кому будет полезно: Тем, у кого есть задачи с предсказаниями и оптимизациями, DE. Всем, кто хочет знать, как устроена телеметрия с самолетов.
«Сегментация: Единое окно для знаний о пользователе, Ольга Макарова, Мария Носарева
Мария и Ольга расскажут, как небольшой прототип, собранный на коленке на сдачу от системы сбора поведенческих данных, превратился в инструмент, позволяющий быстро запускать самые сложные по логике гипотезы.
Это хаб, позволяющий избежать части интеграций между микросервисами, и этим инструментом пользуются для решения совершенно разных задач: выделение аудиторий для коммуникаций, подготовка фич для машинного обучения, аналитики для отчетов и исследований, таргетирование рекламы в плеере и блоках приложения, решение об открытии определенных разделов приложения или применении новых цен.
Технологии в текущей версии: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.
Доклад рассчитан на широкую аудиторию и посвящен диалогу бизнеса с технологиями. В нем будут блоки про итеративную постановку задач и технологические решения.
Чем хороша тема: Доклад про то, как на бесплатных инструментах создать инструмент для получения информации о пользователе, которым сможет пользоваться простой бизнес-пользователь.
Architecture
«Retable DSL: Строим technology-agnostic data pipelines для современных стеков данных», Евгений Легкий
Retable DataFrame DSL — это новый open-source data pipelines DSL. C одной стороны, он сочетает в себе лучшие практики таких распространенных data-фреймворков, как Spark DataFrames и Python Pandas, с другой — является backend-agnostic, то есть не зависит от технологий бэкенда и позволяет исполнять data pipelines как поверх data warehouses в режиме ELT, так и в режиме ETL поверх data lakes, таких как Spark.
Евгений расскажет о современных тенденциях Modern Data Stack, о преимуществах и недостатках старого (ETL) и нового (ELT) подходов и причинах, которые привели к созданию своего независимого DSL. Также он поделится опытом, как удалось сочетать типизированный интерфейс для построения декларативных data pipelines, CI/CD-практики, скалируемость и возможность работать поверх любого стека — будь то Spark, Snowflake или генерация Pandas Code.
«Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных», Евгений Ермаков, Николай Гребенщиков
Общепринятым и проверенным временем подходом к построению DWH является схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален и совсем не отвечает той гибкости, к которой призывает Agile.
Для того, чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, Евгений пришел к неожиданному ответу: выбирать надо не между подходами, выбирать надо лучшее из двух подходов.
В своем докладе спикер расскажет:
- DV и AM: в чем разница и где точки соприкосновения;
- «гибридный» подход к построению хранилища;
- «фишки» этого подхода, его сильные и слабые стороны;
- примеры кода, как это работает;
- дальнейший вектор развития модели.
Чем хороша тема: Рассказывают новый интересный подход к построению архитектуры DWH.
Кому будет полезно: Архитекторам хранилищ данных и дата-инженерам, причастным к построению архитектуры DWH.
«Подходы к построению современной платформы данных. Проблематика и концепция реализации», Александр Ермаков
Александр расскажет об основных характеристиках современной платформы данных, о различиях в архитектуре DWH, об используемых компонентах и опенсорсном дистрибутиве Hadoop.
Чем хороша тема: Верхнеуровневый обзор возможной архитектуры с исторической частью
Кому будет полезно: Дата-инженерам, которые хотят погрузиться глубже в технические детали Hadoop, разработчикам, которые хотят перейти в data engineering.
«Обработка миллиардов событий в день с эволюционирующей схемой», Сергей Иванычев
При динамично развивающемся проекте появляется много новых событий, новых проектов и схожих событий внутри них. Схема событий также часто меняется. Нужно построить DWH, который устойчив к изменению схем событий и добавлению новых событий. Это предоставляет удобный интерфейс для добавления новых схем и их изменения, для доставки событий, а также обратную совместимость со схемами событий и минимизацию издержек на их обработку.
Что будет в докладе:
- нюансы потоковой обработки событий;
- как построить высоконагруженное хранилище данных, устойчивое к постоянным изменениям бизнес-требований;
- как работать с динамически меняющимися схемами.
Применяемые технологии: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.
Чем хороша тема: Актуальна и применима: непредсказуемо меняющиеся схемы — это больная точка многих пайплайнов обработки данных и в Joom придумали, как это решить.
Кому будет полезно: DE, которые сталкиваются с этой проблемой.
Почему здесь и сейчас: Доклад от компании с огромными объемами данных.
«Наше хранилище для веб-аналитики», Артур Хачуян
На примере истории построения хранилища для сервиса расширенной веб-аналитики Артур расскажет, как за последние пять лет эволюционировала система хранения и генерации отчетов в его проекте. Также он расскажет про кластерную файловую систему, железки, MongoDB с надстройками и генераторами дашбордов.
Чем хороша тема: Расскажет про масштабирование от первых кастомеров до больших данных.
Other
«Низкий уровень работы с данными», Николай Марков
Нам очень хочется, чтобы код, который мы пишем, работал быстрее. Чтобы этого добиться, можно воспользоваться современными программными и аппаратными возможностями вашей машины. Николай расскажет о нескольких технологиях, которые помогут вам выжать из машины больше — JIT, BLAS и параллельность.
«Инициирующая загрузка в NiFi», Бронислав Житников
Apache NiFi хорош в потоковой загрузке небольших порций данных, но многие процессы подразумевают, что данные появились в источнике не одновременно с релизом потока в NiFi, а задолго до него. И в источнике есть накопленный объем данных, который сложно назвать небольшим. Кроме того, иногда возникает необходимость перегрузить данные из источника в связи с изменениями, произошедшими при процедуре обработки.
Брониславу хочется поделиться набором практик и рекомендаций по выполнению задач инициирующей загрузки и повторной загрузки данных, а также рассказать о проблемах, которые возникают при выполнении инициирующей загрузки.
Если нашли в обзоре интересные для себя доклады, то ознакомиться с информацией подробнее и купить билет можно на сайте. А мы напоследок напомним, что конференция — это не только доклады. И в этот раз мы даже сделали «виртуальную площадку», где общение с другими участниками и посещение виртуальных стендов партнёров похоже на двухмерную игру. Ждём вас на SmartData онлайн с 9 по 12 декабря!