Вы часто выступаете на конференциях? Вещаете со сцены о чём-то клёвом, что сделали в компании? Делитесь опытом в оффлайне перед сотнями людей? Я никогда не выступал ни на одной конференции. Но тут решил, что надо, и подался, да не куда-нибудь, а на Data + AI Summit, проходящий в Сан-Франциско.

Привет! На связи Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я и расскажу о том, как со своим коллегой Глебом Лесниковым, нашим Head of Architecture, ездил на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.

Как мы нашли друг друга с Databricks

В дата-сообществах давно обсуждают тему self-service дата-платформ. В разных странах их внедряют разные компании, используя самые разные стеки технологий. Тут надо вспомнить ежегодно обновляемый data landscape, ставший мемом:

Data Engineering Landscape, взято отсюда
Data Engineering Landscape, взято отсюда

Особенно актуальным построение таких платформ стало с появлением и распространением концепции Data Mesh. Она предполагает, что вместо централизованного озера данных каждая продуктовая команда владеет своим доменным дата-продуктом и публикует его в общий каталог. А платформенная команда предоставляет self-service инфраструктуру (каталог, CI/CD, безопасность и т.д.) В итоге управление распределяется по доменам, а стандарты и технологии остаются едиными.

Мы начали строить свою self-service дата-платформу почти 5 лет назад. За это время мы и достигли многого, и набили немало шишек.

Да и случай Додо нетипичен. Потребность в данных и их интерпретации растёт, а собрать data-департамент из 100 человек, которые будут создавать пайплайны по запросу бизнеса, мы не можем.

Поэтому мы и решили собрать self-service решение. С его помощью аналитики, ML-инженеры и другие не дата-инженеры смогут работать с данными самостоятельно, оперативно выкатывая в прод таблицы, дашборды, ML-модели и т.д.

Так и появилась идея нашего доклада — Building a Self-Service Data Platform with a Small Data Team. В нём мы рассказываем о внедрении data-driven решения, позволившего не растить численность дата-инженеров.

Во многом доклад посвящён проекту job-генератор. Его идея заключается в том, чтобы вынести всю boilerplate-логику в jinja-шаблоны.

Пользователю останется только выбрать верный шаблон и закоммитить пару конфигов в GitHub. На основе jinja-шаблонов job-генератор создаст PySpark-джобу или пайплайн и задеплоит его в Databricks.

Job-генератор создала команда всего из 4 человек, а в наших Databricks-окружениях крутится уже более 1700 джоб. При этом 90% из них были созданы пользователями с помощью генератора, а остальные 10% — это «самописный» PySpark-код.

В общем, мы подумали, что наш job-генератор достоин всемирной известности. Поэтому и решили рассказать об этой разработке на международной конференции.

Подаём заявку на конференцию

Процесс подачи заявки на конференцию в Сан-Франциско мало чем отличается от аналогичного в России. Формулируете тему доклада и его овервью, отправляете заявку на рассмотрение.

Нашу заявку на участие одобрили почти за две недели. Сложнее было оформить документы и получить американскую визу, даже несмотря на то, что организаторы Data + AI Summit присылают всем спикерам визовые приглашения.

С приглашением я поехал в Астану, где и подался на получение визы через визовых агентов. За заполнение документов и запись в консульство я заплатил около 17000 рублей. В целом, всё прошло быстро:

  • 9 апреля я отправил заявку агентам;

  • 17 апреля прошло собеседование, а мою заявку одобрили;

  • 18 апреля я улетел домой с визой.

Внутри компании оформление командировки прошло максимально быстро. Поездку согласовали и профинансировали менее чем за два дня. Тут отдельная благодарочка улетает коллегам!

Ориентируемся на местности

Конференция проходила 9-12 июня в Сан-Франциско. Местом проведения стал Moscone Center — комплекс, состоящий из трёх зданий. Масштаб обусловлен количеством докладчиков и гостей — всего было 700 сессий, а прилетело на конференцию более 20000 человек.

Площадка была выбрана удачно. Все три здания Moscone Center — North, West и South — располагаются рядом, что удобно, если интересующие тебя сессии проходят в разных зданиях. Толкучки не было, хотя на всех сессиях и было многолюдно.

Moscone Center
Moscone Center

Залы для выступлений распределялись в зависимости от количества желающих посетить ту или иную презентацию. У нас слушателей было много, так что нам выделили один из самых больших залов — около 400 мест.

Наше выступление
Наше выступление

Между выступлениями мы ходили по стендам различных дата-решений от Fivetran, Dagster, Astronomer и других более или менее известных в индустрии продуктов. А чтобы развлечь посетителей, организаторы придумали квесты для получения мерча — никаких вам халявных футболок.

Четыре цепочки квестов для получения мерча в приложении Databricks Data Summit
Четыре цепочки квестов для получения мерча в приложении Databricks Data Summit


Какие-то квесты были попроще, а какие-то посложнее. Например, участники одного должны были найти и сфоткать гоночную машину (и такая там была), а участники другого — посетить встречу-дебаты на темы, касающиеся аналитики и дата-инженерии, и высказаться на ней. Мы так, например, CDC-инструменты обсуждали.

Информация о квестах, времени сессий и расположении залов была в удобном приложении конференции. Что-то не найти или куда-то опоздать было сложно.

Моё расписание сессий в том же приложении
Моё расписание сессий в том же приложении

Антураж выставки в целом был очень интересный! Про квесты и гоночный болид я уже рассказал, но вы посмотрите на эти названия блюд в меню:

Распределяем время на конференции

В первый день обычно проходят платные воркшопы для клиентов Databricks и всех желающих, а основные доклады начинаются с 10 июня. Все сессии делились на три вида:

  • Lightning Talk — 20 минут;

  • Breakout Session — 40 минут;

  • Deep Dive — 90 минут.

Наше выступление проходило в формате Breakout Session. 30 минут мы выступали и ещё 10 отвечали на вопросы из зала.

Слушаем коллег и выступаем сами

На Data + AI Summit выступали как индивидуальные контрибьюторы, так и представители C-level'а самых разных компаний. Можно было услышать доклады как на бизнесовые, так и на технические темы.

При этом часть докладов была от самой компании-организатора Databricks, а остальные — от приехавших на конференцию компаний. Среди них были Adobe и ByteDance, AT&T и Riot Games и другие.

Самое большое внимание гостей было приковано к Databricks Keynotes. Это большие 2-3 часовые доклады Databricks о ключевых новых фичах их продукта:

  • Lakebase — serverless PostgreSQL с раздельными storage/compute, построенный на базе технологии Neon Database;

  • Databricks Free Edition — бесплатная версия Databricks для всех желающих обучиться работе с данными;

  • Agent Bricks — новый сервис Databricks для быстрой разработки, оценки и оптимизации AI-агентов прямо в Lakehouse-платформе;

  • Real-time mode для стриминговых задач с задержкой < 300 миллисекунд.

Кстати, keynote-сессии, как и другие доклады, уже выложены в публичный доступ. Можете найти их тут и тут, а остальные на YouTube-канале Databricks.

А ещё в этом году выходит Spark 4. Это большое событие, поэтому фичам новинки было посвящено несколько отдельных сессий. Databricks рассказали о декларативных пайплайнах, новом типе данных Variant и появлении Python Data Source API и т.д.

Об уже существующих фичах своего продукта ребята из Databricks тоже рассказывали. Можно было услышать про Data Quality с использованием DQX, про использование и масштабирование Databricks Asset Bundles, и т.д.

Из выступлений приехавших на конференцию компаний мне запомнилась сессия Riot Games. Они рассказали, как используют data-driven подход в борьбе с читерами в игре Valorant. Тут можно узнать, как они классифицируют читы и борются с ними, а ещё почитать об их собственной разработке — системе защиты от читов Vanguard.

Я хоть и интересуюсь играми, но не знал что читы устроены настолько сложно
Я хоть и интересуюсь играми, но не знал что читы устроены настолько сложно

Но это впечатления слушателя, а что меня порадовало как спикера? Аудитория была приятная, вопросы из зала — интересные, а атмосфера — поддерживающая. Последний пункт для меня особенно важен — помним, что это моё первое выступление на конференции, митапе и подобных ивентах вообще.

Как я уже говорил, зал нам выделили большой, посадка была плотная, а значит и тема многих заинтересовала. Приходили причём не только послушать, но и пообщаться: после сессии показывали гостям пару «боевых» примеров работы нашего job-генератора.

Отдельного абзаца достойна подготовительная комната для выступающих. Туда можно прийти за пару часов до выступления, прогнать его на тестовом стенде с компьютером и внести в него правки. Кажется, у нас на конференциях такого пока нет. Но я был не на каждой, так что если я ошибаюсь, поправьте меня в комментариях, пожалуйста.

Ну и без ошибок мне как новичку никуда, конечно. Урок, который я вынес из первого выступления: всегда создавать себе Speaker Notes в PowerPoint перед презентацией. Мой коллега Глеб сделал их себе, а я не стал, поэтому ему выступать было легче, а мне некоторые вещи пришлось вспоминать на ходу.

На этом мы, конечно, не закончим рассказ о смысловой части Databricks Data + AI Summit 2025. О других выступлениях и сессиях, трендах и тенденциях индустрии, а также о наших впечатлениях от услышанного и увиденного вы сможете узнать из следующей статьи.

Считаем деньги и делаем выводы

В этой статье нам остаётся рассказать всего об одном аспекте поездки: сколько это всё стоит? Примерная стоимость на лето 2025 года — 350-400 тысяч рублей на человека. Сюда мы включаем стоимость авиабилетов и проживания в отеле недалеко от самого Moscone Center.

Отдельно придётся заплатить за получение визы. Как я уже говорил, мне она обошлась в 17000 рублей, плюс стоимость перелёта в страну подачи заявки — в моём случае в Казахстан.

Завтраки и обеды входили в стоимость входных билетов, но на них надо было успеть. Как-то раз, опоздав на обед, мы с Глебом столкнулись с ситуацией, когда осталась только веганская еда. Видимо, её не едят даже в Калифорнии.

Время в поездке вообще стоит расходовать с умом. Обязательно посетите большие презентации от организаторов. Там обычно показывают ключевые фичи, которые будут актуальны следующие несколько лет.

Выбирая презентации других компаний, ходите на те, что вам интересны. А главное — кайфуйте от происходящего вокруг!

Ну и не забывайте, что любая конференция — это место встречи коммьюнити. Так что общения будет много, а если вы не мастер смолл-токов, придётся учиться на ходу.

Спасибо, что дочитали статью! Ставьте плюсики, если материал показался вам интересным, и делитесь им с друзьями. А чтобы быть в курсе последних новостей Dodo Engineering, подписывайтесь на наш Telegram-канал. Там же вы сможете найти и наш репортаж со всех дней конференции Data + AI Summit 2025 — кружочки, фоточки и не только.

Комментарии (0)