Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference. Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики представляли свои идеи и технологии на примере вымышленной базы данных интернет-магазина. 

Автор пересказывает выступления о том, как с помощью ПО с открытым исходным кодом можно контролировать потоки клиентских данных в компании, решать задачи управления данными, Data Privacy, повышения эффективности работы Data-специалистов.

Открывающий доклад: технологические переходы и Open-Source-решения


Запись выступления

Пять-десять лет назад никто и представить не мог, какие возможности появятся у специалистов по обработке данных благодаря современному стеку технологий. Дата-инженеры создают эффективные пайплайны данных, а аналитики перенимают передовые методы программирования. Все это стало возможным благодаря Open Source.

James Densmore рассказал, как мы к этому пришли и как сегодня Open Source технически и стратегически вписывается в работу команд по обработке данных. Вот важные технологические переходы, благодаря которым современный стек данных сложился в том виде, в котором мы его знаем.

От строк к столбцам. Лет десять назад хранилища были в основном базами OLTP, в которых данные хранились на уровне строк — например, MySQL или PostgreSQL. Такие базы данных подходят для приложений, которые читают и записывают небольшие наборы записей, а все столбцы в них умещаются в одну запись. 

Но у современных таблиц огромная ширина и глубина. И столбцовое хранение позволяет проще распределять данные по множеству узлов.

От локальных к облачным хранилищам. Во времена локальных хранилищ компаниям приходилось покупать дорогое оборудование, устанавливать его в серверной, обеспечивать для него техническую поддержку, а при необходимости масштабировать. Облачные хранилища данных кардинально изменили ситуацию. Теперь работа с крупными наборами данных и масштабирование стали простыми и доступными.

Почитать по теме: Архитектура S3: 3 года эволюции VK Cloud Storage

От ETL к ELT. Экономичные столбцовые хранилища данных совершили революцию. Раньше для хранения данных и оптимизации производительности нужно было сначала извлекать и преобразовывать данные, а потом загружать их в традиционную базу данных. 

Теперь эти шаги можно пропустить и оставить на потом. Дата-инженеры могут извлекать и загружать, а аналитики — самостоятельно преобразовывать данные.

Сегодня таких специалистов называют еще инженерами-аналитиками. Они все меньше отличаются от разработчиков, заимствуют методы работы программистов: контроль версий, модульное тестирование, отдельные среды для разработки и эксплуатации и т. п.

Open-Source-сообщество вносит в эти перемены свой вклад:

  • Open-Source-проекты заполняют брешь в парадигме ELT и ELT+. У дата-инженеров есть инструменты для подключения и оркестрации потоков данных. У инженеров-аналитиков есть инструменты преобразования данных. Появились операционные инструменты аналитики, благодаря которым команды по обработке данных направляют проанализированные данные в операционные системы, например в CRM и маркетинговые системы.
  • Подход «выбираем инструменты одного поставщика» больше не актуален. Теперь можно выбрать Open-Source-инструменты, которые лучше всего подходят вам в той или иной точке пайплайна данных. Мы больше не ограничены одним крупным поставщиком.
  • Вопрос «создать самому или купить» больше не сводится к выбору из двух вариантов. Open Source поддерживает интеграцию с коммерческими продуктами, которые вам нужны. Не требуется подстраиваться под поставщика, меньше риск попасть от него в зависимость.
  • Поддержка целого сообщества привносит в культуру команд по работе с данными удивительную энергетику. Если вы руководитель, подумайте о создании в Slack или Meetups сообществ вокруг Open-Source-инструментов для их поддержки и развития. Разработчики с удовольствием занимаются Open-Source-проектами (код, финансирование, знания и т. п.) — так предоставьте же им такую возможность!

В дополнение к ELT Джеймс вкратце остановился на нескольких важных тенденциях:

  • Операционная аналитика, также известная как Reverse ETL, будет развиваться дальше. Этот набор инструментов позволяет тем, кто разбирается в данных, доставить их в те системы, где они необходимы и принесут максимальную пользу. Вопрос в том,  есть ли у вас инструменты, которые позволят внедрить операционную аналитику и при этом не потерять контроль над потоками данных. 
  • Защита данных и конфиденциальность перестали быть приятным бонусом. С Open Source вы наконец получили возможность полностью владеть собственными данными. Стали доступны Data Governance, наблюдаемость и обнаружение. Сегодня, чтобы загрузить данные в хранилища и озера, преобразовать их в модели и создать дашборды, требуется меньше времени и денег, чем когда-либо. Но как все это отслеживать? Как людям все это находить? Как узнать, все ли работает как надо?

Оценивая будущие перспективы, Джеймс подчеркнул, что возможности специалистов по работе с данными продолжают расти:

  1. Инженеры-аналитики становятся более автономными и независимыми.
  2. Все больше компаний будут работать с децентрализованными данными.
  3. К данным будут относиться как к объекту первого класса. В этом контексте организации, работающие с данными централизованно, будут создавать внутренние BI-платформы. Им придется использовать все возможности программирования и сосредотачиваться скорее на инфраструктурных или ключевых активах данных, чем на моделировании данных для конкретной области.

И наконец, Open Source останется драйвером инноваций для современного стека данных. Успехи Open Source в программировании не случайны, так что ожидаем тех же свершений и в аналитике!

Анализ поведения потребителей в Snowplow 


Запись доклада

Чтобы создать масштабируемую Open-Source-платформу данных, нужен мощный механизм сбора, обогащения и направления данных о поведении потребителей в потоки событий, хранилища и озера данных. Алекс Дин (Alex Dean) рассказал о своей работе в компании Snowplow и о том, как собирать данные о поведении потребителей из всех платформ и каналов, а потом обогащать и загружать их в нужные системы.

Snowplow — это мощный инструмент для сбора данных о поведении потребителей. Он предоставляет  SDK, реестр схем, функции обогащения данных и загрузчики данных в хранилище. По сути, это Open-Source-пайплайн обработки данных. Он загружает данные в хранилища Snowflake, Redshift, BigQuery, S3, PostgreSQL, Kafka и другие.

Также Snowplow поставляется с в dbt-моделями, поскольку они сокращают сроки работы с аналитикой и дата-продуктами, опирающимся на данные о поведении потребителей. Команда Алекса создала dbt-модель в Snowplow для работы с данными о поведении потребителей на сайте. Сейчас они работают над второй dbt-моделью для данных о поведении потребителей в мобильных приложениях.

С момента запуска в 2012 году Snowplow остается Open-Source-проектом, работающим по лицензии Apache 2.0. Команда проекта всегда стремилась сделать свою платформу доступной для широкого круга компаний, поэтому разрабатывает инструмент, для поддержки которого не нужна большая команда дата-инженеров. Кроме этого, Snowplow:

  1. Поддерживает Data Sovereignty. Данные о поведении потребителей, которые проходят через Snowplow, остаются у клиентов, а не в Snowplow.
  2. Повышает уверенность в решении. Пользователи могут проводить аудит и инспектировать весь код обработки данных.
  3. Поощряет создание кода другими разработчиками для решения конкретных задач. У Snowplow модульная протокол-ориентированная архитектура, так что разработчикам нетрудно добавлять необходимые возможности.
  4. Устраняет риск Vendor lock-in. Преимущество Open-Source-решений в том, что такие программные продукты будут существовать долгое время на приемлемых для пользователей лицензионных условиях.


Типовая архитектура пайплайна Snowplow

У Snowplow есть и коммерческая версия, Snowplow Insights, недавно переименованная в Snowplow Behavioral Data Platform. Она предоставляет пользовательский интерфейс, что помогает решать задачи по работе с данными потребителей. Как решить, какие данные о поведении потребителей надо собирать? Как их структурировать? Как часто повторять сбор, чтобы информация оставалась актуальной? Как гарантировать точность и полноту данных?

Snowplow Insights продается как частная SaaS. Как объяснил Алекс, это отличная модель для Open-Source-инфраструктуры данных. И хотя Snowplow Insights — это SaaS-решение, оно выполняется в сети клиента. В результате:

  • данные о поведении потребителей всегда остаются в учетной записи AWS/GCP клиента, так что он сохраняет полный контроль над данными;
  • Snowplow берет на себя развертывание, мониторинг, масштабирование и обновление платформы;
  • пайплайн данных клиента взаимодействует с централизованным пользовательским интерфейсом Snowplow.

Вот как среднестатистическая компания может настроить Snowplow:

  1. Определить схемы для конкретных событий и сущностей.
  2. С помощью SDK Snowplow внедрить отслеживание данных на сайте и в мобильном приложении, а также отправку событий и сущностей в Snowplow.
  3. Настроить в Snowplow обогащение данных и развертывание моделей dbt.
  4. Начать работу с данными Snowplow в хранилище данных.

Snowplow предоставляет разнообразные данные о поведении потребителей. Они отправляются в виде JSON со ссылкой на соответствующую схему. Схемы имеют версию и относятся к тому или иному пространству имен. Помимо JSON-события, поддерживается работа с массивами связанных сущностей. Эти данные проверяются и размещаются в хранилище в таблицах, поддерживаемых Snowplow.

Чтобы начать работу со Snowplow, можно:

  1. Запустить Open Source Quick Start. Это набор модулей Terraform для быстрой настройки и запуска пайплайна Snowplow в AWS. Он поддерживает работу с Kinesis, S3, PostgreSQL и Elasticsearch. Скоро этот список дополнят GCP и BigQuery. Это удобный способ запустить рабочий пайплайн Snowplow для загрузки данных в S3, Redshift или Snowflake.
  2. Попробовать бесплатную пробную версию Try Snowplow. Развертывание занимает пять минут, учетная запись AWS или GCP для этого не нужна. Такое решение подходит для дата-аналитиков, которые не имеют опыта в DevOps, но хотят научиться работать с данными в Snowplow. Так можно быстро приступить к использованию коммерческого продукта Snowplow Behavioral Data Platform.

ELT с Meltano


Смотреть доклад

Прежде чем погрузиться в данные и извлечь ценную информацию для своей компании, вам придется решить задачу по извлечению и загрузке данных. Можно написать пользовательский код, но не лучше ли решать эту проблему не в одиночку, а сообща? Тейлор Мёрфи (Taylor Murphy) показал, что Open Source и поддержка сообщества — лучший способ построить крепкий фундамент и светлое будущее для любой платформы данных. Его компания Meltano создает решение для извлечения и загрузки данных в хранилище из разных источников: баз данных, сторонних API, файлов.

Команда по обработке данных нужна, чтобы компания могла принимать более продуманные решения. Для этого команда создает дата-продукты и добавляет инструменты в платформу данных.

  • Дата-продукт содержит все данные, циркулирующие между людьми, системами и процессами: каждый анализ, выполненный командой, каждый инструмент, поддерживающий функции анализа, каждую электронную таблицу, с которой работает команда. Если люди используют что-то для принятия решений, оно становится частью дата-продукта.
  • Дата-продукт — это не какой-то отдельный инструмент или элемент программного обеспечения. Это не сущности, которые создает  или которыми управляет команда по работе с данными. И не тысячи других выполняемых задач.

Тейлор говорит о данных в контексте продукта, потому что хорошие компании — это продуктовые компании. У них есть продакт-менеджеры, UX-исследователи, дизайнеры, инженеры, технические писатели, и все они решают проблемы клиентов. У хороших продуктовых команд есть концепция и стратегия развития продукта с прицелом на прибыль и преимущества для бизнеса.

Если перенести эти идеи в контекст работы команд по обработке данных, им тоже нужны четкая концепция и стратегия, глубокое понимание своих заказчиков (сотрудников) и разнообразные навыки. Всё это помогает итеративно разрабатывать дата-продукт с необходимыми фичами и позволяет компании принимать взвешенные решения. А руководитель команды по обработке данных отвечает за стратегию и набор функций дата-продукта.

По мере взросления компании у нее увеличивается количество источников данных, ужесточаются требования к безопасности, растет команда, повышается потребность в финансировании, а процессы становятся более зрелыми.

В худшем случае ваш инструмент не поддерживает ваши сложные API, базы данных и файлы и не работает нормально с вашим стеком или процессами. Вам нужно каждый раз согласовывать требования при подключении новых источников данных. К внутренним базам данных возникают вопросы безопасности, конфиденциальности и соблюдению законодательных требований. К техподдержке не всегда можно обратиться за помощью, потому что команда по обработке данных находится уровнем ниже.

В лучшем случае ваш инструмент поддерживает ваши сложные API, базы данных и файлы и нормально работает с вашим стеком или процессами. Вам не приходится каждый раз согласовывать требования при подключении новых источников данных. Нет вопросов по безопасности данных, конфиденциальности и соблюдению законодательных требований для внутренних баз данных. Можно обратиться за помощью к сообществу. 

Чтобы избежать худшего варианта и прийти к лучшему, Тейлор предлагает сосредоточиться на трех ключевых моментах: Open Source, стандартах и DataOps.

  1. Почему Open Source? Самое важное в Open Source — это сообщество. Открытость миру. Гибкость, контролируемость и возможность отладки.
  2. Почему решения должны основываться на стандартах? Решение, в основе которого лежит точно известная спецификация, точно будет работать. Общие стандарты позволяют большому сообществу вместе решать похожие проблемы. Кроме того, компания может воспользоваться уже готовыми решениями. Для работы с данными Meltano использует Singer в качестве Open-Source-стандарта и поддерживает более 300 коннекторов в этой экосистеме.
  3. Почему DataOps? DataOps основывается на принципах Analytics-as-code, воспроизводимости, возможности повторного использования и непрерывности. Переход на DataOps позволяет командам по обработке данных с уверенностью совместно разрабатывать дата-продукты.

Эти три аспекта позволяют командам по обработке данных создавать прочный фундамент для лучшего сценария, который мы описывали выше.

Оркестрация с Dagster


Запись доклада

Итак, все части платформы данных у вас настроены. Теперь нужно убедиться, что они нормально работают вместе. Как решать задачу оркестрации сложных потоков данных в различных системах, например запуск задач на преобразование данных в DWH, которые должны отработать только после загрузки многочисленных внешних источников? Как интегрировать внешние инструменты с Python notebooks, которые запускают обучение ваших моделей машинного обучения? Что будет, если что-то выйдет из строя, и как об этом узнать? Ник Шрок (Nick Schrock) показал, как с помощью оркестратора наладить взаимодействие инструментов и при этом получить полную картину происходящего на вашей дата-платформе.

В современной платформе данных  оркестратор управляет взаимодействием всех входящих в нее технологий. Инструменты и системы могут взаимодействовать между собой самыми разными способами. Например, нельзя запустить dbt, если данные еще не попали в Snowflake или другое хранилище. Reverse ETL (например, Grouparoo) обновляет данные в операционных системах только после того, как dbt обновил свою модель.

Оркестратор — это своего рода прозрачная колба, где можно:

  • определять зависимости между технологиями;
  • понять, как потоки данных проходят из одной точки в другую;
  • изучать оперативную информацию по любому запущенному процессу, например сведения о сбоях, логи.

Хотя современный набор инструментов и платформ для работы с данными прошел большой путь, Ник утверждает, что рабочие процессы специалистов по обработке данных все еще остаются довольно хрупкими. И это несмотря на относительно эффективный инструментарий. Для многих специалистов, работающих с современными платформами данных, оркестратор — недостающее звено в цепи, столь же необходимое, как и облачное хранилище или инструменты приема и преобразования данных.

Python или пользовательский код всегда присутствует в современной дата-платформе. В некоторых случаях до загрузки данных в хранилище их нужно радикально преобразовать и отфильтровать. В других случаях придется иметь дело с пользовательским источником данных, для которого нет готового коннектора. А может быть, для работы самой платформы вообще нужны пользовательские скрипты. Когда данные попадут в хранилище, у вас снова будет повод вернуться к пользовательскому коду Python. Например, этот язык активно используют в машинном обучении для создания фичей и обучения моделей. Поэтому дата-инженерам нужно уметь контролировать этапы с использованием пользовательского кода Python так же свободно и уверенно, как они используют dbt для работы с SQL.

С точки зрения категории оркестрация имеет базовый набор требований к функциональности:

  1. Оркестратор должен уметь эффективно выстраивать последовательность разных этапов преобразования данных, позволять запускать по расписанию эти процессы. Он должен однозначно определять зависимости между разными инструментами. Как правило, использование оркестратора значительно проще и приводит к меньшему количеству ошибок и сбоев, чем при использовании cron.
  2. Оркестрация также обеспечивает наглядное представление выполняемых потоков по обработке данных. В целом она сохраняет сведения о выполненных запусках и поддерживает различные способы алертинга, если что-то пошло не так.


Схема работы оркестратора Dagster

Dagster обладает следующими особенностями:

  1. Собирает и хранит сведения о данных и активах. Dagster — интеллектуальное решение, способное проводить данные через необходимые этапы, по ходу дела генерируя полезные метаданные.
  2. Создан с акцентом на высокую эффективность разработчика. Оркестратор должен функционировать как катализатор производительности, а не как препятствие, которое нужно обойти, чтобы выполнить программный код. Dagster создан для удобства разработчиков: имеет API, с которыми удобно писать тесты, не взаимодействующие с рабочими базами данных, и пользовательский интерфейс, с которым отлаживать пайплайны не просто удобно, а даже весело.
  3. Центральная система регистрации. Именно в Dagster вы определяете дата-платформу.

В конце выступления Ник отметил, что будущее современной платформы для работы с данными будет более гетерогенным, чем сейчас принято считать в сообществах специалистов. Готовых инструментов приема данных не хватит на все случаи жизни, SQL не подомнет под себя все вычисления, а хранилища не заберут себе все данные.

Потребности компаний быстро перерастут нынешние представления о платформе данных. В результате текущий набор инструментов либо будет развиваться и расширяться, либо войдет в состав более масштабной платформы. Но принципы, которые делают эффективными текущие решения, останутся прежними:

  • возможность использования с облачными технологиями;
  • готовые решения как предпочтительный вариант;
  • взгляд на вещи с позиции разработчика.

Преобразование с dbt


Запись доклада

Что происходит после загрузки данных в хранилище? Их нужно преобразовать в соответствии с вашими задачами. Вот здесь и пригодится dbt — инструмент преобразования данных, с помощью которого команды могут быстро развертывать код для решения аналитических задач в соответствии передовыми методами разработки: модульность, переносимость, CI/CD и документация. Теперь каждый, кто знаком с SQL, может создавать рабочие пайплайны данных. Джулия Шоттенштейн (Julia Schottenstein) рассказывает о процессах, реализуемых с помощью dbt, и в небольшой демонстрации показывает, как работает платформа.

Компания dbt Labs помогает устранять проблемы с рабочими процессами в аналитике. Она разработала инструмент dbt, с которым Data-специалистам для решения задач моделирования, тестирования наборов данных и подготовки документации нужен только SQL. Платформа работает согласно стратегии Open Core:

  • dbt Core отвечает за преобразование, тестирование и подготовку документации;
  • dbt Cloud — проприетарный продукт, позволяющий просто и уверенно разрабатывать и развертывать модели dbt.

Переход на облачные хранилища данных изменил и способы преобразования данных. Раньше оно было долгим и трудоемким, потому что большей частью выполнялось до размещения данных в хранилище (устаревший ETL). Благодаря облачным хранилищам снизилась стоимость хранения и вычислительных операций, а это позволило преобразовывать данные «на месте» (современный вариант ELT). Переход от ETL к ELT создал пространство, в котором за счет dbt фундаментально изменились аналитические процессы. Дата-инженеры хранят практически все данные в облаке, а сотрудники, отвечающие за приоритеты бизнеса, решают, как им моделировать и преобразовывать данные для решения своих задач.

Сегодня есть два основных способа преобразования данных: традиционные ETL-инструменты, предлагающие GUI для отправки данных, и пользовательский код на Python с планировщиками. У каждого из методов есть свои преимущества и общая проблема. Для управления преобразованием данных нужны высококвалифицированные специалисты, которых не так-то просто найти. Их работа стоит дорого и не может быть масштабирована — у процесса возникает узкое место. А сотрудник, которому нужно выразить бизнес-логику, не умеет работать с инструментами преобразования данных. Аналитики начинают зависеть от небольшой группы узких специалистов, которые создают таблицы очищенных данных для анализа. Наконец, процесс обработки данных замедляется из-за множества запросов и уточнений. Появляется фрустрация от того, насколько трудно получить данные в нужном виде — из-за этого команды готовы примириться с неидеальным результатом.

dbt решает эти проблемы с процессом обработки данных и избавляет от фрустрации:

  • SQL — это язык каждого современного облачного хранилища, его знает каждый аналитик и разработчик. Создавая решения на базе модульного Portable SQL, dbt повышает скорость преобразования данных и делает его доступным для большего числа людей в команде;
  • dbt отличается скрупулезностью тестирования и непрерывной интеграцией, поддерживает контроль версий и автоматизированную документацию — все это обеспечивает скорость и надежность решения.

Хотя преобразование — это основное, что делает dbt, на этой платформе также можно разрабатывать, тестировать, отражать в документации и развертывать модели данных. При этом в dbt все вычисления производятся в хранилище, и в результате обеспечивается безопасность: данные не покидают хранилище, а операции с ними занимают меньше времени из-за отсутствия задержки в сети.

dbt также активно инвестирует в метаданные, чтобы помочь командам по обработке разрешать возникающие инциденты, понимать происхождение наборов данных, повышать производительность и качество. Как среда, которая отвечает за преобразование и создание данных, dbt занимает уникальное положение, которое позволяет отслеживать, как меняется бизнес-логика и сами данные. В результате dbt может предоставить ценную информацию для потребителей данных.

Среда разработки dbt ориентирована на четыре результата:

  1. Совместная работа: код dbt написан на SQL и самодокументируется. Все могут работать вместе.
  2. Скорость: dbt сосредоточен на аналитике, а не на инфраструктуре. Команды могут получать дата-продукты в три раза быстрее.
  3. Качество: пользователи dbt могут тестировать и работать, исходя из одних и тех же предпосылок, получая согласованные результаты.
  4. Data Governance: dbt стандартизирует процессы и контроль доступа, чтобы упростить соблюдение законодательных требований.

dbt — не просто программное обеспечение, это решение помогает людям работать по-новому. Когда dbt оказывается в центре платформы данных, работа команд становится проще, быстрее и позволяет получить более надежные дата-продукты. Джулия подчеркнула, что миру нужно больше пурпурных людей — тех, кто совмещает глубокое понимание бизнес-контекста и широкие технические знания. Инженеры-аналитики — это  пурпурные люди. Именно они ведут компании к земле обетованной, где данные помогают принимать по-настоящему обоснованные решения для бизнеса.

Анализ данных с помощью Superset


Запись доклада

Итак, у нас есть современная платформа данных для хранения и вычислений. Пришло время выбрать BI-платформу, чтобы ваша компания могла делать наглядные выводы из имеющихся данных и использовать для своих нужд. Макс Бичемин (Max Beauchemin) рассказал, с какими трудностями он столкнулся при использовании проприетарных BI-платформ и что подтолкнуло его к созданию Apache Superset.

В марте Макс опубликовал пост о том, что Open Source — будущее бизнес-аналитики. Он утверждает, что устаревшие BI-инструменты слишком негибкие, дорогостоящие и трудные в использовании. Open-Source-BI-решения — открытые, гибкие и легко настраиваемые под конкретные требования. Кроме того, эти решения выигрывают от инноваций и поддержки сообщества, их можно интегрировать с современными технологиями работы с данными. Они позволяют компаниям избежать зависимости от отдельного поставщика и сократить сроки создания ценности для компании.

Макс создал Apache Superset в 2014 году, когда работал в Airbnb. Это самая популярная Open-Source-BI-платформа, которую используют все больше дата-профессионалов со всего мира. Неоспоримые преимущества этого решения:

  1. Универсальная платформа для работы с данными. Superset — единая платформа для динамического дашбординга, исследований без кода и глубокого анализа с помощью SQL IDE.
  2. Интеграция с современными источниками данных. Пользователи могут направлять запросы в любой источник данных: облачные хранилища, озера данных и решения на базе SQL.
  3. Богатые возможности визуализации и создания дашбордов. Superset поддерживает широкий набор вариантов визуализации, в том числе инструменты для продвинутой  картографической визуализации.
  4. Расширяемость и масштабируемость. Superset разработан специально для облачной среды и рассчитан на работу с базами данных, которые оперируют петабайтами информации. Для решения своих задач пользователи могут устанавливать надстройки.

Недавно Макс основал компанию Preset, которая разрабатывает коммерческий инструмент Preset Cloud для Superset. Пользователи могут получить все функции последней версии Superset и полностью управляемый облачный сервис Preset: автоматические обновления, поддержка драйверов базы данных, контроль доступа на основе ролей, рабочая среда с поддержкой нескольких рабочих пространств, API администратора, знакомство с решением (онбординг) и т. п.


Схема работы Preset

Команда VK Cloud Solutions тоже развивает экосистему для построения Big-Data-решений. На платформе доступна Open-Source-сборка от Hortonworks, а также Enterprise-ready-решение на основе дистрибутива Hadoop от Arenadata. Вы можете попробовать любую из этих сборок. Новым пользователям мы начислим 3000 бонусных рублей на тестирование сервисов.

Что почитать по теме:

  1. Как и зачем разворачивать приложение на Apache Spark в Kubernetes.
  2. Форматы файлов в больших данных: краткий ликбез.

Комментарии (0)