В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.

Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.

Главные проблемы и вызовы для индустрии работы с данными в 2022 году


  • Инфраструктура и инструменты. Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?
  • Поддержка и развитие решений на базе зарубежного ПО. Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?
  • Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.

Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач. 

Мы в VK Cloud изначально делали ставку именно на Open-Source-решения и их адаптацию. Поэтому сейчас, используя накопленную экспертизу, можем помогать другим компаниям решать вызовы, возникшие в 2022 году в работе с инструментами для больших данных.

Но даже при использовании Open-Source-решения сохраняются другие вызовы:

  • Увеличение стоимости инфраструктуры. С большими данными мы обычно работаем на сложных распределенных кластерах из сотен и даже тысяч машин. Стоимость построения и поддержки такого решения в последние месяцы выросла.
  • Дефицит комплектующих. Закупать железо, чтобы поддерживать кластер в работоспособном состоянии, стало сложнее. 

Миграция в облако как решение


На протяжении последних месяцев мы наблюдаем рост спроса на наши облачные сервисы. Компании, которые хотят оптимизировать затраты, переходят в облако. Но для переноса туда Data-инфраструктуры необходимо учесть ряд факторов.

Данные. 10–100 терабайт перенести не так сложно. А если вы накопили петабайты данных, то для переезда из On-premise в облако понадобится грамотно рассчитать вычислительные мощности и выделить широкие каналы для передачи данных.

Специфика облака. Виртуальные машины, сети и гипервизоры — облачная инфраструктура несколько отличается от физической. При построении высоконагруженной распределенной системы вроде Hadoop эту специфику важно учитывать, чтобы система выдерживала высокие нагрузки. 

Допустим, вы решили протестировать Greenplum в облаке на 10 ТБ данных и тест прошел гладко. Но при большом объеме информации и нагрузке, например в сотни пользователей, придется решать задачи, связанные с хранением больших объемов данных и высокой нагрузкой именно в облаке.  

При построении кластерных высоконагруженных систем нужно учитывать специфику сетей и дисков в облаках. Возможно, стоит использовать выделенные гипервизоры, локальные высокопроизводительные диски, высокопроизводительные CPU. Это важно предусмотреть в начале проекта.

Для миграции в облако важно привлекать экспертов, которые уже разворачивали Data-решения в облаках, понимают их специфику и помогут построить кластерную систему, хранилище или озеро данных так, как нужно. Такие эксперты есть у нас в VK Cloud — мы уже много лет строим подобные системы и помогаем компаниям переносить Data-платформы в облако.

Что стало с процессами и Big Data-командами


Я много беседовал с коллегами из Data-сообщества: найти джунов и мидлов легко, а вот специалистов Senior-уровня сейчас недостает. Дефицит опыта становится еще одним вызовом: командам приходится мигрировать на новые инструменты, а для этого нужны ребята с высоким техническим уровнем, готовые к тому, чтобы оперативно освоить новый технологический стек. 

Например, у компании сейчас есть команда экспертов по Vertica и принято решение переходить на Greenplum. Готовы ли специалисты осваивать новые навыки? Часто нет, потому что думают: «Есть инструмент Х, он лучше всех. Я готов работать только с ним, ни на что другое я не готов. Если мы мигрируем на этот инструмент, то до свидания. Пойду поищу другого работодателя, у которого другие задачи на моем любимом инструменте». Это тоже добавляет сложности в работу с данными в контексте текущих вызовов.

Ряд компаний рассматривают задачу по переходу на новые инструменты как возможность переосмыслить архитектуру действующих решений, исправить узкие места в Data-системах, внедрить новый технологический стек — и в результате получить более эффективное для бизнеса решение по работе с данными.

При построении Data-системы важно учитывать специфику бизнес-процессов компании, источники данных, особенности работы с ними и цели компании. Комплексно решить такую задачу поможет специалист с новой ролью — Data Product Manager.

Data Product Manager — эксперт и в данных, и в отрасли


Это специалист со знанием продукта, экспертизой в предметной области и навыками работы с данными одновременно.

Для того чтобы построить действительно уникальный продукт, который приносит value клиентов и бизнеса, важно, чтобы у команды Data-специалистов была экспертиза в той сфере, в которой компания решает задачи.

Например, если компания делает продукт в области Digital-рекламы, Data-специалист должен быть знаком с онлайн-системами рекламы не как пользователь, а как внутренний разработчик, который понимает специфику сегментации аудитории, идентификации клиентов, формирования таргетов и аудитории по интересам.

Если компания работает в промышленности, то важно найти специалиста по данным, который имеет продуктовое видение и опыт работы над созданием продукта. И при этом понимает специфику отрасли — например, как устроен технологический процесс.

Почему Data Product Manager — это не лишние расходы 


Специалист, погруженный в предметную область, сможет понять ценность и потенциал работы с данными, которые собирает компания. Понять, в чем их специфика, какие ошибки могут быть в этих данных и как их можно улучшить и обогатить. 

Если Data-специалист без знания производственного процесса создает аналитические системы на промышленном предприятии, то с высокой долей вероятности он не сможет увидеть ошибки в данных или слабости текущего пайплайна данных.

Data Product Manager помогает отвечать на вопросы, какими данными располагает компания: в его обязанности входит определение входящих и исходящих потоков данных. Это тоже непростая задача, которая требует понимания специфики отрасли, понимания специфики построения пайплайнов данных. Если мы возьмем в качестве примера крупный промышленный холдинг, то понять, какие данные у нас есть, уже титаническая работа.

Также именно Data Product Manager смотрит, кто и как использует данные внутри компаний.

Часто найти всех внутренних пользователей Data-решений непросто: данные, витрины данных или результаты пайплайнов могут проходить через несколько рук. Легко идентифицировать круг первых потребителей, которые имеют непосредственный доступ к таблицам и отчетам. Но куда сложнее понять, куда данные потом идут и как преобразуются. Здесь закладывается еще один момент про ошибки Data-Quality-процесса. 

Поэтому именно Data Product Manager помогает ответить на вопросы и решать задачи, связанные с упрощением доступа к данным и регуляторными вопросами.

Отличия Data Product Manager от классического Product Manager 


Казалось бы, зачем плодить сущности, если есть продакт-менеджеры, которые уже заняты продуктовыми процессами? Но знать продукт недостаточно: важно понимать специфику работы с данными, особенности построения пайплайнов, функциональность конкретных инструментов и систем для работы с данными. Для этого нужен специалист, который перед этим был на позиции аналитика по данным, Data-инженера или Data Scientist.

Data Product Manager зачастую работает со специфическими пользователями — теми самыми Data Scientist и Data-инженерами. Важно, чтобы он говорил с ними на одном языке. Обычный Product Manager может не иметь для этого достаточной глубины знаний и подготовки.

Какие задачи решает Data Product Manager


  • Построение внутренней Data-платформы для различных категорий пользователей по типу SaaS — Self-Service, упрощение доступа к данным и работы с хранилищами для широкого круга пользователей. Это помогает бороться с Data Silos, когда у нас есть разрозненные хранилища данных и нам нужно их объединить в единое или обогащать данные одного хранилища данными из других систем.
  • Ускорение решения Data-задач — увеличение скорости, с которой мы добавляем новые фичи в Data-продукт.
  • Повышение эффективности и отдачи от Data-проектов. У многих компаний есть свои хранилища данных, отрасль уже давно существует, о данных кто только не говорил. Но как теперь посчитать возврат инвестиций в эти хранилища? Это очень нетривиальная задача, которую в том числе может взять на себя Data Product Manager.

Нужен ли вам Data Product Manager?


Да, если:

  • вы хотите построить продукт, сконцентрированный на данных;
  • вам не хватает набора компетенций традиционного Product Manager;
  • у вас уже есть хранилище данных, возможно не одно, и множество отделов, которые работают с данными. Но пропасть между ними слишком велика, и вам нужно как-то собрать вместе их наработки и составить единую систему.

Мы поддерживаем направление MLOps и активно развиваем ML-платформу в облаке, а также строим Cloud Data Platform. Поэтому, если вам нужно работать с данными, смело приходите к нам. Для теста начисляем пользователям 3000 рублей — можно попробовать сервисы и посмотреть, подойдут ли они вам.

Комментарии (1)


  1. nikolay_n_komarov
    09.09.2022 00:35

    Точно и вовремя!