Привет, Хабр! Меня зовут Сергей Бондарев, я CDO в Первой грузовой компании. Сегодня расскажу, как мы решаем задачу управления данными с точки зрения IT-разработки и используемых методологий.

Сперва о том, кто мы такие

Мы в ПГК перевозим грузы — сталь, уголь, продукты питания, технику и оборудование — по России и за рубежом. Под нашим управлением находятся порядка 100 тыс. вагонов. Управление обширным вагонным парком — задача совсем не тривиальная. Необходимо следить за местоположением вагонов, их техническим состоянием, прорабатывать логистические моменты, например, составлять график передачи поездов по междорожным стыковым пунктам.

Чтобы решать эти задачи, мы развиваем собственные цифровые сервисы и реализуем полный цикл разработки программных продуктов. Так, в нашем арсенале есть системы предиктивной аналитики, позволяющие направлять вагоны в ремонт до фактического возникновения неисправности или прогнозировать спрос на услуги за счет машинного обучения.

Очевидно, что в основе каждого аналитического продукта лежат данные. Их источники — самые разнообразные. Они поступают от владельца железнодорожной инфраструктуры, из наших транзакционных систем и других цифровых продуктов. Помимо них существуют накопленные исторические данные и разнообразная нормативно-справочная информация. Дальше я расскажу, как мы всем этим управляем.

Что мы понимаем под управлением данными

Пара слов о том, что мы понимаем под управлением данными. Это — руководство их поставкой и хранением, а также контроль их качества, распространения и применения. Потребность в системном управлении данными зависит от нескольких факторов. Во-первых, от объема данных, которыми оперирует организация. Во-вторых, от количества сотрудников с ними работающих. В-третьих, от текущего культурного уровня организации в использовании данных и стратегических целей компании.

Модель Gartner определяет пять уровней зрелости организации. Максимальная отдача от работы с данными происходит на последних уровнях. Тогда продвинутая аналитика формирует ценность для компании и помогает ей зарабатывать. Даже сильная команда математиков/аналитиков не сможет построить рабочую прогнозную модель спроса, если не налажено накопление истории фактов, а в каждой цифровой системе реализованы различные алгоритмы расчета показателей.

 

При подготовке ИТ-стратегии в 2020 году производилась оценка зрелости нашей компании на основании DAMA DMBoK. Оценка выявила, что мы находимся стабильно на втором уровне зрелости. Поэтому моей стратегической задачей является последовательное приближение компании к «Управляемому» уровню. Мы уже покрываем всю цепочку создания стоимости продвинутой аналитикой с помощью различных цифровых продуктов. Использование такого рода продуктов уже является признаком Управляемого уровня. И для обеспечения работы нашей продвинутой аналитики все другие процессы в компании в целом должны последовательно выходить на более высокий уровень. Это обеспечивается системными мероприятиями в технологической, процессной и культурной сферах.

Что дает системное управление данными?

Во-первых, снижение стоимости и срока разработки цифровых продуктов и ИТ – проектов за счет использования единой платформы, формирования и развития целевых компетенций, и использования достоверных, сопровождаемых источников данных.

Во-вторых, управление данными также открывает компании широкие возможности для самостоятельной разработки инструментов аналитиками бизнес-подразделений. Все начинают понимать, где взять необходимые данные для решения задач, куда обратиться, чтобы получить знания, необходимые для работы с ними. Это приводит к тому что аналитики бизнес-подразделений могут использовать весь свой потенциал для получения ответов на вопросы, не обращаясь к ИТ.

Как мы подходим к управлению данными

В процессах управления данными можно выделить четыре ключевых компонента: IT-составляющую, непосредственно процессы управления, модель оперирования и методологию. Отдельно можно выделить управление компетенциями, в современных условиях формирование и развитие внутренней экспертизы являются необходимыми условиями развития.

IT-платформа

Для управления данными необходимы инструменты их сбора, расчета необходимых показателей и передачи в системы-потребители. Состав, технологии и размер каждого инструмента отличается в зависимости от объемов и типов данных, которыми оперирует организация, основных потребителей и скорости достижения бизнес-результатов. Например, при небольших объемах информации необязательно строить системы с массивно-параллельной архитектурой.

С другой стороны, крупная организация может иметь несколько предметно-ориентированных хранилищ, построенных на различных технологиях. Причем сам факт их наличия — не повод для объединения путём рефакторинга. Так, в ПГК исторически используется два хранилища на базе двух различных технологий. Одно обеспечивает работу ключевых бизнес-процессов, другое — содержит оперативные показатели по операциям с подвижным составом.

Наша цифровая стратегия подразумевает разработку платформы данных поверх существующих хранилищ. Мы выбрали проверенные и легковесные компоненты, которые будем последовательно развивать и масштабировать: многоузловой Apache Nifi для доставки и обмена данными, отказоустойчивый кластер PostgreSQL на основе коммерческой сборки для хранилища с контрольным механизмом собственной разработки. Microsoft MDS мы используем как RDM-систему, а кластер Qlik Sense реализует продуктив и Self Service BI.

В качестве карты данных мы применяем решение на базе Confluence и собственного модуля управления метаданными. Внедрение и сопровождение обеспечиваем внутренней экспертизой, которую формировали одновременно с запуском проекта. Основными потребителями и разработчиками на платформе являются команды создания аналитического инструментария IT и продуктовые команды, создающие цифровые продукты.

Процессы управления

К основным группам процессов я отношу управление метаданными, справочной информацией, процессы разработки аналитических продуктов и самостоятельной пользовательской разработки.

Для того, чтобы наши сотрудники из бизнес-подразделений активнее участвовали в пользовательской разработке, мы совместно с HR запустили программу обучения с авторскими курсами по начальной и продвинутой разработке BI. Кроме компетенций в сфере разработки и знаний об используемых данных, коллеги учатся понимать, каким образом созданная ими функциональность может быть приведена к промышленному виду и опубликована для широкого использования. В связи с этим мы описали все соответствующие требования и стандарты и сделали их доступными для изучения.

Одним обучением мы не ограничиваемся — для дальнейшей поддержки коллег из бизнес-подразделений мы организовали Телеграм-канал для обмена опытом и помощи со стороны разработчиков из IT. C начала этого года мы обучили порядка 200 наших сотрудников.

Стандартизация разработки, создание целевых групп, расширение компетенций наших специалистов в том числе с целью повышения общего культурного уровня работы с данными — всё это не разовые активности, а непрерывный процесс развития культурного восприятия. Обеспечение этого — одна из ключевых задач CDO.

Модель оперирования

Чем масштабнее организация, тем логичнее применять модель обработки данных с разумной децентрализацией. Достаточно сложно найти крупную компанию, которая использует единое хранилище, построенное на одной технологии, c замкнутыми на централизованную команду процессами — эффективно всё это будет работать только на листах презентации. В жизни это неизбежно приведет к бутылочному горлышку на стороне ИТ.

В реальности запускать новые продукты в таких условиях будет невозможно — как показывает практика, для эффективных продуктов нужны команды, работающие по гибкой методологии с минимальными внешними зависимостями. Но при этом, одновременно с независимостью команд, важно обеспечивать стандартизацию процессов управления данными, механизмов их контроля и сопровождения. В конечном итоге это поможет тратить меньше ресурсов на продуктовую разработку и позволит быстрее запускать новый функционал.

Например, у нас в ПГК централизованы только базовые операции, напрямую влияющие на целостность данных и обеспечение непрерывности цифровых инструментов. Операции разработки, управления метаданными, ведения справочников являются децентрализованными. Концепцию децентрализованной модели можно передать так: сотрудники, обладающие профильными компетенциями из управления данными, выделяются как ресурс в независимые проектные и продуктовые команды, и разрабатывают на платформе необходимую для продуктов и проектов функциональность. Они соблюдают единые принципы, стандарты разработки и документирования. Платформенная (центральная) команда обеспечивает непрерывность сервисов, подключение источников, контроль кода при выводе на продуктив, подбор специалистов и развитие их компетенций, обучение. Всего у нас по такой модели работает семь продуктовых команд, со временем их станет больше.

Что касается процессов управления справочной информацией, ведения и поддержания карты данных, то у нас это масштабировано на все команды и владельцев справочников. Определены владельцы основных данных и их распорядители на стороне IT. Справочники, допускающие редактирование, изменяются их владельцами в режиме самообслуживания, карта данных актуализируется командами по мере появления новых источников данных и разработки новых витрин данных.

Я проектировал логику карты данных исходя из цели, чтобы каждый сотрудник, вне зависимости от подразделения, имел бы возможность найти описание необходимых ему в работе данных, включая описание источника, витрины, их владельцах, свойствах: глубине, объёме, регламенте формирования, описании метаданных. Таким образом, карта и реестр источников данных должны предоставить пользователю основную информацию, а владелец данных или показателя — только уточняющие адресные консультации.

Методология

Запустить и приживить процесс всегда сложно. Вопросы с определением владельцев данных, справочников, целевых источников данных возникают регулярно. В контексте десятков команд они становятся крайне актуальными.

Поэтому важной частью в системе управления данными является методологический комитет. Это коллегиальный орган, включающий основных экспертов – методологов компании, представителей ИТ, и наделенный полномочиями по составлению методики расчета показателей, ведения их реестра, снятия спорных вопросов, регулярно выносимых представителями проектных и продуктовых команд. В нашей компании подобрался очень сильный состав участников комитета. Это реально работающий орган, который мы запустили в конце прошлого года.

Какие наши результаты

В ИТ у нас также есть ряд профильных площадок. Первая — куда команды и бизнес-пользователи адресуют вопросы, связанные с качеством данных, вторая — куда поступают вопросы, связанные с едиными справочниками. Таким образом, совокупность мероприятий обеспечивает цифровым командам и командам бизнес-подразделений, работающих с данными, максимальную техническую и методологическую поддержку. В результате у бизнес-подразделений создаются инструменты, представляющие ценность не только для конкретной команды, но и для всей компании (то есть претендующие на массовое внедрение). Для этого у нас установлены правила “опромышливания”: мы проверяем инструменты на соответствие требованиям разработки и соответствия стандартам документации, после чего строим модель сопровождения, выводим в продуктив и созданные инструменты становятся доступными широкому кругу внутренних пользователей.

В результате всей проделанной работы, за полтора года с момента разворачивания платформы, стандартов и процессов, BI-аналитика прижилась во всех структурных подразделениях компании, порядка 62% от всей целевой аудитории сотрудников регулярно используют её в своей деятельности. Это формирует культуру работы с данными, рождая у сотрудников запрос на получение новых знаний и навыков. Сейчас у нас около 40 команд бизнес-подразделений, создающих аналитическую функциональность; все они работают с единой платформой на базе Qlik Sense.

В следующем материале расскажу, как мы выстраивали модель Self Service BI, как она развивается и эволюционирует.

Комментарии (1)


  1. avf48
    04.09.2023 09:25

    А где про "Системный подход"? И как, вам удалось дойти до уровня "зрелости" без управления данными?? Бала бы ссылка на СМК, можно было бы на неё сослаться... но её нет

    "-Мы лучшие, но почему не скажем!"
    "-Мы лучшие, но почему не скажем!"