Управление качеством данных – новая дисциплина. Постепенно направление набирает обороты в нефтяной отрасли, банковском деле и ритейле. Каждый идет своим путем, практически наощупь.
Я работаю аналитиком качества данных. В статье расскажу, как у нас устроено управление качеством данных, с какими трудностями мы сталкивались, и как их преодолевали.

image
Визуализация качества данных на экране в офисе. Уровень блоков пропорционален количеству ошибок.

В нашем IT-контуре более 30 крупных программных комплексов и систем на различных технологиях. Есть крупные корпоративные системы, специальные программы для нефтедобычи и собственные разработки. При этом системы взаимодействуют и обмениваются информацией между собой.

Мы занимаемся добычей углеводородов. Ошибки в нефтедобывающей отрасли стоят очень дорого. Неправильные данные о траектории скважины могут привести к заклиниванию оборудования, разрушению соседних скважин. Стоимость ремонтных работ и штрафы доходят до нескольких миллионов долларов. Серьезные последствия требуют серьезного отношения. Проще и дешевле исправлять ошибки в данных, чем их последствия.

Что проверять?


Какие ошибки в данных важны, а что можно пропустить? Решили отталкиваться от реалий и сфокусироваться на том, что вызывает проблемы у пользователей.

Сложно заставить сотрудников реагировать на фразу «У вас там данные неполные». А вот если сказать, что забыли проставить дату действия контракта, и подрядчика не пускают на месторождение — действовать будут быстро.

Или другой пример. Вовремя не был обновлен план кустовой площадки. Строители взяли план, на котором не был отмечен силовой кабель, и успешно его выкопали. В результате был обесточен куст скважин. А это не только затраты на восстановление, но и угроза жизни и здоровью сотрудников. Проблема в данных привела к проблемам в реальном мире. Такие ситуации берет в работу аналитик качества данных.

image
Слайд с моего выступления на конференции «Smart Oil & Gas: Цифровая трансформация нефтегазовой индустрии».

Когда обнаружены ошибки в данных, аналитик ищет возможность предотвращения их появления. Например, проблемы можно избежать, если изменить бизнес процесс. Или предотвратить ошибку может доработка ПО, например, создание маски ввода.

Если полностью исключить ошибку нельзя, правила проверки формализуются, и система управления качеством данных (наша собственная разработка) запускает их по расписанию. Обнаруженные ошибки связываются с конкретными людьми, пользователь получает только те ошибки, которые относятся к нему.

Как измерять?


Чтобы что-то контролировать, нужно это что-то сначала измерить. Первое, что приходит в голову — это процент качества данных. Нужно взять количество ошибок, поделить на количество объектов, получить цифру. Вот только реальное положение дел здесь не ощущается. Одна критическая ошибка на 1000 объектов даже не будет замечена. И вообще, 99% это хорошо или плохо?

Мы решили использовать абсолютные показатели — общее количество ошибок во всех контролируемых системах.

image
Динамика количества ошибок в корпоративных системах.

За полтора года мы прошли невероятный путь и сократили количество ошибок с 18 000 до 400.

Как мотивировать?


После того, как найдены болевые точки, необходимо выстроить систему взаимодействия с пользователями, которые должны исправлять ошибки. Достучаться до конкретного человека непросто, особенно если ошибка на него не влияет, а страдают люди в другом отделе. Например, сегодня отдел бурения не указал глубину скважины, а завтра отдел добычи не знает, куда спускать насос.

Сложно найти универсальный рецепт, который подойдет всем. В своей работе мы пользуем микс из техник:

  • проводим обучающие сессии;
  • объясняем, кто страдает от ошибок в данных и почему важно их исправлять;
  • премируем наиболее активных сотрудников;
  • проводим интерактивные игры, где в режиме соревнования обучаем пользователей принципам управления качеством данных и как работать с ошибками;
  • влияем через руководителей, куда без этого.

image
Одна из наших визуализаций для привлечения внимания. Глубина подводной лодки равна количеству ошибок.

Сильным толчком к сокращению числа ошибок стал переработанный шаблон письма об ошибках. Изначально система рассылала статистику по ошибкам в разрезе проверок. Такое письмо больше похоже на отчет. Конверсия писем была слабая. Мы решили перейти к формату, который бы побуждал пользователей исправить данные. В новом шаблоне указано, что конкретно пошло не так, почему важно исправить эти данные, и как это сделать. А еще появились кнопки взаимодействия с командой качества данных. С помощью них мы получаем обратную связь от наших пользователей.

image
Пример письма об ошибке

Что дальше?


Мы постоянно находимся в поисках новых сфер, где будет востребовано управление качеством данных, вовлекаем новых людей и новые отделы. В этом году мы добавили 100 правил проверки данных, а общее их количество перевалило за 500.

Нам интересно расти не только вширь, но и вглубь. Мы бы хотели найти единомышленников и организовать небольшой форум по управлению качеством данных, где могли бы обменяться опытом.

А как вы работаете с качеством ваших данных?

Комментарии (11)


  1. AndyKorg
    30.01.2018 13:52

    Не понятно чем процесс повышения качества данных отличается от процесса исправления ошибок в ПО?


    1. sanReal Автор
      30.01.2018 13:55

      Ошибки в ПО влияют на работоспособность системы. Например, у вас нет проверки деления на 0, и программа выдает ошибку.
      Ошибки в данных влияют на принимаемые решения. Например, вы ввели неправильные координаты скважины, и ремонтная бригада ухала на другой конец месторождения. ПО работает, как ожидается, а вот решения принимаются неверные.


      1. AndyKorg
        30.01.2018 14:38

        Т.е. мы выяснили, что надо проверять правильность координат при вводе и добавили такую проверку в ПО. Это ведь и есть процесс исправления ошибки в ПО, не?


        1. evetrov
          30.01.2018 18:32

          ПО не знает правильные ли это координаты или нет. Оно просто складирует все данные которые в него ввели.

          А вообще целый отдел (я так понимаю у Вас отдел) качества данных это очень по российски. Что бы заставить одних людей делать все по правилам и хорошо нужен целый отдел который постоянно пинает :-), иначе все забивают болт.


          1. AndyKorg
            30.01.2018 20:53

            По не знало до исправления ошибки, а после исправления узнало и теперь не принимает неправильные координаты. Вот мне и не понятно где тут «управление качеством», а где банальная фича.


          1. arturgspb
            30.01.2018 22:29

            Вот вам пример — завели счета не на тот отдел, в отчёте о прибылях и убытках все печально. Бухгалтеру пофиг, руководитель не успел проверить или счетов много или ещё чтонить думайте. На совете директоров принимаю решение не в пользу отдела. Кросспроверки может не быть, а она нужна всегда.


  1. OlegUV
    31.01.2018 07:34

    Сам постоянно занимаюсь проверкой данных и представляю, насколько это актуально. Такая, казалось бы, скучная и рутинная процедура не только помогает строить корректные отчёты, но и обнаруживает недостатки в бизнес-процессах и коммуникациях.

    Интересно было бы почитать о том, как вы определяете корректность введённых данных (помимо банального диапазона плюс-минус).

    Очень впечатлила визуализация общей оценки качества данных. Тетрис — супер-идея! Подводная лодка тоже хороша, но тетрис, да ещё в динамике буквально завораживает.


  1. brauni
    31.01.2018 09:25

    «Слайд с моего выступления на конференции «Smart Oil & Gas: Цифровая трансформация нефтегазовой индустрии»»
    Где можно посмотреть саму презентацию или видео выступления?


    1. sanReal Автор
      31.01.2018 09:35

      К сожалению, на сайте самой конференции презентация почему-то недоступна.
      Можно скачать здесь


  1. cerrenesi
    31.01.2018 10:26

    Нам интересно расти не только вширь, но и вглубь. Мы бы хотели найти единомышленников и организовать небольшой форум по управлению качеством данных, где могли бы обменяться опытом.

    В статье не раскрывается какие инструменты(IT) вы используете для управления качеством данных.


    1. sanReal Автор
      31.01.2018 10:33

      Обязательно расскажем об этом в следующей статье