Введение


Данные стали основой всех бизнесов мира. В процессе принятия решений организации сильно полагаются на свои ресурсы данных, но, к сожалению, «на 100% чистых и точных данных» не существует. На данные влияют различные факторы, снижающие их качество. По словам специалистов, лучшим способом борьбы с проблемами данных является выявление их первопричин и внедрение новых процессов для повышения их качества. В этой статье рассказывается о распространённых проблемах с качеством данных и об оптимальных способах их устранения. Но сначала давайте разберёмся, почему важно знание этих проблем и как они могут влиять на ведение бизнеса.

Почему качество данных важно?


Что такое качество данных? Качество данных — это такие показатели текущего состояния данных, как полнота, точность, надёжность, релевантность и своевременность. Проблемы с качеством данных сигнализируют о наличии изъянов, снижающих перечисленные выше показатели. Данные полезны только тогда, когда они имеют высокое качество. Использование низкокачественных данных может привести к таким последствиям:

  • Принятие ошибочных решений
  • Снижение продуктивности
  • Неточный анализ, ведущий к плохой репутации
  • Разочарование клиентов и потеря прибылей
  • Неправильные бизнес-планы

Распространённые проблемы с качеством данных


1) Человеческие ошибки


Даже при наличии автоматизации данные всё равно вводятся через различные веб-интерфейсы. Поэтому высока вероятность опечаток, снижающих точность данных. Вводом данных могут заниматься как клиенты, так и сотрудники. Клиенты могут ввести верные данные не в то поле для данных. Сотрудники могут совершить ошибку при обработке или миграции данных. Специалисты рекомендуют автоматизировать этот процесс для минимизации ввода данных людьми. Вот некоторые из действий, которые могут помочь в этом:

  • Проверка форм в реальном времени при помощи инструментов обеспечения качества данных
  • Надлежащее обучение сотрудников
  • Использование чётких списков, ограничивающих то, что может ввести клиент

2) Дублирование данных


Сегодня данные поступают из различных каналов, поэтому при их объединении увеличивается количество дублированных данных. Из-за множества вариаций одной и той же записи в результатах аналитики возникают перекосы и неверные прогнозы. Кроме того, на эти дублированные записи тратится бюджет. Можно использовать инструменты дублирования данных, чтобы искать схожие записи и помечать их как дубликаты. Также можно стандартизировать поля данных и выполнять строгие проверки валидации при вводе данных.

3) Несогласованные данные


Несоответствия в одинаковой информации среди разных источников данных могут привести к несогласованности данных. Для правильной оценки данных очень важна согласованность. Несогласованность может возникать из-за различий в единицах измерения и языках. Например, расстояние может быть выражено в милях, хотя требуются километры. Это запутывает бизнес-операции и вынуждает устранять проблемы в источнике, чтобы все конвейеры данных предоставляли надёжные данные. Следовательно, перед миграцией необходимо выполнить все нужные преобразования и добавить ограничения валидности. Также помочь в выявлении этих несогласованностей может мониторинг качества данных.

4) Неточные и отсутствующие данные


Неточные данные могут серьёзно влиять на принятие решений для достижения целей бизнеса. Их сложно выявлять, поскольку формат, единицы и язык корректны, однако неточными их делают опечатка или отсутствующие данные. Потеря целостности данных и дрейф данных (неожиданные изменения со временем) также являются показателями неточности данных. Необходимо отслеживать их на ранних этапах цикла жизни данных при помощи различных инструментов управления данными и обеспечения их качества. Эти инструменты должны быть достаточно умными, чтобы выявлять эти проблемы, автоматически исключая неполные записи и генерируя алерты.

5) Использование неверной формулы


На практике, для извлечения важной информации многие поля датасета могут вычисляться на основании других полей. Они называются вычисляемыми полями. Например, возраст вычисляется по дате рождения. При добавлении новой записи эти формулы вычисляются автоматически, и использование ошибочной формулы делает это заполненное поле неверным. Нарушение этих правил и логики приводят к неверным данным. Для устранения этой проблемы следует выполнять тестирование системы на разных этапах.

6) Перегрузка данными


Переполнение системы большими объёмами данных замусоривает важную информацию и добавляет нерелевантные данные. Дополнительная излишняя трата ресурсов на подписывание, упорядочивание и сортировку всех этих данных — не только дорогостоящий, но и неэффективный процесс. Такой объём данных усложняет анализ трендов и паттернов, выявление выбросов и внесение изменений из-за увеличения количества времени на эти операции. Поступающие из разных источников данные необходимо очищать при помощи фильтрации нерелевантных данных и правильного упорядочивания. Эта техника гарантирует релевантность и полноту данных.

7) Даунтайм данных


Промежутки времени, когда данные имеют частичное, ошибочное или неточное состояние, называются даунтаймом (простоем) данных. Это чрезвычайно дорогостоящие моменты для организаций, активно использующих данные в своих операциях. Примеры распространённых факторов, способных вызвать даунтайм данных: неожиданные изменения в схеме данных, проблемы с миграцией, сетевой или серверный сбой, несовместимые данные и так далее. Однако важно непрерывно замерять даунтайм и минимизировать его при помощи автоматизированных решений. Даунтайм можно устранить при помощи внедрения наблюдаемости данных (Data observability) от источника до места потребления. Наблюдаемость данных — это способность организации понимать степень здоровья данных и повышать её при помощи знаний и опыта. Более того, компании должны утвердить SLA, чтобы работающие с данными команды отвечали за свои действия.

8) Скрытые данные


Компании, испытывающие быстрый рост, столь же быстро накапливают данные. Они используют только часть собранных данных, сбрасывая оставшиеся в различные хранилища данных. Такие данные называются скрытыми, поскольку несмотря на возможность с их помощью оптимизировать процессы и делать ценные выводы, они не применяются. У большинства компаний нет целостного централизованного подхода к сбору данных, что приводит к возникновению скрытых данных. Лучшим способом решения этой проблемы является централизация данных.

9) Устаревшие данные


Данные очень быстро могут устаревать, что неизбежно ведёт к их порче. Объект описывается изменениями в данных, однако эти изменения остаются незамеченными компьютерами (например, если пользователь изменил своё поле, однако база данных по-прежнему отображает устаревшие данные). Эта проблема рассинхронизации данных с реальным положением дел снижает качество данных. Установите напоминания для проверки и обновления данных, чтобы гарантировать их свежесть.

10) Безграмотная работа с данными


Если, несмотря на все усилия, отделы организации не умеют работать с данными, то они будут делать неверные допущения о качестве данных. Понимать атрибуты данных непросто, поскольку в различных записях одно и то же поле может иметь разное значение. Способность визуализации влияния обновлений и понимания значения каждого атрибута приходит с опытом. Необходимо провести обучение грамотности работы с данными, чтобы объяснить данные всем работающим с ними отделам.

Заключение


В этой статье рассмотрены самые распространённые проблемы с качеством данных, первопричины которых следует устранять для предотвращения убытков и потерь в будущем. Всегда помните, что сами по себе данные не могут быть ценными, если не обеспечено их качество.

Комментарии (7)


  1. saipr
    00.00.0000 00:00
    +1

    Распространённые проблемы с качеством данных
    2) Дублирование данных

    3) Несогласованность данных
    ...

    Данные хранятся как правило в базах данных, большинство из которых являются реляционными базами данных. Эти базы данных представляют набор таблиц, удобно и просто. Но порой сталкиваешься с тем, что создатели этих баз данных не проводят их нормализацию. Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.
    Если нет ответа на заданный вопрос, то смело можно утверждать, что в БД есть (или будут) несогласованные и избыточные данне.
    Кстати, на Хабре есть хорошая статья по нормализации "Нормализация отношений. Шесть нормальных форм".


    1. CrazyElf
      00.00.0000 00:00
      +2

      Несогласованность бывает скорее из-за того, что данные собирают не из одной БД, а сразу из нескольких. И как данные в этом случае нормализовать и согласовать между собой - вопрос не всегда тривиальный.


      1. saipr
        00.00.0000 00:00
        +1

        Так чтобы этого не было проектируйте и создавайте РАСПРЕДЕЛЁННЫУЮ базу данных.


        1. CrazyElf
          00.00.0000 00:00
          +1

          И хранить в ней данные всех производственных систем? Это только в теории так бывает )


          1. saipr
            00.00.0000 00:00
            +1

            Какая теория! Это голая практика!


    1. velipre_xella
      00.00.0000 00:00
      +1

      Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.

      Это нормально)) Ты же сам ссылку привёл на статью. В одной и той же БД данные могут быть в разных нормальных формах.


  1. KohrAhr
    00.00.0000 00:00
    +3

    а ещё не плохо иметь либо покупную (3rd party tool) либо свою (in-house build) систему Контроля Качества Данных (Data Quality Monitoring system).

    в bloody enterprise как правило используют либо первый либо второй подход.

    ваш Data Quality Specialist....