Привет, Хабр. Меня зовут Андрей Коптелов и я преподаю на курсах Архитектура корпорации. Togaf 10 и BPMN: Углубленная практика в Otus.
В этой статье делюсь опытом повышения качества клиентских данных в онлайн-обучении и выводами, к которым я пришел по итогам.
Постановка проблемы
Как‑то раз один из слушателей моего онлайн-курса при его покупке указал имя Петр, а фамилию — Первый. В принципе все возможно, решил я, однако после того, как слушатель обучился, сдал все необходимые практики и тесты, и в автоматическом режиме получил сертификат на Петра Первого, он попросил его переделать на реальные имя и фамилию.
Буквально через месяц пришел еще один слушатель на обучение с очень нестандартным именем и фамилией, я уже подумал, что кто‑то снова прикололся. Я аккуратно написал слушателю письмо, но нет, это оказалось его реальные имя и фамилия.
Вопрос идентификации клиента в онлайн-бизнесе стоит достаточно остро, и, по‑хорошему, нужно конечно запросить скан паспорта, но большинство не согласится его высылать. Да и как проверить, что это скан паспорта именно этого пользователя.
Набраться опыта в DAMA DMBOK
Давно я собирался прочитать DAMA DMBOK — главный мировой свод знаний по управлению данными — и вот после этих случаев повод появился. Краткое содержание этого документа есть тут.
В целом, в DAMA DMBOK отлично написано и про ответственность за данные в общем, и ответственность за качество данных в частности, и про заказчика и поставщика данных, и про инциденты, связанные с качеством данных и их разбор, и про формирование культуры в отношении ценности качества данных. С точки зрения Data Governance — все прекрасно разложено по полочкам. Кстати, подробнее про Управление данными я писал тут.
В DAMA DMBOK есть определение — термин качество данных (Data Quality, DQ) распространяется как на характеристики, связанные с высоким качеством данных, так и на процессы измерения или повышения качества данных.
От теории к практике
Закончив с теорией, я спустился на уровень практики и начал изучать материалы о том, как обеспечить качество клиентских данных. В моем случае вроде все просто, всего 4 поля — это имя, фамилия, электронная почта и контактный телефон в интернет‑магазине, работающем у меня на WordPress.woocommerce.

При ошибках в адресе электронной почте (его, кстати вводит сам слушатель) по ошибочному адресу уходили параметры подключения к курсу, не получив которые слушатель писал письмо, что я мол оплатил, а доступ мне не открыли. И, хотя таких ошибок в общем объеме было менее 1%, такие случаи вредили имиджу и добавляли необходимость ручного разбора.
Применяем теорию на практике
В большинстве рекомендаций по обеспечению качеству данных указано, что для этого можно использовать:
контроль формата вводимых данных — указывается допустимый тип данных: целое, дата, время, текст определенной длины. Для меня какие проверки для адреса электронной почты возможны, например, текстовое поле, латинскими буквами разделенное знаком собачка.
контроль диапазона значений, вводимых данных — значение между заданными границами, вне заданных границ, равно, неравно, больше, меньше, больше или равно, меньше или равно значению. Для меня в рамках таких проверок недопустимы русские буквы и в общем то все.
контроль принадлежности вводимого значения фиксированному списку — выбор из справочника, поле со списком для выбора. Тут в части электронной почты можно смотреть на названия почтовых серверов и сверять их со списком типовых, в поисках ошибки.
Можно ли контролем ввода существенно улучшить качество клиентских данных?
Таким образом можно организовать контроль правильности заполнения поля электронной почты при заполнении карточки заказа, однако по факту, даже если в адресе электронной почты есть собачка, а домен принадлежит к списку почтовых доменов (например, yandex.ru), все равно ошибки в адресе электронной почте могут быть достаточно частыми (не тот символ или его пропуск). В результате рабочим решением для меня стал не контроль ввода, а сервис подтверждения адреса электронной почты с отправкой письма и прохождением пользователя по ссылке.
Та‑же история и с телефонным номером, контроль количества символов не гарантирует правильности телефонного номера, при этом многие клиенты, боясь агрессивного маркетинга и продаж специально оставляют фиктивные номера при заполнении заказа, поэтому единственным рабочим способом верифицировать телефон клиента — это внешний подтверждения телефона через смс или звонок. На настоящий момент я не верифицирую номер телефона и не использую его вообще при взаимодействии с клиентом, но никак не уберу из формы заказа.
Слава богу, что мне не нужно проверять, есть ли у слушателя диплом о высшем образовании, а также проверять его действительность, иначе проблем было бы еще больше.
С именем и фамилией клиента задача фактически не решается через контроль ввода, можно конечно использовать справочник имен, но есть слушатели, у которых имена не простые и тих имен в справочнике точно нет. Ну а для фамилий тут уж точно никакой справочник не поможет.
Что может помочь с качеством клиентских данных
С мое точки зрения, единственный надёжный способ идентификации клиента в онлайн — это использование внешних сервисов идентификации, таких как Yandex ID, Sber ID или даже сервис идентификации на Госуслугах.
Однако, изучив процедуру подключения к Госуслугам, я понял, что это не для меня, поэтому сейчас смотрю на варианты интеграции с системой идентификации крупного игрока, но пока не могу сделать выбор между Т‑Банком и Яндексом.
В качестве вывода можно отметить, что:
Встроенный контроль на уровне экранной формы через проверки качества вводимых данных при ручном вводе данных клиента повышает качество, но не существенно.
Верификация контактных данных клиента возможна через сервисы с подтверждением.
Наиболее правильное решение — это интеграция с внешними сервисами идентификации клиентов и внешними справочниками для любых других данных.
Выученные уроки
Внутри организации, особенно небольшой, вопрос качества клиентских данных сложно решаемый, пока снаружи не появятся единые сервисы идентификации клиентов.
Та‑же проблема возникает и при идентификации сотрудников при приеме на работу, правда там сотрудник приходит лично с документами и многие данные можно проверить глазами и руками, что кстати все равно не избавляет от ошибок ввода. Поэтому идентификация с внешним сервисом, например, Госуслугами или другими сервисами идентификации позволит не только избавиться от ручного ввода, но и обеспечить более надежную идентификацию как клиента, так и работника.
Если вы работаете с клиентскими или корпоративными данными, то знаете, как быстро мелкие неточности превращаются в серьёзные проблемы. Курс Data Quality поможет разобраться, как системно подходить к обеспечению качества данных — от стандартов DAMA DMBOK до практических инструментов верификации и мониторинга. Записывайтесь на открытые уроки, которые бесплатно проведут преподаватели курса.
Технологии развиваются быстро. С подпиской OTUS берёте нужные курсы сейчас, а при смене приоритетов — корректируете трек без доплат. Выгоднее, чем оплачивать каждый курс отдельно. Узнать в деталях