28 сентября компания РСХБ‑Интех провела RSHB Data Integration Meetup — митап для специалистов по работе с данными, в рамках которого выступил Антон Агеев, корпоративный архитектор и техлид команды Подписки в проекте «Свой бизнес» РСХБ‑Интех. В своем докладе Антон поделился со слушателями своей любовью к данным и к их красоте. Он представил главное из книги DAMA‑DMBOK2, описал часть представленных там методик и подробно остановился на методике Data Discovery and Management (DDM) — обнаружение, сбор, хранение и анализ данных. Также Антон рассказал о возможности внедрения практик и принципов DAMA‑DMBOK2 как предпосылок к использованию ИИ в бизнес‑процессах организаций.

В материале читайте расшифровку доклада. Запись митапа в свободном доступе можно посмотреть на сайте «РСХБ в цифре».

В ИТ‑сферу я попал в 1997 году. Оборачиваясь назад и думая о своем пути, я понимаю, что мне пришлось потратить лет 15–20 чтобы понять всю красоту данных и обратить на них более пристальное внимание. За это время я занимался разными ИТ‑задачами: работал разработчиком в интеграторах, архитектором в большой четверке консалтинга, разрабатывал ИТ‑стратегии, руководил проектами внедрения ERP‑систем и систем для управления данными. Сейчас я работаю корпоративным архитектором и занимаюсь в том числе данными, функциональным наполнением систем, взаимосвязями и не только. Работа архитектором оказалась мне ближе всего. Сейчас, учитывая весь мой опыт, могу с уверенностью сказать, что работа с данными — одно из самых важных направлений работы в проектах, хотя зачастую мы больше смотрим на функциональное наполнение.

Если работу с данными ассоциировать с религией, то и «DAMA‑DMBOK2: Cвод знаний по управлению данными» — это своего рода Священное писание. Ассоциация по управлению данными DAMA, выпустившая эту книгу, была образована еще в 1980 году. Прошло много лет перед тем, как в 2009 году появилась первая версия настольной книги по управлению данными. Это была очень тоненькая книга, по сути брошюра с руководящими принципами. И хоть в ней была отражена общая информация, даже на её выработку у ассоциации ушло много лет.

В 2017 году появилась вторая версия, которую мы используем в текущий момент. Это уже огромный труд, который тяжело прочитать и осознать за один раз. Мне сложно оценить, кому этот труд можно рекомендовать на начальном этапе: для студентов тяжеловата, практикам рациональнее подходить к ней по разделам. Скорее эта книга для сениоров и топ‑менеджеров индустрии, которые доросли до нее и которые могут охватить ее целиком. DAMA‑DMBOK2 охватывает абсолютно все аспекты со всеми их нюансами. Пожалуй, полностью прочитавший ее и осознавший может смело считать себя отличным специалистом.

Источник
Источник

Ценность знаний, заложенных в DAMA‑DMBOK2, сложно переоценить. Книга позволяет найти прикладные рабочие методы для решения задач с данными. Да, перечисления прикладных инструментов и ПО в книге нет, но есть предложения о способах решения той или иной задачи.

Рассмотрим содержимое книги.

  1. Первая часть включает введение в управление данными и содержит информацию о видах данных и их источниках, требованиях к управлению, процессы управления и инструменты для работы с данными.

  2. Вторая часть содержит информацию об управлении данными жизненного цикла, то есть конкретные шаги и методы для эффективного управления данными в различных сферах деятельности.

  3. Третья часть посвящена управлению метаданными. Содержит основные понятия и принципы управления метаданными (виды, источники, требования и процессы), а также методы и инструменты для сбора, хранения, анализа и использования метаданных в различных отраслях.

  4. Четвертая часть затрагивает вопросы безопасности, а именно — управления правами доступа к данным. Это вопросы управления правами доступа (создание политик доступа, управление ролями пользователь и контроль доступа к данным), а также методы и инструменты для обеспечения безопасности данных (шифрование, аутентификация, авторизация).

  5. Пятая часть посвящена управлению качеством данных: сбор, хранение, анализ, обработка данных с учетом требование качества. Также в этой части описаны методы оценки качества данных: проверка корректности, валидация и верификация данных.

  6. Шестая часть содержит информацию об управлении безопасностью данных: защите от угроз, контроль доступа, мониторинг действий пользователей. В том числе тут перечислены методы и технологии защиты данных от кибератак, вирусов и других угроз, разбираются вопросы аутентификации пользователей, шифрования и авторизации доступа к данным.

Внутри разделов, соответственно, есть подразделы. Один из таких посвящен архитектуре и он, по сути, копирует один из этапов цикла TOGAF по управлению данными. Но я хотел бы отдельно рассмотреть представленные в труде методики.

Методики

Data Monitoring and Information Systems (DMIS) — мониторинг и анализ данных в реальном времени с помощью специальных метрик и инструментов: дашбордов, различных экранов, которые выводятся в компаниях для отслеживания работы системы и других показателей, производственного мониторинга и так далее. DMIS позволяет отслеживать изменения в данных, выявлять аномалии и определять тенденции. Организациям методика помогает получать более точную и актуальную информацию о своих данных, принимать более обоснованные решения и повышать эффективность бизнес‑процессов.

Один из основных методов DMIS — мониторинг данных с помощью временных рядов. Временной ряд представляет собой последовательность значений данных, которые измеряются в определенный момент времени. Для подсчетов применяются различные методы статистического анализа. Когда‑то в вузе их было довольно скучно изучать, зато сейчас я понимаю, насколько полезными в работе они оказались. Начинаешь по‑настоящему ценить специалистов, способных понять и представить в голове всю системность данных и их обработки и с помощью этого решить прикладные задачи, касающиеся конкретного проекта.

Другая часть DMIS — метод Data Mining, позволяющий извлекать скрытые закономерности и взаимосвязи из больших объемов данных. Также в рамках DMIS рассматриваются методы визуализации данных. Они позволяют представить данные в виде графиков, диаграмм и таблиц, что упрощает их понимание и анализ.

Data Storage and Security (DSS) — хранение и защита данных. Представляет собой набор методов и инструментов для обеспечения безопасности данных и их хранения: шифрование данных, аутентификация, контроль доступа, резервное копирование, мониторинг и аудит, обучение пользователей, регулярные обновления. Тоже абсолютно прикладная вещь, можно брать и использовать. Здесь затрагиваются вопросы «из зала» в сжатом виде в лаконичной и понятной форме.

Data Discovery and Management (DDM)

Остановимся подробнее на методике Data Discovery and Management (DDM) — обнаружение, сбор, хранение и анализ данных. Она, на мой взгляд, наиболее важная в свете стоящей перед нами проблематики. Это внедрение ИИ для решения рутинных задач. Методика подразумевает сбор всех доступных данных из разных источников: базы данных, файлы, сайты, электронная почта и так далее.

Первый шаг, в том числе и по методике TOGAF — определение бизнес‑драйверов. В зависимости от целей бизнеса определяется и местонахождение нужной информации. Определив, что бизнес хочет (какой дашборд, мониторинг, данные в каком формате и скоростью обновления), можно обращаться к источникам. Как правило это различные базы данных, файлы, сайты и так далее. По большому счету озера данных — это корпоративный инструмент, помогающий нам быстрее собрать и получить доступ к данным, чтобы бизнес еще быстрее мог реагировать на изменения.

Рассмотрим корпоративные источники для майнинга данных:

  • Финансовые данные — доходы, расходы, активы и обязательства;

  • Данные о клиентах — покупки, предпочтения, демографические данные;

  • Операционные данные — производственные процессы, использование ресурсов, качество продукции;

  • Рыночные данные — конкуренты, тенденции рынка, цены на товары и услуги;

  • Данные об управлении персоналом — информация о сотрудниках, навыки, опыт работы, уровень удовлетворенности.

С рыночными данными зачастую больше всего сложностей, в основном из‑за проблем с достоверностью и оперативностью их получения. Если внутри компании вы можете влиять на данные, то с внешними данными сложнее, они сами могут быть недостоверны и, как следствие, привести к недостоверному результату. Если использовать недостоверные данные, например, для обучения ИИ, возникнет множество отклонений, которые будет очень сложно объяснить и исправить.

Майнинг данных в производственных процессах — включает сбор данных с использованием промышленных контроллеров, датчиков и других устройств, собирающих информацию о процессах в режиме реального времени.

Также в майнинг входит:

  • Использование специализированных программных решений для мониторинга и анализа производственных процессов;

  • Внедрение систем управления производственными процессами (например, MES‑систем), позволяющих собирать, хранить и анализировать данные о производстве;

  • Применение технологий ИИ и машинного обучения для анализа данных о производстве и выявления закономерностей и тенденций;

  • Обеспечение доступа к данным о производстве для аналитиков и специалистов по data mining, чтобы они могли проводить исследования и выявлять новые возможности для оптимизации процессов.

Рассмотрим детальнее этапы методики DDM.

Анализ данных предназначен для выявления закономерностей, тенденций и корреляций. Для выявления скрытых взаимосвязей между параметрами можно использовать корреляционный, регрессионный или кластерный анализ, а также другие типовые или специально разработанные математические модели. Для определения тенденций и закономерностей могут использоваться методы временных рядом или анализа больших данных.

Визуализация данных — представление в виде графиков, диаграмм и других визуализаций для более удобного анализа.

Извлечение данных — самый интересный, на мой взгляд, этап, представляющий собой процесс получения полезной информации из данных, которые были извлечены из различных источников. Это непрерывный процесс, который требует постоянного обновления и анализа новых данных. Выполняется для принятия решений и оптимизации бизнес‑процессов. Данные — это прекрасно, но наибольшую сложность представляет их трансформация в нечто полезное. На данном этапе нам могут помочь различные алгоритмы машинного обучения, но у них есть своих недостатки.

Вот несколько подходов к извлечению знаний:

  • Машинное обучение

  • Экспертные знания

  • Комбинированный подход (верю в него больше всего)

  • Визуализация

Поскольку DDM это непрерывный процесс, необходимо регулярно выполнять ряд действий.

  • Определять потребности и цели, несмотря на заверения, что якобы цели и потребности не изменились. Надо внимательно изучать, как меняется обстановка и учитывать каждую мелочь, от которых зависит работа.

  • Со сбором данных немного проще. ИТ‑специалисты знают, как собирать данные из тех или иных источников, и все имеют понимания об изменениях в ландшафте компании при выстроенных процессах управления ИТ‑ландшафтом.

  • Обрабатывать и чистить данные — сложные действия, которые непросто автоматизировать, и при любых раскладах нужен человеческий экспертный контроль. Доверить это ИИ в чистом виде невозможно, поэтому специалисты по данным никуда не денутся.

  • Визуализация данных — регулярное обновление дашбордов и их разрезов, чтобы не было отклонений по части выборок и прочих моментов.

  • Анализ данных с использованием различных методов.

  • Принятие решений на основе полученных данных.

Вот и вся методика. Она состоит из нескольких простых шагов, описание которых есть в DAMA‑DMBOK2. Сами они несложные, сложность заключается в их внедрении. Когда я задумался над тем, как описать внедрение, не смог сам для себя ответить, как это сделать просто, быстро и элегантно. Ответ один — никак. Это сделать можно только длительными подходами, убеждениями окружающих, что это круто и классно и верой в то, что ты делаешь.

Известные продукты, реализующие DDM

С DDM не все так сложно, и есть продукты, которые давно существуют и решают задачи по части анализа данных с использованием DDM.

IBM Watson

Основные возможности IBM Watson:

  • Обработка NLP

  • Извлечение информации

  • Рекомендации и прогностическая аналитика

  • Распознавание речи и преобразование текста в речь

  • Анализ настроений и мнений

  • Обучение и самообучение

  • Интеграция с другими сервисами и приложениями

Oracle Coherence

Еще один продукт, Oracle Coherence, предлагает больше реализовать данные и их взаимосвязи. Это высокопроизводительное ПО для обеспечения согласованности данных в распределенных системах. Предоставляет решения для кэширования, синхронизации и распределения данных между узлами в кластере. Может использоваться для оптимизации доступа к данным, повышения производительности и масштабируемости приложений, работающих на кластерах или в облачных средах.

Salesforce Einstein

Salesforce Einstein представляет собой набор функций на базе ИИ, помогающий компаниям принимать более обоснованные решения, оптимизировать операции и улучшить качество обслуживания клиентов. Включает в себя: Einstein Discovery, Einstein Bots, Einstein Recommendations, Einstein Vision, Einstein Sales Insight.

Data Mining with Open Source 

Есть масса продуктов, которые были созданы очень давно, работают по тем же направлениям, но распространяются по принципу Open Source. Сделаю краткий обзор по ним.

WEKA

Программная платформа для машинного обучения и интеллектуального анализа данных, разработанная в Университете Вайкато в Новой Зеландии. Создана в 1993 году, с тех пор активно развивается и улучшается. Включает в себя инструменты: проводник, экспериментатор, поток знаний, простой интерфейс командной строки.

RapidMiner

Представляет собой интегрированную среду для обработки данных в больших информационных массивах, машинного обучения, текстовой аналитики и построения прогностических моделей, а также для решения иных задач. Вышел в 2006 году на платформе Java Virtual Machine. У него более приятный интерфейс, чем у WEKA. В RapidMiner можно строить взаимосвязи, работать с текстовой аналитикой, строить прогнозы и выполнять другие задачи. По сути это подобие мультитула.

Scikit‑Learn

Это свободная библиотека Python для машинного обучения. Содержит множество алгоритмов Data Mining. Предоставляет набор инструментов для выполнения задач машинного обучения, таких как кластеризация, регрессия, классификация и снижение размерности. Простой и понятный интерфейс, позволяющий разработчикам легко создавать и тестировать различные модели машинного обучения.

KNIME

Платформа с открытым исходным кодом для обработки и анализа данных, включает в себя различные инструменты для Data Mining. Представляет собой no‑code решение для обработки и анализа данных. построения процессов обработки данных, визуализации и машинного обучения. Вышла в 2004 году на Java Virtual Machine.

Orange

Программная среда с открытым исходным кодом для визуализации, анализа и моделирования данных. Разработана на Python, доступна для Windows, macOS и Linux. Имеет широкий спектр инструментов для обработки и визуализации данных графики, диаграммы, таблицы, включает алгоритмы машинного обучения: классификация, регрессия, кластеризация. Имеет простой и интуитивный интерфейс, позволяющий легко создавать модели машинного обучения без необходимости написания сложного кода. Может быть интегрировать с другими программами, например, с R и Python, что расширяет возможности.

Версии до 3.0 включают основные компоненты на С++ с оболочками на Python. Все последующие версии используют для научных вычислений распространенные библиотеки с открытым исходным кодом на языке Python, такие как numpy, scipy и scikit‑learn. Графический пользовательский интерфейс работает в рамках кроссплатформенной платформы Qt framework.

Применение:

  • Банковское дело и финансы: анализ кредитных рисков, предсказание дефолтов по кредитам, оценка стоимости кредитов.

  • Медицина: анализ медицинских данных, диагностика заболеваний и прогнозирование исхода лечения.

  • Маркетинг: Анализ поведения пользователей на сайте, определение наиболее эффективных рекламных кампаний, предсказание продаж.

  • Производство: Оптимизация производственных процессов, предсказание отказа оборудования, улучшение качества продукции.

Выводы

В завершение скажу, что управление данными это основополагающий шаг к применению ИИ.

  • Системы ИИ быстро эволюционируют, но в бизнесе ИИ пока не самодостаточен, это инструмент профессионала. Ничто не заменит человеческий опыт, хотя ИИ, конечно, сильно помогает в работе.

  • Управление данными все еще недооценено. Бизнес требует функциональности продуктов, забывая, что нужно выполнить предварительный цикл работ с данными, вложить в это время и средства.

  • Проприетарные продукты не обязательны для начала внедрения ИИ в компании. Как видите, существует масса продуктов с открытым исходным кодом, которые можно применять в работе.

Главное помните, что управление данными — прекрасная точка роста для молодых (и не только) специалистов. Тема перспективная, а работа с данными — прекрасная, интересная и захватывающая вещь. Как и математика, она лаконична и не терпит двусмысленности. Проникнувшись этой лаконичностью и красотой можно нести прекрасное, светлое и доброе в наш мир.

Комментарии (0)