Способность извлекать максимальную ценность из данных положительно влияет на успех бизнеса и конкурентоспособность компании.
Данные используются для мониторинга и оптимизации бизнес-процессов, помогают лучше понять потребности и поведение клиентов, позволяют управлять рисками и принимать эффективные управленческие решения.
Аналитика данных помогает обосновать эти решения на разных уровнях:
Описательном – объяснить, что произошло
Диагностическом – понять, почему это произошло
Предиктивном – оценить, что может произойти в будущем
Предписывающем – получить варианты решения проблем
В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.
В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных, которые превращают данные в ценные инсайты.
Разница между данными, информацией и знаниями
Зачастую три этих определения используют взаимозаменяемо, что некорректно.
С точки зрения места в принятии решений данные локализованы во всем мире, знания – в людях, компаниях, устройствах, а информация выступает связующим звеном между ними.
Данные — это факты и цифры, которые не имеют контекста и не интерпретированы.
Сами по себе они не указывают на причины того или иного события и не помогают определить дальнейшие действия. Данные могут поступать из внутренних и внешних источников, быть объективными и субъективными, качественными, количественными и так далее.
Например, набор чисел «10, 20, 30» — это данные, но без дополнительной информации они не говорят о чем-то конкретном.
После обработки, структурирования и интерпретации данные обретают релевантность, смысл и контекст и становятся информацией.
Если набор чисел «10, 20, 30» означает количество продукта 1, продукта 2 и продукта 3, проданного за период, это уже информация, на основе которой можно сделать выводы («Продукт 3 был продан в количестве 30 штук, он продается лучше остальных»).
Когда информацию объединяют с опытом, сравнивают с другой ранее полученной информацией, ищут точки пересечения, предсказывают последствия, она становится знаниями.
Знания всегда полезны для практических действий.
Для демонстрации получения ценности в процессе обработки данных используется концепция DIKW:
Data — данные – лежат в основе пирамиды
Information — информация – образуется в результате выстраивания связей между фактами
Knowledge — знания – дают возможность делать выводы на основе информации
Wisdom — мудрость - позволяет выйти за границы процесса, чтобы использовать его для более масштабных целей
Что такое аналитика данных
Понимая, как данные трансформируются в мудрость, можно сделать вывод о том, что главную ценность представляет собой информация, которую мы получаем, когда данные:
Получили контекст
Разделены на категории
Не содержат ошибок
Агрегированы
Подверглись вычислениям
С этой целью проводится аналитика данных — процесс уменьшения неопределенности данных, их описания, интерпретации и извлечения полезной информации.
Аналитика данных может включать в себя применение статистических и логических методов, инструментов визуализации (BI) и машинного обучения (ML) для изучения данных, поиска закономерностей, трендов и зависимостей.
Существует два уровня развития аналитики данных:
Традиционная аналитика – BI-аналитика – анализ в централизованной системе, которая помогает бизнесу не утонуть в информационном хаосе, визуализировать данные, разрабатывать стратегии и принимать эффективные управленческие решения на основе данных.
Продвинутая аналитика - Data Science (наука о данных) - работа с большими данными (Big Data) для подтверждения гипотез, нахождения закономерностей и формирования прогнозов.
Каждый уровень аналитики делится на виды в зависимости от бизнес-вопросов, на которые он отвечает.
Виды аналитики данных
На схеме ниже продемонстрированы разные виды аналитики, а также зависимость эффективности анализа от его уровня сложности. Чем выше сложность проводимой аналитики, тем больше выгода для бизнеса от нее.
Традиционная аналитика
1. Дескриптивная (описательная) аналитика
Отвечает на вопрос «Что случилось?». Наиболее общий и простой с точки зрения методов и технологий вид аналитики данных.Для проведения анализа используют методы описательной или дескриптивной статистики:
Агрегирование данных – сумма, минимум, максимум
Меры центрированности – медиана, мода, среднее значение
Отношения и пропорции
Информация о событии отображается с помощью таблиц регламентной отчетности и аналитических панелей (дашбордов) с визуализациями в виде ключевых показателей.
Примеры описательной аналитики:
Каждая компания формирует бухгалтерские и финансовые отчеты, которые описывают доходы, расходы и активы компании за определенный период времени. Эти отчеты помогают оценить общее финансовое состояние бизнеса.
Непрерывный сбор данных с производственного оборудования с помощью датчиков помогает промышленным компаниям точно идентифицировать момент сбоя в технологическом процессе.
Девелоперы проводят регулярный анализ данных о ценах на недвижимость, количестве проданных объектов, спросе в разных географических регионах для понимания текущих трендов на рынке недвижимости.
2. Диагностическая аналитика
Отвечает на вопрос «Почему это произошло?». Помогает выяснить причины произошедших событий, глубже понять проблемы и находить пути их решения.
В этом виде аналитики применяют поиск корреляций (взаимосвязей), регрессионный анализ, анализ временных рядов, определение выбросов и аномалий, фильтрацию.
Для диагностической аналитики используют self-service BI-инструменты, позволяющие пользователю без знаний ИТ самостоятельно проводить исследование данных и создавать визуализации.
Примеры диагностической аналитики:
Факторный анализ - метод диагностической аналитики, который помогает определить, какие факторы влияют на переменные, и какие именно переменные наиболее чувствительны к воздействию этих факторов.
Например, с его помощью можно узнать, как и в какой степени на прибыль компании влияют объем продаж, себестоимость и цена продукции, налоги, производственные затраты. Вычисление самых влиятельных факторов поможет пересчитать юнит-экономику, доработать методологию продаж или запланировать расширение клиентской базы.
Маркетинг может использовать анализ временных рядов для оценки изменений в поведении потребителей в течение маркетинговой кампании.
Производственные компании используют диагностическую аналитику для выяснения причин брака изделий. Для этого проводится анализ нарушений в технологических процессах, степени износа оборудования, качества материалов.
Для понимания причин, по которым клиенты уходят к конкурентам, операторы мобильной связи анализируют данные о качестве связи, стоимости услуг и уровня обслуживания в разные периоды.
Продвинутая аналитика
3. Предиктивная (прогнозная, предсказательная) аналитика
Предсказательная аналитика отвечает на вопрос «Что вероятнее всего случится дальше?». Исторические данные используются для формирования прогнозов и выявления будущих трендов.
Для анализа используют разные виды регрессии - исследования влияния одной или нескольких независимых переменных на зависимую переменную, а также классификацию, кластеризацию, тестирование гипотез и само прогнозирование.
В предиктивной аналитике применяют языки программирования R и Python, инструменты машинного обучения и искусственный интеллект.
Примеры предиктивной аналитики:
На основе исторических данных о продажах, сезонных трендах, праздниках и мероприятиях, а также текущих тенденциях в моде, производитель одежды может спрогнозировать, какие товары будут наиболее популярны в следующем сезоне, оптимизировать производство и запасы на складе.
Банки используют предиктивную аналитику для оценки кредитоспособности клиентов. Актуальные и исторические данные о платежах, кредитных картах и доходах помогают прогнозировать вероятность дефолта.
Транспортные компании могут проанализировать исторические данные о пробках, погодных условиях и дорожных происшествиях, чтобы спрогнозировать время в пути и оптимизировать маршруты доставки.
4. Прескриптивная (предписательная) аналитика
Прескриптивная аналитика отвечает на вопрос «Что мы должны делать?». Это продвинутый вид аналитики, основанный на предыдущих четырех видах.
Наименее структурированный и наиболее комплексный вид аналитики, когда система помогает построить возможные сценарии событий и выбрать наиболее эффективный.
Первостепенную роль в предписательном анализе играет опыт и накопленные знания людей в сочетании с ИИ-ассистентами и методами машинного обучения.
Примеры прескриптивной аналитики:
Модели для определения наилучших методов лечения пациента с учетом его истории болезни, биометрических данных и новых медицинских исследований.
Прогнозирование возможных поломок и предложение сроков ремонта оборудования на основе регулярного мониторинга его состояния.
Прогнозирование вероятности дефолта заемщика и рекомендация конкретных кредитных лимитов и условий займа, основанная на профилях рисков.
В зависимости от задач конкретных подразделений разные виды аналитики могут использоваться параллельно.
Для простых задач будет достаточно диагностической аналитики. Продвинутая аналитика принесет больше результата в работе с большими объемами данных, но потребует разработки регламентов их обработки и хранения, внедрения ML и привлечения экспертов Big Data.
По-настоящему полезной и удобной аналитика данных становится тогда, когда она упрощает повторяющиеся процессы, подстраивается под нужды пользователей и масштабируется вместе с бизнесом. Это возможно в рамках единой аналитической системы в сочетании с внедрением корпоративного хранилища данных.