Концепция data-driven представляет собой подход, в котором данные и аналитика служат основой для принятия решений на всех этапах разработки продукта. Основная идея этого подхода заключается в том, что заинтересованные лица могут анализировать данные, чтобы лучше понять, как пользователи взаимодействуют с продуктом. Это может включать выявление популярных функций, мест, где клиенты теряют интерес к покупке, и определения необходимых элементов интерфейса. Полученная информация позволяет обновлять сервис, добавляя, изменяя или исключая определённые функции.
Data-driven подход способствует выявлению новых возможностей для развития продукта и помогает принимать обоснованные решения по стратегическому направлению бизнеса: определять, в каком регионе расширять присутствие, в какой продукт инвестировать средства на продвижение, а какие из них стоит закрыть.
В основе data-driven подхода лежат четыре ключевых принципа:
Итеративный сбор и анализ данных.
Необходимо постоянно исследовать, как функционирует продукт, поскольку он «живёт» и адаптируется к требованиям бизнеса и потребностям клиента, а также рыночной ситуации. Это требует непрерывного мониторинга.
Исследование пользовательского поведения и предпочтений.
При создании продукта нужно учитывать запросы и желаемые функции пользователей, чтобы разработать сервис, которым они будут удовлетворены. Например, решение о выборах платформы для продукта может зависеть от анализа поведения клиентов: стоит ли инвестировать в мобильное приложение или сосредоточиться на развитии веб-сайта.
Эксперименты и тесты.
Чтобы установить, какие изменения будут положительно влиять на показатели, важно проводить эксперименты и проверять гипотезы. К примеру, можно протестировать разные дизайны рекламных баннеров перед внедрением новой функции в приложение.
Совместная работа.
Data-driven подход предполагает активное сотрудничество между разными командами: разработчиков, дизайнеров, маркетологов и аналитиков. Каждая команда должна использовать данные для обоснования своих решений по изменению продукта.
Цикл data-driven развития продукта состоит из шести этапов:
Идеи. На этом начальном этапе формируются предположения о возможных направлениях развития продукта.
Создание. Когда аналитика подтверждает жизнеспособность гипотезы, в продукт вносятся изменения.
Продукт. Запускается обновлённый продукт, собираются данные для оценки эффективности изменений.
Измерение. Аналитики отслеживают изменения, происходящие с продуктом.
Данные. Собранные данные интерпретируются и используются для анализа последствий изменений.
Обучение. На основе полученных результатов формируются новые гипотезы для дальнейшего развития продукта.
Для оценки успешности продукта в рамках подхода data-driven исследуются метрики, такие как:
Конверсия — процент пользователей, выполнивших целевое действие, например, покупку товара или регистрацию.
Удержание — доля пользователей, продолжающих использовать продукт после первого взаимодействия. Этот показатель критичен для онлайн-сервисов, так как пользователи могут быстро переключаться между приложениями.
Отток — количество пользователей, прекративших использование продукта за определённый период. Удержание и отток взаимосвязаны, и для улучшения удержания нужно анализировать причины оттока.
Вовлечённость — активность пользователей при взаимодействии с продуктом. Включает количество сеансов, время, проведённое в сервисе, и выполненные действия.
Индекс потребительской лояльности (NPS) — вероятность того, что пользователи порекомендуют продукт, что отражает уровень удовлетворённости клиентов.
Метрики могут использоваться как совместно, так и отдельно, в зависимости от целей компании.
Недостатки data-driven подхода
Хотя data-driven подход предоставляет полезные инструменты для принятия бизнес-решений, важно учитывать и его недостатки:
Затраты ресурсов. Сбор и анализ данных могут быть весьма затратными, как с точки зрения финансов, так и времени. Компании могут испытывать нехватку ресурсов на всех стадиях цикла, особенно если сотрудники лишь начинают использовать этот подход.
Риск неверных выводов. Неверно собранные или проанализированные данные могут привести к ошибочным решениям.
Важность опыта. Data-driven подход не может полностью заменить опыт и интуицию, которые могут быть критически важными при столкновении с новыми или неожиданными ситуациями.
Сложность согласования данных между разными отделами. Например, если у отдела маркетинга и отдела риск-менеджмента разные приоритеты, то анализ может давать противоречивые результаты.
Возможности применения data-driven в финтех проектах
Повышение эффективности: Использование данных позволяет оптимизировать процессы. Например, банки могут сократить время обработки кредитных заявок за счет автоматизации анализа данных о заемщиках.
Риск-менеджмент: Финансовые учреждения могут предсказывать и минимизировать риски, используя исторические данные. Модели машинного обучения помогают в выявлении потенциальных дефолтов и мошеннических действий.
Модели прогнозирования рисков помогают компаниям идентифицировать потенциальные угрозы и принимать меры для их минимизации. Существуют различные статистические и машинно-обучающие модели, которые могут быть использованы для прогнозирования рисков. К основным моделям относятся:
Персонализация услуг: Анализ клиентских данных помогает создавать персонализированные предложения, что увеличивает уровень удовлетворенности клиентов и укрепляет отношения с ними.
Улучшение принятия решений: Данные служат надежным источником информации, что снижает вероятность ошибок при принятии стратегических решений.
Как внедрить data-driven подход в FinTech
1. Определение бизнес-целей и метрик
Прежде всего, компаниям необходимо четко определить свои бизнес-цели и метрики для их достижения. Это могут быть увеличение клиентской базы, снижение уровня дефолтов по кредитам или улучшение процесса одобрения заявок. Постановка четких целей позволит правильно выбрать данные для анализа.
2. Сбор и хранение данных
Качественные данные — это основа любого data-driven подхода. FinTech-компании должны организовать процесс сбора данных из различных источников, таких как транзакционные данные, поведение клиентов на сайте, социальные сети и другие. Хранение данных должно обеспечивать возможность их быстрого доступа и масштабируемость в будущем.
В FinTech-проектах сбор данных представляет собой многоступенчатый процесс, который начинается с интеграции различных источников информации. Это могут быть данные о транзакциях, кредитной истории, поведении пользователей и даже внешние факторы, такие как экономические индикаторы или новости. Основные этапы сбора данных включают:
Идентификация источников данных: Выбор актуальных источников, например, банковские системы, платформы платежей, социальные сети и т.д.
Сбор данных: Исходя из требований законодательства о защите персональных данных, данные могут собираться как в режиме реального времени, так и пакетами.
Очистка данных: Удаление дубликатов, исправление ошибок и заполнение пропусков — важные шаги, без которых анализ будет неверным.
Анализ и трансформация данных: Возможность применения различных методов для нормализации и стандартизации данных, а также создания новых признаков, которые могут улучшить модели предсказания.
3. Анализ данных
На этом этапе применяются статистические методы и алгоритмы машинного обучения для анализа собранных данных. Использование современных инструментов аналитики позволяет проводить глубокий анализ и визуализировать результаты.
Одним из ключевых применений ML в FinTech является прогнозирование дефолтов. Обычно для этой задачи используются классификационные модели, которые обучаются на исторических данных о заемщиках, включая такие факторы, как доходы, кредитная история и поведенческие характеристики.
Настройка модели может быть выполнена с помощью алгоритмов, таких как градиентный бустинг (например, XGBoost, LightGBM). Эти алгоритмы хорошо подходят для работы с большими объемами данных и имеют высокую точность благодаря своей способности выявлять сложные зависимости.
Рассмотрим детальнее применимость градиентного бустинга для классификации рисков. Например, компания XYZ разрабатывает систему кредитного скоринга. В процессе работы они собирают данные о заемщиках и обучают модель на основе исторических данных о дефолтах.
Сбор данных: На этом этапе собираются данные о заемщиках: Age, Income, Previous Defaults, Credit Score и другие важные факторы.
Формирование обучающей выборки: Создается набор данных, содержащий информацию о заемщиках, которые либо погасили кредит, либо не смогли этого сделать.
Обучение модели: Градиентный бустинг обучается на этом наборе. Модель оптимизирует субъективную функцию потерь, которая отражает, насколько правильно она классифицирует заемщиков по вероятности дефолта.
Тестирование и валидация: Модель проходит через этапы кросс-валидации и тестирования на отложенной выборке, чтобы избежать переобучения и обеспечить ее применимость в реальных условиях.
Внедрение и мониторинг: После успешного тестирования модель внедряется в процесс принятия решений о выдаче кредитов. Также важно осуществлять её мониторинг и периодическую переобучение, чтобы поддерживать её актуальность.
Также критическое значение имеет управление качеством данных. Качество данных играет ключевую роль в принятии бизнес-решений, аналитике и построении моделей машинного обучения. Низкое качество данных может привести к ошибочным выводам, неэффективным стратегиям и, в конечном итоге, финансовым потерям. Управление качеством данных включает в себя следующие ключевые аспекты:
Точность: Данные должны точно отражать реальные события или сущности.
Полнота: Наличие всех необходимых данных для выполнения анализа.
Надежность: Данные должны быть собраны из достоверных источников.
Актуальность: Информация должна быть свежей и обновленной.
Одним из главных этапов управления качеством данных является выявление проблем, таких как пропуски (missing values) и аномальные значения (outliers). Рассмотрим несколько подходов и методов для этой задачи.
Пропуски в данных могут возникать по различным причинам: человеческие ошибки, сбои в системах, недостаточная интеграция источников и прочее. Для выявления пропусков можно использовать следующие методы:
Описательная статистика: Простое применение методов, таких как суммирование, среднее или стандартное отклонение, может помочь понять, какие переменные имеют пропуски.
Графические методы: Визуализация, такие как гистограммы и диаграммы разброса, позволяет быстро идентифицировать переменные с незаполненными значениями.
Таблицы пропусков: Создание специальных таблиц, показывающих количество пропусков по каждому столбцу, может значительно упростить процесс анализа.
Помимо этого, существуют различные подходы для обнаружения аномалий:
Статистические методы: Использование методов, таких как z-оценка и межквартильный размах (IQR), позволяет выявлять выбросы, отклоняющиеся от статистической нормы.
Машинное обучение: Современные алгоритмы, такие как Isolation Forest и Local Outlier Factor (LOF), могут обрабатывать большие наборы данных и эффективно выявлять аномалии.
Визуализация данных: Графические инструменты, такие как ящики с усами (box plots) и графики рассеяния, облегчают обнаружение выбросов в данных.
После выявления пропусков и аномальных значений важным шагом является их обработка. В зависимости от ситуации и особенностей данных, можно применить следующие подходы:
Обработка пропусков
Замена значений: Пропуски могут быть заполнены средними, медианными или модальными значениями, что позволяет сохранить объем данных.
Удаление записей: Если пропусков слишком много, можно удалить записи с недостаточными данными, особенно если они не критичны для анализа.
Импутация: Применение более сложных методов, таких как регрессионная импутация, может помочь в прогнозировании отсутствующих значений.
Обработка аномальных значений
Коррекция: Для некоторых случаев можно заменить аномальные значения на более уместные, например, с использованием медианных значений.
Удаление: В случаях, когда аномалии являются результатом ошибок, их можно удалить из данных, чтобы избежать искажений.
Идентификация и анализ: Иногда аномальные значения могут быть значимыми данными, которые стоит выделить и проанализировать отдельно.
4. Применение выводов для принятия решений
Анализ данных должен непосредственно влиять на принятие решений в компании. Например, предсказательная аналитика может быть использована для формирования кредитных предложений, которые максимально соответствуют потребностям клиентов, в то время как агрегированные клиентские данные могут помочь в обновлении маркетинговых стратегий.
5. Непрерывное улучшение
Мониторинг данных и моделей является критически важным аспектом работы и незаменимым инструментом для обеспечения их надежности и эффективности. С помощью специализированных инструментов, таких как Prometheus и Grafana, организации могут следить за производительностью моделей, качеством данных и предотвращать проблемы, связанные с переобучением.
А что же на практике?
Первое, с чем вы столкнетесь на пути к достижению идеала в принятии решений на основе данных, — это нехватка метрик. Поэтому важно начать с создания инфраструктуры для сбора и хранения данных. В большинстве проектов для бэкенда принято использовать репликацию продовой базы данных. Для сбора фронтенд данных (просмотры страниц, взаимодействие с элементами интерфейса, скроллинг и клики) подойдут классические инструменты, такие как Google Analytics и Яндекс.Метрика. Базового функционала этих инструментов достаточно для маркетинговых задач, а для анализа продуктовых воронок и А/B-тестов можно воспользоваться Google Reporting API.
После начала сбора статистики важно, чтобы развитие продукта шло в унисон с его метриками. При реализации новой функции в продукте необходимо ответить на следующие вопросы:
На какие ключевые бизнес-метрики это повлияет?
Какие изменения будут внесены в клиентский путь или бэкенд алгоритмы? Как это скажется на существующих метриках?
Как разбить новую функцию на этапы/составляющие, чтобы можно было собирать метрики по каждому из них и позже анализировать их работу?
Далее следует убедиться, что подсистема сбора и хранения данных имеет такую же важность для вашей команды разработки и IT-отдела, как и продакшн-система. Например, у нас была проблема с пропаданием трекинга в Google Analytics на разных страницах, пока мы не обсудили с разработчиками важность этих аспектов.
Тем не менее, наличие данных не гарантирует их эффективного использования. Часто возникают следующие проблемы:
Где достать определённую метрику?
Правильно ли она собирается?
Как образом структурировать отчет, чтобы извлечь из него выводы?
Имеет ли этот показатель статистическую значимость?
Есть ли возможность собрать дополнительные данные для более глубокого понимания ситуации или для проверки собранных метрик другими способами?
Оказалось, что это достаточно трудоёмкая задача, требующая специализированных навыков и значительного времени, что и порождает необходимость создания отдела аналитики.
С увеличением объема данных может также возникнуть проблема их распределения: данные могут храниться в разных местах, и одни аналитики умеют работать только с определенными хранилищами, в то время как другие — с другими. Некоторые базы данных могут вообще оказаться непривычными для команды, что усложняет сопоставление данных. Решением может стать внедрение data warehouse (DWH).
Одной из основных задач, которые решает Data Warehouse, является интеграция данных из множества разрозненных источников. Это могут быть системные базы данных, CRM, ERP, электронные таблицы, а также внешние данные, такие как рыночная информация или данные социальных сетей.
С помощью DWH происходит:
Сбор данных: Реализуются необходимые ETL-процессы (Extract, Transform, Load), которые позволяют извлекать данные из разных источников, преобразовывать их в необходимый формат и загружать в центральное хранилище.
Устранение дублирования: В процессе интеграции данные очищаются от дубликатов и несоответствий, что обеспечивает единообразие и целостность информации.
Создание единой модели данных: DWH предоставляет структуру и единый формат для представления данных, что упрощает их дальнейшее использование.
Процесс интеграции данных, реализуемый через DWH, значительно облегчает доступ аналитиков к необходимой информации. Ранее аналитикам приходилось собирать данные вручную из разных источников, что занимало много времени и часто приводило к ошибкам. С внедрением DWH доступ к данным стал значительно проще и быстрее благодаря следующим механизмам:
Централизованный доступ: Все данные хранятся в одной системе, что упрощает их поиск и получение. Аналитики могут быстро находить нужную информацию, не тратя время на перебор различных систем и баз.
Упрощенные запросы: DWH предоставляет возможность работать с данными через простые SQL-запросы или более продвинутые аналитические инструменты, что позволяет сократить время на подготовку отчетов и анализ.
Интерактивные панели управления: Современные DWH часто интегрируются с BI-инструментами, что позволяет создавать интерактивные визуализации и дашборды. Это делает информацию более доступной и понятной для пользователей без глубоких технических знаний.
Внедрение Data Warehouse положительно сказывается на качестве данных. Благодаря централизованному хранилищу и процессам очистки, информация становится более консистентной и надежной. Вот несколько аспектов, которые способствуют повышению качества данных:
Стандартизация данных: DWH устанавливает общие правила для представления и хранения данных, что помогает устранить различия между форматами различных источников.
Контроль качества данных: При загрузке данных в DWH можно устанавливать правила валидации, что позволяет выявлять и исправлять ошибки еще на этапе интеграции.
Аудит и отслеживаемость: DWH предоставляет возможности для отслеживания изменений данных, что способствует большей прозрачности результатов анализа и позволяет легко проверять источники данных.
Все эти преимущества в конечном итоге приводят к значительному сокращению времени, затрачиваемого на анализ данных. Аналитики могут сосредоточиться на интерпретации информации, а не на ее поиске и подготовке. Быстрое получение актуальных данных позволяет организациям принимать более обоснованные решения, реагируя на изменения в бизнес-среде и предпочтениях клиентов.
Однако по мере роста компании может стать очевидным, что не все сотрудники понимают значимость данных и умеют с ними работать. Здесь возникает два ключевых вопроса: внутреннее продвижение и найм нужных специалистов.
Что касается внутреннего продвижения, если основатели компании пропагандируют культуру данных, это влияет на топ-менеджмент, а затем на миддл-менеджмент и так далее. Важно также при найме сотрудников проверять, умеют ли они ориентироваться на цифры в своей работе.
Кроме того, следует обратить внимание на финансовую сторону вопроса: если речь идет о кредитовании, важно не просто выдать деньги, но и обеспечить их возврат. Сумма возвратов влияет на объем доступных средств. В этом контексте роль предсказательных моделей становится критически важной, поскольку они помогают прогнозировать будущее P&L. Например, можно использовать модели для прогнозирования прибыли на основе данных о просроченной задолженности, среднем чеке с учетом сегментации клиентов или количестве выданных кредитов на основе данных о возврате средств и т.д.
Заключение
Внедрение data-driven подхода в FinTech-компании открывает широкие возможности для повышения эффективности и конкурентоспособности. Способность оперативно анализировать и реагировать на изменения в данных становится важнейшим фактором успеха на современном финансовом рынке. Используя данные как стратегический ресурс, компании могут не только улучшить свои внутренние процессы, но и создать добавленную стоимость для клиентов, тем самым укрепляя свою позицию в отрасли.