В этой статье я расскажу про открытые данные Whatsapp и Telegram: насколько они ценны и насколько легальны.

В России уже сложился рынок "больших данных": данные для ML-моделей, рекламы и систем принятия решений продают Бюро кредитных историй, Ecom-компании (от крупных маркетплейсов и классифайдов до небольших приложений), Оффлайн ретейлеры, Операторы сотовой связи, различные агрегаторы и другие компании. Новые типы данных появляются на рынке не так часто. Одной из новинок в данных последних лет стали данные мессенджеров - открытые данные Whatsapp и Telegram.
Сейчас их можно получить через публичные API Whatsapp и Telegram, также эти API проинтегрированы в ряд глобальных сервисов, которые в свою очередь доступны через различные интерфейсы, например через отдельные API (whappi, 2chat и пр.) и python библиотеку (upgini).
Какие фичи из Whatsapp и Telegram можно получить для вашей ML модели:
- факт наличия профиля в WhatsApp и Telegram
- тип профиля (открытый / закрытый)
- флаг корпоративного профиля
- тип бизнеса корпоративного профиля
- оценка пола и возраста на основании открытых данных мессенджеров
- оценка настроения пользователя на основании открытых данных мессенджеров
- дата регистрации (соответственно срок жизни номера телефона)
Такие данные, конечно, могут быть полезны для различных скоринговых моделей: от оценки рисков до CRM и предсказания оттока. Давайте посмотрим на метрики.
Результаты тестирования данных мессенджеров в задаче кредитного скоринга

На графике выше сравниваются 3 типовых и 3 новых источника данных для кредитного скоринга.
Источник |
Описание |
IV |
ROC AUC |
Собственные данные |
Новые клиенты: анкета (пол, возраст, регион, доход, семейное положение, занятость) и device data (тип устройства, ОС, IP, браузер). Действующие клиенты: дополнительно учитывается история платежей |
0,4 |
0,67 |
Кредитная история (БКИ) |
Расширенная кредитная история заемщика, содержащая информацию о запросах других кредитных учреждений, о выданных кредитах, платежной дисциплине и т.п. |
1,2 |
0,78 |
E-com |
Агрегированные данные о транзакциях в маркетплейсе, частота покупок, средний чек, категории приобретаемых товаров. |
0,1 |
0,56 |
B2B маркетплейс данных |
Информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов. |
0,3 |
0,63 |
Телеком данные |
Cкоринговый балл мобильного оператора |
0,3 |
0,65 |
Данные мессенджеров |
Регистрации и активность в глобальных мессенджерах и соцсетях, информация с публичных профилей, время с момента начала использования сервисов. |
0,2 |
0,60 |
Однако, помимо практической ценности, возникает важный вопрос: насколько легально использование подобных данных?
Легальность данных из мессенджеров
Персональные данные и политики конфиденциальности. В России действует Федеральный закон №152-ФЗ о персональных данных, в Европе — GDPR, в США — различные законы штатов (например, CCPA в Калифорнии). WhatsApp и Telegram строго регулируют обработку персональных данных. Любой сбор и использование информации о пользователях без их согласия может быть квалифицирован как нарушение законодательства. Поэтому любой запрос по номеру телефона к API Whatsapp и Telegram должен быть подтвержден конклюдивным действием - согласием пользователя на данный запрос.
Данные из открытых профилей и фотографии. Переменные вроде оценки возраста, пола и настроения по фотографиям относятся к биометрическим и чувствительным персональным данным. В большинстве юрисдикций их сбор и обработка требуют отдельного согласия пользователя.
Вывод
Данные из WhatsApp, Telegram и других мессенджеров позволяют улучшить качество действующих клиентских ML-моделей (выявление мошенников/антифрод, оценка кредитных рисков, прогноз оттока). Однако использовать их можно только с согласия конечного пользователя.