Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов / forpes.ru

Главная
Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов

Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов +3

05.09.2025 14:29

Ivan_ya 6 903 Источник

Всем привет! Я Иван Яруков, Data Scientist в команде NLP/OCR моделирования КИБ и СМБ ВТБ. Сегодня банк превращается из просто финансового института в технологическую экосистему, способную анализировать данные, предсказывать сценарии и адаптироваться к изменениям. Одним из ключевых инструментов этой трансформации является единый цифровой профиль клиента — модель, которая учитывает поведение, окружение и историю взаимодействия для принятия банком более точных и справедливых решений.

В ВТБ мы объединили в централизованную витрину эмбеддингов транзакции, связи, балансы, кредитную историю и множество других сигналов. Это стало основой для повышения качества прогнозирования, персонализации продуктов и снижения рисков. Результат — до +6% прироста GINI-метрик. Звучит вдохновляюще? Давайте разберемся, как все устроено.

Почему это важно

Цифровой профиль предназначен не ради хайпа, а для более емкого анализа имеющейся разрозненной информации о клиенте. Персонализированные предложения, точная сегментация, снижение рисков — все это прямой результат качественной работы с данными. Когда система умеет вовремя предлагать нужному клиенту верный продукт, она становится не только полезнее для пользователя, но и эффективнее для бизнеса: растет конверсия, а потери по кредитам сокращаются. И все это благодаря интегральному профилю, который интегрирует десятки источников данных в единую структуру. При этом поведенческие модели не следят за конкретным клиентом, а анализируют исторические поведенческие паттерны. Модель не знает, что это конкретный человек/компания.

Сбор и обработка данных

Чтобы понимать клиента, нужно уметь слышать даже то, что он не говорит напрямую. В качестве источников мы используем транзакции, балансы, кредитную историю — весь возможный цифровой след. Главный вызов — это не дефицит данных, а их разнородность: разные форматы, глубина, периодичность обновления.

Информация поступает из промышленных витрин внутри банковского контура. Это важно для соблюдения регуляторных требований и безопасности. Перед тем как данные попадают в модели, они проходят обязательную валидацию:

проверку на полноту,
корректность форматов,
выбросы,
логическую целостность,
дубликаты.

Такая предобработка критична, поскольку плохие данные на входе всегда означают плохой результат на выходе.

Графы и последовательности: как мы поняли, что важно

Когда стоит задача выявить нетривиальные связи между клиентами, особенно в контексте транзакционной активности, классические табличные подходы оказываются слишком плоскими. Для более глубокого анализа мы используем графовую модель на основе транзакций: каждая вершина — клиент, каждое ребро — факт перевода денежных средств. Ребро может включать дополнительные атрибуты: сумму, дату, частоту, назначение платежа и т.д. Для повышения качества модели мы строим помесячные графы, чтобы выделять временные паттерны и следить за динамикой взаимодействий.

Дополнительно используется фильтрация на этапе построения графа. Часть информации имеет смысл сохранять в качестве атрибута вершины. Например, взаимодействие с налоговой для таргета комплаенса может быть полезной информацией.. Важно отметить, что граф не просто фиксирует факт связи, но и позволяет вычислять графовые метрики: центральность, плотность кластера, медианное расстояние до других узлов. Эти признаки становятся дополнительным входом в модель.

Генерация эмбеддингов: когда клиент становится словом

Чтобы получить числовое представление клиента, мы превращаем граф взаимодействий в пространство эмбеддингов. Одним из наиболее эффективных подходов является метод случайных блужданий (Random Walks). Он позволяет формировать последовательности узлов, аналогичные предложениям в языке, где каждое «слово» — это клиент, а его «контекст» — клиенты, с которыми он связан в графе.

На основе этих последовательностей обучается адаптированная версия Word2Vec. Эта модель, изначально созданная для языковых задач, здесь перенастраивается под графовую структуру. Так формируется плотный вектор признаков, в котором зашито множество параметров: от структурной роли клиента до его поведенческого паттерна в сети транзакций.

Особое внимание уделяется вершинам с высокой степенью связности (например, массовые получатели платежей или крупные корпоративные клиенты). Для них используется техника ограничения длины и количества проходов, чтобы избежать переобучения и сохранить значимость локальных связей.

В качестве альтернатив рассматривались:

Graph Neural Networks (GNN) — позволяют обучаться напрямую на структуре графа, учитывая не только соседей, но и их признаки;
COLES (Contrastive Learning on Sequences) — контрастивный подход, обучающий модель различать «похожих» и «разных» клиентов на основе анализа их последовательных данных (например, поведенческих паттернов во времени).

GNN фокусируется на топологии и структуре связей, тогда как COLES — на временной динамике поведения.

Текущий же выбор в пользу Random Walks + Word2Vec объясняется оптимальным соотношением качества, интерпретируемости и производительности: модель легко масштабируется и показывает устойчивый прирост GINI без необходимости развертывания сложной инфраструктуры.

Проверка качества моделей: рост GINI и жесткие тесты

Оценка цифрового профиля основана на метриках. В качестве ключевой мы используем индекс GINI. Он показывает, насколько хорошо модель ранжирует клиентов по целевой метке: будь то вероятность дефолта, склонность к продукту или аномальное поведение. После внедрения графовых эмбеддингов прирост GINI составил от +1,5 до +6 п.п. в зависимости от задачи.

Ключевое требование — устойчивость во времени. Поэтому тестирование проводится на сдвинутых по горизонту hold-out выборках (обычно +1–3 месяца к train-периоду). Это позволяет зафиксировать поведение модели в условиях real-world-дрейфа и отсеять случайные улучшения.

Для задач склонности дополнительно оцениваются:

precision@k / recall@k — насколько модель точно отбирает целевых клиентов в топе ранжирования;
coverage — доля охваченных релевантных клиентов;
uplift — прирост вовлечения в продукт относительно контрольной группы;
а также feature attribution — оценка вклада эмбеддингов в итоговый прогноз (через permutation importance или SHAP-значения).

Важно не просто угадать, кто купит, а точно исключить тех, на кого не стоит тратить коммуникационные ресурсы. В этом плане графовые признаки особенно ценны: они помогают не только повысить общую точность, но и дают резкий прирост в верхнем сегменте скорингового ранжирования — а именно он критичен для бизнеса.

Реальные кейсы: цепочки подозрений и региональные паттерны

Один из показательных кейсов — выявление сомнительных клиентов. Вместо анализа каждой транзакции отдельно, граф позволяет находить цепочки переводов между контрагентами, формируя группы риска. Так можно, например, начать с одного подозрительного клиента и «распутать» всю его сеть.

Аналогично можно анализировать поведенческие паттерны, выявляя регионы или кластеры с одинаковой динамикой. Пока интерпретация таких аномалий требует доработки, но даже на раннем этапе такие инструменты помогают аналитикам фокусироваться на нестандартных сценариях.

Внедрение в банк от моделей до реализации на практике

Чтобы модель заработала «вживую», нужен не только хороший код, но и продуманный MLOps-процесс. В ВТБ этот процесс строится в зависимости от режима — batch или online. Модель развертывается через промышленный конвейер: сначала пилот, потом контроль деградации, регулярное дообучение.

Графовые нейросети пока находятся на этапе прототипирования. Их непросто внедрить из-за требований по вычислительным ресурсам и сложной интерпретации. Поэтому сейчас ставка на гибкие, но простые в эксплуатации подходы.

Перспективы — вектор на интеграцию и масштабирование

Профиль клиента — живая экосистема, которую нужно развивать. Впереди стоит задача интеграции графов с последовательностями и доработка графовых нейросетей, которые смогут учитывать не только связи, но и временные паттерны поведения, а также учитывать текстовые данные. Мы движемся к тому, чтобы цифровой профиль стал не просто отражением пользователя, а прогнозирующей моделью, которая адаптируется под конкретный контекст, продукт и даже канал взаимодействия.

Комментарии (6)

ChePeter
05.09.2025 14:57
#28801448
странная логика, которая приводит только к убыткам

Важно не просто угадать, кто купит, а точно исключить тех, на кого не стоит тратить коммуникационные ресурсы.

Вы учите свои сети на своей истории, тем самым стагнируя алгоритмы. Новации мимо вас, новые жулики вам незаметны, их же не было раньше.

И как профессионал математик и как пользователь банка скажу вам- говно это ваша система.

Она как то не пустила перевести ежемесячный платеж жене. Я полчаса отвечал на вопросы вашей сотрудницы.
- знаю ли я того кому перевожу - да,это жена
- а как её зовут - зовут Жена
- а где она живет - со мной
- а как часто вы переводите её деньги - регулярно
А результат красавчики выдали со своим убогим исскуственным интеллектом
- транзакцию заблокировать
- зайти в банк с паспортом лично

Surrogate
05.09.2025 14:57
#28802120
Важно не просто угадать, кто купит

А что вы хоть продаете?

точно исключить тех, на кого не стоит тратить коммуникационные ресурсы

Я вот являюсь номинально клиентом вашего банка. До апреля карта ВТБ была у меня основной, в месяц было по ней расходов 60-70к. В апреле ваше приложение перестало нормально работать, в августе было операций на 364 рубля. Вы разложите мое поведение на свои графы и начнёте выдавливать меня из числа ваших клиентов?

ASenchenko
05.09.2025 14:57
#28802326
А я то всё думал зачем у меня через Госуслуги просят доступ к вот этому вот всему.

Я всё искал запрос цвета горошка на трусах, но не нашёл. Вот и не дал.

А это оказывается ребро графа такое. Чтобы значит решить стоит мне чего продавать или нет. Вон оно чё. Так бы дал конечно разрешение, если б знал. А так не дал. Сорян, ребят
1. Surrogate
  05.09.2025 14:57
  #28803112
  просят доступ к вот этому вот всем
  
  При заключении договора в офисе ВТБ мне дали такую же простыню со списком разрешений (приведенным выше). Потом в приложении раз в месяц вылезало обновите Единую Форму Согласия (ЕФС или как то похоже это называется), там уже все галочки за меня расставлены и их снять невозможно!
  
  Пару раз ходил в офис, количество галочек в списке уменьшать. После начала 2025 года перестали слать ЕФС
  
  точно исключить тех, на кого не стоит тратить коммуникационные ресурсы
  
  Наверно закончились для меня коммуникационные ресурсы :)
  1. ASenchenko
    05.09.2025 14:57
    #28803528
    Камрады уже научились в цифровой профиль. И это хорошо.
    
    Но пока что явно не могут трезво сопоставить реальную ценность своих "глубоко персонализированных предложений" с возможными последстаиями потециальной утечки той инфы, которую они хотят получить для создания "глубокой персонализации".
    
    Это должен быть реально уникальный продукт с очень ощутимым профитом, а не ±0.5% к ставке

RomeoGolf
05.09.2025 14:57
#28809174
"Очень интересно, но ни<чего> непонятно!"

Во-первых, сам текст изобилует терминологией, через которую трудно продраться человеку, не работающему непосредственно в этой области.

Во-вторых, не вполне очевидно, какую пользу это несет собственно банку. Ну, мне - неочевидно. Сильно сомневаюсь, что реально может повысить прибыль... Разве что разработчикам этой фигни и их начальству, тут вопросов нет.

Но главное - а как быть с теми, кто хочет просто иметь счет в банке и пользоваться денежкой на нем И ВСЁ!!! Штоп банк не лез ко мне через кошелек в душу и нижнее белье, не искал, где я живу, куда езжу, какое вино и сколько бутылок купил в эту пятницу, когда техосмотр моей машины... НЕ ВАШЕ ДЕЛО!!! (дальше много мата)

Я от бывшего тинькова ухожу, потому что эти <крайне нехорошие люди> добавили в личном кабинете кучу документов, которые я им не давал, например, все сведения о моей машине, а заодно и о предыдущей машине. На вопрос "где взяли?" долго искали нелепые отмазки, типа я сам дал, я дал доступ к госуслугам, под конец выдали что-то вроде "из открытых источников в сети интернет".

Хотел перейти в ВТБ - похоже зря... Завел дебетовую для начала - посыпалось: "у вас есть неоплаченные счета в других банках, мы нашли их по вашему адресу". Нахрена искали, кто вас просил?!!

Кто-нибудь в курсе, остались ли еще нормальные банки, которые не лезут туда, куда их не просят, чтобы просто банк?