Всем привет! Я Иван Яруков, Data Scientist в команде NLP/OCR моделирования КИБ и СМБ ВТБ. Сегодня банк превращается из просто финансового института в технологическую экосистему, способную анализировать данные, предсказывать сценарии и адаптироваться к изменениям. Одним из ключевых инструментов этой трансформации является единый цифровой профиль клиента — модель, которая учитывает поведение, окружение и историю взаимодействия для принятия банком более точных и справедливых решений.
В ВТБ мы объединили в централизованную витрину эмбеддингов транзакции, связи, балансы, кредитную историю и множество других сигналов. Это стало основой для повышения качества прогнозирования, персонализации продуктов и снижения рисков. Результат — до +6% прироста GINI-метрик. Звучит вдохновляюще? Давайте разберемся, как все устроено.
Почему это важно
Цифровой профиль предназначен не ради хайпа, а для более емкого анализа имеющейся разрозненной информации о клиенте. Персонализированные предложения, точная сегментация, снижение рисков — все это прямой результат качественной работы с данными. Когда система умеет вовремя предлагать нужному клиенту верный продукт, она становится не только полезнее для пользователя, но и эффективнее для бизнеса: растет конверсия, а потери по кредитам сокращаются. И все это благодаря интегральному профилю, который интегрирует десятки источников данных в единую структуру. При этом поведенческие модели не следят за конкретным клиентом, а анализируют исторические поведенческие паттерны. Модель не знает, что это конкретный человек/компания.
Сбор и обработка данных
Чтобы понимать клиента, нужно уметь слышать даже то, что он не говорит напрямую. В качестве источников мы используем транзакции, балансы, кредитную историю — весь возможный цифровой след. Главный вызов — это не дефицит данных, а их разнородность: разные форматы, глубина, периодичность обновления.
Информация поступает из промышленных витрин внутри банковского контура. Это важно для соблюдения регуляторных требований и безопасности. Перед тем как данные попадают в модели, они проходят обязательную валидацию:
проверку на полноту,
корректность форматов,
выбросы,
логическую целостность,
дубликаты.
Такая предобработка критична, поскольку плохие данные на входе всегда означают плохой результат на выходе.
Графы и последовательности: как мы поняли, что важно
Когда стоит задача выявить нетривиальные связи между клиентами, особенно в контексте транзакционной активности, классические табличные подходы оказываются слишком плоскими. Для более глубокого анализа мы используем графовую модель на основе транзакций: каждая вершина — клиент, каждое ребро — факт перевода денежных средств. Ребро может включать дополнительные атрибуты: сумму, дату, частоту, назначение платежа и т.д. Для повышения качества модели мы строим помесячные графы, чтобы выделять временные паттерны и следить за динамикой взаимодействий.
Дополнительно используется фильтрация на этапе построения графа. Часть информации имеет смысл сохранять в качестве атрибута вершины. Например, взаимодействие с налоговой для таргета комплаенса может быть полезной информацией.. Важно отметить, что граф не просто фиксирует факт связи, но и позволяет вычислять графовые метрики: центральность, плотность кластера, медианное расстояние до других узлов. Эти признаки становятся дополнительным входом в модель.
Генерация эмбеддингов: когда клиент становится словом
Чтобы получить числовое представление клиента, мы превращаем граф взаимодействий в пространство эмбеддингов. Одним из наиболее эффективных подходов является метод случайных блужданий (Random Walks). Он позволяет формировать последовательности узлов, аналогичные предложениям в языке, где каждое «слово» — это клиент, а его «контекст» — клиенты, с которыми он связан в графе.
На основе этих последовательностей обучается адаптированная версия Word2Vec. Эта модель, изначально созданная для языковых задач, здесь перенастраивается под графовую структуру. Так формируется плотный вектор признаков, в котором зашито множество параметров: от структурной роли клиента до его поведенческого паттерна в сети транзакций.
Особое внимание уделяется вершинам с высокой степенью связности (например, массовые получатели платежей или крупные корпоративные клиенты). Для них используется техника ограничения длины и количества проходов, чтобы избежать переобучения и сохранить значимость локальных связей.
В качестве альтернатив рассматривались:
Graph Neural Networks (GNN) — позволяют обучаться напрямую на структуре графа, учитывая не только соседей, но и их признаки;
COLES (Contrastive Learning on Sequences) — контрастивный подход, обучающий модель различать «похожих» и «разных» клиентов на основе анализа их последовательных данных (например, поведенческих паттернов во времени).
GNN фокусируется на топологии и структуре связей, тогда как COLES — на временной динамике поведения.
Текущий же выбор в пользу Random Walks + Word2Vec объясняется оптимальным соотношением качества, интерпретируемости и производительности: модель легко масштабируется и показывает устойчивый прирост GINI без необходимости развертывания сложной инфраструктуры.
Проверка качества моделей: рост GINI и жесткие тесты
Оценка цифрового профиля основана на метриках. В качестве ключевой мы используем индекс GINI. Он показывает, насколько хорошо модель ранжирует клиентов по целевой метке: будь то вероятность дефолта, склонность к продукту или аномальное поведение. После внедрения графовых эмбеддингов прирост GINI составил от +1,5 до +6 п.п. в зависимости от задачи.
Ключевое требование — устойчивость во времени. Поэтому тестирование проводится на сдвинутых по горизонту hold-out выборках (обычно +1–3 месяца к train-периоду). Это позволяет зафиксировать поведение модели в условиях real-world-дрейфа и отсеять случайные улучшения.
Для задач склонности дополнительно оцениваются:
precision@k / recall@k — насколько модель точно отбирает целевых клиентов в топе ранжирования;
coverage — доля охваченных релевантных клиентов;
uplift — прирост вовлечения в продукт относительно контрольной группы;
а также feature attribution — оценка вклада эмбеддингов в итоговый прогноз (через permutation importance или SHAP-значения).
Важно не просто угадать, кто купит, а точно исключить тех, на кого не стоит тратить коммуникационные ресурсы. В этом плане графовые признаки особенно ценны: они помогают не только повысить общую точность, но и дают резкий прирост в верхнем сегменте скорингового ранжирования — а именно он критичен для бизнеса.
Реальные кейсы: цепочки подозрений и региональные паттерны
Один из показательных кейсов — выявление сомнительных клиентов. Вместо анализа каждой транзакции отдельно, граф позволяет находить цепочки переводов между контрагентами, формируя группы риска. Так можно, например, начать с одного подозрительного клиента и «распутать» всю его сеть.
Аналогично можно анализировать поведенческие паттерны, выявляя регионы или кластеры с одинаковой динамикой. Пока интерпретация таких аномалий требует доработки, но даже на раннем этапе такие инструменты помогают аналитикам фокусироваться на нестандартных сценариях.
Внедрение в банк от моделей до реализации на практике
Чтобы модель заработала «вживую», нужен не только хороший код, но и продуманный MLOps-процесс. В ВТБ этот процесс строится в зависимости от режима — batch или online. Модель развертывается через промышленный конвейер: сначала пилот, потом контроль деградации, регулярное дообучение.
Графовые нейросети пока находятся на этапе прототипирования. Их непросто внедрить из-за требований по вычислительным ресурсам и сложной интерпретации. Поэтому сейчас ставка на гибкие, но простые в эксплуатации подходы.
Перспективы — вектор на интеграцию и масштабирование
Профиль клиента — живая экосистема, которую нужно развивать. Впереди стоит задача интеграции графов с последовательностями и доработка графовых нейросетей, которые смогут учитывать не только связи, но и временные паттерны поведения, а также учитывать текстовые данные. Мы движемся к тому, чтобы цифровой профиль стал не просто отражением пользователя, а прогнозирующей моделью, которая адаптируется под конкретный контекст, продукт и даже канал взаимодействия.
Комментарии (6)
Surrogate
05.09.2025 14:57Важно не просто угадать, кто купит
А что вы хоть продаете?
точно исключить тех, на кого не стоит тратить коммуникационные ресурсы
Я вот являюсь номинально клиентом вашего банка. До апреля карта ВТБ была у меня основной, в месяц было по ней расходов 60-70к. В апреле ваше приложение перестало нормально работать, в августе было операций на 364 рубля. Вы разложите мое поведение на свои графы и начнёте выдавливать меня из числа ваших клиентов?
ASenchenko
05.09.2025 14:57А я то всё думал зачем у меня через Госуслуги просят доступ к вот этому вот всему.
Я всё искал запрос цвета горошка на трусах, но не нашёл. Вот и не дал.
А это оказывается ребро графа такое. Чтобы значит решить стоит мне чего продавать или нет. Вон оно чё. Так бы дал конечно разрешение, если б знал. А так не дал. Сорян, ребят
Surrogate
05.09.2025 14:57просят доступ к вот этому вот всем
При заключении договора в офисе ВТБ мне дали такую же простыню со списком разрешений (приведенным выше). Потом в приложении раз в месяц вылезало обновите Единую Форму Согласия (ЕФС или как то похоже это называется), там уже все галочки за меня расставлены и их снять невозможно!
Пару раз ходил в офис, количество галочек в списке уменьшать. После начала 2025 года перестали слать ЕФС
точно исключить тех, на кого не стоит тратить коммуникационные ресурсы
Наверно закончились для меня коммуникационные ресурсы :)
ASenchenko
05.09.2025 14:57Камрады уже научились в цифровой профиль. И это хорошо.
Но пока что явно не могут трезво сопоставить реальную ценность своих "глубоко персонализированных предложений" с возможными последстаиями потециальной утечки той инфы, которую они хотят получить для создания "глубокой персонализации".
Это должен быть реально уникальный продукт с очень ощутимым профитом, а не ±0.5% к ставке
RomeoGolf
05.09.2025 14:57"Очень интересно, но ни<чего> непонятно!"
Во-первых, сам текст изобилует терминологией, через которую трудно продраться человеку, не работающему непосредственно в этой области.
Во-вторых, не вполне очевидно, какую пользу это несет собственно банку. Ну, мне - неочевидно. Сильно сомневаюсь, что реально может повысить прибыль... Разве что разработчикам этой фигни и их начальству, тут вопросов нет.
Но главное - а как быть с теми, кто хочет просто иметь счет в банке и пользоваться денежкой на нем И ВСЁ!!! Штоп банк не лез ко мне через кошелек в душу и нижнее белье, не искал, где я живу, куда езжу, какое вино и сколько бутылок купил в эту пятницу, когда техосмотр моей машины... НЕ ВАШЕ ДЕЛО!!! (дальше много мата)
Я от бывшего тинькова ухожу, потому что эти <крайне нехорошие люди> добавили в личном кабинете кучу документов, которые я им не давал, например, все сведения о моей машине, а заодно и о предыдущей машине. На вопрос "где взяли?" долго искали нелепые отмазки, типа я сам дал, я дал доступ к госуслугам, под конец выдали что-то вроде "из открытых источников в сети интернет".
Хотел перейти в ВТБ - похоже зря... Завел дебетовую для начала - посыпалось: "у вас есть неоплаченные счета в других банках, мы нашли их по вашему адресу". Нахрена искали, кто вас просил?!!
Кто-нибудь в курсе, остались ли еще нормальные банки, которые не лезут туда, куда их не просят, чтобы просто банк?
ChePeter
странная логика, которая приводит только к убыткам
Вы учите свои сети на своей истории, тем самым стагнируя алгоритмы. Новации мимо вас, новые жулики вам незаметны, их же не было раньше.
И как профессионал математик и как пользователь банка скажу вам- говно это ваша система.
Она как то не пустила перевести ежемесячный платеж жене. Я полчаса отвечал на вопросы вашей сотрудницы.
знаю ли я того кому перевожу - да,это жена
а как её зовут - зовут Жена
а где она живет - со мной
а как часто вы переводите её деньги - регулярно
А результат красавчики выдали со своим убогим исскуственным интеллектом
транзакцию заблокировать
зайти в банк с паспортом лично