Ловись, рыбка: как использовать «озеро данных» в банке. Опыт ВТБ / forpes.ru

Главная
Ловись, рыбка: как использовать «озеро данных» в банке. Опыт ВТБ

Ловись, рыбка: как использовать «озеро данных» в банке. Опыт ВТБ +16

24.08.2017 15:14

tashanov 24 4200 Источник

Вы идете в банк за кредитом на развитие бизнеса, на покупку авто или на другие цели. Давать или не давать – в каждом случае специалисты банка решают этот вопрос индивидуально, принимая во внимание кредитную историю клиента, размер его дохода и другие факторы. Казалось бы, система кредитования давно настроена и исправно работает. Можно ли придумать что-то новое в этом отношении? Мы в рознице ВТБ отвечаем на этот вопрос утвердительно. Исследования подтверждают: данные о клиентском поведении, которые имеются в распоряжении банка, задействованы далеко не полностью, и в этом направлении использование IT дает очень хороший эффект!

Как мы интегрируем IT в бизнес и какие преимущества получают клиенты – читайте под катом.

В 2016 году для розничного направления Группы ВТБ мы реализовали первый этап крупного проекта по обработке и анализу клиентской информации. Благодаря этому проекту наши клиенты стали получать персональные предложения, основанные на анализе их поведения в прошлом. На первом этапе мы собрали и используем до 60% данных, и результаты превзошли все ожидания. Большинство клиентов охотно приняли индивидуальные предложения и, что самое главное – остались довольны. Значит, идея избирательного подхода сработала, система функционирует на «отлично».

Сейчас на очереди второй этап – запуск новой платформы DataResearchPlatform на основе DataLake («озера данных»), которая в перспективе должна охватить 99,9% всех имеющихся в банке данных о клиентской активности.

Почему DataLake?

Как и все современные решения в области Big Data, наша новая платформа DataResearchPlatform построена на основе «озера данных». Почему мы выбрали именно эту технологию? DataLake хорош тем, что позволяет хранить огромные объемы «сырых» данных в их первоначальном формате. Эти данные могут использоваться как угодно: сопоставляться, смешиваться, организовываться по различным критериям. В отличие от стандартного хранилища данных, данные DataLake доступны аналитикам сразу в полном объеме и со всеми исходными связями. Это дает больше возможностей для поиска самых неожиданных вариантов их использования, но для этого нужны соответствующие технологии и инструменты.

Клиентская информация обрабатывается с использованием интеллектуального анализа данных data mining. Благодаря этому специалисты банка могут проверять свои гипотезы о клиентском поведении и его влиянии на платежеспособность, а также разрабатывать новые предсказательные модели.

Есть и другие «фишки», которые мы планируем получить при работе с DataLake:

вырастить собственных пользователей профилей DataArchitect и DataScientist в корпоративной среде;
получить отличный опыт в глубинном анализе данных;
полностью пересмотреть и улучшить системы управления информацией о клиентах (CRM);
научиться точнее предсказывать риск для каждого конкретного клиента.

Когда система налажена, банк может брать самые современные удочки и отправляться на рыбалку на свое «озеро». И можно не сомневаться: каждый раз улов будет превосходный, и им захочется поделиться с клиентами. Благодаря глубокому анализу клиентского поведения, банк может предлагать заемщикам специальные предложения, лучшие кредитные условия и индивидуальные (более лояльные) процентные ставки по кредитам.

Как работает DataResearchPlatform?

До того, как было принято решение перейти на DataLake, в ВТБ уже существовало хранилище данных, поэтому первое, что мы сделали – интегрировали с ним новую платформу.

Кроме этого, на первом этапе мы работали над отладкой технологической среды для моделирования: были отработаны механизмы обновления всего установленного ПО и расширен кластер Hadoop. Также было важно выработать новые подходы к работе пользователей, поскольку новая платформа накладывает определенные требования к разграничению доступа к данным.

В итоге нынешняя версия DataResearchPlatform развернута на 12 узлах BDA объемом до 288 ТБ (в планах ее расширение до 18 узлов до конца года). Платформа работает на основе экосистемы Hadoop, технологий OpenSource и промышленных Enterprise-решений. Она базируется на программно-аппаратном решении Oracle BigData Appliance. Для работы с данными используются аналитические инструменты SAS HPDM, SAS EG, Python, R.

Пользователи профиля DataArchitect и DataScientist получили полностью безопасный доступ к данным, а объемы данных были расширены. Теперь в DataResearchPlatform уже собирается практически вся информация о клиентской активности, которая имеется в распоряжении банка. Ее в любой момент можно «выловить» из «озера» и использовать во благо клиента.

Рабочая команда проекта: члены правления ВТБ24 — А.Соколов и С.Русанов.

Комментарии (24)

alid
24.08.2017 21:53
#10382372
+4
Все чудесно, но вы настолько достали своими индивидуальными предложениями, что мы были вынуждены сменить зарплатный банк.
1. ultrashot
  25.08.2017 15:39
  #10383580
  Причём телефонисты очень настойчивые — отказы принимают после объявления своих паспортных данных по телефону, чего, разумеется, делать не стал. Ругался много раз, и тоже решил менять банк, если услышу про чудесные кредиты ещё хоть раз («Мы понизили ставку на 0.5%! Теперь вам стало интересно?»)

algotrader2013
24.08.2017 22:39
#10382410
+1
Осталось больше вопросов, чем ответов:
1) Модели, работающие в проде, и на новых клиентах, обращаются к тому же datalake, где проверяются гипотезы, или под них отдельная инфраструктура?
2) Как делятся ресурсы (что происходит, если 3 отдела одновременно запустили тяжелые джобы на кластере)?
3) Может ли, образно говоря, помощник младшего аналитика, используя DataResearchPlatform, получить конфиденциальную информацию, которая может помочь конкурентам?
1. Grzhimek
  28.08.2017 11:27
  #10386304
  Хм… пока не планировали публиковать руководство по созданию DataLake… Но вопросы правильные!
  1. Пока исходим из того, что контур разработки моделей и применения моделей разные. Здесь много причин, но в первую очередь из-за совершенно разного профиля нагрузки и разных SLA для инфраструктуры «продуктивного контура исполнения моделей» и «контура разработки моделей». Ведь модели применяются к потоку новых данных (тут и не нужен DataLake, в общем случае), а разработка ведется на исторических массивах плюс на новых источниках, использование которых может дать (или не дать) эффект. А вот тут уже DataLake нужен в полный рост.
  Вполне вероятно, что на горизонте 2-3 лет мы придем к тому, что модели будут поточно обучаться на вновь поступающих данных и историческом массиве в около реальном времени и применение их в этой же среде становится уже логичным продолжением процесса. По крайней мере Digital и стремление быстрее реагировать на потребности клиента логично двигает нас к этому.
  2. Используется YARN. С его помощью настраивается распределение ресурсов кластера Hadoop для конкретных процессов (групп процессов).
  Мы изначально ориентировались на многопользовательскую среду, помимо YARN-а, выбирали лучшие технологии для оптимальной многопользовательской обработки данных. По результатам нагрузочных тестов наш кластер ориентирован на работу 30 конкурентных пользователей с профилем «разработчик моделей».
  3. При создании DataLake предусмотрена и модель защиты данных от несанкционированного доступа. Конфиденциальные данные доступны через систему ролевого доступа, которая в том числе поддерживает RLS (row level security), ведется аудит действий пользователя, выполнена интеграция с Active Directory.
  На старте мы потратили очень много времени на отладку системы доступа, которая базируется на kerberos.
  Вообще вопрос безопасности – вопрос отдельного большого поста… ?

kolabaister
24.08.2017 22:48
#10382414
А о каких данных идет речь?
1. Grzhimek
  28.08.2017 11:52
  #10386334
  Преимущественно о данных, описывающих взаимодействие клиента и Банка. Для начала мы уложили в Hadoop данные из нашего Хранилища, чтобы аналитики могли экспериментировать со своими моделями на реальных и обновляемых данных. Плюс добавили данные с сайта, с телефонии, в ближайшей перспективе — с банкоматов (логи), и Интернет- банка и т.д.

kxl
24.08.2017 23:26
#10382452
+4
При следующем звонке вашего менеджера, с предложением потребкредита, я его пошлю на х… Вот такой вот data mining…

kxl
24.08.2017 23:33
#10382458
+2
да, лучше бы заняться развитием клиент-банка для регионов, в плане упрощения коммунальных и прочих платежей, так нет же — рыбачат…
1. slutsker
  25.08.2017 05:16
  #10382584
  Значит такие приоритеты у бизнеса банка — заработать на кредитах, а не на комиссии с коммунальных платежей
  1. MAXHO
    25.08.2017 07:34
    #10382632
    Пока в стране есть идиоты которые готовы платить 300% годовых(я не про ВТБ, но все же это вполне реально в случае микро кредитов), то банку грех не рыбачить… За такую норму прибыли нормальный капиталист по словам К.Маркса пойдет на любое преступление даже под страхом висилицы.
    
    kxl
    25.08.2017 10:42
    #10382886
    ВТБ под 19.5% предлагает… и сейчас мы снизили ставку на 0.5%, надо брать. Допустим, впаривают 1.5 ляма… За 10 лет отдашь 3.4 ляма, если строго по графику, за 15 лет — 4.5. Такая вот рыбалка.

sic
25.08.2017 04:06
#10382576
+1
Я правильно понимаю, что если оставить воду, то вся машинерия нужна для того, чтобы предсказывать, какое из наименее выгодных для клента предложение можно предоставить, так, чтобы оно все равно было лучше, чем у потенциальных конкурентов?
1. Grzhimek
  28.08.2017 11:20
  #10386296
  Вся эта «машинерия» нужна, чтобы найти баланс между интересами Банка и интересами клиента. Вряд ли самая продвинутая математика заставит человека принять невыгодное предложение, поэтому вопрос подбора варианта с максимальной вероятностью удовлетворения интересов обоих участников и есть цель всего упражнения.

slutsker
25.08.2017 05:13
#10382582
Было бы очень интересно увидеть примеры выявленных таким образом неочевидных закономерностей.
P.S. тем кто хочет пожурить банк за звонки, предложения по кредиту и т.д., думаю что стоит рассмотреть вариант написать в банк или на какой-нибудь банки.ру
1. kxl
  25.08.2017 10:44
  #10382890
  Думаю, это информация для внутреннего пользования…
1. Grzhimek
  28.08.2017 11:28
  #10386306
  +1
  Спасибо, обязательно опубликуем интересные факты.

Smile42RU
25.08.2017 07:20
#10382628
+2
А где хоть чут-чут технических подробностей? Это Хабр или где?
1. kxl
  25.08.2017 10:58
  #10382928
  Два года назад была статья от Тинькофф habrahabr.ru/company/tinkoff/blog/259173 там есть что-то техническое. Здесь же упомянуты Oracle BDA и SAS, думаю сколько же оно стоит… И стоит ли оно того?
  1. Grzhimek
    28.08.2017 11:41
    #10386324
    Чуть выше писал, что Oracle BDA = Оборудование Oracle + дистрибутив Cloudera + единая поддержка ПО и оборудования от Oracle. Можно все собрать самостоятельно и так же самостоятельно решать все вопросы поддержки и модернизации кластера. По стоимости отличия небольшие на самом деле, если смотреть на одинаковый класс оборудования.
    
    Что касается SAS, то тут вопрос стратегии. Можно растить собственную разработку и использовать Python + R и другие open source инструменты. Долго наращивать компетенцию, но получить в итоге собственное уникальное решение. Можно использовать готовые аналитические модули и быстро получать эффект от внедрения за счет переиспользования чужого опыта, в том числе. Оптимум, как обычно, где-то между этими двумя крайностями. Мы ориентируемся на SAS, но при этом не забываем про Python и R. И такой подход в нашем случае себя полностью оправдывает.
1. Eldhenn
  25.08.2017 11:12
  #10382958
  В итоге нынешняя версия DataResearchPlatform развернута на 12 узлах BDA объемом до 288 ТБ (в планах ее расширение до 18 узлов до конца года). Платформа работает на основе экосистемы Hadoop, технологий OpenSource и промышленных Enterprise-решений. Она базируется на программно-аппаратном решении Oracle BigData Appliance. Для работы с данными используются аналитические инструменты SAS HPDM, SAS EG, Python, R.
  
  Вот вам чут-чут, чем вы недовольны?

Yo1
25.08.2017 12:27
#10383156
вопрос: если развернут хадуп, какой смысл тратить огромные деньги на Oracle BigData Appliance? просто что бы пользователей с оракла не переобучать?
1. Grzhimek
  25.08.2017 22:30
  #10384206
  Oracle BigDataAppliance это всего лишь маркетинговое название программно-аппаратного комплекса, состоящего из серверов и дистрибутива Cloudera Hadoop. Так что «если развернут хадуп» и означает «развернут OracleBigDataAppliance». А пользователи работает всеми теми инструментами, которые входят в поставку Cloudera, либо которые установлены отдельно — будь то Oracle, SAS, Python и т.д.

Filex
25.08.2017 15:21
#10383534
Сделайте кнопку «не интересует» в банк-клиенте на своих предложениях кредита. Захожу в БК и постоянно всплывает окно о «новом предложении которое может меня заинтересовать». Не интересно. Предложение каждый раз одно и то же.

cmdx
25.08.2017 15:21
#10383536
ВТБ24 молодцы!
Если говорят что "вам одобрен кредит, для получения нужен только паспорт", то на месте окажется что принесите еще 2НДФЛ и кроме указанных в предложении процентов давайте мы вам еще страховку добавим.
Все во благо клиента.