Привет! Сегодняшняя статья про то, как мы настраивали мониторинг работоспособности отдела поддержки проектного финансирования Банка ДОМ.РФ.

«Ох уж это ПФ»

Банк ДОМ.РФ входит в тройку лидеров рынка по объёмам проектного финансирования. Это механизм, когда застройщик строит дом не на деньги дольщиков, а на кредит в банке. Для того, чтобы давать такие кредиты застройщикам, в Банке ДОМ.РФ существует огромная система, включающая в себя 5 подсистем.

От работоспособности и отказоустойчивости этой системы зависит, насколько быстро, удобно и бесшовно застройщики будут получать финансирование и начнут строить жильё. А значит, техподдержка и отработки инцидентов должны происходить если не молниеносно, то около того.

Проблема

Ежемесячно от пользователей системы проектного финансирования приходит порядка 2 тыс. обращений в техподдержку. Все эти обращения мы должны отрабатывать в регламентные сроки, обеспечивая следующие показатели эффективности: SLA — 95%, отказоустойчивость системы — 99,99%. Но, как выяснилось, над этим ещё предстояло поработать. Текущие показатели были далеки от идеальных: SLA решения было около 60%, а SLA реакции — 80%. Нам предстояло разобраться, почему система «не взлетает», и мы приступили к анализу.

Дело в технике

Специалисты техподдержки обрабатывают все обращения в ServseDesk Creatio, в которую заявки пользователей попадают через почту или через портал самообслуживания. «Под капотом» в Creatio есть услуги и сервисы, которым можно установить плановое время реакции и решения, согласно договору SLA — 8 часов. Также в Creatio есть возможность сформировать отчёт по обращениям за пользовательский период в формате Еxcel и после его обработки вычислить текущий SLA и посмотреть динамику. Ручная выгрузка отчёта, которая действовала в компании ранее, занимала около 4 часов. Так как мы не хотели делать ручные выгрузки, то средством агрегирования информации должна была стать система мониторинга. Она же, по нашей гипотезе, должна была показать, что не так с другими показателями.

Выяснилось много интересного:

  1. Сотрудники поддержки не сразу замечают новую заявку, так как она легко теряется в почте. Они вынуждены в онлайне смотреть на экран линий Creatio и обновлять страницу, ибо разработчики не выпустили автообновление линии в нашей версии.

  2. Сотрудники не всегда могли вовремя закрыть обращение, так как отвлекались на другие задачи, забывая про активное обращение.

  3. У коллег не было четкого регламента работы с обращениями, из-за чего возникали различные другие причины просрочки.

Дашборд животворящий

Получив ограниченный доступ в Creatio, мы написали несколько SQL-скриптов по каждой группе поддержки подразделения. Благодаря скриптам выгрузки из системы начали формироваться автоматически и собираться в один дашборд. Доступ к дашборду мы дали всем сотрудникам техподдержки.

При создании item в Zabbix использовался стандартный database monitor, в теле которого был скрипт по подсчётам основных показателей мониторинга поддержки:

  1. Сколько заявок заведено

  2. Сколько заявок решено

  3. Сколько просрочек по реакции и по решению

  4. Сколько заявок находится в работе с разбивкой по статусам «На паузе» и «На инициаторе»

  5. Какая текущая очередь заявок

  6. Текущий SLA реакции и решения

Дополнительно был сформирован скрипт по потенциальным просрочкам обращений.

В zabbix были настроены оповещения по новым обращениям и просрочкам, которые приходили в группу Telegram. Сотрудникам поддержки так это понравилось, что они предложили дополнительно вывести таблицы с данными по заявкам в каждой категории, чтобы не переходить из системы в систему.

Спустя месяц работы мониторинга замеры по SLA были такими: SLA реакции — 98% и SLA решения — 97%

Крутые результаты, а что дальше?

  1. Необходимо снизить количество времени статуса паузы, в которое заявка попадает в случае заведения бага в команду разработки. Это будем решать введением SLA решения багов в каждой команде и соответствующим контролем. «Смогли за час среагировать, а почему не сможете за минуту?»

  2. Необходимо типизировать обращения и заводить их через портал самообслуживания в различных категориях с заполнением обязательных полей, что снизит время обработки обращений.

  3. Необходимо после типизации обращений разработать инструмент автоматизации по решению типовых обращений.

  4. Необходимо подконтрольно снижать время SLA и формировать в поддержке непрерывную оптимизацию процессов.

Если коротко — ещё есть над чем работать. Продолжение следует.

Автор: Денис Харьков, ИТ лидер направления поддержки систем проектного финансирования Банка ДОМ.РФ

Комментарии (7)


  1. Samurai26
    12.07.2024 13:08
    +1

    Необходимо подконтрольно снижать время SLA и формировать в поддержке непрерывную оптимизацию процессов.

    Вы гуляете по тонкой грани оптимизации, где то между трекером заявок и время SLA нарушено на 36 секунд.

    Очень мало компаний, которые реально смогли оптимизировать работу до приемлимых результатов и остановится.

    Очень много компаний, которые подобно черным дырам оптимизировали всё вокруг пока не самоуничтожились, повесив нагрузку трёх человек на одного.


    1. Kseniia_pro Автор
      12.07.2024 13:08

      Спасибо за комментарий. Мы гуляем в поисках идеального варианта, который в быстроизменяющемся мире нереально найти, но можно максимально к нему приблизиться без ущерба для людей и пользователей.
      Люди - главное что у нас есть, поэтому перегибать с нагрузкой не планируем, а ресурс, который высвобождается с помощью автоматизации, продолжает работать над улучшением качественных показателей обращений.


  1. cmd01
    12.07.2024 13:08
    +2

    Ох ребята, делал у вас карту дебетовую, сотрудник в отделение не можем посмотреть статус карты ... Сидел мин 15 я так и ушел ни с чем. Карта правда шла по своему пути оказывается с доставкой , но факт сотрудник офиса не смог это мне сказать. Я добавить тут больше ничего н смогу ))) мониторинг ))


  1. SvoboniiLogin
    12.07.2024 13:08
    +2

    Черт, я то думал будет про мониторинг приложений что, а тут дашборд с запросом в заббиксе для хелпдеска..успех, успех


    1. Kseniia_pro Автор
      12.07.2024 13:08

      постараемся написать и на эту тему


  1. falcon4fun
    12.07.2024 13:08

    SLA решения. Ну ок. В договоре клиенту тоже прописано? Весело наверное гарантировать решение проблемы, когда кейс, например, "полинфры криптануло, нужно восстановить из бэкапа". RTO от пары дней до нескольких месяцев.


  1. trabl
    12.07.2024 13:08

    Надеюсь хоть дашборд не в Zabbix, а в Grafana например?

    «Смогли за час среагировать, а почему не сможете за минуту?»

    А почему не за секунду? Надеюсь в погоне за SLA будет присутствовать и здравый смысл.

    1. Необходимо типизировать обращения и заводить их через портал самообслуживания в различных категориях с заполнением обязательных полей, что снизит время обработки обращений.

    Я бы подумал об автоматизации процесса заполнения полей, ручной ввод заявок конечно добавит порядка, но и лишней работы тоже, а скидывать это на клиентов я бы тоже не стал.

    1. Необходимо после типизации обращений разработать инструмент автоматизации по решению типовых обращений.

    А база знаний уже имеется?