Привет! Сегодняшняя статья про то, как мы настраивали мониторинг работоспособности отдела поддержки проектного финансирования Банка ДОМ.РФ.
«Ох уж это ПФ»
Банк ДОМ.РФ входит в тройку лидеров рынка по объёмам проектного финансирования. Это механизм, когда застройщик строит дом не на деньги дольщиков, а на кредит в банке. Для того, чтобы давать такие кредиты застройщикам, в Банке ДОМ.РФ существует огромная система, включающая в себя 5 подсистем.
От работоспособности и отказоустойчивости этой системы зависит, насколько быстро, удобно и бесшовно застройщики будут получать финансирование и начнут строить жильё. А значит, техподдержка и отработки инцидентов должны происходить если не молниеносно, то около того.
Проблема
Ежемесячно от пользователей системы проектного финансирования приходит порядка 2 тыс. обращений в техподдержку. Все эти обращения мы должны отрабатывать в регламентные сроки, обеспечивая следующие показатели эффективности: SLA — 95%, отказоустойчивость системы — 99,99%. Но, как выяснилось, над этим ещё предстояло поработать. Текущие показатели были далеки от идеальных: SLA решения было около 60%, а SLA реакции — 80%. Нам предстояло разобраться, почему система «не взлетает», и мы приступили к анализу.
Дело в технике
Специалисты техподдержки обрабатывают все обращения в ServseDesk Creatio, в которую заявки пользователей попадают через почту или через портал самообслуживания. «Под капотом» в Creatio есть услуги и сервисы, которым можно установить плановое время реакции и решения, согласно договору SLA — 8 часов. Также в Creatio есть возможность сформировать отчёт по обращениям за пользовательский период в формате Еxcel и после его обработки вычислить текущий SLA и посмотреть динамику. Ручная выгрузка отчёта, которая действовала в компании ранее, занимала около 4 часов. Так как мы не хотели делать ручные выгрузки, то средством агрегирования информации должна была стать система мониторинга. Она же, по нашей гипотезе, должна была показать, что не так с другими показателями.
Выяснилось много интересного:
Сотрудники поддержки не сразу замечают новую заявку, так как она легко теряется в почте. Они вынуждены в онлайне смотреть на экран линий Creatio и обновлять страницу, ибо разработчики не выпустили автообновление линии в нашей версии.
Сотрудники не всегда могли вовремя закрыть обращение, так как отвлекались на другие задачи, забывая про активное обращение.
У коллег не было четкого регламента работы с обращениями, из-за чего возникали различные другие причины просрочки.
Дашборд животворящий
Получив ограниченный доступ в Creatio, мы написали несколько SQL-скриптов по каждой группе поддержки подразделения. Благодаря скриптам выгрузки из системы начали формироваться автоматически и собираться в один дашборд. Доступ к дашборду мы дали всем сотрудникам техподдержки.
При создании item в Zabbix использовался стандартный database monitor, в теле которого был скрипт по подсчётам основных показателей мониторинга поддержки:
Сколько заявок заведено
Сколько заявок решено
Сколько просрочек по реакции и по решению
Сколько заявок находится в работе с разбивкой по статусам «На паузе» и «На инициаторе»
Какая текущая очередь заявок
Текущий SLA реакции и решения
Дополнительно был сформирован скрипт по потенциальным просрочкам обращений.
В zabbix были настроены оповещения по новым обращениям и просрочкам, которые приходили в группу Telegram. Сотрудникам поддержки так это понравилось, что они предложили дополнительно вывести таблицы с данными по заявкам в каждой категории, чтобы не переходить из системы в систему.
Спустя месяц работы мониторинга замеры по SLA были такими: SLA реакции — 98% и SLA решения — 97%
Крутые результаты, а что дальше?
Необходимо снизить количество времени статуса паузы, в которое заявка попадает в случае заведения бага в команду разработки. Это будем решать введением SLA решения багов в каждой команде и соответствующим контролем. «Смогли за час среагировать, а почему не сможете за минуту?»
Необходимо типизировать обращения и заводить их через портал самообслуживания в различных категориях с заполнением обязательных полей, что снизит время обработки обращений.
Необходимо после типизации обращений разработать инструмент автоматизации по решению типовых обращений.
Необходимо подконтрольно снижать время SLA и формировать в поддержке непрерывную оптимизацию процессов.
Если коротко — ещё есть над чем работать. Продолжение следует.
Автор: Денис Харьков, ИТ лидер направления поддержки систем проектного финансирования Банка ДОМ.РФ
Комментарии (7)
cmd01
12.07.2024 13:08+2Ох ребята, делал у вас карту дебетовую, сотрудник в отделение не можем посмотреть статус карты ... Сидел мин 15 я так и ушел ни с чем. Карта правда шла по своему пути оказывается с доставкой , но факт сотрудник офиса не смог это мне сказать. Я добавить тут больше ничего н смогу ))) мониторинг ))
SvoboniiLogin
12.07.2024 13:08+2Черт, я то думал будет про мониторинг приложений что, а тут дашборд с запросом в заббиксе для хелпдеска..успех, успех
falcon4fun
12.07.2024 13:08SLA решения. Ну ок. В договоре клиенту тоже прописано? Весело наверное гарантировать решение проблемы, когда кейс, например, "полинфры криптануло, нужно восстановить из бэкапа". RTO от пары дней до нескольких месяцев.
trabl
12.07.2024 13:08Надеюсь хоть дашборд не в Zabbix, а в Grafana например?
«Смогли за час среагировать, а почему не сможете за минуту?»
А почему не за секунду? Надеюсь в погоне за SLA будет присутствовать и здравый смысл.
Необходимо типизировать обращения и заводить их через портал самообслуживания в различных категориях с заполнением обязательных полей, что снизит время обработки обращений.
Я бы подумал об автоматизации процесса заполнения полей, ручной ввод заявок конечно добавит порядка, но и лишней работы тоже, а скидывать это на клиентов я бы тоже не стал.
Необходимо после типизации обращений разработать инструмент автоматизации по решению типовых обращений.
А база знаний уже имеется?
Samurai26
Вы гуляете по тонкой грани оптимизации, где то между трекером заявок и время SLA нарушено на 36 секунд.
Очень мало компаний, которые реально смогли оптимизировать работу до приемлимых результатов и остановится.
Очень много компаний, которые подобно черным дырам оптимизировали всё вокруг пока не самоуничтожились, повесив нагрузку трёх человек на одного.
Kseniia_pro Автор
Спасибо за комментарий. Мы гуляем в поисках идеального варианта, который в быстроизменяющемся мире нереально найти, но можно максимально к нему приблизиться без ущерба для людей и пользователей.
Люди - главное что у нас есть, поэтому перегибать с нагрузкой не планируем, а ресурс, который высвобождается с помощью автоматизации, продолжает работать над улучшением качественных показателей обращений.