Привет, Хабр! Меня зовут Владислав Балакин. Я тимлид группы дежурных инженеров в департаменте инфраструктурных решений и сервисов. Работаю с первого дня создания этой группы и знаю про нее абсолютно все. В круглосуточном режиме мы мониторим состояние и поддерживаем работоспособность ИТ-инфраструктуры наших заказчиков.
В предыдущих постах коллеги много и обстоятельно рассказывали о том, как отреагировал ИТ-рынок на уход зарубежных вендоров. И как кратный рост спроса на сервис и поддержку повлиял на наполнение нашего склада ЗИП. И т.д. И т.п. Но как все это реально отразилось на нашей работе? Сегодня вас ждет крик души рассказ о том, как сейчас проходит 24-часовая смена дежурного инженера КРОК. И о том, как мы в условиях роста загрузки выстраиваем работу, чтобы не уронить ни SLA, ни себя. Подробности под катом!
Идеальная смена
Заступаем мы на сутки в девять утра. Принимаем от предыдущего дежурного всю необходимую информацию и подключаемся к инструментам мониторинга. Быстренько разбираем входящие письма, за три выходных дня их обычно больше 1000. Дальше мы идем на завтрак, спокойно едим и приступаем к работе. В течение дня мы принимаем запросы от заказчиков — поставить новое оборудование на мониторинг, добавить его в обслуживание или внести информацию в документацию. Параллельно координируем действия полевых инженеров, которые в это время на ремонтных работах или ПНР в ЦОДах, — подсказываем расположение оборудования, управляем серверами, проверяем итоговую работоспособность и т.д.
В этом приятном темпе наступает обед, и мы, конечно, идем на него. Едим и потом дальше работаем. К вечеру вся основная работа уже сделана и начинается тихий мониторинг оборудования, которое в отличной форме и не планирует выходить из строя. В 19:00 заканчивают работу коллеги из группы клиентского сервиса, и мы принимаем еще и дежурство по регистрации заявок, которых очень мало приходит. Когда все полевые инженеры уходят из офиса, мы ставим раскладушку и в 21:00 уже ложимся спать до восьми утра. Потому что на горизонте очень тихо по всем фронтам. До девяти часов мы обрабатываем парочку новых заявок, передаем смену и едем отдохнувшие домой. Навстречу трем выходным дням…
Помечтали и хватит
Ведь такая смена у нас теперь практически невозможна. Сейчас на круглосуточном мониторинге у нас более 2000 единиц оборудования и порядка 300 ВМ. И мы, дежурные инженеры, должны молниеносно оповещать заказчика в случае возникновения проблем.
Например, SLA на реакцию для одного из заказчиков у нас 15 минут. Сначала можно подумать, что это очень много, но! За это время необходимо:
зайти на оборудование (а это каждый раз разное оборудование, разного вендора и с разными методами входа на него),
понять в логах, что за неисправность и каков уровень критичности данной проблемы,
завести заявку в Jira,
выбрать правильную ветку оповещения по проекту (в общей сложности их более 30 штук),
и оповестить уже наконец-то заказчика!
Вышеупомянутые работы в ЦОДах у нас с полевыми проходят практически каждый день. Плюс с появлением новых заказчиков количество заявок в ночное время стало намного больше — в среднем оно растет на 10% ежеквартально с прошлого года. И очень часто ночью приходят заявки, где по регламенту надо брать запчасть и мгновенно вылетать к заказчику. И здесь нам требуется:
корректно оформить заявку,
дозвониться до дежурного полевого инженера и разбудить его,
согласовать с заказчиком визит,
заказать запчасть,
забрать ее со склада
и максимально подготовить полевого, чтобы он не опоздал на самолет.
А так как заказчики у нас по всей России, то львиная доля заявок начинает приходить с семи утра, и это самые сложные два часа дежурных до передачи смены следующему.
Итак, 24 часа начинаются…
Заступив на смену, мы уже за столом едим завтрак, который предусмотрительно взяли заранее. Потому что в это время измученный сутками сменщик уже выползает из офиса и о дежурстве думать [справедливо] не собирается. Во время завтрака начинают приходить первые алармы о неисправностях, которые необходимо в срочном порядке зафиксировать, — проанализировать, в чем проблема, завести заявку, заказать запчасти, ну вот это вот все. Параллельно начинают копиться запросы от заказчиков абсолютно разного формата. «Сделайте зонинг оборудования», «ой, что-то сервер завис», «а удалите, пожалуйста, хосты из мониторинга»… Обрабатывая поток запросов, мы регулярно отвечаем на звонки-"нетудашки", которые по ошибке поступают на дежурную трубку как от заказчиков, так и от коллег из разных департаментов.
Далее уже подходит время работ в ЦОДе, где необходимо полностью координировать действия полевого и все контролировать. И конечно, в этот момент коллеги сообщают о заведении заказчиком новой заявки, и начинается параллельный поиск инженера для ее выполнения. При этом мы все так же не забываем про мониторинг оборудования, и естественно, оно упорно не хочет работать без сбоев. В этот момент выясняется, что одна из запчастей поступила на склад и ее нужно срочно отвезти в ЦОД. Заказываем такси и отправляем деталь инженеру.
Наконец появляется возможность сбегать в столовую на обед!.. И сразу вернуться с контейнером обратно, чтобы продолжить работу в том же темпе. После 18:00 становится намного спокойнее, и можно вспомнить про давно остывший обед. Так приходит время заранее запланированных ночных работ. Пока мы спокойно меняем сетевые карточки на сервере, снова начинают сыпаться заявки. И, как правило, это что-то вроде Новосибирска, на который надо реагировать молниеносно. Время для выполнения ночных работ начинает поджимать, и вместе с этим на другом оборудовании снова вылетает очередной диск или планка памяти. А отдавший нам сервер заказчик уже начинает нервничать и спрашивать, когда можно забирать его обратно…
И вот примерно к часу ночи становится максимально тихо и спокойно. Время от времени приходят разные алармы. С шести утра просыпаются «дальние» заказчики. И полумертвый дежурный уже просто молится, чтобы серийный номер как можно скорее пробился в системе. Это крайне важная штука, потому что именно по s/n мы можем найти всю информацию по нашим обязательствам перед клиентом и понять, как реагировать на заявку.
В 08:30 приходит свежий сменщик и дарит надежду на предстоящий отдых. Передав ему все по смене, мы наконец-то едем домой.
Конечно, я утрирую
И не каждая смена у нас настолько перегружена. Но тем не менее с февраля прошлого года это случается все чаще. И я, как тимлид, стараюсь делать все, чтобы и команда не перегрелась, и заказчики были довольны. Вот что нам помогает в условиях роста загрузки:
Ведение базы знаний
У нас накоплена огромная база знаний, в которую мы почти на все регулярно пишем инструкции. Это эффективный способ обмена опытом в команде, которая из-за графика дежурств сутки через трое практически не пересекается. Использование базы знаний помогает решать задачи самостоятельно, а главное максимально оперативно. Плюс это настоящее спасение при онбординге! C помощью статей в базе знаний новичок может самостоятельно решать какие-то [некритичные] задачи заказчиков, прокачиваться и доводить свои скиллы до совершенства.Перераспределение задач
Раньше мы параллельно с мониторингом оборудования занимались регистрацией заявок. Но в какой-то момент мы поняли, что стало очень тяжело, так как количество поступающих заявок возросло кратно, а инциденты и аварии у заказчиков все еще происходят. Поэтому мы поделили эту задачу с коллегами из группы клиентского сервиса. И теперь за регистрацию заявок в дневное время отвечают они, а мы подключаемся с 19:00 и до утра.Знание приоритетов назубок
Самое главное в нашей работе — это оперативность. А она достигается за счет четкого понимания своих приоритетов по задачам. Чаще всего бывает именно так, что все падает разом и в одну секунду. И в этот момент важно не потеряться. Пришла заявка? Сразу переводишь ее в статус «Registered», чтобы SLA на реагирование по ней остановился. Или если тебе позвонили «буквально на пять минут только спросить», а в этот момент произошла авария, — ты параллельно со звонком заходишь на оборудование, чтобы посмотреть, что случилось. А консультация может и подождать.Расширение команды по мере необходимости
За ресурсами нужно очень внимательно следить. И вот как раз сейчас мы поняли, что без еще одного человека на саппорте нам не обойтись. Теперь у нас четверо в режиме сутки-трое и один в пятидневку. Благодаря этому стало возможно отлучиться с рабочего места, пообедать, например, или немного отвлечься на написание поста на Хабр.Умение спать сидя
Есть такой непреложный закон. Ты можешь несколько часов просидеть на стуле в полной тишине и покое, но стоит только тебе разложить раскладушку, чтобы немножко вздремнуть… Сразу же грянет апокалипсис! И мы, аки атланты, на чьих плечах зиждется мироздание, сидим до последнего, чтобы у наших заказчиков не легло вообще все. Но это я шучу, конечно!Или нет…
Делитесь своими историями и лайфхаками в комментариях!
Подписывайтесь на уютный Telegram-канал КРОК и чувствуйте себя как дома!