Проверяю по чек-листу техническое обслуживание ИБП, проведенное подрядчиком.
Привет, Хабр! Меня зовут Кирилл Шадский. Сейчас я проектирую и строю дата-центры и серверные. До этого долго руководил службой эксплуатации дата-центров DataLine (на тот момент около 3000 стоек). Вместе со своей командой проходил аудит Uptime по процессам эксплуатации (Management and Operations) с результатом 92 балла из 100 возможных, а также вместе с коллегами участвовал в сертификации NORD 4. Сегодня хочу рассказать, как грамотно поделить эксплуатацию дата-центра или серверной между своей командой и подрядчиками.
Рулить дата-центром только собственными силами или силами подрядчика сложно. За весь свой опыт мало встречал какой-то один вариант в чистом виде, в основном какой-то гибрид. Что будет делать своя команда, а что подрядчики — каждая компания определяет сама, исходя из финансов, удобства, наличия квалифицированных инженеров (попробуйте найти специалиста по ДДИБП в Туле), а иногда политики. Каким бы замечательным ни был ваш подрядчик, есть моменты, которые лучше оставить себе. О них и поговорим ниже.
Из чего в целом складывается эксплуатация дата-центра/серверной
Прежде, чем пойдем делить эксплуатацию между собственной командой и подрядчиком, вспомним, что входит в этот процесс. Не буду подробно расписывать по каждому пункту — на эту тему можно целые книги писать. Выделю лишь основные моменты, которые можно условно поделить технические и организационные.
Технические моменты:
- ТО инженерного оборудования и систем;
- ремонт;
- замена/модернизация;
- мониторинг и обходы/осмотр оборудования и систем;
Организационные моменты:
- ведение документации (инструкции, регламенты);
- сбор и анализ статистики по поломкам и ремонтам оборудования;
- закупка, хранение ЗИП и расходных материалов;
- контроль за установкой ИТ-оборудования;
- планирование ТО, назначение нарядов в работу;
- подготовка и обучение персонала.
Что нельзя отдавать подрядчику
Все, что записано в технической части, можно и иногда нужно отдать на аутсорс. В этом случае у вас остается только функция управления и контроля над подрядчиками. Кто это должен делать с вашей стороны, расскажу чуть ниже.
С организационной составляющей сложнее. Почти все из этого списка придется делать самостоятельно. Давайте разберемся, почему так.
Ведение документации. Регламенты и инструкции нужны для того, чтобы у всей команды по эксплуатации было одинаковое представление о процессах и алгоритмах действий (например, о том, как надо тестировать ДГУ). А еще для того, чтобы «священное знание» не пропало вместе с заболевшим или уволившимся инженером Васей. В теории написание документации тоже можно доверить подрядчику, — тем более не каждый инженер серверной сможет или захочет заниматься бумажками. Но правда в том, что лучше вас ваши процессы никто не знает, а отслеживать все изменения и поддерживать актуальность документации, не работая постоянно на объекте, вовсе из разряда «миссия невыполнима». Как вариант, совместно с подрядчиком можно разработать документацию, а следить за ее актуальностью уже самим на месте.
Сбор и анализ статистики. Ситуация примерно такая же, как и в предыдущем пункте, поэтому берем ручку/клавиатуру и методично записываем «историю болезни» каждого кондиционера, ДГУ и дальше по списку оборудования. Раз в квартал, полгода или хотя бы год заглядываем туда, чтобы понять, что и как часто у нас ломается. Информация пригодится при составлении бюджета на эксплуатацию, планировании ЗИП, а также поможет выявить, есть ли оборудование, которому уже не помогут ремонты, и его нужно полностью менять.
Список поломок и типов ремонта для одного из кондиционеров.
Контроль за установкой ИТ-оборудования и управление мощностью. Про это многие забывают, а зря. Айтишник увидел свободный юнит и воткнул оборудование, не посмотрев, хватает ли мощности в данной стойке, холода, и вообще правильно ли установил. А все претензии потом инженеру эксплуатации — за моргнувшее питание (из-за того, что сервер c одним блоком питания подключен без АВР или обоими блоками питания в одно PDU) или тормоза оборудования из-за локального перегрева.
Чтобы уменьшить количество проблем по этой части, делайте понятные инструкции, чек-листы для тех, кто занимается установкой оборудования, и периодически проверяйте, как установлено ИТ-оборудование (особенно внимательно если загрузка зала перевалила за 50%). Периодичность проверок будет зависеть от того, как часто в машинном зале появляется новое оборудование.
Алгоритм для отработки запроса на установку нового оборудования.
Планирование работ (ТО и наряды на работу). Совместно с подрядчиком согласовываем график работ, исходя из загрузки персонала (не должно быть работ по всем системам в одну неделю). Также выдаем наряды на работу и согласовываем с подрядчиком форму приема работ (акт, чек-лист и пр.).
Бюджетирование. Лучше делать самостоятельно. В зависимости от того, как заведено у вас — каждый месяц, квартал или сразу на год, операционное или инвестиционное. Про составление бюджета своими силами скоро напишу отдельно. Если отдать подрядчику, угадайте, что будет с бюджетом? Правильно, скорее всего, он вырастет. Произойдет это даже не из корыстного умысла подрядчика, а просто потому что он не будет так печься об экономии, как это делали бы вы.
Даже если как-то умудрились отдать подрядчику все описанное выше, то сидеть, закинув ноги на стол, и просто оплачивать счета не получится: подрядчиков нужно обучать и контролировать.
Учить подрядчиков, в первую очередь, нужно жизни правилам работы в дата-центре и серверной. Кроме, «не пить, не курить и не дебоширить», есть и технические нюансы. Например, от вас подрядчик должен узнать, что при ТО кондиционеров нельзя отключать больше одного за раз, а перед тем, как отключить, нужно проверить, что остальные кондиционеры работают исправно.
Контроль за доступом на объект тоже останется на ваших плечах. Проверять актуальность списков, график доступа на объект (круглосуточный или только в рабочие дни), наличие корочек по электробезопасности и прочих необходимых удостоверений — ваша и только ваша задача.
В общем помните, что за работоспособность серверной или дата-центра отвечаете в конечном итоге вы, а не подрядчик.
Выдержка из правил работы в наших дата-центрах для подрядчиков.
«Главный инженер» — ответственный за все
Количество людей в вашей службе эксплуатации будет зависеть от заявленного SLA, объема инфраструктуры и того, как много вы планируете делать собственными силами. Универсальной формулу не подскажу, но вот на что можно опереться.
В каком режиме предоставляем услуги? Если 24х7, нужна круглосуточная служба поддержки как минимум из четырех человек, которые будут работать в четыре смены — сутки через трое. Если 8x5, то людей понадобится вдвое меньше.
Сколько нужно инженеров? Здесь многое будет зависеть от функций. Если нужно просто следить за мониторингом, то хватит и одного, если нужно делать обходы — минимум два человека. Если придется что-то делать руками (тянуть кроссировки, монтировать оборудование, менять фильтры в кондиционерах), то понадобится уже трое.
Храните ли ЗИП и расходники у себя? Если храните почти все, то понадобится кладовщик или закупщик, который будет следить за остатками и заказывать новые.
Вот как выглядит команда нашей площадки NORD на 2720 стоек.
Название должностей и количество людей будет для каждого случая свое, но одна функция обязательно должна присутствовать при любом раскладе. Это функция «быть ответственным». Условно я называю эту позицию «главный инженер». В нашей иерархии это руководитель службы эксплуатации. Главная его функция — принимать решения, которые не обсуждаются: нужно ли вызывать подрядчика по аварийному вызову, можно ли отложить ремонт резервного кондиционера. Он же дает команду на отключение оборудования на время ТО, согласовывает срочные ремонтные работы, внеплановые закупки, руководит операцией по спасению дата-центра в случае аварий. К нему можно обратиться как в третейский суд, если инженер эксплуатации или подрядчик вдруг не может договориться с энергетиком о тестовых запусках ДГУ.
В целом, «главный инженер» в конечном итоге отвечает за всю эксплуатацию и инженерную инфраструктуру перед бизнесом или клиентам.
Подведем итоги. Программа «минимум» для службы эксплуатации дата-центра или серверной выглядит следующим образом:
- контроль и обучение подрядчиков;
- регулирование доступа на объект;
- назначение нарядов на работу;
- согласование графиков ТО;
- ведение документации и учета;
- анализ и сбор статистики;
- составление бюджета.
Если у вас есть вопросы, пишите в личку или приходите на мой ближайший семинар 4 июля, сможете обо всем спросить лично.
Другие статьи по управлению инженерной инфраструктурой дата-центра и серверной:
> Путь электричества в дата-центре
> Ошибки в проекте дата-центра, которые вы ощутите только на этапе эксплуатации
> О животрепещущем в эксплуатации дата-центра
> Как тестируют ДГУ в дата-центре
> Мониторинг инженерной инфраструктуры в дата-центре. Часть 1. Основные моменты
> Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения
> Обслуживание инженерных систем ЦОД: что должно быть в договоре подряда
> Dumb ways to die, или отчего “падают” дата-центры