Современный дата-центр – комплексный организм, состоящий из множества инженерных подсистем, сетевой и ИТ-инфраструктуры. В ЦОДе слишком много переменных и вариантов их взаимодействия, поэтому риски сбоев очень высоки. Тем не менее, вся бизнес-модель дата-центров строится на постоянной доступности ИТ-систем. Как обеспечить 10 лет безаварийной работы такого объекта – рассказываем на примере нашей площадки в Петербурге.
Покой всем только снится
Общее количество сбоев в работе центров обработки данных продолжает расти, однако количество аварий сегодня отстает от скорости ввода в эксплуатацию новых мощностей. Это значит, что в расчете на один ЦОД в последнее время происходит меньше инцидентов – об этом говорит статистика Uptime Institute.
В 2020 году только 6% респондентов исследования Uptime заявили, что их дата-центры столкнулись с серьезными сбоями, по сравнению с 11% годом ранее.
Но успокаиваться рано: число серьезных аварий сокращается, однако размер экономического ущерба от них заметно увеличился. Это связано с постоянно растущей зависимостью организаций от ИТ.
По данным Gartner, средняя стоимость простоя ИТ-систем для бизнеса в 2021 году составляет $5600 в минуту. Поскольку существует множество различий в специфике и масштабе предприятий, потери из-за аварий дата-центров сегодня могут варьироваться в диапазоне от $140 000 до $540 000 в час.
На системы электропитания дата-центров приходится наибольшее количество серьезных инфраструктурных инцидентов, ИБП и автоматические переключатели (ATS) чаще всего становятся их основной причиной (22%).
Появляются новые риски. Например, увеличилось количество сбоев в работе программного обеспечения, отвечающего за координацию работы подсистем дата-центров или за их мониторинг.
Также в отчете Uptime человеческий фактор по-прежнему указывается в качестве одной из главных причин перебоев в работе ЦОДов. В долгосрочной перспективе автоматизация должна сократить количество отказов инженерных систем, которые происходят из-за ошибок сотрудников.
Из этого не следует, что уменьшение количества человеческих ошибок достигается за счет сокращения людей в ЦОДах. Скорее, речь идет о ведущей роли повышения квалификации специалистов в сочетании с грамотным управлением.
Баланс людей, машин и процессов
На фоне опубликованной отраслевой статистики 10 лет бесперебойной работы инженерных и ИТ-систем ЦОД Linxdatacenter в Петербурге, зарегистрированные в сентябре 2021 года, выглядят результатом, о котором хочется рассказать подробнее.
Оптимальный подход к эффективному управлению работой современного дата-центра заключается в балансе между автоматизацией процессов и оптимизацией операционного управления.
Площадка Linxdatacenter в Санкт-Петербурге последовательно наращивает компетенции в плане организации работы штата и повышения его квалификации. Перечень подтвержденных отраслевых стандартов ЦОДа включает в себя ISO 27001, ISO 9001 и PCI DSS, а также ISO 22301 – Business Continuity («Непрерывность бизнеса»), сертификацию защищенности организации от перебоев в операционной деятельности.
Отдельно стоит выделить сертификацию по стандарту Uptime Institute Management & Operations Stamp of Approval. Можно сказать, что работа по обеспечению соответствия требованиям M&O помогла нам переосмыслить подход к управлению дата-центром и во многом позволила обеспечить круглую дату.
Стандарт M&O – результат 20-летнего опыта разбора специалистами Uptime Institute более 6000 кейсов по отказам дата-центров по всему миру. Анализ этих данных показал, что 75% всех инцидентов и аварий так или иначе обусловлены ошибками и небрежностью в работе персонала.
Эта картина складывается из комплекса конкретных операционных ошибок и неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания оборудования и обучения специалистов.
Чтобы оценить, насколько процессы в конкретном ЦОДе соответствуют идеалу, Uptime разработал методику измерения эффективности сотрудников. Она основана на трех принципах – проактивность, практичность и информированность. Эффективное управление дата-центром достигается при соблюдении сотрудниками всех трех.
Процессы по управлению ЦОДом оцениваются по пяти категориям в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (максимум 35 баллов), техническое обслуживание (30), обучение штата (20), планирование, координация и управление (10), условия труда (5).
Апгрейд организации работы сотрудников дата-центра через обучение, прописывание инструкций, своевременное регламентное обслуживание и тренинги действий в чрезвычайных ситуациях, сокращает количество отказов в ЦОДе в 3 раза.
На сегодня в активе ЦОДа Linxdatacenter в Санкт-Петербурге – три аттестации по M&O. Первый аудит Uptime Institute с оценкой квалификации персонала и процессов эксплуатации оборудования прошел в 2018 году.
По его итогам дата-центр набрал 84 балла из 100 возможных. Второй раунд в 2020 году позволил нам достичь оценки в 95,1 балла. В 2021 в ходе третьего аудита мы взяли 96.
Прогресс в 12 баллов за три года – результат постоянной работы над ошибками, множества эпизодов критического анализа и разбора собственных подходов к выполнению ряда рабочих процедур, а также готовности отказываться от привычных паттернов работы в целях повышения операционной надежности площадки.
Не стоит думать, что мы сразу знали «как надо», понимали, в каком направлении двигаться, и владели секретными методиками достижения искомого результата.
Большой объем набитых шишек и моментов озарения «как же мы это сразу не догадались» присутствовал в полном объеме.
Правильное электропитание
В основе всего – решение задач эффективного энергообеспечения площадки.
Всего 15 миллисекунд перебоя питания современного дата-центра достаточно, чтобы бизнес-процессы компаний-клиентов были нарушены с ощутимыми для конечного пользователя последствиями. Для понимания: 1 миллисекунда (мс) — это одна тысячная доле секунды. 5 мс – время, необходимое пчеле для одного взмаха крыла.
Сбой в питании ведет к перезагрузке серверов, перезапуску операционных систем и прикладного софта, что чревато полной остановкой всех пользовательских систем и сервисов.
Защититься от этого можно. Для этого надо отказаться от централизованного поставщика электричества. Если ЦОД потребляет более 1 МВт, и есть строгие требования к непрерывности ИТ-процессов клиентов (например, в ЦОДе стоит процессинговый центр крупного банка) – имеет смысл подумать о своем независимом электричестве.
ЦОД Linxdatacenter в Санкт-Петербурге автономен: его потребности в электричестве обеспечиваются газо-поршневой электростанцией на 12 МВт. Если подача газа по каким-то причинам будет прекращена, есть ИБП, мощностей которых хватит на 40 минут бесперебойной работы ЦОДа.
За это время можно запустить дизель-генераторы (ДГУ), которые на имеющимся запасе топлива обеспечат еще минимум 72 часа автономной работы. Параллельно в действие вступят контракты с поставщиками топлива, которые обязаны привезти оговоренные объемы в ЦОД в течение 4 часов.
Эта схема обеспечения дата-центра электричеством лежит в основе его высокого уровня отказоустойчивости. Однако даже при полной энергонезависимости существует множество факторов, способных «положить» ЦОД полностью или частично.
Сотрудники клиента неправильно подключили оборудование в стойке? Короткое замыкание, сбой. Специалисты не проконтролировали емкость аккумуляторов ИБП? При аварийной ситуации бесшовного переключения на резервную схему питания не произойдет. Кто-то не проверил объемы заправки топлива в баки ДГУ? Оно закончится в самый неподходящий момент, и ЦОД встанет.
Выход? Профилактика и тренинг персонала, а также мониторинг работы всех систем и подсистем площадки. Нужно проводить регулярное плановое переключение на резервную схему питания ЦОДа, а также отрабатывать сценарии различных сбоев и аварийных ситуаций, оттачивая взаимодействие сотрудников до автоматизма для минимизации возможных последствий.
Любая схема резервирования инженерных систем дата-центра работает только при условии регулярной отработки внештатных ситуаций, постоянного подтверждения квалификации персонала и контрактам с надежными поставщиками услуг, наличия комплектующих и расходных материалов.
Мы развили концепцию превентивных работ до максимума: ввели процедуру анализа качества поставляемого топлива и проводим профилактический уход за дизель-генераторными установками.
Казалось бы, рутинная операция – уборка ДГУ. Где там можно найти пространство для оптимизации? Однако выяснилось, что своевременное удаление грязи и пыли серьезно откладывает ранний абразивный износ движущихся частей ДГУ.
В сочетании с регулярным осмотром и проверкой узлов это позволяет найти – и сделать это вовремя – трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.
Банальное поддержание установок в чистоте и простой уход (даже без фанатизма, а просто на регулярной основе) позволяет практически исключить риски того, что в ответственный момент случится отказ, и ДГУ не запустится.
Экзамен на зрелость
Второй фактор высокого аптайма: работа со штатом сотрудников инженерных служб, в основе которой лежит система аттестации и тренинги. Без надлежащего количества квалифицированных сотрудников и правильной организации труда у ЦОДа не будет ресурсов для успешного функционирования.
Обеспечить себя такими сотрудниками можно через качественный подбор персонала и разработку программы обслуживания инженерных систем. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).
M&O предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации.
Такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».
Отсюда берет начало наша система аттестации. Помимо M&O она базируется на стандарте ISO 22301 «Security and resilience – Business continuity management systems» («Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса»). Другой источник вдохновения – собственный опыт, он отражен в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).
Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и др. – обязанность всех работников ЦОДа.
Мы неоднократно убеждались, что любые методики контроля качества приносят результат, если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.
Сейчас аттестацию работника проводит комиссия в составе не менее трех человек в рамках опросников и тестов. Общее количество вопросов – 60-70, во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций. По итогам выносится заключение об уровне соответствия сотрудника занимаемой должности.
Например, после одного из аудитов Uptime выяснилось, что чек-листы для оперативных групп хоть и были очень подробными, однако в них не было полей для отметки выполненных шагов в рамках процедуры. Получили рекомендацию добавить необходимые поля. Небольшое и очевидное улучшение значительно повысило качество контроля за профилактическим обслуживанием.
Также всю библиотеку существующих у нас инструкций Uptime порекомендовал объединить в рамках матрицы или блок-схемы ответственных и подотчетных лиц — для наглядности и информированного выполнения процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности.
Всевидящее око мониторинга
Система мониторинга работы инженерных систем в ЦОДе (BMS, Building Monitoring System) – завершающий и критически важный компонент обеспечения аптайма. Он напрямую влияет на скорость реакции персонала на аварийные ситуации. Сегодня мы используем BMS-систему, кастомизированную в собственном облаке, разработанную специально под требования наших специалистов.
Доступ к ней обеспечивается через веб-браузер из любой точки, без обязательного присутствия инженера на территории ЦОДа. Интерфейс системы анимирован так, чтобы динамика функционирования инфраструктуры была наглядна для дежурных инженеров.
Также в BMS-решении обеспечивается поддержка формул для обсчета работы виртуальных датчиков в инженерных системах – например, для оптимального распределения электрических мощностей по стойкам с оборудованием.
Система обеспечивает доступ к базе данных SQL с возможностью брать из нее нужные данные о работе оборудования – а именно, все записи о мониторинге 2 тысяч устройств и виртуальных датчиков, генерирующих примерно 20 тыс. переменных.
Еще одна «фишка» нашей BMS-системы: на одной странице представлены все основные параметры ЦОДа, чтобы с одного взгляда на экран оценит состояние основных систем, так называемый формат One page.
Это таблица, сверстанная под формат вертикально расположенного экрана смартфона. Расположение ячеек в таблице повторяет архитектуру ЦОДа (физическую или логическую). Последовательность отражает зрительные ассоциации персонала дата-центра, что упрощает поиск нужной информации.
Система поддерживает мобильность сотрудников. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах.
Качество контроля повышается благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя привязать переписку дежурных инженеров к BMS. Например, приложение MS Teams позволяет вести внутреннюю переписку и получать на телефон все сообщения из BMS в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона.
Здесь не все прошло гладко: мы недооценили объем изменений, которые потребовалось внести в базовую версию новой BMS, и не уложились в сроки. Критической проблемой это не стало, так как мы подстраховались и работали на старой системе.
Также потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и в ходе настройки виртуальных машин и сети. Эта отладка тоже заняла время.
Итоговое решение оказалось сложнее для редактирования конечным пользователем, более требовательным в эксплуатации. Ранее карта представляла собой подложку (графический файл) и значки, изменить или переместить которые не составляло труда. Сейчас это сложный графический интерфейс с анимацией, его редактирование требует от инженеров определенных навыков.
Мелочей нет – постоянное развитие
Это довольно общий взгляд на те составляющие, которые позволяют обеспечивать 100%-ный uptime ЦОДа и рассчитывать на повторение безаварийной декады.
Пожалуй, самый главный фактор на этом пути – желание и способность постоянно находить возможности для улучшения работы ЦОДа, копаться в мелочах, просчитывая сценарии апгрейда по не самым очевидным направлениям.
Именно такое отношение к задаче позволило нам в свое время обнаружить проблемы с контролем уровня давления и «подпора» воздуха в серверных помещениях и наладить его оптимальные показатели. Мы также обнаружили и устранили причину загрязнения воздуха в машзалах.
На пути к 100%-ному уровню аптайма нет мелочей и нет остановок – это постоянное совершенствование, например, через ввод в эксплуатацию нового энергооборудования или создание безопасных условий труда технического персонала через внедрение в практику системы LOTO.
volchenkodmitriy
Вот мне интересно как это считали что 75% всех сбоев происходит по вине сотрудников, я бы сказал что 75% удалось спихнуть на сотрудников. Был конкретный пример в моей практике. Смотрел настройки на сервере Касперского, и вдруг завис сам Windows Server причем я точно ничего не менял, пришлось его перезагружать. Если бы нужно было спихнуть вину на сотрудника можно было бы просто посмотреть установлены ли все обновления, или наконец когда проводилась последняя антивирсуная проверка. Неважно что вирусов нет, главное есть возможность придраться)
Linxdatacenter Автор
Здесь стоит посмотреть на проблему немного шире: в выводах Uptime Institute подразумеваются ведь не только рядовые сотрудники, но и их руководители, которые, например, могут "забыть" провести своевременный апгрейд оборудования, назначить ответственным нового, недостаточно подготовленного сотрудника, не прописать в регламентах частоту обновления/ тестирования/ проверки на совместимость оборудования или ПО и т.д. и т.п.
volchenkodmitriy
Тут я полностью согласен. Перспективное плнирование очень многое решает. Например ввод новых серверов, вывод старых. Подключение дополнительных мощностей при росте нагрузки, это да!