В первой части истории про квест под названием «Nubes проходит сертификацию Tier III Facility» Алексей Сидоров, старший инженер холодоснабжения, рассказал про борьбу тепловых пушек и кондиционеров внутри дата-центра. История получилась интересная, но неполная.
Для получения сертификата ЦОДы проверяют не только на устойчивость системы охлаждения, но и на устойчивость энергетической системы.
Как мы справились с этой частью, рассказал наш главный энергетик Олег Царев.
Первый и, наверное, самый важный шаг при прохождении подобных проверок — разработка плана действий каждого сотрудника. А сотрудников, которых мы привлекли к подготовке, было одиннадцать. И это только те, которые трудятся в штате.
Специалисты, которые участвовали в подготовке к сертификации, и их задачи
Технический директор осуществлял общую координацию.
Директор по эксплуатации координировал действия дежурной смены.
Директор по строительству контролировал работу оборудования в ГРЩ.
Главный энергетик выполнял переключения.
Старший инженер холодоснабжения следил за работой кондиционеров.
Специалист по мониторингу следил за его работой.
Двое дежурных эксплуатации контролировали работу оборудования в машзалах.
Двое дежурных инженеров и дежурный администратор следили за работой оборудования по мониторингу.
Для удобства мы сконфигурировали отдельный дашборд с отображением всех необходимых при прохождении сертификации параметров:
Позальная и полная IT-мощность.
Мощность каждого ГРЩ и полная мощность работающих кондиционеров.
Мощность работающих ДГУ.
Температура охлаждающей жидкости в ДГУ.
Уровень топлива в ДГУ.
Уровень масла в ДГУ.
Мощность потребления каждого ЩИБП, ЩР, ЩК.
Статус ИБП (процент заряда батарей, оставшееся время работы на батареях, потребляемая мощность ИБП, общая и по каждой фазе).
Кроме наших сотрудников, к подготовке мы привлекли по два человека от каждой подрядной организации, обслуживающей оборудование. Они делали необходимые переключения и находились на «боевом» дежурстве на случай возникновения аварийной ситуации.
Специалисты подрядных организаций
Электрики, обслуживающие РУ 10кВ, отключали и включали по команде силовые трансформаторы, имитируя пропажу городского питания или вывод трансформаторов в ремонт.
Электрики, обслуживающие низкую сторону, помогали с подключением тепловых пушек.
Дизелисты контролировали работу ДГУ и выводили их в ремонт.
Специалисты по ИБП следили за работой ИБП и аккумуляторов, осуществляли разборку ИБП.
Специалисты по пожарной сигнализации осуществляли вывод системы в ремонт и производили контроль ее работы.
Инженеры холодильного оборудования следили за кондиционерами.
Основной сложностью при прохождении сертификации было наличие действующих клиентов. Любая ошибка или авария — и работа клиентских сервисов могла бы встать. Права на ошибку не было.
Tier III подразумевает вывод любой единицы оборудования в ремонт без воздействия на критическую инфраструктуру при номинальной нагрузке. Например, одного из трех ГРЩ, одного из трех ДГУ, какого-нибудь ИБП или щитка, питающего АБК. А так как мы относительно молодой ЦОД, нагрузка еще не успела вырасти до номинальной, и пришлось добирать ее тепловыми пушками. Поэтому, чтобы тест прошел успешно, важно было сделать две вещи:
Рассчитать недостающую нагрузку, чтобы компенсировать ее с помощью пушек.
Доработать электрические щиты, чтобы была возможность подключить пушки большей мощности.
Вроде все достаточно просто, но и тут есть нюансы.
Во-первых, во время проведения сертификации прерывание мониторинга недопустимо. Поэтому к щитам мониторинга пришлось подводить второе питание.
Во-вторых, найти в необходимом количестве подходящие пушки, которые будут соответствовать проектной мощности стойки, сложно. Поэтому нам пришлось импровизировать и использовать пушки разной мощности. Частью из них, с нами поделились коллеги из Selectel, за что мы им сильно благодарны.
Наши сотрудники устанавливали маломощные пушки прямо в пустые стойки клиентов, предварительно получив их согласие. В большинстве случаев клиенты понимали важность сертификации и шли навстречу, но были и исключения. Тогда нам приходилось размещать пушки в других местах.
В-третьих, для подключения пушек нужны удлинители, с которыми тоже были сложности. Нам не хватило длины проводов, поэтому пришлось экстренно искать кабели, груши и людей, которые все это соберут воедино.
В-четвертых, постоянно менялась схема расстановки пушек, нужно было быстро реагировать и перемещать их.
В-пятых, у тепловых пушек есть своего рода «климат-контроль», который отключал их, когда температура вокруг становилась достаточно высокой. Из-за этого нам пришлось ставить дополнительные пушки, чтобы компенсировать мощность отключившихся.
Переключать питание пушек во время тестов по отключению одного из лучей — отдельный аттракцион, на который ушло много ресурсов. Все потому, что необходимо было сохранить номинальную нагрузку, а мест для подключения становилось меньше.
Очень опасным в плане надежности электроснабжения был тест с поочередным выведением в ремонт ДГУ. У проводящего сертификацию специалиста были считанные минуты на проверку выполнения теста, пока электроснабжение осуществлялось от аккумуляторных батарей.
Кстати, про ДГУ! Во время тестов именно они должны питать ЦОД, а не городская сеть. Поэтому крайне важно было следить за уровнем топлива постоянно. Здесь все достаточно просто: договорился с поставщиком, согласовал график подвоза топлива, заправил. Мы это делали каждую ночь в моменты перерывов между тестами. Так день начинался с полностью заправленными машинами, и можно было не переживать, что во время теста топливо закончится, и питание отключится.
Да, мероприятия подобного рода — серьезная вещь, но место забавным ситуациям все-таки нашлось.
Мы разработали план действий на случай аварийного отключения питания. Этот план должен был снизить перегрев оборудования. Суть его была в том, что, услышав команду «Восстанавливаемся» по рации или в чате, сотрудники должны отключить тепловые пушки.
Исполнитель отключил ИБП, замерил показатели и доложил о готовности к включению. В ответ получил: «Восстановление подтверждаю».
Из-за схожести команд «Восстанавливаемся» и «Восстановление подтверждаю» случилась путаница. Сотрудники начали отключать пушки. Это показали датчики мониторинга — нагрузка в залах упала.
Демонстрацию пришлось переделывать, и мы поняли: команды должны звучать максимально по-разному. Поэтому в следующий раз использовали кодовое слово «банан».
На этом история про аудит заканчивается, но работа над улучшениями продолжается. Ведь следующий шаг — получение сертификата Tier III Operations.
Чтобы первыми узнавать о новых материалах и посмотреть, как и чем живет команда Nubes, заглядывайте в наш телеграм-канал.
navion
Скольким клиентам срубило стойки из-за неправильного распределения нагрузки по PDU?
nubes_cloud Автор
Из-за неправильного распределения нагрузки ничего не срубило, но на некоторых ПДУ нагрузка достигла 80%. Срубило одного клиента у которого был в стойке АВР, но не был в него включен коммутатор и одного клиента с укороченными PDU, которые были перегружены по нагрузке. Коммутатор подключили к АВР, заменили ПДУ на увеличенную мощность на горячую и отбалансировали совместно нагрузки.