В первой части истории про квест под названием «Nubes проходит сертификацию Tier III Facility» Алексей Сидоров, старший инженер холодоснабжения, рассказал про борьбу тепловых пушек и кондиционеров внутри дата-центра. История получилась интересная, но неполная. 

Для получения сертификата ЦОДы проверяют не только на устойчивость системы охлаждения, но и на устойчивость энергетической системы. 

Как мы справились с этой частью, рассказал наш главный энергетик Олег Царев. 


Первый и, наверное, самый важный шаг при прохождении подобных проверок — разработка плана действий каждого сотрудника. А сотрудников, которых мы привлекли к подготовке, было одиннадцать. И это только те, которые трудятся в штате. 

Специалисты, которые участвовали в подготовке к сертификации, и их задачи
  1. Технический директор осуществлял общую координацию.

  2. Директор по эксплуатации координировал действия дежурной смены. 

  3. Директор по строительству контролировал работу оборудования в ГРЩ.

  4. Главный энергетик выполнял переключения.

  5. Старший инженер холодоснабжения следил за работой кондиционеров.

  6. Специалист по мониторингу следил за его работой.

  7. Двое дежурных эксплуатации контролировали работу оборудования в машзалах.

  8. Двое дежурных инженеров и дежурный администратор следили за работой оборудования по мониторингу.

Для удобства мы сконфигурировали отдельный дашборд с отображением всех необходимых при прохождении сертификации параметров:

  • Позальная и полная IT-мощность.

  • Мощность каждого ГРЩ и полная мощность работающих кондиционеров.

  • Мощность работающих ДГУ.

  • Температура охлаждающей жидкости в ДГУ.

  • Уровень топлива в ДГУ.

  • Уровень масла в ДГУ.

  • Мощность потребления каждого ЩИБП, ЩР, ЩК.

  • Статус ИБП (процент заряда батарей, оставшееся время работы на батареях, потребляемая мощность ИБП, общая и по каждой фазе).

Дашборд энергоснабжения
Дашборд энергоснабжения

Кроме наших сотрудников, к подготовке мы привлекли по два человека от каждой подрядной организации, обслуживающей оборудование. Они делали необходимые переключения и находились на «боевом» дежурстве на случай возникновения аварийной ситуации. 

Специалисты подрядных организаций
  • Электрики, обслуживающие РУ 10кВ, отключали и включали по команде силовые трансформаторы, имитируя пропажу городского питания или вывод трансформаторов в ремонт.

  • Электрики, обслуживающие низкую сторону, помогали с подключением тепловых пушек. 

  • Дизелисты контролировали работу ДГУ и выводили их в ремонт.

  • Специалисты по ИБП следили за работой ИБП и аккумуляторов, осуществляли разборку ИБП.

  • Специалисты по пожарной сигнализации осуществляли вывод системы в ремонт и производили контроль ее работы. 

  • Инженеры холодильного оборудования следили за кондиционерами.

Основной сложностью при прохождении сертификации было наличие действующих клиентов. Любая ошибка или авария — и работа клиентских сервисов могла бы встать. Права на ошибку не было.

Tier III подразумевает вывод любой единицы оборудования в ремонт без воздействия на критическую инфраструктуру при номинальной нагрузке. Например, одного из трех ГРЩ, одного из трех ДГУ, какого-нибудь ИБП или щитка, питающего АБК. А так как мы относительно молодой ЦОД, нагрузка еще не успела вырасти до номинальной, и пришлось добирать ее тепловыми пушками. Поэтому, чтобы тест прошел успешно, важно было сделать две вещи: 

  1. Рассчитать недостающую нагрузку, чтобы компенсировать ее с помощью пушек.

  2. Доработать электрические щиты, чтобы была возможность подключить пушки большей мощности. 

Вроде все достаточно просто, но и тут есть нюансы.

Во-первых, во время проведения сертификации прерывание мониторинга недопустимо. Поэтому к щитам мониторинга пришлось подводить второе питание.

Во-вторых, найти в необходимом количестве подходящие пушки, которые будут соответствовать проектной мощности стойки, сложно. Поэтому нам пришлось импровизировать и использовать пушки разной мощности. Частью из них, с нами поделились коллеги из Selectel, за что мы им сильно благодарны. 

Наши сотрудники устанавливали маломощные пушки прямо в пустые стойки клиентов, предварительно получив их согласие. В большинстве случаев клиенты понимали важность сертификации и шли навстречу, но были и исключения. Тогда нам приходилось размещать пушки в других местах.

В-третьих, для подключения пушек нужны удлинители, с которыми тоже были сложности. Нам не хватило длины проводов, поэтому пришлось экстренно искать кабели, груши и людей, которые все это соберут воедино. 

Подключение тепловых пушек
Подключение тепловых пушек

В-четвертых, постоянно менялась схема расстановки пушек, нужно было быстро реагировать и перемещать их.

В-пятых, у тепловых пушек есть своего рода «климат-контроль», который отключал их, когда температура вокруг становилась достаточно высокой. Из-за этого нам пришлось ставить дополнительные пушки, чтобы компенсировать мощность отключившихся.

Переключать питание пушек во время тестов по отключению одного из лучей — отдельный аттракцион, на который ушло много ресурсов. Все потому, что необходимо было сохранить номинальную нагрузку, а мест для подключения становилось меньше.

Очень опасным в плане надежности электроснабжения был тест с поочередным выведением в ремонт ДГУ. У проводящего сертификацию специалиста были считанные минуты на проверку выполнения теста, пока электроснабжение осуществлялось от аккумуляторных батарей.

Кстати, про ДГУ! Во время тестов именно они должны питать ЦОД, а не городская сеть. Поэтому крайне важно было следить за уровнем топлива постоянно. Здесь все достаточно просто: договорился с поставщиком, согласовал график подвоза топлива, заправил. Мы это делали каждую ночь в моменты перерывов между тестами. Так день начинался с полностью заправленными машинами, и можно было не переживать, что во время теста топливо закончится, и питание отключится.

Подвоз топлива к ДГУ
Подвоз топлива к ДГУ

Да, мероприятия подобного рода — серьезная вещь, но место забавным ситуациям все-таки нашлось. 

Мы разработали план действий на случай аварийного отключения питания. Этот план должен был снизить перегрев оборудования. Суть его была в том, что, услышав команду «Восстанавливаемся» по рации или в чате, сотрудники должны отключить тепловые пушки. 

Исполнитель отключил ИБП, замерил показатели и доложил о готовности к включению. В ответ получил: «Восстановление подтверждаю».

Из-за схожести команд «Восстанавливаемся» и «Восстановление подтверждаю» случилась путаница. Сотрудники начали отключать пушки. Это показали датчики мониторинга — нагрузка в залах упала. 

Демонстрацию пришлось переделывать, и мы поняли: команды должны звучать максимально по-разному. Поэтому в следующий раз использовали кодовое слово «банан».

На этом история про аудит заканчивается, но работа над улучшениями продолжается. Ведь следующий шаг — получение сертификата Tier III Operations.

Чтобы первыми узнавать о новых материалах и посмотреть, как и чем живет команда Nubes, заглядывайте в наш телеграм-канал. 

Комментарии (2)


  1. navion
    14.11.2024 20:43

    Скольким клиентам срубило стойки из-за неправильного распределения нагрузки по PDU?


    1. nubes_cloud Автор
      14.11.2024 20:43

      Из-за неправильного распределения нагрузки ничего не срубило, но на некоторых ПДУ нагрузка достигла 80%. Срубило одного клиента у которого был в стойке АВР, но не был в него включен коммутатор и одного клиента с укороченными PDU, которые были перегружены по нагрузке. Коммутатор подключили к АВР, заменили ПДУ на увеличенную мощность на горячую и отбалансировали совместно нагрузки.