Привет, Хабр! Меня зовут Саша Салтыков, я отвечаю за сервисное обслуживание инженерных систем в ИТ-компании К2Тех. Сервис – дело творческое, и часто в работе нам встречаются ситуации, о которых, как говорится, невозможно молчать. Решил поделиться с вами опытом недавнего обслуживания партнерского центра обработки данных и рассказать, как не положить ЦОД во время смены источников бесперебойного питания. Читайте историю под катом!

Пролог

С заказчиком нас связывает дружба и долгие годы плодотворного сотрудничества. В лохматые годы мы даже помогли им со строительством ЦОДа, о котором сейчас и пойдет речь. В один из прекрасных зимних вечеров работа дата-центра загнулась.  Получив тревожный звонок с просьбой помочь, мы оперативно организовали выезд на объект заказчика. Причиной аварии явилось несоблюдение последовательности действий во время работ по замене ИБП.

Немного предыстории. Система электроснабжения дата-центра включала в себя 3 ИБП Eaton мощностью 40 кВт каждый, которые работали по схеме N+1. Принцип работы данной схемы заключается в следующем: при отказе одного источника система будет оставаться работоспособной за счет перехвата нагрузки резервным ИБП. 

В связи с тем, что один из 3-х ИБП вышел из строя (здесь важно отметить, что оборудование эксплуатируется с 2008 года и на данный момент имеются проблемы с поставками комплектующих для ремонта), было принято решение о замене оборудования на новое. Мы подготовили для заказчика предложение по замене 3-х ИБП, подобрав аналогичные решения отечественного вендора. 

Заказчик разыграл конкурс, остановив свой выбор на альтернативном решении: использовать один модульный ИБП вместо трех моноблочных. В данном ИБП установлено 4 модуля по 25 кВт, последовательно объединенных в общей питающей стойке. По сути, модуль – тот же ИБП. Но если из строя выйдет 2 модуля или питающая стойка – единая точка отказа, – то загнется работа всего ЦОД. 

Стоит отметить, решение заказчика экономически обосновано: ЦОД не является критически важным, и в случае возникновения проблемной ситуации заказчик не несет суперубытков. В то же время затраты на закупку, СМР/ПНР и обслуживание подобного решения выходят куда дешевле. 

Акт первый: Коротыш

Мы оказываем круглосуточную и круглогодичную техподдержку систем кондиционирования, электроснабжения, пожаротушения (АУГПТ), мультимедиа. По заявкам реагируем в течение часа, далее – в зависимости от критичности вопроса. Нам сообщили, что ЦОД лежит, а подрядная организация производит замену ИБП. Несмотря на то, что мы проводим техническое обслуживание инженерных систем заказчика, нам не сообщали о факте и планируемых датах замены оборудования подрядчиком, не просили проконсультировать. Клиент самостоятельно принял решение, подрядная организация заехала на объект, привезла оборудование и начала заниматься демонтажом старых ИБП.

Так как мы не присутствовали на объекте и не оказывали услуг по шеф-монтажу, можем лишь догадываться, что произошло на самом деле. Подрядчику требовалось приехать на объект, перевести ИБП на внешний механический байпас, выполнить демонтаж старого оборудования и монтаж нового ИБП. Данные операции можно было выполнить без прерывания питания нагрузки. 

Краткая справка:

У большинства ИБП байпас является внутренним блоком, что также поддерживает подключение внешних шкафов или модулей байпаса. Внутренний блок позволяет пустить напряжение только в обход силовой части ИБП, а внешний шкаф или модуль способен полностью обесточить устройство, в том числе снять напряжение с его входных и выходных клемм (электроснабжение нагрузки при этом не будет прервано).

После выезда на объект и общения с коллегами мы выстроили примерную картину произошедшего: подрядчик начал работы по демонтажу неисправного ИБП, который находился в выключенном состоянии, но вероятнее всего автомат подачи питания на вход ИБП был включен. Не убедившись в отсутствии напряжения на входных клеммах, специалисты начали откручивать кабели, в результате чего произошло короткое замыкание. В момент нашего прибытия на место событий все 3 ИБП были в выключенном состоянии. Выбило верхнеуровневый автомат номиналом 630А, питающий шины СГЭ (систем гарантированного электроснабжения), от которых были запитаны все 3 ИБП. Бесперебойники перешли на АКБ, после разряда которых выключились. ЦОД лёг. 

Что делать, чтобы этого не произошло:

1. Детально изучить однолинейные схемы и убедиться в их актуальности. 

2. Составить ППР, в котором будет четко отображена последовательность действий специалистов, выполняющих работы. 

3. Перед началом работы провести осмотр, измерить напряжение на планируемых к отключению кабелях при помощи мультиметра. Убедиться в отсутствии напряжения, прежде чем что-то делать.

4. В случае с переводом на внешний байпас: проверить, что выход сфазирован с байпасом ИБП. Это также делается при помощи измерений электрических параметров. Четко убедившись в том, что выходы сфазированы и система готова к переходу, можно приступать к выполнению основных операций.

Таков путь

По пути на площадку я попросил скинуть мне однолинейные схемы СБЭ (системы бесперебойного электроснабжения), чтобы действовать оперативно по прибытии. Получил фактуру: произошло короткое замыкание, все 3 ИБП не работают, ЦОД лежит, бизнес-процессы прерваны. 

Изучив однолинейные схемы, нашел нужный автомат, питающий нагрузку ЦОДа в обход СБЭ. В нормальном состоянии этот автомат выключен и включается только в экстренных ситуациях, когда нужно исключить из цепи бесперебойники. Позвонил заказчику и поэтапно проговорил последовательность действий для безопасного переключения питания нагрузки. Заказчик ретранслировал мои рекомендации подрядчику, но ребята были шокированы происшествием и лезть в щиты не захотели. Нужно понимать, что если выбило верхнеуровневый автомат на 630А, то «бабах» был знатный.

Согласитесь, даже короткое замыкание в бытовых условиях однофазной сети является неприятным. Что уж говорить о «коротыше» трехфазной сети в 380 вольт, где нагрузка течет по силовым кабелям толщиной с большой палец. Для справки, если положить гаечный ключ между проводниками 3-х фазной сети, то в момент короткого замыкания от ключа не останется ничего, здесь мы даже не говорим о каком-либо процессе плавления. «Скидыщ» – по выражению классика.

Приехав на объект, я уже был ознакомлен с документацией и знал, в каких шкафах мне предстоит делать переключения. Осмотрел распределительный щит бесперебойного питания (РЩБП), где были смонтированы автоматы на вход и выход с ИБП. От РЩБП питание распределяется на небольшие межэтажные щиты и, соответственно, приходит в щит питания дата-центра, расположенном на одном из этажей. Питание пропало, но автоматы в щитах были включены. 

Предварительно выключив их, я подал питание в обход ИБП через внешний байпас и начал совместно с представителем заказчика поэтапно включать автоматы в межэтажных щитах. 

При эксплуатации серверного оборудования существуют две классические широко распространённые проблемы, требующие внимательного отношения к планированию включения оборудования и восстановления сервисов после полной пропажи электропитания.

Проблема 1:

В случае если серверное оборудование запитано от ИБП, при попытке включения всего оборудования одновременно после полного обесточивания совокупные пусковые токи могут превысить максимальный ток установленного ИБП, в результате чего ИБП переходит в режим перегрузки и оборудование просто не включается. В нашем случае питание нагрузки осуществлялось через байпасную линию, но лучше перестраховаться, постепенно включая автоматы. 

Проблема 2:

При включении серверов информационных систем до того, как стартовали и заработали инфраструктурные сервисы (такие как сеть, DHCP, DNS, NTP, AD), серверы информационных систем могут остаться в состоянии ошибки и ожидать ручного вмешательства для их корректного запуска.

После того как питание ЦОДа было восстановлено, пообщался с подрядчиками: подсветил, что нельзя использовать кабельные трассы от старых ИБП для питания нового. Во-первых, изначально заложенный на нагрузку в 40 кВт кабель планировали использовать для питания ИБП в 2,5 раза мощнее предыдущего. Во-вторых, гибкий кабель также имеет срок годности, и перед повторным использованием необходимо провести измерение сопротивления изоляции. На этом мы распрощались.

Акт второй: Гирлянда

На следующий день опять случилось ЧП. После сборки батарейного массива ребята приступили к подключению ИБП на старые кабельные трассы. Немного цифр. Для подключения одного бесперебойника от РЩБП проложено 10 кабелей – 5 на вход и 5 на выход. В нашей системе, как вы помните, было 3 ИБП, следовательно, 30 кабелей.

В щите можно понять, куда и откуда идет кабель, так как однолинейные схемы были актуальны, а автоматы промаркированы, но во время отключения монтажники не позаботились о маркировке кабелей со стороны ИБП. В итоге гирлянда проводов, болтаясь, свисала с лотка. Похоже, что во время монтажа подрядчик пальцем проводил по каждому из проводов, определяя, тот ли кабель подключает. 

Также подрядчик не изолировал оголенные провода. Выбрав 10 необходимых для подключения кабелей из гирлянды и подключив их к ИБП, ребята решили проверить наличие напряжения на входных клеммах нового ИБП, включив соответствующий автомат. Чуда не произошло, так как один из фазных проводов был перепутан, соответственно, в оголенной гирлянде оказался кабель под напряжением. Щитовую посетил старый товарищ-коротыш. Выбило автоматы. ЦОД снова лег.

Как делать правильно:

1. Если заранее известно, что для подключения ИБП будет использоваться существующая кабельная трасса, демонтаж еще не выполнен, а кабельные трассы подключены к когда-то эксплуатируемому оборудованию, то необходимо (для упрощения своей же работы) убедиться, что на кабельных трассах отсутствует «напруга».

2. Далее стоит пробирковать / промаркировать их. Для этого мы используем стикеры, напечатанные на переносном принтере, наклеив их на каждый конец кабеля. Неважно, как маркировать, главное, чтобы в процессе было понятно, что это за кабель, откуда он идет.

3. Уточнить у заказчика, нужны ли ему эти кабельные трассы в дальнейшем. Если нет, демонтировать лишние.

4. Открутил кабель – изолируй. Тут все средства хороши: термоусадка, изолента, колпачки. Банальная безопасность. Не дай Бог кто-то придет в щит и взведет автоматы.

5. Напомню про 380 вольт. Напомню про наличие тестовых отверток и мультиметров.

В итоге изолировали кабели мы совместно с главным инженером заказчика. Повторил историю перевода питания нагрузки на внешний байпас с, так сказать, «мягким запуском» оборудования. 

Дальнейший запуск оборудования проходил уже под нашим присмотром. Все это – глубокой зимней ночью. Романтика! По завершении совместных работ мы подали питание на ИБП. Убедившись в том, что все хорошо, соблюдая последовательность, мы перевели нагрузку с внешнего байпаса на ИБП. Центр обработки данных ожил, как и бизнес-процессы заказчика.

Мы всегда готовы делиться накопленной экспертизой с коллегами по отрасли. Как правило, это предотвращает аварийные ситуации, позволяет избежать ошибок, уже совершенных в прошлом. Надеюсь, что мой рассказ поможет вам не попасть в аналогичную ситуацию. Господа инженеры, берегите себя, оборудование и близких.

P.S. ИБП мы взяли на плановое обслуживание.

3 сентября в Москве К2Тех организует конференцию Tech2b Conf: время инфраструктурных решений. Вас ждут 4 тематические дискуссии про разные сегменты отечественного ПО и оборудования, а также демо-зона, где вы увидите более десятка решений от российских производителей!

Комментарии (10)


  1. joffer
    14.08.2024 11:35
    +7

    всегда удивительно читать такие истории

    тут когда у наушников разъём перепаиваешь - мультиметром всегда на всякий случай прозваниваю провода - чтобы "+" звонился с плюсом, "-" с минусом и т д, а здесь люди переключали цод, не позаботившись ни о маркировке, ни об изоляции. Понадеялись, что все 10 кабелей запомнили или просто положили их в ряд в порядке отключения или как это произошло. И как раз наоборот когда вы без маркировки что-то отключаете/подключаете - нужно быть 100% уверенным, что всё в нужном порядке + иметь возможность проверить это без "режима хлопушки" или "режима бенгальского огня".

    И это не аматоры, это происходит у бизнеса и подрядчиков, которых же ещё как-то нашли, кто-то их рекомендовал, да и у них это же не первые монтажные работы были, уже была какая-то практика.


    1. Vdm_ro
      14.08.2024 11:35
      +12

      Классика =)

      • Да я сто раз так делал, что вы паритесь...

      • Вот тебе надо их подписывать посреди ночи? Ща быстро переключим и пойдем домой

      • Короче, Миха, электриков нет, поедешь ты и Колян, там ничего сложного, разберетесь...

      • Я не знаю как вы это сделаете, но деньги мы уже получили, оборудование уже у заказчика, бери кого надо, если что на телефоне интернет есть - инструкцию скачаете, все... давай... времени нет на болтовню...


      1. SuharkovMP
        14.08.2024 11:35
        +4

        Короче, Миха, электриков нет, поедешь ты и Колян, там ничего сложного, разберетесь...

        Лет много назад работал в небольшой конторе, делали проекты по электрике. В основном для квартир, но попадались и более крупные заказчики. Одним относительно крупным была средняя школа, где-то в районе метро Улица Академика Ботанического Сокола (название изменено в целях конспирации). Там электриком работал один из сторожей. Его назначили потому, что умел и не боялся менять лампы. Соответственно, в другие смены школа оставалась без электрика вообще. Ключи от помещения щитовой он забирал с собой.


      1. corefly
        14.08.2024 11:35
        +1

        "если что на телефоне интернет есть - инструкцию скачаете "
        классический диалог:

        - ты же не умеешь читать?

        - по картинкам разберусь!


  1. vvzvlad
    14.08.2024 11:35

    Согласитесь, даже короткое замыкание в бытовых условиях однофазной сети является неприятным. Что уж говорить о «коротыше» трехфазной сети в 380 вольт, где нагрузка течет по силовым кабелям толщиной с большой палец. Для справки, если положить гаечный ключ между проводниками 3-х фазной сети, то в момент короткого замыкания от ключа не останется ничего, здесь мы даже не говорим о каком-либо процессе плавления. «Скидыщ» – по выражению классика.

    У меня дома “трехфазная сеть в 380 вольт”, честные три фазы. Но вот если ключом замкнуть две фазы, он даже нагреться не успеет, автомат раньше сработает. Может приварится к проводникам и все, потому что у меня всего 32А. Давайте писать корректно, а? 0.4кВ это не 10кВ, это не показатель мощности сам по себе.


    1. vesowoma
      14.08.2024 11:35

      У меня дома “трехфазная сеть в 380 вольт”, честные три фазы. Но вот если ключом замкнуть две фазы, он даже нагреться не успеет, автомат раньше сработает. Может приварится к проводникам и все, потому что у меня всего 32А.

      Вот именно, ваша “трехфазная сеть в 380 вольт” реализована проводкой которая в случае несрабатывания защиты перегорит ранее гаечного ключа, так как тоньше в сечении, в отличие от промышленной

      Давайте писать корректно, а? 0.4кВ это не 10кВ, это не показатель мощности сам по себе.

      Естественно, киловольты это единица измерения напряжения, а не мощности

      У меня как-то отвертка, большая, советская, "поломалась" пополам когда случайно замкнул в щитке фазу на ноль. 100 А предохранитель на это сказал "а я ничего не видел и не слышал"


  1. riv9231
    14.08.2024 11:35

    Странно, что при кз выбивало главный автомат и всё ложилось. А других автоматов не было? Наверняка, там есть тонкости и нюансы, но все равно, неужели не было никакого плана? Впечатление, что специалисты заказчика вообще неграмотные были и читать-считать не умели. (Это случайно, не иностранные специалисты были?). Провода и контакты не имели маркировки? Хотя бы цветовой, чтобы ноль от фазы отличить и разные фазы друг от друга? Нужно было напечатать стикеры, а почему такая крутая компания автора не сделала это подключая старые ИБП?

    И кто же всё это построил? Я правильно понял, что компания автора?

    Возможно, это только моё впечатление. Мне показалось, что автор статьи чуть ли не с пафосом описывает как ахово облажались специалисты заказчика и ставит в заслугу своей компании, что выполнив тривиальные действия: не перепутали провода (может быть даже прозванивали, а не пальцем вели), заизолировали оголённые отключённые контакты, включали сервера не одновременно, а поочереди, проверили, что сервисы запустились. Короче, просто не накосячили на ровном месте.

    Не вижу тут чем особо хвастаться.


    1. ASaltykov Автор
      14.08.2024 11:35
      +2

      Странно, что при кз выбивало главный автомат и всё ложилось. А других автоматов не было?

      После автомата на 630А в цепи есть автомат на 125А, от которого запитан вход ИБП. КЗ было настолько сильным, что выбило оба автомата.

      Провода и контакты не имели маркировки? Хотя бы цветовой, чтобы ноль от фазы отличить и разные фазы друг от друга?

      Наконечники всех силовых кабелей были изолированы термоусадкой разных цветов в соответствии с ПУЭ. Проблема в том, что после демонтажа ИБП кабели перемешались и с лотка свисала разноцветная гирлянда. Если не прозвонить или заранее не промаркировать необходимые кабели, вероятность ошибки становится высокой.

      Нужно было напечатать стикеры, а почему такая крутая компания автора не сделала это подключая старые ИБП?

      Проектированием и монтажом системы СБЭ наша компания не занималась. На этапе строительства мы выполнили монтаж прецизионных систем кондиционирования.

      Мне показалось, что автор статьи чуть ли не с пафосом описывает как ахово облажались специалисты заказчика и ставит в заслугу своей компании

      На основе кейса решил помочь коллегам не попасть в аналогичную ситуацию, не пытаясь выставить кого-либо в нелицеприятном контексте.


  1. riv9231
    14.08.2024 11:35
    +1

    Открутил кабель – изолируй. Тут все средства хороши: термоусадка, изолента, колпачки. Банальная безопасность. Не дай Бог кто-то придет в щит и взведет автоматы

    Не только, ещё не плохо бы запереть соответствуюшие автоматы, отключенные для проведения работ, осуществить защитное зануление проводов, на которых работают люди и повесить плакаты "не включай - работают люди". Это должны знать даже просто руководители, прошедшие соответсвующие курсы. Как там никого не убило ещё?


  1. AlexanderS
    14.08.2024 11:35

    P.S. ИБП мы взяли на плановое обслуживание.

    То есть клиенту первого раза сделать выводы не хватило. Сделал только после второго)