Продолжаем статью, цель которой — поделиться опытом и показать ключевые особенности и частые ошибки возникающие при проектировании и организации подсистем электроснабжения ИТ-инфраструктуры и ЦОД в целом. Но хотелось бы немного расширить аудиторию и посвятить несколько разделов базовым элементам обеспечения электробезопасности и защиты оборудования и людей.

Тем, кто пропустил первую часть или хочет вспомнить первую часть можно пройти сюда.

Для тех кто понимает, что такое автомат и УЗО, для чего они необходимы, что и от чего защищают – переходите к разделу Нужны ли УЗО для IT-оборудования, серверной, ЦОДа?.

Часть вторая


Посмотрим какая взаимосвязь между энергетикой и конечным ИТ-оборудованием, будем разбираться в вопросе- в каких случаях перебоев в сети питания операционная система гарантированно должна работать без сбоев.



Вопросы переключения на резервный источник питания

Электроснабжение информационного оборудования организовывается с резервированием. Рассмотрим организацию электроснабжения в части ЩБП-БРП-БП (щит бесперебойного питания-блок распределения питания- блок питания). Типы резервирования бывают следующих типов:

  1. Резервирование кабелей к стойке, оборудованию, с использованием отдельных блоков распределения питания, БРП (рисунок 1)
  2. Резервирование шин питания в щите электроснабжения, с использованием отдельных блоков распределения питания, БРП (рисунок 2)

Резервирование на уровне блоков питания непосредственно в сервере, коммутаторе, ИТ-устройстве (рис.3)
Резервирование при помощи стоечного переключателя нагрузки, стоечного АВР (СПН, он же ATS) (рис.4)



Для переключения между основным и резервным вводом могут использоваться:

  • в сфере информационных систем: шкафы АВР/STS (Static Transfer Swith) для систем большой мощности, для перехода на питание от резервного ИБП в момент работы полноценной системы 2N или комбинаций систем N+1;
  • в сфере систем электроснабжения различного вида схемы АВР (на контакторах, на контроллерах);
  • на уровне серверной стойки: автоматические быстродействующие стоечные АВР\ATS (Automatic Transfer Switсh);
  • на уровне конкретного информационного оборудование: дублированные блоки питания.

Как мы цитировали выше для IT-оборудования, «перерыв в электроснабжении недопустим». А что скрывается под этой фразой? Что такое «перерыв» в питании информационного оборудования? Сейчас разберемся на живом примере.

Заказчик внедряет локальную серверную вместе с IT-инфраструктурой двух этажей под офис фирмы. На этапе обсуждения системы электропитания у него возникает желание поставить все информационное оборудование с одним блоком питания (БП), а второй слот под БП серверов оставить свободным, и на всю стойку смонтировать единый ATS стоечного исполнения. (рис.4, схема).

Внешний вид тыльной стороны сервера с дублированными блоками питания
Как Заказчик аргументировал свое желание:

  • Экономия средств ($500-800 с каждого устройства в стойке)
  • Можно поставить два простейших БРП и применить их уже для распределения питания после ATS
  • Абсолютно аналогичный уровень надежности системы, по сравнению с классическим способом распределения

Мы взяли тайм-аут, подробно исследовали желание Заказчика с различных точек зрения, надежности сервисов в целом в гарантийный и послегарантийный срок, а также:

  • стоимости (экономии) капитальных затрат при внедрении (CAPEX)
  • стоимости затрат на амортизацию, содержание ЗИП, трудозатрат персонала клиента (OPEX)
  • сравнения алгоритмов работы и времени переключения на резервную линию в обоих вариантах, проверка на «единые точки отказа»
  • уровня рисков зависания и/или перезагрузки операционных систем информационного оборудования, падения информационных сервисов, которые на них работают.

И вот что выяснилось:

Согласно нормативной базе ГОСТ 32144-2013 (Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электроэнергии в сетях общего назначения. Дата введения – 1 июля 2014 года), основной причиной сбоев в работе информационного оборудования могут стать провалы напряжения, которые
обычно происходят из-за неисправностей в электрических сетях или в электроустановках потребителей, а также при подключении мощной нагрузки

Читаем дальше:
длительность провалов напряжения может быть до 1 минуты
Эта фраза говорит нам, что информационное оборудование должно обеспечиваться ИБП и/или быстродействующими АВР, так как провалы напряжения подобной длительности являются допустимыми и нормальными с точки зрения большой энергетики, но будут являться фатальными для ИТ-оборудования и сервисов.

К слову, стоит отметить, что в данный момент в действующей нормативной базе РФ имеются противоречия в части измерении величин, относящихся к качеству электроэнергии, подробнее можно почитать в статье технического руководителя направления нашей компании Виктора Чердака (источник digitalsubstation.com)

Некоторые выдержки из статьи

В последние годы государственные стандарты в области измерений параметров электрической энергии, относящихся к КЭ, активно развивались и были неоднократно переработаны

"
Важным изменением стала замена ГОСТ 13109-97 «Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электрической энергии в системах электроснабжения общего назначения» [16] на ГОСТ 32144-2013. Данные стандарты определяют различную номенклатуру показателей качества электроэнергии.


А вот насколько быстродействующим? Как определить то время в миллисекундах, за которое сервис (и сервер) заказчика не упадет, а операционная система не уйдет в «critical error»?



Существует стандарт CBEMA (Computer and Business Equipment Manufacturers Association), который после некоторых корректировок ныне известен как «кривые ITIC» (Information Technology Industry Council), а ее варианты включены в стандарты IEEE 446 ANSI. Согласно этим нормативам, электронные схемы блоков питания должны сохранять работоспособность в течение 20 мс (или 0,02 секунды, то есть период).


Те самые кривые ITIC

Согласно требованиям к блокам питания серверных и компьютерных систем Server System Infrastructure можем сказать, что параметр блока питания Tvout_holdup во время провала напряжения питающей сети обеспечивает работу информационного оборудования минимум 21 мсек. То есть, полный период сети – это гарантированное время нормальной работы сервера или коммутатора. Параметр Tpwok_holdup определен минимально 20мсек.

некоторые подробности по параметрам SSI можно посмотреть тут
Справка: Hold-up time (время удержания) — это временной промежуток, в течение которого блок питания может поддерживать выходные напряжения в определенных пределах после пропадания на его входе питающего напряжения. В большинстве компьютерных блоков питания Hold-up time характеризует еще и через какой промежуток времени power good сигнал (PWR_OK) скажет системе, что напряжения, вырабатываемые блоком питания, нестабильны (для компьютерных блоков питания этот параметр обычно более 16 мс).



Вот одна из таблиц из документа



А это диаграмма (time-line) с регламентируемыми алгоритмами работы БП

Теперь посмотрим, какое время переключения заявляет APC, например, для стоечного переключателя нагрузки марки AP7721. Видим, что тут у нас обычно 8-12 мс, но 18 мс – это максимальное время переключения.

Можем сделать вывод, что время переключения на резервный ввод для стоечного переключателя нагрузки соответствует спецификации работы блока питания серверного оборудования. Получается, что сбоев в работе информационного оборудования не будет.

Сводная таблица таймингов элементов системы


А что у нас с экономической составляющей и какой из вариантов более выгоден и отказоустойчив?


Предположим, у нас в стойке имеются три небольших сервера, в которые можно поставить по два блока питания и три устройства с недублированными блоками питания. Все критически важны и отказ любого из устройств выведет в отказ всю систему заказчика в целом. Стоечный переключатель нагрузки нам в любом случае понадобится. Это порядка 18 тыс. рублей.

Заказчик заявляет, что PDU (БРП) им не нужны, значит, в бюджете будет лишь стоимость ATS – те же 18 тыс. рублей. В качестве замены блокам распределения питания (PDU) Заказчик предлагает использовать распределение питания «на борту» стоечного переключателя нагрузки. Также Заказчик планирует купить сервера с двумя слотами под блоки питания, но в комплектации с одним БП ради экономии. (рисунок 4)

Классический вариант (рисунок 3) предполагает комплект из 2-х PDU – около 32 000 рублей, 3 дополнительных блока питания в серверы по $500 каждый за 84 тыс. рублей итого. ATS за те же 18 тыс. рублей. Сложив все, мы понимаем, что классическое решение обойдется Заказчику примерно в 134 тыс. рублей.

Вроде бы действительно, Заказчик прав, деньги совершенно другие. Но давайте посмотрим с точки зрения отказоустойчивости и удобства обслуживания обоих вариантов:
Вариант заказчика: Единая точка отказа – стоечный переключатель нагрузки. Если с ним что-то случится, то мы теряем всю стойку целиком. Значит, надо иметь ЗИП прямо на площадке, что прибавляет к смете 18 000 рублей. Блоки питания в серверах стоят по одному, они тоже являются точками отказа. Значит, желательно иметь хотя бы один, а лучше все три блока питания в резерве на площадке. Примем, что нужны три БП в ЗИП – это еще плюс 36 тыс. рублей. Нужно проверять мощность, которую может коммутировать стоечный ATS. Cейчас мы исходим из того, что 3 кВт или 16А нам хватит на все оборудование стойки. Если нам понадобится ATS на 32А (7кВт), то это будет уже значительно дороже (более 100 тыс. руб). То есть бюджет варианта Заказчика при детальном рассмотрении надежности вырастает до 160 тыс. рублей. При этом в случае ЧП несмотря на то, что запасные части будут на площадке понадобится down-time для замены устройства.
Единая точка отказа (SPOF, Single Point Of Failure) — узел, линия связи или объект системы доступности данных, отказ которого может вывести из строя всю систему, или вызвать недоступность данных
Вариант Открытых Технологий: По рисунку 3, но при необходимости добавляется ATS для мелкого сетевого оборудования с единственным блоком питания.

Точка отказа – тот самый ATS. Если с ним что-то случится, то мы теряем всю стойку целиком. Согласны с тем, что надо иметь ЗИП прямо на площадке. Но в нашем случае, если отказывает только ATS, то это может повлиять лишь на работу коммутаторов и вспомогательного оборудования. Сами серверы спокойно продолжат работу. Блоки питания в ЗИП не нужны. Так как при выходе из строя одного из дублированных блоков питания сервер продолжит работу на оставшемся, и, скорее всего, дождется нового блока питания от вендора, вне зависимости от удаленности площадки.

Интерпретация термина SPOF применительно к ИТ-системам
Единая точка отказа (SPOF, Single Point Of Failure) – узел, устройство или точка схемы, отказ которого может вывести из строя всю систему, вызвать недоступность данных и сервисов. Рассматривается при разработке и проектировании любых критически важных систем. Полное отсутствие единых точек отказа ведет к значительному увеличению капитальных затрат при внедрении, поэтому критичность работы той или иной системы, сервиса определяется на этапе проектирования исходя из бюджета проекта, а также пожеланий и требований Заказчика. Мы всегда находим вариант идеального решения для каждого Заказчика, определяя несколько вариантов реализации проекта, и предлагая их Заказчику. В результате на этапе сдачи проекта заказчик получает именно то решение, которое он хотел видеть по соотношению цена/качество/надежность.

Таким образом, подключать все оборудование стойки на единый ATS можно, но не рационально, так как в этом случае получаем единую точку отказа по питанию. Закупка серверов с дублированными блоками питания предпочтительна в любом случае, так как отказоустойчивость на уровне информационного оборудования увеличивается в разы.

Стоечный переключатель нагрузки обеспечивает корректное и почти мгновенное переключение на резервный ввод, информационное оборудование даже не почувствует этого, программные продукты и операционные системы продолжат корректно работать. Стоечные блоки распределения питания в любом случае нужны и экономить на них не надо. Видимая экономия на капитальных затратах по распределению питания может обернуться нерешаемыми проблемами при эксплуатации, например, необходимости «гасить» всю стойку только для того, чтобы переместить ATS в другой юнит или провести ревизию стоечного переключателя нагрузки. В любом случае для дублированных блоков питания должен быть ЗИП, а он не всегда возможен или имеется.

Внешний вид съемного блока питания сервера:



Применение стоечного АВР имеет свои особенности
Например, мощность такого АВР ограничена, и переключать он может комплекс сравнительно слабых с точки зрения потребляемой мощности нагрузок. Есть вопросы к количеству выходных разъемов питания. Например, вышеупомянутый ATS AP7721 оснащен по входу разъемами типа С14, что означает максимальную мощность переключения 2,5 кВт. На большую мощность нагрузки существует 2U модель AP7724, который по входу комплектуется разъемом на 32 А, то есть максимальная мощность оборудования может быть до 7кВт. А это значит, что типовую стойку с оборудованием можно подключить на этот АВР полностью. Однако цена подобного решения будет более 100 тыс. рублей.

Работа информационного оборудования с двумя блоками питания была хорошо описана в статье Вадима Синицкого @dimskiy . Как видим, есть свои достоинства и недостатки. И наличие резервных блоков питания для информационного оборудования в любом случае необходимо, особенно если объект находится вне зоны быстрой поставки блока питания от вендора. Кроме того, хотим заметить, что онлайн калькуляторы расчета мощности новых серверов от вендоров могут применяться лишь как ориентир для системных администраторов, персонала Заказчика.

Реальные возможности подключения нового мощного сервера к существующей стойке должны оцениваться с учетом изначального проекта электроснабжения, текущего состояния и нагрузки электросети стойки, серверной, ИБП, генератора…. С точки зрения подключения в стойке также стоит учитывать:

  • текущие возможности PDU, типа свободных разъемов в них
  • номиналов автоматов в щитах и сечения и фазность кабельной линии к стойке.

Отдельного внимания заслуживает надежность работы системы электроснабжения серверной, если она построена по системе, изображенной на рис.2 (с двумя системами шин), наличие нового мощного сервера может в случае ремонтных работ привести к перегрузке всей системы электроснабжения, снизить время автономной работы ИБП на батареях, заставить ИБП перейти на байпас по перегрузке и прочее…

А как у вас построена система распределения в стойке?
Каков ресурс БП для ИТ-оборудования и алгоритм их программного резервирования?
Какие вы предпочитаете БРП использовать: базовые, с мониторингом? насколько полезна в практике функция «управляемый БРП/PDU» и помогла ли она вам когда либо?


Автор: Куликов Олег
Ведущий инженер конструктор
Департамент интеграционных решений
«Открытые Технологии»
okulikov@ot.ru
Регистрация в Национальном Реестре Специалистов «НОПРИЗ» П-045870

Комментарии (16)


  1. fessmage
    20.09.2018 21:08
    +1

    Критически важно не только накидать дублирующее оборудование в серверной, но и обеспечить:


    • бесперебойное переключение с генератора на городскую линию питания. Было такое, что после аварии на городской линии, пока заводили генератор — ИБП успели просесть почти до нуля. Поработали на генераторе с полчаса, город восстановился, и обратное переключение было… Правильно! Тоже с обрывом питания. В результате не успевшие зарядиться ИБП чуть не потухли.
    • соблюдение стандартов электробезопасности. Те случаи, про которые вы писали в первой части, к сожалению встречаются очень часто. Качественно подключенная и проложенная электрика — редкий зверь в повседневной жизни. Взять хотябы повсеместное отсутствие заземления.
    • контроль за соблюдениев стандартов из пункта выше. Мало сделать хорошо один раз на запуске, надо регулярно проверять что люди не натворили дел в ходе эксплуатации. Находил руками горячий кусок кабеля, замотанный изолентой — кто-то решил нарастить плохой скруткой кабель питания для стоечного 5КВт ИБП. Вообще любой кустарный ремонт, с плохой пайкой или на искрящих скрутках, замотанных синей изолентой — это беда. Понятно, что люди хотят сделать подешевле и побыстрее, но не думают о том, к чему это может привести через некоторое время.


  1. rub_ak
    20.09.2018 21:32

    город восстановился, и обратное переключение было… Правильно! Тоже с обрывом питания. В результате не успевшие зарядиться ИБП чуть не потухли.

    А подождать пол часика, часик на генераторе нельзя было?
    Неужели дизель настолько дорогой?


    1. fessmage
      20.09.2018 23:46

      Генератор по мощности не тянул всё здание, часть инфраструктуры (не серверной) приходилось выключать при работе на нем. И из-за превышения нагрузки — напряжение шло вниз, так что те же ИБП переходили на батареи, продолжая разряжаться… Бегали по нескольким этажам, выключая кондиционеры по кабинетам.


      В другом бы случае — да, выждать часок-другой для подзарядки, было бы оптимальным вариантом.


      1. saege5b
        21.09.2018 01:41

        У нас МЧС посёлок на генераторах пыталось удержать, после того как подстанцию урпганом залило.
        Часов 5 электричество скакало туда сюда, пока что не было выключенно из розеток не погорело.
        Ездили, в мегафон, просили выключить из розеток всё энергоёмкое. Ага, все же 'умные'.

        Надо было отдельную линию питания на серваки.


        1. Gromazeka13 Автор
          21.09.2018 09:08

          скакало туда сюда, пока что не было выключенно из розеток не погорело.

          Тут наверно был непредсказуемый перекос по фазам, который выровнять в бытовом секторе было невозможно. По итогу броски напряжения на фазах довели до «кирдык» все что было включено в розетки. Типичная ситуация- полагаю больше 260-270 Вольт «уплыло»


          1. saege5b
            21.09.2018 11:28
            +1

            Вырубило электричество. Раньше все выключали холодильники, из розетки. Сейчас — пофиг.
            Получается, МЧС врубает и подключает генераторы. Куча холодильников включается, тут же народ, «пока есть свет», врубает эл.чайники, микроволновки. Говорят, кто-то стиралки запускал. Свет у всех включен по умолчанию «что бы знать когда свет дадут».
            Генераторы раскручиваются-раскручиваются, нагрузка прибывает и прибывает… срабатывает защита на генераторах, останов либо просто грустно.
            Если просто грустно, срабатывает защита на потребителях. Куча отваливается. Генераторы пошли в разнос. В этот момент БП видя что питалово восстановилось, включаются :)
            Я минут 20 тусовался там рядом с генераторами. Всё это прекрасно различалось на слух. Мат стоял...! По результату, парочку генераторов спалили.


            1. Gromazeka13 Автор
              21.09.2018 11:44
              +1

              м-да)))) спасибо за описание «действа»… вопрос только неграмотности действий МЧС. Ну вы видете, что захлебывается генератор- рубите половину поселка, час одним, час другим… Ни у кого бы ничего не погорело… надеятся на сознательность людей- глупо…

              Говорят, кто-то стиралки запускал.
              всем фиолетово сколько там мата будет у генератора- «у меня ж работает», а вот когда вообще ничего работать не будет, так они звонить будут- дайте свет


              1. saege5b
                21.09.2018 11:50

                Схема организации узла подстанции не подразумевает прицельного отключения веток потребителей ;) Вернее, там есть несколько линий, но на них много висит. МЧС и цеплялось на конкретные линии.
                Исторически сложилось.
                Проще индивидуально дома запитывать. Но их много.


            1. sim2q
              22.09.2018 00:22
              +1

              Московский блэкаут в 2005 запомнился как лампочки накаливания плавно почти гасли и также плавно зажигались в течении довольно продолжительного времени.
              Ужас админа в звуке раскручивающихся hdd и тут же падении…


              1. JerleShannara
                22.09.2018 01:15

                Я тогда лицезрел как ИБП играют в сварщиков. Один намертво приварил реле в терпимой конфигурации, а у второго они сварились в очень плохой режим.


                1. sim2q
                  22.09.2018 02:25

                  сварились в очень плохой режим.
                  из серии «запитать UPS-ом весь район»


                  1. JerleShannara
                    22.09.2018 02:48

                    Как мне тогда рассказали(я тогда мало соображал во всём, что круче чем line-interactive 1KVA), то там упс сначала прифигел от прыгающей нагрузки, сварил какую-то мелочь, а вот далее сварилось реле байпаса… Первый труп был смарт 1000, там просто сварились реле AVR-а


      1. Gromazeka13 Автор
        21.09.2018 09:05

        напряжение шло вниз

        полагаю, что генератор просто снижал частоту сети по перегрузке, выходил из синхронизациии, в результате чего ИБП определяли выход параметров сети из диапазона «ок». Кроме того кондеи дают неравномерные нагрузки при пуске компрессоров. А вообще для таких ситуаций предусматриваются либо отдельные секции во ВРУ для ответственных потребителей, либо в крайнем случае ставятся автоматы с независимыми расцепителями, которые удаленно гасят все кондеи при переходе на ДГУ.
        Тут еще, вероятно, ИБП пытались «отожрать» свою долю на заряд батарей, не взирая на работу от ДГУ. (если конечно не была реализована функция блокировки заряда батарей при работе на генераторе)


  1. Jenix
    22.09.2018 13:42

    О, классика! Продавец, который не разбирается в товаре сам, но насмехается над покупателем. )))
    Посмотрите все!!! Картинка — 220 В синусоида. А должно быть — 310 В.

    Автор поста даёт типа советы, но сам не разбирается в электричестве. Причём в основах. Предвижу его возражения — «я не обязан разбираться, это слишком глубокие знания» ))

    Да блин, это знает каждый электрик, а уж тем более радиоинженер.
    Максимальное напряжение сети 220 В равно не 220, а 310 вольт в амплитуде. А размах — 620 вольт.
    220 вольт — это тепловое воздействие (эффективное) или интегральное за целый период синусоиды с амплитудой 310 вольт…

    Это же основы, блин! Я не сомневаюсь, что автор — бывший или реальный программист. )
    PS… Не программист, а эксперт… бл… иин! ;-( я разочарован.

    Gromazeka13 — Олег Куликов —
    Электромонтер, электромонтажник, техник-приборист КИПиА, инженер, дежурный инженер автоматических линий, инженер-проектировщик систем электроснабжения (0,4-6-10кВ), ГИП по электроснабжению, ведущий инженер-проектировщик (ЦОД), ГИП, эксперт в области инженерных систем и систем электроснабжения
    Регистрационный номер в Национальном Реестре Специалистов…


    1. Alexsandr_SE
      22.09.2018 22:28
      -1

      Приборы рассчитаны на 220 средних, а не на выпрямленное напряжение. Поэтому вполне корректно и нормально показывать 220 синусоида. Это же переменное напряжение. А вот когда прибор покажет 310 синусоида 50Гц — наступает кирдык большей части оборудования.


      1. Jenix
        23.09.2018 00:22
        +1

        ваши рассуждения корректны (более-менее) только для индикаторов (стрелочных или цифровых с детектором — пиковым или эффективным).
        Но для картинки синусоиды (например на осциллографе) — нет. Здесь явная ошибка в рассуждениях.
        Или вы курс метрологии (наука об измерениях) не проходили? )
        Поэтому вот это вот

        220 средних, а не на выпрямленное
        для человека хотябы со второго курса ВУЗа уже становится смешным.
        среднее там или выпрямленное — это зависит исключительно от детектора (и потому неприменимо к осциллоскопу и картинке синуса).

        А шкала (стрелочная или цифровая) приводится к значению по коэффициенту формы сигнала. Этих коэффициентов вообще даже ДВА )))
        Коэфф. детектора (коэфф.амплитуды) и коэфф. формы сигнала.
        (например коэфф пикового детектора всегда 1, а коэфф формы сигнала (градуировка шкалы) для меандра 1, а для синуса 0,707 — как в нашем случае 310 и 220)

        Но в данном случае (про картинку) как ни крути — рассуждения и картинка — либо ошибочны по невнимательности, либо по полной безграмотности.