Тем, кто пропустил первую часть или хочет вспомнить первую часть можно пройти сюда.
Для тех кто понимает, что такое автомат и УЗО, для чего они необходимы, что и от чего защищают – переходите к разделу Нужны ли УЗО для IT-оборудования, серверной, ЦОДа?.
Часть вторая
Посмотрим какая взаимосвязь между энергетикой и конечным ИТ-оборудованием, будем разбираться в вопросе- в каких случаях перебоев в сети питания операционная система гарантированно должна работать без сбоев.
Вопросы переключения на резервный источник питания
Электроснабжение информационного оборудования организовывается с резервированием. Рассмотрим организацию электроснабжения в части ЩБП-БРП-БП (щит бесперебойного питания-блок распределения питания- блок питания). Типы резервирования бывают следующих типов:
- Резервирование кабелей к стойке, оборудованию, с использованием отдельных блоков распределения питания, БРП (рисунок 1)
- Резервирование шин питания в щите электроснабжения, с использованием отдельных блоков распределения питания, БРП (рисунок 2)
Резервирование на уровне блоков питания непосредственно в сервере, коммутаторе, ИТ-устройстве (рис.3)
Резервирование при помощи стоечного переключателя нагрузки, стоечного АВР (СПН, он же ATS) (рис.4)
Для переключения между основным и резервным вводом могут использоваться:
- в сфере информационных систем: шкафы АВР/STS (Static Transfer Swith) для систем большой мощности, для перехода на питание от резервного ИБП в момент работы полноценной системы 2N или комбинаций систем N+1;
- в сфере систем электроснабжения различного вида схемы АВР (на контакторах, на контроллерах);
- на уровне серверной стойки: автоматические быстродействующие стоечные АВР\ATS (Automatic Transfer Switсh);
- на уровне конкретного информационного оборудование: дублированные блоки питания.
Как мы цитировали выше для IT-оборудования, «перерыв в электроснабжении недопустим». А что скрывается под этой фразой? Что такое «перерыв» в питании информационного оборудования? Сейчас разберемся на живом примере.
Заказчик внедряет локальную серверную вместе с IT-инфраструктурой двух этажей под офис фирмы. На этапе обсуждения системы электропитания у него возникает желание поставить все информационное оборудование с одним блоком питания (БП), а второй слот под БП серверов оставить свободным, и на всю стойку смонтировать единый ATS стоечного исполнения. (рис.4, схема).
Внешний вид тыльной стороны сервера с дублированными блоками питания
Как Заказчик аргументировал свое желание:
- Экономия средств ($500-800 с каждого устройства в стойке)
- Можно поставить два простейших БРП и применить их уже для распределения питания после ATS
- Абсолютно аналогичный уровень надежности системы, по сравнению с классическим способом распределения
Мы взяли тайм-аут, подробно исследовали желание Заказчика с различных точек зрения, надежности сервисов в целом в гарантийный и послегарантийный срок, а также:
- стоимости (экономии) капитальных затрат при внедрении (CAPEX)
- стоимости затрат на амортизацию, содержание ЗИП, трудозатрат персонала клиента (OPEX)
- сравнения алгоритмов работы и времени переключения на резервную линию в обоих вариантах, проверка на «единые точки отказа»
- уровня рисков зависания и/или перезагрузки операционных систем информационного оборудования, падения информационных сервисов, которые на них работают.
И вот что выяснилось:
Согласно нормативной базе ГОСТ 32144-2013 (Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электроэнергии в сетях общего назначения. Дата введения – 1 июля 2014 года), основной причиной сбоев в работе информационного оборудования могут стать провалы напряжения, которые
обычно происходят из-за неисправностей в электрических сетях или в электроустановках потребителей, а также при подключении мощной нагрузки
Читаем дальше:
длительность провалов напряжения может быть до 1 минутыЭта фраза говорит нам, что информационное оборудование должно обеспечиваться ИБП и/или быстродействующими АВР, так как провалы напряжения подобной длительности являются допустимыми и нормальными с точки зрения большой энергетики, но будут являться фатальными для ИТ-оборудования и сервисов.
К слову, стоит отметить, что в данный момент в действующей нормативной базе РФ имеются противоречия в части измерении величин, относящихся к качеству электроэнергии, подробнее можно почитать в статье технического руководителя направления нашей компании Виктора Чердака (источник digitalsubstation.com)
В последние годы государственные стандарты в области измерений параметров электрической энергии, относящихся к КЭ, активно развивались и были неоднократно переработаны
"
Важным изменением стала замена ГОСТ 13109-97 «Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электрической энергии в системах электроснабжения общего назначения» [16] на ГОСТ 32144-2013. Данные стандарты определяют различную номенклатуру показателей качества электроэнергии.
А вот насколько быстродействующим? Как определить то время в миллисекундах, за которое сервис (и сервер) заказчика не упадет, а операционная система не уйдет в «critical error»?
Существует стандарт CBEMA (Computer and Business Equipment Manufacturers Association), который после некоторых корректировок ныне известен как «кривые ITIC» (Information Technology Industry Council), а ее варианты включены в стандарты IEEE 446 ANSI. Согласно этим нормативам, электронные схемы блоков питания должны сохранять работоспособность в течение 20 мс (или 0,02 секунды, то есть период).
Те самые кривые ITIC
Согласно требованиям к блокам питания серверных и компьютерных систем Server System Infrastructure можем сказать, что параметр блока питания Tvout_holdup во время провала напряжения питающей сети обеспечивает работу информационного оборудования минимум 21 мсек. То есть, полный период сети – это гарантированное время нормальной работы сервера или коммутатора. Параметр Tpwok_holdup определен минимально 20мсек.
Вот одна из таблиц из документа
А это диаграмма (time-line) с регламентируемыми алгоритмами работы БП
Теперь посмотрим, какое время переключения заявляет APC, например, для стоечного переключателя нагрузки марки AP7721. Видим, что тут у нас обычно 8-12 мс, но 18 мс – это максимальное время переключения.
Можем сделать вывод, что время переключения на резервный ввод для стоечного переключателя нагрузки соответствует спецификации работы блока питания серверного оборудования. Получается, что сбоев в работе информационного оборудования не будет.
А что у нас с экономической составляющей и какой из вариантов более выгоден и отказоустойчив?
Предположим, у нас в стойке имеются три небольших сервера, в которые можно поставить по два блока питания и три устройства с недублированными блоками питания. Все критически важны и отказ любого из устройств выведет в отказ всю систему заказчика в целом. Стоечный переключатель нагрузки нам в любом случае понадобится. Это порядка 18 тыс. рублей.
Заказчик заявляет, что PDU (БРП) им не нужны, значит, в бюджете будет лишь стоимость ATS – те же 18 тыс. рублей. В качестве замены блокам распределения питания (PDU) Заказчик предлагает использовать распределение питания «на борту» стоечного переключателя нагрузки. Также Заказчик планирует купить сервера с двумя слотами под блоки питания, но в комплектации с одним БП ради экономии. (рисунок 4)
Классический вариант (рисунок 3) предполагает комплект из 2-х PDU – около 32 000 рублей, 3 дополнительных блока питания в серверы по $500 каждый за 84 тыс. рублей итого. ATS за те же 18 тыс. рублей. Сложив все, мы понимаем, что классическое решение обойдется Заказчику примерно в 134 тыс. рублей.
Вроде бы действительно, Заказчик прав, деньги совершенно другие. Но давайте посмотрим с точки зрения отказоустойчивости и удобства обслуживания обоих вариантов:
Вариант заказчика: Единая точка отказа – стоечный переключатель нагрузки. Если с ним что-то случится, то мы теряем всю стойку целиком. Значит, надо иметь ЗИП прямо на площадке, что прибавляет к смете 18 000 рублей. Блоки питания в серверах стоят по одному, они тоже являются точками отказа. Значит, желательно иметь хотя бы один, а лучше все три блока питания в резерве на площадке. Примем, что нужны три БП в ЗИП – это еще плюс 36 тыс. рублей. Нужно проверять мощность, которую может коммутировать стоечный ATS. Cейчас мы исходим из того, что 3 кВт или 16А нам хватит на все оборудование стойки. Если нам понадобится ATS на 32А (7кВт), то это будет уже значительно дороже (более 100 тыс. руб). То есть бюджет варианта Заказчика при детальном рассмотрении надежности вырастает до 160 тыс. рублей. При этом в случае ЧП несмотря на то, что запасные части будут на площадке понадобится down-time для замены устройства.
Единая точка отказа (SPOF, Single Point Of Failure) — узел, линия связи или объект системы доступности данных, отказ которого может вывести из строя всю систему, или вызвать недоступность данныхВариант Открытых Технологий: По рисунку 3, но при необходимости добавляется ATS для мелкого сетевого оборудования с единственным блоком питания.
Точка отказа – тот самый ATS. Если с ним что-то случится, то мы теряем всю стойку целиком. Согласны с тем, что надо иметь ЗИП прямо на площадке. Но в нашем случае, если отказывает только ATS, то это может повлиять лишь на работу коммутаторов и вспомогательного оборудования. Сами серверы спокойно продолжат работу. Блоки питания в ЗИП не нужны. Так как при выходе из строя одного из дублированных блоков питания сервер продолжит работу на оставшемся, и, скорее всего, дождется нового блока питания от вендора, вне зависимости от удаленности площадки.
Таким образом, подключать все оборудование стойки на единый ATS можно, но не рационально, так как в этом случае получаем единую точку отказа по питанию. Закупка серверов с дублированными блоками питания предпочтительна в любом случае, так как отказоустойчивость на уровне информационного оборудования увеличивается в разы.
Стоечный переключатель нагрузки обеспечивает корректное и почти мгновенное переключение на резервный ввод, информационное оборудование даже не почувствует этого, программные продукты и операционные системы продолжат корректно работать. Стоечные блоки распределения питания в любом случае нужны и экономить на них не надо. Видимая экономия на капитальных затратах по распределению питания может обернуться нерешаемыми проблемами при эксплуатации, например, необходимости «гасить» всю стойку только для того, чтобы переместить ATS в другой юнит или провести ревизию стоечного переключателя нагрузки. В любом случае для дублированных блоков питания должен быть ЗИП, а он не всегда возможен или имеется.
Внешний вид съемного блока питания сервера:
Работа информационного оборудования с двумя блоками питания была хорошо описана в статье Вадима Синицкого @dimskiy . Как видим, есть свои достоинства и недостатки. И наличие резервных блоков питания для информационного оборудования в любом случае необходимо, особенно если объект находится вне зоны быстрой поставки блока питания от вендора. Кроме того, хотим заметить, что онлайн калькуляторы расчета мощности новых серверов от вендоров могут применяться лишь как ориентир для системных администраторов, персонала Заказчика.
Реальные возможности подключения нового мощного сервера к существующей стойке должны оцениваться с учетом изначального проекта электроснабжения, текущего состояния и нагрузки электросети стойки, серверной, ИБП, генератора…. С точки зрения подключения в стойке также стоит учитывать:
- текущие возможности PDU, типа свободных разъемов в них
- номиналов автоматов в щитах и сечения и фазность кабельной линии к стойке.
Отдельного внимания заслуживает надежность работы системы электроснабжения серверной, если она построена по системе, изображенной на рис.2 (с двумя системами шин), наличие нового мощного сервера может в случае ремонтных работ привести к перегрузке всей системы электроснабжения, снизить время автономной работы ИБП на батареях, заставить ИБП перейти на байпас по перегрузке и прочее…
А как у вас построена система распределения в стойке?
Каков ресурс БП для ИТ-оборудования и алгоритм их программного резервирования?
Какие вы предпочитаете БРП использовать: базовые, с мониторингом? насколько полезна в практике функция «управляемый БРП/PDU» и помогла ли она вам когда либо?
Автор: Куликов Олег
Ведущий инженер конструктор
Департамент интеграционных решений
«Открытые Технологии»
okulikov@ot.ru
Регистрация в Национальном Реестре Специалистов «НОПРИЗ» П-045870
Комментарии (16)
rub_ak
20.09.2018 21:32город восстановился, и обратное переключение было… Правильно! Тоже с обрывом питания. В результате не успевшие зарядиться ИБП чуть не потухли.
А подождать пол часика, часик на генераторе нельзя было?
Неужели дизель настолько дорогой?fessmage
20.09.2018 23:46Генератор по мощности не тянул всё здание, часть инфраструктуры (не серверной) приходилось выключать при работе на нем. И из-за превышения нагрузки — напряжение шло вниз, так что те же ИБП переходили на батареи, продолжая разряжаться… Бегали по нескольким этажам, выключая кондиционеры по кабинетам.
В другом бы случае — да, выждать часок-другой для подзарядки, было бы оптимальным вариантом.
saege5b
21.09.2018 01:41У нас МЧС посёлок на генераторах пыталось удержать, после того как подстанцию урпганом залило.
Часов 5 электричество скакало туда сюда, пока что не было выключенно из розеток не погорело.
Ездили, в мегафон, просили выключить из розеток всё энергоёмкое. Ага, все же 'умные'.
Надо было отдельную линию питания на серваки.Gromazeka13 Автор
21.09.2018 09:08скакало туда сюда, пока что не было выключенно из розеток не погорело.
Тут наверно был непредсказуемый перекос по фазам, который выровнять в бытовом секторе было невозможно. По итогу броски напряжения на фазах довели до «кирдык» все что было включено в розетки. Типичная ситуация- полагаю больше 260-270 Вольт «уплыло»saege5b
21.09.2018 11:28+1Вырубило электричество. Раньше все выключали холодильники, из розетки. Сейчас — пофиг.
Получается, МЧС врубает и подключает генераторы. Куча холодильников включается, тут же народ, «пока есть свет», врубает эл.чайники, микроволновки. Говорят, кто-то стиралки запускал. Свет у всех включен по умолчанию «что бы знать когда свет дадут».
Генераторы раскручиваются-раскручиваются, нагрузка прибывает и прибывает… срабатывает защита на генераторах, останов либо просто грустно.
Если просто грустно, срабатывает защита на потребителях. Куча отваливается. Генераторы пошли в разнос. В этот момент БП видя что питалово восстановилось, включаются :)
Я минут 20 тусовался там рядом с генераторами. Всё это прекрасно различалось на слух. Мат стоял...! По результату, парочку генераторов спалили.Gromazeka13 Автор
21.09.2018 11:44+1м-да)))) спасибо за описание «действа»… вопрос только неграмотности действий МЧС. Ну вы видете, что захлебывается генератор- рубите половину поселка, час одним, час другим… Ни у кого бы ничего не погорело… надеятся на сознательность людей- глупо…
Говорят, кто-то стиралки запускал.
всем фиолетово сколько там мата будет у генератора- «у меня ж работает», а вот когда вообще ничего работать не будет, так они звонить будут- дайте светsaege5b
21.09.2018 11:50Схема организации узла подстанции не подразумевает прицельного отключения веток потребителей ;) Вернее, там есть несколько линий, но на них много висит. МЧС и цеплялось на конкретные линии.
Исторически сложилось.
Проще индивидуально дома запитывать. Но их много.
sim2q
22.09.2018 00:22+1Московский блэкаут в 2005 запомнился как лампочки накаливания плавно почти гасли и также плавно зажигались в течении довольно продолжительного времени.
Ужас админа в звуке раскручивающихся hdd и тут же падении…JerleShannara
22.09.2018 01:15Я тогда лицезрел как ИБП играют в сварщиков. Один намертво приварил реле в терпимой конфигурации, а у второго они сварились в очень плохой режим.
sim2q
22.09.2018 02:25сварились в очень плохой режим.
из серии «запитать UPS-ом весь район»JerleShannara
22.09.2018 02:48Как мне тогда рассказали(я тогда мало соображал во всём, что круче чем line-interactive 1KVA), то там упс сначала прифигел от прыгающей нагрузки, сварил какую-то мелочь, а вот далее сварилось реле байпаса… Первый труп был смарт 1000, там просто сварились реле AVR-а
Gromazeka13 Автор
21.09.2018 09:05напряжение шло вниз
полагаю, что генератор просто снижал частоту сети по перегрузке, выходил из синхронизациии, в результате чего ИБП определяли выход параметров сети из диапазона «ок». Кроме того кондеи дают неравномерные нагрузки при пуске компрессоров. А вообще для таких ситуаций предусматриваются либо отдельные секции во ВРУ для ответственных потребителей, либо в крайнем случае ставятся автоматы с независимыми расцепителями, которые удаленно гасят все кондеи при переходе на ДГУ.
Тут еще, вероятно, ИБП пытались «отожрать» свою долю на заряд батарей, не взирая на работу от ДГУ. (если конечно не была реализована функция блокировки заряда батарей при работе на генераторе)
Jenix
22.09.2018 13:42О, классика! Продавец, который не разбирается в товаре сам, но насмехается над покупателем. )))
Посмотрите все!!! Картинка — 220 В синусоида. А должно быть — 310 В.
Автор поста даёт типа советы, но сам не разбирается в электричестве. Причём в основах. Предвижу его возражения — «я не обязан разбираться, это слишком глубокие знания» ))
Да блин, это знает каждый электрик, а уж тем более радиоинженер.
Максимальное напряжение сети 220 В равно не 220, а 310 вольт в амплитуде. А размах — 620 вольт.
220 вольт — это тепловое воздействие (эффективное) или интегральное за целый период синусоиды с амплитудой 310 вольт…
Это же основы, блин! Я не сомневаюсь, что автор — бывший или реальный программист. )
PS… Не программист, а эксперт… бл… иин! ;-( я разочарован.
Gromazeka13 — Олег Куликов —
Электромонтер, электромонтажник, техник-приборист КИПиА, инженер, дежурный инженер автоматических линий, инженер-проектировщик систем электроснабжения (0,4-6-10кВ), ГИП по электроснабжению, ведущий инженер-проектировщик (ЦОД), ГИП, эксперт в области инженерных систем и систем электроснабжения
Регистрационный номер в Национальном Реестре Специалистов…Alexsandr_SE
22.09.2018 22:28-1Приборы рассчитаны на 220 средних, а не на выпрямленное напряжение. Поэтому вполне корректно и нормально показывать 220 синусоида. Это же переменное напряжение. А вот когда прибор покажет 310 синусоида 50Гц — наступает кирдык большей части оборудования.
Jenix
23.09.2018 00:22+1ваши рассуждения корректны (более-менее) только для индикаторов (стрелочных или цифровых с детектором — пиковым или эффективным).
Но для картинки синусоиды (например на осциллографе) — нет. Здесь явная ошибка в рассуждениях.
Или вы курс метрологии (наука об измерениях) не проходили? )
Поэтому вот это вот
220 средних, а не на выпрямленное
для человека хотябы со второго курса ВУЗа уже становится смешным.
среднее там или выпрямленное — это зависит исключительно от детектора (и потому неприменимо к осциллоскопу и картинке синуса).
А шкала (стрелочная или цифровая) приводится к значению по коэффициенту формы сигнала. Этих коэффициентов вообще даже ДВА )))
Коэфф. детектора (коэфф.амплитуды) и коэфф. формы сигнала.
(например коэфф пикового детектора всегда 1, а коэфф формы сигнала (градуировка шкалы) для меандра 1, а для синуса 0,707 — как в нашем случае 310 и 220)
Но в данном случае (про картинку) как ни крути — рассуждения и картинка — либо ошибочны по невнимательности, либо по полной безграмотности.
fessmage
Критически важно не только накидать дублирующее оборудование в серверной, но и обеспечить: