Потребители услуг ЦОД всегда предъявляют серьезные требования к инфраструктуре, проверяют проект, сертификаты, фактические уровни резервирования, проводят аудиты процессов эксплуатации, убеждаясь, что ЦОД соответствует заявленному уровню надежности, и в итоге платят за эту надежность немаленькие деньги.  Однако есть важные моменты, которые нередко оказываются упущенными из вида, а их игнорирование может обесценить все преимущества отказоустойчивой инфраструктуры ЦОД.

В данной статье мы собрали список вопросов, на которые обязательно нужно обращать внимание при размещении оборудования в ЦОД.

1. Недостаточное внимание к надежности сетевой инфраструктуры

Как отключение системы гарантированного электропитания ЦОД, так и сбой на сети передачи данных приводят к одному и тому же результату – недоступности оборудования, размещенного в ЦОД. То есть эти события сопоставимы по уровню потенциального ущерба для бизнеса клиента. Однако надежности сетевой инфраструктуры часто уделяется намного меньше внимания, чем надежности инфраструктуры ЦОД.

Авария на сети передачи данных может быть вызвана как неисправностью сетевого оборудования, связанным, например, с выходом из строя единственного, незарезервированного блока питания, так и человеческим фактором, например ошибочное отключение одного незарезервированного патч-корда, неаккуратные действия в стойке, деструктивное воздействие экскаватора на кабель, проложенный в кабельной канализации по единственному маршруту.

Для минимизации этих рисков мы рекомендуем убедиться, что:

  • Связь с оборудованием в ЦОД вам обеспечивают надежные провайдеры, в договорах с которыми явно описаны параметры предоставляемых услуг и финансовая ответственность за отклонение от них (Service Level Agreement, или SLA).

  • Сетевое оборудование на всех участках трассы (а не только в ЦОД) имеет два блока питания, а если это невозможно, то зарезервировано другими применимыми способами.

  • Все критическое оборудование, размещенное в ЦОД, подключено по двум каналам связи.

  • Доступность этих каналов связи постоянно контролируется.

  • Пропускной способности одного канала достаточно для качественной связи с оборудованием, размещенным в ЦОД.

  • Периодически выполняются тесты аварийных ситуаций на сетевой инфраструктуре с отключением одного из двух каналов связи.

  • Каналы связи организованы по волокнам, физически находящимся в разных кабелях, проложенных по непересекающимся маршрутам кабельной канализации.  В нашей практике были случаи, когда провайдер предоставлял два канала связи, но они были проложены мало того, что в одной канализации, так еще и в одном кабеле. Понятно, что такое решение не обеспечивает никакого резервирования в случае физического повреждения кабеля, причем по нашему опыту именно уличная часть трассы кабеля довольно часто повреждается строительной техникой и является основной зоной риска.Вероятность повреждения кабеля на территории ЦОД значительно ниже, однако это не отменяет необходимости разнесения кабельных трасс и внутри ЦОД.

    Для решения этих задач ЦОД со своей стороны должен предоставить потребителю инфраструктуру для организации отказоустойчивой связи, а именно: кабельные лотки внутри ЦОД, позволяющие проложить к любой стойке две линии связи по независимым маршрутам, две кабельные комнаты, не менее двух трасс кабельной канализации от ЦОД до основных точек обмена трафиком вашего города, по которым провайдеры услуг связи проложат свои кабеля в ЦОД.

2. Игнорирование лимитов электрических нагрузок и веса оборудования

В статье про парные нагрузки мы подробно разобрали вопрос важности контроля парных нагрузок, в том числе пользователем оборудования внутри стойки. Стоит добавить, что при подсчете общей мощности стойки желательно учитывать пиковые нагрузки, например возникающие при запуске оборудования или в час наибольшей нагрузки (ЧНН). Клиенты часто фокусируются на контроле уровня потребления выделенных им киловатт на стойку (мы называем это «коммерческий» лимит) и не обращают внимания на выделенные им лимиты потребления тока в амперах («технический» лимит), а именно при превышении этого показателя срабатывают автоматические выключатели BANK PDU, номиналы которых указаны в амперах. 

Многие клиенты также забывают, что в ЦОД часто есть лимиты веса оборудования, размещенного в стойке. Эти лимиты обусловлены допустимой нагрузкой на фальшпол и перекрытие машзала, особенно если он расположен на втором этаже и выше. Этот лимит необходимо заранее учитывать при планировании размещения оборудования, так как в ЦОД ведется контроль суммарного веса оборудования в каждой стойке и вам могут отказать в размещении оборудования сверх лимита. Последствия пренебрежения данными лимитами выглядят примерно вот так:

A picture containing text, screenshot, night

Description automatically generated

Мы рекомендуем заранее прочитать договор с выбранным вами ЦОД, изучить указанные там лимиты и следовать им.

3. Неверное подключение оборудования к PDU

Ошибки, допускаемые на этом этапе, наверное, самые общеизвестные. Для профилактики в наших ЦОД мы доводим информацию на доступном онлайн вводном инструктаже, а внутри ЦОД дополнительно используем наглядную агитацию в виде плакатов в каждой серверной.

A diagram of a computer

Description automatically generated with low confidence

Прокомментируем типовые ошибки при подключении:

  • Неверное подключение кабелей вводов А и Б к PDU и использование оборудования с одним блоком питания. Как и в случае с одним каналом связи, это обесценивает все затраты на защищенную инфраструктуру ЦОД. Многие считают, что питание в стойке должно быть постоянно на двух вводах. Это не так, ЦОД гарантирует постоянное питание только на одном из вводов электропитания в стойку. Задача пользователя – корректно подключить оборудование, чтобы при отключении одного из вводов оборудование в стойке продолжило работать от второго ввода.

    Для устройств с одним блоком питания допускается применение устройства автоматического ввода резерва (АВР) для минимизации рисков, однако следует понимать, что сам АВР (а это сложное техническое устройство, управляемое программой, которая способна зависнуть), единственный кабель питания от АВР к устройству и единственный блок питания устройства – это точки отказа, не имеющие резерва. АВР, хотя и обеспечивает снижение рисков, не может считаться полноценной заменой оборудованию с двумя блоками питания.

  • Игнорирование и несоблюдение лимитов парных токов.

  • Подключение кабелей питания оборудования в разноименные BANK разных вводов сохранит вам уровень резервирования между PDU А и Б, но не позволит корректно вести мониторинг парных токов между банками PDU (вообще разумно и логично всегда подключать кабели одного оборудования в «зеркальные» гнезда PDU A и B, тогда такая ошибка исключена).

4. Размещение оборудования в стойке без учета особенностей системы охлаждения, принятой в ЦОД

Как известно, изолированными в ЦОД могут быть как холодные, так и горячие коридоры. И хотя в большинстве ЦОД традиционно изолированными являются холодные коридоры, надо уточнить этот вопрос до заказа оборудования, а потом следует верно установить его в стойку. У большинства вендоров есть возможность выбора направления вращения вентиляторов, и этот параметр надо учитывать при заказе оборудования.

A picture containing text, electronics, electronic engineering, circuit

Description automatically generated

Встречаются также экзотические варианты оборудования с подачей воздуха сбоку, что, конечно, является неоптимальным решением для ЦОД с любой схемой охлаждения.

Airflow Through
the EX4200 Switch Chassis

 Крайне нежелательно:

  • Применять оборудование со схемой охлаждения, отличной от схемы охлаждения, принятой в ЦОД (забор воздуха сбоку, в обратном направлении и т.п.).

  • Устанавливать оборудование в неверном направлении, то есть «задом наперед», тогда забор воздуха будет из горячего коридора, а выдув в холодный.

  • Применять оборудование в конструктиве, отличном от общепринятых размеров оборудования в ЦОД. Обычно в ЦОД применятся оборудование либо в формфакторе для установки в стандартную 19-дюймовую стойку, либо в формфакторе непосредственно стойки. Различные решения для «бытового» использования и видеокарты для майнинга не являются стандартными решениями и не позволят качественно изолировать зоны вокруг себя и эффективно направить потоки воздуха для охлаждения.

  • Оставлять незакрытыми свободные юниты в стойке. Обычно заглушки «blank panels» для юнитов всегда доступны в ЦОД. Проблема может возникнуть, например, когда пользователь оборудования прокладывает кабели к оборудованию через свободный юнит, а не сбоку, в таком случае юнит невозможно закрыть заглушкой.

  • Загромождать пути подачи холодного и выброса горячего воздуха. Например, на фото ниже, сделанном тепловизором, вы видите, что позади оборудования плотно проложены косы кабелей СКС, явно мешающие отводить горячий воздух от оборудования. Воздух отражается от них и возвращается в холодный коридор через незакрытые юниты. Это классический пример так называемого «короткого замыкания» воздушного потока. Если закрыть пустые юниты над оборудованием, ситуация улучшится несильно, пути отвода тепла все так же будут перекрыты и вентиляторы устройства могут не справиться с прокачкой требуемого объема воздуха.

A picture containing text, circuit, colorfulness, electronics

Description automatically generated
  • Оставлять элементы упаковки и защитного поролона в смонтированном в стойку оборудовании. Очевидно, что посторонние предметы мешают воздуху охлаждать оборудование, однако на практике такое действительно происходит.

В любом из перечисленных случаев ЦОД не будет принимать претензии к нарушению SLA по параметрам воздуха, подаваемого к оборудованию.

5. Отсутствие ответственного сотрудника со стороны потребителя услуг ЦОД

На стороне потребителей услуг ЦОД находится значительный объем вопросов, критически влияющих на итоговый уровень отказоустойчивости. Важно, чтобы со стороны потребителя услуг ЦОД был назначен сотрудник (а лучше и его заместитель), ответственный за инфраструктуру, размещенную в ЦОД. В обязанности такого сотрудника должно входить отслеживание всех указанных выше аспектов и постоянный контроль монтажа и параметров работы своего оборудования и качества услуг, предоставляемых ЦОД (выполнения SLA). Данный сотрудник решает все оперативные вопросы по взаимодействию с ЦОД, ведет переписку, заводит заявки в службу поддержки ЦОД, реагирует на письма от ЦОД, например касательно превышения парных нагрузок.

Если такой сотрудник не был назначен, возникают ситуации, когда с одним и тем же оборудованием работают разные специалисты, выполняющие узкие задачи и не всегда в полной мере осведомленные о требованиях и ограничениях, действующих в конкретном ЦОД, а письма с рекомендациями и уведомлениями от службы поддержки ЦОД не попадают своевременно ответственным лицам. Подобная ситуация наиболее характерна для компаний, имеющих множество точек размещения в разных ЦОД и большой штат инженеров без четкого распределения по объектам.

Также в обязанности этого сотрудника входит ведение документации по оборудованию, размещенному в ЦОД, и каналам связи к нему.  Мы часто сталкиваемся с ситуацией, когда одна ИТ-команда покидает компанию, разместившую оборудование в ЦОД, а новые сотрудники изучают свою инфраструктуру с начального уровня, не имея никакой документации и схем от старой команды.

Заключение

Мы попытались максимально подогнать эту статью к формату чек-листа, который вы могли бы использовать для проверки своих знаний и организации рабочих процессов. Если какие-то пункты вызывают у вас сомнения, попросите сотрудников ЦОД провести аудит подключения или размещения оборудования в вашей стойке. ЦОД всегда заинтересован в таких проверках.

Любой сбой ведет к затратам времени на расследование инцидента и его причин командой ЦОД. Если сведения о сбое попадают в публичное инфополе, то для ЦОД возникает еще и риск репутационных потерь: сторонние наблюдатели, зная или предполагая, услугами какого ЦОД пользовалась компания, могут сделать ошибочные выводы о виновной в отказе инфраструктуры стороне. Лучшая защита от таких ситуаций – профилактическая работа с потребителями услуг ЦОД для недопущения описанных выше ошибок.

Спасибо за внимание, надеемся, что статья была вам полезна.

Комментарии (2)


  1. 13werwolf13
    26.06.2023 11:39

    Отсутствие ответственного сотрудника со стороны потребителя услуг ЦОД

    никогда бы не поверил если бы не столкнулся сам.. оказывается бывает и наоборот:

    ночь, просыпаешься от аллерта, весь ЦОД недоступен. продираешь глаза, заводишь автомобиль и прежде чем выбегать из дома набираешь номер пропечатанный в договоре.
    А там тебе удивлённо "ЦОД? Какой ЦОД?" и дальше всю дорогу переводят с одного КАЛл центра на другой и в итоге оказываешься на месте быстрее чем куда-то дозваниваешься.
    Ну а на следующий день выясняешь что в вашем городе для обслуживания ЦОД'а не осталось сотрудников.. кто-то уволился, кого-то уволили, отдел расформировали.. а что же клиенты.. ой, не подумали как-то.. (и да, речь не про маленького мищанского хостера, а про одну из самых крупных контор в России).


  1. KNagorny Автор
    26.06.2023 11:39

    Здравствуйте. Долго думал, что ответить. Хотя вроде бы вопроса в Вашем комментарие нет, но история совсем не приятная. Вы описали какой то безлюдный мир постапокалипсиса с пустыми зданиями..... Я мог себе представить ситуацию, когда ЦОД поменял контакты поддержки, а не все клиенты были уведомлены, на крайний случай, мог представить, что понизилась квалификация персонала ЦОД после смены команды эксплуатации ЦОД, но что бы для обслуживания ЦОД не осталось людей.... это конечно не приемлемо для индустрии, тем более что и коммерческие ЦОДы обеспечивают в том числе социальную инфраструктуру, то есть их работа влияет не только на клиентов, но и на потребителей услуг клиентов ,а это очень много людей... Одним словом ужасная история, надеюсь такие истории в Вашей практике повторяться не будут. Мы такого в своих ЦОДах не допускали и не допустим никогда...