Мы уже рассматривали мониторинг дата-центров на примере DataLine, когда оператор ЦОД самостоятельно разработал и внедрил систему мониторинга. Но есть и другой подход: можно отдать разработку и внедрение системы мониторинга на аутсорсинг. С таким примером сегодня и познакомим читателей.
Наша цель — дата-центр компании МИП Бонч АйТи в стенах Санкт-Петербургского государственного университета телекоммуникаций, в который компания ЦОДУМ внедрила систему мониторинга. В статье поговорим о том, почему необходим мониторинг, какие задачи он решает и как работает на практике. Мы покажем систему мониторинга в работе, а также проведем экскурсию по дата-центру.
Рекомендуем посмотреть видеоролик с докладом Константина Струлева из ЦОДУМ, где подробно рассмотрена теоретическая основа мониторинга. В статье она изложена лишь вкратце.
Видео: построение комплексного мониторинга ЦОД для чайников
Зачем нужен мониторинг?
Вроде бы, ответ на этот вопрос очевиден: объект должен работать в режиме 24/7 без простоев и потерь, связанных с ними. Причиной простоев могут быть отказы инфраструктуры, сбои оборудования — все это система мониторинга должна видеть и быстро реагировать, чтобы сотрудники устранили неисправность. А если сбои оборудования получится предсказать — будет вообще отлично.
Но есть и второе преимущество: оптимизация затрат на ресурсы (электричество, вода, газ). Это тоже задача системы мониторинга, и здесь организация может сэкономить от 2,5% до 6-7% после внедрения системы мониторинга. Интересно, что сюда отлично вписывается машинное обучение — по имеющимся данным программное обеспечение может строить тренды потребления ресурсов и анализировать их. Анализ позволит принимать управленческие решения, которые позволят сэкономить еще больше.
Наконец, третье преимущество системы мониторинга — это автоматизация процессов. Если произошел какой-то инцидент, то его причины тщательно исследуются. Цель заключается в том, чтобы подобных инцидентов больше не было. Если для этого необходимо ввести какие-либо алгоритмы действий, то их вводят. Причем желательно, чтобы они выполнялись без участия человека, то есть автоматически. Подобная автоматизация позволяет не допустить потенциальной человеческой ошибки.
Немного теории
Как мониторинг сказывается на экономике оператора ЦОД?
Давайте посмотрим на мониторинг с финансовой стороны. Цель мониторинга — предупреждать о «плохих» событиях, которые могут повлиять на прибыль.
Оператор ЦОД зарабатывает деньги (выручка), часть уходит на затраты – остается прибыль. К «плохим» событиям мы отнесем как уменьшение выручки, так и рост затрат.
С чем может быть связано уменьшение выручки? Например, у оператора стала «утекать» клиентская база из-за «проседания» качества. Клиенты попросту уходят к другому оператору с лучшим качеством за те же деньги. Возможно, упала доступность сервисов. Либо ухудшились тарифы. Если проанализировать причины уменьшения выручки, то могут появиться инженерные зацепки, с которыми уже можно работать дальше.
Рост затрат может быть связан с увеличением потребления ресурсов. Например, увеличилась нагрузка на ЦОД, он стал больше расходовать воды для охлаждения. Или возникла утечка — часть воды «уходит в природу», хотя ЦОДу хватает, и он работает нормально.
Что должна отслеживать система мониторинга?
Выше мы рассказали о преимуществах, которые дает система мониторинга, и о том, как она влияет на экономику оператора. Но что должна отслеживать система мониторинга?
Начнем с типичного подхода инженера, который встречается во многих ЦОД: нужно мониторить климатические параметры, функционирование инженерной инфраструктуры, появление протечек и наличие электричества. Это, вроде бы, правильно, поскольку упомянутые системы действительно критические важные. Но мониторинг их по отдельности не сможет решить поставленную задачу в целом. Будут возникать различные «подводные камни», появляться новые факторы, сложность такой системы может расти, как снежный ком. И она все равно будет плохо работать.
А как правильно? Что и как нужно мониторить? Универсального ответа не существует, поскольку все ЦОД отличаются. Но ЦОДУМ сформулировал методику, которая поможет ответить на этот вопрос в каждом конкретном случае.
Здесь поможет сервисно-ресурсная модель ЦОД в виде пирамиды. Сверху располагаются приложения, ради чего ЦОД и существует. Ниже — IT инфраструктура, еще на слой ниже – сетевая инфраструктура. Затем идет слой ресурсов инфраструктуры площадки (бесперебойное электроснабжение, климат). И самая нижняя часть — ресурсы площадки (вода, газ электричество и т.д.).
В пирамиде выход из строя оборудования на любом уровне влечет сбой вышестоящих уровней. Чем ниже уровень, на котором произошел сбой, тем разрушительнее он для пирамиды.
То есть в комплексном мониторинге ЦОД нельзя ограничиваться каким-то одним уровнем. Нельзя, как при чисто инженерном подходе, замониторить только электроснабжение, протечки и климат. Даже если добавить к ним мониторинг IT-ресурсов и приложений, это не даст полной защиты и надежности. А даст иллюзию защиты, что бывает еще хуже.
Вывод простой: мониторить надо всю пирамиду, начиная с нижнего уровня.
Как сделать систему мониторинга?
Мы разобрались с тем, что должна отслеживать система мониторинга. Но как ее построить? Здесь поможет алгоритм из семи шагов.
Алгоритм из семи шагов
Начнем с первого шага — технической реализации. Здесь следует внимательно рассмотреть всю техническую структуру ЦОД. Из чего она сделана, как соединена? Что насчет надежности ее составляющих? Какие компоненты требуют постоянного обслуживания и как давно оно было сделано? Что может выйти из строя?
Пример: в одном из ЦОД кондиционеры толком не обслуживались шесть лет. Фильтры сотрудники худо-бедно меняли, но по итогам проверки были выявлены кондиционеры вообще без фреона, а проблемы с маслом были у всех.
Внешние угрозы — это внешние факторы, помимо инженерной инфраструктуры, рассмотренной выше. Все окружение ЦОД может быть враждебным: кто-то или что-то может отключить ресурсы, сломать технику и т.д. Здесь нужно быть немного параноиком, чтобы учесть все возможные угрозы.
Пример: в ЦОД буквально с потолка стала литься вода. Причина — в неучтенной водопроводной трубе, которая была замурована в стену. По чертежам труба нигде не значилась, ее проложил предыдущий владелец помещения. В итоге произошла авария. Еще одна вполне типичная ситуация — протечка ливневой канализации или стояков системы отопления.
Признаки наступления события — как узнать, если что-то случилось? По каким признакам можно определить наступление события? Например, погас свет в помещении или появилась вода.
Также важно оценивать процессы деградации или изменения признаков по времени. Если зимой на уличной площадке появляется снег — это нормально. Но если снег не убирают и он накапливается — это уже ненормально.
Еще один важный аспект: можно ли предугадать наступление события заранее?
Способы обнаружения — этап, логично вытекающий из признаков наступления. Как технически можно определить наступление события, то есть по каким признакам? Достаточно ли существующего оборудования для этого или нужно добавить датчики? Какие значения говорят о случившемся инциденте? Например, напряжение 220-230 В — это хорошо? А если 200 В? А если 180 В? Все измеряемые параметры должны быть регламентированы.
Инцидент случился. Что нужно делать и кому? Есть ли в организации регламент действия сотрудников? Грубо говоря, кто куда бежит и кто перекрывает кран. Важный момент — что можно сделать автоматически, чтобы исключить человеческий фактор. На что могут повлиять эти действия?
Например, случился пожар, но не в ЦОД, а в другом крыле здания. В результате пожарные обесточили здание целиком и стали проливать его с крыши. Все это тоже нужно по возможности учитывать и продумать механизм компенсации подобных воздействий.
Следующий шаг: оповещение об инциденте. Кому и в какой форме должны быть отправлены оповещения? Насколько они должны быть полными? И как понять, что адресат получил информацию? Полнота информации здесь может быть важным фактором, поскольку позволит принять то или иное управленческое решение.
Последний этап — внедрение процессов системы мониторинга. Процессы позволяют реагировать на каждый инцидент, начиная от этапа возникновения и заканчивая контролем устранения.
Мы определились с набором источников данных и метрик. Описали систему состояний и триггеров для этих метрик. Добавили визуализацию, что тоже важно. У нас работает система оповещений, есть контроль за выполнением процессов. Но достаточно теории, переходим к практике!
Строим мониторинг в дата-центре
Изначально в дата-центре МИП Бонч АйТи в стенах Санкт-Петербургского государственного университета телекоммуникаций была система мониторинга отдельных параметров, но комплексной картины не было. Какие шаги сделала компания ЦОДУМ и что получилось в итоге?
Что сделала ЦОДУМ?
На первом этапе специалисты оценили угрозы: где этот ЦОД расположен, из чего сделан, что может сломаться и что может угрожать функционированию.
Второй этап: поняли, как и чем определять, снабдили систему источниками информации. На иллюстрации выше показаны установленные датчики. Ниже во время экскурсии мы все их внимательно рассмотрим.
Были расписаны события, реакции, оповещаемые лица и т.д. Этот процесс специалисты дата-центра взяли на себя.
Подведем краткий итог. Если брать только инженерные системы, то список задач был следующий:
мониторинг температуры в холодных и горячих коридорах, щитовой;
оповещение о протечках в контролируемых зонах;
контроль наличия и качества электроэнергии на вводах, на групповых линиях питания стоек, климатического оборудования.
Пора перейти к экскурсии, где мы покажем, как все сделано на самом деле.
Экскурсия по дата-центру: автозал
Мы начали посещение с автозала. Для охлаждения здесь установлены кондиционеры Schneider Electric, между стойками чередуются горячие и холодные коридоры. Сделан фальш-пол, через который идет приток воздуха от кондиционеров в холодные коридоры. В горячих коридорах воздух забирается сверху.
Горячие коридоры требуют не такого пристального контроля, поэтому там установлены три датчика на мостиках выше стоек. Датчики разные: один WB-MSW V.3 по центру, два WB-MSW V.2 по краям.
В холодном коридоре контроль нужен более тщательный, поэтому датчиков намного больше. Хотя оснащены ими не все стойки: через одну справа и слева, причем в шахматном порядке. То есть напротив неизмеряемой стойки всегда расположена стойка с датчиками.
На каждую дверь стоек с мониторингом установлены три датчика: по центру WB-MSW V.2, а сверху и снизу - 1-WIRE DS18B20.
В отдельной стойке установлен контроллер Wiren Board, модули сухих контактов WBIO-DI-WD-14 и WB-MCM16, счетчики электричества WB-MAP3H, WP-MAP6S и WB-MAP3E. На сухие контакты заведены датчики протечки Гидролок, датчики открытия/закрытия дверей — контролируются все стойки, щиты, входные двери. Кроме того, к сухим контактам подключены выходы пожарной сигнализации, которая оповещает о выключенном состоянии или пожаре.
На входе питания каждой стойки установлены трансформаторы тока, что позволяет контролировать характеристики электропитания стоек.
В выходных каналах кондиционеров установлены термодатчики 1-WIRE DS18B20, дополнительные WB-MSW V.2 контролируют температуру под фальш-полом.
Контроллер Wiren Board отвечает за сбор показаний с устройств Modbus, мониторинг кондиционеров и ИБП выполняется через SNMP.
Экскурсия по дата-центру: щитовая
В главном распределительном щите расположены три трехфазных ввода: два — от сетей, один — от собственного дизель-генератора. Мощность каждого ввода такова, что он может принять всю нагрузку ЦОД, на момент посещения она была около 70 кВт. По вводам идет контроль потребления через трансформаторы и счетчики WB-MAP3H. Как мы отмечали выше, у щита есть датчик открытия (сухой контакт).
Мы посмотрели щиты гарантированного и негарантированного питания. Здесь тоже установлены счетчики WB-MAP3H, проводятся измерения параметров ввода, а также измерения на выводах для каждого потребителя щита. Конечно, есть датчики открытия.
В щитовой климат тоже контролируется с помощью двух датчиков WB-MSW V.2 на потолке, а также температура около аккумуляторов — с помощью 1-WIRE DS18B20.
Дашборд мониторинга
Экскурсия проведена, настало время посмотреть на дата-центр через дашборд Smart DCIM, как его видят обслуживающие специалисты.
В итоге специалисты дата-центра получили новый инструмент мониторинга. На картинке — его главный экран. Система гибкая, полностью настраивается под требования заказчика, поэтому в других дата-центрах могут быть отличия.
Обратите внимание на рабочие места вверху: дежурного смены, энергетика, специалистов по климату и безопасности. В отличие от дашборда в рабочих местах есть контролы для выполнения действий, а не только наблюдение. Можно создавать любые рабочие места в зависимости от требований заказчика.
При выборе рабочего места выводится «вид сверху», позволяющий с первого взгляда оценить, все ли в порядке. Если с объектом (например, стойкой) что-то не так, то можно на нее нажать и «провалиться» в более глубокое меню. В рабочем месте дежурной смены красным показаны открытые двери и датчики температур — система в ноябре 2022 только настраивалась, поэтому были критические уровни. Когда мы посещали дата-центр в конце марта 2023, все температуры были уже в зеленой зоне.
Здесь мы «провалились» внутрь стойки. Можно посмотреть температуры всех трех термодатчиков и влажность. Выводятся графики изменения показаний по времени.
Можно посмотреть параметры ИБП и системы кондиционирования (в рабочем месте специалиста по климату). Обратите внимание на температуру воздуха в помещении автозала (ноябрь 2022) и уставку 18 °C.
А вот этот скриншот рабочего места специалиста по климату на конец мая 2023. Благодаря системе мониторинга удалось выявить существовавшие проблемы охлаждения, они были устранены. В итоге получилось достичь целевых температур в стойках при большей уставке 23 °C. Кондиционеры работают менее интенсивно, что позволяет экономить энергию.
А вот, кстати, и проблемы, которые были выявлены. Слева — тепловая карта всего ЦОД, вид сверху, справа — тепловая карта фасадов стоек в холодном коридоре. В некоторых стойках не хватало заглушек, либо компоненты были развернуты не в ту сторону.
А это тепловая карта на момент посещения в мае 2023. Система охлаждения сбалансирована, оборудование клиентов ЦОД хорошо охлаждается, несмотря на более высокую температуру в помещении.
В интерфейсе системы доступно большое число параметров, позволяющих анализировать работу всех инженерных систем. Можно посмотреть изменения по времени, вывести список тревог и оповещений.
Интересно, что в интерфейс системы мониторинга можно добавить другие web-интерфейсы, например, контроллера Wiren Board. Специалистам дата-центра не придется открывать отдельный интерфейс — все уже удобно интегрировано.
Заключение
Дата-центр должен работать в режиме 24/7 без каких-либо сбоев, поэтому на системе мониторинга экономить не стоит. В статье мы показали, как компания ЦОДУМ подходит к проектированию и внедрению систем мониторинга. Затем мы посетили дата-центр компании МИП Бонч АйТи в стенах Санкт-Петербургского государственного университета телекоммуникаций и поделились виртуальной экскурсией с читателями. Надеемся, она была интересной.
А что вы думаете о мониторинге дата-центров? Расскажите в комментариях, что используется на вашей площадке. И что можно улучшить в приведенном решении?
wofs
Интересно, ни одного комментария — статья неинтересная, или всё написано очень понятно и нечего дополнить? :)