Почтовый сервис Mail.Ru, платёжная система Qiwi, социальная сеть «ВКонтакте», крупнейший хостинг-провайдер Европы OVH — все они столкнулись с серьёзными сбоями в работе центров обработки данных. Компании не только потеряли деньги из-за выхода оборудования из строя, но и понесли репутационные потери. В этом посте мы расскажем о том, как защитить ЦОД от подобных угроз.

Причиной поломки или аварии в центре обработки данных может стать что угодно — от высоких нагрузок на серверы до несоблюдения техники безопасности. Так, в ЦОДе DataLine в Москве в 2019 году причиной пожара стало короткое замыкание в системе кондиционирования, а прошлогоднее отключение ряда функций «ВКонтакте» произошло вследствие перегрева серверного оборудования. Центры обработки данных компании OVH пострадали из-за неполадок в системе бесперебойного питания.

Столь серьёзные форс-мажоры случаются не каждый день — обычно поломки бывают менее критичными. Тем не менее, эта проблема очень распространена: по данным проведённого ресурсом «Цоды.рф» опроса, почти 80% компаний сталкивались с прерыванием работы сервисов из-за сбоев в работе ЦОДа. Решение, которое помогает предотвратить сбои или минимизировать их последствия — постоянный мониторинг инженерной инфраструктуры.

Каким бывает мониторинг ЦОД?

Чаще всего центры обработки данных применяют полуавтоматический или же полностью автоматический подход к мониторингу.

При полуавтоматическом мониторинге ответственный специалист или группа постоянно следят за показателями всех датчиков, расположенных в ЦОДе, — от датчиков температуры и влажности до сенсора пролива охлаждающей жидкости на пол — и оперативно реагируют, когда эти показатели выходят за пределы нормы. Недостатки такого подхода — высокооплачиваемый ручной труд, необходимость постоянного присутствия специалистов в ЦОДе, а также отсутствие инструментов для хранения исторических данных и их анализа. Сотрудники лишь реагируют на проблемы, но не имеют возможности выявлять закономерности их появления.

Автоматический мониторинг проводится удалённо, а сбором и обработкой данных с датчиков занимается облачная платформа, она же показывает их оператору в удобном формате. Чтобы получить доступ к данным, достаточно подключиться к платформе с любого компьютера или мобильного устройства с доступом к сети. При подобном подходе сокращается количество специалистов, необходимых для обслуживания системы. Кроме того, операторы могут работать удалённо — это стало особенно актуально сейчас, когда компании вынуждены функционировать в условиях карантинных ограничений.

Преимущества удалённого мониторинга ЦОДов

Удалённый контроль состояния оборудования в центре обработки данных позволяет сделать обслуживание более эффективным: оператор получает информацию о состоянии инфраструктуры до того, как на место отправится механик. Это поможет существенно сэкономить, если ЦОД находится в другом городе.

Важное преимущество облачной платформы — длительное хранение данных. Изменения того или иного показателя можно отслеживать в течение определённого периода времени чтобы выявлять неполадки.

Пример из практики: Eaton поставил крупному заказчику, ЦОДу в Финляндии, несколько источников бесперебойного питания, соединённых с системой удалённого мониторинга. Со временем система стала фиксировать постоянное превышение температуры в ЦОДе. Оказалось, перестала работать система кондиционирования, а её датчики не сработали. Выявить проблему до того, как она стала критической, позволил всесторонний удалённый мониторинг.

В дополнение к информированию о состоянии оборудования здесь и сейчас систему можно научить формировать прогнозы относительно срока службы оборудования и его обслуживания. Для этого нужно интегрировать платформу с инструментами машинного обучения и искусственного интеллекта.

Наконец, с удалённым мониторингом работа центра обработки данных становится максимально прозрачной: владельцы бизнеса и топ-менеджеры могут самостоятельно в любой момент и из любой точки мира получить информацию о состоянии оборудования.

Как работает система удалённого мониторинга?

Своевременно и точно оповещать об инцидентах системе позволяет «красная зона» — набор показателей, которые свидетельствуют о чрезвычайных событиях. Как только показатели «краснеют», система автоматически рассылает оповещения об этом ответственным сотрудникам. Важно настроить оповещения так, чтобы их было не слишком много. Если система будет рапортовать о даже самых незначительных отклонениях, такие сообщения станут обыденностью и специалисты пропустят действительно важный сигнал.

 Для того, чтобы картина состояния оборудования в ЦОД была полной, рекомендуется отслеживать три основные группы параметров:

  1. Параметры окружающей среды — температура, относительная влажность, состав воздуха — позволяют отслеживать корректность работы систем кондиционирования и охлаждения;

  2. Параметры источников бесперебойного питания — напряжение каждой ячейки батареи, общее напряжение батареи, потребляемый ток, потребляемая мощность, состояние ИБП — дают возможность спрогнозировать необходимость обслуживания или замены ИБП;

  3. Параметры работы серверов — загрузка, сетевой трафик — их помощью можно понять, как более эффективно использовать вычислительные мощности центра и не допустить их перегрузки.

Частота сбора показателей зависит от параметра. Если электропитание следует измерять не реже раза в секунду, то температуру и влажность можно контролировать каждые 10‑15 минут. Системы удалённого мониторинга позволяют настроить частоту сбора данных вручную.

Потенциальные недостатки систем удалённого мониторинга

Для того, чтобы система удалённого мониторинга работала эффективно, следует изучить её уязвимости: это поможет предотвратить сбои в работе.

Во-первых, в системе могут быть ошибки, появившиеся в результате действия человеческого фактора, — ошибки разработчиков. От ошибок, конечно, никто не застрахован, но в системах, разработанных надёжными и опытными компаниями, шанс этого ниже.

Во-вторых, есть вероятность вторжения в информационную инфраструктуру ЦОД с целью похищения данных или нарушения работы критически важной инфраструктуры. Чтобы эту вероятность минимизировать, необходимы технические меры защиты — например, двухфакторная аутентификация при входе, своевременное обновление ПО, использование ПО для обеспечения кибербезопасности и в целом применение наиболее эффективных методов защиты ИТ- и ОТ-инфраструктуры.

В-третьих, через систему удалённого мониторинга не получится управлять оборудованием и вычислительной инфраструктурой ЦОД, поскольку данные передаются только в одном направлении: от оборудования в облако. Самый большой риск — подмена данных и в связи с этим отсутствие надлежащей реакции на инциденты.

Система удалённого мониторинга — оптимальный инструмент для отслеживания состояния инженерной инфраструктуры ЦОД. Она позволяет управлять оборудованием и вычислительными мощностями без капитальных затрат и снижает репутационные и финансовые риски в результате инцидентов. При этом риск возникновения ошибок невысок и его можно минимизировать.

Комментарии (0)