Источник: Shutterstock
Источник: Shutterstock

Что случилось?

15 октября 2022 года в корейском дата-центре SK C&C произошел пожар. Причина ― возгорание литий-ионной батареи в одном из помещений ЦОД. Из-за возникшего пожара перестали работать 32 000 серверов, а вместе с ними «упал» мессенджер KakaoTalk (его использует 86% населения Республики Корея). Также в «офлайне» остались платежная платформа KakaoPay, такси и ряд других сервисов. На восстановление работы онлайн-приложений ушло два дня. Общий ущерб компании Kakao оценивается почти в $14 млн.

В чем причина?

В дата-центре использовалась система BMS (Battery Management System), которая контролирует производительность и температуру Li-ion батарей. По одной из версий, система предупреждала о возможности возникновения пожара за два часа до инцидента. После этого сигнала специалисты дата-центра осмотрели аккумуляторные батареи, но не обнаружили сбоев в работе оборудования.

В свою очередь, производитель литий-ионных батарей SK Group утверждает, что, судя по графику мощности и напряжения системы BMS, батареи работали стабильно до момента аварии, так как система не отправляла экстренные оповещения о случаях резких колебаний графика.

Как избежать таких ситуаций?

Оказалось, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, она не была готова к тому, что ЦОД будет быстро обесточен после начала пожара. В подобных ситуациях не стоит надеяться лишь на операторов дата-центра. Можно переговорить с собственниками ЦОД и самостоятельно обеспечить свою часть колокейшн системами резервного и гарантированного электроснабжения.

 Вполне вероятно, что в дата-центре установлены ДГУ и системы резервного электропитания, но почему-то из-за возгорания одной батареи они не сработали. Это возможно, если основные и резервные системы расположены в одном помещении. Данный случай лишний раз напоминает о том, что при проектировании ЦОД важно, чтобы основные и резервные системы находились на удалении друг от друга. К примеру, если дата-центры строятся по стандартам Tier IV, то создают два ввода внешнего питания. Зарезервированы должны быть не только источники, но и способы доставки электропитания. Подводы основного и резервного питания должны идти с разных сторон и от разных подстанций. К примеру, если в правой части ЦОД что-то загорится, то левая сторона дата-центра не пострадает и сможет обеспечивать электричеством системы центра обработки данных. При таком подходе, в описанной выше ситуации сработала бы система резервного питания в помещении с огнем. Огонь был бы потушен при помощи системы газового пожаротушения, и ущерб для работы сервисов оказался бы минимальным.

 Не стоит «класть все яйца в одну корзину». Можно обозначить два подхода к обеспечению максимальной надежности работы онлайн-сервисов:

  • «Свой — чужой». Построить собственный корпоративный ЦОД, на котором будет размещена критическая инфраструктура компании. Параллельно следует создать резервный ЦОД — это может быть колокейшн. В случае неполадок в основном дата-центре, работу онлайн-сервисов подхватит резервный центр обработки данных.

  • «Чужой — чужой». Если нет возможности построить свой ЦОД, то можно разместить всю критическую инфраструктуру в колокейшн и вдобавок арендовать резервные мощности в другом дата-центре. Это позволит поддерживать работу онлайн-сервисов, если один из центров обработки данных будет выведен из строя.

Павел

Ведущий консультант направления ЦОД центра сетевых решений «Инфосистемы Джет»

Комментарии (2)


  1. Akela_wolf
    28.10.2022 13:18
    +2

    Странно что у такого мессенджера не было "горячего резерва", который можно было бы ввести в действие за час-два.


    1. JetHabr Автор
      28.10.2022 13:26

      Добрый день! Спасибо за комментарий.
      Действительно странно. Но все же, не все компании готовы вкладывать деньги в резервирование ИТ-инфраструктуры.