После нашумевшего пожара в дата-центре Dataline на Боровой 5 июня мы получили шквал звонков от обеспокоенных клиентов. Всех волновал один вопрос: «Стоит ли готовиться к худшему?». Несмотря на то, что Cloud4Y не имеет никакого отношения к дата-центру OST, мы решили рассказать про особенности подобных инцидентов. Что реально может грозить данным клиентов и как облачные провайдеры решают вопросы обеспечения бесперебойной работы серверов.

ЦОД (центр обработки данных), или дата-центр — это здание, сооружение или помещение, в котором установлены серверы и сетевое оборудование, и которое предназначено для обработки, хранения и распространения информации. ЦОД рассчитан на непрерывную работу под высокой нагрузкой, а потому должен быть защищён от любых ЧП. Если он «полетит», экономические и репутационные потери для компании или компаний, которые пользовались его сервисами, могут быть критическими.

Любой простой, даже секундный, может привести к сбою обслуживаемых им сервисов, связанных не только с бизнес-процессами, но и безопасностью людей. Поэтому главных требований к ЦОДам два: отказоустойчивость и стоимость эксплуатации.

Правильно спроектированная система пожарной безопасности — важная составляющая отказоустойчивости, поэтому дата-центры тратят массу средств на её совершенствование. И это помогает — пожары в центрах обработки данных случаются очень редко, а пользовательские данные страдают и вовсе в исключительных случаях.

Отчего горят ЦОДы


Основные причины возгорания:

  • Качество проектирования помещений;
  • Квалификация лиц, ответственных за пожарную безопасность и работу с электрикой;
  • Организация мониторинга инфраструктуры;
  • Своевременность обслуживания инженерных систем.

Нужно понимать, что хороший современный дата-центр — это большая территория, которая пронизана километрами кабелей и наполнена электронным оборудованием (шкафами, стойками) с высокой концентрацией устройств и потребляемой мощностью. Всё это оборудование здорово греется во время работы, а потому является потенциальным источником возгорания. Не стоит забывать и про ИБП или ДДИБП с запасом топлива, а также внешние причины возникновения огня в дата-центре: молния, подтопление, человеческий фактор.

Однако практика показывает, что непосредственно в защищённых помещениях дата-центра пожары практически не возникают, настолько высок там уровень защиты. В ЦОДах устанавливают чувствительные пожарные извещатели, объединённые в общую систему оповещения о пожаре и пожаротушения. Также обязательно существует регламент, согласно которому проводится комплекс организационных мероприятий, включающий постоянный визуальный осмотр оборудования, проверку соблюдения пожарных норм и правил эксплуатации электроустановок.

А Кристоф Кайнц (Christoph Kainz), независимый эксперт по пожарным рискам из Германии, и вовсе считает, что примерно в 80% случаев причина пожаров в центрах обработки данных лежит вне помещений с IT оборудованием. Его опыт показывает, что возгорания происходят из-за плохого разделения машинных залов от соседних помещений, слабой противопожарной системы в этих помещениях и высокой пожарной нагрузки в них.

Очевидно, что ЦОДы серьёзно вкладываются в пожарную безопасность, поэтому возгорания непосредственно на стойках чрезвычайно редки. Поэтому данные пользователей, как правило, остаются неповреждёнными.

Сценарии возникновения пожара в ЦОД




Различают три сценария развития пожара в центрах обработки данных. Для каждого из них применяются строго определенные средства обнаружения, эффективные именно для данной ситуации.

Сценарий №1: тление (проводов или микросхем). Выделяемый дым присутствует в воздухе в минимальной концентрации. Пожар на этом этапе сможет обнаружить аспирационная система раннего обнаружения возгорания. Так как ущерб электронике часто наносит не пламя, а выделяющийся при тлении и горении газ, который окисляет электронные контакты.

Решение: Современные ЦОДы используют газоанализаторы, встроенные в систему раннего обнаружения пожара.

Сценарий №2: сильное задымление стоечного пространства. Задымлённость обнаруживают неадресные датчики дыма, установленные внутри стоек. Отправляемые ими сигналы обрабатывает программа мониторинга серверного оборудования, установленного в дата-центре.

Решение: Датчики используют в качестве источника дополнительной информации для контроля всех систем данного объекта. Иногда — для активации системы пожаротушения отдельной стойки.

Сценарий №3: сильное задымление помещения ЦОД. Выявляется благодаря адресным или неадресным датчикам общей системы пожарной сигнализации, установленных внутри помещения дата-центра. Пожарные панели, выступающие в качестве центрального приемно-контрольного оборудования, при обнаружении возгорания автоматически запускают системы активного пожаротушения.

Решение: Процесс тушения охватывает уже всё пространство ЦОДа. В зависимости от особенностей помещений используются разные пожаротушащие вещества.

Ещё раз подчеркнём, что продукты горения изоляции кабеля может нанести значительный вред электронному оборудованию. При возгорании из 1 кг ПВХ выделяется несколько сотен литров дымовых газов, включая хлористый водород HCl. Последний, вступая в реакцию с окружающей атмосферой, синтезируется в соляную кислоту, вызывающую коррозию электрических контактов и даже замыкания последних. Стоит ли говорить о том, что такие процессы необходимо как можно раньше обнаружить и ликвидировать?

Поэтому на АЭС, к примеру, для монтажа кабельных линий в местах установки микропроцессорной техники, компьютеров и другой электроники применяются негорючие кабельные изделия (СТО СРО-С 60542960 00030-2014, СТО 1.1.1.01.001.0902-2013), с изоляцией и оболочкой из полимерных композиций, которые не выделяют коррозионно-активных газов при тлении. В дата-центрах актуален ГОСТ 31565-2012 «Кабельные изделия. Требования пожарной безопасности», который определяет тип кабельных изделий, не выделяющих коррозионно-активные газообразные продукты при горении и тлении.

Спринклерные и дренчерные системы тушения пожаров на стойках использовать нельзя, ведь в случае их срабатывания дорогостоящее оборудование будет залито водой и непоправимо испорчено. Но чем тогда тушить?

Как тушат ЦОДы




Системы автоматического пожаротушения начинают работать в том случае, если развитие пожара невозможно остановить другими способами, например, отключив задымившийся сервер или системы кондиционирования. Как мы уже сказали, неправильно подобранная установка пожаротушения при срабатывании способна нанести ущерб сопоставимый, а порой и превышающий ущерб от самого пожара. Поэтому нужно выбирать установки с учётом следующих факторов:

  • Безопасность для людей, оборудования и окружающей среды;
  • Экономическая эффективность;
  • Срок службы и эффективность ОТВ для тушения в каждом конкретном случае;
  • Требуемая площадь для размещения (чем меньше места занимает установка пожаротушения, тем лучше);
  • Возможность создания упрощенных трубных разводок.

На данный момент нет такого средства тушения серверной, которое бы соответствовало всем этим требованиям. Поэтому при оснащении дата-центров выбирается один или несколько вариантов из пяти основных методов ликвидации возгораний:

Гипоксический метод


Суть данного метода заключается в борьбе с возгоранием путем создания и поддержания атмосферы, в которой пожар не может возникнуть. В помещение вводится азот, который уменьшает содержание кислорода до уровня ниже 14%. Азот постоянно вырабатывается из атмосферного воздуха специальным генератором. В такой атмосфере огонь не может возникнуть и распространяться, и при этом такой уровень кислорода достаточен для работы в серверном помещении.

Гипоксический метод выигрывает у других способов пожаротушения по всем параметрам, кроме одного — стоимости. Далеко не каждая компания способна потратить такую сумму денег на борьбу с пожаром.

Изоляция


Эффективный метод, работающий по принципу «замещение кислорода». В комнату, охваченную огнем, подается чистый инертный газ или смесь для пожаротушения. Уровень кислорода становится ниже 14% и пламя гаснет. Используется азот, аргон, аргонит или инерген. Из минусов опять можно отметить возможность опасных для человека химических реакций.

Ингибирование


Метод, который предполагает связывание активных центров, что приводит к обрыву цепной реакции горения. Если проще, то в помещение впрыскивается галогенизированный газ, который тормозит химические реакции в пламени, подавляя активные центры (радикалы и атомарные частицы, имеющие свободные валентности), тем самым препятствуя процессу горения. В качестве ингибиторов обычно используются хладоны (фторированные углеводороды). В последнее время также становится популярным вещество Novec 1230 ( известное как «сухая вода»).

Отметим, что при химической реакции ингибирования возможно выделение побочных продуктов, которые могут быть опасными для людей, а также оставляют налет на защищаемом оборудовании.

Охлаждение


Один из самых молодых способов тушения серверных помещений, получивший широкое распространение в Европе, в таких дата-центрах как TCN Eemsdelta и Telecity IV в Нидерландах, научно-технологическом полигоне CX2 Cyberjaya в Малайзии и других. Во время пожара на область горения распыляется водяной туман (струи тонкораспыленной мелкодисперсной воды), что приводит к снижению уровня кислорода на местном уровне и охлаждает зону возникновения огня. В качестве воды используется дистиллированная вода, которой разрешено тушить электрооборудования мощностью до 10 Кв.

Данный метод использует на 90% меньше воды, чем спринклерные системы, исключает протекание трубопровода в повседневном режиме и дёшев при перезаправке системы. Но также нужно упомянуть высокую стоимость системы. Она предполагает использование от одной до нескольких насосных станций, поддерживающих постоянное давление в трубопроводе, к которому также предъявляются серьезные технические требования. Отчасти из-за этого данный метод не получил широкого распространения среди российских дата-центров. У нас сохраняется стойкое недоверие к воде как к огнетушащему веществу для электрооборудования. Даже мелкодисперсная вода может конденсироваться в капли, поэтому в месте возгорания так или иначе будет сыро, что недопустимо в серверном помещении.

Порошок/аэрозоль


Реже всего встречающийся метод тушения в ЦОДах. При возгорании происходит выброс порошковой химии и распыление аэрозоля. И порошок, и аэрозоль на поверхности раскаленных горящих предметов образуют пленку, предотвращающую проникновение кислорода, что снижает вероятность повторного возгорания. В серверной это станет проблемой, так как порошки и аэрозоли проникают внутрь любого оборудования и оседают на внутренних компонентах, никак не защищенных от контакта с агрессивными веществами. После такого тушения оборудование станет постепенно выходить из строя в результате коррозии и возникновения коротких замыканий в электрических цепях.

Кстати, в трансформаторных и ДДИБП обычно устанавливают системы порошкового пожаротушения, а в офисные помещения, коридоры и места общего пользования — традиционные спринклерные.

Какое противопожарное решение наиболее эффективно?


В целом, очевидным лидером сейчас является метод газового пожаротушения. Газ не вредит электрооборудованию и прекрасно работает даже в труднодоступных помещениях. Также стоит учитывать тот факт, что серверные помещения в ЦОД работают без постоянного присутствия персонала в них, а пожаротушение выполняется при работающем оборудовании (под напряжением). Благодаря компактности газовых установок их можно масштабировать под конкретный объект защиты и поддерживаемый температурный диапазон работ от -40 и до +55 °С, защищая модульные и контейнерные (мобильные) ЦОД.

Системы газового пожаротушения можно организовать по двум принципам:

  • Стоечный. Воздействию подвергается отдельная стойка. Применяется для отсеков с оборудованием специального назначения, особенно если потеря хранящихся там данных обойдется дороже установки и эксплуатации газовой системы пожаротушения. Срабатывание системы позволяет не прерывать работу оборудования, установленного в других стойках. Это удобно, когда стойки в дата-центре арендуют разные компании: пожар в одной из стоек не приводит к отключению остальных серверов.
  • Общий. Система выполняет функцию обнаружения и тушения очага возгорания на всей площади защищаемого ЦОДа. Состоит такая система из магистрального и распределительного трубопровода, насадок для выпуска газа, датчиков для обнаружения пожара, контроллеров управления, а также из батарей баллонов с огнетушащим составом. Её вполне можно собрать из компонентов от разных производителей.

В большинстве случаев в современных установках для тушения пожаров используются перечисленные ниже газы:

  • Хладон 125ХП. Его действие основано на эффекте ингибирования с незначительным использованием принципа разбавления. В ходе тушения выделяется большое количество вредных соединений в результате химического разложения газа.
  • Хладон 227еа. Также действует на основе эффекта ингибирования, останавливая процесс горения на химическом уровне и поглощая тепло. В ходе тушения также выделяется множество вредных веществ.
  • Инерген. Пожаротушение с помощью этого вещества основано на механизме разбавления, т.е. происходит за счет снижения концентрации кислорода в помещении (вытеснение воздуха). Для инергена характерно значительное расширение вещества в газовой фазе при выпуске, что обеспечивает сильное понижение температуры в помещении.
  • Novec 1230. Этот газ создает эффект охлаждения за счет отбора тепловой энергии у цепной реакции горения. При этом температура в защищаемом помещении также незначительно (не более чем на 2–3 градуса) понижается.

Выбор «правильного» тушащего вещества делается только после анализа защищаемого объекта.

Самые известные «погорельцы»




27.03.2010
Пожар в дата-центре «Технологии Будущего». В результате серверы пострадали от огня и от воды, которой его тушили. Более чем на сутки были выведены из строя около 2500 тыс. сайтов. Лежали хостинг-провайдеры hosting.ua, ostia.ru, onelim.net, provisov.net, imhoster.net, alekshost.ru, onlinehoster.net, xlhost.ru. Удивительно, но в дата-центре была установлена одна из наиболее современных систем пожаротушения, которая не сработала, так как была отключена вручную. Она очень часто ложно срабатывала и сотрудники дата-центра ее отключали. В результате огнём пришлось заниматься пожарным. Ущерб оценили в десятки миллионов долларов. Этот пожар стал толчком к созданию более качественных детекторов и послужила поводом переписать не одну внутреннюю инструкцию по противопожарной безопасности.

05.11.2010
При пожаре в новом вычислительном центре страховой группы ЭРГО в Дюссельдорфе в первой половине дня в пятницу пострадало 28 человек. 20 сотрудников были госпитализированы с тяжелым отравлением угарным газом. Сообщений о проблеме с данными пользователей не поступало.

06.07.2012
В Сиэтле, на родине Microsoft, произошло возгорание в системе электропитания большого вычислительного центра, что привело к выходу из строя функций поиска запросов в новой поисковой системе Microsoft Bing. Пользовательские данные опять не пострадали.

20.04.2014
Пожар в здании дата-центра Samsung SDS, который находится в городе Квачхон (Южная Корея), послужил причиной сбоев работы смартфонов, планшетов и смарт ТВ по всему миру. Одновременно с этим ушел в офлайн и веб-сайт Samsung.com. Даунтайм ЦОД продлился несколько часов, после чего большинство пользователей снова получили полный доступ к функционалу устройств. Сайт Samsung.com также вернулся в онлайн.

10.02.2015
Атаке злоумышленников подверглась крупная датская коммерческая фирма. Злоумышленники подожгли офис компании, и от большей части здания остались одни угольки. Серверная ферма оказалась окружена огнем, который за 60 минут уничтожил всё за ее пределами – в том числе силовые и телекоммуникационные кабели во внешнем помещении. Наружные стены серверной комнаты в тот момент были настолько горячими, что сотрудники пожарной службы решили просверлить отверстие в двери, чтобы посмотреть, нет ли пожара внутри. Когда комната в конечном итоге была открыта, всё IT-оборудование оказалось цело и невредимо. Экстремально высокая температура во время пожара активировала систему пожаротушения модульного ЦОД, которая затопила комнату инергеном (смесь азота, аргона и углекислого газа). Клапан выравнивания давления позволил излишкам газа выйти наружу для устранения избыточного давления. При этом в помещение попало небольшое облачко дыма, из-за которого на стенах появилось несколько темных пятен. После развертывания новой инфраструктуры электропитания и сетевых кабелей оборудование было повторно запущено. В конечном итоге на повторный запуск серверной фермы потребовалось около трёх дней.

30.06.2015
Сильный пожар в помещении с телекоммуникационным оборудованием внутри дата-центра одного из крупнейших британских операторов BT Group вывел весь ЦОД в Белфасте (Великобритания) из строя и оставил без доступа к связи и интернету многочисленных клиентов компании, включая государственные учреждения. Особенно сильно пострадали Tibus (сервис-провайдер) и Translink (занимается общественным транспортом), Городской совет Белфаста, Northern Ireland Electricity (энергетическая компания). Из-за чего возник пожар, компания не сообщила.

24.11.2015
Пожар в дата-центре Delta Telecom в столичном Баку лишил азербайджанских пользователей доступа в интернет. Даунтайм длился в течение восьми часов и затронул 78 процентов сетей Азербайджана. Речь идёт о 6 с лишним сотнях сетей, которые использовали одно ключевое соединение между Delta Telecom и Telecom Italia Sparkle. После этого инцидента получить доступ к интернет-услугам можно было лишь с использование каналов местных мобильных операторов Backcell и Azerfon. Проблемы с интернетом возникли из-за низкого количества сетей, которые связывают страну с внешними узлами обмена трафиком. Подобная ситуация в настоящее время характерна для многих соседних государств вроде Ирана, Грузии, Армении и Саудовской Аравии.

17.08.2016
Из-за задымления в дата-центре канадской государственной организации Shared Services Canada, которая отвечает за обслуживание правительственной IT-инфраструктуры, несколько ведомств оказались не в состоянии предоставлять услуги гражданам североамериканского государства в нормальном режиме. Инцидент вызвал массовое отключение правительственных веб-сайтов и системы начисления заработной платы. Кроме того, в офлайн ушел сервер внутренней электронной почты для государственных служащих. По данным информагентства The Canadian Press, около 50 тыс. работников предприятий из сферы общественных услуг оказались не в состоянии получать и отправлять сообщения по электронной почте в течение дня. Даунтаймом было затронуто и Министерство транспорта Канады.

16.03.2016
Пожар в дата-центре Selectel в Санкт-Петербурге. Возгорание произошло во время проведения строительных работ. Огонь распространился на кровлю и фасад здания над офисными помещениями. Из-за пожара была перекрыта улица, но данные клиентов не пострадали.

06.03.2018
В южном штате Бразилии Рио-Гранде-ду-Сул, городе Порту-Алегри, произошел пожар в центре обработки данных BRDigital, входящем в группу компаний CommCorp. Прибывшие на место пожарные эвакуировали людей и обесточили 13-этажное здание в самом центре города. Вскоре пожар был локализован и ликвидирован, а полиция заблокировала здание для экспертизы, запланированной на среду. Компании, пострадавшие от пожара и находящиеся в этом здании, начали возобновлять свою деятельность только 9 марта, в пятницу. Один из клиентов этого дата-центра, Rafael Azeved, написал: «Единственной противопожарной системой, существовавшей в центре обработки данных, был огнетушитель из кухни». Если интересно, то вот история последних минут работы одного из серверов:

[15:22 pm] - Ошибка IPMI: сбой вентилятора 0
[15:23 pm] - Ошибка IPMI: сбой вентилятора 1
[15:24 pm] - Ошибка связи BCM
[15:25 pm] - Ошибка IPMI: перегрев процессора 0
[15:25 pm] - Ошибка IPMI: перегрев процессора 1
[15:25 pm] - Ошибка IPMI: перегрев процессора 2
[15:25 pm] - Ошибка IPMI: перегрев процессора 3
[15:25 pm] - Ошибка IPMI: ошибка управления питанием
[15:26 pm] - Ошибка IPMI: сбой датчика напряжения
[15:26 pm] - Ошибка IPMI: сбой датчика температуры> 180 градусов
[15:26 pm] - Ошибка IPMI: отказ BCM


05.06.2019
Пожар в дата-центре OST привёл к перебоям в работе служб компании Mail.ru. Для его тушения пришлось отключить большую часть основных почтовых серверов. 80% жалоб в сервис Down Detector были связаны с недоступностью конкретно почты Mail.ru, у 16% сайт Mail.ru не открывался вообще. Среди пострадавших оказалась и компания QIWI, чей дата-центр также был расположен в здании. Им понадобилось примерно 30 минут, чтобы переключить все операции на резервную систему и восстановить штатный режим по работе с платежами. Утверждается, что данные пользователей не были затронуты пожаром.

А что тем временем делают облачные провайдеры?


Операторы дата-центров делают всё необходимое для минимизации рисков возникновения пожара. Но и провайдеры тоже не сидят сложа руки, а придумывают дополнительные способы защиты сервисов клиентов.

О том, какие меры приняты в компании, рассказывает коммерческий директор Cloud4Y Артём Гончаренко:
«Нельзя сказать, что мы не боимся пожаров. Боимся, конечно. Это прежде всего создание дополнительной работы практически всем подразделениям компании. Однако ко всему, что касается обеспечения работоспособности сервисов клиентов, мы относимся серьёзно. Критически серьёзно.

На самом деле риск утраты ЦОД, риск пожарной безопасности просчитаны нами заранее, Каждый клиент имеет защиту от потери данных в виде ежедневных резервных копий, производимых в автоматическом режиме в отдельный, удалённый на 10 км физический ЦОД.

Также есть лайфхак, работающий бесплатно только в Cloud4Y. Каждый наш клиент имеет возможность разместить ресурсы в нескольких ЦОД одновременно, т.е. клиент может бесплатно (не нужно платить деньги за предоставленную возможность, оплачиваются только ресурсы) защитить себя, разместив ресурсы в обоих ЦОД и настроив дублирование на уровне сервиса.

Это могут сделать также наши специалисты в рамках техподдержки. Фактически, мы обеспечиваем возможность построить в своём облаке распределённую инфраструктуру, что позволяет защитить пользовательские данные в случае ЧП в одном из ЦОД.

Кстати ежедневные резервные копии при этом будут формироваться и храниться по перекрестной схеме с ЦОД1 в ЦОД2 и наоборот, формируемые бэкапы с активных систем ЦОД2 будут отправляться на хранение в ЦОД1.

Возможность размещать свои мощности сразу в двух независимых ЦОД — ценная, но чрезвычайно редкая услуга. Поэтому, если вы хоститесь не в Cloud4Y, то я рекомендую задуматься о дополнительном размещении резервной копии инфраструктуры в других дата-центрах, у другого провайдера. Будь то компания с оборудованием on premise, или бизнес, работающий с облаками, — перенос резервной копии в отдельное физическое помещение будет гарантировать безопасность данных при авариях и инцидентах. Просто размещать backup на отдельном физическом сервере или даже на другом этаже общего здания недостаточно. Если ЧП затронет здание целиком, будет неважно, где хранилась резервная копия. Данные исчезнут.

К практике дублирования инфраструктуры приходит множество компаний. К нам обращаются крупные клиенты, желающие расположить свой backup подальше от основной инфраструктуры. Тут мы предлагаем на выбор следующие варианты решений: первое и самое простое — хранение резервных копий, второе — BaaS (backup-as-a-service) с гарантией предоставления мощностей в необходимом количестве, третье — услугу «резервный ЦОД» с жестко прописанными в договоре требованиями к времени восстановления и максимальному количеству потерянных минут работы компании.

Вы просите совета? Он очень прост: храните ваши файлы и их backup'ы в разных местах, хостинг-провайдерах, дата-центрах, странах. Это сбережет ваши нервы, время и, что самое главное, бизнес».

Заключение


Cloud4Y для хранения данных клиентов использует сеть дата-центров в России и Европе, сертифицированных на уровне надёжности Tier 3. Как обеспечивается пожарная безопасность в ЦОДах уровня Tier 3:

  • Установлена автоматическая система пожаробезопасности. Состоит из 3-х подсистем (газовой, порошковой, спринклерной) и защищает 100% площадей объекта;
  • В электроинсталляции ЦОД используются медные кабели с огнеупорной изоляцией;
  • Мониторинг компонентов инфраструктуры ЦОД данного класса проводится круглосуточно;
  • Установлена аспирационная система раннего обнаружения дыма (VESDA);
  • Используются современные системы автоматической пожарной сигнализации, показывающие минимум ложных срабатываний;
  • Предусмотрена возможность одновременного тушения возгораний сразу в двух помещениях.

Уровень отказоустойчивости дата-центра уровня надёжности Tier 3 составляет 99,982%. Это достигается не только за счет дублирования систем, но и продуманной концепции обеспечения пожарной безопасности.

Комментарии (2)


  1. Ordinatus
    19.06.2019 11:32

    Используются современные системы автоматической пожарной сигнализации, показывающие минимум ложных срабатываний


    Что произойдет, если пожар начнется(или случайно нажата кнопка при перемещении оборудования например), когда в машзале работает инженер(ы):

    — Двери заблокируются
    — На баллонах отстрелят пиропатроны (необратимо)
    — Хлодон заполнит зал и вытеснит кислород
    — Оборудование целое
    — Есть труп(ы)


    1. SandroSmith
      19.06.2019 15:01

      По хорошему нулевым пунктом должна быть сирена и то самое «ПОРОШОК УХОДИ!». Ну, в данном случае газ.