«ИТ-храм зеленых фонарей у подножия Асахи

Несокрушим оплот в ночи

Спеши, пока не пришла цифровая зима»

Хокку 20:10, трактат «Искусство ЦОДообороны»

Аварии в дата-центрах ведут к простоям в работе от нескольких часов до нескольких дней. Убытки от таких сбоев и аварий для компании могут составлять от нескольких миллионов до десятков миллиардов рублей. Мы с коллегами собрали статистику по крупным авариям в ЦОД за последние несколько лет и попытались найти закономерности.

Разбираем, как и почему происходят аварии в дата-центрах и что с этим делать.

Статистика с крупнейшими авариями из открытых источников, которую мне удалось собрать:

Компания

Год

Инцидент

Описание инцидента

Дата-центр Equinix MD2

2022

Пожар

Сбой в работе системы электроснабжения. Из-за этого загорелись трансформаторы в подвальном помещении.

Дата-центр в Мичигане

2022

Сбой

Сбой в работе системы электроснабжения стал причиной перебоев в работе местной медицинской клиники.

Дата-центр Interxion

2022

Сбой

Сбои в работе системы электроснабжения привели к остановке работы Лондонской биржи металлов.

Дата-центр Wells Fargo

2021

Сбой

Сбой системы пожаротушения ЦОД привел к перебоям в работе онлайн-сервисов банка.

Дата-центр OVH

2021

Пожар

Сбой в системе бесперебойного электроснабжения привел к возгоранию ИБП.

Дата-центр Easily

2021

Сбой

Сбой в работе системы охлаждения (утечка охлаждающей жидкости) привел к перебоям в работе ЦОД.

Дата-центр Tesla

2021

Сбой

Сбой в работе серверного оборудования. Сотни владельцев Tesla не могли выйти из автомобилей без карточки-ключа.

Дата-центр Ogden, компания WebNX

2021

Пожар

Сбой в системе гарантированного электроснабжения. Загорелся генератор. Это стало причиной пожара в ЦОД.

Дата-центр Cyber 1

2021

Пожар

Сбой в работе серверного оборудования, который стал причиной взрыва и последующего пожара в серверном помещении.

Дата-центр Telstra

2020

Пожар

Сбой в системе бесперебойного электроснабжения, в результате которого загорелся ИБП.

Дата-центр Equinix TD8

2020

Сбой

Сбой в работе системы электроснабжения, после чего отказал ИБП.

Дата-центр OST (DataLine)

2019

Пожар

Сбой в работе системы охлаждения. После короткого замыкания в кабеле внешнего блока системы кондиционирования загорелась кровля здания.

Дата-центр Microsoft

2018

Сбой

Сбой в работе системы электропитания. Дата-центр оказался в эпицентре урагана. Удары молнии стали причиной продолжительных перебоев в электропитании.

Дата-центр DigiPlex

2018

Сбой

Сбой в работе системы пожаротушения. Ошибочное включение газовой системы пожаротушения вывело из строя жесткие диски в дата-центре и нарушило работу нескольких европейских банков.

Дата-центр Amazon

2018

Пожар

Человеческий фактор. Пожар произошел из-за неосторожного обращения рабочих с ацетиленовыми горелками.

Дата-центр Nianet

2014

Вандализм

В ЦОД вломились воры, пробив дыру в стене, и украли дюжину сетевых карт.

Дата-центр InterNAP

2012

Подтопление

Сбой в работе системы гарантированного электроснабжения из-за подтопления помещения. Нью-Йорк накрыл ураган Сэнди, помещения ЦОД залило водой и перестали работать ДГУ.

Дата-центр Rackspace

2007

Вандализм

В ЦОД произошел сбой в работе системы охлаждения. Водитель на внедорожнике влетел в трансформатор дата-центра.

Дата-центр C I Host

2007

Вандализм

Несовершенство системы охранной сигнализации. Двое злоумышленников ворвались в ЦОД, устранив охранника электрошокером, и вынесли 20 серверов.

Часть инцидентов происходит в результате сбоев в работе оборудования. Самыми проблемными, судя по статистике, кажутся системы электроснабжения и пожаротушения. Помимо сбоев, большинство инцидентов можно разделить на три основные группы: пожары, подтопления, вандализм.

Пожары

Огонь
Огонь

«Огонь дает тепло

Хаос рождает пожары

Подключай серверы на рассвете»

Хокку 20:18, трактат «Искусство ЦОДообороны»

Небольшая ремарка. При рассмотрении случаев с пожарами, подтоплениями и вандалами я беру за основу тот факт, что все системы ЦОД функционируют в штатном режиме и спроектированы согласно всем нормам и расчетам. Я не беру во внимание, например, возможность несрабатывания системы автоматического пожаротушения при возгорании в дата-центре и т. п.

Пожар внутри

Допустим, внутри ЦОД произошло возгорание. Причиной пожара внутри дата-центра могут быть неполадки в работе оборудования, например, возгорание ИБП или стойки с серверным оборудованием. В тот момент, когда датчики системы пожарной сигнализации среагируют на угрозу, сработает оповещение персонала и будет подан сигнал системе автоматического пожаротушения для начала работы.

Размеры ЦОД не влияют на степень их защиты от пожара при условии корректно работающих и верно спроектированных систем.

А вот уровень надежности может влиять. Дело в том, что стандарты Tier не накладывают каких-либо требований к системам противопожарной защиты, но, как правило, владельцы ЦОД, аттестованных по Tier 2 – 4, сами прибегают к резервированию как установленных систем и компонентов, так и каналов доставки. Это говорит о том, что в случае сбоя какого-либо компонента системы противопожарной защиты сработает его резервный «брат».

Пожар снаружи

Здесь всё зависит от самого слабого звена. Допустим, у нас есть ЦОД с бетонными перекрытиями и стенами без окон. Внешние кабельные проходки заделаны противопожарной пеной, установлена противопожарная дверь.

Согласно ГОСТ 30247.0-94, огнестойкость противопожарной пены должна быть не менее 60 минут. При этом, согласно СНиП, противопожарные двери должны противостоять огню в течение 30 минут как минимум. В данном случае слабым звеном будет дверь, которая после 30 минут сгорит и огонь сможет проникнуть внутрь центра обработки данных.

После проникновения огня внутрь сработает система пожарной сигнализации, запустится система пожаротушения, но она уже, скорее всего, будет малоэффективной из-за нарушения герметизации помещения и постоянной подпитки пожара извне. Через некоторое время, если пожар не будет потушен снаружи, ЦОД может быть уничтожен огнем.

В этой ситуации спасение дата-центра будет зависеть от оперативности реагирования обслуживающего персонала и пожарной бригады. Если пожар получится ликвидировать за время, меньшее предела огнестойкости самой слабой конструкции ЦОД, то он будет спасен.

Если говорить об угрозе пожара снаружи, то стоит отметить возможные косвенные угрозы, например, обрушение бетонных стен. Высокая температура выпаривает воду из бетона, и поэтому стены могут просто рухнуть.

Еще одна косвенная угроза ― попадание дыма и продуктов горения в систему вентиляции дата-центра. Это может нанести вред ИТ-оборудованию. Например, при возгорании из 1 кг ПВХ выделяется несколько сотен литров дымовых газов, включая хлористый водород. Этот элемент взаимодействует с водяным паром атмосферы. В результате образуется соляная кислота, которая может вызывать коррозию электрических контактов, а иногда ― их замыкание.

Система вентиляции подключена к системе пожарной сигнализации дата-центра, которая, в свою очередь, интегрирована с пожарной сигнализацией здания. В случае обнаружения пожара вне здания будет подан сигнал на остановку работы системы вентиляции. Забор дыма и продуктов горения извне происходить не будет.

Случаи возгорания в дата-центрах встречаются достаточно часто, поэтому стоит ответственно относиться к выбору типа системы пожаротушения и регулярно тестировать ее работоспособность. Все эти меры помогут оперативно отреагировать и минимизировать ущерб от возможного пожара.

Как избежать угрозы

Есть несколько правил, которые помогут избежать возгорания:

  1. Проектировать ЦОД нужно по всем нормам.

  2. Не стоит экономить на качественном оборудовании и материалах (кабели, проводка и т. д.).

  3. Сотрудники центра обработки данных должны соблюдать правила пожарной безопасности:

    1. видеонаблюдение должно покрывать всю территорию дата-центра;

    2. все железо надо вносить в машинные залы ЦОД без коробок;

    3. горючие жидкости проносить в центр обработки данных запрещено.

Как показывает наш опыт в строительстве ЦОД, пренебрежение этими правилами существенно повышает вероятность возникновения пожара в дата-центре.

В июне 2019 года в Москве в дата-центре OST был пожар. В проводке внешнего блока системы кондиционирования произошло короткое замыкание. От этого загорелась деревянная обрешетка под крышей, которую потом тушили десять пожарных расчетов. Пожарная сигнализация сработала без опоздания и всех людей из здания успели эвакуировать. Площадь возгорания составила 200 м2.

В этом случае пожара можно было избежать, если бы система кондиционирования ЦОД была спроектирована по всем нормам и правилам. Вероятность возникновения пожара была бы существенно ниже в случае, если бы этот дата-центр располагался в отдельно стоящем здании, построенном с применением негорючих материалов.

Подтопления

Вода
Вода

«Серверные стойки разрезают воду

Утром река спокойна

Быстрая лодка может перевернуться»

Хокку 20:19, трактат «Искусство ЦОДообороны»

Подтопление внутри

В случае грамотно спроектированного ЦОД сценарий подтопления изнутри маловероятен. Согласно нормам, все транзитные трубы водоснабжения, водоотведения и отопления должны быть вынесены за пределы дата-центра.

Например, в системе кондиционирования произошел сбой, и конденсат начал протекать внутрь помещения. В этой ситуации важным фактором является скорость обнаружения протечки. Обычно для этого используется система мониторинга, оснащенная датчиками протечки. Грамотное расположение и комбинирование датчиков, а также трасс отвода конденсата и прочих трасс с жидкостями позволит своевременно обнаружить протечку и устранить ее до попадания воды на оборудование.

В данном случае на степень угрозы незначительно влияет надежность ЦОД, так как системы мониторинга могут быть зарезервированы, и в случае выхода из строя какого-либо ее компонента сигнал тревоги будет все равно передан дежурному специалисту.

Размеры ЦОД не влияют на угрозу подтопления изнутри.

Подтопление снаружи

Если говорить о вероятности подтопления ЦОД снаружи, то речь идет о грамотном проектировании центра обработки данных, а также о выборе места его размещения, гидроизоляции и прочих факторах. На этапе выбора места для постройки дата-центра лучше отклонить локации, подверженные сезонному подтоплению из-за разлива рек, таяния снегов и скопления воды от ливней.

В случае, если ЦОД попадет в зону наводнения, обезопасить ИТ-оборудование на все 100% вряд ли удастся. Тут даже система мониторинга будет не нужна, так как, скорее всего, сотрудники дата-центра узнают о наводнении раньше.

К косвенным рискам, например, контейнерных дата-центров (КЦОД) можно отнести возможность протечки крыши и стен при затяжных ливнях. Этого можно избежать, если устанавливать КЦОД на возвышенностях, возможно, искусственных, чтобы вода не скапливалась у стен. Также поможет установка систем дренажа и отвода воды. Кроме того, нужно проводить профилактику этих систем, чтобы они не были забиты посторонними предметами, и вода могла спокойно уходить.

Для предотвращения возможных протечек в местах ввода кабелей в помещение дата-центра иногда используют специальные уплотнители. Эти устройства герметизируют в стене место, через которое внутрь помещения ЦОД заводятся кабели. Такие уплотнители могут даже выдерживать определенное давление воды снаружи.

Как избежать угрозы

  1. В качестве мест для постройки дата-центра лучше не использовать локации, подверженные подтоплению.

  2. Вынести все транзитные трубы водоснабжения, водоотведения и отопления за пределы ЦОД. Это снизит риски подтопления при возможном прорыве трубы.

  3. Избегать наличия «мокрых» помещений (туалеты, душевые, и т. д.), а также транзитных коммуникаций водоснабжения и водоотведения над помещением, в котором находится дата-центр.

  4. Использовать гидроизоляцию стен и потолка помещения ЦОД.

  5. Устанавливать систему мониторинга с датчиками протечки, способную на раннем этапе обнаружить протечку.

  6. Герметизировать места ввода кабелей в помещения центра обработки данных.

Опыт нашей компании показывает, что спроектированный по всем нормам и правилам ЦОД существенно снижает риск подтопления.

У нас был проект по строительству дата-центра для банка. ЦОД размещался в историческом здании XIX века, поэтому у заказчика были особые требования к сохранности внутренних помещений и фасадов. В итоге на 350 м2 мы создали водо- и воздухонепроницаемый модуль, в котором и разместили все оборудование дата-центра. В итоге ЦОД был построен в гермозоне, защищен от внешнего воздействия воды, и ни один фасад не пострадал :)

Помимо предсказуемых угроз для дата-центров, иногда происходят события, которые невозможно предугадать или контролировать — стихийные бедствия. В 2012 году на восточное побережье США пришел ураган Сэнди. Под угрозой оказалась работа центра обработки данных InterNAP, который был расположен на нижних этажах одного из небоскребов Манхеттена. Когда вода добралась до подвала, ЦОД оказался обесточен. Резервные генераторы были расположены на 18 этаже здания с ограниченными запасами дизеля. Топливный насос тоже перестал работать из-за подтопления, поэтому сотрудники были вынуждены носить ведра с топливом для дизель-генератора на 18 этаж, чтобы поддерживать работу центра обработки данных.

Чтобы избежать подобных проблем, мы не рекомендуем строить ЦОД на нижних этажах зданий в регионах с высоким риском подтопления. А вот систему гарантированного электроснабжения стоит размещать с учетом возможности подвоза и оперативной подачи топлива. Обычно ДГУ устанавливают на улице в отдельных контейнерах. В данном случае дизельные установки затащили на 18 этаж из-за того, что в Манхеттене плотная застройка, и расположить их в другом месте просто невозможно. Также стоит подумать о достаточных запасах этого топлива на случай нештатной ситуации.

Вандалы

Зло
Зло

«Дядя Цао держит в руке кувшин

СХД надежна как вакидзаси

В воде всегда побеждает журавль»

Хокку 20:21, трактат «Искусство ЦОДообороны»

Казалось бы, разве могут люди помешать работе дата-центра? Да, конечно. Они ведь не только могут построить ЦОД, но и случайно (неслучайно) вывести его из строя.

Например, в Техасе водитель ехал по трассе, ему стало плохо, и он потерял сознание. На своем внедорожнике он влетел в силовой трансформатор дата-центра Rackspace, который располагался рядом с трассой. В центре обработки данных включилось резервное питание, но его не хватило для полноценной работы системы охлаждения, и она через некоторое время вышла из строя. Сотрудникам дата-центра пришлось остановить работу оборудования, из-за чего сервисы клиентов ЦОД не работали в течение пяти часов. Ущерб составил $3,5 млн.

Это было ненамеренно, хотя кто знает? Некоторые компании очень серьезно относятся к человеческому фактору. Так, мы как-то раз строили ЦОД для телеком-оператора. У заказчика были особые требования по обеспечению безопасности доступа в машинный зал. Поэтому в качестве решения на входе в помещение был установлен полноростовой роторный турникет. Этот тип турникета полностью перекрывает всю зону прохода, и через него не смогут пройти сразу несколько человек. Перелезть через него тоже не получится.

В плане физической безопасности менее защищенными кажутся контейнерные ЦОД. Зачастую они расположены прямо на улице, а то и прямо в поле, поэтому нарушителям достаточно попасть на территорию, где расположен такой дата-центр. Контейнерный ЦОД, как и другие виды центров обработки данных, имеет стандартную систему безопасности, в которую входят системы охранной сигнализации, контроля и управления доступом, а также системы видеонаблюдения. Однако системы безопасности сами не остановят нарушителя, они лишь могут оперативно передать сигнал тревоги сотрудникам охраны. Только прибывшие на место охранники могут окончательно нейтрализовать угрозу.

Больше всего подвержены воздействию нарушителей системы дата-центра, которые имеют «выход» во внешний мир. Например, система электроснабжения. Кабели, идущие от подстанций до центра обработки данных, как правило, не находятся в зоне систем безопасности ЦОД, и их можно легко повредить.

И тут для контейнерных дата-центров угрозой могут стать животные. Например, белки, помимо своей традиционной пищи, любят грызть всё, в том числе и кабели, которые подводят электричество к ЦОД. Однажды белка перегрызла такой кабель и на несколько часов вывела из строя половину центра обработки данных компании Yahoo.

Вторые по уровню риска — системы, которые имеют какие-либо внешние компоненты за пределами контейнера, например, система кондиционирования, система гарантированного электроснабжения и т. д. В данном случае внешние компоненты, скорее всего, находятся в зоне действия систем безопасности, но количество рубежей охраны меньше по сравнению с оборудованием, находящимся внутри контейнера.

Как избежать угрозы

Наш опыт показывает, что именно связка систем безопасности и сотрудников охраны способна максимально эффективно бороться с вандалами. Именно поэтому мы рекомендуем не пренебрегать ни одним из звеньев данной цепочки.

Вот несколько примеров. В 2007 году двое человек в масках ворвались в ЦОД компании C I Host, который расположен в Чикаго. Злоумышленники нейтрализовали охранника электрошокером, проникли в машинный зал и вынесли 20 серверов. Этого можно было избежать, если бы территория ЦОД имела несколько периметров охраны. В таком случае, чтобы добраться до охранника, а тем более, до оборудования машинного зала, злоумышленникам потребовалось бы преодолеть внешнее ограждение территории ЦОД, ограждение зон дата-центра, двери машинного зала и т. д. Это заняло бы достаточно много времени, за которое на место прибыли бы сотрудники охраны.

Еще один случай произошел в 2014 году в дата-центре датского интернет-провайдера Nianet. В ЦОД вломились воры, пробив дыру в стене центра обработки данных, и украли дюжину сетевых карт. Для исключения таких случаев ЦОД иногда строят в металлических бункерах и располагают его так, чтобы он не граничил с внешними стенами здания и неохраняемой прилегающей территорией. Такой подход позволит предотвратить попытки проникновения с помощью взлома стен.

Анализируя все возможные случаи с «человеческим фактором», я вижу такой набор необходимых при проектировании систем безопасности моментов:

  • скорость обнаружения опасности;

  • время сдерживания нарушителя;

  • скорость реакции сотрудников охраны.

Чем раньше система обнаружит нарушителя — тем раньше об этом узнает служба охраны. Чем дольше системы безопасности смогут сдерживать нарушителя — тем больше времени будет у охранников на реагирование.

Продолжение: Искусство ЦОДообороны. Часть вторая. Штатная защита

Павел

Ведущий консультант направления ЦОД центра сетевых решений «Инфосистемы Джет»

Комментарии (2)


  1. en0tus
    26.10.2022 11:46
    +1

    В качестве мест для постройки дата-центра лучше не использовать локации, подверженные подтоплению.

    Как-то разговаривал об этой рекомендации с коллегами из Амстердама. В рекомендациях и гайдах по проектированию ЦОД даже есть конкретные цифры, что-то вроде 1.5 км от каналов, рек и озер. Их всегда это очень смешит)


    1. JetHabr Автор
      26.10.2022 14:11

      Добрый день! Спасибо за комментарий.
      Конечно, рекомендации не могут учитывать все возможные сценарии, да и им не обязательно следовать (на то они и рекомендации). В данном случае можно либо принять риски и попробовать их минимизировать, либо выбрать наиболее подходящую площадку для строительства.