Несмотря на все старания проектировщиков обеспечить дата-центры надежной системой защиты от сбоев и аварийных ситуаций, аварии все же случаются, причем их появлению может предшествовать целая цепочка событий. Это иногда приводит к сбою в самых надежных системах защиты от «неприятностей», и работа ДЦ прекращается.
В продолжении — несколько случаев, как давних, так и произошедших совсем недавно, которые показывают, что некоторые ситуации просто невозможно предусмотреть.
Ураган Сэнди: отказ генератора
Вот так доставлялось топливо
Когда на всем Западному Побережью США бушевал ураган Сэнди, в этом регионе, практически везде, отключилось электричество (октябрь 2012). Кроме ливня и ураганного ветра, ситуация усугублялась и массами соленой воды, заливающей Манхэттен и многие другие регионы и города.
На 18 этаже высотного здания по 75 Broad Street, Нижний Манхэттен, стояли аварийные генераторы, готовые обеспечить дата-центр Peer 1 электричеством в случае выхода из строя основной системы энергоснабжения. Генераторы начали работать сразу же после того, как соленая вода залила подвалы высотки и ее лобби.
К сожалению, вода вывела из строя еще один критический для всей системы элемент — топливный насос, который подавал горючее наверх. Дело в том, что после 9/11 в Нью-Йорке были введены новые правила хранения топлива в зданиях, хранить дизель, бензин или любое другое топливо на верхних этажах можно было только в ограниченном количестве. Поэтому, как только генераторы на 18-м этаже исчерпали запасы топлива, вся система остановилась, поскольку новое горючее не подавалось.
Вместо того, чтобы остановить систему, команда Peer 1 начала вручную доставлять топливо, поднимая его на 17-й этаж, где размещался бак для топлива. А уже оттуда горючее поднималось на 18-й этаж, к генераторам.
Эта работа продолжалась несколько дней, пока не удалось запустить основную систему энергоснабжения. Стоит отметить, что клиентами Peer 1 были такие компании, как SquareSpace и Fog Creek Software.
Работа дата-центра поддерживалась только благодаря находчивости команды, хотя ручная доставка топлива, конечно, не предусматривалась ни одним из планов.
Все работает, и это отлично
Летающий внедорожник и Rackspace
Еще более необычный случай произошел в 2007 году, 13 ноября. Тогда в дата-центр Rackspace влетел внедорожник. Водитель, страдающий диабетом, потерял управление, потеряв сознание. Внедорожник ускорился (видимо, водитель в бессознательном состоянии надавил на педаль газа), вылетел за пределы дороги, и врезался (будучи в воздухе) в строение, где размещалась энергетическая система дата-центра Rackspace.
Система охлаждения дата-центра перешла на вспомогательную систему энергоснабжения, и работа продолжалась без проблем. Основное оборудование также без проблем перешло на аварийное энергоснабжение. Но потом начались проблемы — как оказалось, массивные охладители не перезапустились, остановившись еще во время первого сбоя электроснабжения. Два охладителя так и не заработали, и работники дата-центра не смогли их ввести в строй в течение в нужное время.
В результате оборудование начало перегреваться, и команда инженеров приняла решение выключить ДЦ, чтобы оборудование не вышло из строя.
Остановить оборудование пришлось на пять часов, в течение которого сайты и сервисы клиентов дата-центра не работали. В результате Rackspace пришлось компенсировать своим клиентам убытки, в размере 3,5 миллионов долларов США.
Проблемы у Samsung
20 апреля 2014 года случилось возгорание в офисном здании в г. Гвачон (Gwacheon), Южная Корея. Пламя быстро распространилось по всему зданию, не обойдя и ДЦ Samsung SDS. Огонь и дым вышли за пределы здания, и были хорошо видны издалека.
Всех сотрудников Samsung, а также сотрудников других компаний, работавших в этом здании, эвакуировали. Пожар не уничтожил ДЦ полностью, но нанес ущерба достаточно, чтобы пользователи гаджетов от Samsung не могли получить доступ к своим данным.
Доступ к данным пользователи получили только после того, как вошел в строй вторичный дата-центр в этом же городе. После этого последовали официальные извинения от руководства компании.
Возгорание кабельного канала
Еще одно короткое замыкание с последующим возгоранием обшивки кабельного канала в Fisher Plaza, Сиэттл, привело к неработоспособности ряда сервисов, включая Authorize.net, Bing Travel, Geocaching.com, AdHost и ряда прочих ресурсов. Локализовать проблему удалось только к утру (все случилось 3 июля 2009 года).
При этом ряд сервисов возобновил работу в 10 утра, прочие сервисы не работали еще несколько часов. Компания Fisher Communications, которой принадлежал пострадавший дата-центр, потратила более $10 млн на ремонт и замену оборудования.
Пламя в Айове
Днем 18 февраля 2014 года дата-центр, обслуживающий работу государственных сервисов и служб, работал вполне нормально. В этот день штат должен был осуществить ряд платежей государственным сотрудникам, в размере $162 млн. По иронии судьбы, именно в этот день в дата-центре случилось короткое замыкание.
При этом команда инженеров несколько дней подряд готовила объект к встрече с совсем другой неприятностью — последствиям снежной бури, предсказанной на вечер 18 февраля.
После того, как случилось короткое замыкание, дым распространился по всему зданию, и сотрудников эвакуировали. Сработала противопожарная система FM-200, в результате чего пожар был локализован. При этом система, ответственная за контроль поступления энергии в ДЦ, перегрелась и расплавилась.
Сотрудники смогли быстро наладить поставки энергии по другому каналу, и энергоснабжение возобновили через несколько часов. Тем не менее, без доступа к инфраструктуре ДЦ возобновить его работу было невозможно. А пожарные и полиция не пускали саппорт в здание, поскольку внутри было много дыма. Только через 3,5 часа сотрудники смогли зайти в ДЦ. Все это время ничего не работало, платежи не ушли.
Восстановить работу ДЦ удалось только в 9 вечера (сам пожар начался в 3 вечера), и после этого можно было начать проводить платежи.
Amazon и сварка
9 января 2015 года в большом здании, где строился дата-центр Amazon, случился пожар. Проблема возникла из-за сварщика, который случайно поджег стройматериалы, находящиеся рядом. Небольшое пламя быстро превратилось в огенный шторм третьей категории, который пришлось долго тушить. Султан дыма был виден на много километров от дата-центра. Общий ущерб, причиненный компании, составил $100000.
Правда, клиенты Amazon не пострадали, поскольку объект еще не был введен в эксплуатацию.
Вместо вывода
В большинстве случаев аварийная ситуация возникла очень неожиданно, выходя за рамки действий, предусмотренные планом и инструкциями. Тем не менее, в некоторых случаях с проблемой удалось справиться, но в других — компании, как владельцы ДЦ, так и клиенты, терпели существенные убытки.
А какие у вас возникали проблемы и аварийные ситуации? Как вы с ними справлялись?
Комментарии (23)
ooprizrakoo
15.06.2015 21:53+23На Украине был случай — когда нежданно приехали полицейские, и изъяли серверы из ДЦ под странным предлогом. Да и потом не вернули :-) Относиться ли к этому как к «стихийному бедствию»?
DrPass
16.06.2015 09:28+2У меня был еще более запущенный случай — когда милиция приезжала изымать серверы другой компании, а заодно утянула и мои, которые были в том же ДЦ. И всех остальных компаний. Хотя им надо было только одну стойку вытащить. И я два месяца их обратно получал. С тех пор «правило №1» знаю назубок.
valis
16.06.2015 12:43Был случай с реальным пожаром в ДЦ в Одессе. У меня был там сайт на хостинге.
С утра сайт лежал, техподдержка не отвечала до вечера (я уже успел развернуть свой бекап) и узнал о пожаре из новостей местного одесского форума.
С моей стороны профит был, но все же была интересна их реакция на форс мажоры. В итоге признались в том что у них случился пожар только на следующий день. Бекап отдали через неделю и то двухлетней давности. От их услуг я отказался.
P.s это был на тот момент один из самых крупных хостингов Украины.
mvs
15.06.2015 22:45+7Как-то ни один из примеров не тянет на то, что «невозможно предусмотреть». Банальное человеческое раздолбайство, а также упорное нежелание признавать, что зимой идёт снег, летом бывает жарко, а на побережье бывают ураганы.
tapin13
15.06.2015 23:33+7В памяти возникает только одно событие, произошедшее по среди рабочего дня, когда у меня начали отваливаться соединения с серверами и падать открытые подключения удаленок… Это событие как оказалось помню не только я, а многие кто в то время (2011 год) работали в сфере сайтостроения.
Странно, что в статье о нем нет упоминаний…
«Удары молний в воскресенье вечером вырубили крупнейшие европейские дата-центры Amazon и Microsoft, располагающиеся в Дублине (Ирландия).»
Tomatos
16.06.2015 09:56Помнится, когда я еще работал инженером поддержки ЦОД в одном крупном хостинге случились две нештатные ситуации, с разницей не более чем в год. Причем в двух разных цодах, где мы тогда арендовали стойки.
1. 2008 год (если мне склероз не изменяет) Жутко жаркое лето. Кондиционеры ЦОД-а были не готовы к охлаждению такого колличества оборудования (только наших серверов ~ 3к) в такую жару. В течение дня температура в холодном коридоре поднялась до 50 градусов. Чего только не придумывали (залили крышу водой, накидали под фальшпол сухого льда), но избежать отключения клиентского оборудования не удалось. В горячем коридоре была просто сауна, но мы старались отключить питание у большинства серверов штатно. Надо сказать, что после этого случая — систему кондиционирования улучшили.
2. 2009 год. В ЦОД-е, куда мы переехали после предидущей аварии, отключается питание. Несколько минут все живет на UPS, но ДГУ (их два) не заводятся (кажется, заклинило, решетку воздухозаборника) и ЦОД тихо-мирно ложится спать. Сейчас, заядя на сайт этого ЦОД-а увидел интересную надпись о том, что у них не было аварийных остановок с момента ввода в эксплуатацию.alecv
16.06.2015 13:37В одно жаркое лето пришлось поливать внешние блоки кондиционеров из шлангов. 4 часа простояли, вечером похолодало. Такое вот водяное охлаждение.
Tomatos
16.06.2015 13:43+1Еще история, но услышанная от коллеги. В здании, где находилась серверная одной компании — шел ремонт. Админ несколько раз предлагал подпереть чем-нибудь металлическую балку над шкафом с дисковым массивом… В итоге балка рассекла массив почти пополам. Небольшую часть данных смогли потом восстановить за очень немаленькие деньги.
evilbot
16.06.2015 10:57Можно вспомнить отключение электроэнергии в Москве в 2005 году. Тоже много историй про ДЦ в тот день можно вспомнить.
alexxxst
16.06.2015 11:19+5Ну, перевод, ну кривоватый местами, ладно, но наши местные примеры где, их было ого-го сколько! Скучно.
alecv
16.06.2015 13:35+4У одной небольшой компании в Питере был крошечный датацентр в старом фонде. Дом с деревянными перекрытиями. Однажды случился пожар, повредились перекрытия и часть стоек с серверами и UPS-ы провалились на нижний этаж.
alecv
16.06.2015 18:09+9О, вспомнил еще историю. Не совсем авария в ЦОД-е, но близко. Это случилось в некоей питерской телекоммуникационной компании. У компании по городу было куча оптики и куча узлов связи.
Дело было под Новый Год, 31 декабря, мандарины, романтика. Упал узел по питанию в центре города. Приехали. Напряжения нет во всем доме, UPS-ы разрядили батареи. Дом старый, проводка совсем старинная. Выяснилось, что проводка от щитка дома самопроизвольно начала гореть, Приехали пожарники, дернули рубильник и уехали. Вызвали ЛенЭнерго. Те побухтели, но приехали (31 числа!) обложили матами пожарников, врубили щиток назад. UPS-ы радостно замигали лампочками и начали заряжать батареи. Жители дома тоже обрадовались и бодро повключали бытовые приборы. Проводка опять начала гореть и кто-то вызвал пожарных. Далее мы некоторое время наблюдали битву «пожарники против электриков». Победили пожарники, отрубили и опечатали щит и уехали. UPS-ы не успели насосать в батарейки и тоже отрубились. Аут. Тут кто-то вспомнил, что вообще-то где-то есть генератор. Принялись искать генератор. Был уже поздний вечер, как говорит классик: «Смеркалось». Приехал генератор, кинули провод через окно и быстро его подключили. Оказалось фиг! Пустые батареи UPS-ов (которых было дофига) давали дополнительную нагрузку и дизель «задыхался», работал с перебоями. Включили без UPS-а, дизелю полегчало, узел начал подниматься. Кто-то из работяг сбегал за пузырем, накрыли прямо в узле, типа «С Новым Годом!». Веселье прервало появление милиции (тогда еще милиции). Оказалось, дизель «страшно тарахтит и воняет» и кто-то из жильцов вызвал милицию. Менты предложили «свернуть лавочку», а к идее оставить дизель до утра отнеслись крайне скептично. Пошли отключать, понимая что 1-го явно никто ничего не починит. И тут! Кто-то поднял глаза и увидел, что на соседнем доме висит световая реклама какой-то фигни и светится. Решение пришло мгновенно. На крышу был закинут провод и (под напряжением! бухими электриками!) прикручен к чужой рекламе. Тока хватило даже на зарядку батарей. Удивительно, но ничего не грелось и не горело. Ясно было, что 1-го никто рекламу выключать не придет, так что народ зашел накатить еще и начал медленно расходится. Узел от рекламы проработал до 4-го января. Потом возмущенным жильцам надоело сидеть в темноте 4-й день, они достали ЛенЭнерго и те поставили проводку толщиной в палец.
stalinets
18.06.2015 21:46+4Я как кабельщик-спайщик оптики могу тоже что-нибудь рассказать)
Скажем, как-то приезжаем на очередной обрыв кабеля в Новошахтинске и видим картину: бетонную опору освещения срезало на высоте чуть ниже человеческого роста (она, упав, повредила закреплённый на ней кабель), перед опорой — согнутый столб, на котором крепился дорожный знак, и вокруг валяются обломки пластика и лобовое стекло от ВАЗ классики. Как мы поняли, некий гражданин за рулём жигуля не вписался в поворот, налетел на знак и, согнув его, одновременно подлетел почти на человеческий рост и в полёте срубил нашу опору. Причём мы приехали на аварию быстро и там уже никого не было, видимо, уехал или своим ходом, или оперативно убрал разбитую машину.
В другой раз приезжаем на аварию и видим очень интересную картину. Ночь, пустырь на окраине города, заболоченный берег реки, дымится треющая трава. И над тёмной речной водой в ночи красиво горит маленький огонёк: это горел наш кабель. Сухая трава, видимо, горела бурно, высокое пламя подожгло кабель и огонёк по кабелю прошёл от места пожара несколько пролётов, подобравшись почти к самой реке. При этом кабель не оборвался и бОльшая часть волокон ещё работала! Мы оказались в дурацком положении: потушить кабель нечем, а если он дорогит до реки — устранить аварию будет намного труднее, придётся переправлять вставку через реку, а моста или лодки рядом нет. Бегали с бутылками к реке и пытались, как мальчишки в детстве, струёй воды сбить пламя. В итоге подъехала вторая машина — УАЗик с лестницей, и кабель успели вовремя опустить и потушить. Несгоревшего кусочка как раз хватило, чтобы сделать муфту.
Ещё слышал пару интересных баек)
Первая байка. Авария, связистов вызывают менты в небольшой областной городок, мол, у них пропал интернет и телефон и наш кабель кто-то оборвал. Приезжает бригада и видит такую картину: около крыльца милиции валяется дохлая ворона и оторванный кабель с чётким следом от пули. При этом менты искренне удивляются, кто же это мог им прострелить кабель… И действительно, кто же это мог стрелять по воронам из боевого пистолета прямо с крыльца милиции?.. Мистика. =)
Вторая байка. Как известно, чтобы устранить порыв оптического кабеля, в общем случае требуется положить кусочек кабеля метров 50-200 и приварить его начало и конец к оорванным концам кабеля. Таким образом в линии появляется 2 новых муфты, в первой муфте конец старого кабеля сваривается с концом кабеля-вставки, во второй муфте второй конец вставки сваривается со вторым концом оборванного кабеля.
Приехали мужики на УАЗике варить такую вставку, а именно одну их этих муфт. А так как на улице был мороз, завели оба конца кабеля вовнутрь УАЗика и в тепле сварили муфту. Вторую муфту при этом варила вторая бригада. Всё нормально, связь пошла, термоусадки усажены, остаётся вытащить муфту из УАЗика и подвесить на опоре. И тут все поняли, какой EPIC FAIL произошёл. Один кабель был заведён через форточку УАЗика, а второй — через дверь…
Аналогичный случай, как рассказывают, был и с палаткой: один кабель ввели через дверь палатки, другой — под неё. Палатку пришлось резать и потом зашивать, а вот УАЗ не разрежешь, пришлось резать кабель и варить заново…
amarao
Выглядит как судорожный поиск оправданий на ковре у начальства.
В двух-трёх ДЦ не разместиться, с резервированием-то? Две /24, anycast для DNS, пара скриптов для взаимного мониторинга, и вся авария устраняется за время чиха BGP.
miga
Это очень сильное упрощение :)
Размещаться в двух-трех ДЦ нужно, если в этом есть потребность и, особенно, деньги на разработку распределенной и отказоустойчивой системы.
amarao
Есть пачки готовых решений, смысла изобретать своё нет. Никто же не занимается самостоятельной генерацией электричества, добычей и очисткой воды, вывозом и утилизацией мусора, разведением кур для столовой в офисе и т.д.
В какой-то момент становится выгодно делать самому, а не передавать на поставщику, но до этого момента — готовое решение за не очень большие деньги. С учётом, что альтернативной отсутствия решения являются полные даунтаймы…
Кстати, из истории аварий — инженер падал с лестницы и ухватился за патч-корды (оптика), входящие в центральный маршрутизатор. А потом испугался, что выдернул их, и вставил, вроде бы, обратно. И никому не сказал.
Equin0x
Rackspace и Peer1 — лавки, где изо всех сил экономят на зарплате. Linode туда же. А когда экономят на зарплате, ожидать чудес и полета мысли там, где все гениальное — просто, не приходится.