image
Мы шутили про эти телефоны, а они пригодились на прошлых выходных. Точнее, пригодилось резервирование телефонии. Не конкретно эти, но похожие)

Вот тут пост про нашу аварию на прошлых выходных. Там всё было по горячим следам, потом я обещал подробнее ответить на вопросы. Отвечаю. Самое главное, пожалуй, что бы я хотел донести, — в комментариях к первому посту было очень много советов, что можно сделать, чтобы избежать такой же аварии. Но большинство из этого мы делать не будем. Потому что это ошибка выжившего: защищаться надо от вероятных рисков, а не от крайне маловероятных, где совпадает сразу пять факторов. Точнее, можно и от них, но есть критерий экономической обоснованности.

Но давайте обо всём по порядку.

— Сколько клиентов пострадало?

— На три часа и более в одном ЦОДе отключилось 7–10 % из 14 наших, то есть менее 0,5 % от общего числа клиентов хостинга (точнее, хостов). Тем не менее мы очень подробно рассказываем про эту аварию, потому что она вызвала очень много вопросов.

— Почему вы занимаетесь ЦОДом, а не встаёте в готовый?

«Прекрасная история, спасибо! Совет автору: ищите компанию, которая занимается ЦОДами давно и профессионально, ну а вам — переориентироваться на продажу сервисов/мощностей в этих ЦОДах...»

— Сейчас по миру у нас 14 ЦОДов, где можно разместиться. Один из них, первый в Москве, с которого всё начиналось, — наш. Именно в нём произошла эта авария, и именно поэтому я так подробно всё рассказываю. Естественно, было бы логично уже давно сосредоточиться только на VDS-хостинге, как мы делаем везде по миру, но это наш базовый ЦОД, он для нас дорог. В смысле пока всё же экономически обоснованнее держать его. Плюс у нас на площадке есть аттестация ФСТЭК, что позволяет строить защищённые сегменты. Ну и охрана у него впечатляющая, про это — ниже.

Вообще тут вопрос намного более сложный. RuCloud Королёв — это наш первый ЦОД. Мы его создали сразу после истории с «Караваном», когда «Караван» ушёл в небо. Напомню, что они при срочной необходимости переехать не смогли забрать с собой энергетику и много других вещей, и это стоило им бизнеса. Полностью. Теперь — про экономику ЦОДа: если вы строите свой, то с масштабом снижается доля постоянных издержек. То есть с экономической точки зрения надо строить ЦОД как можно большего размера. А вот с точки зрения ведения ИТ-бизнеса в России — как можно меньшего, потому что, если есть выбор между одним ЦОДом и двумя-тремя, второе намного надёжнее. Но каждый инстанс получается дороже. В итоге мы построили свой ЦОД, подняли в нём аттестованный ФСТЭК сегмент (это своё помещение, защита от прослушивания, защита от лазерного считывания вибраций, сертифицированное оборудование, сертифицированное ПО, аудиты) — такого на общих площадках в принципе не сделать, а некоторым клиентам это важно. В смысле по рекламным проспектам может создаться впечатление, что можно, но нет. Равно как и с PCI DSS в Европе чаще всего — так же. Опять же свои админы, свои правила. Но тут — как с 3F: лучше всё же арендовать.

Соответственно, дальше мы раскладывали яйца по разным корзинам. Сейчас их 14. К концу недели будет 15. Можно выбрать любую.

— То есть надо читать блог, чтобы понимать некоторые незадокументированные особенности ЦОДов?

— Да. Мы же не можем прямо на сайте явно написать про ЦОД в Амстердаме, что там в стране легальны порнография и варез, и поэтому там можно выкладывать свежий фильм Михалкова без юридических проблем. Точно так же мы не можем рассказать про все особенности других ЦОДов. По большому счёту они сводятся к тому, что «по беспределу не заберут сервер», к особенностям охраны, питания, законодательства страны и так далее. Корпоративных клиентов мы консультируем на переговорах, если надо.

Сразу скажу, что даже Tier-IV никак не защищает от аварии. У нас был пример, когда 10 часов не было Интернета в Швейцарии. Они каждые 15 минут писали, что сейчас всё будет, кстати. Молодцы! Хороший статус-апдейт.

Вкратце вот: в ZUR1 (Цюрих) — 2N по питанию и N+1 охлаждения, внутренний стандарт SLA — 99,999 % (это выше, чем в Tier IV по UI). Во Франкфурте (это наш второй Tier IV UI) — N+1, два городских ввода от разных станций. EQUINIX LD8 гарантирует SLA TIER III (99,98 % — те самые 105 минут простоя в год). Питание и охлаждение — N+1, но они очень сильно заморочились на резервирование Интернета, аплинки с нескольких магистралей. Linxdatacenter — питание N+1. Екатеринбург — N+1. AMS9 — N+1. Останкино — четыре независимых ввода, прямое подключение к ТЭЦ-21, N+N.

А вот что мы реальном можем сделать — это написать SLA в каком-то виде на каждом из ЦОДов при выборе места для создания VDS. Это мы сейчас обдумываем, потому что SLA надо считать и фактический, и какой-то ещё прогнозный.

— Уложились ли вы в свой SLA?

«Было бы очень интересно послушать про SLA и про то, как оно сейчас реализуется в текущей действительности...»

— У нас по этому ЦОДу SLA — с 99,98-процентной доступностью, это 1 час 45 минут возможного простоя в год. Сразу скажу: это только в рекламе, а в документах это никак не регламентировано. Но мы всё равно выплачиваем компенсации.

Напомню, что в этом ЦОДе были клиенты с простоем больше трёх часов (77 % пострадавших), около 10 % — с простоем около 12 часов, и около 1 % — с простоем больше. Естественно, мы сразу же обещали компенсации всем тем, кто попал под этот инцидент. Надо понимать, что речь идёт про оговорённые договором компенсации, то есть если там была трейдерская машина, которая должна была что-то выкупить в нужный момент и клиент от этого потерял или недополучил какую-то сумму, — простите, но по договору мы компенсируем время простоя сервера, а не недополученную прибыль в результате работы ПО. Для критичных случаев как раз используется георезервирование, и именно поэтому нас выбирают: среди российских VDS-провайдеров у нас наиболее широкая география.

Сейчас, возможно, мы ещё выдохнем и будем менять договоры в сторону более явного прописывания SLA. Если бы мы делали это заранее, то ЦОД в Королёве имел бы 99,96 % или 99,9 %, а не 99,98 %. Для примера: фактический аптайм 100 % с 1991 года есть в Останкино.

Собственно, поэтому Королёв и дешевле других ЦОДов по колокации. Мы продаём колокацию во всех точках нашего присутствия, но об этом мало кто знает. У нас много места везде, кроме М9.

— Почему ИБП хватает только на одно переключение дизеля?

«Тут много всяких «полезных» решений насоветовали в комментариях, разумеется. Вроде стресс-проверок отключением электроэнергии каждую ночь и покупки ИБП с акумом на сутки работы. Лол».

— Похоже, про ИБП всё же надо объяснить. На текущий момент общемировая практика — держать их из расчёта одного набора свинцовых батарей на юнит, что обеспечивает несколько минут работы. За эти несколько минут нужно сделать переключение питания, то есть завести дизель. Заряда хватает обычно и на второе переключение с дизеля на городской ввод. Батареи заряжаются около 9–12 часов минимум. В случае если отключений питания несколько, то с каждым новым разрядом вырастают шансы, что они отключатся вместе с частью стоек. Почему так? Потому что бесконечно копить батареи обычно не имеет смысла. Уже начиная с полуторного запаса начинаются сложности с их размещением (они травят водород, то есть нуждаются в своей вентиляции, им нужен свой климат-контроль, они очень тяжёлые, то есть давят на перекрытия). В ЦОДах высокой ответственности вместо свинцовых батарей используются ДДИБП — огромные волчки, вращающиеся в гелии или вакууме, которые крутят вал генератора. У нас такого в этом ЦОДе, естественно, не было. Если бы было — размещение было бы куда дороже, и логичнее было бы дублировать ЦОД целиком. Что, собственно, у нас сделано 14 раз.

— Почему охрана не пускала админов в девять утра в субботу?

— Потому что одна из главных фичей Королёва — это та самая охрана режимного объекта, которая не стесняется посылать на три буквы всех, кого нет в списках. То есть они как-то умудрились даже [данные удалены] лицом в пол [данные удалены] приехавших нас аттестовать [данные удалены]. Потому что они размахивали какими-то корочками и хамили.

В Останкино у нас, например, охрана — отдельным батальоном Росгвардии. Поверьте, туда не приедет никакой ретивый сотрудник МВД с документами на следственные действия по виртуальному серверу вынимать физический. А это известный российский риск: если рядом с вами стоят странные персонажи (а на любом крупном VDS-хостинге всегда есть доля таких клиентов, и я про это писал), то может приехать сотрудник и попытаться выдернуть сервер. А железо — оно не такое, что вот на этом сервере добрые, а на этом — злые. Оно общее. Мы по опыту коллег знаем, что самый быстрый возврат сервера по звонку начальника: «Ты что там такое творишь? Верни железку обратно!» — занимает пять часов даунтайма. Спасибо, такого не надо ни нам, ни нашим клиентам.

Поэтому охрана действовала ровно в рамках своих полномочий. Мы находимся на территории стратегического производства. С началом кое-каких событий тут очень поднялся уровень паранойи. Героев, желающих проскочить, потому что внутри что-то срочное, хоть отбавляй. Охрана — в нашем случае внешний периметр Росгвардии — пускает тех, кто есть в списке, и не пускает остальных. Аварийной команды в списке не было, им нужно было получить соответствующий приказ. В лица они нас знают прекрасно, но нет — правила есть правила! Как я уже говорил, они очень юзерфрендли, почти как UNIX. То, что нам надо обсудить, как пускать своих людей во время аварий, — это отдельный вопрос, его сейчас прорабатываем. Возможно, будем страховаться и выписывать дополнительные разовые пропуска каждую смену. Собственно, вы сейчас будете смеяться, но мы так и делали, просто не на всех, а на одного человека дополнительно на всякий случай, и как раз он смог приехать уже к концу инцидента.

— Почему патрубок дизеля лопнул? Вы что, его не обслуживали?

— Дизель обслуживается каждые полгода. В этот раз срок был даже меньше, потому что зимой мы стояли на дизелях сутки во время прошлого отключения питания от города. Каждый месяц мы проверяем дизели и топливо, но не под боевой нагрузкой из нашего машзала, а под синтетической.

Обычная практика ЦОДов нашего размера — резерв из N+1 дизелей. У нас был 2N, нужен 2N+1.

Как вы видите выше, даже Tier-IV ЦОДы не считают критичным подниматься до 2N+1.

— Почему дизель чинили админы?

— Потому что не было выбора: дизелист был снаружи. Естественно, админы не должны были этого делать, естественно, большое спасибо, что получилось. Админы — однозначно герои этой истории!

— Почему на территории нет моториста постоянно?

— Потому что при дублировании вторым вводом из города, дизелем, 2N дизелем и ИБП шанс, что понадобится моторист, исчезающе мал. Для предотвращения маловероятных рисков проще дублировать ЦОД, что, повторюсь, у нас и сделано 14 раз. Вообще каждый раз, когда встаёт вопрос повышения на 0,5 % шанса в случае аварии или при открытии новой площадки начиная с какого-то экономического порога лучше выбирать геораспределённость. Это же ответ про то, готовы ли мы запуститься после пожара топлива: нет, не готовы, мы потушимся штатно, но не перезапустим дизели в разумный срок. А вот что реально стоит пересмотреть — это режим работы вентиляции, нужны отдельные решения под неё.

Теперь — самое интересное. На каждые плановые работы или начало каждой аварии мы тут же зовём профессионалов с дизелем, который арендуем. То есть когда планируются работы на подстанции, у нас резерв 3N по дизелям (наши плюс привезённый мобильный) и мотористы в дежурстве. В данном случае ещё один дизель на 0,5 МВт и команда обслуживания прибыли и смогли попасть на территорию уже после включения луча из города.

— Почему админы вручную включали оборудование?

«И «Админы бегали между стойками» — даже после отключения питания машины должны сами подниматься».

— Как раз машины не должны сами подниматься. История знает слишком много ситуаций, когда несколько циклов включения-выключения по питанию разваливают рейды и ломается железо. У нас настроено так, что после нештатного отключения питания часть оборудования надо включать вручную осознанно. В обычное время, когда не надо зажимать руками патрубок дизеля, это очень хорошая практика. И нет, мы не собираемся менять её несмотря на произошедшую ситуацию. Это как с ремнём в машине: есть незначительный процент аварий, когда пристёгнутый ремень хуже, чем непристёгнутый. Но статистически верно пристёгиваться, если задача — выжить.

— Были ли потери данных?

— Нет, рейды не сыпались. Если не считать нештатных перезагрузок и потерь того, что было в оперативной памяти, всё остальное более-менее нормально (насколько мы знаем).

— Почему вы не сделали всё, чтобы предотвратить аварию?

— На самом деле мы сделали всё, что казалось вероятным и при этом укладывалось в экономическое обоснование. По каждому риску вы делаете следующее: оцениваете его вероятность, а также ущерб от него и решаете, сколько вы готовы потратить на предотвращение. И, соответственно, оцениваете, насколько его можно предотвратить за этот бюджет. Исходя из этой модели очень хорошо закрываются наиболее вероятные риски и куда хуже — маловероятные. К нашествию пришельцев, высаживающихся в ЦОД, мы не готовы. Эта ситуация с цепочкой из пяти совпадений подряд — на самом деле тот же класс риска.

Как я уже говорил, мы исходили из двух неверных допущений в оценке рисков: что резервировать дизели надо по 2N, а не 2N+1 (уже исправили), и что DDoS-защита (за которой был мониторинг серверов) не нуждается в кластере коммутаторов, если есть один надёжный онлайн и один точно такой же в шкафу через 20 метров от стойки. Ну и главный косяк — мониторинг должен быть геораспределён, это мы знали, но не успели сделать.

— От каких рисков вы защитились тогда, например?

— Мы прекрасно отработали несколько прошлых рисков: и санкционные отключения оплат, и отзыв лицензии у банка с платёжным шлюзом, и крупные атаки прошлого года. У нас нет желания экономить на рисках, но у всего есть разумные пределы.

Например, мы очень долго занимались сетевыми драйверами и писали свои, а затем сертифицировали их в Microsoft (ну с последней версией уже не выйдет, а вот предыдущие сертифицированы и лежат в каталоге ПО гипервизора).

После общения с другими хостинг-провайдерами могу сказать, что ситуация с сетью у нас очень хорошая. Именно в Королёве у нас огромная плотность вычислительных машин — это из-за 30-рублёвых промотарифов. И у нас там порядок в сети. При последней большой DNS-атаке, затронувшей всю страну (привет, домены Битрикса!), пострадали, кажется, вообще все наши знакомые. У нас же только два человека хоть как-то пострадали среди всех клиентов. Два человека, Карл! Мне кажется, что это лучший показатель порядка в сети.

Мы предотвратили очень много инцидентов, направленных не в наш карман, а в сторону клиента, благодаря правильным ACL, драйверам и т. п. У этого есть оборотная сторона: в субботу не могли быстро включить коммутатор на замене вместо выгоревшего. Теперь продумаем и это, скорее всего, построим кластер.

В целом по этой аварии вопрос такой: «Действовал бы я точно так же, если бы мог вернуться в прошлое?» Ответ: «Скорее всего, да». Без проклятия знания все действия ДО были рациональными.

— Почему вы пишете про такие вещи?

«Вот за такие триллеры вам можно простить горы проходного шлака, который обычно публикуется в этом блоге. Побольше бы таких историй! ;)»

— Мы открыто рассказываем про все ситуации, которые влияют на хостинг. Да, мы прекрасно понимаем, что в России так не принято. Да, мы прекрасно понимаем, что из-за этого открывается много приподзакрытых глаз, не знающих, как всё изнутри. Да, мы понимаем, что другие хостинги, утаивающие детали про то, что у них происходило и происходит, до какого-то момента надёжнее смотрятся со стороны. Тем не менее моё осознанное решение как владельца компании — долговременная репутация. Если уж мы лажаем, то рассказываем об ошибке. Мы тут не на пару дней и вроде до этого момента более-менее успешно избегали серьёзных косяков.

«Захватывающая статья! Очень импонирует то, что вы открыто говорите о своих косяках. Думаю, что даже у недовольных отключением пользователей её прочтение повысит доверие к вам».

Если быть честными, то скорее наоборот. Это вот вторая публикация про менее чем 0,5 % клиентов хостинга, но при этом выглядящая так, как будто всё произошло по всему гриду. Но я очень надеюсь на то, что наши клиенты — всё же рациональные люди.

— Как себя чувствуют админы?

— С моей точки зрения, они герои той ночи! Но, тем не менее, они довольно сильно подавлены, потому что успели прочитать комментарии и чаты. Каждый раз возникает ощущение, что ты что-то недоработал, и при любой аварии ответственный человек начинает корить себя. Наши админы как раз очень ответственные, и ЦОД — их детище во многом. Естественно, они расстроены. Более того, мы с командой очень долго обсуждали, нужно ли публиковать материал про эту аварию второй раз: это ведь ещё один удар по ним фактически. Представьте себя сейчас на их месте: ощущение будет не из приятных. Полагаю, что девопсы и админы, которые знают, что у них в инфраструктуре что-то ещё неидеально (а это постоянное чувство, и оно сохраняется годами), это поймут.

Комментарии (75)


  1. ky0
    26.06.2023 07:14
    +2

    У нас по этому ЦОДу SLA — с 99,98-процентной доступностью, это 1 час 45
    минут возможного простоя в год. Сразу скажу: это только в рекламе, а в
    документах это никак не регламентировано. Но мы всё равно выплачиваем
    компенсации.

    Nuff said. Компенсации, конечно же, расчитываются от стоимости получаемых услуг? Типа, 0.3% стоимости аренды за каждый час простоя?


    1. ntsaplin Автор
      26.06.2023 07:14
      +1

      Не совсем, это было бы не очень справедливо, клиент ведь подписывался не на режим работы два через два. Это не компенсаций недополученной прибыли или чего-то подобного, но и не "в лоб" возврат за 3 часа простоя исходя из тарифа. Есть минимальная компенсация даже за пару минут простоя.


      1. a-tk
        26.06.2023 07:14
        +8

        Мне кажется статья о схемах компенсации отлично зашла бы (или она уже была?)


  1. Javian
    26.06.2023 07:14
    +5

    Кстати о телефонах. Завязывание всё на IP телефоны, может проявиться именно так как в публикации, когда сломается то, что недолжно было ломаться.
    Хотя бы часть часть важных помещений должны быть связаны независимой АТС. Особенно если они в подвале, где мобильной связи нет.


    1. vikarti
      26.06.2023 07:14

      Завязывание всё на IP телефоны, может проявиться именно так как в публикации, когда сломается то, что недолжно было ломаться.

      А собственно как еще? Не админов телефонии же ставить


      Особенно если они в подвале, где мобильной связи нет.

      А VoWiFi на телефонах разве не для таких вот случаев делают? Ну да — надо чтобы работал WiFi в этом подвале.
      Ну и… есть кстати облачные сервисы IP-телефонии которые готовы выдать SIM/eSIM… вот правда как минимум часть из них VoWiFi не поддерживает даже если "базовый" оператор в это может. Можно для таких целей на том же смартфоне где SIM от оператора такой телефонии n и Zoiper какой то иметь.
      Правда вопрос насколько у такого сервиса все защищено от аварий


  1. Yuriy_krd
    26.06.2023 07:14
    +10

    Ребята, вы молодцы, что все порешали. Но! С дизелем вы облажались по полной программе. Это ваш косяк и ваша вина в том, что обслуживание проводилось недостаточно качественно. Я обслуживаю свои машины сам (мои авто не знают, что такое СТО). И могу сказать с полной уверенностью — ни один патрубок не перейдет из состояния "полностью исправен" в состояние "разорван" ни за час, ни за день. И даже за неделю не перейдет. он будет достаточно долго и медленно трескаться. Выявляется это визуально при простых сжатиях патрубков рукой. И судя по вашей истории, патрубкам было плохо уже зимой (в холодном состоянии без давления резина не продолжает разрушаться, как ржавчина на металле). И никто их не осматривал, минимум, полгода.


    1. sim31r
      26.06.2023 07:14
      +4

      Нужна статистика, без статистики можно получить ошибку выжившего. У вас единичные примеры, у автор статьи статистика по 14 датацентрам. Если массово проблемы с дизелями нет, значит такой тщательный осмотр не нужен или отсутствие осмотра не критично корректней сказать. То есть ради увеличения надежность на 0.1% вводить штат дизелистов осматривающих патрубки дизелей нецелесообразно. У вас уклон в дизели, у них в написание сетевых драйверов на низком уровне. У кого-то, как в статье описано в резервирование по датацентрам, больше ДЦ, значит ниже требования к каждому по отдельности.


      1. javalin
        26.06.2023 07:14
        +3

        Так для осмотра патрубков и не нужен штат дизелистов, надо что бы плановое ТО проводилось нормально.


  1. Tzimie
    26.06.2023 07:14
    +8

    Мы с Иваном Кузмичем работали на дизеле (с)

    А что за история с Караваном? Где почитать?



    1. ntsaplin Автор
      26.06.2023 07:14
      +6

      Интернет помнит не все, но кое-что в подтверждение свидетельств очевидцев все же удалось откопать.

      Telehouse Caravan был одним из самых современных дата-центров в 2010-х, когда еще DataPro и в помине не было. Там размещались почти все заметные в то время проекты: Связной, Банки.ру, Туту.ру, Техносила. Оттуда свой путь начали и мы. К сожалению, на место, где был размещен дата-центр, у Правительства Москвы были другие планы. Промзону, расположенную по адресу Проспект мира 222, заняли сначала Северо-Восточная Хорда и МЦК, а затем и бизнес-кварталы.

      В результате Caravan разделился на 2 части, одна из которых была продана Reg.ru (железо и то, что удалось вывезти из дата-центра до сноса), а вторую поглотил Rusonyx (торговую марку, технологии, клиентов).


  1. ugenk
    26.06.2023 07:14
    +19

    Как обычно, толпы специалистов, которые знают как надо делать. Очевидно, что в хостинговых компаниях, которые им принадлежат, всё делается совсем не так :)


  1. ifap
    26.06.2023 07:14
    +10

    Возможно, будем страховаться и выписывать дополнительные разовые пропуска каждую смену.

    Которые в один не самый прекрасный момент кто-то забудет/поленится заказать, тут-то все и... Как вариант: постоянный "вездеход" на каждого потенциально требующегося при аварии сотрудника - в опечатанный конверт, конверт - в опечатанный шкаф под камерой. Вскрытие - по регламенту в случае ЧП, передача "вездеходов" через проходную примчавшейся группе быстрого реагирования. За вскрытие конверта без ЧП - публичная порка виновных перед строем полка.


    1. Wesha
      26.06.2023 07:14
      +1

      публичная порка виновных перед строем полка.

      Шпицрутенами!


      1. ifap
        26.06.2023 07:14
        +2

        Патч-кордами, разумеется. Не важно чем, важно - достаточно ли больно, чтобы выбить из голов мысли: ладно уж, один раз нарушу, потом объяснительную напишу.


        1. Wesha
          26.06.2023 07:14
          +3

          один раз нарушу, потом объяснительную напишу.

          "Легче просить прощения, чем разрешения" (c)


  1. FlashHaos
    26.06.2023 07:14
    +2

    Охрана — в нашем случае внешний периметр Росгвардии — пускает тех, кто есть в списке, и не пускает остальных. Аварийной команды в списке не было, им нужно было получить соответствующий приказ. 

    Но приказ-то им дать почему не могли? У вас нет процедуры эскалации, как есть в случае с любой сервисной организацией? Или из-за того, что это силовики, вариант с эскалацией на уровень принятия решения невозможен?


    1. vitvakatu
      26.06.2023 07:14
      +1

      Прочитайте предыдущую статью, там про это есть. Дело произошло ночью на выходных, до начальства было оперативно не добраться.


      1. FlashHaos
        26.06.2023 07:14
        +2

        Ну вот у меня и вопрос - каким образом может быть так, что до начальства не добраться. Я живу в мире, где при инциденте начальники добываются довольно быстро. Этому мало кто рад и иногда это может выйти боком, но это возможно.


        1. MountainGoat
          26.06.2023 07:14
          +4

          Ну как быстро. Вон в Корее тонул крупный пароход с людьми. Корейские МЧСники прибыли на место быстро... и 3 часа не начинали эвакуацию, потому что не могли получить отмашку от начальника в правительстве(!). В результате спасли только команду и тех пассажиров, которые сами вышли на палубу - их забрали катера природохраны.


          1. Forum3
            26.06.2023 07:14
            +3

            А разве МЧС нужна отмашка? Это же их работа, спасать людей, особенно, если они кричат - спасите нас. И смешно, и грустно.


            1. Wesha
              26.06.2023 07:14
              +3

              А разве МЧС нужна отмашка?

              Восток — дело тонкое, сэр!

              Электричества не было на станции — но в 6 км было! Что делали бы мы — катушка кабеля и бегом. У них это невозможно. Когда проложили кабель — разъемы для соединения не подошли. Так они их заказали на заводе. Хорошо, что еще тендер не объявили.

              гендиректор "Росэнергоатома" В Асмолов об аварии на Фукушиме


              1. Javian
                26.06.2023 07:14

                Говорят в Россетях как у японцев. "Если что компания и начальники распоряжений не давали, это собственная инициатива работника".


                1. konst90
                  26.06.2023 07:14
                  +1

                  Логично, компании не хочется отвечать в ситуации, когда работник попытался соединить кабели скруткой вместо штатного разъёма и убился током.


                  1. eton65
                    26.06.2023 07:14

                    Несовершенство трудового законодательства.


                  1. Wesha
                    26.06.2023 07:14
                    +1

                    Зато компании хочется отвечать, когда в результате произошло разрушение контейнмента и пришлось эвакуировать 100500 человеков, да.


        1. CherryPah
          26.06.2023 07:14
          +1

          Начальники добываются быстро когда они под угрозой разделения ответственности за сроки восстановления после инцидента. Очевидно что при выходе из строя целого цода, начальник системных администраторов, да что уж там, гендир компании будет поднят звонком в любое время суток.

          А вот начальник отдельной организации, к тому же к самому цоду имеющий опосредованное отношение (он отвечает за охрану как я понял некоей "стратегической" территории с возможно десятком арендаторов, может и не быть доступным, рядовые сотрудники на местах не понимают масштаб проблемы, и не видят необходимость эскалации за которую потом могут по голове не погладить, а скорее наоборот.


  1. Lirix_vladimir
    26.06.2023 07:14
    +6

    Надеюсь админы получат хорошую премию.


    1. sim31r
      26.06.2023 07:14
      -2

      И будут провоцировать такие аварии. Расшатывать патрубки и сводить критичные сервисы в один датацентр )


      1. kchhay
        26.06.2023 07:14
        +3

        Премия - за решение проблемы. А за ее создание - серьезные разборки. Как видите, каждая проблема была нормально исследована. При регулярных повторениях могут возникнуть подозрения, конечно, но мне кажется, что в данном случае, премии админы заслужены.


        1. sim31r
          26.06.2023 07:14
          -1

          Думаю админ, годами работающий в датацентре знает сотни способов создать разные проблемы и потом героических их решить. Один из них патрубок генератора, остальные касаются другого оборудования и ПО.

          А так конечно премия должна быть хотя бы как компенсация за стресс.


          1. Lirix_vladimir
            26.06.2023 07:14
            +1

            За патрубки дизелист отвечает. Админы его косяк исправляли.
            Да и если систематически начнутся проблемы и они систематически будут героически решаться, то подозрения быстро возникнут.


  1. nikhotmsk
    26.06.2023 07:14
    +1

    У меня вопрос по питанию. Скажите, а у серверов есть приоритеты по питанию? Если генератор окажется перегружен, они умрут все одновременно, или сначала выключатся низкоприоритетные?

    (Я знаю, что в городе есть такая штука, если частота падает, защита отключает потребителей по таймеру, спасая что-то более важное)


    1. ntsaplin Автор
      26.06.2023 07:14
      +2

      Приоритета у нас нет. Все клиенты одинаково важны.


      1. vvzvlad
        26.06.2023 07:14

        А клиенты/сетевая инфраструктура? Не может случиться так, что погаснет коммутатор, хотя выгоднее погасить машину?


        1. ntsaplin Автор
          26.06.2023 07:14
          +1

          Погасить сервер всегда тактически хуже. Потому что это потеря состояний виртуалок (не сохранение последнего состояния в работе), потенциально проблемы с рейдом. Выключение коммутатора — кратковременный перерыв связи без рисков потери данных.


  1. M_AJ
    26.06.2023 07:14
    +1

    Нет ответа на главный вопрос, как так получилось, что система, которая считалась не критической (тот самый коммутатор, который лежал в шкафу) "внезапно" оказалась критической. Это явная ошибка проектирования, причем очень грубая, так как никто не понял заранее, что авария на этой системе отключит мониторинг, на который завязано полноценное функционирование всех ЦОДов. То есть вы прозевали критическую точку отказа. Это и была вторая фатальная ошибка, вместе с отсутствием доступа у персонала.


    1. PowerMetall
      26.06.2023 07:14

      Так в предыдущей статье, ЕМНИП, на неё и был дан ответ, уровня "мол да, тут мы облажались, будем делать кластер"


  1. itoolsy
    26.06.2023 07:14
    +1

    Не было самого главного вопроса - почему так вышло, что дизели перегрелись? Они не были рассчитаны на нагрузку или в чем проблема? То, что вы хотите поставить 500N+500 дизелей малой мощности не даст вам надежность.
    И второй вопрос не задал никто вроде - почему нельзя было сразу же при первых глюках коммутатора, что во внутренней сети - сразу его поменять на 100% рабочий превентивно? Вы вроде писали, что старый работал, но как-то не так - вот как только стало ясно - это как-то не так и заменить...
    В остальном - вы молодцы, особенно ценно, что вы все рассказываете - как правило политика все замолчать и...


    1. M_AJ
      26.06.2023 07:14

      вот как только стало ясно - это как-то не так и заменить

      Насколько я понял, так и сделали, просто то, что с ним что-то не так поняли не сразу.


    1. Dr_Faksov
      26.06.2023 07:14
      +1

      Обычно проблема детектируется по типу "есть сигнал - нет сигнала" . А тут был вариант "есть сигнал, да не тот". На это многие разработчики систем накалываются.


  1. Arhammon
    26.06.2023 07:14

    С мобильным дизелем напрашивается идея сделать возможность подключения в менее охраняемом периметре.


    1. PowerMetall
      26.06.2023 07:14

      Чтоб потом пьяный экскаваторщик перерубил кабель ))


      1. sim31r
        26.06.2023 07:14

        Это очень маловероятно, чтобы совпало отключение двух вводов от городской сети и ввода от генератора в это же время с точностью до часа (или как вариант удар в него молнией, затоплением цунами, вандализмом).


  1. zVadim
    26.06.2023 07:14
    +2

    Спасибо за подробный и правдивый ответ о SLA! Я уже было подумал, что мой вопрос в комментарии к предыдущей статье не был замечен, или был сознательно пропущен как "дискредитирующий". Обещание девяток в рекламе, и их отсутствии в договорах - это так-себе решение. А вот выплата компенсаций пострадавшим от сбоя и планы по внесению SLA в договора - это правильно


    1. sim31r
      26.06.2023 07:14

      Интересно мнение тех, кто хостинг арендует. Нужна ли им эта компенсация, что с ней делать? Думаю клиенты предпочли бы отсутствие сбоев. А компенсация на фоне потерь исчезающе мала. Тут лучше подойдет страхование бизнеса, это должна делать страховая компания, а не хостер.

      У меня например недорогой VPS сервер есть, затраты на него небольшие, а компенсация за простой в 10% от платежа на уровне шума что-то, сумма вообще ни о чем.


      1. vikarti
        26.06.2023 07:14
        +1

        SLA 100% за время простоя — нафиг — это в любом случае копейки.
        Потому что если простой будет пару дней и сервис еще нужен (=проблема не (хотя бы) регионального) уровня) — арендатор будет уже думать не про возврат 6% от месячной оплаты, а про то, у какого нового хостера, поднимать бекап (если он конечно есть).
        SLA вида — простой больше часа = следующий месяц бесплатно хоть чем то лучше.


        Потерянную прибыль никакой хостер разумеется компенсировать не будет.


        1. sim31r
          26.06.2023 07:14

          SLA вида — простой больше часа = следующий месяц бесплатно хоть чем то лучше.

          Чем лучше? Возвращаемся к исходным условиям. При большом простое клиенты все равно уйдут к другому хостеру.


          1. vvzvlad
            26.06.2023 07:14
            +1

            Тем лучше, что когда мне за малейший простой насыпают в качестве компенсации дорогих ресурсов — я знаю, что хостер не будет относиться к простоям спустя рукава, т.к. ему они обходятся в ощутимые суммы компенсаций. Мне не столько этот месяц бесплатный нужен, сколько подтверждение того, что за каждый простой хостер теряет деньги — отдаст он их мне или в детский дом, не так важно, главное моя уверенность в том, что они будут потрачены.

            А если хостеру простой обходится в х2-х3 денег за эти часы(сколько там, допустим 3000/30/24*10*3=125р за 10 часов простоя, смешно), то да, при втором повторении факапа я пойду искать другого хостера, потому что когда пенальти за факап небольшое — ничего не мотивирует факапы предупреждать.


            1. sim31r
              26.06.2023 07:14

              Это какие-то психологические манипуляции менеджером над клиентами. Для инженера важна только статистика, простой средний 5 минут в год по данным за 10 лет. Или 0 минут у некоторых хостеров, но дороже. А когда начинается игра на когнитивных искажениях, это может только раздражать. Упал сервер - получи бейсболку в подарок.


              1. vvzvlad
                26.06.2023 07:14

                Вы читать-то умеете, или ключевые слова парсите и на них ответы пишете?


                Я прямым текстом говорю: большую компенсацию мне я рассматриваю не как бесплатную бейсболку, а как штраф хостера за факап. Маленький штраф разрешает им косячить дальше, и такого хостера надо менять, большой штраф — мотивирует не косячить и одновременно демонстрирует мне, что хостер более-менее уверен в том, что следующий факап будет небольшим.
                Если хостер вместо компенсации будет на эти деньги устраивать фейерверк с надписью в небе "мы лохи и не держим SLA", то в целом, мне примерно одинаково от обоих вариантов будет.


                1. sim31r
                  26.06.2023 07:14
                  -2

                  Тут уже особенности когнитивных искажений клиентов. Одним нужно наказание. Другим только статистика. Третьим личное внимание от менеджера причем в ходе личного общения. Кому-то нужна только статистика без цирка от менеджеров, например простой строго 0 в год, без компромиссов.

                  Как вариант хостер может не платить компенсаций, потому что работает с минимальной наценкой за оказание услуг и компенсация за простой уже в составе тарифа изначально. И менеджеров у них нет, так как процессы автоматизированы. Соответственно у них будет линейка тарифов для хостинга с разной надежностью. Выше надежность - выше цена.


                  1. vvzvlad
                    26.06.2023 07:14
                    +2

                    Как вы изящно ставите на все, что не укладывается в вашу логику, ярлык "когнитивных искажений". Типа, вы глупенькие, но это не вы конкретно, а все человеки.


                    По факту, есть простое соотношение цены хостинга (а значит и маржи) и цены факапа. Цена хостинга 1000/месяц, маржинальность 30%, значит цена факапа в 1000 — хорошая заявка хостера на то, что факапы будут не чаще раза в год. Цена факапа в 60("мы вам компенсируем пару дней") — соответственно, можно каждые пару месяцев косячить.
                    Это не "наказание", это попытка понять, что для хостера выгоднее исходя из его внутренней экономической модели — вкладываться в предотвращение факапов или компенсировать простой. Если первое — то с ним можно работать, даже если что-то случается, если второе — то даже от устраивающего всем хостера стоит уходить, потому что бизнес не обманешь.


                    Гарантированного нулевого простоя в год не бывает и не будет — кто вам гарантирует такое, просто врет, и такому хостера доверия еще меньше, чем кому-либо. Про "нулевой простой" можно говорить только ретроспективно, но это такое: у меня ретроспективно у сервера дома тоже нулевой простой за прошлый год, но за хостинг такого уровня я гроша ломанного не дам.


                    1. sim31r
                      26.06.2023 07:14

                      В статье же есть пример, аптайм 100% на одной из площадок

                      Сейчас, возможно, мы ещё выдохнем и будем менять договоры в сторону более явного прописывания SLA. Если бы мы делали это заранее, то ЦОД в Королёве имел бы 99,96 % или 99,9 %, а не 99,98 %. Для примера: фактический аптайм 100 % с 1991 года есть в Останкино.

                      То что хостер может врать, это конечно проблема. Может получится так, что большую прибыль получит не тот, кто обеспечил наилучшее соотношение цена/качество, а у кого лучше маркетологи, которые манипулируют имиджем компании.

                      что для хостера выгоднее исходя из его внутренней экономической модели

                      Можно предположить что хостер не выплачивает компенсации, а покупает новое оборудование повышающее его надежность. Тут снова всё меняется до наоборот для клиента.


                      1. vvzvlad
                        26.06.2023 07:14
                        +1

                        В статье же есть пример, аптайм 100% на одной из площадок

                        Для примера: фактический аптайм 100 % с 1991 года есть в Останкино.

                        Это ретроспективный анализ. Не выключать же сервера в конце года чтобы держать 99.9. Но если вы придете к ним и скажете "плачу в три раза больше, гарантируйте мне 100% аптайм на следующий год со штрафом 500%", то на это щедрое предложение никто не согласится, хотя казалось бы, что им стоит на халяву получить х3 к чеку, раз у них уже 30 лет аптайм.

                        Можно предположить что хостер не выплачивает компенсации, а покупает новое оборудование повышающее его надежность. Тут снова всё меняется до наоборот для клиента.

                        Может, конечно. Но у меня к этой информации доступа нет, а если бы был — у меня недостаточно квалификации, чтобы проанализировать ее, и если честно, недостаточно желания и времени.
                        Поэтому я делаю проще: если штраф за факап достаточно большой, выгоднее будет стремиться к недопущению факапов, а это автоматически влечет за собой покупку нужного железа, обучение сотрудников и так далее.


          1. vikarti
            26.06.2023 07:14

            Тем что у клиента есть возможность подумать, остыть немного и посмотреть. В том числе посмотреть на то, это точно был единичный случай или потом еще вскроются детали.
            Ну и можно как минимум резервом оставить старый хостинг на этот месяц.
            Потому что, как мне кажется, проплачивать еще один месяц (если оплата помесячная — обычно ж так) после такого — ой врядли кто-то будет.
            Да и для хостера это стимул НЕ повторять факап.


            Ну можно не месяц, можно взять как компенсацию среднепотолочную стоимость альтернативного хостинга на месяц (сейчас с оплатой "за ресурсы" мало кто) + среднепотолочную стоимость работы админа по восстановлению.


            1. sim31r
              26.06.2023 07:14

              Или можно ничего не выплачивать, а показать статистику, N минут простоя за 10 лет. Клиент в любом случае остынет и будет выбирать по соотношению цена/качество, если уйдет к более дорогому и менее надежному, это его личная проблема.


  1. sim31r
    26.06.2023 07:14

    они очень тяжёлые, то есть давят на перекрытия

    Тогда литий-ионный или литий-железные аккумуляторы предложенные под предыдущей статьей имеют смысл. Они легкие и могут быстро отдавать ток (до 25С) и заряжаться. То есть они продержали нагрузку 3 минуты, дождались включения резерва и через 3-5 минут снова готовы держать отключение. В таком случае литиевый аккумулятор заменяет несколько свинцовых той же емкости, каждый из которых еще и легче будет.


    1. NotebookKiller
      26.06.2023 07:14

      Литий-ионные аккумуляторы пока не научились эффективно тушить, вроде бы. Фосфатные в этом смысле побезопаснее.


      1. Wesha
        26.06.2023 07:14

        Литий-ионные аккумуляторы пока не научились эффективно тушить

        Эмммм... а методом вытеснения кислорода фреоном? Для электромобилей, конечно, не годится — но для ДЦ — вполне...


        1. sasha_semen
          26.06.2023 07:14

          Лодочная Объемная Химическая. И самоспасатель каждому работнику.


        1. sim31r
          26.06.2023 07:14
          +1

          Водой тушат как ни странно. Теслы погружают в бочку с водой и ждут пока остановятся все химические реакции. Официальная методика. Вода забирает тепловую энергию от аккумуляторов и цепная реакция останавливается, когда одна ячейка поджигает другую.


          1. Wesha
            26.06.2023 07:14

            Ну так Вы определитесь с терминами — Вам шашечки или ехать "тушить" (останавливать горение) или "останавливать тепловыделение"?


            1. sim31r
              26.06.2023 07:14
              +2

              Останавливаем тепловыделение и таким образом тушим. Если вы имеете ввиду что нужно перекрыть доступ кислорода, как при обычном горении, то это ошибка. Аккумуляторам кислород не нужен, они и так горят

              https://habr.com/ru/articles/372703/

              Итак, после того, как произошло короткое замыкание, аккумулятор начинает нагреваться. Когда температура достигает 70-90 °C, ион-проводящий защитный слой на аноде начинает разлагаться. А дальше литий, встроенный в анод, вступает в реакцию с электролитом, выделяя летучие углеводороды: этан, метан, этилен и т.д. Но, несмотря на наличие такой взрывоопасной смеси, возгорания не происходит, так как в системе пока нет кислорода.Так как реакции с электролитом экзотермические, температура и давление внутри аккумулятора продолжают повышаться. Когда температура достигает 180-200 °C, материал катода, обычно представляющий из себя оксид переходных металлов со встроенным в кристалл литием, вступает в реакцию диспропорционирования и выделяет кислород. Вот тут-то и происходит самовозгорание и ещё более резкий скачок температуры. Параллельно идёт термическое разложение электролита (200-300 °C), также выделяющее тепло
              И, в конце концов, в реакцию с электролитом (если он ещё остался) вступает графит, а когда температура достигает 660 °C, плавится алюминиевый токоприёмник. Выше 900°C температура обычно не поднимается, так как разлагаться уже нечему.


        1. mpa4b
          26.06.2023 07:14
          +4

          Проблема в том, что литиевые аккумуляторы горят сами по себе, им кислород не нужен. И горят они, пока не сгорят полностью. Выше написали про "тушение" водой, но это на самом деле не тушение, а недопущение поджога соседних банок от уже горящей. С горящей сделать уже ничего невозможно, пока она сама не сгорит до конца.


          1. vvzvlad
            26.06.2023 07:14

            Ну без кислорода они не и не горят в привычном понимании этого слова. Просто греются и плавятся, поджигая соседние ячейки. Это даже не какая-то химия, а просто запасенная энергия в тепло переходит.


            1. sim31r
              26.06.2023 07:14
              +1

              Нет, запасенная энергия дает предварительный саморазогрев до 90 градусов, а далее начинается "химия".


          1. Wesha
            26.06.2023 07:14

            Проблема в том, что литиевые аккумуляторы горят сами по себе, им кислород не нужен.

            Позвольте-позвольте, реакция "горения" — это химическая экзотремическая (т.е. с выделением тепла) реакция соединения двух химических элементов, в которой один ("горючее") образует соединение с другим ("окислителем"), передавая тому свой электрон с внешней орбитали. При этом горючее должно находиться левее окислителя в таблице Менделеева (иначе электрон не передастся, по закону сохранения энергии). Соответственно, вопрос — кто Ваш литий окисляет?


            1. sim31r
              26.06.2023 07:14
              +1

              https://habr.com/ru/articles/372703/

              Итак, после того, как произошло короткое замыкание, аккумулятор начинает нагреваться. Когда температура достигает 70-90 °C, ион-проводящий защитный слой на аноде начинает разлагаться. А дальше литий, встроенный в анод, вступает в реакцию с электролитом, выделяя летучие углеводороды: этан, метан, этилен и т.д. Но, несмотря на наличие такой взрывоопасной смеси, возгорания не происходит, так как в системе пока нет кислорода.Так как реакции с электролитом экзотермические, температура и давление внутри аккумулятора продолжают повышаться. Когда температура достигает 180-200 °C, материал катода, обычно представляющий из себя оксид переходных металлов со встроенным в кристалл литием, вступает в реакцию диспропорционирования и выделяет кислород. Вот тут-то и происходит самовозгорание и ещё более резкий скачок температуры. Параллельно идёт термическое разложение электролита (200-300 °C), также выделяющее тепло
              И, в конце концов, в реакцию с электролитом (если он ещё остался) вступает графит, а когда температура достигает 660 °C, плавится алюминиевый токоприёмник. Выше 900°C температура обычно не поднимается, так как разлагаться уже нечему.


    1. IDDQDesnik
      26.06.2023 07:14
      +1

      Не 3-5 минут на заряд, а скорее час. Тут уже мощность ввода будет ограничивать скорость. Но это все равно будет на порядок быстрее свинца.


      1. sim31r
        26.06.2023 07:14

        Если у них резерв генераторов 2N+1 то вполне может зарядить успеть за 5 минут. Или быстрее, например генератор запускается за 1 минуту, аккумулятор работает соответственно 1 минуту и заряд потребует тоже 1 минуту даже на мощности 1С.


        1. IDDQDesnik
          26.06.2023 07:14

          Резерв всегда за скобками, на то он и резерв. А отдельный генератор на заряд аккумуляторов никто делать не будет. Максимум на что можно рассчитывать это разница между мощностью вода N и текущим потреблением (условно 0,8N).


          1. sim31r
            26.06.2023 07:14

            Зачем держать резервный генератор отключенным? Вполне в такой ситуации можно запустить на 5 минут, как-раз выяснится что какие-то генераторы не вошли в рабочий режим и будет горячая замена. Бонусом быстро подзарядятся аккумуляторы.


            1. IDDQDesnik
              26.06.2023 07:14
              +2

              Держать включенным но превышающую нагрузку на заряд давать нельзя, потому что если что-то пойдет не так, система перегрузится упадет вся.


  1. SeregaSA73
    26.06.2023 07:14
    -1

    А вы не думали отдать патрубок на экспертизу а потом компании обслуживающей дизель выкатить иск в суд?