Коротко: 17 июня около часа ночи мы потеряли два ввода питания от города из-за аварии на подстанции, затем — один из дизелей, что вызвало «мигание» питания в подземном дата-центре. Итог инцидента — простой около 12 часов примерно 7–10 % машин одного из 14 наших ЦОДов.

Это просто дикая цепочка событий.

image
Это патрубок дизеля, перевязанный бинтом из админской аптечки. Сейчас расскажу, какую роль он тут сыграл.

Итак, мы потеряли оба городских ввода — всё как в худших домах Парижа. Как мы уже потом узнаем, вроде бы авария была на трансформаторе 110 кВт: при перераспределении мощностей с первого произошло замыкание второго. За полтора года это уже третий раз, когда пропадают оба луча, и вот тут я рассказывал, как мы почти сутки стояли на дизеле. Для клиентов это прошло незаметно (кроме той стойки, где при мигании света сгорел ИБП: там был простой на перезагрузку).

Штатно сработали ИБП, автоматически завелись дизель-генераторы, ЦОД продолжил работу. У нас общая энергосеть с соседним ЦОДом всё в том же подземном бомбоубежище. Общее потребление — 0,5 МВт, дизелей — на 1,05 МВт.

Через два часа, около 3:30 ночи, лопнул патрубок дизеля 0,5 МВт, отчего он внезапно перестал работать. Админы убежища переключили мощности на дизели 2 х 100 КВт и 2 х 200 КВт. В момент переключения нагрузка снова легла на ИБП, а за два часа они не успели восстановиться, и часть оборудования выключилась.

Это запустило целую цепочку последствий, потому что при этом выключении погорела одна из плат коммутатора, обеспечивавшего доступ в нашу сеть управления ЦОДом, то есть все удалённые доступы.

На площадке остались два админа, которым нужно было включить вручную коммутаторы и стойки, починить дизель и понять, что вообще происходит.

Дисклеймер: мы ещё не до конца разобрались с логами и причинно-следственными связями, но сейчас я пишу по горячим следам. Возможно, дальше выяснятся ещё интересные детали. Сейчас мы сосредоточились в основном не на расследовании инцидента, а на устранении последствий. Детальный разбор будет позже.

▍ Что было с городскими вводами


Они пропали. Авария коснулась всего микрорайона. Мы относимся к важным потребителям электроэнергии, поэтому восстановление наших мощностей — первый приоритет для города. У нас не было городского ввода примерно с часа ночи до обеда, около 10 дали первый луч, через пару часов — второй.

Как можно видеть по заявкам в районе, жилые дома восстанавливали позже, то есть устраняли аварию максимально быстро для нас.

image

image

▍ Почему только два админа


Ночь с субботы на воскресенье, особо охраняемая территория. В течение двух часов с начала инцидента всё идёт относительно предсказуемо, и помощь не нужна. Админы работают штатно. Примерно в 3:30 становится понятно, что нужно высылать подкрепление, но в этот момент уже:

  • Коммутатор защищённого сегмента сети вышел из строя.
  • Админы разбираются с дизелями и пытаются включить оборудование, то есть ходят от стойки к стойке и определяют, что случилось с каждой машиной.
  • Четыре других дизеля перегреваются и собираются отключиться.

Самое печальное — коммутатор защищённого сегмента, который включился, но работал неправильно. Это сегмент, в котором стоит DDoS-защита, то есть через него подключено около 7 % IP-адресов ЦОДа. Коммутатор зарезервирован по принципу HOT SWAP, то есть точно такой же лежит в коробке в шкафу в админской. Мы не думали строить кластер из двух коммутаторов, потому что не похоже, что DDoS-защита относится к критичным сегментам: при выходе её из строя примерно на 5–20 минут (время физической замены коммутатора) возможны DDoS.

То есть центральный коммутатор у нас нормально в кластере, а один из листов, относительно небольшая и относительно нетребовательная к непрерывности подсеть, на хотсвапе. Это была ошибка, и здесь мы здорово облажались.

Во-первых, оказывается, что тяжело менять коммутатор, когда ты держишь руками патрубок дизеля. Кроме физической замены, там нужно импортировать правила и ACL.

Во-вторых, на то, чтобы понять, что с ним что-то не так, тоже ушло время. Он не сгорел полностью, а включился и вроде бы начал работать. После его включения полетела часть ACL, и он отрезал нам управляющие сервера от сети.

В этот момент около 3:30 мы остались без сервисдеска, мониторинга, корпоративного мессенджера и одной из реплик сайта. Мессенджер тут же деградировал до «Телеграма», веб-сервер сайта автоматически поднялся в другом ЦОДе, а вот от мониторинга и сервисдеска такой подставы мы не ждали.

На мониторинг, в частности, было завязано определение оставшегося свободного места в ЦОДах, а оставшееся свободное место в ЦОДе определяет возможность создавать в нём новую виртуальную машину.

Это означало, что автоматика не видит свободного места, потому что источник данных для панели управления находился именно в глючившем защищённом сегменте. А потому система не даёт возможности создать новые ВМ в каждом из ЦОДов сети.

Выглядело это как крестик на создание ВМ на каждом из ЦОДов нашей сети, что начало вызывать панику в чате клиентов хостинга:

image

Это уже семь утра, когда существенная часть клиентов проснулась. До семи утра было ещё два отключения питания и перехода на уже истощённые ИБП. Перегрелся и начал нестабильно работать один из малых дизелей, а большой ещё не успели перебинтовать. И вообще, админы не очень хорошо ремонтируют дизели: это немного не их профиль работы.

Соответственно, клиенты пытались перенести свои ВМ в другие ЦОДы по миру, но из-за сбоя мониторинга не могли этого сделать: система не давала создать новые ВМ.

Начиная с шести утра мы пытались ответить клиентам, что происходит, но сами не до конца понимали масштаб проблемы из-за отвалившегося мониторинга.

image

▍ Админы были отрезаны от мира


Я неслучайно сказал, что это ночь с субботы на воскресенье на особо охраняемой территории. Дело в том, что после начала всем известных событий территория стала просто параноидально охраняемой.

Среди всего прочего в рамках общей параноизации нам отозвали все постоянные пропуска и заменили их на систему одноразовых пропусков персонала посменно. То есть около 3:40 ночи, когда уже стало понятно, что в ЦОДе не помешают лишние руки, никого отправить туда мы не могли, потому что люди встали бы на проходной.

Бюро пропусков по ночам не работает, по воскресеньям — тоже.

Это значит, что мы не можем отправить ещё админов и не можем отправить дизель. Дизель на 0,5 МВт у нас под рукой был после прошлого инцидента, и мы подтащили его к территории около девяти утра, но попасть внутрь не могли.

Охрана понимала всю серьёзность ситуации (насколько могла) и очень хотела помочь, но ровно в рамках своих полномочий: им нужно было разбудить своего начальника, чтобы он разрешил нештатную ситуацию. Попасть на территорию получилось только около 13:00.

До этого момента в ЦОДе было две пары рук.

До кучи около семи часов дышать в админской стало довольно тяжело: из-за погоды и перепада давления при открытии гермозоны (вентиляция работала только в вычислительном сегменте) внутрь засасывало выхлоп дизелей с улицы, который в обычное время просто улетал бы в окружающее пространство.

Админы разрывались между попытками ремонта дизеля, жонглированием мощностями, включением стоек и сетевого оборудования и попытками понять, что происходит с защищённым сегментом. Плюс время от времени им было нужно подниматься на воздух, чтобы не разболелась голова.

▍ Восстановление


Когда приехал резервный дизель, всё встало на свои места.

Мы восстановили питание и более-менее последовательно разобрались, что происходит. Стало понятно, что с коммутатором, поменяли его, подняли защищённый сегмент. Там подцепился мониторинг, который нарисовал нам всю картину ночи. В этот же момент на нас упали все тикеты, которые клиенты хостинга поставили за ночь, потому что заработала очередь.

image

Последние сервера поднялись около 16 часов: это когда мы подключили в бой тот самый защищённый сегмент, стоявший за частично погоревшим коммутатором.

Клиенты, естественно, были не очень довольны:

image

Интересно, что больше всего тикетов с паникой было у пользователей наиболее экономичных тарифов. То есть те, у кого был действительно критичный проект, развернули его на нескольких геоплощадках. Бывалые админы достаточно спокойно наблюдали за паникой людей в чате:

image

image

Общий итог такой:

  • 23% клиентов ДЦ вообще ничего не заметили, остальные могли ощутить даунтайм до 120 минут.
  • 7-8 % виртуальных машин было недоступно более трёх часов. Мы не можем сказать точнее: верхняя оценка — 10 %, но мы знаем, что часть машин в рассыпавшемся сегменте отвечала, по косвенным данным, что это было всё же 7 %. Максимальный даунтайм на отдельных серверах из 7-8% составлял 16 часов.
  • Всё 13 остальных ЦОДов работали штатно, но отсутствие мониторинга не давало создавать на них новые ВМ.
  • Всё решилась после прибытия подмоги, то есть с 13:00 до 15:00. К 16:30-17:00 доступность была 100% восстановлена.
  • В нашем ЦОДе не работало, по верхней оценке, 10 % оборудования. У соседей же была настоящая паника: у них пострадало до 75 % оборудования (судя по их письму клиентам).

Сколько/чего выключилось:

  • Количество НОД перезагрузившихся из-за перепада/отсутствия питания в ночь аварии — 68 %: 24 % в 3:30, 26 % в 4:50 и 18 % в 6:00.
  • Количество НОД дц Rucloud, которых не затронула авария — 23 %.
  • Количество НОД дц Rucloud, которые стали доступны после решения проблемы с коммутатором (самое большое время простоя) — 8 %.
  • Количество НОД дц Rucloud, которые были перезагружены 18-19 июня в результате выявленных последствий аварии — 1 %.

▍ Разбор ошибок


Из того, на что мы могли повлиять:

  1. Нужен не двойной запас по дизелям, а больший: ночь показала, что двух недостаточно, нужно 2N + 1 минимум. Поскольку в кризисы мы объединяем энергосеть с соседями, договорились, что введем в эксплуатацию (дизель уже куплен, ожидаем к нему кожух) вместе ещё один 0,5 МВт ДГУ и разместим на территории.
  2. Коммутатор защищённого сегмента должен был быть задублирован в кластере. Как только мы разместили за DDoS-защитой мониторинг, сеть стала критичной, но мы этот момент упустили и оставили узкое место с ручной заменой железяки. Оказалось, что у неё есть не только бинарные состояния «однозначно работает» и «однозначно не работает», но и промежуточные.
  3. Тот факт, что мониторинг и тикет-система не были зарезервированы в другом ЦОДе, — это пощёчина нашему достоинству. Мы чёртовы параноики из финансов, и именно мы остались без мониторинга. Дублирование было в разработке и намечалось на конец июля. Немного не успели. Исторически эти системы размещались в первом нашем ЦОДе, теперь нужно распределять их по гриду, чтобы даже масштабный сбой никак не влиял на возможность заказывать виртуалки и обращаться в поддержку в других ЦОДах.

Я пережил несколько очень неприятных моментов этой ночью и понял, что нам нужен публичный мониторинг.

С моей точки зрения ситуация выглядела так: ужасно усталый я пришёл домой вечером, бросил телефон с 3 % заряда на столик и вырубился. Около шести часов я проснулся, решил, что быстро не засну, включил телефон почитать Хабр и сорвал джекпот в виде лавины уведомлений. Технический директор хостинга ночью тоже спал. Но он никогда не отключает телефоны, и звонки админов у него всегда дают громкий сигнал. Он разруливал ситуацию с часа ночи. Хорошо, что телефония в ЦОДе у нас как раз была зарезервирована правильно.

Фактически утром я не мог точно понять, что произошло (как и все мы: для полноты картины нужно было бы дозвониться до админов и поговорить с ними больше 20 минут).

В итоге я и ещё несколько человек пытались отвечать клиентам в чате. Дежурная смена отвечала официальным фразами, а я пытался дать больше информации.

Мы рассылали вот такое письмо:

Всем привет!

В районе 3:00 по МСК произошла авария на подстанции, в результате чего в дата-центре Rucloud (г. Королёв) были нарушены оба ввода электроснабжения. Проблема повлекла за собой перезапуск коммутационного ядра и длительный период восстановления. На момент аварии оборудование дата-центра работало на аварийных дизель-генераторах, но сейчас проблема устранена, и доступность всех нод уже восстановлена. Специалисты работают над восстановлением доступа к единичным оставшимся оффлайн виртуальным машинам, и в ближайшее время доступ должен полностью восстановиться.

По предварительным данным, аварийные работы затронули не более 10 % серверного оборудования в дц Rucloud. Остальные 13 дата-центров работают в штатном режиме, и проблем там не наблюдалось.

Если ваша виртуальная машина была среди тех, что затронула сегодняшняя авария, обязательно свяжитесь с нами по почте support@ruvds.com. Каждый случай простоя будем решать индивидуально и начислять компенсации за простой.

Подробный отчёт по аварии ждите в нашем блоге на Хабре в ближайшие дни.
Приносим свои извинения за доставленные неудобства!

В телеграм-канале был сущий кошмар. Дело в том, что в России уже было два случая, когда хостинг внезапно отключался целиком, а потом больше никогда не включался. И среди наших клиентов были админы, повидавшие некоторое дерьмо и знающие особенности ИТ-бизнеса в этой стране. Поэтому они, естественно, волновались. Мне очень нужно было объяснить, что происходит, но я никак не мог сам собрать информацию рано утром.

Никто не верил, что в одном из 14 ЦОДов был сбой, который затронул до 10 % железа. Отдельно меня обижали фразы вроде: «Чего вы хотите за такие деньги?» Аварии бывают и там, где на порядок дороже. У нас нет умышленной ставки на некачественные услуги. Неважно, сколько заплатить: зарезервироваться на 100 % не получится. Самое обидное в этой истории, что раздолбаями на этот раз оказались не мы. Точнее, мы тоже, но, трезво оценивая ситуацию, мы всё же в меньшей степени.

Вторая особенность была в том, что шквал звонков снёс поддержку нам и всем соседям, потому что люди звонили по всем телефонам и нам, и им.

Более-менее связную картину произошедшего мы получили только около восьми утра.

В целом это, наверное, — самый тяжёлый наш кризис, потому что мы его переживали при 100-процентно заполненном машзале. Когда гермозона стоит полупустой, есть резерв по мощности: формируется тот самый 2N + 1, а не просто 2N. У нас такой роскоши не было. В целом мы сейчас переберём архитектуру сети, но куда важнее, что мы в Москве принципиально делаем ставку на развитие Останкино (вот пост про него) — ЦОДа повышенной ответственности. И в убежище, и в М9 гермозоны уже заполнены полностью, и новых стоек просто нет. В случае М9, где мы делим площадку с другими компаниями, нет места даже в стойках соседей.

Итог: нам нужен сервис публичного мониторинга доступности нод. Обычный хостинг такого делать не будет, потому что инциденты принято скрывать. Особенно если они затронули не очень большую часть клиентов. Просто телеграм-канала, Хабра и поддержки не хватает. Нужна система, которая сама обновляется и показывает объективные данные всё время, даже если это не очень удобно для нас в моменте.

В процессе слова поддержки от вас были очень приятны. Благодарности в конце тоже очень грели. Спасибо! Это было очень тяжело, но то, что вы с пониманием отнеслись, — это очень приятно.

Telegram-канал с розыгрышами призов, новостями IT и постами о ретроиграх ????️

Комментарии (260)


  1. Daddy_Cool
    20.06.2023 14:09
    +17

    Впечатляет!
    Как я неоднократно замечал - серьезные аварии происходят когда звезды неожиданно складываются в большую букву "Ж". Т.е. несколько факторов возникают случайно и работают одновременно.
    - Прекращение питания...
    - Отвалившийся патрубок генератора...
    - Выходные и проблемы с охраной...
    - ... кажется что-то еще.
    Хорошо, что всё закончилось хорошо.


    1. safari2012
      20.06.2023 14:09
      +1

      хотсвоп в шкафу же...


    1. cliver
      20.06.2023 14:09
      +15

      серьезные аварии происходят когда звезды неожиданно складываются в большую букву "Ж"

      Эту штуку еще называют моделью швейцарского сыра


      1. Morgan_iv
        20.06.2023 14:09
        +1

        У меня у одного ссылка на википедию с этой статьей подменена на какую-то странную abcdef.wiki?


        1. cliver
          20.06.2023 14:09

          В википедии на русском нет, поэтому скинул ссылку на этот сайт.


    1. Popadanec
      20.06.2023 14:09
      +14

      Патрубок не отвалился, а лопнул. Лопнул "внезапно", он вероятно из за старости и отсутствия проверок.
      Как визуальных(трещины), так и на включение дизеля.
      ИБП тоже обычно проверяют, т.к. не смотря на заявленный ресурс батарей и плановые замены, они могут начать раньше деградировать и/или электроника/силовые цепи не держат.
      Главное в этой истории, какие уроки извлекли для себя владельцы и какие меры приняли.


      1. Soorin
        20.06.2023 14:09
        +24

        Какие уроки... Пока админы ремонтируют дизеля, а ночью "не работает бюро пропусков" и т.п. - "детский сад" будет повторяться.


  1. kogemrka
    20.06.2023 14:09
    +12

    Остросюжетный пост!

    Приятно и интересно читать такие детальные разборы


    1. Wan-Derer
      20.06.2023 14:09

      Особенно остросюжетно читать его вперемешку с другими новостями....

      ... объект "убежище"....

      ... основной трансформатор пострадал во время обстрела РСЗО, второй вывела из строя вражеская ДРГ...

      .... шрапнелью перебило хоботок дизеля и пока один одмин распаковывали личную аптечку, второй остатками организма удерживал хлещущее расплавленное чего-то там...

      ... к 9 утра в живых осталось только два одмина...

      В этой связи интересно, а как устроены настоящие военные ЦОД, вместе с окружающей инфраструктурой.


      1. vvbob
        20.06.2023 14:09

        Думаю примерно так-же как и гражданские, с той разницей что находятся в каком-либо бункере с защитой от ЯО, и пропускным режимом посерьезнее, ну и персонал военный или контрактный, с соответствующими уровнями допуска к гостайне, поэтому нам никаких подробностей никто о них не расскажет - кому охота потом сидеть за разглашение.


        1. Wan-Derer
          20.06.2023 14:09

          Ну, м.б. не про современные, а про плюс-минус исторические кто-нить сможет рассказать :)


          1. not-allowed-here
            20.06.2023 14:09
            +1

            а также + грифы там такие что и сейчас рассказывать нельзя обычно.....


  1. Lev3250
    20.06.2023 14:09
    +27

    Возмущение клиентов дешёвых планов напоминает крики людей с полетевшими флешками/дисками. Этот шок в глазах и гнев на вселенную и окружающих (кого угодно, но не на них самих), когда объясняешь человеку, что если он хранил весь архив фото своих отпусков/детей/внуков/тузиков в одной копии на флешке за 300 рублей, то не настолько это была и важная информация


    1. nochkin
      20.06.2023 14:09
      +4

      Про клиентов так много где. Сам занимаюсь поддержкой одного сервиса, так больше всего жалуются по разным мелочам клиенты, которые на бесплатном тарифе. При чём жалуются вне зависимости от того проблема на их стороне или нет.


      1. AllexIn
        20.06.2023 14:09
        +11

        Причина предельно проста: те кто платит серьезные бабки серьезно подходил к вопросу выбора места куда бабки класть. И поэтому понимает ситуацию достаточно хорошо, чтобы не возмущаться без железного повода.
        Бесплатники и те кто берет дешевые тарифы - просто ждут, что у них будет сервис, на который они подписались и в деталях не разбираются. Поэтому и возмущаются когда что-то идет не так. Ну а еще их просто больше, с большей вероятностью найдется тот кто захочет побухтеть.


        1. nochkin
          20.06.2023 14:09

          Про количестве не совсем так, так как они бухтят совершенно по другому поводу и совсем иначе. А вот с остальным согласен -- те, кто платят, прекрасно понимают как и что работает и что они за это получают. Когда бесплатные просто хотят получить максимум за вложенный минимум.


        1. IsUnavailable
          20.06.2023 14:09
          +13

          ждут, что у них будет сервис, на который они подписались

          А это по вашему не является нормальным поведением? Ну т.е. это же бред, считать, что ситуация, в которой ты будешь платить за сервис, а он будет некачественным - нормальная. Можно предполагать такую ситуацию и закладывать обходные пути, да, но считать нормальным и не возмущаться это как-то очень странно, не считаете?


          1. czz
            20.06.2023 14:09
            +1

            Там в договоре обычно написан SLA в процентах, и компенсация за нарушение SLA. 100% аптайм никто не обещает, и это и есть нормальные условия работы.


            1. xSVPx
              20.06.2023 14:09

              Ну да, помнится какие-то отечественные... предлагали "аж" 99.5.

              Ну т.е. день простоя раз в три года.

              И ведь кто-то на такое подписывался...


        1. Wan-Derer
          20.06.2023 14:09
          +2

          кто платит серьезные бабки серьезно подходил к вопросу выбора места куда бабки клкласть

          Возможно, у них просто есть жизненный опыт, вероятно даже связанный с потерей денег, который говорит им что для приемлемого результата надо заплатить больше чем по минимуму. Ну а когда у тебя есть резерв, ты спокойнее относишься к инцидентам: "Вот мой резерв и сработал".

          Кроме того понятно что воплями в чатике проблему не решить и лучше дать специалистам возможность всё починить, а не накалять ситуацию ещё больше.


    1. rezedent12
      20.06.2023 14:09
      +2

      Для многих людей становиться открытием, то что данные на flash накопителях оказывается не могут храниться вечно. На флешках же не пишут "срок сохранности данных 3 года". Продавцы не оповещают покупателя о свойствах товара, так что бы он наверняка их понял.


      1. czz
        20.06.2023 14:09

        Но интересно, что для части людей становится открытием даже то, что флэшку, телефон или ноутбук можно потерять или сломать, а фотки можно случайно удалить.


        1. rezedent12
          20.06.2023 14:09
          +6

          Это проблема уже другого рода. Как то сосед попросил меня настроить ему компьютер. Настроил. Потом пришёл его внук и всё сделал плохо. Я исправил и сделал отдельную учётную запись для внука. Спустя некоторое время сосед просит отключить учётную запись внука, потому что тот слишком много играет. Отключил. Но говорю - "Не лучше ли поменять пароль? Потом то ты всё равно дашь ему доступ." Он отвечает - "Никогда больше". Ну ладно. Пару недель назад зовёт он меня всё исправить, потому что "Он же всё таки внук, я дал ему пароль от своей учётной записи".

          Это какое то наивное восприятие самого себя как чего то неизменного. Мне кажется такие люди своё текущее состояние, свою текущую концентрацию, настроение и решения, мысленно продолжают в бесконечность. Не задумываясь о том что они могут измениться. Такие люди часто маркируют себя татуировками.

          Ещё они часто склонны к наивному реализму. То есть считают своё восприятие чистым, критерием реальности.

          что флэшку, телефон или ноутбук можно потерять или сломать

          Ну они же решили для себя что будут их беречь - значит не сломают и не потеряют. Это люди не боящиеся брать на себя ответственность.

          а фотки можно случайно удалить

          Они что дураки удалять свои фото? Нет конечно.

          Потом конечно - "Я нечаянно, оно само. А можно как то восстановить?"

          Почему они не извлекают из этого никаких уроков? Полагаю, потому что думают, что постоянно задумываясь о такой фигне уничтожат свою уверенность, не смогут ничего говорить чётко и определённо. Кстати заметил, такие люди часто требуют "Скажи чётко, да или нет?!"

          Вообще, человеческий ум не умеет интуитивно корректно сравнивать малые вероятности. Например маловероятные риски мы сравниваем не математически, а по степени драматичности их реализации. Наверно такие люди догадавшись что не могут корректно мыслить вероятностями, исключают их из своего мышления. Скорее всего не сознательно и потому неправильно.


          1. czz
            20.06.2023 14:09
            +1

            Это какое то наивное восприятие самого себя как чего то неизменного.

            Кстати да, типично.

            Даже какая-то статья на Хабре была про таких людей.


  1. just-a-dev
    20.06.2023 14:09
    +5

    Не увидел ещё одного серьёзного, на мой взгляд, фактора. ИБП сработали при переключении питания на дизели, но через 2 часа их энергии на переключение нагрузки между дизелями не хватило. Разве нет возможности установить ИБП с запасом энергии на 2-3-4 потери электричества за короткое время?


    1. ky0
      20.06.2023 14:09
      +18

      "Оверселлим по процу, оверселлим и по ИБП с дизелями".


    1. ntsaplin Автор
      20.06.2023 14:09
      +16

      ИБП, к сожалению, не заменяет само питание и дизели. Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания. В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. Но штатно ИБП держат несколько минут, а на полную зарядку требуется несколько часов. Потому вопрос о длительной поддержке со стороны ИБП просто не реализуем.


      1. PereslavlFoto
        20.06.2023 14:09

        (Не там комментарий.)


      1. Wesha
        20.06.2023 14:09
        +1

        Но штатно ИБП держат несколько минут

        Хе, у меня ИБП держит сервер полтора часа. Потому что маложрущий сервер и мощный ИБП. Это чисто вопрос приоритетов.

        а на полную зарядку требуется несколько часов.

        А что, если он может держать исключительно при 100% заряда? А при 50% заряда уже никак?


        1. TimsTims
          20.06.2023 14:09
          +1

          Ключевое слово - "маложрущий". Я могу сервер разместить на машинке и она будет жива на ИБП больше суток. А вам слабо?

          Если серьезно, то сравнивать серверы у кого "маложрущестей" это прям такое себе определение мощности сервера и сравнения своего сервера с целым ДЦ.


          1. playnet
            20.06.2023 14:09

            У ИБП есть 2 крайне слабо связанных между собой параметра: максимальная мощность и время работы при полной загрузке.

            Если откинуть бытовые БП, которые по сути нужны сохранить работу и выключить комп, все серьёзные умеют масштабироваться по батареям от "до запуска генератора" до суток и более.

            Обслуживал объект, где был "относительно" слабый ибп на 100кВт, но батарей там был большой шкаф, и он всё здание держал в номинале сколько-то часов. Вопрос строго денег и приоритетов.

            ЗЫ "маложрущий" - у всей системы кпд далеко не 100% и даже с нулевой нагрузкой никакой ибп не будет держать вечно...


      1. shaaimars
        20.06.2023 14:09
        +3

        Ваш ИБП не обеспечивает задействование всего резерва дизелей? В таком случае наилучшей поправкой будет запускать не один дизель на 100% мощности, а сразу несколько c расчетом что если отключится самый мощный - остальные смогут обеспечить потребление в течение длительного времени. В вашем случае можно было включить сразу все - и проблем не было бы. И конечно обслуживать их тоже периодически не помешало бы.


        1. shaaimars
          20.06.2023 14:09

          Но да, для этого желательно синхронизировать генераторы. Сегодня есть готовые решения, они автоматически управляют дизелем, немного изменяя частоту вращения, и тем самым добиваются полной синхронизации перед включением в сеть.


      1. stanislavskijvlad
        20.06.2023 14:09
        +3

        Есть же стабилизаторы двойного (принудительного) преобразования. Они на выходе дадут чистый синус, после ряда фильтров. А сами могут "кушать" любой переменный ток с помехами. И их можно питать резервом, который этот самый чистый синус обеспечить не может. Кстати, предлагаю Вам (автору) рассказать об электротехнике на ЦОД с точки зрения высоких напряжений, а не микроэлектроники. И по поводу дежурного персонала: есть ли штатный энергетик ?)


      1. vvbob
        20.06.2023 14:09
        +6

        Его задача выдать чистую синусоиду на сервер и сгладить ситуации переключения лучей питания.

        Не в плане доколупаться, а исключительно ради повышения образовательного уровня.. А зачем серверу чистая синусоида? Современные БП ведь в основном все импульсные, им форма питания по большему счету не важна, может хоть на постоянке работать, без переделок.


        1. gluck59
          20.06.2023 14:09
          -1

          Попробуйте запитать от обычного упса обычный аймак. Да, разумеется, там импульсный БП...


          1. vvbob
            20.06.2023 14:09
            +1

            И что будет?

            У меня нет обычного (и необычного тоже) аймака, как и обычного УПСа. В датацентрах думаю тоже вряд-ли аймаки кругом, там наверняка что-то с нормальными БП. Но это мое предположение, конечно. Запитывал обычный компухтер от обычного УПСа лет так десять назад, и ничего, все работало.


            1. Spyman
              20.06.2023 14:09

              Вообще возможно я ошибаюсь и есть еще какая-то проблема, но точно известная мне была в том, что почти все блоки питания пк нынче имеют ативный pfc (а в цод скорее всего 100% т.к. цод и за реактивную нагрузку на сеть платить, а импульсный бп с пассивным pfc намного больше её создает), который увеличивает диапазон входных напряжений до 100 - 240 но при ступенчатой синусоиде контроллер ибп пытается резко скорректинровать мощность (по сути переключиться в режим 110в) и это черевато проблемами. Честно говоря физику процесса сам не до конца понимаю - если кто-то пояснит научнее буду только рад)


              1. playnet
                20.06.2023 14:09
                +1

                По принципу работы:

                https://habr.com/ru/articles/149259/

                Там ещё комменты надо почитать.

                ЗЫ: ВСЕ серверные бп - импульсные, а им теоретически можно постоянку подавать. Теоретически - потому что будут всегда работать только 2 диода из 4 в мосте, и при нагрузке больше половинной если недостаточно запаса - привет перегрев и пробой.

                Именно поэтому появились "упрощенные" ибп для компов. И как раз прямо сейчас передо мной лежит разобранный бп от аймака (привет их волшебные кабели из риса или чего они там), он импульный и заводится на постоянке легко.


        1. SerjV
          20.06.2023 14:09
          +2

          А зачем серверу чистая синусоида?

          Фишка онлайнового ИБП не в синусоиде, а в отсутствии времени переключения на батареи.

          Для БП с активным pfc приходится подбирать ИБП с запасом по мощности раза так в два, иначе в момент переключения будет уууууупс и выключение ИБП от перегруза. Если пережил переключение - то ок, работать будет, ступеньки пофиг, если там не трансформаторный БП (чего уже давно в таком оборудовании нет) или электродвигатель... А приличные БП нынче все с apfc.


          1. vvbob
            20.06.2023 14:09

            Ну, это другое дело, с этим-то понятно, меня "синусоида" смутила. Обычно ей заморачиваются когда от ИБП надо питать какую-то индуктивную нагрузку, вроде моторов насосов отопления, котлов, или компрессоров холодильника. А в современной электронике сейчас классические трансформаторы в БП практически не применяются нигде. Просто я с серверным железом слабо знаком, думал может быть там как-то все по другому, отчего и вопрос возник.


            1. SerjV
              20.06.2023 14:09

              "Просто синусоиду" можно и на линейно-интерактивном получить, есть такие модели... Тут главная фишка именно в отсутствии времени переключения.

              Так что либо в том сообщении, по которому вы вопрос задавали, не на том сделан акцент, ну либо у них еще и просадки в момент переключения имеют место ;)


    1. mikelavr
      20.06.2023 14:09
      +2

      От адвоката дьявола:

      Техническая возможность вероятно есть. А вот финансовая... Два фактора:

      1) Время работы UPS зависит от емкости батарей. Причем поскольку батареи надо регулярно заменять (каждые 3 года) - это постоянные эксплуатационные расходы. Вы предлагаете их увеличить в 2-3-4 раза. Это повлияет на себестоимость услуг.

      К тому же батареи - это объем и вес. Не всякий ЦОД это потянет.

      2) Время зарядки батарей UPS зависит от тока зарядки. UPS с высоким током зарядки стоят ощутимо дороже (это капитальные вложения).


      1. JustMoose
        20.06.2023 14:09

        "UPS с высоким током зарядки" - а они вообще существуют? Там же вроде обычные свинцово-кислотные батареи, которые всегда заряжаются током 0.1 от ёмкости.


        1. Areso
          20.06.2023 14:09

          Существуют, вопрос в цене.


          1. JustMoose
            20.06.2023 14:09

            А что хоть за аккумуляторы? Физику то никто не отменял. Хочешь быстрее - нужна другая технология. (литий йон?)


            1. Areso
              20.06.2023 14:09
              +1

              Любые кроме свинца: Литий-ионные (литий-железо-фосфатные), титанатные, и т.п.


              1. JustMoose
                20.06.2023 14:09

                До чего техника дошла ROFL


        1. mikelavr
          20.06.2023 14:09
          +1

          Можно заряжать и током больше 0.1C, просто будет меньше ресурс аккумулятора.
          В автомобилях, например, зарядка ведется вообще без контроля тока, просто по напряжению.


          1. JustMoose
            20.06.2023 14:09
            +1

            Хм. Вот ведь. Никогда не задумывался, как ограничивается зарядный ток в машине. ROFL

            Ок, видимо "должен заряжаться током 0.1", а по факту - как получится.


            1. Tufed
              20.06.2023 14:09

              Ограничивается возможностями генератора. Хотите больше ток - нужна больше масса обмотки (диаметр провода обмотки), ну и отбор мощности естественно будет выше. Ну и насколько я знаю на выпрямителе после генератора стоят диоды обычно не более 2А. Поэтому и задумываться и не стоит, в 99% случаев стоят генераторы не выдающие ток выше чем 0.1С.


              1. IvanPetrof
                20.06.2023 14:09

                На Жигулях емнип ближний свет фар - 55 вт одна лампочка плюс габариты по 5 вт. Плюс вентилятор охлаждения двигателя.

                И гена там стоял 70 ампер. умельцы вроде даже ставили гену от Нивы (он мощнее) чтобы больше навесного оборудования питать.


                1. esaulenka
                  20.06.2023 14:09

                  И гена там стоял 70 ампер

                  На жигулях-классике штатно ставили Г221 (42А) и Г222 (50 А). Что, впрочем, всё равно много больше, чем "0.1C".

                  И диоды там сантиметра три в диаметре, запрессованные в немаленькую железяку-теплоотвод.


                1. iig
                  20.06.2023 14:09

                  Плюс вентилятор охлаждения двигателя.

                  Нет. Там один общий ремень, который крутит и помпу и вентилятор.

                  умельцы вроде даже ставили гену от Нивы (он мощнее)

                  Уметь там нечего - по крепежу они одинаковые ;) Мощный генератор - быстрее заряжает, удобно.


                  1. vvbob
                    20.06.2023 14:09

                    "Жигули" были разные, если не путаю, на пятерках и семерках стояли электровентиляторы.

                    А зарядное напряжение регулирует реле-регулятор напряжения. Когда напряжение в сети становится слишком большим, оно отключает обмотку возбуждения генератора и напряжение падает, и так постоянно происходит, в итоге ток заряда определяется возможностями генератора (и выпрямительного блока), сопротивлением проводки, и степенью разряда батареи (и ее внутренним сопротивлением).


              1. Astroscope
                20.06.2023 14:09
                +1

                Ограничивается возможностями генератора.

                Типичный легковой генератор это что-то в районе 90~150A.


          1. Wesha
            20.06.2023 14:09
            -1

            Можно заряжать и током больше 0.1C, просто будет меньше ресурс аккумулятора.

            Какая разница, какой там ресурс, если аккум у УПСе реально идёт в разряд от силы пару раз в своей жизни?


            1. konst90
              20.06.2023 14:09

               В данном случае сначала ИБП сначала обеспечил переход с одного луча на другой, потом на дизель. Потом у дизеля возникла проблема и снова ИБП держал. 

              Уже три похода (два из них кратковременные) за одну ночь.


          1. iroc
            20.06.2023 14:09

            На самом деле, на большинстве автомобилей моложе 15 лет устанавливают генераторы управляемые контроллером двигателя, достатчно посмотреть на параметры какого нибудь Фольксвагена, начиная от тока зарядки, кончая температурой батареи и идентификации реле-регулятора, позиций десять, а то и больше.
            А сколько генераторов поменяны бездумно, а всего-то LIN шина мышью сгрызена.


          1. VldE
            20.06.2023 14:09
            +1

            Забываете что существуют:

            Стартерные АКБ

            Тяговые АКБ

            Резервируемые АКБ.

            Разница - колоссальная. Задача стартерных АКБ - отдать МНОГО тока (вплоть до 0,5кА в течении единиц секунд). Дальше - трава не расти.

            Тяговые АКБ - за счёт изменения типа сепаратора они могут отдавать достаточное количество тока в течении длительного периода времени. Но и требуют аккуратной зарядки.

            Резервируемые - разряд низкими токами в течении длительного времени. Например, для систем ОПС задача продержаться на АКБ 24 часа + 1 час в боевом режиме. Для АКБ это не должно принести ущерба. Да еще они не обслуживаемые совсем.

            Не надо путать разные системы питания.

            И да, на машинах за счёт разницы режимов АКБ проходят регулярный тренировочный цикл заряд-разряд под нагрузкой, поэтому постоянная подпитка им не так страшна. На ДГУ и прочих генераторах использование родного генератора является очень плохой идеей так как АКБ не проходит КТЦ и находится в постоянном перезаряде, отчего сильно сульфатируется, выкипает. Хорошей идеей является выкидывание питания АКБ на другую шину от внешнего источника питания с ЧПУ - (ненавижу слово "Умный" ко всяким тостерам и лампочкам. Эй, лапочка, чему равен sin1?), это обычные автоматы с алгоритмами. Оно следит за АКБ, следит за сульфатацией, поддерживает его качество. Выход из строя АКБ уходит в погрешность. Ну и плюс компенсирует саморазряд.


            1. mikelavr
              20.06.2023 14:09

              С уточнением по типу батарей полностью согласен. Только в ЦОД АКБ работают скорее в режиме тяговых, а не резервируемых...


      1. sim31r
        20.06.2023 14:09
        +8

        Их бы не спас высокий ток зарядки, так как постоянно был дефицит энергии. Если бы UPS начали заряжаться током 25С, вместо 0.1С, генераторы бы вышли из строя еще быстрее. Вместо 0.5 МВт потребовалось бы 1.5 МВт сразу на зарядку в дополнение к основному питанию. Админы бы бегали и искали как отключить быструю зарядку просаживающую напряжение.

        Сценарий применения UPS не работа при кратковременной подаче питания, а поддержать систему пока стартуют генераторы. Это от 10 секунд для прогретого генератора, до 3 минут если генератор на морозе.


        1. Spyman
          20.06.2023 14:09

          Ну так вроде же по описанию сначала подняли не все генераторы. Я так понял сначала подняли большой дизель на 0.5 МВт, а потом он сдох и подняли 4 маленьких, а часть железа легла как раз в момент переключения на них т.к. UPS не выстоял интервал пока они заводились.
          Т.е. в теории если бы после падения подняли сразу все 1.1 МВт используя условно 600 на зарядку UPS (да я понимаю что это нереально, мы тут про зарядку током 25С говорим)) а 0.5 на питание железа, то либо в момент зарядки умер бы большой генератор на малые не надо было бы качегарить, либо UPS зарядились бы на 100%, малые генераторы можно было бы глушить, а в случае выхода из строя большого, UPS бы выдержал еще одно переключение.


      1. VldE
        20.06.2023 14:09

        Время заряда батарей зависит от их типа и по большей части стоит рассчитывать как ток заряда= 0,1С где С - номинальная ёмкость батареи. Если копать глубже - системы связи и прочие ВЦ используют гибридную систему, где в случае локальных задач идут герметичные АКБ, которые надо заряжать строго по даташиду; а в случае ЦОД возможны как и свинцово-кислотные так и щелочные, причем этих АКБ целый машзал. Как и выпрямителей. Они обслуживаемые. Там и проблема балансировки и тренировки, климата, интересная на самом деле задача. В связи для этого специального аккумуляторщика держат так то.


    1. DGN
      20.06.2023 14:09
      +5

      До сих пор в ИБП в массе своей применяются свинцовые батареи, обладающие двумя неприятными свойствами. Во первых они долго заряжаются, минимум 6-8 часов, во вторых быстро деградируют и это нельзя выявить иначе чем протестировать полный цикл под нагрузкой. Типичный ИБП на короткое время переходит на батареи и по падению напряжения определяет их годность, но так выявляются только совсем мертвые.

      Притом, что давно на рынке есть lifepo4 батареи, которые и заряжаются за 2 часа полностью и служат намного дольше и весят меньше (а это важный кстати фактор для ДЦ).

      Еще есть мысль, что лучше иметь много маленьких дизелей, чем 2 или даже 3 больших. Тогда один может сломаться, один не стартануть в автомате, один быть вообще в ремонте и т.п.

      По резерву питания, как и по каналам связи, надо смотреть дальше как они все идут. Нет ли общего физического или логического места пересечения. Нередко все каналы лежат в одной траншее и уязвимы к одному экскаватору.

      Примерно треть энергетики ДЦ это его система охлаждения. Всего лишь ценой цистерны теплоносителя можно сэкономить на резервном питании компрессоров много часов.


      1. zatim
        20.06.2023 14:09
        +3

        Еще есть мысль, что лучше иметь много маленьких дизелей, чем 2 или даже 3 больших.

        Работа нескольких генераторов на одну общую нагрузку - нетривиальная задача.


        1. mikelavr
          20.06.2023 14:09
          -1

          В ЦОД нагрузка отлично распределяется.


          1. zatim
            20.06.2023 14:09
            +3

            Вы не поняли мою мысль. Распределить нагрузку от одного источника по сотням потребителей - проблем нет. Ответвляешься проводом и ставишь на отвод автомат. А вот в обратную сторону это не работает. Объединить энергию от сотен генераторов и подключить к одной нагрузке - нетривиальная задача.


            1. mikelavr
              20.06.2023 14:09
              -1

              В ЦОДах как раз нет одной крупной нагрузки, а есть много маленьких.
              Да и сотен генераторов не будет. Будет до 10 штук.


              1. zatim
                20.06.2023 14:09
                +6

                Иии? Тогда резервирования не будет. Из 10 генераторов 1 в ремонте, 1 сломался, 1 не запустился. 30% оборудования стоит. В комменте, на который я ответил, речь шла именно о резервировании. А для этого несколько генераторов должны работать на одну нагрузку. Тогда если есть запас по мощности, то отключение одного из них никак не скажется на электропитании.


                1. Areso
                  20.06.2023 14:09

                  Можно делать коммутируемые линии.


                  1. zatim
                    20.06.2023 14:09

                    Можно, но получается сложная матрица коммутации. 10х10 в общем случае. Кто будет переключать и по какому алгоритму? Если генераторы и нагрузки все идентичные по мощности, то алгоритм видится несложным если один-два генератора есть в резерве. А если генераторы и нагрузки все разные? На мощный генератор, допустим, можно навесить несколько мелких нагрузок. Но слабый генератор одну мощную не потянет ни при каких условиях. Также нагрузки тоже непостоянные, а зависят от загрузки серверов. Сегодня они такие, завтра другие. Алгоритм должен просчитывать матрицу коммутации на лету. Я же говорю, как ни крути, задачка нетривиальная.


                    1. Areso
                      20.06.2023 14:09

                      Давайте так, мы знаем
                      1) предельную мощность на стойку
                      2) количество стоек на 1 генеретор (скажем, 1 коридор)

                      Вместо того, чтобы динамически рулить всем этим хозяйством, заложить 110-120% максимальной мощности этого коридора.
                      Да, оверхед по соляре и номиналу генераторов, но в целом, думаю, рабочий вариант.
                      Потому что работа от ген уже нештатная ситуация, и чем скорее она закончится, тем лучше. Тащить туда оркестрацию а-ля Distributed Resource Scheduler плохая затея.


                    1. sim31r
                      20.06.2023 14:09

                      А если генераторы и нагрузки все разные?

                      Задача тривиальная. Много маленьких генераторов работают как один большой. Нагрузка подключается когда на рабочие обороты выходит 110% генераторов например. И отключается, когда генераторов менее 100%.

                      Остальные хотелки это уже второстепенно и огромный плюс маленьких генераторов, можно тонкой настройкой обеспечить живучесть системы невозможную для одного мощного генератора. Например каждой нагрузке дать приоритет от 0 до 100%, измерить мощность и балансировать алгоритмами нечеткой оптимизации.

                      Например из 20 генераторов работает только один самый слабый (на 50 кВт), и система принимает решения поддерживать только коммутаторы, сервер мониторинга, дежурное освещение, вентиляцию по минимуму на 10%, внутренний чат, сервисдеск. Остаток мощности, что не получается поделить отправляем на зарядку бесперебойников, чтобы не пропадал, например 2 кВт, или добрасываем на систему вентиляции.

                      Но если нет желания так заморачиваться, можно вернуться к первому варианту. Поставить преобразователи мощности от ветряков и солнечных батарей на генераторы и они объединят генераторы в одну сеть. По сигналу от N генераторов, что они вышли на нужные обороты подключаем всю нагрузку.


                      1. M_AJ
                        20.06.2023 14:09
                        +8

                        Задача тривиальная. Много маленьких генераторов работают как один большой.

                        Совместная работа генераторов в одной сети не так проста, как кажется на первый взгляд. Генераторы в этом случае должны быть синхронизированны по фазе.


                      1. sim31r
                        20.06.2023 14:09
                        +5

                        Если объединять по постоянному току, то синхронность не нужна.


                      1. konst90
                        20.06.2023 14:09
                        +1

                        Генераторы дают переменный, сервер (насколько я знаю) кушает переменный. Преобразовать сначала в постоянный для объединения, а потом назад - дорого и по оборудованию, и по КПД.


                      1. Yuriy_krd
                        20.06.2023 14:09

                        Генераторы есть разные. Есть и с постоянным током. Они не так распространены потому, что в них, в силу конструкции, медного провода уходит раза в 2 больше, чем в такой же по мощности, но переменного тока. Еще, насколько я помню, опять-таки, в силу особенности конструкции генераторы постоянного тока невозможно собрать на автоматизированных линиях, много ручного труда. Соответственно, и цена на них совсем другая.


                      1. sim31r
                        20.06.2023 14:09
                        +2

                        Соответственно, и цена на них совсем другая.

                        Да ну, постоянное напряжение как-раз проще. Не нужно частоту оборотов поддерживать. Пример генератор автомобиля, работает от 1000 об/мин до 9000 об/мин. Особенность конструкции 3 диода, чтобы сделать постоянный ток из переменного, больше ничего. И подключение проще, есть + и -, а не как на переменном токе 3 фазы, не дай бог перепутать схему подключения треугольник-звезда и всё горит, у нас в городе 2 раза такое было, в крупном спорткомплексе и в офисном здании подавали 380 вместо 220 и сгорали серверы и сетевое оборудование вместо "треугольника" генераторы "звездой" подключили.


                      1. not-allowed-here
                        20.06.2023 14:09
                        +1

                        у постоянки есть один минус - бешенный ток, и как следствие огромная материалоемкость и опасность для персонала..... Так-то стоит использовать опыт коллег из большого телекома и строить ЦОД с 48В DC - но тут вылазит куча далеко не очевидных проблем с доступностью, ЗИП и много с чем еще...


                      1. sim31r
                        20.06.2023 14:09

                        На 48В и переменка будет проблемой. Почему не делать постоянный ток на 220В?

                        Вот пример работы с постоянным током

                        https://habr.com/ru/articles/460457/

                        Солнечные панели были собраны в три блока по 3 панели в каждом. В блоках панели подключаются последовательно — так напряжение удалось поднять до 115В без нагрузки и снизить ток, а значит можно выбрать провода меньшего сечения. Блоки между собой подключены параллельно специальными коннекторами, обеспечивающими хороший контакт и герметичность соединения – называются MC4. Их же я использовал для подключения проводов к солнечному контроллеру, так как они обеспечивают надежный контакт и быстрое замыкание\размыкание цепи для обслуживания.
                        Далее переходим к монтажу в доме. АКБ предварительно заряжены «умной» автомобильной зарядкой, чтобы выровнять напряжение и подключены последовательно для обеспечения напряжения 48В

                        48В для аккумуляторов, в линиях между узлами напряжение произвольное.


                      1. not-allowed-here
                        20.06.2023 14:09

                        48V это Стандарт под него всё Есть и не надо ничего изобретать - включая сертификаты, оборудование, нормативку и тп...


                      1. StjarnornasFred
                        20.06.2023 14:09

                        Как раз-таки наоборот, именно постоянный ток является безопасным, в отличие от переменного.


                      1. playnet
                        20.06.2023 14:09

                        у постоянки один минус - он ДРУГОЙ )
                        Много неочевидных моментов, начиная с отдельных серий автоматов на постоянку и заканчивая совсем другими механизмами выключателей. Почему? На переменке дуга при выключении сама гаснет в силу того что электричество переходит через 0, нет энергии - нет дуги. А постоянка - нет этого нуля, дугу нужно именно рвать и гасить. Тема интересная, советую изучить.

                        На небольших напряжениях постоянка безопаснее, но 220 постоянные убьют ничуть не менее эффективно переменных.

                        И бонус - меньше распространение - всё что есть - под заказ и дороже.


                      1. iig
                        20.06.2023 14:09

                        Особенность конструкции 3 диода, чтобы сделать постоянный ток из переменного, больше ничего.

                        Не постаянный а пульсирующий (я зануда, ага). Ну и просто взять и обьединить не получится. Нужен балансировщик нагрузки, причем большой мощности.


                      1. mpa4b
                        20.06.2023 14:09

                        Давным давно уже нет никакого смысла делать генераторы постоянного тока с коллекторами и щётками. Просто делают генератор переменного тока с нужным числом фаз (не обязательно 3) и ставят дешёвые полупроводниковые выпрямители. В автомобилях помоему ещё с 70ых годов так делали.


                      1. sim31r
                        20.06.2023 14:09

                        Преобразовать сначала в постоянный

                        Это делает выпрямитель, один диод на фазе.

                        а потом назад

                        Надо проверять, импульсные блоки питания все равно выпрямляют напряжение. Но схемы PFC могут не понять что происходит и отключиться на постоянном токе. Блоки питания попроще могут и заработать на постоянном токе.

                        Вот тут статья и комментарии по работ на постоянном токе, если заранее подготовиться, ничего придумывать не надо

                        https://habr.com/ru/articles/372749/#comment_16416779

                        Личный горький опыт — попытка завести такой блок питания (на 100 В/60 Гц, американский) от =110 В (лабораторная сеть постоянного тока). Сгорел. Обычные импульсники "90-260 В" работают от нее на ура.

                        Вот еще

                        https://www.chipmaker.ru/topic/181441/

                        Ребята вопрос следующий: В кубрике имеется пара розеток 220 в постоянного тока. Они вообще для электрогрелок, но парни по незнанию подключали зарядные ноутбуков планшетов телефонов. При этом все работало, при чем довольно продолжительное время и ни каких выходов из строя.
                        Хотелось бы получить коментарии по поводу такой работы. Долго ли прослужит блок питания? Выдает ли он правильное напряжение и ток? Ну и вообще.


                      1. konst90
                        20.06.2023 14:09
                        +1

                        Это делает выпрямитель, один диод на фазе.

                        Это когда у вас киловатт-два, всё просто. А в случае ЦОДа речь о мегаватте, там всё веселее намного.


                      1. sim31r
                        20.06.2023 14:09

                        Так и поле солнечных батарей дает мегаватт. И с этой мощностью вполне работают. Даже сложнее процессы, синхронно в сеть нужно передать энергию, а не разделить по потребителям.


                      1. mpa4b
                        20.06.2023 14:09

                        В тепловозах и электровозах на переменке как раз мегаватты. И ничего, выпрямители с генераторов в порядке вещей годов с 70ых. До этого в тепловозах были да, коллекторные генераторы, а в электровозах на переменке -- ртутные выпрямители.


                      1. Sau
                        20.06.2023 14:09

                        Первый закоротивший генератор сломает всю систему.


                      1. sim31r
                        20.06.2023 14:09

                        На постоянном токе диодом направляется энергия в одну сторону. На переменном токе отключит автомат. Проблема давно решена


                      1. Moog_Prodigy
                        20.06.2023 14:09

                        Нет, система его сломает. Он попросту или сгорит или отрубится от сети через устройства защиты.


                      1. SpecterOfChaos
                        20.06.2023 14:09

                        Генераторы нельзя просто параллельно соединить, как батарейки. Их совместная работа - довольно сложная задача.


                      1. nghtsnw
                        20.06.2023 14:09

                        Есть готовые решения для параллельной работы, контроллеры ComAp например. В целом там делов немного: попасть по фазе вращения в линию, воткнуться в неё и управлять выдаваемой мощностью подгонкой частоты вращения, получая информацию о мощности всей системы по CAN-шине.


                    1. VldE
                      20.06.2023 14:09

                      Современные решения позволяют такое устраивать для групп до 128 машин в кластере при использовании контроллера кластера. Или по другим технологиям - 32 машины без внешней магии.


            1. DGN
              20.06.2023 14:09
              +2

              Я не вкурсе генераторов, по теории они способны к самосинхронизации... Но например солнечные контроллеры с контролем фазы я держал в руках, их можно хоть в общую сеть включать и они ее подпитывают. Упала сеть - самосинхронизируются. И они именно сотнями могут работать.


              1. zatim
                20.06.2023 14:09
                +3

                На электростанциях, например, процесс синхронизации и ввода генератора в работу преимущественно ручной и небыстрый, можете посмотреть видео на ютубе. Оператор ждет пока фаза вращения генератора совпадет с сетью и тогда врубает рубильник. Но этот процесс редкий, по большей части турбины работают в одном режиме месяцами. Здесь же требуется подключать все достаточно оперативно, пока еще тянут ИБП, вручную точно не вариант. Самосинхронизации у них нет, это обычно простой трехфазный генератор на одном валу с двигателем. В солнечной энергетике все идет через инвертор.


                1. DGN
                  20.06.2023 14:09
                  -1

                  Это наверное видео времен днепрогэса? Нет ничего проще, чем по совпадению фаз открыть тиристор.

                  Генераторы разве не инверторные? Даже у меня на даче инверторный...


                  1. sim31r
                    20.06.2023 14:09
                    +1

                    Вот, с инверторами можно даже помочь турбине раскрутится за счет единой энергосистемы, чтобы переходные процессы ускорить с минут до секунд. Турбине только лучше будет, нерасчетные скорости для нее разрушительны.


                  1. M_AJ
                    20.06.2023 14:09
                    +1

                    Мощные генераторы не инверторные, если на это нет жизненной необходимости (как в каком-нибудь ветряке) но ручной ввод по стробоскопу наверное мало где остался, все делает в основном автоматика.


                1. dcs_pls
                  20.06.2023 14:09
                  +3

                  На электростанциях, например, процесс синхронизации и ввода генератора в работу преимущественно ручной и небыстрый, можете посмотреть видео на ютубе. Оператор ждет пока фаза вращения генератора совпадет с сетью и тогда врубает рубильник.

                  В этом веке это давно не проблема. Дизеля оборудуются контроллером управления который в том числе и синхронизирует его генератор с сетью. В энергетике рубильников нет, а современные энергоблоки синхронизируются автоматически. Процесс на средних машинах занимает 1-2 минуты.


                1. VldE
                  20.06.2023 14:09
                  +4

                  У нас это нажать клавишу ПУСК. Дождаться пока машина войдёт в режим, нажать клавишу «Ввод в сеть». Все. Остальное машины сами сделают. Там микропроцессорная система, включающая линии связи между машинами, цифровые регуляторы возбуждения и аналогово-цифровая шина отслеживания параметров дизеля/газопоршня. То есть все микропроцессорное и на своих алгоритмах. Один раз настроил и дальше оно само справляется.

                  Цифровая система передачи данных нужна для оперативной связи машин. То есть если один генератор работает как изохронный, вторые синхронно с ним. Что бы поделить реактивную мощность и подогнать возбуждение, можно по факту, грубо ввести машину в сеть. Этот грозит флуктуациями напряжения и тока в сети. Неприятно. Когда они общаются по шине - один генератор говорит другому «Я готовлюсь включать главный автомат, готовься отдать мне 50% мощности». Второй подгоняет себя под соседа и отдаёт ему мощность. Красиво и без всяких выбросов. Цифровая арн не зависит от климата.


                1. mpa4b
                  20.06.2023 14:09

                  Продвинутые генераторы на электростанциях нонче могут создавать сразу вращающееся магнитное поле ротором, так что частота сети не кратна скорости вращения. И очевидно для них нет никаких проблем сразу войти в синхронизм.


                1. Wan-Derer
                  20.06.2023 14:09

                  У энергетиков есть такая вещь как "вставка постоянно тока", это когда надо объединить две сети, которые по каким-то причинам невозможно синхронизировать (например, 50-60 Гц). Т.е. преобразование переменный-постоянный-переменный ток давно освоено. Правда, у них там чудовищные мощности и оборудование исключительно под заказ.

                  Не знаю есть ли что-то подобное для малых мощностей.


            1. sim31r
              20.06.2023 14:09
              +2

              Объединить энергию от сотен генераторов и подключить к одной нагрузке - нетривиальная задача.

              Так было лет 20 назад. Сейчас развита зеленая энергетика и у них есть решения по сбору энергии из разрозненных источников. До 1 МВт как в статье вообще без проблем.


            1. mpa4b
              20.06.2023 14:09

              От сотен, и ещё распределённых географически -- может быть. А десяток находящихся в одном месте -- какие могут быть проблемы? Ввёл в синхронизм и подключил к нагрузке, управляются все сразу единым контроллером, который выдаёт уставки на подачу топлива в дизелях и возбуждение генераторов, например.


        1. nghtsnw
          20.06.2023 14:09
          +1

          Работа нескольких генераторов на одну общую нагрузку - нетривиальная задача.

          Вообще ничего сложного. Делал энергокомплекс 260+400+400. Сначала все запускаются и входят в параллель, включается общий контактор на линию и дальше система саморегулируется в зависимости от нагрузки.


        1. VldE
          20.06.2023 14:09
          +2

          Тривиальная. Смотрите решения comap control. Там микропроцессорная система , связывающая машины и общую сеть. Можно максимально бесшовно перейти на дгу и обратно


      1. mikelavr
        20.06.2023 14:09

        Литий в расчете на Вт*ч стоит раза в три дороже свинца :(.


        1. DGN
          20.06.2023 14:09
          -1

          Это правда, но если учесть срок службы, вес стоек ибп, работы по замене батарей, требование к вентиляции - получается удорожание всей системы уже не в разы, а на десятки процентов.


          1. sim31r
            20.06.2023 14:09
            +1

            У лития добавляются требования к пожарной безопасности. Батарея на 1 МВт из лития что сутки выдает мощность может целый квартал снести при некотором раскладе.


            1. DGN
              20.06.2023 14:09
              +2

              Опасен li-po, lifepo4 безопасен.


              1. sim31r
                20.06.2023 14:09
                +1

                Безопаснее лития, но опасен, запас энергии в 1 МВт*сутки не может быть безопасен


                1. DGN
                  20.06.2023 14:09

                  Ну я не видел проблем с lfp, ни по перезаряду (просто греются, на ощупь сильно, но у них до 50 вообще рабочее), ни по повреждению корпуса.


                  1. DanilinS
                    20.06.2023 14:09

                    Интересно, как быстро при аварии эта энергия может выделится? Если например короткое на шинах батареи. И lifepo4 горит. Хотя и не так активно, как li-po.


    1. sim31r
      20.06.2023 14:09
      +3

      ИБП с запасом энергии на 2-3-4 потери

      Потом будет новость типа: в России взорвался датацентр из-за выделения водорода из аккумуляторов. Как такое произошло?

      Это просто дикая цепочка событий.

      Отключилась вентиляция, аккумуляторы встали на зарядку, выделился водород, искра, взрыв... а аккумуляторы на 1 МВт мощности в течение суток...


  1. vanxant
    20.06.2023 14:09
    +14

    С техникой такое довольно часто: при нормальном использовании / простое вроде всё в порядке, а при аварийной нагрузке летит. Это я про патрубок и маршрутизатор. Вы же наверняка знаете, что при ребилде рейда есть неслабый шанс получить второй дохлый диск, который до этого работал...

    Ну и насчёт охраны, попробуйте договориться о пропусках для аварийной бригады. Хотя бы каждый день выписывайте такие пропуска на пару запасных бойцов и техдира. Для последнего доступ на площадку в любое время вообще штука полезная.


    1. sim31r
      20.06.2023 14:09
      +10

      По факту на данный момент от охраны вреда больше, чем пользы. Сейчас типично на объектах охраны нет, стоят датчики охранные, видеокамеры и всё. А тут какие-то детские болезни в работе системы, охрана с синдромом вахтера. Пожарных и скорую они тоже на объект не пустят?


    1. ntsaplin Автор
      20.06.2023 14:09

      Спасибо за понимание и идеи!


  1. huhen
    20.06.2023 14:09
    +4

    Судя по времени событий догадываюсь кто у вас соседи и теперь понятно почему у нас один сервер отваливался на это время(соседи не стали рассказывать что это было).


  1. s_n_st
    20.06.2023 14:09

    Это вот на этом ЦОДе авария ? https://habr.com/ru/companies/ruvds/articles/313112/


    1. ntsaplin Автор
      20.06.2023 14:09

      Да


      1. s_n_st
        20.06.2023 14:09
        +5

        По ссылке фото 2016 года, но все таки, ДГУ какой то неухоженный. Вероятно за прошедшие 7 лет лучше он не стал, а теперь вот патрубок... Закономерный итог. "Ввод питания в гермозону" - даже комментировать не хочу. В комментах в статье вам еще и в 16-м году писали. Конечно аварийное отключение двух фидеров вещь неприятная, но мне кажется все остальное у вас посыпалось просто от того, что никто не занимался регламентными работами на оборудовании. А соответствующие должностные лица ничего не проверяли, кроме панели мониторинга на экране ноутбука.


        1. ntsaplin Автор
          20.06.2023 14:09

          Работа на дизелях всегда риск. Мы исправно их включали по отдельности раз в месяц, без переключения всей инфраструктуры на них. Это несёт в себе довольно большой риск и проводить боевые учения, когда у вас полный дата-центр клиентов - так себе удовольствие.


          1. DGN
            20.06.2023 14:09
            +5

            Даже не знаю что тут посоветовать. Но длительную работу трех полумегаваттных генераторов на номинале сложно промоделировать по теплу например. Особенно если будет безветрие, день и +40... А именно в таких условиях вероятность лечь у городской энергосистемы велика.

            А вы можете себе сделать энерговывод на столб например? Чтоб в случае ЧП, пригнать трейлер с генератором и подключить минуя охрану?


            1. VldE
              20.06.2023 14:09

              При 100% мощности будет перегрев примерно через 30 минут. Но больше шансов что у вас упадёт ввод по тепловому расцепителю автомата. Мы уже проверили и не раз. В штиль, ветер и мороз есть рекомендации что делать. Как говорится, обращаетесь к специалистам.


          1. VldE
            20.06.2023 14:09
            +3

            Вам необходимо обратиться к крупным людям как Энерготехсервис, НГ энерго, Волгаэнергопром. В чем суть вопроса: это компании, обеспечивающие генерацией нефтянку, склады и прочие объекты с аптаймом в единицу. То есть сутки не выключаясь. Это дает доступ к инженерно техническому составу по исследуемому вопросу, запчастям и понимаю того как это работает. Много кто так всю генерацию на аутсорс. Собственно, у выше перечисленных есть даже заводы и ремонтные цеха, склады запчастей на все случаи жизни. А хандмейд это больший риск.

            Большая часть вашего веселья началась с «Нет инженера энергетика с опытом в генерацию». Нет оценки рисков что пойдёт не так.

            В большинстве случаев для нас полетевший патрубок этот проблема дождаться охлаждения антифриза и его заменить. В запасе лежит , как и ремни и прочие датчики. Если надо можно чуть ли не половину критичных узлов в каморке держать, включая запасной ноутбук наладчика.


          1. not-allowed-here
            20.06.2023 14:09

            обычно же в два Этапа тестируют - сначала Сажают нагрузку на одну из ИБП потом Переключат нагрузку на основную сеть, а ИБП используют как нагрузку для генератора - что бы не возить цистерну с водой и нагревателем на 500кВт...


          1. Rohan66
            20.06.2023 14:09
            +5

            У нас были дизеля (С-300). Вся боевая работа - только от них. И для тестирования был "эквивалент" - железный ящик на колёсиках где-то 1,2х2х1,5. Имитировал 100 квт нагрузки. Тупо - большой проволочный резистор. Зимой им ангар обогревали.

            И, кстати, ещё тогда (70-80-е) наши дизеля вполне спокойно синхронизировались с сетью. Нажимаешь кнопку пуск, дизель заводится, выходит на режим, синхронизируется с сетью и потом внешнюю сеть отключает.


  1. cliver
    20.06.2023 14:09
    +4

    И вообще, админы не очень хорошо ремонтируют дизели: это немного не их профиль работы.

    Так и представляю голос начальства: "Настоящие админы должны уметь все!" :)


    1. sim31r
      20.06.2023 14:09
      +3

      Причем недорого. И зачем нам много админов? двух хватит. Видите как хорошо оптимизировали штат, на премию себе как минимум ))


  1. andreishe
    20.06.2023 14:09
    +9

     Разбор ошибок

    Что-то не видно желания пересмотреть пропускной режим.


    1. yea
      20.06.2023 14:09
      +7

      Насколько я понял, пропускной режим — это пропускной режим стратегического предприятия, на территории которого арендуются площади.


      1. Sannis
        20.06.2023 14:09
        +6

        Пересмотреть политику выбора площадок под аренду? На дворе 2023й год, уже давно нет тех аргументов почему 20 лет назад можно было выбирать именно такие места под ЦОД.


        1. ntsaplin Автор
          20.06.2023 14:09
          +7

          У нас самый широкий выбор дата-центров среди российских хостеров - от М9 и Останкино до Владивостока и Швейцарии. Есть как площадки сертифицированные TIER, так и режимные объекты. Клиенты выбирают то, что больше им подходит в зависимости от потребностей бизнеса: для кого-то 3 периметра физической безопасности и охрана росгвардии важнее потенциального времени ожидания пропуска на объект.

          На крайний случай у нас есть соответствующий опыт переезда дата-центра, если мы не сможем обеспечить качество оказания услуг на данной площадке. Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.


          1. andreishe
            20.06.2023 14:09

            Но по одному кейсу, хоть и очень тяжёлому неправильно принимать подобные решения.

            А что, есть надежда, что в следующий раз произойдет что-то другое?


    1. FlashHaos
      20.06.2023 14:09
      +8

      Ну что вы, пропускной режим отработал как надо! Ни одного диверсанта не пропустили, пока начальник охранников не проснулся.


    1. A__I
      20.06.2023 14:09
      +2

      Пропусквыдавать не только разовый но и на энное количество часов. А по окончании охрана пинком под зад всех за КПП #сарказм. Если после такого облажания телефоноы и адреса руководства охраны по прежнему неизвестны , а на КПП не лежит список кого пропускать 24/7- пишите курс как ходить по граблям


    1. gluck59
      20.06.2023 14:09
      +1

      Думаете, это они должны сделать?


  1. ENGIN33RRR
    20.06.2023 14:09

    Делали безопасность для военки. Сервера питались- несколько стоечных УПС в каждой стойке, общий УПС с кучей здоровенных аккумуляторов, бензиновый генератор, стабилизатор. На одних УПС система почти сутки могла жить, даже при истощении выключалось все по мере критичности. Генератор бензиновый а не дизельный чтобы зимой проблем не было с запуском. Даже если генератор умрет- можно сходить за другим не спеша.

    А тут да, сэкономили на УПС, причем каким то чудом еще и сгорело и заглючило чего то при перезагрузке.


    1. vanxant
      20.06.2023 14:09
      +6

      у вас тоже было бензиновых генераторов на мегаватт?


    1. sim31r
      20.06.2023 14:09

      Возможно УПС были криво подключены и в целом что-то напутано по фазам. У нас было такое в большом спортивном комплексе и еще в одном здании, тупо 380В пришло на оборудование с генераторов и погорело всё что было в сети, от БП серверов до Cisco.


      1. vadimk91
        20.06.2023 14:09

        буквально на днях тут была картинка, как это может получиться
        https://habrastorage.org/getpro/habr/upload_files/71a/9e7/9e6/71a9e79e680f86ff45530bb1928aa80b.JPG


  1. zatim
    20.06.2023 14:09
    +2

    Надо устраивать учения каждые полгода. Приходить ночью с электриком и втихаря отрубать вводы.


    1. mikelavr
      20.06.2023 14:09
      +2

      1. Заметно высокий риск отказа. Клиенты не будут рады. Тестировать то придется на живых людях.

      2. Ресурс дизелей, плюс само дизтопливо.


      1. zatim
        20.06.2023 14:09
        +3

        1. Если это делать ночью, то, как было сказано в статье, в случае ЧП некоторые клиенты могут даже этого не заметить. Ну, и лучше иметь отказ на учениях, когда в любой момент можно врубить питание назад, чем если это произойдет при реальной аварии.

        2. Да, придется потратиться на 50-100 л солярки, или сколько там дизеля сожрут за 5-10 минут проверки?


        1. ntsaplin Автор
          20.06.2023 14:09

          Дело не в солярке, а в том, что когда парк железа исчисляется сотнями нод, моргание света, конечно, укажет на проблемный сегмент, но вместе с тем и есть риск выхода из строя серверного оборудования. Рейд контроллеры, например, не особо любят частые перезагрузки и могут выйти из строя, что наполнит учения незабываемыми ощущениями от потери клиентских данных и последующих извинений. Ранее в комментах я уже упоминал, что мы исправно включали дизели по отдельности и без переключения всей инфраструктуры на них.


          1. DGN
            20.06.2023 14:09
            +5

            Ниче непонятно. У схд два-три бп, на каждый своя линия, и рейд контроллер даже не узнает что там кто-то дизель пустил. ИБП должны все это отработать, им тоже полезно раз в год клацнуть большой релюшкой.


            1. blind_oracle
              20.06.2023 14:09

              Эти ДЦшные ИБП, скорее всего, с прямым преобразованием - там даже релюшки нет толком :)


          1. Gutt
            20.06.2023 14:09
            +4

            Тут вы должны решить, что хуже -- иногда мелкие отказы на учениях или редко вот такие крупные отказы. Мы честно каждые несколько месяцев переключаем ДЦ (небольшие, две штуки по 130 кВт каждый) на дизель. Лучше познакомиться с проблемами до того, как они подкрадутся к тебе сами.


        1. sim31r
          20.06.2023 14:09
          +4

          Тем более что топливо надо обновлять, оно расслаивается в баках.


          1. VldE
            20.06.2023 14:09

            Еще есть такая милая вещь как осушение топливной магистрали при длительном простое. Никто не ставит клапана, а зря. Прокачка - дело не быстрое.


        1. DGN
          20.06.2023 14:09
          +12

          Им на самом деле полезно иногда пожрать, а то кольца залягут и воробьи гнезда совьют в выхлопной трубе. 50л в масштабах ДЦ просто смешно. И вообще, ДТ имеет сроки хранения, по хорошему, топливо надо ротировать (то есть воровать на личные нужды и докупать свежее).


      1. blik13
        20.06.2023 14:09
        +5

        У дизелей ресурс многие тысячи моточасов. Пятиминутное включение это ничто, они и до рабочей температуры могут не успеть разогреться.


        1. VldE
          20.06.2023 14:09

          Строго говоря, 17-20 тысяч моточасов до капитального ремонта. Потом еще раз столько же. Да же если гонять по часу, то на 20 000 раз хватит. :).


    1. sim31r
      20.06.2023 14:09

      Надо заранее предусмотреть тестовую нагрузку для UPS и генераторов. Это всего сотня тэнов в большой бочке с водой.


    1. ntsaplin Автор
      20.06.2023 14:09

    1. Spyman
      20.06.2023 14:09
      +1

      А чем отказ системы на таких учениях будет отличаться от отказа системы в обычный день за исключением того, что будут пропуска и готовые люди? И как это выявит отказавший дизель который сдох через 3 часа работы?

      Если что-то пойдет не так то в обоих случаях пострадают люди размещающиеся на стойке, а вероятность что что-то пойдет не так увеличивается с увеличеним частоты "проверок".

      Это примерно как выстрелить себе в ногу в больнице чтобы убедиться что врачи быстро тебя вылечат в момент, когда ты выстрелишь себе в ногу в поле. Конечно в больнице помогут быстрее но эксперемент того явно не стоит.


      1. Areso
        20.06.2023 14:09
        +2

        Во время учений электричество пропадает хоть и по-настоящему, но включить его обратно можно рубильником; во время настоящего события рубильник дёргай или нет -- на вводе нет электричества, значит его нет.
        Разница между (потенциальной) перезагрузкой клиентского оборудования и блэкаутом на 12 часов -- огромна.


      1. Firz
        20.06.2023 14:09
        +1

        А чем отказ системы на таких учениях будет отличаться от отказа системы в обычный день за исключением того, что будут пропуска и готовые люди? И как это выявит отказавший дизель который сдох через 3 часа работы?

        Читал N лет назад как тестируют свой ДЦ в какой-то(даже примерно не помню названия) компании — когда подходит срок годности дизельного доплива, привозят новое топливо на замену и переключаются на сутки(на столько старого топлива запасено) на генераторы, и старое топливо вырабатывается и сразу в боевых условиях проверяют что все будет работать как предполагается.


  1. ifap
    20.06.2023 14:09
    +4

    Вот для этого и проводят учения, которые бы показали минимум половину выявленных наживую проблем. Но "на кошечках" тренироваться не так остросюжетно, кто ж спорит,..


    1. sim31r
      20.06.2023 14:09
      +2

      Того, кто придумал эти учения и уволили бы. Сказали смотрите до чего его игры довели, работало же всё нормально.


      1. AlexGluck
        20.06.2023 14:09
        +5

        Гораздо лучше устроить долгую аварию на 14 цодов и потом оправдываться что руководство не умственно отсталое (конечно верим). Ну это было бы конечно новость, если бы таким "руководством" не был бы наполнен рынок этих услуг.


      1. Popadanec
        20.06.2023 14:09

        С таким руководством, которое подобное исполняет, всё равно не по пути и стоит менять работу.


        1. sim31r
          20.06.2023 14:09

          Такое везде. Можно рассмотреть Фукусиму или падение ракеты Ариан 5, по примерам даже статья есть на Хабре: https://habr.com/ru/articles/307394/

          Большая компания становится как маленькое государство и там свои особенности, нельзя объять необъятное. Иначе бы не было такого, тысячи процветающих компания с миллиардными активами и неожиданно становятся банкротами

          Банкротство General Motors Дата банкротства: 06/01/2009 Активы: $91.000.000.000

          Спустя некоторое время кажется понятно какие ошибки они совершили, но в свое время руководству не так очевидно что они делали не так. Это конечно когнитивное искажение, что вот они глупые, а мы умные и больше понимаем.


          1. Popadanec
            20.06.2023 14:09

            Кмк, большинство причин банкротств, потеря обратной связи с потребителями.
            Низы не могут, верхи не знают.


  1. 1Fedor
    20.06.2023 14:09
    +18

    Эх, читаю описание ощущение зачем Вам - админам лезть туда, где Вы не понимаете.
    Возьмите нормального электрика, будет счастье, трансформаторов не станет по 110 МВт, скорее 110 кВ, но это неизвестно. И мощность не будет перераспределятся по лучам (??), и ДГУ будет работать как надо и миганий не будет.
    Пришел человек и решил: "...ночь показала, что двух недостаточно, нужно 2N + 1 минимум...", а расчеты есть?
    Или ночь показала? А вероятность отказа сколько, ущерб какой будет?
    Отключение питания штатная и проектная авария, потребитель (ЦОД) должен работать без проблем, как часы.


    1. DGN
      20.06.2023 14:09
      +4

      Вот кстати да. Это еще патрубок воздушный лопнул, а если бы топливный? Готовы системы к разливу дт и пожару в генераторной? Или пустили фреон и вообще все встало? Или генераторы на улице рядом стоят и там всего инструмента пожарный щит с лопатой и ведро пожарное?


      1. ntsaplin Автор
        20.06.2023 14:09
        +5

        Похоже, что к разливу ДТ в генераторной мы готовы, потому что это старая генераторная убежища, и она в какой-то степени защищена by design. А вот к пожару не полностью, то есть потушить-то потушим, но заново не заведёмся. Давайте так: сейчас мы выдохнем, и чуть позже расскажу про выводы и то, что реально экономически и рисково обосновано, а что нет — иначе получается история с солонками.


        1. A__I
          20.06.2023 14:09
          +1

          У вас в генераторной есть приямок объёмом равный запасу топлива ? Что с огнестойкостью дверей, стен, кабельных вводов ?


    1. ntsaplin Автор
      20.06.2023 14:09
      +2

      Дата-центр Rucloud запитан от двух независимых трансформаторов 110 кВт от городской подстанции Королев, ул. Хвойная. Извините, поправил.


      1. OChSPb
        20.06.2023 14:09

        Напряжение же - 110 кВт


        1. DGN
          20.06.2023 14:09

          Напряжение - киловольты, kV

          кВт - мощность.


          1. OChSPb
            20.06.2023 14:09

            В чем посыл? Я и написал, что при указании напряжения "т" на конце лишняя. Почем латинскими?


      1. A__I
        20.06.2023 14:09

        Хоть 10 трансформаторов на подстанции. На таких напряжениях аварии весьма масштабны,. Питаться надо от физически разных подстанций и чтобы к вам кабели питания были с разных сторон проведены чтобы однажды экскаватор не нашёл сразу оба кабеля.


        1. dcs_pls
          20.06.2023 14:09

          Хоть 10 трансформаторов на подстанции.

          Да, важнее сколько ЛЭП (ВЛ, КВЛ) подключено к подстанции, если несколько то при аварии на одной сработает АВР и потребители не пострадают. Питание от двух географически разнесенных подстанций очень не дешевое удовольствие.

          Интересно, а существует в электрохозяйствах ЦОД-ов такое понятие как "селективность"?


  1. Night_Snake
    20.06.2023 14:09

    А какое количество стоек вам требуется на М9?)


    1. ntsaplin Автор
      20.06.2023 14:09

      Написал в ЛС


  1. rootdefault
    20.06.2023 14:09
    +12

    Пусть кинет в меня камень кто по своей рукожопости не имел даунтайм 12 часов.

    Да, дерьмо случается, бывают даже лютые факапы, но вот то как на это реагирует компания, какую даёт обратную связь и делает из этого выводы это очень важно и один из главных индикаторов для решения работать с ребятами.


    1. ntsaplin Автор
      20.06.2023 14:09

      Спасибо за поддержку!


    1. AlexGluck
      20.06.2023 14:09
      +3

      Как не делали учения, так и не будут. А для учений надо специалистов нанимать и слушать их, а не в карман эффективных менеджеров деньги класть. Перед учениями всегда инженеры всё вылизывают и говорят, когда можно начать проводить учения.


      1. ntsaplin Автор
        20.06.2023 14:09
        +2

        Дизели обслуживаются раз в полгода. В этот раз интервал был чуть меньше, потому что мы сутки на них стояли во время зимнего кризиса. Если это шпилька в мою сторону про эффективный менеджмент — ну, я уже много раз рассказывал, как именно и к каким рискам мы готовимся, и нескольких очень крупных случаев нам удалось избежать. Если вы всё ещё считаете, что я неправ, то, в целом, готов обсудить ваше участие в нашей работе и вашу ответственность за простои в личке.


    1. rootdefault
      20.06.2023 14:09
      +2

      Спасибо за минус в карму (первый)

      А я всё равно настаиваю что реакция у ребят на свой факап правильная и я был бы рад если бы этому примеру последовали другие.


  1. M_AJ
    20.06.2023 14:09
    +2

    Что интересно, клиенты почти угадали что случилось (отвал мониторинга и следом за ним системы, которая отвечает за создание серверов), но техподдержка почему-то опровергает их верные догадки

    Мы не думали строить кластер из двух коммутаторов, потому что не похоже, что DDoS-защита относится к критичным сегментам: при выходе её из строя примерно на 5–20 минут (время физической замены коммутатора) возможны DDoS.

    Но ведь фактически он отвечал не только за защиту от DDoS, но и за сеть управления, а это критический сегмент.


    1. ntsaplin Автор
      20.06.2023 14:09

      Поддержка ошиблась, простите. Мы были неправы в тот момент. Как я говорил, было довольно сложно в моменте понять детали происходящего.


    1. not-allowed-here
      20.06.2023 14:09

      а помогло бы? 50/50 "состояние Шредингера" у железа тем и опасно что даже при наличии кластера далеко не факт что оно бы продолжало работать и самое худшее оно могло бы так же погореть при запуске и во втором комке - причина повреждения коммутатора не озвучена, да и скорее всего четко непонятна... я бы плотно занялся анализом Электрики и Управляющих контуров в ЦОД особенно для критичных узлов - ДГУ, Климат + Вентиляция, СКУД, Управление... да и архитектуру сети управления копнуть стоило бы....


      1. M_AJ
        20.06.2023 14:09

        даже при наличии кластера далеко не факт что оно бы продолжало работать

        Теория надежности штука вероятностная, и вероятность выхода из строя двух систем сразу в общем случае ниже, конечно всегда может случится какая-нибудь условная Фукусима, когда мы остаемся без всех резервных систем разом, но статистически, кластер более надежен. И конечно никто не мешает иметь в дополнение и hot swap в шкафу. А вообще, тут главная проблема в том, что узел, который был оценен как не критический, фактически являлся критическим.


        1. not-allowed-here
          20.06.2023 14:09

          в данном случае "Внешний фактор" - сколько бы устройств в Кластере не было от межфазного(380В) не спасет...


          1. M_AJ
            20.06.2023 14:09

            Есть большие сомнения, что в данном случае коммутатор оказался под линейным напряжением, хотя бы потому, что тогда пострадало бы больше устройств. И от такого тоже можно защищаться установкой реле напряжения.


            1. not-allowed-here
              20.06.2023 14:09

              до подлинно неизвестно и было бы Интересно Узнать причины @ntsaplin


          1. ElvenSailor
            20.06.2023 14:09

            маловероятно, что там прилетело 380, я бы поставил на переходной процесс aka "вкл-выкл-снова вкл", когда моргнули сначала генераторы, потом упсы.


            1. not-allowed-here
              20.06.2023 14:09

              согласен тогда бы горело много и долго - но вот как простейший вариант который показывает не состоятельность вероятностной модели отказов при появлении внешних факторов сойдет.....


  1. sim31r
    20.06.2023 14:09
    +4

    Это значит, что мы не можем отправить ещё админов и не можем отправить дизель

    Надо было имитировать приступ сердечный у админа и пожар (задымление же было по сути и так) на генераторе. Приехала бы скорая, полиция, МЧС, пожарники, санэпиднадзор и начался бы проходной двор, куда под шумок бы пронесли и генераторы ))

    Со стороны выглядит что проблема не техническая, а организационная, как корпоративная болезнь крупных компаний, по отдельности всё работает, а всё в целом проверить вроде и нужно, но конкретно некому. Или некому ответственность на себя взять на организацию тестирования и возможные последствия. Система питания централизованная, мощная, по сегментам не проверить, а всё отключать чревато. Сейчас виноватых как-бы и нет (ответственность размазана по системе, как на Фукусиме было например, все следовали регламенту и сохранили лицо). А при тесте был бы виновен конкретный организатор тестирования, что отключил рубильник в запланированное время. Сразу бы началось, кто просил это делать, кто разрешил, нам такое не надо и так дел хватает, давайте не сейчас (а лет через 100)...


    1. DGN
      20.06.2023 14:09
      +2

      В фейсбуке?? админы не могли то ли попасть в машзал, то ли выйти из него, когда упал сервер авторизации?


      1. AlexGluck
        20.06.2023 14:09
        +2

        Поломали сеть, от которой упал днс, от которого всё тазом накрылось.


    1. stepuncius
      20.06.2023 14:09

      Насколько надо sneak вкачать, чтобы "под шумок" незаметно протащить генератор на 0.5 МВт?

      Как я понимаю, это минимум 2 тонны...

      А вот выше была идея с отдельным вводом, чтобы подгонять генератор снаружи, это реальнее.


      1. not-allowed-here
        20.06.2023 14:09
        +1

        скорее всего Энергетики вам пожмут шею, за такую самодеятельность и будут правы...


  1. klikalka
    20.06.2023 14:09

    Проблема - это всегда комплекс факторов.
    Молодцы, что так быстро справились.


  1. t278
    20.06.2023 14:09

    "самолёт не разбивается от одной не исправности"


  1. 13werwolf13
    20.06.2023 14:09
    +3

    знаю не по наслышке подобные ночные "приключения", хочется посочувствовать.

    НО:

    Итог: нам нужен сервис публичного мониторинга доступности нод.

    камон, почему это до сих пор не очевидно вообще всем? неужеле так сложно прикрутить какой нибудь cachet развёрнутый на мощностях конкурентовколлег за счёт того что их публичный сервис мониторинга будет развёрнут у вас. и все довольны, и телефоны меньше разрываются..


  1. orekh
    20.06.2023 14:09
    +2

    Тут много всяких "полезных" решений насоветовали в комментариях, разумеется. Вроде стресс-проверок отключением электроэнергии каждую ночь и покупки ИБП с акумом на сутки работы. Лол.

    Однако, мониторинг вам правда не помешает. Пару лет назад, когда с вами появлялись регулярные проблемы на зарубежном сервере и я просто не мог понять что происходит: с поддержкой переписываться неохота, отвечают долго, а когда отвечали то конкретика на уровне «наблюдаем проблемы какие-то с доступностью, специалисты решат, наверное». Возможно что проблемы были лишь на определенной локации, но на вопрос «куда бежать», поддержка ответила что-то совсем невразумительное, статистики инцидентов у вас нет, так что релоцировался к конкурентам)

    Выведите какую-нибудь красивую публичную панельку, типа discordstatus.com , тогда хоть люди понимать будут почему сайт не работает, проблема на них или у вас.


    1. ntsaplin Автор
      20.06.2023 14:09
      +2

      Спасибо за советы. Учтём. Уже есть несколько подобных идей в работе.


      1. Timurzen
        20.06.2023 14:09
        +1

        Вообще вам надо брать примеры с предприятий критической инфраструктуры, допустим у нас на ТЭЦ кому выдавать пропуск решает не начальник охраны а начальник смены станции. Он просто звонит на пост охраны и говорит кого впустить. Потому как во время аварии он всем рулит и соответственно знает кого надо ещё привлечь. Так же постоянно идут тренинги по переключению мощностей и т.д. Ну и вообще запитывайтесь от ТЭЦ на прямую, у нас станция в 0 один раз за 60 лет выходила и то по своей инициативе )


        1. dcs_pls
          20.06.2023 14:09
          +1

          Не получится напрямую к ТЭЦ подключиться, тут уже писали что чубайс разделил генерацию, сети и сбыт. Если у вас есть сбытовая конторка тогда можно изловчиться.


        1. Wan-Derer
          20.06.2023 14:09

          кому выдавать пропуск решает не начальник охраны а начальник смены станции

          Это потому что на ТЭЦ авария касается основной деятельности объекта. А здесь ребята - кукушата/подселенцы на очень-важном-заводе. Настолько важном что стережёт его не ЧОП, а целая Росгвардия.

          Здесь бы, конечно, объяснить что тут не просто бизнес, а критическая инфраструктура федерального значения. Вот только кому объяснять и кто бы это мог сделать - непонятно.


  1. FanatPHP
    20.06.2023 14:09
    +5

    Вот за такие триллеры вам можно простить горы проходного шлака, который обычно публикуется в этом блоге.
    Побольше бы таких историй! ;)


    А если серьёзно, то я бы вот даже разделил как-то, блог 1stVDS и публикации "для массы". На первый я бы даже подписался.


  1. ZeroBot-Dot
    20.06.2023 14:09
    +4

    Прочитал и содрогнулся. Хорошо, что я ушел из админов в devops :)

    А вообще админам надо премию!


    1. Moog_Prodigy
      20.06.2023 14:09
      +2

      Будем надеяться, премии у них будут (не лишат).


  1. not-allowed-here
    20.06.2023 14:09
    +6

    Самое Критичное - отсутствие пропуска "Вездехода" который позволил бы Вам РАДИКАЛЬНО ускорить подключение дополнительных рабочих Рук и доставку ДГУ + ЗИП.... по своему личному опыту знаю насколько это критично и сложно....

    резервирование Вентиляции и прочих СЖО - при размещение помещений с Людьми в бомбариках и тп - Вентиляция Этих помещений должна стать отдельной Комплексно решаемой задачей с 2N+1 по всему (вплоть до регенеративных противогазов или кислородных систем) - Опыт, грабли - сам провел Две недели в Больнице после срабатывания Газового Пожаротушения которое из-за корявой работы вентиляции протянуло по всему ЦОДу...

    Обучение Админов базовой диагностике и ремонту ДГУ + ТБ и ПОЛНЫЙ ЗИП на все ДГУ в ЦОД - особенно как раз Все патрубки тп - вобще всё резинового силиконовое в двойном запасе ибо порвать можно и случайно.... опыт, грабли, к сожалению трупы (это про ТБ) - обварился механик при ремонте из-за лопнувшего патрубка, к сожалению спасти не смогли.... на другом объекте механика "затянуло" под вал генератора... порубленные пальцы вентиляторами Охлаждения итп, а еще не соблюдение ТБ при Электро работах по пуску ДГУ и переключению линий...

    Отдельный вопрос Всякие ГСМ для ДГУ - тоже в двойном Запасе на всё - оперативно Купить 90 литров условного "тосола" для ДГУ в 3 часа ночи это и в большом то городе проблема....

    Мониторинг - а чем бы он вам помог в этой ситуации? т.к. он бы сидел же за той же железкой которая защищает сеть управления, то он бы точно также отпал и всё...... тут скорее Вам нужен "план параноика" - который предусматривает "состояния Шредингера" для оборудования, и я бы рекомендовал наличие альтернативных каналов для сетей управления - СОВСЕМ альтернативных и СОВСЕМ независимых... Админский сотовый с раздачей Wifi + Ноут - комбинация не раз спасавшая при Крахе "правильно резервированного" канала связи...

    еще бы нормальный NOC - который имеет Нормальную резервированную Связь (да, да медная пара иногда Рулит) и который работает Круглосуточно чтобы решение вопросов не требовало участия директоров/руководителей.....


    1. ntsaplin Автор
      20.06.2023 14:09

      Всё правильно говорите. В крупных резервах — вопрос в том, резервировать ЦОД целиком (как у нас сделано) или системы в нём. Нам надо выдохнуть, посчитать вероятности и экономику, после сделать выводы. Пока на горячую я вам обоснованно с числами не отвечу.


      1. not-allowed-here
        20.06.2023 14:09

        Грабли ваши, опыт тоже....

        ПМСМ:

        1. резервировать сначала отдельные подсистемы - под максимум особенно управление и СЖО

        2. потом Уже резервировать всё остальное - конечно по факту отрезервировать всё точно не получится, но может имеет смысл реализовать возможность резервирования Нагрузки VDS/VPS - например через некое подобие MetroCluster с синхронной репликой который бы позволиn при потере ЦОДа или Появлении жестких проблем проcто разнести нагрузку - недешевого, но дешевле строительства 2N+1 - т.к. сомнительна физическая возможность размещения оборудования....

        3. Разделить сервисы на категории резервирования - это бы сильно упростило задачу - ну и классика бизнеса - "...любой каприз по нашему прейскуранту за ваши деньги....."

        4. Задуматься о доступности и заключить правильные соглашения с Владельцами/Эксплуатантами площадки


  1. zVadim
    20.06.2023 14:09
    +3

    Захватывающая статья. Очень импонирует то, что вы открыто говорите о своих косяках. Думаю, что даже у недовольных отключением пользователей, её прочтение повысит доверие к вам. Многие крупные аварии вызываются из-за наложения нескольких неблагоприятных факторов. Очень сложно/невозможно предусмотреть всё.


  1. AlexxTHUNDER
    20.06.2023 14:09
    +1

    Ситуации бывают разные конечно, их всё не предугадать. Но отсутствие допуска на такой объект - это нонсенс. Всегда должен быть дежурный лизинг-специалист, разруливающий такие вопросы в любое время дня и ночи. Получите бы вы допуск сразу в критический момент. Всё бы решено гораздо быстрее, и "недовольства" в чатах было бы меньше.


  1. stanislavskijvlad
    20.06.2023 14:09

    Давайте я расскажу идеальную схему резервного питания, если у нас infinite бабло и любые доступные площади. Отдельное здание под аккумуляторы, самые простые. Хоть свинцовые. Их задача дать большую мощность, но не на долго. Например, МегаВатт. Если случилась просадка напряжения, "мозги" системы за десятую долю секунды переключают городской ввод на эти самые аакумы. Их задача проработать 2-3 минуты. За это время входит в строй один дизель-генератор. В теории, он может выдать не 50 Герц, а 49,5 . В обычной жизни это катастрофа. Но здесь нам всё равно. Мы любой синус превратим в постоянную составляющую, а уже её – в чистый синус 50 Герц. На вводе скорее всего будет три кабеля, на понижающей ТП. А на выходе нашего генератора: три фазы и PEN-проводник. Он и рабочий, и защитный. Хотя, тема заземления (зануления, выравнивания потенциалов) — отдельная наука. Можно и корабельные технологии использовать...


    1. not-allowed-here
      20.06.2023 14:09

      вы описали ДИБП - дорого но дешевле чем Здание под аккумуляторы....

      Возможно за счет того что они Быстрее выходят на режим - они вполне могли б и помочь в данной ситуации при отказе большого ДГУ....


    1. sim31r
      20.06.2023 14:09
      +2

      Идеальная система вот, всё придумано лет 30 назад

      https://www.grandmotors.ru/dynamic_ups.php

      КПД более 97%, срок службы более 25 лет, мощность одной установки от 500 до 2500 кВА (и до 30 МВА при параллельном режиме)


      1. saga111a
        20.06.2023 14:09
        +2

        Идеальная система вот, всё придумано лет 30 назад

        Лет 70 назад. Советский ГПН - генератор постоянно напряжения, тот же принцип работы


  1. OChSPb
    20.06.2023 14:09
    +2

    Отличная и интересная статья. По тексту парни на месте просто выше всяких похвал. Пережить такой кризис в ночную смену дорогого стоит.

    Немного душнот:

    "авария была на трансформаторе 110 МВт"

    может все таки кВ?

    "то есть генерация устраняла аварию максимально быстро для нас"

    после реформы электроэнергетики генерация живет отдельно, сети отдельно. И аварию на подстанции вероятно устраняла владеющая или эксплуатирующая ее сетевая компания.


    1. ntsaplin Автор
      20.06.2023 14:09

      Спасибо!

      Текст поправил.


  1. Areso
    20.06.2023 14:09

    Охрана понимала всю серьёзность ситуации (насколько могла) и очень
    хотела помочь, но ровно в рамках своих полномочий: им нужно было
    разбудить своего начальника, чтобы он разрешил нештатную ситуацию.
    Попасть на территорию получилось только около 13:00.

    Начальник охраны хорошо отдыхал в пятницу, раз попасть на территорию получилось уже после обеда =)


    1. ntsaplin Автор
      20.06.2023 14:09

      Нет, он был достаточно оперативен и включился почти сразу, но надо было преодолеть некоторое количество бюрократии, что в субботу сложно.


  1. Vsevo10d
    20.06.2023 14:09
    +6

    Больше всего бесит, когда стараешься/усираешься/хотя бы даже просто честно работаешь, а потом какое-то быдло в интернетике начинает вонять: "у меня тестовый бесплатный 10 дней домен третьего уровня упал, я понимаю, вы себе все в карман кладете, но не до такой же степени!". Мелочные, злобные людишки, которые видят всех под одну гребенку ассоциаций первого уровня: коммерсант - обманывает значит; муниципальный чиновник - ну стопудов на Канарах живет; врач в поликлинике - да до смерти залечит, не буду я эти таблетки пить; врач в платной клинике - да он только денег сдерет, но лечить не будет, а ты вообще москвич, ты мразь априори.

    Тфу. Ненавижу поэтому людей. Никогда бы не смог с ними работать. Бегаешь с горящей жопой, оперируешь на ходу вещами, до понимания которых им как до луны, получаешь ушат говна в ответ на все свои усилия. А потом еще все удивляются, а чего это сервис везде плохой и поголовно воруют - да потому что нормальные, мотивированные и желающие продуктивной деятельности люди выгорают, демотивируются и не задерживаются там, где их априори считают ворами, разбойниками, говном всякие левые необразованные жлобы.


    1. vvbob
      20.06.2023 14:09
      +2

      Поэтому в достаточно больших фирмах с хорошо поставленными процессами, специалисты от клиентов обычно защищены прослойкой специальных людей с крепкими нервами (или маленькими з/п что-бы их менять можно было легко и часто). Общаться с клиентами напрямую - это прямой путь в дурку с каким-либо адским диагнозом..


      1. Vsevo10d
        20.06.2023 14:09
        +1

        У этого есть обратная сторона. Мне как-то нужно было обратиться по нестандартному вопросу (срочная разработка биотехнологической документации), обзванивал крупные фирмы. Так невозможно пробиться сквозь этих деффачек, чтобы узнать добавочный конкретного сотрудника более-менее подходящего (руководитель отдела или замдир по научному направлению) уровня. Весь ответ - "мы наким не занимаемся", "а я не знаю, напишите письмо на info @ ", где оно погибнет среди спама, дудоса вакансиями и поехавших контактеров с жидомасонами. При этом пару раз как-то "сбоку" удавалось выйти на нужных людей - и оказывается и фирма этим занимается, и сотрудничать готовы, если бы не бестолковая голова на созвоне.


  1. scruff
    20.06.2023 14:09
    +13

    Честно - у меня подгорело по поводу трёх моментов:

    1) Какого "хуанхэ" у вас админы занимаются дизелем? Может вы первых еще заставляете лампочки в туалетах менять и полы протирать? Под дизель должен быть отдельный сменный инженер, доступный on-site, с некоторым минимальным запасом расходников - масла, антифриз,заплатки, хомуты. Накрайняк допускаю - аутсорс шарагу (опять же со своими расходниками- масла, хомуты и прочее), обязанную приехать в режиме 7*24 в течение часа и начать чинить дизель. Почему не так? Опять костсэйвинг и экономия на спичках? А то заливать АСЛ в раутер одной рукой и латать патрубок на дизеле - это кринж, честно! А если админа дизель ошпарит выхлопом или кипятком или вообще на вал накрутит как спагетти? Вы что, откреститесь, типа он сам полез чинить в обход ТБ и должностной инструкции? Типа пусть лечится за свой счёт? Извините меня, но я бы будучи админом, на запрос подлатать генератор - просто послал бы вас. Хотите рабочий дизель - сократите маркетолога/продажника/бухгалтера/кого-угодно, но в лепешку разбейтесь и наймите своего генераторщика - пусть раз месяц тестит генераторы, да натирает их до блеска. Не дядю Васю-электрика, а именно генераторщика, со всеми допусками и квалификациями. Уверяю вас - он стОит не дороже маркетолога/бухгалтера

    2) Железка лежащая на складе это далеко не HOT SWAP. Это просто железка лежащая на складе, про которую в случае инцидента надо вспомнить, найти, притащить в ЦОД, подключить, и скорее всего настроить. Как давно вы заливали максимально последнюю конфу с рабочего раутера в ваш так называемый хот-свап, лежащий на складе? А я вам скажу - больше 1 года назад 100%. А это равносильно тому - что в девайсе тупо "левая" конфа, которую легче стереть и написать/залить заново - а это время, драгоценное. Вообще HOT SWAP - это когда у тебя аналогичная железка стоит в соседней стойке, включенная, отконфигуренная, с настроенным НА, и в случае выхода из строя главной железки - первая включается в прод почти мгновенно - милисекунды, ну максимум секунды. Вот это тру хотсвап, а не то что у вас там пылиться на стелажах. В крайнем случае - допускаю выключенную резервную железку рядом с активной, с всегда самой актуальной конфой. При фэйле - просто включить и перекинуть провода. Колхоз, конечно - дайунтайм минуты, может десятки минут, но хоть так чем на складе.

    3) Охрану на мыло. Охрана по одному лишь звонку, скажем от Генерального Директора должна впустить кого угодно и куда угодно и в каком угодно количестве. В "этой стране" даже погранцы по указанию сверху пропускают кого надо, не говоря уже о всяких чоповцах.


    1. not-allowed-here
      20.06.2023 14:09
      +2

      оу, знаете сколько всего дорого и ценного вывезено именно благодаря таким вот звонкам "генерального"....Охрана отработала идеально - у них УПАЛ СКУД - першли на Журнал и документ "по допуску при аварии" - то что нужных Людей не было в Этом документе вопрос отдельный....

      Охране так-то надо премию выдать - не допустили ни кого левого, Удержали периметр, исключили проникновение до Разрешения руководства. работающую так "охранную службу" еще поискать....


      1. Areso
        20.06.2023 14:09

        Разрешения руководства

        было, судя по комментарию https://habr.com/ru/companies/ruvds/articles/742880/comments/#comment_25673964, но не проходило Quality Gate.

        Но вообще это кринж (по моему мнению), если начальник охраны лично не может заовердрайвить любую инструкцию в моменте при личном присутствии.


        1. not-allowed-here
          20.06.2023 14:09
          +2

          Обычно там есть регламент и по нему Обычно есть Журнал где записаны все допущенные. так что Одного разрешения руководства обычно мало... я же говорю что Охрана поставлена на ЯТЬ и это на самом деле отлично.


          1. Areso
            20.06.2023 14:09

            Поставлю вопрос по другому:
            - кто и каким образом может в личном присутствии иметь приоритет выше, чем Журнал?


            1. not-allowed-here
              20.06.2023 14:09

              в личном присутствии - то генерал или начальник СБ, но это лично, в смысле Физический с Отметкой в Журнале - "Допущены по личному Распоряжению". а вот если по телефону то никто.


              1. Areso
                20.06.2023 14:09

                Ну, в честь такого шухера по ночной Москве можно было бы и доехать, чтобы отдать личное распоряжение с занесением в журнал.


                1. not-allowed-here
                  20.06.2023 14:09

                  там ниже написали что это оборонка.... в общем там бы не помогло могли еще и наряд вызвать и всех в пол уложить с целью проверки..... туту лучше не быковать и сидеть покойно Ждать у моря погоды....


                  1. scruff
                    20.06.2023 14:09

                    Ну тогда после осознания что дизеля встали - надо было тушить всё, не дожидаясь пока еще что-нибудь сгорит или чью-то руку засосет во впуск. Признать что всё пропало и попытаться выйти из инцидента с минимальными потерями. О том что сервисы встали - можно уже забыть. А уж потом устроить разбор полётов - первым делом с охраной, т.к. именно эти индивидуумы с "синдромом вахтёра" и явились главной причиной дальнейших еще бОльших по масштабам негативных развитий. И вот только не надо их выгораживать, защищать и оправдывать. Они поступили крайне тупо в той ситуации. А если бы там внутри территории кому-то стало бы плохо и потребовался вызов скорой помощи? Они бы тоже встали бы в позу? Они тупые и упёртые - и за свою тупость и упёртость должны быть наказаны, сурово.


                    1. SerjV
                      20.06.2023 14:09

                      Они поступили крайне тупо в той ситуации.

                      Они поступили так, как должны были поступить. Проблема действительно с охраной, но в другом месте.

                      А если бы там внутри территории кому-то стало бы плохо и потребовался вызов скорой помощи?

                      По идее, для скорой и пожарной у них должны быть инструкции, как поступать. Так что их-то пропустили бы с сопровождением.

                      Проблема охраны возникла из-за сочетания факторов:
                      - отказ от постоянных пропусков и переход на разовые,
                      - бюро пропусков работает 8x5,

                      Т.е. возможность возникновения нештатной ситуации 24x7 и необходимость также 24x7 её решать - не была учтена обеими сторонами.

                      Так что адекватен режим на объекте задачам или нет - станет понятно только после того, как стороны найдут или не найдут решение проблемы 8x5 бюро vs 24x7 работа.


                      1. vvbob
                        20.06.2023 14:09
                        +1

                        В армии помню такую проблему решали с помощью дежурного подразделения. Часть ЛС назначается в группу быстрого реагирования, соответственно при необходимости на них сразу выписывают пропуска на режимную территорию. И в случае какого-то форс-мажора все эти люди подрываются и без проблем проходят через охрану.


    1. ntsaplin Автор
      20.06.2023 14:09
      +1

      Охрана режимного объекта осуществляется несколькими службами, в том числе Росгвардией. Коротко, мы можем обсудить варианты с ежедневным выписыванием дополнительных пропусков в текущей ситуации, это да. Несколько раз именно эта линия охраны объясняла приехавшим сотрудникам в штатском, что для оперативно-разыскных мероприятий виртуальный сервер надо скачивать в виртуальном мире, а не пытаться откуда-то вытащить с территории и аккуратно их разворачивала. Так что это отличный сервис, очень юзерфрендли. Примерно как UNIX.


      1. not-allowed-here
        20.06.2023 14:09

        ну вот примерно - таким и Должен быть идеальный вариант Охраны...


    1. A__I
      20.06.2023 14:09
      +2

      Пункт первый - правы на 100500 % Должны быть инженеры систем обеспечения. Электроснабжение, вентиляция. Кстати а если бы те два бойца надышавшись выхлопа угорели?

      В общем героизм одних это причина тупизма руководства в чистом виде


  1. Forvad
    20.06.2023 14:09
    +1

    Почему охрана не пускала вас к себе? Они же нанятые люди, Вы получается сами им дали им такие полномочия и такой алгоритм работы?


    1. ntsaplin Автор
      20.06.2023 14:09
      +1

      Мы находимся на территории большого предприятия. Что оно сейчас производит, сказать не могу. Вот на эту большую территорию и проблема была попасть.


      1. not-allowed-here
        20.06.2023 14:09
        +1

        а с ГО и ЧС проблем не было? или бомбарик "снят с баланса"


      1. aborouhin
        20.06.2023 14:09
        +3

        <юрист mode on> И правда, что там согласовывать в том договоре аренды? Там всё типовое, за цену договорились - и ладно, подписываем! <юрист mode off> :)


  1. alexhott
    20.06.2023 14:09

    То что часть функционала хостинга (создание ВМ и мониторинг) перестали работать. потому что сидели в защищенном сегменте, который построен на одном коммутаторе, который удачно глюкнул - это интересное стечение обстоятельств и я думаю от подобных вещей на 100% нельзя все предусмотреть.
    А вот то что даже при первом переключении часть машин потухла - это дикая беда, даже в самом задохлом варианте серверной который я видел на мелких предпряитиях ИБП одно переключение уверенно выдерживали.
    И "Админы бегали между стойками" - даже после отключения питания машины должны сами подниматься.
    Эти два вопроса позволили бы избежать реальных проблем и быстрее разобраться с первым.


  1. foxweb
    20.06.2023 14:09
    +3

    Это вы ещё молодцы. У меня был случай на Амазоне в 2012 году. Держал свой маленький мини-хостинг для старых клиентов и их мелких сайтов. Звонит как-то мне в 6 утра клиент, сайт лежит, говорит! Думаю, как так, это ж Амазон! А потом почту открываю и читаю, что в их Дублинском ДЦ ударила молния в трансформатор и ДЦ около 6 часов валялся. Генераторы же есть, ИБП. Как так случилось, что САМ Амазон не мог подняться 6 часов? Позже всё заработало без моего участия. За простой вернули несколько центов :)


  1. Dsp911
    20.06.2023 14:09

    Спасибо за подробный репортаж. Было увлекательно. Хорошенько дало по бубенцам. С дизелем то что в итоге ? Комментарии про обратную связь клиентов на дешёвых тарифах считаю лишним.


  1. entze
    20.06.2023 14:09
    +4

    Тут охране предъявляют. А я очень хорошо (и болезненно с учетом ковида) помню историю со "спором хозяйствующих субъектов" одного хостера, у которого оборудование, включая чужое, оказалось в заложниках одной из сторон. Поэтому может и хорошо, что охрана не пускала не пойми кого и все тормозилось в бюрократии.


    1. aborouhin
      20.06.2023 14:09
      +2

      "Не пускать не пойми кого" и "не давать арендатору самому выписывать долгосрочные пропуска на кого он считает нужным" - две большие разницы... А при "спорах хозяйствующих субъектов" нынче обычно заходят с силовой поддержкой правоохранительных органов, которых как раз охрана не пустить не сможет.


  1. zVadim
    20.06.2023 14:09
    +1

    В комментариях верно заметили, что паника пользователей дешевых тарифных планов могла быть вызвана тем, что они недооценили риски, и неправильно резервировали свою критичную инфраструктуру.
    Интересно насколько вы сами верно оценивали риски подобного? Удалось ли выполнить обязательства по договорам и выдержать обещанный пользователям SLA? Понимаю, что сейчас при отсутствии логов, вы можете не обладать полной картиной


    1. not-allowed-here
      20.06.2023 14:09
      +2

      Было бы очень интересно послушать про SLA и про то как оно сейчас реализуется в текущей действительности.....


  1. Technik12345
    20.06.2023 14:09

    ООООООчень интересно, я зачитался)


  1. maximvf
    20.06.2023 14:09
    +2

    Была сеть из нескольких десятков Cisco, FreeBSD, разных Linux. Очень помогала система хранения конфигураций с использованием CVS (сейчас это git и прочие).

    На сервере с cvs работал cron, который раз в 2-3 часа обходил сеть и делал снимок конфигурации. Это show run для cisco, директория /etc за исключением двоичных баз для *nix и так далее.

    Если сравнение текущего снимка с cvs обнаруживало разницу, то в cvs регистрировалась новая версия, а в комментарий к ней попадала история последних сессий сервера.

    При этом можно было

    • по истории коммитов точно определить, когда, что и кем было изменено,

    • одним вызовом скрипта откатить состояние конфигурации на заданный момент в прошлом,

    • в случае выхода из строя любой железки достать из шкафа новую и за 5 мин влить в нее конфигурацию,

    • разлить 10 серверов нового филиала по шаблону 3 серверов существующего

    • и так далее.


  1. ReWire
    20.06.2023 14:09
    +1

    Прекрасная история, спасибо! Совет автору - ищите компанию кто занимается цодами давно и профессионально, ну а вам переориентироваться на продажу сервисов/мощностей в этих цодах... Хостился я как-то в HPE и на мой вопрос как у вас так ни одного сбоя за 12 лет и расскажите как у вас цод устроен на что мне HPE - мы не знаем, управлять/содержать цод это слишком сложно, мы свои цоды не строим и не эксплуатируем...


    1. ntsaplin Автор
      20.06.2023 14:09

      Спасибо, первый ЦОД наш.
      Потом мы сделали, как вы советуете.
      И ещё раз.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё.
      И ещё раз.

      Итого 13 ЦОДов по миру — не наши, один наш.


  1. NuxtCloud
    20.06.2023 14:09

    На самом деле статья полезна, особенно всплакнул читая комментарии пользователей в телеграм канале по поводу данной ситуации. И вправду, клиент за условные 190 рублей очень переживающий за свои данные на ОДНОМ ЕДИНСТВЕННОМ СЕРВЕРЕ у единственного провайдера у которого, вероятнее всего прописано в соглашении что они не несут ответственность за потерянные данные намного сильнее давит на нервы, чем люди, которые основательно подходят к размещению своей инфраструктуры в разных точках нашего необъятного мира. Простои бывают всегда, от этого не застрахован никто. Наводнения, ракеты, мир схлопывается :) Данные теряются, поэтому если вам они важны, храните в разных местах по копии! Если это кончено не фото из папки Анапа2009 которые вы сгрузили в 2009 году и так ни разу и не открыли... Спасибо что поделились своим опытом.


    1. Areso
      20.06.2023 14:09
      +2

      Потому что бизнес с миллиардными оборотами может позволить себе арендовать стойки в трех разных ДЦ, поднимать между ними собственные каналы и т.п.; а мелкий предприниматель или ипшник не имеет ни денежных ни человеческих ресурсов чтобы сделать себе всё "красиво", и потому он обращается к профессионалам...

      У которых админы чинят дизель-генераторы, да.


      1. vvbob
        20.06.2023 14:09
        -1

        "Не заморачиваться" - это очень дорогое удовольствие, которое могут себе позволить "не только лишь все". Если у человека (фирмы) мало денег, то к делу стоит относиться особенно тщательно, просто залить проблему деньгами они не могут, поэтому надо включать мозг. Всегда есть какие-то варианты, да хоть у себя дома сервак поднять, худо-бедно он как-то там что-то будет отдавать пока у провайдера ДГ чинят.


        1. PereslavlFoto
          20.06.2023 14:09

          Тут на Хабре на моей памяти дважды обсуждали, как поднимать сервак у себя дома. Это оказывается очень трудной задачей, которая требует очень серьёзных знаний.


          1. vvbob
            20.06.2023 14:09
            +1

            Если мало денег - то альтернатив немного - разбираться в сложном вопросе и делать самому, или забить и надеяться на удачу.

            Когда-то в нулевых, у меня было очень плохо с деньгами и при этом очень была нужна машина. Я купил старую Ладу-семерку и ездил на ней днем, а по вечерам и выходным постоянно в ней что-то ремонтировал. Для этого мне пришлось во многих вопросах разбираться самому, приобретать навыки автослесаря и много что еще. Сейчас у меня с деньгами все сильно лучше и я просто периодически отвожу машину на сервис, не слишком вникая в то, что там с ней делают.

            Так и тут - есть деньги - отлично, можно делать все по красоте и не слишком при этом погружаясь в детали. Нет денег, придется все-таки поднапрячься, если не хочешь иметь потенциальные проблемы.


    1. PereslavlFoto
      20.06.2023 14:09
      +6

      Человек, у которого есть 10 серверов, при пропаже одного теряет всего лишь 1/10 серверной мощности. Не так уж плохо.

      Человек, у которого есть двести рублей, при пропаже двухсот рублей теряет всё. ТЕРЯЕТ ВСЁ.

      Я пришёл к этому выводу из своего опыта, поэтому мне дороги эти двести рублей.