В прошлый понедельник у нас случилась очередная крайне идиотская авария. Идиоты тут мы, если что, и сейчас я расскажу детали.

Пострадало четыре сервера из всего ЦОДа — и все наши публичные коммуникации. Потому что владельцы виртуальных машин пришли под все посты и везде оставили комментарии.
Параллельно была ещё одна история — под статьёй про то, что случалось за год, написал человек, мол, чего у вас всё постоянно ломается. Я вот размещаюсь у регионального провайдера, и у него за 7 лет ни одной проблемы.

Так вот.

Разница в том, что мы про всё это рассказываем. Тот провайдер наверняка уже раз 10 падал, останавливался и оставался без сети, но грамотно заталкивал косяки под ковёр.
Это значит — никаких блогов на Хабре, никаких публичных коммуникаций с комментариями (типа канала в Телеграме), никаких объяснений кроме лицемерных ответов от службы поддержки и т.п. И тогда, внезапно, вас будут воспринимать более стабильным и надёжным.

Наверное.

Ну а я продолжаю рассказывать, что у нас происходило. Добро пожаловать в очередной RCA, где главное в поиске root cause было не выйти на самих себя. Но мы вышли!

Сбои случаются у всех, но не все про них рассказывают

До понедельника было другое событие.

Место действия — наш ЦОД в Королёве. Он находится на территории особо охраняемого завода. Завод, как и ЦОД, запитан от двух независимых подстанций + у нас есть ИБП, дизели и запас топлива + договор на поставки топлива и аренду дополнительного резервного дизеля.
Тестовые прогоны дизелей случаются регулярно как минимум на смене топлива с летнего на зимнее.

Подстанции в последние годы нестабильны. Там в 2023-м уже был ремонт, в результате которого электрики увидели летающие дверцы шкафа. Вот отчёт по этой истории. На этот раз случилось что-то новое, и обе подстанции вышли из строя. На этот раз нам не сообщали никаких деталей, то есть спектр причин мог быть очень широк: от банального человеческого фактора до диверсий.

Для нас важно то, что обе подстанции перестали подавать электричество в позапрошлый четверг.

ЦОД в Королёве переключился на дизель и почти 4 часа так работал с перерывами на попытки включения линий подстанций несколько раз. Подачу питания восстанавливали несколько раз, мы выжидали, переходили на городской ввод, и несколько раз происходило повторное отключение и снова переход на дизель.

Примерно через 4 часа подача питания от подстанций была восстановлена и оставалась стабильной. Авария закончилась.

Для абсолютного большинства клиентов ЦОДа все эти действия прошли незаметно. Сеть сохранялась, всё оборудование сохраняло работоспособность, так как каждый сервер имеет два блока питания, и они подключены к разным ИБП. Были некоторые проблемы с сетевым оборудованием в это время, которое потребовало перезагрузку коммутаторов по итогу, но в целом эту ситуацию отработали штатно.

В чём прикол с ИБП при «миганиях» света

Важно то, что дизели не стартуют мгновенно. Пока они заводятся, серверы и коммутаторы живут на ИБП — старых добрых батареях. Что произошло:

  • При первом отключении батареи частично разрядились, ЦОД перешёл на дизель.

  • Батареи начали заряжаться от дизеля.

  • Они не успели полностью зарядиться, ЦОД перешёл на городской ввод.

  • Ещё 10 минут они заряжались от города.

  • Затем снова переход на дизели, то есть они разряжаются до примерно 20–30% остаточной ёмкости, потому что не успели зарядиться полностью прошлый раз.

Если свет моргнёт ещё раз, надо либо сутки стоять на дизеле и заряжать батареи, либо рисковать переключением с возможностью не переключиться обратно. Стандартная процедура — стоять на дизеле до безопасного заряда батарей.

Ещё несколько раз свет «мигал», когда питание прерывалось на несколько секунд, без переключения на дизели.

В прошлый понедельник ситуация повторилась

Питание с двух — напомню, независимых с независимыми маршрутами — подстанций пропало на 20 минут.

И вот в этот момент вылетело два ИБП.

Это вызвало отключение четырёх серверов, которые были одновременно подключены к вылетевшим батареям. Остальным серверам повезло больше, у каждого был как минимум один ИБП.

Почему всего четыре, а не полстойки? Потому что эта стойка неполная.

ИБП при такой нагрузке вылетать не должны.

Но!

Во-первых, мы планировали плановую замену батарей в ИБП как раз в начале декабря (напоминаю, авария — уже почти середина декабря). 2 декабря мы оплатили счета за них, и они должны были приехать 3–5 декабря.

Они действительно приехали к поставщику, но коробки оказались битые.

Поставщик отказался поставлять батареи, и был на 100% прав. Если логисты побили коробку — это всегда возврат и тщательная диагностика, возможно, списание.

То есть ровно неделю мы стояли с несколькими батареями за сроком плановой замены.
Срок плановой замены подбирается с запасом. Это не так, что ровно день в день батарея умирает.

Диагностика у нас постоянная, в помещении сверяется температура (она около 18–19 градусов Цельсия), плюс мы смотрим напряжение. У самих ИБП тоже есть собственные средства диагностики, и они зажигают лампочки, если нужна замена батарей.

Лампочки не горели. Температура была нормальная. Батареи давали нормальное напряжение.

Но часть из них почему-то решила взять и умереть при разряде в понедельник в этих двух ИБП.

Понедельник

В понедельник я оказался в странной ситуации:

  1. Мы не понимали, что случилось. Но поддержка уже ответила клиентам наиболее вероятной версией, что в результате некоторого испорченного телефона стоило нам сильного недопонимания клиентов. Очень упрощая, клиент спросил, есть ли резервирование ИБП. Админ ответил, что нет, ни один ЦОД так не делает. Админ имел в виду ЦОДы TIER-III (T4 так делает) и резервирование 2N по мощности. ИБП должны выдерживать 2 переключения на своих батареях, и общий пул батарей не дублируется практически никогда. Смысл в том, что это именно общий пул, суммарная ёмкость. Она уже содержит резерв. Но из-за непонимания, что каждый имел в виду, клиент решил, что резервирования питания в ЦОДе нет.

  2. Я в это время пытался разобраться с поставщиком и достать батареи быстрее.

  3. Через несколько часов мы решили, что вместо расследования причин проблем с батареями, сначала надо провести все плановые замены. Поставщик не успевал с повторной поставкой, поэтому мы поехали и купили батареи в магазине как физики.

  4. Дальше мы ковырялись с заменами и всё поменяли.

  5. Ещё позже приехали батареи от поставщика.

  6. До вечера мы разбирались с тем, что происходит.

  7. Затем начислили положенные по SLA компенсации за простой тем, кто пострадал.

В итоге мы почти не трогали обсуждения, и в публичном поле творилось не самое хорошее.

Главный мой вопрос был — а что именно случилось с батареями? Они не должны были так деградировать. Плановая замена на то и плановая профилактическая, чтобы такого не было. Если бы горели лампы «замените батарею», можно было бы рассуждать про то, что мы не так обслужили ИБП, но смысл профилактической замены — сделать всё так, чтобы эти лампы никогда не загорались.

Первая наша гипотеза, которую поддержали инженеры, — батареи стали хуже. Тут я обосновать пока не могу.

Второй вариант — частые «мигания» питания могли повредить батареи. Но вообще-то они для этого и спроектированы.

Решения мы везде принимали правильные. Да, при аварии в четверг фактически был проведён стресс-тест системы, но мониторинг показывал, что все ИБП работают, ошибок нет. По этой причине не было никакого мотива каким-то образом там искать прямо в четверг эти батарейные блоки на замену, когда мы знали, что они едут. Принимать битые коробки мы точно не должны были.

Непохоже, что проигрывая эту ситуацию ещё раз, мы поступили бы иначе, имея тот же набор исходных данных для решения.

Почему пострадало относительно небольшое количество серверов. Мы применяем шахматную схему подключения, в которой серверы подключаются в таком порядке, чтобы минимизировать количество потенциально страдающих серверов при отключении более чем одного ИБП по любой причине. Ниже пример логики этой схемы. Если бы не она, отключились бы восемь серверов.

Возвращаюсь к вопросу открытости

Если бы мы ничего никому не сказали, ситуация для нас была бы гораздо легче. Время такое, что всё, что угодно, можно свалить на блокировки, санкции и т.п. И даже подсказывать не надо, это вроде как самоочевидная причина, люди сами очень быстро так подумают.

Если бы мы сказали позже на сутки, не было бы слухов и неправильного толкования того, что сказал саппорт. Они отвечали, ещё не до конца поняв, в чём проблема. Можно было не отвечать? Спокойно. Все так делают.

С другой стороны, пострадало 4 сервера в одном из 20 ЦОДов. Но ощущение из-за нашей публичности было такое, как будто авария крупная. И вот здесь главный минус открытости — складывается впечатление, что у нас такое происходит чаще, чем обычно. Так вот, нет. Ломается всё у всех, но если про это не говорить, это незаметно.

Я всё ещё считаю, что нужно держать в курсе всегда и по имеющимся на текущий момент данным. У нас открыты чаты и комментарии везде, есть сообщество клиентов в ТГ. Да, нас больно бьют за каждую проблему, и некоторые вещи эмоционально очень хочется не рассказывать. Это цена открытости.

Комментарии (43)


  1. Arhammon
    23.12.2025 11:26

    Да, при аварии в четверг фактически был проведён стресс-тест системы

    Я так понимаю практически стресс-тесты с полной разрядкой не проводятся? В том числе и по тому что есть риск остаться с пустыми АКБ в случай чего... Из моего скромного не ИТ опыта, то, что батареи умерли обычно выясняется в ходе непланового стресс-теста, хотя мониторинг говорит что всё норм и все как раз бегут покупать батареи как физики..

    Ну и с точки зрения коммуникации - наиболее целесообразно в начале говорить упрощенную полуправду, как раз чтоб избежать толкования более сложных вещей, а уже потом спокойно полный отчет.


    1. KSV63
      23.12.2025 11:26

      У меня аккумуляторы при разряде до 20% потекли при возобновлении питания, правда они уже лет 6 отработали, и плановую замену рубанули из-за стоимости)


  1. propell-ant
    23.12.2025 11:26

    Как-то начинашь задумываться, насколько "настоящее" резервирование при двух подстанциях на территории одного предприятия.

    Как минимум они обслуживаются одной группой людей, у которой один начальник, один чеклист. Ну и уровень стресса тоже один.


    1. kma21
      23.12.2025 11:26

      Вы смотрите шире. У вас один сервер работающий в одном месте (географическом). Раньше я говорил "может прилететь метеорит" и все смеялись над примером, но понимали о чём речь. А теперь я говорю "может прилететь БПЛА" и это вполне реальная угроза.

      Если вашему сервису нужна отказоустойчивость такого уровня, то просто стройте соответствующий сервис. С соответствующими бюджетами. Разные ЦОД, выбирайте не попсовый Tier-III, а Tire-IV и т.д.

      А если на это нет денег, то вы должны принимать эти риски. Там много сюрпризов может всплыть. Что генерирующие мощности в регионе в принципе одни. Что земля под ЦОДом не в собственности, а в долгосрочной аренде. Что солярка в генераторах была зимняя до -20, а бахнули морозы -30 и нужна была арктическая.
      Ни один ЦОД вам не даст 100% гарантию работы. А тот, кто даёт 99,9999999% он лишь берёт на себя ответственность возместить потери (обычно в деньгах), но оставляет за собой право потерять данные, а то и ваше оборудование.

      И тут всё сводится к банальным деньгам. Если бюджеты вашего сервиса/проекта позволяют, вы строите мультицод и не переживаете. Если не позволяет, то переживаете.


  1. E2a
    23.12.2025 11:26

    Две подстанции запитаны от 2-х и более разных ВЛ? Какой класс напряжения подстанций?

    Лампочка на ИБП загорается по результату теста батарей, проводящемуся автоматически раз в две недели. На короткий момент ИБП переходит на батареи и оценивает результат разряда на нагрузку. Совершенно не факт, что этой оценки будет достаточно, особенно если АКБ "плохие". Бывает с АКБ так, что напряжение на ней есть и совершенно нормальное, а нагрузку она не держит. Подключаешь к АКБ лампу на 12В мощности 50-100Вт и всё сразу становится понятно.

    В целом есть два пути - или проводить контрольно-тренировочный цикл разряда-заряда АКБ, или оценивать остаточную емкость по внутреннему сопротивлению АКБ. Первое правильно делать специализированной нагрузкой-зарядником, отключив АКБ от ИБП, получив протокол измерений. Можно делать вручную, и на действующую нагрузку, но это уже не то. Второе проще, АКБ измеряется прибором типа "Кулон", масса их. Но измерения оценочны. Подобные мероприятия проводятся раз в год.

    Встроенным тестам ИБП верить можно, но с осторожностью. Бывает всякое. Если лампочка на ИБП горит, то АКБ ему точно не нравится, а вот если не горит, то АКБ возможно хорошая, а возможно и нет.


    1. ntsaplin Автор
      23.12.2025 11:26

      Класс напряжения — 10 кВ. Запитаны от двух линий.


      1. Kurochkin
        23.12.2025 11:26

        Завод (ещё и особо охраняемый) на линиях 10 кВ?


        1. t0nick
          23.12.2025 11:26

          10 кВ это 10 килоВольт, а не килоВатт


          1. Zalechi
            23.12.2025 11:26

            И? Человек корректно спрашивает. Они потом понижаются в вашем дворе на 0,4 кВольта - не ватта (о чудо).


    1. vadimk91
      23.12.2025 11:26

      Про большие UPS не скажу, но у нас стандартные офисные APC Smart UPS 420 как-то странно реагируют на последнюю партию батарей. Если изначально аккумулятора хватало бывало и на 5 лет, потом на 2, на год, то нынче на четырех UPS через месяц после замены батареи самодиагностика стала выдавать, что батарея всё. Поинтересовался у коллег - ситуация аналогичная. Но вот на складе батарей не было, а через месяц вдруг на одном UPS самодиагностика стала проходить успешно, потом и на другом. Впервые вижу такое за три десятка лет работы.


      1. Serra_avatar
        23.12.2025 11:26

        А ещё не бывает готовых решений для перевода на lifepo4 батареи? Или это почему-то плохо для предприятий? Мне когда надоела смерть свинца раз в 2 года я переделал свои ups на него.


        1. zatim
          23.12.2025 11:26

          Есть, вроде. Причем уже в форм-факторе свинцовой батареи. Вот только цена у них как за несколько свинцовых приличных фирм.


      1. zatim
        23.12.2025 11:26

        Может, сульфатированные батареи "раскачались"? Они лежат на складах годами, никто их не проверяет, не подзаряжает. Всем на них пофигу. А потом покупатель получает то, что получает.

        Я так покупал аккум для своего авто. Пришел в магаз с нагрузочной вилкой. Выбирал из фирменных "Варт". Ни один не попал стрелочкой в зеленую зону. Купил, в итоге, тот, у которого стрелочка не так бодро уходила в минус. Но ничего, сейчас вроде все ок.


        1. vadimk91
          23.12.2025 11:26

          Возможно, но странно то, что только установленные они тестировались как годные, через пару месяцев "испортились", а потом вдруг "ожили". Длительных отключений у нас не бывает: два независимых ввода плюс дизель.


  1. LazyZeroed
    23.12.2025 11:26

    Вроде неплохой вариант менять внутреннее сопротивление батареек миллиомметром. Так больные батарейки хорошо видно.


    1. zatim
      23.12.2025 11:26

      Не соглашусь. Внутреннее сопротивление зависит от очень многих факторов - температуры, степени заряда, различий в химии. И от этих факторов оно может меняться в разы, а то и на порядки! Вы намеряете какое то число, но по этому числу нельзя судить ни о чем. Ну, если, конечно у вас есть большой парк одинаковых аккумуляторов, одного производителя, одного возраста, заведомо заряженных до одного уровня, то да измерением сопротивления можно попробовать вычислить негодные. А если нет - то только измерение остаточной емкости.


  1. kukovik
    23.12.2025 11:26

    Поясните пожалуйста, как при описываемых вами проблемах, которые затронули как бы ограниченное количество клиентов, наш сервер оказывался длительное время вне доступа во время обеих этих аварий, но его работа (по аптайм) не прерывалась.

    Что именно у вас так эффективно вылетело? Или вы еще недорасследовали?


    1. zatim
      23.12.2025 11:26

      Вроде бы там про коммутаторы еще речь была в рассказе.


    1. ntsaplin Автор
      23.12.2025 11:26

      В аварии в понедельник, как описано, сетевое оборудование в целом отработало штатно, так как было запитано от ИБП. Но в конкретной стойке, где отключились 4 сервера, также установлены коммутаторы, к которым подключены уже не только эти серверы. Коммутаторы отключились. Сотрудники в дата-центре переподключили их к другим ИБП, после чего потребовалось время на их загрузку, и связь постепенно восстановилась — без перезагрузки серверов. Поэтому недоступность услуг была, а аптайм серверов не прерывался.

      Когда в четверг произошла длительная авария на подстанциях, несколько коммутаторов зависли. Визуально всё выглядело нормально, но связи не было. Пришлось их также перезагружать, поэтому связь отсутствовала, хотя серверы при этом оставались включенными.


  1. evgeny_boger
    23.12.2025 11:26

    Если свет моргнёт ещё раз, надо либо сутки стоять на дизеле и заряжать батареи, либо рисковать переключением с возможностью не переключиться обратно. Стандартная процедура — стоять на дизеле до безопасного заряда батарей.

    (ничего не знаю про ЦОДы и электрику) Скажите, а почему нельзя заряжать батарейки от нестабильного питания от города, но не останавливать дизели? Ведь если пропадёт входное питание, то батарйки просто перестанут заряжаться, это не страшно.


    1. aleksefy
      23.12.2025 11:26

      В идеале батареи должны быть полностью боеготовы. Чем больше заряд - тем она выше.

      Условно - кончился дизель - 15 минут тянем на ибп - дотянули до включения городских линий, или подвезли ещё топлива.


    1. zatim
      23.12.2025 11:26

      Вы разве никогда не пользовались ИБП? Он сам питается, питает нагрузку и заряжает батареи от того сетевого напряжения, что на него приходит. Это, грубо говоря, обычное напряжение 220 вольт. Оно приходит либо с подстанции либо с дизелей. Как вы себе представляете питание от дизелей, а зарядку от подстанции? На каждый ИБП подводить по 2 кабеля? А как тогда переключать батарею? Ведь дизеля тоже точка отказа, может потребоваться один выключить, другой включить. И на время переключения нагрузку держат ИБП.


    1. ntsaplin Автор
      23.12.2025 11:26

      Нестабильное питание от города точно убьет батареи. И довольно быстро.

      Поэтому только дизели до тех пор, пока питание не стабилизируется.


  1. Tzimie
    23.12.2025 11:26

    Главное - дублировать паспорта. Как минимум от двух разных стран


  1. Survtur
    23.12.2025 11:26

    4 сервера физических, а сколько там было виртуальных серверов?

    Я просто не представляю масштаб трагедии. Мне почему-то кажется, что у компаний типа вас десяток тысяч физических серверов. И неужели я попал в ту самую десятую-сотую долю процента неудачников?

    За публичность спасибо.


  1. t0nick
    23.12.2025 11:26

    если фото в начале статьи живое, имхо, то аккумуляторы Дельта (как на фото), с одномерными (линейными) штрихкодами, гораздо хуже по качеству, чем без оных. старые дельты живут 6+ лет без намека на деградацию. новые помирают в течении года, как повезет.

    проверять аккумуляторы, надо не лампочкой (как писали выше), лампочкой можно только убить аккумулятор, а хотя бы простым вольтметром. напряжение покоя на 12 вольтовой батарее должно быть не меньше, 12.6 вольт. если напряжение меньше, значит она деградирует. напряжение на хорошей батарее 12.8+ вольт, в зависимости от типа заряжающего устройства и логики поддержания заряда (в данном случае ИБП). но можно пойти еще дальше\проще и купить на алике тестер для батарей, который не только измеряет напряжение покоя, но проверяет на замкнутые банки, дает нагрузку и анализирует падение емкости и напряжения.

    если не секрет, какие ибп используются?


    1. zatim
      23.12.2025 11:26

      Нужно мерить остаточную емкость. Вольтметр ничего не покажет. По сравнению с вольтметром, лампочка покажет больше информации. Как ей, по вашему, можно убить аккум? Разряжать до талого? Ну извините, если такой специалист не понимает что надо делать с лампочкой и аккумулятором, то и вольтметр я бы поостерегся ему в руки давать).

      Нагрузочная вилка - ну да, получше лампочки, но, по сути, то же самое. Причем, вилку для слабых 7 Ач ИБП-шных аккумов еще надо поискать. Я таких не видел.


      1. t0nick
        23.12.2025 11:26

        Нужно мерить остаточную емкость. Вольтметр ничего не покажет.

        не спорю, но не только ее. с помощью мультиметра и небольшой нагрузки, в походных условиях, можно сделать всё.

        если мерить лампочкой, то и измерение получится в лампочках)


      1. mrcashe
        23.12.2025 11:26

        По-хорошему, батареи тестят 3-4 прогонами разряд/заряд. Разряжать можно на активную нагрузку, например, батарею резисторов. При этом нужно обеспечивать паспортный ток и фиксировать напряжение на батарее каждые 30-60 мин. На дефектной батарее напряжение обычно начинает быстро падать в середине цикла разряда.
        Но такое тестирование - слишком дорогое удовольствие и оправдано только для таких же дорогих батарей. В случае с ИБП - не вариант, только комплект ЗИП.


        1. zatim
          23.12.2025 11:26

          Дорогое? Можно собрать на коленке простой счетчик ампер-часов из нескольких деталей и часов от жигулей. Я когда работал на тэц, там постоянно были проблемы с закупкой новых аккумов. Приходилось разбирать неисправные сборки, тестить аккумы и собирать более-менее рабочие комплекты. Вполне рабочий вариант.


          1. mrcashe
            23.12.2025 11:26

            Сколько рабочего времени на это нужно потратить? Нужен аккумуляторщик, ему башлять надо и не 40 рублей. А тестер купить да, недорого.


  1. aMster1
    23.12.2025 11:26

    С точки зрения эксплуатантов систем электропитания - а у нас их много, вот эти все "лампочка на УПС горела зелененьким" ничего о собственно состоянии АКБ не говорит.

    Полноценно понять что там с батареями можно при КТЦ - цикле заряд-разряд-заряд. То есть в зависимости от модели аккумулятора и понимании его рабочего цикла можно достоверно выяснить сколько энергии он сможет отдать и в каком состоянии он находится.

    На практике регулярно сталкиваемся с ситуацией (у нас номинал -48В) когда 3 аккумулятора нормальные, а один дохлый и вся группа уходит ниже напряжения отсечки через 2-3% снятия от номинальной емкости.

    В случае больших ибп, где группы по 20 и более акб - шансы увидеть дохляка еще выше.


  1. StasTukalo
    23.12.2025 11:26

    Я правильно понимаю, что вы переходили с сети на дизеля туда сюда постоянно и поэтому описываемое помирание акб в общем-то погоды не делает- еще бы разик сеть с обоих подстанций пропала- и у вас все упсы бы выключились, ибо отдали уже всё что могли? Вы просто солярку (или газ, если это гпу) очень хотели сэкономить- вот собственно и причина..


  1. yakov_cyb
    23.12.2025 11:26

    Готовьтесь к тому, что энергосистема РФ будет деградировать с каждым годом больше и больше. Советские запасы подходят к концу, специалисты бегут из отрасли, в виду низких зарплат и эффективных менеджеров. Инфраструктура стареет, а модернизации нет и не будет, пока совсем хреново не станет.


    1. Survtur
      23.12.2025 11:26

      Вы, вижу, знающий человек. Научите, как готовиться?


      1. VADemon
        23.12.2025 11:26

        Перевести население на электромашины с отдачей энергии обратно в сеть в часы пик /s


    1. mrcashe
      23.12.2025 11:26

      ППКС! Слышу, бывает, матюки в адрес энергетиков от обывателей, дескать, столько мы за электричество платим, а эти бездельники баклуши бьют. На деле - 70-летние дедушки кое-как ползают по 4-метровым стремянкам, а молодняк в тик-токе сидит день напролёт.


      1. vorphalack
        23.12.2025 11:26

        так всё правильно, зачем за 40к рвать жопу, спину и вообще с риском вернуться домой в пакетике, если можно за те же крохи ничего не делать в теплом помещении?


        1. Wesha
          23.12.2025 11:26

          зачем за 40к рвать жопу, спину и вообще с риском вернуться домой в пакетике, если можно за те же крохи ничего не делать в теплом помещении?

          Так вот ты какая, трагедия общин в XXI веке!..


  1. mayorovp
    23.12.2025 11:26

    Очень упрощая, клиент спросил, есть ли резервирование ИБП. Админ ответил, что нет, ни один ЦОД так не делает.

    Я так и не понял что именно имел в виду админ, потому что на картинке ниже я вижу именно что двухкратное резервирование ИБП...


  1. abaleilo
    23.12.2025 11:26

    Есть несколько VDS на хостинге Coopertino. Уже сто раз пожалели о его выборе, так как постоянно у них там какие-то сбои, весь хостер полностью падает, даже сайт перестаёт работать. Может продолжаться несколько часов. В техподдержке отвечают - «Была авария в ЦОД». Никаких объявлений и тем более компенсаций. Поэтому такие рассказы как у вас и работа над ошибками вызывают уважение.


  1. Storm21110
    23.12.2025 11:26

    Получается вы используете не все комбинации ИБП и увеличением количества комбинаций можно снизить количество отключаемых серверов. Добавив всего по 1 вводу ИБП в стойку 1 и 3.

    Число отказавших ИБП | 4 сервера на пару, 4 ввода | все 15 пар ИБП, до 6 вводов | 12 пар ИБП, 4 ввода
    ---------------------|---------------------------|-----------------------------|--------------------
    1                    | 0                         | 0                           | 0
    2                    | 4                         | 2                           | 2
    3                    | 8                         | 6                           | 6
    4                    | 12                        | 12                          | 12
    5                    | 16                        | 18                          | 20
    6                    | 24                        | 24                          | 24
    


  1. leslie500
    23.12.2025 11:26

    Батареи давали нормальное напряжение. Но часть из них почему-то решила взять и умереть при разряде в понедельник в этих двух ИБП.

    Расскажу как инженер, работавший в С***К (в том числе мы обслуживали батарейные шкафы в вашем суперсекретном заводе в Королёве), как мы проверяли АКБ перед установкой в батарейный шкаф. Никакой утвержденной корпоративной методики не существовало, в большинстве своем инженеры использовали "Кулон", который мог показать лишь откровенно битые АКБ. Например, если АКБ показывал на 2 вольта меньшее напряжение из-за отрыва одной из 6 внутренних ячеек, "Кулон" считал, что с АКБ всё ок. (Тестировать АКБ гарантированно можно только нагрузочной вилкой, но это лишние затраты времени, которые руководство не одобряло.)

    Инженеры как могли экономили время, поэтому тестирование аккумуляторов выполнялось всегда на отстань и под честное слово. Тестирование собранного батарейного шкафа производилось так же, если вообще проводилось — в основном замерялось напряжение на плечах, но шкаф на нагрузку не гоняли. Опять-таки, корпоративных правил об этом не существовало, поэтому каждый инженер работал в силу своей совести и интеллекта.

    Основной фронт работы заключался в фактической сдаче объекта в минимальный срок (например, 160 кВА ИБП + шкаф на 66 шт. HRL 12-270 VRLA AGM battery должны были быть собраны, протестированы, обвязаны, подключены за 1 рабочий день, хотя со всеми проверками это минимум 2, а по-хорошему 3 рабочих дня).

    АКБ тестировались при отгрузке тоже на отстань. Я стремился под свои объекты самостоятельно проверять АКБ, но это было невозможно если с одного объекта ехал сразу на другой, тогда тестировал кто-то из коллег, по своей личной методике, без гарантированного результата (иногда это доверяли новичкам).

    Однажды я отложил пару битых АКБ, а потом увидел, что кладовщик отгрузил их моему коллеге, и тот, не заморачиваясь, всё повез на свой объект.

    Отдельная фишка была в арендованных АКБ. Компания среди прочих услуг предоставляла батарейные шкафы в аренду, аккумуляторы из них потом продавались как новые. При транспортировке из коробок выбрасывали пенопласт, аккумуляторы ставили стопкой, и страдали клеммы, со временем они начинали травить и окисляться. Поэтому если вам на объект привезли аккумуляторы в потрепанных коробках — не берите ни в коем случае!

    Про момент затяжки 10 Н/м я вообще молчу! Частенько я видел, как коллеги закручивали от души, до хруста эпоксидки.

    Не было никаких гайдлайнов, инструктажей, контроля качества. Только разбирались адресно с рекламациями. А это самый крупный поставщик услуг в области резервного питания!

    Поэтому в одном шкафу могли запросто оказаться некондиционные, отличающиеся от общей массы аккумуляторы. Я это видел почти на каждом объекте, тестируя АКБ нагрузочной вилкой — 1-2 аккумулятора я списывал почти всегда. Я не был свидетелем и не слышал, чтобы так делал кто-то из коллег. Визуально, некондиционными были всегда чуть отличающиеся аккумуляторы — коробка со следами вскрытия, другая дата изготовления. Новые с завода АКБ всегда демонстрировали одинаковую динамику просадки и подъема напряжения на нагрузочной вилке.