Продолжая тему аварий на серверных фермах. Причины ухода в офлайн мощных инфраструктур дата-центров весьма различны: перебои в электроснабжении, неполадки в системах охлаждения, работе резервного дизель-генератора, в оборудовании, ненадлежащее техническое обслуживание этого же оборудования и т.п. Не стоит забывать и о человеческом факторе.



Как говорится, на ошибках учатся, и хорошо если не на своих. Операторы серверных ферм могут извлечь полезные уроки о том, как подготовится к потенциально возможной аварии, устранить ее последствия, да и вообще избежать каких-либо промахов, которые влекут за собой немалые потери.

Cogeco Peer1


Дата-центр Cogeco Peer1 в Атланте ушел в офлайн из-за проблем в системе резервного питания.



Компания Cogeco Peer1 (Атланта, США), которая предоставляет услуги в области управляемого хостинга, после ухода в офлайн ее серверной фермы, стала в центре обсуждений и критики в социальных сетях. Многие клиенты этого сервис-провайдера высказали свое «фе» в отношении компании, многие грозились поменять провайдера и перевести все свои рабочие нагрузки в AWS. AWS были рады присоединиться к такому рода высказыванию и попытались переманить недовольных клиентов Cogeco Peer1.



Серверная ферма ушла в даунтайм из-за частичного прекращения подачи электроэнергии. На устранение проблемы ушло почти пять часов, все началось в половину второго, на полную мощность дата-центр заработал только к семи вечера. Из-за случившегося сбоя в электроснабжении была полностью отключена инфраструктура в определенных участках серверной фермы. Как обьявила Cogeco Peer1, причиной даунтайма стал сбой в системе резервного питания ЦОД.

TeliaSonera и «человеческий фактор»




Компания TeliaSonera предоставляет услуги телекоммуникаций и сетевого доступа. Недавно из-за ошибки инженера серверной фермы при конфигурировании маршрутизатора в ЦОД, многие пользователи таких известных интернет-сервисов, веб-сайтов и приложений вроде WhatsApp, Reddit, CloudFlare и AWS понесли потери. Большая часть трафика вместо того чтобы идти в Европу, была направлена в Гонконг. Миллионы пользователей прочувствовали данную ошибку на себе при подключении к интернету и работе с популярными приложениями. Вначале эксперты предполагали, что данная проблема вызвана повреждением трансатлантического магистрального телекоммуникационного кабеля. Два часа понадобилось, чтобы устранить проблемы на серверной ферме TeliaSonera. Клиентам были отправлены письма с извинениями, а в блоге компании появилась запись о том, что компания планирует приложить максимум усилий в направлении автоматизации своих систем. Такое решение сведет к минимуму возникновений простоев по причине человеческого фактора.



Многие компании часто умалчивают о причинах, которые приводят к сбоям и простоям в работе серверных фермах. Владельцы дата-центров весьма неохотно делятся сведениями об авариях у себя на объектах. В офлайн ушел сайт одной из крупнейших американских кредитных компаний Lending Club. Компания за время работы (с 2006 года) выдала кредиты на сумму $18млрд., неудивительно, что данный простой очень обеспокоил инвесторов компании. Сбой в работе наблюдался на прошлой неделе, причиной были названы неполадки в дата-центре (точно не указанные). Несколько часов ЦОД находился в даунтайме.



Кстати, по данным компании Emerson, самой частой причиной, вызывающей сбой в работе дата-центров, является отказ аккумуляторов ИБП. В этом исследовании приняли участие 450 операторов серверных ферм. Второй проблемой является перегрузка ИБП, еще — ошибки монтажа электрических соединений, сбои в работе АВР и короткие замыкания. Половина проблем связана все с тем же с человеческим фактором. Одна треть сбоев в работе дата-центров случается «благодаря» системам охлаждения, в 35% случаев из-за утечки воды.



Если говорить о нашем рынке (украинском), то владельцы ну уж очень неохотно делятся информацией о происходивших сбоях и причинах ухода в офлайн инфраструктур своих серверных ферм. А начинается все, как ни банально, с конструкций под размещение ЦОД. Старые здания, износившиеся строительные конструкции, замаскированные трещины в перекрытиях, несущая стена с выбитым проемом в полметра на метр… Тополиный пух, который в летнее время забивает теплообменники внешних блоков, а в зимнее время эти же блоки часто останавливаются по причине обмерзания или заклинивания вентиляторов из-за попавших в них сосулек с крыши. Экономия на системе вентиляции, а именно установке калорифера в ней, приводит к тому, что зимой оттуда стекает конденсат. Сбои в работе ИБП случаются и из-за подключения непрофильной нагрузки к участку электрической цепи серверной фермы. Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.
Поделиться с друзьями
-->

Комментарии (10)


  1. dmitry_ch
    08.07.2016 18:28
    +10

    «Горшочек, не вари!» У вас какой-то зверский план по заваливанию Хабра хоть чем-то?

    А когда начало — подборка в стиле «лучшие аварии», а конец, внезапно

    Если говорить о нашем рынке (украинском)… Мощный кондиционер в кабинете директора, электрочайник у секретарши Глаши и т.д. Вот только короткий список причин уводящий серверные фермы в офлайн.

    и это считается чем-то «профессиональным» — то, простите, я бы ни в один ДЦ такого «рынка» хостинга не пошел бы. Страшно


    1. TashaFridrih
      08.07.2016 19:24
      -1

      вполне на сегодняшнее время с Вами согласна, поэтому услуги, предоставляемые нашей компанией, территориально находятся на территории Нидерландов, США, Сингапура.


      1. dmitry_ch
        08.07.2016 19:28
        +3

        Я примерно в курсе. Поэтому слово «нашем» про рынок прозвучало несколько… сложно. В Сингапуре с чайниками у вас получше, думаю? )

        А число статей, право, может, поменьше сделать? Вы ж не дятлы, добить и долбить, да еще такой мякиной?

        Писали бы, как Крок, про устройство вашей площадки, про инженерные и коммерческие вашие решения — все бы зачитывались, правда.


        1. HostingManager
          08.07.2016 19:33

          Приветствую, Дмитрий, мы очень признательны Вам за критику, аудитория Хабра очень широкая, кому-то интересны и такие материалы. Мы ориентируемся на широкий охват аудитории. Согласен, что порой качество контента может немного страдать, мы обязательно обратим внимание на его улучшение.

          В наших интересах, как и в Ваших, чтоб контент был лучше.


          1. easyman
            08.07.2016 20:35

            Корректора, редактора — оставьте, слог хороший.
            Дайте задание, например, написать про то, как у Вас автоматизировано… например, передача сервера клиентам.
            Пришла заявка, потом пришел на работу Вася прочёл её и еще 5 и включил сервер (и еще 1). Этот сервер выключен уже неделю т.к. и так далее вплоть до привязки ip к mac :)
            Я уверен, там детективы писать можно!


            1. dmitry_ch
              09.07.2016 21:48

              Очень надеюсь, что привязка ip к mac все же не делается. Это не конторская тачка, которая должна оставаться неизменной, и даже не хост в домовой сети, где особо одаренные админы зачем-то ip-mac-port binding включают.


              1. easyman
                10.07.2016 00:26

                Да, удобнее, когда по порту определяют :)
                А админы такое делают из-за того, что им выдали только тупые свичи вроде как.


          1. 3fed
            08.07.2016 21:47
            +1

            Ну, было интересно, мне вот понравилось… Но в статье на про аварии на серверных фермах(почувствуйте масштаб!) на таком серьезном сайте перейти от падения крупного датацентра к нерадивым украинским директорам и секретаршам… Это было необычно.

            А по мне, так можно было бы разделить(и расширить) на 3 темы — что-то вроде: случаи падения, причины падения дата центров, халатность на серверных фермах СНГ. Я бы почитал.


  1. user4291
    08.07.2016 18:32
    +2

    Единственное, что я вынес из этой статьи — владельцы серверов не очень неохотно делятся информацией о сбоях.


  1. rockin
    08.07.2016 22:05
    +3

    Если совсем мало текста и он совершенно не информативен (другими словами КГ/АМ), давайте фоточками разбавим текст, чтобы статья выглядела подлиннее.

    Господа, это даже на твит с трудом тянет. Утрирую, конечно. На хабре в каментах тексты часто длиннее. И информативнее.