Аварии, даже в самых надежных дата-центрах, происходят регулярно. Как правило, владельцы серверных ферм с большой неохотой делятся данной информацией. Согласно статистике, средний размер расходов из-за даунтаймов на серверных фермах только растет, показатель увеличился на 41% по сравнению с 2010 годом, теперь сумма издержек составляет почти 8 тысяч долларов в минуту ( отчет исследовательских компаний Ponemon Institute и Emerson Network Power). Теряются деньги, имидж компаний задет, репутация запятнана, ведь надежность вычислительной инфраструктуры компании — первый показатель высокотехнологичности этой же компании. Но как показывает практика, никто не застрахован от аварий.



ЦОД Northrop Grumman


В конце мая почти 60 государственных организаций штата Вирджиния (США) не могли достучаться к своим ИT-системам несколько часов. Вызвано это было из-за отключения местной серверной фермы, которая принадлежит компании Northrop Grumman (ЦОД в городе Честер).



Неисправный сетевой коммутатор, вызвавший отключение электричества, — вот причина 5 часового даунтайма. Проблему устранили, заменив неисправное оборудование резервным с тестовой площадки. Выход из работы коммутатора привел к отключению исходящего и входящего трафика в рамках информационно-технологической инфраструктуры органов исполнительной власти. Все это еще более обострило и так нелегкие отношения между компанией Northrop Grumman и властями. Не так давно уже была выдвинута инициатива о расторжении контракта на предоставление ИT-услуг компанией Northrop Grumman. Данный контракт был подписан 10 лет назад на общую сумму $2,3 млрд.

Amazon


На прошлой неделе на официальном сайте Amazon Web Services (AWS) были опубликованы извинения за случившийся даунтайм, который привел к недоступности многих сайтов. В офлайне оказались сайты клиентов AWS, это и новостные ресурсы, сервисы потоковой трансляции медиа-контента и другие.



Причиной послужило аварийное отключение электропитания из-за крупного шторма, который обрушился на юго-восточное побережье Австралии. В офлайн ушла облачная серверная ферма в Сиднее. Шторм стал одним из самых мощных в этом году. Штормовой ветер, ливневый дождь и наводнение потрепали Новый Южный Уэльс, стихия вызвала перебои в работе общественного транспорта, были затоплены улицы. Почти 9 тысяч домов в Сиднее, Центральном побережье остались без электричества.



На устранение неполадок в дата-центре потребовалось менее двух часов. Для Австралии характерны такие экстремальные погодные условия, не редко это становится причиной ухода серверных ферм в офлайн.

Salesforce


Серверная ферма облачного гиганта Salesforce в городе Вашингтон (округ Колумбия США) ушла в офлайн почти на сутки. Это американская компания была основана еще в марте 1999 года, головной офис расположен в Сан-Франциско, региональные в 25 странах по всему миру. Изначально компания специализировалась на CRM-системах.

Причиной считается кратковременное отключение электричества из-за отказа автоматического выключателя, которое привело к проявление неизвестного ранее бага микропрограммы.



Марк Бениофф, генеральный директор Salesforce, принес свои извинения клиентами через Twitter. Извинился за принесенный ущерб, пообещав, что если вдруг в будущем произойдет подобное, проблема будет устранена намного быстрее.
Поделиться с друзьями
-->

Комментарии (12)


  1. luther
    15.06.2016 10:50
    +2

    Получается что облачные сервисы не являются таковыми учитывая тот факт что из-за форс-мажорной ситуации выдает из доступности большой сегмент ресурсов. А что тогда значит облако? Где те самые перераспределения ресурсов в разных регионах? Где резервные каналы? Все это пшик?


    1. sigizmund
      15.06.2016 11:45
      +1

      Тут надо понимать, что для того, чтобы реально получать все плюшки от использования облачных сервисов, нужно изначально писать приложение так, чтобы оно поддерживало автоматический fail-over. К примеру, если писать приложение на Google AppEngine, даже отказ трех датацентров не приведет к остановке приложения. С другой стороны, если запустить приложение на Google Compute Engine на одном сервере на той же лампе, падение датацентра гарантированно приведет к недоступности приложения.

      Таким образом, облако не решает никаких проблем если использовать его так же как старую добрую серверную ферму.


      1. foxmuldercp
        15.06.2016 11:52

        еще лучше использовать Амазон + Майкрософт и разделение по регионам и континентам — черт с ним, с повышенным пингом, если клиент вообще в даунтайме


        1. sigizmund
          16.06.2016 11:11

          Ну разных вендоров использовать на самом-то деле довольно тяжело — они все предоставляют какие-то фишки которые только приблизительно совместимы друг с другом, классический пример — Amazon S3 & Google Cloud Storage, которые вроде бы решают одну проблему, вроде бы одним способом, но «готовить» их надо по-разному.


      1. luther
        15.06.2016 22:38

        Честно говоря удивлен возникшей проблемой с Northrop Grumman, а точнее с тем как организована работа сервисов в 60 гос. организациях в Вирджинии. Это же гос.структуры! Мне казалось что уж там-то в США это проходили по сто раз и должны были превентивно организовать как распределенное хранилище/приложения/обрабатывающие центры, что там у них.


        1. sigizmund
          16.06.2016 11:09

          Вы будете сильно удивлены как это все работает :-) большинство гос. организаций в США используют суб-контракторов, которые соревнуются (на самом-то деле) главном образом ценой. Что уж они там сделают — отдельная песня. Один из самых прекрасных примеров это запуск healthcare.gov.


  1. luther
    15.06.2016 10:53

    Имелось ввиду: выпадает* большой сегмент ресурсов


  1. mayorovp
    15.06.2016 11:34

    Неисправный сетевой коммутатор, вызвавший отключение электричества


    Это вообще как?


    1. foxmuldercp
      15.06.2016 11:53

      Циско, например, делает линейку оборудования для контроля систем поставки энергоносителей, т.е для скада систем энергокомпаний — подстанции, распределительные системы, ЛЭП и все такое.


  1. p-oleg
    15.06.2016 11:36
    +3

    На КДПВ нужно добавить «Вы держитесь здесь, вам всего доброго, хорошего настроения и здоровья»


  1. Melanxolik
    15.06.2016 11:36

    Наверное вы не много не понимаете… Облако это в первую очередь действительно распределенные ресурсы, вот пример:
    файловая система, при определенном подходе идет автоматическое дублирование блоков данных на разные ноды хранилища, в итоге часть нод этого огромного хранилища может расположенна в совсем разных городах, но представлять одно большое целое.
    В итоге, клиент даже когда падает часть нод в одном ДЦ спокойно запускает свои виртуальные машины в другом ДЦ этой же компании и спокойно продолжает работать.
    Но здесь очень много архитектурных вопросов, которые к сожалению не всегда раскрываются. Но опять же многие ДЦ делают просто резервирование на базе этажей или стоек, но не как не городов.
    Большие ДЦ предусматривают вполне серьезные ситуации, но иногда бывает такое к чему тебя жизнь точно не готовила. Мои сочувствия нокам в момент падения ДЦ. Поверьте вернуть ДЦ в работу с минимальными потерями это еще та задача, тем более для крупного оператора.


  1. darkgerion
    16.06.2016 12:45

    Никакого «Облака» не существует. Просто есть чей-то еще компьютер ©