Даунтаймы (время, когда система не работает) ЦОД наносят не только финансовый ущерб, но и причиняют вред репутации бренда. Множество причин может вызвать даунтаймы дата-центров. Бывает, что инфраструктура не способна справиться с нагрузкой из-за различных дефектов (стихия, перебои в работе центральной электросети и т.д.). Но именно человеческий фактор является причиной большинства ошибок, которые приводят к снижению безопасности и надежности ЦОД. Согласно результатам статистики компании WinMagic, опросившей около тысячи операторов дата-центров, большинство респондентов (31%) считают самой серьезной угрозой логической безопасности именно сотрудников с доступом к серверным фермам. Любопытно, что атаки хакеров занимают лишь второе место (30%).



Google взялся возместить своим клиентам до 25% их месячных затрат за сбой работы облака Google Compute Engine, который длился почти 20 минут (учитывая, что аптайм 99,9% допускает недоступность сервиса в течении не более 45 минут в месяц). Согласно пресс-релизу, который был выложен на веб-ресурсе Google Cloud Platform, первопричиной сбоя стали изменения конфигурации сети. Когда операторы занялись изменениями, программное обеспечение, управляющее конфигурацией, обнаружило конфликт. Пытаясь исправить ситуацию, система сделала попытку возвратиться к предыдущей конфигурации и наткнулась на неизвестную ранее ошибку, которая привела к сбою. Кое-как «залатать» дыру удалось лишь спустя 20 минут, но проблема осталась не решенной. Разработчикам Google пришлось немало поработать над оптимизацией своих систем.



Подобная история произошла в ЦОД австралийской телекоммуникационной компании Telstra. Тот самый пресловутый человеческий фактор вывел из строя весь дата-центр. Но в отличии от Google, на устранение проблем в Telstra потребовалось почти четыре часа. Мобильная сеть телекоммуникационной компании ушла в офлайн. По данным издания Sydney Morning Herald, инцидент произошел из-за действий инженера, который перевел неисправный сетевой узел в автономный режим без предварительной активации резервного узла. Эти действия вызвали перебои в работе мобильной сети и оставили множество клиентов без связи. Проблема затронула многие города Австралии, включая Брисбен, Сидней, Мельбурн, Аделаида и Перт. За время исправления неполадки тысячи людей высказали свое недовольство работой компании в социальных сетях.



После случившегося произошло еще несколько, менее серьезных и длительных даунтаймов. Руководством компании было принято решение компенсировать клиентам доставленные неудобства. Telstra подарила своим абонентам день бесплатного безлимитного мобильного интернета (Free Data Day). По итогам дня было скачено 2,686 Тб данных, что естественно привело к перегрузке сети и снижением скорости загрузки.

Простой дата центров наносит финансовый ущерб и бьет по репутации компании. Поэтому операторам, проектировщикам и строителям ЦОД так важно делать все от них зависящее для минимизации даунтаймов. Конечно же никто не может гарантировать безопасности на 100%, но если использовать современные стандарты, подготовить план действий на случай непредвиденных ситуаций и не забывать про своевременное техобслуживание — риск даунтайма будет сведен к минимуму.

Комментарии (6)


  1. AlexNixon
    03.05.2016 13:51
    +3

    Прошу прощения… а о чем вообще статья? «Падения случаются, надо все очень быстро поднимать и вообще изначально делать так чтобы не падало». Что тут есть нового, интересного и информативного?


  1. 25080205
    03.05.2016 14:09
    +2

    Про компенсацию, полагаю- Google компенсировали денежкой, а Telstra — практически завалили сеть еще раз, покормив халявщиков.


  1. fahreeve
    04.05.2016 09:27

    По итогам дня было скачено 2,686 Тб данных
    — тут нет ошибки? Всего 2 Тб данных на всех пользователей?


    1. Alexsey
      04.05.2016 10:08

      Думаю никакой ошибки нет, просто запятая тут — не математическая. (если можно так выразиться) Читать надо как 2686 Тб.


    1. Anthrax_Beta
      04.05.2016 14:20

      Больше похоже на 2.6 Пб.


  1. 6a6ypek
    04.05.2016 11:27

    2686 терабайт на ~17mio абонентов? Это вроде по 158 мегабайт на нос получается.