В прошлый понедельник многие интернет-СМИ писали о том, что тысячи авиарейсов второй по размеру и значимости авиакомпании мира были отменены. Речь идет о Delta Air Lines. Тысячи и тысячи пассажиров Delta Air Lines не смогли никуда улететь, поскольку рейсы, на которые они купили билет, просто перестали существовать. Как оказалось, проблема — в сбое компьютерной системы компании. Причем не в региональной, а в основной — проблема случилась в главном дата-центре Delta Air Lines, расположенном в Атланте, США.


Служащий Delta Airlines помогает пассажиру, чей рейс отменили, разобраться в ситуации

У компании есть и дублирующие системы, которые в случае проблемы в основном дата-центре должны были начать работу, заменив собой проблемные серверы. Но этого не случилось, вторичная, дублирующая система тоже не функционировала. Интересно, что по словам руководства, компания вложила десятки миллионов долларов США в дублирующие системы. Специалисты Delta Air Lines смогли все восстановить всего за шесть часов, но за это время компания потеряла миллионы долларов из-за отмены рейсов и связанных с этим убытков. Проблема — сбой в энергосистеме и неполадки с запасным генератором.

Как оказалось, штатное переключение с основной энергосистемы на вспомогательный генератор привело к выходу из строя последнего. Случился пожар, который быстро был потушен. Но вся инфраструктура дата-центра Delta Air оказалась обесточенной. Только через несколько часов удалось ввести в строй 400 из 500 серверов, и спустя еще некоторое время восстановилась работа остальных 100 серверов. Все это время почти весь флот из 800 самолетов оставался на земле. А отмена всего одного авиарейса обошлась компании в $17 000, плюс пришлось компенсировать пассажирам транспорт, питание, дополнительные расходы и т.п.

Еще одна проблема — устаревшая инфраструктура дата-центра. Электронная система бронирования билетов была создана в 1960 году. С тех пор она неоднократно перестраивалась, обновлялась, но все же ИТ-инфраструктура компании не соответствует современным требованиям. Объем данных, с которыми работают сервера компании велик, а бэкапы делаются несколько раз в день, а не в постоянном режиме, теневые копии не создаются. В результате при аварийной ситуации восстановление нормальной работы дата-центра требует больше времени, чем если бы данные бэкапились непрерывно.

А что с Southwest Airlines?




Это еще одна крупная авиакомпания, потерявшая миллионы долларов США из-за сбоя в дата-центре, случившегося еще 20 июля. А причина сбоя — частичный отказ в работе одного-единственного маршрутизатора, коих в дата-центре компании сотни. Служба поддержки ДЦ не заметила проблемы, и буквально через несколько минут вся система рассыпалась, как карточный домик. Руководитель компании сравнил происшествие с наводнением, которое случается раз в 1000 лет.

В течение последующих четырех дней были отменены 2 300 рейсов, сотни тысяч пассажиров никуда не улетели, в течение четырех дней билеты было невозможно забронировать. Все это стоило компании десятков миллионов долларов в виде прямых и косвенных убытков. Акции Southwest Airlines упали на 11% и пока что динамика обратного роста не слишком активная.

После проведения детального расследования происшествия оказалось, что сбой случился сам по себе, вмешательства со стороны не было. По словам специалистов, система резервного копирования и хранения информации в дата-центре компании была сконфигурирована неправильно, так что воспользоваться всеми этими данными, введя в работу запасную систему, оказалось нельзя.

В ближайшем будущем компания планирует развернуть новую систему бэкапов, с новым оборудованием, что должно свести к минимуму повторение такой ситуации в будущем. Тем не менее, свои 10-15 миллионов долларов США компания потеряла.

И это еще не все


Southwest Airlines и Delta Airlines не единственные авиакомпании, которые потеряли деньги из-за сбоев оборудования дата-центров. В мае компания JetBlue просила своих пассажиров регистрироваться в аэропорту «вручную», а не автоматически. Причина — все тот же сбой компьютерной системы. Плюс United Airlines отменила сотни авиарейсов из-за сбоев в собственном дата-центре в прошлом году.

Основной источник проблем — недостаточное количество серверов для бэкапа, неправильно настроенная система резервирования данных, проблемы с энергетической инфраструктурой, экономия. Плюс ко всему, здесь присутствует еще проблема отсутствия унификации оборудования и сервисов — у каждой компании технические системы собственные, порой, уникальные, разрабатываемые в течение десятков лет. В результате общие решения, рекомендуемые в случае сбоев в структуре дата-центров, для ряда таких компаний просто неприменимы. А это влечет за собой, как видим, миллионные убытки.

Согласно недавнему исследованию, проведенного институтом Понемона, сбой в дата-центре обходится его владельцам в среднем в $74000 (в 2015 году). Наиболее дорогим оказалась одна из прошлогодних аварий, с общей суммой убытков для владельца дата-центра в $2.4 млн.

Другие наши публикации:
Поделиться с друзьями
-->

Комментарии (14)


  1. deimond
    12.08.2016 21:33
    +4

    Попал в outage, который случился у southwest — весьма неприятно, вся эта регистрация вручную, особенно учитывая их идиотскую автобусную систему занимания мест. В итоге все расселись, минут через 40 нам сообщили, что никуда не летим, выходим из самолета. Как только все вышли из самолета, сообщили, что все-таки летим и надо возвращаться в самолет :) В конечном итоге вылетели всего часа на полтора позже назначенного, не очень понял, откуда 4 дня взялись. Хотя может последствия они и разгребали 4 дня. Лично я после этого решил больше не летать этой авиакомпанией, и если таких как я достаточно много, это добавляет к косвенным убыткам, которые посчитать практически невозможно.


    1. aram_pakhchanian
      14.08.2016 21:38

      Зря вы решили: SouthWest — одна из лучших американских авиалиний. Сбой в системе случается нечасто. Зато у других компаний бывают куда более банальные ситуации, из-за которых бывают идиотские задержки или отмены рейсов.


      1. deimond
        15.08.2016 11:35

        Дело не только в этом конкретном сбое. Дурацкая система занимания мест (места нельзя забронировать заранее, можно только попасть в какую-то группу, типа B1-B30, и затем в соответствие с этой группой как в автобусе занимать любое понравившееся место — может кому-то такое и нравится, но точно не мне), довольно старые самолеты и отсутствие нормальной жратвы (даже за деньги, так как бесплатно только крендельки дают на внутренних рейсах во всех авиакомпаниях). Я в последнее время летаю в основном Аляской — нормальный check in, современные самолеты с внутренним wi-fi с кучей развлекухи (фильмы, сериалы, шоу), включая бесплатную (плюс платный выход в инет если нужно), розетками и usb-портами в спинках сидений и хотя бы небольшой выбор еды в зависимости от длительности полета.


    1. brestows
      15.08.2016 11:31

      Тоже как-то слишком категорически, один сбой и уже не будете летать, проблемы есть у всех, а если у вновь Ввми выбранной компании будут проблемы, так и будете менять их? Если такие проблемы регулярные, тогда стоит задуматься о смене авиакомпании, а если это единичный случай, то я и не думал бы о смене авиакомпании, да и все зависит от поведения самой авиакомпании в такой ситуации.


    1. Lamaster
      15.08.2016 15:14

      То есть вы выберете другую авиакомпанию, у которой подобных фейлов не встречалось?
      Но ведь у них этих фейлов не было ПОКА. Они не потратились на тестирование подобной ситуации и не могут быть уверены, что этого не произойдёт в будущем.


  1. Night_Coder
    13.08.2016 03:26

    Самое время брать акции?


    1. roller
      14.08.2016 19:15

      Ну, кровь пока не льется


  1. Nem427
    13.08.2016 14:32
    +2

    Виноватыми назначат ИТшников. Лишат премий и должностей. Хотя догадываюсь, что они очень давно предупреждали руководство о необходимости модернизации систем.
    Назначат, накажут и ничего не поменяют, потому что с точки зрения бизнеса это дешевле. Пара датацентров, географически разделённых, будет дороже 6 часового простоя.


    1. Iqorek
      14.08.2016 18:28

      >Пара датацентров, географически разделённых, будет дороже 6 часового простоя.
      тем более, что даже они не будут гарантировать, что простоев не будет


  1. dmitry_ch
    13.08.2016 21:15

    Лично у меня картинка http://www.dallasnews.com/incoming/20160730-1469899357-earns-southwest-airlines.jpg.ece/BINARY/1469899357-Earns-Southwest-Airlines.jpg, расположенная прямо под заголовком «А что с Southwest Airlines?», не открывается, браузер показывает плейсхолдер, мол, «404».

    В статье про надежность это выглядит отличным примером )


  1. Escalibur
    14.08.2016 13:20

    А это все косорукие программисты и жадные менеджеры.

    Косорукие программисты, которые пишут в лицензионных соглашениях, что ихние поделки ни для чего не годятся и если что, идите нахер и поэтому, их не наказывают рублем и жадные менеджеры, которые норовят все сэкономить на инфраструктуре, а потом рвут пейсы, когда угорают на суммы в десятки и сотни раз большие и их опять не наказывают за это.


  1. Alter2
    15.08.2016 11:31

    Вот к чему приводит «зачем трогать, если и так работает».


  1. zhigalin
    15.08.2016 11:33
    +1

    А я думал, зачем Яндексу эти его учения…
    Теперь думаю почему другие компании их не проводят…


  1. Stas911
    16.08.2016 21:12

    Лично наблюдал в одной из стран Африки в ЦБ, когда отключилось питание местные умельцы так и не смогли завести ни один из трех огроменных красивых дизелей CAT, стоящих прямо во дворе. И солярку принесли и репу чесали, в итоге после окончания UPSов, все погасло, включая SWIFT.