(Прим. перев. Переводчик не считает уместным использовать традиционное название «информационно-телекоммуникационная сеть Интернет» не то что в разговорной речи, а даже в деловой переписке и официальных документах. Переводчик счел возможным использовать слово «интернет» как склоняемое существительное мужского рода, отойдя от спорной традиции считать это именем собственным, идущей от отписки Правительства одному известному российскому блогеру почти 20 лет назад)

Сейчас, когда наши платформы работают в обычном режиме после вчерашнего сбоя, я подумал, что стоит рассказать немного подробнее о том, что произошло и почему. И, что наиболее важно, какие уроки мы извлекли из этого.

Этот сбой был вызван системой, которая управляет пропускной способностью нашей глобальной магистральной сети. Магистральная сеть — это сеть Facebook, соединяющая все вычислительные мощности Facebook вместе. Она состоит из десятков тысяч километров оптических кабелей, пронизывающих земной шар, и соединяющих все наши датацентры.

Эти датацентры бывают совершенно разными. Некоторые из них представляют собой массивные здания, в которых размещаются миллионы машин, которые хранят данные и выполняют тяжелые вычислительные задачи, поддерживающие работу наших платформ. Другие, менее мощные датацентры, соединяют нашу магистральную сеть с интернетом и пользователями наших платформ.

Когда вы запускаете одно из наших приложений, и открываете вашу ленту, или сообщения, запрос данных приложения отправляется на ближайший узел, откуда передаётся напрямую по магистральной сети в один из крупных датацентров. Здесь информация, необходимая вашему приложению, извлекается, обрабатывается и отправляется обратно по сети на ваш телефон.

Поток данных между всеми этими вычислительными устройствами управляется маршрутизаторами, которые определяют, куда отправятся те или иные данные. В ходе повседневной эксплуатации нашим инженерам регулярно требуется отключать части магистральной сети для обслуживания — например, для ремонта оптического кабеля, увеличения пропускной способности или обновления программного обеспечения маршрутизатора.

Это и стало причиной вчерашнего сбоя. Во время плановых работ по обслуживанию в целях оценки пропускной способности магистральной сети была дана команда, которая непреднамеренно отключила все соединения в магистральной сети. Таким образом были отключены все наши датацентры по всему миру. Наши системы имеют специальную защиту от таких ошибок, но ошибка в системе защиты помешала остановить выполнение команды.

Итак, наши датацентры были полностью отключены от интернета и друг друга. И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию.

Одной из задач наших небольших датацентров является обрабатывать запросы DNS. DNS - это адресная книга в интернете, позволяющая преобразовывать простые имена сайтов, которые мы вводим в браузеры, в определенные IP-адреса серверов. (Прим.перев. Далее автор вдался в сложные технические детали, которые он упростил спорным образом. Переводчик взял на себя смелость исказить оригинальный текст автора, дополнив его своими объяснениями). Превращением простых, касающихся наших платформ, имен в IP-адреса занимаются наши собственные, так называемые авторитативные, DNS-сервера. Крупные DNS-сервера, обслуживающие миллиарды запросов по всему миру, каковыми являются конечно же и DNS-сервера Facebook, обычно раскиданы по всему миру, но имеют одно и тоже множество IP-адресов, где бы они не находились. Провайдеры отправляют запросы к ближайшему серверу. Распространение информации о нахождении IP-адресов осуществляется между провайдерами, а иногда и внутри одного провайдера, по специальному протоколу — BGP.

Чтобы избежать задержек при попытках запросов к неработающим DNS-серверам, наши серверы проверяют свою доступность и отключают анонсирование своих IP-адресов по BGP, если обнаруживают, что доступность плохая. Критерием доступности для нашего DNS-сервера является доступность наших датацентров с DNS-сервера (прим. перев. скорее всего это связано с невероятным вовлечением DNS во внутренние инструменты компании, о чем говорится чуть ниже по тексту). В результате недавнего сбоя, вся наша магистральная сеть оказалась недоступной. Наши DNS-серверы предсказуемо посчитали это причиной прекратить анонсы BGP и «пропасть с радаров» (Прим.перев. Здесь я заканчиваю вносить Божью Искру в текст автора). В итоге, DNS-сервера функционировали, но не были доступны. Это сделало невозможным поиск наших серверов в интернете.

Это всё произошло очень быстро. И пока наши инженеры работали над выяснением того, что происходит и почему, они столкнулись с двумя большими препятствиями. Во-первых, невозможно было получить доступ к нашим датацентрам, потому что магистральная сеть вышла из строя. Во-вторых, произошла полная потеря DNS. Многие наши инструменты, в том числе и инструменты по исследованию аварийных ситуаций, полностью зависели от DNS.

Наш основной и запасной доступы во внутреннюю сеть не работали, поэтому мы отправили инженеров физически в датацентры, чтобы они выяснили проблему и перезапустили систему. На это потребовалось время, потому что наши объекты спроектированы с учетом высокого уровня физической и системной безопасности. В них сложно попасть физически, а как только вы окажетесь внутри, будет сложно получить доступ внутрь систем, даже если у вас есть физический доступ к оборудованию. Потребовалось дополнительное время для активации протоколов безопасности. И только после этого мы смогли подтвердить проблему и подключить нашу магистральную сеть.

К счастью, мы были хорошо подготовлены к подобным ситуациям, благодаря «штормовым» учениям, которые мы проводим уже долгое время. Во время учений мы имитируем серьёзный сбой, отключая сервис, датацентр или даже целый регион, и проводим стресс-тестирование задействованной инфраструктуры и программного обеспечения. Учения дали нам навыки, чтобы вернуть работоспособность наших платформ и осторожно управлять нарастающей нагрузкой. В итоге, наши сервисы восстановились достаточно быстро без каких-либо глобальных сбоев. И хотя мы раньше не проводили учений, имитирующих отключение всей магистральной сети, мы будем искать способы имитировать эту ситуацию в дальнейшем.

Каждый крупный сбой, подобный этому — это возможность учиться и стать лучше. И нам есть чему поучиться здесь. После каждого сбоя, большого или маленького, мы проводим исследование, чтобы понять, как сделать наши системы более устойчивыми. Этот процесс уже идет.

Мы проделали огромную работу для предотвращения несанкционированного доступа к нашим системам. Было интересно наблюдать, как это замедлило нас во время восстановления после сбоя, вызванного не злонамеренными действиями, а нашей собственной ошибкой. Я считаю, что подобный компромисс того стоит — повышенная повседневная безопасность, приведшая к медленному восстановлению после, надеюсь, редкого сбоя, подобного этому. С этого момента наша задача — усилить тестирование, учения и общую устойчивость, чтобы подобные события происходили как можно реже.

Комментарии (86)


  1. AntoniiTemny
    07.10.2021 02:03
    +3

    Большое спасибо за перевод.

    Очень неловко писать всякие мелкие придирки по грамматике, поэтому заранее извиняюсь, пара пожеланий по согласованию в пятом абзаце перевода:

    "В ходе повседневного/повседневной эксплуатации, нашим инженерам регулярно требуется отключать части магистральной сети для обслуживания — например, для ремонта оптического кабеля, увеличение/увеличения пропускной способности или обновления программного обеспечения маршрутизатора."


    1. schors Автор
      07.10.2021 02:04
      +6

      Да почему неловко? Норм. Спасибо


    1. Nehc
      07.10.2021 08:33
      +3

      Только обычно такое пишут в личку.


      1. ProRunner
        07.10.2021 08:54
        +7

        Я даже больше скажу - тут работает выделение текста и Ctrl-Enter для быстрой отправки сообщений об опечатках


        1. AntoniiTemny
          07.10.2021 10:35
          +1

          Буду знать, спасибо


        1. raamid
          07.10.2021 20:20
          +2

          А я попытался как-то написать в личку и мне такую капчу выкатили, что я ее так и не прошел, в итоге написал общее сообщение. Не знаю как сейчас дела обстоят, давно в личку не писал.


      1. schors Автор
        07.10.2021 09:31
        +4

        Не вижу проблемы ни в каком виде репорта. Сюда так сюда


        1. Ashmanov
          12.10.2021 14:18

          "где бы они не находились" - > ни.

          Но вообще, в любом случае "переводчик" сначала перевёл Гуглом, а потом выгладил - рудиментные артефакты МП видны. В принципе, здесь выглаживание достойное, сейчас такое нельзя получить даже у профессиональных переводческих контор, которые все переводят Гуглом или Яндексом, даже если врут, что перевод у них человеческий.


      1. AntoniiTemny
        07.10.2021 10:34

        Учту на будущее, спасибо


    1. KGeist
      07.10.2021 19:56

      >"В ходе повседневного/повседневной эксплуатации, нашим инженерам

      Тут ещё калькирование запятой. В английском она нужна, в русском -- нет.


  1. Stesh
    07.10.2021 02:13
    +10

    Итого: требование держать NS-сервера в разных подсетях несколько устарело, теперь нужно держать NS в разных ASN.


    1. kukovik
      07.10.2021 18:06
      +1

      Почему подсетях? Традиционно менялись секондари с коллегами из других организаций.


  1. cranium256
    07.10.2021 03:41
    +30

    Всё-то у них прекрасно: и надёжность, и безопасность, и учения проводятся строго по графику, и их сеть опутывает весь мир, и датацентры классные, и общая устойчивость на высоте. Но как, Карл, как один непреднамеренно залетевший дятел положил всю эту красоту?


    1. MrNone
      07.10.2021 08:27
      +1

      Ну, в оправдание можно сказать, что дятел и сам не смог вылететь и оказался похоронен под обломками ????????????


      1. barbalion
        12.10.2021 15:23

        Вот бы увидеть лицо того devops'а, который отправил запрос и наблюдал, как ложится вся сеть по всему миру. Услышать бы его первые слова. Его начальника....

        Эх, мечты!


        1. atil
          12.10.2021 18:40

          "Ну, это не беда, а катастрофа..."


    1. ole325
      07.10.2021 09:42
      +3

      когда тестирование организовано путем постепенного увеличения охвата аудитории для нового функционала, это все прекрасно работает, пока не появляются вещи которые работают по принципу вкл/выкл, они же написали защита от такой команды есть, но как проверяли эту защиту, прогер посмотрел, на его команды работает, а тестировщик? .... ой их же у нас нет :)


      1. xSVPx
        08.10.2021 21:35

        Такие вещи, обычно, нельзя протестировать синтетически. Т.е. вряд ли выб обрадовались если бы фб каждый день на 2-3часа ложился ради подобного рода тестов. Вот вчера фактически и протестировали, теперь исправят.

        Это все все равно даёт исторический аптайм сильно больше 99.9%, что для подобного сервиса вполне нормально. 99.9% это грубо говоря день простоя раз в три года....


        1. psynix
          09.10.2021 03:16

          в таких системах надежность таки измеряется в десяти- ста- тысячных долях... ну концепция девяток три 9 четыре 9 пять девяток ...


    1. YakovlevAndrey
      07.10.2021 11:24

      Сколько они после обучения лежали? 6 часов?

      Даже не представляю, какой бы был даунтайм без учений.


    1. Melanxolik
      07.10.2021 20:12

      Зато он теперь красиво может обновить свое резюме, у нас уже было что-то с DB, у меня выскочила эта история из головы.


      1. psynix
        09.10.2021 03:17

        а вот интересно, вспоминайте)


  1. 027
    07.10.2021 03:59
    +4

    > «информационно-телекоммуникационная сеть Интернет»

    Согласен с автором. Жуткое бюрократическое ублюдство.


    1. vis_inet
      07.10.2021 05:27
      +2

      "Другого интернета у меня для вас нет" (с)


      1. 027
        07.10.2021 05:41
        +5

        Па-пра-шу соблюдать предначертанный свыше порядок! «Другой информационно-телекоммуникационной сети «Интернет» у меня для вас нет!».

        В некоторых образцах бюрократического словоблудия встречал оптимизацию бредогенератора: один раз выхлоп идет полностью, и примечание: далее сеть «Интернет».
        Ну хоть так.


        1. Ashmanov
          12.10.2021 14:20

          Тем не менее, Интернет - имя собственное и пишется с прописной, как и Рунет.

          Оно может в ближайшие годы преобразоваться в подобие термина "телефон", но только в одном из значений (транспорта, доступа в сеть). Пока, по-моему, регулятор не разрешает всё ещё.


    1. 027
      07.10.2021 06:02
      +8

      Из книжки Леонида Кербера, конструктора из команды Туполева.

      А вот уж, кажется, совершеннейшие пустяки, 'глупости', но и они тормозили дело. К самолету была приложена куча описаний и инструкций, их следовало перевести. Своих знатоков английского у нас не хватало, пригласили переводчиков со стороны, но те, хорошо владея языком, оказались незнакомыми с авиационной и вообще технической терминологией. Вечерами садимся за редактуру и делаем открытие. Оказалось, американцы, авторы инструкций, ставили себе целью донести свои знания до читателей лаконично и наглядно, наши же канцелярские обычаи легли здесь бревнами поперек дороги. Читаем, например, в инструкции: 'Запустить пут-пут'. Что это такое, 'пут-пут'? Перерываем словари, энциклопедии, но ответа нет. И только в Казани, когда стали готовить к полету первую машину, все выяснилось. Запустили аварийный движок, а он и затарахтел: пут, пут, пут, пут… Так вот это что было в инструкции — это было просто подражание звуку выхлопа движка. Нет, такого мы позволить не могли, и короткое 'пут-пут' превратилось у нас в: 'Для этой цели следует запустить вышеупомянутый агрегат, состоящий из двухцилиндрового, двухтактного бензинового движка воздушного охлаждения, приводящего в движение 4-полюсный генератор постоянного тока с компаундным возбуждением, служащий для питания электросети самолета при неработающих двигателях'!


      1. kinall
        07.10.2021 08:16
        +7

        Справедливости ради: в первом случае (с пут-путом) получилось чистой воды руководство пользователя - когда неважно, что там внутри, а важно, какие кнопки в каких случаях нажимать - а в втором уже полная спецификация устройства, по которой можно его если не воспроизвести полностью, то уж починить точно. По-хорошему это должны быть два разных документа. И если у одного цель, действительно, лаконично и наглядно донести чёткие и ясные инструкции, то у другого - дать как можно более полную и точную информацию.

        Кстати, канцелярит тут ни при чём - этот самый "пут-пут" по описанию очень похож на обычную ВСУ, так что фразу из первоисточника можно было бы перевести как "запустить ВСУ". А вот что такое ВСУ, как работает и из чего состоит - вопрос следующий.


        1. mmoustaf
          07.10.2021 12:12
          +1

          Это и есть ВСУ. Вот цитата из AFM-ки которую Кербер переводил

          The putt-putt drives a 28-volt 200-ampere generator. However, it cannot be used at altitudes greater than 10,000 feet. This, plus the battery, provides an additional source of power for ground operations and emergencies and as a safety precaution during landings and take-offs, but should not be considered a normal source of power during flight.


        1. 027
          07.10.2021 18:26
          +2

          Кстати, канцелярит тут ни при чём — этот самый «пут-пут» по описанию очень похож на обычную ВСУ, так что фразу из первоисточника можно было бы перевести как «запустить ВСУ».

          Имхо, термин «вспомогательная силовая установка» в те времена еще не был придуман. Да и сами будущие ВСУ были, скорее, экзотикой. Это сейчас они понатыканы на каждом втором ероплане, не считая каждого первого. Даже в АОН, наверное, есть, на птичках потолще.

          Интересно, как бы те американцы назвали ВСУшку Як-40. «Пу-у-у!»? :)


          1. mmoustaf
            07.10.2021 19:57
            +1

            У американцев был, в той же афмке встречается APU. Просто путт-путт это название вполне конкретного 15-сильного движка.


            1. 027
              07.10.2021 20:00

              Тогда почему ведущие специалисты по авиационному оборудованию — одни из лучших в стране — не употребили термин ВСУ?
              Могу лишь предположить, что для большинства летчиков того времени эта штука была неведомой экзотикой. Во всяком случае для тех, кто впервые имел дело с тяжелыми самолетами.


              1. mmoustaf
                07.10.2021 20:16
                +1

                А я не уверен что не перевели. Мемуары штука такая.

                У меня под рукой есть документация на Б-29 созданная в нии ввс в 1944 и 1945

                Сейчас посмотрю как там называется этот двигатель


                1. mmoustaf
                  07.10.2021 20:19
                  +2

                  А вообще чего я жмусь

                  Ловите

                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №267: ЛЕТНО-ТЕХНИЧЕСКИЕ И АЭРОДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ САМОЛЕТА БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/Z-zBe-gh3RSkQG 
                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №276: УПРАВЛЕНИЕ МОТОРАМИ НА САМОЛЕТЕ БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/UTfY3Xc63RSkvP 
                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №288: ТРЕХКОЛЕСНОЕ ШАССИ САМОЛЕТА БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/y-kL9fNz3RSmUn 
                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №295: МОТОУСТАНОВКА САМОЛЕТА В-29. БНТ, 1945. https://yadi.sk/d/60qqmKnz3RSmvP 
                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №303: КОНСТРУКЦИЯ ПЛАНЕРА САМОЛЕТА БОИНГ В-29 И НЕКОТОРЫЕ ТЕХНОЛОГИЧЕСКИЕ ОСОБЕННОСТИ ПРОИЗВОДСТВА ЕГО.БНТ, 1946. https://yadi.sk/d/SI-_PqvH3RSnxQ 
                  ТЕХНИЧЕСКОЕ ОПИСАНИЕ №304: КРАТКОЕ ТЕХНИЧЕСКОЕ ОПИСАНИЕ БОМБАРДИРОВОЧНОГО ВООРУЖЕНИЯ САМОЛЕТА В-29. БНТ, 1945. Добавил снимки от LIFE. https://yadi.sk/d/dW-2OwxD3RSotv


                1. mmoustaf
                  07.10.2021 20:26
                  +1

                  А он так и назывался «вспомогательный двигатель» смотри по ссылке Мотоустановка самолёта Б-29

                  Так что употребили.

                  Там и фото есть


                  1. 027
                    07.10.2021 23:05
                    +1

                    Возможно, в НИИВВС схватились за голову, увидев какое непотребство уродило КБ: не приведи Господь, в боевой обстановке начнут тупить на ЭТО… А, может, и сами позже исправили, но эпизод фееричный, самое то для мемуаров.

                    А что такое AFM, это РЛЭ по-нашему? Я, хоть и авиационный инженер, но по наземной радиотехнике. У нас буквы более другие. :)


                    1. mmoustaf
                      08.10.2021 06:33
                      +1

                      Да. Ещё называется POH pilot operating handbook.


                    1. psynix
                      09.10.2021 03:22

                      Наше РЛЭ с их "похом" рядом не стоит. Там наглядно и уборщица разберется а у нас без пары "верхних" черт ногу сломит и такого у них книжка а у нас 21 том...


                      1. mmoustaf
                        11.10.2021 20:32

                        Смотря какие, какого года и на какой самолёт. А так да, взять тот же PHAK или любой FAA guide и сравнить с каким-нибудь Черным и Кораблиным — увы не в пользу наших изданий


        1. psynix
          09.10.2021 03:20

          РЛЭ, РО, РТО это разные документы .. .


      1. VerdOrr
        07.10.2021 16:54
        +2

        Про переводчиков с недостаточно широким кругозором существует масса историй...

        -- Ой, он говорит про какую-то лошадь

        -- Троянский конь, дура!

        (синхронисты на Нюрнбергском процессе)


      1. Aggle
        08.10.2021 05:26
        +2

        Тут тоже важно не переборщить, а то получится что-то вроде:

        "Включить дыр-дыр, два раза нажав бип. Когда будем блям - ткнуть в бим-бим, загорится плюк. Если плюк не загорелся - нажать чпок, чтобы заработал тук-тук."

        P. S.: Хотя иногда стойкое ощущения, что для ряда пользователей инструкции надо писать только так.


        1. Rsa97
          08.10.2021 15:37
          +1

          – Слухай сюда! Положь колдобину со стороны загогулины и два раза дергани за пимпочки. Опосля чего долбани плюхалкой по кувыкалке и, кады чвокнет, – отскочь дальшее, прикинься ветошью и не отсвечивай. Потому как она в энто время шмяк тудыть, сюдыть, ёксель-моксель, ёрш твою медь… Пш-ш-ш! – И ждешь пока остынет. Остыло – подымаесся, вздыхаешь. Осторожненько вздыхаешь, про себя, шобы эта быдла не рванула! И бегишь за угол за пол-литрой. Потому как пронесло!
          (С) Задорнов


          1. psynix
            09.10.2021 03:24

            Вечная память, Маихал Николаевичу! И в принципе для многих именно такая подача ясна и понятна без всяких "косинус фи".. .


        1. kspshnik
          08.10.2021 23:55

          "Положь колдобину со стороны загогулины и два раза дергани за пимпочку" ©


      1. psynix
        09.10.2021 03:19

        и совсем не смешно, сейчас все так же, в авиации точно.


      1. Lucifier
        13.10.2021 15:49

        Это классический пример армейских наставлений, по типу "нажать красную кнопку большим пальцем правой руки путем поступательного движения до характерного звука "щелк"


  1. K35
    07.10.2021 05:53

    Потребовалось дополнительное время для активации протоколов безопасности.

    Это так сегодня называется, когда какой то широкого ума индус завязал СКУД на облако, а оно отвалилось и все превратилось в тыкву )

    Santosh Janardhan

    Я не удивлен.


  1. Yser
    07.10.2021 06:00
    +7

    Нет, ну так-то я все понял... хорошо обученная команда ваших магистральных инженеров физически обработала мой запрос вокруг земного шара благодаря магистрали ваших физически оптических каналов... но вмсето того чтобы отдавать это все на изнасилование копирайтерам, я бы лучше прочитал о том какие выводы были сделаны и какие меры приняты.


  1. v1000
    07.10.2021 06:52
    +4

    Во время плановых работ по обслуживанию в целях оценки пропускной способности магистральной сети была дана команда, которая непреднамеренно отключила все соединения в магистральной сети.

    И хотя мы раньше не проводили учений, имитирующих отключение всей магистральной сети, мы будем искать способы имитировать эту ситуацию в дальнейшем.

    если банальная проверка пропускной способности сети вызвала такой глобальный сбой, даже не представляю, что может вызвать имитация самого глобального сбоя (сарказм)


    1. Revertis
      07.10.2021 12:12
      +1

      Самое главное в том, что у них есть команды, непреднамеренно что-то отключающие.


    1. kolemik
      07.10.2021 12:13

      помнится на одной украинской АЭС тоже проводились плановые работы по оценке чего-то там... ничего не меняется :)


      1. Komrus
        07.10.2021 21:44
        +1

        Ага, и как-то (годах так в конце 80х) читал 'шикарную' журналисткую формулировку про 4й энергоблок: «Была дана команда на перегрев реактора»…


      1. psynix
        09.10.2021 03:27

        "вы не понимаете, это другое".

        даже не знаю /s или нет...


  1. nomhoi
    07.10.2021 07:17

    О северо-корейских хакерах так никто и не вспомнил?


    1. lagudal
      07.10.2021 09:03

      О северо-корейских хакерах так никто и не вспомнил?

      О русских тоже.
      Ближе с следующим выборам может что-нибудь и расследуют…


  1. Nehc
    07.10.2021 08:34
    +12

    «Наши системы имеют специальную защиту от таких ошибок, но ошибка в системе защиты помешала остановить выполнение команды» — это прям вот… Классика.


    1. Nkos
      07.10.2021 12:20

      классика


      а по сути недоступность DNS порушила вообще считай всё, что было вне локалки


  1. Maks_K2
    07.10.2021 09:00
    +2

    Они нарушили главную заповедь программистов :

    • Работает НЕ трогай !!!!

    • и понесли залуженную кару

    • Все как в Чернобыле : ошибка персонала+ ошибка в защите - прибегает пушной зверёк


    1. Beo
      07.10.2021 16:04
      +2

      Заповедь устарела, это знает любой действующий программист. Если что-то не трогать достаточно долго, то года через 4 вы столкнётесь с тем, что просто чтобы всё работало как прежде, надо поменять все сертификаты, все внешние API, движок, архитектуру процессора и добавить 8 законодательно форсируемых кнопочек, иначе попадёте на штраф в 10000% вашего годового оборота в 197 странах.


    1. Dee3
      07.10.2021 22:43

      Не трогай, получишь 0-day уязвимости, просроченные сертификаты и прочие прелести. И неконкурентный продукт.

      А вы наверное еще на Windows XP сидите?


      1. psynix
        09.10.2021 03:29
        +3

        да, вы так говорите как будто это что то плохое...


  1. Devilar
    07.10.2021 09:32
    +1

    Ошибка в обработчике ошибок, как мило)) ИМХО 90% кода обрабатывающего ошибки не работает, если этот код проверялся только в голове у программиста.

    Не хватило только ошибки в протоколах безопасности, чтобы фэйл совсем эпичным вышел.


  1. ole325
    07.10.2021 09:46

    Строено, что дата центры не решили, что настала 3я мировая, и пора все форматировать, особенно на территории потенциального врага.


  1. pehat
    07.10.2021 10:47
    +12

    Меня радует, что в официальном блоге такое рассказывают снисходительным тоном «расскажу, как будто тебе 5 лет, но ты ж все равно не поймёшь», потому что технический отчёт займёт меньше страницы и явно покажет, что в фейсбуке главная ценность - «move fast and break things».


    1. cepera_ang
      07.10.2021 13:51

      Тон такой потому что это не для специалистов пост, а для журналистов и прочих обывателей, которым без пояснений будет совершенно непонятно что такое BGP, DNS, роуты, датацентры и т.д.


      1. pehat
        07.10.2021 13:58

        Для обывателей достаточно было написать "мы обосрались, потому что не привыкли тестировать". Кто знает, что такое BGP и DNS, и так поймёт, что они тут ни при чём.


        1. cepera_ang
          07.10.2021 15:03
          +4

          Мне кажется, что вы недооцениваете сложность чего-то подобного фейсбуку. Не существует компаний такого масштаба без даунтайма, а если бы их инженеры рассуждали в категориях "обосрались/не обосрались" и на самом деле бы не тестировали изменения, то подобный даунтайм был ежедневной реальностью, а он весьма редок.


          1. pehat
            07.10.2021 16:27

            Я большую часть своей карьеры работаю в компаниях подобного масштаба, и разборы полётов после таких факапов читаю на внутренних порталах. И - сюрприз, сюрприз! - в большинстве случаев проблема оказывается в том, что в каком-то отдельно взятом отделе что-то покатили в прод в обход тестинга, или тестинга нет вообще, или тестинг есть, но это совершенно кривое зеркало прода. И после этого начинаются всякие квартальные проекты под слоганом "пора бы уже вложиться в надежность, а не гнаться за премиями".

            вы недооцениваете сложность чего-то подобного фейсбуку.

            Здесь произошла ситуация, критичная для компании хоть в миллион, хоть в сотню сотрудников, хоть в "это ж стартап, в общем, я пока один работаю" - отказ SPoF. Размер компании может влиять только на общее количество некритичных факапов, потому что как раз за счет размера компания может позволить себе не класть все яйца в одну корзину и в случае выведения из строя одного компонента переключиться на резервный.


            1. cepera_ang
              07.10.2021 18:13
              +1

              что в каком-то отдельно взятом отделе что-то покатили в прод в обход тестинга, или тестинга нет вообще, или тестинг есть, но это совершенно кривое зеркало прода.

              Но в каких-то магических юникорнах конечно же есть полная копия прода под полной копией рабочей нагрузки, чтобы на ней тестировать вообще все изменения и практиковаться в нештатных ситуациях, да?


              1. pehat
                07.10.2021 20:24

                Конечно! Ведь для того, чтобы в тестах симулировать упавшую сеть или таймаут, обязательно нужно поставить датацентр на другом континенте, протянуть до него оптоволокно и каждый раз при запуске тестов рвать его ковшом специально обученного экскаватора. Не мокать же, в самом деле.


  1. Nkos
    07.10.2021 12:12
    +5

    как писал один из комментаторов в пердыдущем топе — нет ничего увлекательнее удалённой настройки маршрутизатора в другом городе, и сразу последующий аварийный вылет на место


    1. dragonnur
      08.10.2021 03:34
      +1

      «Удалённая настройка рутера — к дальней дороге» (с) народное


    1. psynix
      09.10.2021 03:37

      к дальней дороге, брат...


  1. johnfound
    07.10.2021 15:52
    +11

    Наши системы имеют специальную защиту от таких ошибок, но ошибка в системе защиты помешала остановить выполнение команды.

    Очевидно, что нужна система защиты от ошибок для системы защиты от ошибок.


  1. Mike-M
    07.10.2021 18:20
    +2

    Хотя статья написана для широкого круга читателей, она оказалась бы намного лучше, если бы автор приложил к ней кусок конфига маршрутизатора с фразой «так делать нельзя».


  1. pelepelin
    07.10.2021 21:23

    Оригинал не читал, перевод читается хорошо, беглым взглядом заметил только 2 ошибки. Почему-то отправка сообщения по Ctrl-Enter не работает.

    Одной из задач

    Одна из задач

    авторитативные

    авторитетные
    (Если верить словарю, в английском есть только слово authoritative, нет смысла в русском делать из него 2 разных)


    1. schors Автор
      07.10.2021 21:25
      +2

      Первое поправил. Нет, авторитативные. Это устоявшийся русскоязычный термин. Нет смысла вдруг вводить ещё один


      1. pelepelin
        08.10.2021 13:26
        -1

        Ну, ок. Айтишники, не знающие ни английского, ни русского, не залезли в словарь, чтобы посмотреть, что слово authoritative означает авторитетный, и завели термин-кальку авторитативный, и исправлять их, конечно, мы не будем.


        1. Vld_Sergio
          12.10.2021 10:59

          Это слово используется в контексте ДНС-серверов, в одном-единственном словосочетании, можно вместо "авторитативный" использовать "курлямблямный сервер", смысл от этого не изменится. А вот "авторитетный сервер" по русски звучит как раз криво - а насколько авторитетный? А Миколу Питерского знает?


  1. RedricShuhart
    08.10.2021 00:22
    +1

    оптических кабелей, пронизывающих земной шар

    Лучше всё-таки "опоясывающих". А то какое-то путешествие к центру Земли мерещится.


  1. gred
    08.10.2021 00:47
    +2

    собственно хотелось бы нормальный постмортем, а не эту сказочку, типа журналист изнасиловал инженера ))


  1. Dime_n_u
    08.10.2021 08:31

    Не понял. Как можно положить почти случайно такую сеть?.. я вот учусь на девопс, так уже через пол года начал понимать, что всё надо проверять, иногда даже элементарный upgrade пакетов


  1. dewil
    08.10.2021 16:39

    Вобще конечно забавно, когда строят такие проверки (на свой ДЦ) и потом это лавинообразная ситуация, при которой все само себя отключает.


  1. lanvin07
    08.10.2021 17:48

    "ошибка в системе защиты помешала остановить выполнение команды"; "инструменты по исследованию аварийных ситуаций, полностью зависели от DNS"

    "К счастью, мы были хорошо подготовлены к подобным ситуациям"

    Серьёзно?


    1. Nickmd
      13.10.2021 14:39

      Значит, в Плане Восстановления Деятельности не рассматривали подобный сценарий, просто "в голову не пришло!".

      Сейчас внесут )