(Прим. перев. Переводчик не считает уместным использовать традиционное название «информационно-телекоммуникационная сеть Интернет» не то что в разговорной речи, а даже в деловой переписке и официальных документах. Переводчик счел возможным использовать слово «интернет» как склоняемое существительное мужского рода, отойдя от спорной традиции считать это именем собственным, идущей от отписки Правительства одному известному российскому блогеру почти 20 лет назад)
Сейчас, когда наши платформы работают в обычном режиме после вчерашнего сбоя, я подумал, что стоит рассказать немного подробнее о том, что произошло и почему. И, что наиболее важно, какие уроки мы извлекли из этого.
Этот сбой был вызван системой, которая управляет пропускной способностью нашей глобальной магистральной сети. Магистральная сеть — это сеть Facebook, соединяющая все вычислительные мощности Facebook вместе. Она состоит из десятков тысяч километров оптических кабелей, пронизывающих земной шар, и соединяющих все наши датацентры.
Эти датацентры бывают совершенно разными. Некоторые из них представляют собой массивные здания, в которых размещаются миллионы машин, которые хранят данные и выполняют тяжелые вычислительные задачи, поддерживающие работу наших платформ. Другие, менее мощные датацентры, соединяют нашу магистральную сеть с интернетом и пользователями наших платформ.
Когда вы запускаете одно из наших приложений, и открываете вашу ленту, или сообщения, запрос данных приложения отправляется на ближайший узел, откуда передаётся напрямую по магистральной сети в один из крупных датацентров. Здесь информация, необходимая вашему приложению, извлекается, обрабатывается и отправляется обратно по сети на ваш телефон.
Поток данных между всеми этими вычислительными устройствами управляется маршрутизаторами, которые определяют, куда отправятся те или иные данные. В ходе повседневной эксплуатации нашим инженерам регулярно требуется отключать части магистральной сети для обслуживания — например, для ремонта оптического кабеля, увеличения пропускной способности или обновления программного обеспечения маршрутизатора.
Это и стало причиной вчерашнего сбоя. Во время плановых работ по обслуживанию в целях оценки пропускной способности магистральной сети была дана команда, которая непреднамеренно отключила все соединения в магистральной сети. Таким образом были отключены все наши датацентры по всему миру. Наши системы имеют специальную защиту от таких ошибок, но ошибка в системе защиты помешала остановить выполнение команды.
Итак, наши датацентры были полностью отключены от интернета и друг друга. И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию.
Одной из задач наших небольших датацентров является обрабатывать запросы DNS. DNS - это адресная книга в интернете, позволяющая преобразовывать простые имена сайтов, которые мы вводим в браузеры, в определенные IP-адреса серверов. (Прим.перев. Далее автор вдался в сложные технические детали, которые он упростил спорным образом. Переводчик взял на себя смелость исказить оригинальный текст автора, дополнив его своими объяснениями). Превращением простых, касающихся наших платформ, имен в IP-адреса занимаются наши собственные, так называемые авторитативные, DNS-сервера. Крупные DNS-сервера, обслуживающие миллиарды запросов по всему миру, каковыми являются конечно же и DNS-сервера Facebook, обычно раскиданы по всему миру, но имеют одно и тоже множество IP-адресов, где бы они не находились. Провайдеры отправляют запросы к ближайшему серверу. Распространение информации о нахождении IP-адресов осуществляется между провайдерами, а иногда и внутри одного провайдера, по специальному протоколу — BGP.
Чтобы избежать задержек при попытках запросов к неработающим DNS-серверам, наши серверы проверяют свою доступность и отключают анонсирование своих IP-адресов по BGP, если обнаруживают, что доступность плохая. Критерием доступности для нашего DNS-сервера является доступность наших датацентров с DNS-сервера (прим. перев. скорее всего это связано с невероятным вовлечением DNS во внутренние инструменты компании, о чем говорится чуть ниже по тексту). В результате недавнего сбоя, вся наша магистральная сеть оказалась недоступной. Наши DNS-серверы предсказуемо посчитали это причиной прекратить анонсы BGP и «пропасть с радаров» (Прим.перев. Здесь я заканчиваю вносить Божью Искру в текст автора). В итоге, DNS-сервера функционировали, но не были доступны. Это сделало невозможным поиск наших серверов в интернете.
Это всё произошло очень быстро. И пока наши инженеры работали над выяснением того, что происходит и почему, они столкнулись с двумя большими препятствиями. Во-первых, невозможно было получить доступ к нашим датацентрам, потому что магистральная сеть вышла из строя. Во-вторых, произошла полная потеря DNS. Многие наши инструменты, в том числе и инструменты по исследованию аварийных ситуаций, полностью зависели от DNS.
Наш основной и запасной доступы во внутреннюю сеть не работали, поэтому мы отправили инженеров физически в датацентры, чтобы они выяснили проблему и перезапустили систему. На это потребовалось время, потому что наши объекты спроектированы с учетом высокого уровня физической и системной безопасности. В них сложно попасть физически, а как только вы окажетесь внутри, будет сложно получить доступ внутрь систем, даже если у вас есть физический доступ к оборудованию. Потребовалось дополнительное время для активации протоколов безопасности. И только после этого мы смогли подтвердить проблему и подключить нашу магистральную сеть.
К счастью, мы были хорошо подготовлены к подобным ситуациям, благодаря «штормовым» учениям, которые мы проводим уже долгое время. Во время учений мы имитируем серьёзный сбой, отключая сервис, датацентр или даже целый регион, и проводим стресс-тестирование задействованной инфраструктуры и программного обеспечения. Учения дали нам навыки, чтобы вернуть работоспособность наших платформ и осторожно управлять нарастающей нагрузкой. В итоге, наши сервисы восстановились достаточно быстро без каких-либо глобальных сбоев. И хотя мы раньше не проводили учений, имитирующих отключение всей магистральной сети, мы будем искать способы имитировать эту ситуацию в дальнейшем.
Каждый крупный сбой, подобный этому — это возможность учиться и стать лучше. И нам есть чему поучиться здесь. После каждого сбоя, большого или маленького, мы проводим исследование, чтобы понять, как сделать наши системы более устойчивыми. Этот процесс уже идет.
Мы проделали огромную работу для предотвращения несанкционированного доступа к нашим системам. Было интересно наблюдать, как это замедлило нас во время восстановления после сбоя, вызванного не злонамеренными действиями, а нашей собственной ошибкой. Я считаю, что подобный компромисс того стоит — повышенная повседневная безопасность, приведшая к медленному восстановлению после, надеюсь, редкого сбоя, подобного этому. С этого момента наша задача — усилить тестирование, учения и общую устойчивость, чтобы подобные события происходили как можно реже.
Комментарии (86)
cranium256
07.10.2021 03:41+30Всё-то у них прекрасно: и надёжность, и безопасность, и учения проводятся строго по графику, и их сеть опутывает весь мир, и датацентры классные, и общая устойчивость на высоте. Но как, Карл, как один непреднамеренно залетевший дятел положил всю эту красоту?
MrNone
07.10.2021 08:27+1Ну, в оправдание можно сказать, что дятел и сам не смог вылететь и оказался похоронен под обломками ????????????
ole325
07.10.2021 09:42+3когда тестирование организовано путем постепенного увеличения охвата аудитории для нового функционала, это все прекрасно работает, пока не появляются вещи которые работают по принципу вкл/выкл, они же написали защита от такой команды есть, но как проверяли эту защиту, прогер посмотрел, на его команды работает, а тестировщик? .... ой их же у нас нет :)
xSVPx
08.10.2021 21:35Такие вещи, обычно, нельзя протестировать синтетически. Т.е. вряд ли выб обрадовались если бы фб каждый день на 2-3часа ложился ради подобного рода тестов. Вот вчера фактически и протестировали, теперь исправят.
Это все все равно даёт исторический аптайм сильно больше 99.9%, что для подобного сервиса вполне нормально. 99.9% это грубо говоря день простоя раз в три года....
psynix
09.10.2021 03:16в таких системах надежность таки измеряется в десяти- ста- тысячных долях... ну концепция девяток три 9 четыре 9 пять девяток ...
YakovlevAndrey
07.10.2021 11:24Сколько они после обучения лежали? 6 часов?
Даже не представляю, какой бы был даунтайм без учений.
Melanxolik
07.10.2021 20:12Зато он теперь красиво может обновить свое резюме, у нас уже было что-то с DB, у меня выскочила эта история из головы.
027
07.10.2021 03:59+4> «информационно-телекоммуникационная сеть Интернет»
Согласен с автором. Жуткое бюрократическое ублюдство.vis_inet
07.10.2021 05:27+2"Другого интернета у меня для вас нет" (с)
027
07.10.2021 05:41+5Па-пра-шу соблюдать предначертанный свыше порядок! «Другой информационно-телекоммуникационной сети «Интернет» у меня для вас нет!».
В некоторых образцах бюрократического словоблудия встречал оптимизацию бредогенератора: один раз выхлоп идет полностью, и примечание: далее сеть «Интернет».
Ну хоть так.Ashmanov
12.10.2021 14:20Тем не менее, Интернет - имя собственное и пишется с прописной, как и Рунет.
Оно может в ближайшие годы преобразоваться в подобие термина "телефон", но только в одном из значений (транспорта, доступа в сеть). Пока, по-моему, регулятор не разрешает всё ещё.
027
07.10.2021 06:02+8Из книжки Леонида Кербера, конструктора из команды Туполева.
А вот уж, кажется, совершеннейшие пустяки, 'глупости', но и они тормозили дело. К самолету была приложена куча описаний и инструкций, их следовало перевести. Своих знатоков английского у нас не хватало, пригласили переводчиков со стороны, но те, хорошо владея языком, оказались незнакомыми с авиационной и вообще технической терминологией. Вечерами садимся за редактуру и делаем открытие. Оказалось, американцы, авторы инструкций, ставили себе целью донести свои знания до читателей лаконично и наглядно, наши же канцелярские обычаи легли здесь бревнами поперек дороги. Читаем, например, в инструкции: 'Запустить пут-пут'. Что это такое, 'пут-пут'? Перерываем словари, энциклопедии, но ответа нет. И только в Казани, когда стали готовить к полету первую машину, все выяснилось. Запустили аварийный движок, а он и затарахтел: пут, пут, пут, пут… Так вот это что было в инструкции — это было просто подражание звуку выхлопа движка. Нет, такого мы позволить не могли, и короткое 'пут-пут' превратилось у нас в: 'Для этой цели следует запустить вышеупомянутый агрегат, состоящий из двухцилиндрового, двухтактного бензинового движка воздушного охлаждения, приводящего в движение 4-полюсный генератор постоянного тока с компаундным возбуждением, служащий для питания электросети самолета при неработающих двигателях'!
kinall
07.10.2021 08:16+7Справедливости ради: в первом случае (с пут-путом) получилось чистой воды руководство пользователя - когда неважно, что там внутри, а важно, какие кнопки в каких случаях нажимать - а в втором уже полная спецификация устройства, по которой можно его если не воспроизвести полностью, то уж починить точно. По-хорошему это должны быть два разных документа. И если у одного цель, действительно, лаконично и наглядно донести чёткие и ясные инструкции, то у другого - дать как можно более полную и точную информацию.
Кстати, канцелярит тут ни при чём - этот самый "пут-пут" по описанию очень похож на обычную ВСУ, так что фразу из первоисточника можно было бы перевести как "запустить ВСУ". А вот что такое ВСУ, как работает и из чего состоит - вопрос следующий.
mmoustaf
07.10.2021 12:12+1Это и есть ВСУ. Вот цитата из AFM-ки которую Кербер переводил
The putt-putt drives a 28-volt 200-ampere generator. However, it cannot be used at altitudes greater than 10,000 feet. This, plus the battery, provides an additional source of power for ground operations and emergencies and as a safety precaution during landings and take-offs, but should not be considered a normal source of power during flight.
027
07.10.2021 18:26+2Кстати, канцелярит тут ни при чём — этот самый «пут-пут» по описанию очень похож на обычную ВСУ, так что фразу из первоисточника можно было бы перевести как «запустить ВСУ».
Имхо, термин «вспомогательная силовая установка» в те времена еще не был придуман. Да и сами будущие ВСУ были, скорее, экзотикой. Это сейчас они понатыканы на каждом втором ероплане, не считая каждого первого. Даже в АОН, наверное, есть, на птичках потолще.
Интересно, как бы те американцы назвали ВСУшку Як-40. «Пу-у-у!»? :)mmoustaf
07.10.2021 19:57+1У американцев был, в той же афмке встречается APU. Просто путт-путт это название вполне конкретного 15-сильного движка.
027
07.10.2021 20:00Тогда почему ведущие специалисты по авиационному оборудованию — одни из лучших в стране — не употребили термин ВСУ?
Могу лишь предположить, что для большинства летчиков того времени эта штука была неведомой экзотикой. Во всяком случае для тех, кто впервые имел дело с тяжелыми самолетами.mmoustaf
07.10.2021 20:16+1А я не уверен что не перевели. Мемуары штука такая.
У меня под рукой есть документация на Б-29 созданная в нии ввс в 1944 и 1945
Сейчас посмотрю как там называется этот двигатель
mmoustaf
07.10.2021 20:19+2А вообще чего я жмусь
Ловите
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №267: ЛЕТНО-ТЕХНИЧЕСКИЕ И АЭРОДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ САМОЛЕТА БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/Z-zBe-gh3RSkQG
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №276: УПРАВЛЕНИЕ МОТОРАМИ НА САМОЛЕТЕ БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/UTfY3Xc63RSkvP
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №288: ТРЕХКОЛЕСНОЕ ШАССИ САМОЛЕТА БОИНГ В-29. БНТ, 1945. https://yadi.sk/d/y-kL9fNz3RSmUn
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №295: МОТОУСТАНОВКА САМОЛЕТА В-29. БНТ, 1945. https://yadi.sk/d/60qqmKnz3RSmvP
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №303: КОНСТРУКЦИЯ ПЛАНЕРА САМОЛЕТА БОИНГ В-29 И НЕКОТОРЫЕ ТЕХНОЛОГИЧЕСКИЕ ОСОБЕННОСТИ ПРОИЗВОДСТВА ЕГО.БНТ, 1946. https://yadi.sk/d/SI-_PqvH3RSnxQ
ТЕХНИЧЕСКОЕ ОПИСАНИЕ №304: КРАТКОЕ ТЕХНИЧЕСКОЕ ОПИСАНИЕ БОМБАРДИРОВОЧНОГО ВООРУЖЕНИЯ САМОЛЕТА В-29. БНТ, 1945. Добавил снимки от LIFE. https://yadi.sk/d/dW-2OwxD3RSotv
mmoustaf
07.10.2021 20:26+1А он так и назывался «вспомогательный двигатель» смотри по ссылке Мотоустановка самолёта Б-29
Так что употребили.
Там и фото есть
027
07.10.2021 23:05+1Возможно, в НИИВВС схватились за голову, увидев какое непотребство уродило КБ: не приведи Господь, в боевой обстановке начнут тупить на ЭТО… А, может, и сами позже исправили, но эпизод фееричный, самое то для мемуаров.
А что такое AFM, это РЛЭ по-нашему? Я, хоть и авиационный инженер, но по наземной радиотехнике. У нас буквы более другие. :)psynix
09.10.2021 03:22Наше РЛЭ с их "похом" рядом не стоит. Там наглядно и уборщица разберется а у нас без пары "верхних" черт ногу сломит и такого у них книжка а у нас 21 том...
mmoustaf
11.10.2021 20:32Смотря какие, какого года и на какой самолёт. А так да, взять тот же PHAK или любой FAA guide и сравнить с каким-нибудь Черным и Кораблиным — увы не в пользу наших изданий
VerdOrr
07.10.2021 16:54+2Про переводчиков с недостаточно широким кругозором существует масса историй...
-- Ой, он говорит про какую-то лошадь
-- Троянский конь, дура!
(синхронисты на Нюрнбергском процессе)
Aggle
08.10.2021 05:26+2Тут тоже важно не переборщить, а то получится что-то вроде:
"Включить дыр-дыр, два раза нажав бип. Когда будем блям - ткнуть в бим-бим, загорится плюк. Если плюк не загорелся - нажать чпок, чтобы заработал тук-тук."
P. S.: Хотя иногда стойкое ощущения, что для ряда пользователей инструкции надо писать только так.
Rsa97
08.10.2021 15:37+1– Слухай сюда! Положь колдобину со стороны загогулины и два раза дергани за пимпочки. Опосля чего долбани плюхалкой по кувыкалке и, кады чвокнет, – отскочь дальшее, прикинься ветошью и не отсвечивай. Потому как она в энто время шмяк тудыть, сюдыть, ёксель-моксель, ёрш твою медь… Пш-ш-ш! – И ждешь пока остынет. Остыло – подымаесся, вздыхаешь. Осторожненько вздыхаешь, про себя, шобы эта быдла не рванула! И бегишь за угол за пол-литрой. Потому как пронесло!
(С) Задорновpsynix
09.10.2021 03:24Вечная память, Маихал Николаевичу! И в принципе для многих именно такая подача ясна и понятна без всяких "косинус фи".. .
Lucifier
13.10.2021 15:49Это классический пример армейских наставлений, по типу "нажать красную кнопку большим пальцем правой руки путем поступательного движения до характерного звука "щелк"
K35
07.10.2021 05:53Потребовалось дополнительное время для активации протоколов безопасности.
Это так сегодня называется, когда какой то широкого ума индус завязал СКУД на облако, а оно отвалилось и все превратилось в тыкву )
Santosh Janardhan
Я не удивлен.
Yser
07.10.2021 06:00+7Нет, ну так-то я все понял... хорошо обученная команда ваших магистральных инженеров физически обработала мой запрос вокруг земного шара благодаря магистрали ваших физически оптических каналов... но вмсето того чтобы отдавать это все на изнасилование копирайтерам, я бы лучше прочитал о том какие выводы были сделаны и какие меры приняты.
v1000
07.10.2021 06:52+4Во время плановых работ по обслуживанию в целях оценки пропускной способности магистральной сети была дана команда, которая непреднамеренно отключила все соединения в магистральной сети.
И хотя мы раньше не проводили учений, имитирующих отключение всей магистральной сети, мы будем искать способы имитировать эту ситуацию в дальнейшем.
если банальная проверка пропускной способности сети вызвала такой глобальный сбой, даже не представляю, что может вызвать имитация самого глобального сбоя (сарказм)
Revertis
07.10.2021 12:12+1Самое главное в том, что у них есть команды, непреднамеренно что-то отключающие.
kolemik
07.10.2021 12:13помнится на одной украинской АЭС тоже проводились плановые работы по оценке чего-то там... ничего не меняется :)
Komrus
07.10.2021 21:44+1Ага, и как-то (годах так в конце 80х) читал 'шикарную' журналисткую формулировку про 4й энергоблок: «Была дана команда на перегрев реактора»…
Maks_K2
07.10.2021 09:00+2Они нарушили главную заповедь программистов :
Работает НЕ трогай !!!!
и понесли залуженную кару
Все как в Чернобыле : ошибка персонала+ ошибка в защите - прибегает пушной зверёк
Beo
07.10.2021 16:04+2Заповедь устарела, это знает любой действующий программист. Если что-то не трогать достаточно долго, то года через 4 вы столкнётесь с тем, что просто чтобы всё работало как прежде, надо поменять все сертификаты, все внешние API, движок, архитектуру процессора и добавить 8 законодательно форсируемых кнопочек, иначе попадёте на штраф в 10000% вашего годового оборота в 197 странах.
Devilar
07.10.2021 09:32+1Ошибка в обработчике ошибок, как мило)) ИМХО 90% кода обрабатывающего ошибки не работает, если этот код проверялся только в голове у программиста.
Не хватило только ошибки в протоколах безопасности, чтобы фэйл совсем эпичным вышел.
ole325
07.10.2021 09:46Строено, что дата центры не решили, что настала 3я мировая, и пора все форматировать, особенно на территории потенциального врага.
pehat
07.10.2021 10:47+12Меня радует, что в официальном блоге такое рассказывают снисходительным тоном «расскажу, как будто тебе 5 лет, но ты ж все равно не поймёшь», потому что технический отчёт займёт меньше страницы и явно покажет, что в фейсбуке главная ценность - «move fast and break things».
cepera_ang
07.10.2021 13:51Тон такой потому что это не для специалистов пост, а для журналистов и прочих обывателей, которым без пояснений будет совершенно непонятно что такое BGP, DNS, роуты, датацентры и т.д.
pehat
07.10.2021 13:58Для обывателей достаточно было написать "мы обосрались, потому что не привыкли тестировать". Кто знает, что такое BGP и DNS, и так поймёт, что они тут ни при чём.
cepera_ang
07.10.2021 15:03+4Мне кажется, что вы недооцениваете сложность чего-то подобного фейсбуку. Не существует компаний такого масштаба без даунтайма, а если бы их инженеры рассуждали в категориях "обосрались/не обосрались" и на самом деле бы не тестировали изменения, то подобный даунтайм был ежедневной реальностью, а он весьма редок.
pehat
07.10.2021 16:27Я большую часть своей карьеры работаю в компаниях подобного масштаба, и разборы полётов после таких факапов читаю на внутренних порталах. И - сюрприз, сюрприз! - в большинстве случаев проблема оказывается в том, что в каком-то отдельно взятом отделе что-то покатили в прод в обход тестинга, или тестинга нет вообще, или тестинг есть, но это совершенно кривое зеркало прода. И после этого начинаются всякие квартальные проекты под слоганом "пора бы уже вложиться в надежность, а не гнаться за премиями".
вы недооцениваете сложность чего-то подобного фейсбуку.
Здесь произошла ситуация, критичная для компании хоть в миллион, хоть в сотню сотрудников, хоть в "это ж стартап, в общем, я пока один работаю" - отказ SPoF. Размер компании может влиять только на общее количество некритичных факапов, потому что как раз за счет размера компания может позволить себе не класть все яйца в одну корзину и в случае выведения из строя одного компонента переключиться на резервный.
cepera_ang
07.10.2021 18:13+1что в каком-то отдельно взятом отделе что-то покатили в прод в обход тестинга, или тестинга нет вообще, или тестинг есть, но это совершенно кривое зеркало прода.
Но в каких-то магических юникорнах конечно же есть полная копия прода под полной копией рабочей нагрузки, чтобы на ней тестировать вообще все изменения и практиковаться в нештатных ситуациях, да?
pehat
07.10.2021 20:24Конечно! Ведь для того, чтобы в тестах симулировать упавшую сеть или таймаут, обязательно нужно поставить датацентр на другом континенте, протянуть до него оптоволокно и каждый раз при запуске тестов рвать его ковшом специально обученного экскаватора. Не мокать же, в самом деле.
Nkos
07.10.2021 12:12+5как писал один из комментаторов в пердыдущем топе — нет ничего увлекательнее удалённой настройки маршрутизатора в другом городе, и сразу последующий аварийный вылет на место
johnfound
07.10.2021 15:52+11Наши системы имеют специальную защиту от таких ошибок, но ошибка в системе защиты помешала остановить выполнение команды.
Очевидно, что нужна система защиты от ошибок для системы защиты от ошибок.
Mike-M
07.10.2021 18:20+2Хотя статья написана для широкого круга читателей, она оказалась бы намного лучше, если бы автор приложил к ней кусок конфига маршрутизатора с фразой «так делать нельзя».
pelepelin
07.10.2021 21:23Оригинал не читал, перевод читается хорошо, беглым взглядом заметил только 2 ошибки. Почему-то отправка сообщения по Ctrl-Enter не работает.
Одной из задач
Одна из задач
авторитативные
авторитетные
(Если верить словарю, в английском есть только слово authoritative, нет смысла в русском делать из него 2 разных)schors Автор
07.10.2021 21:25+2Первое поправил. Нет, авторитативные. Это устоявшийся русскоязычный термин. Нет смысла вдруг вводить ещё один
pelepelin
08.10.2021 13:26-1Ну, ок. Айтишники, не знающие ни английского, ни русского, не залезли в словарь, чтобы посмотреть, что слово authoritative означает авторитетный, и завели термин-кальку авторитативный, и исправлять их, конечно, мы не будем.
Vld_Sergio
12.10.2021 10:59Это слово используется в контексте ДНС-серверов, в одном-единственном словосочетании, можно вместо "авторитативный" использовать "курлямблямный сервер", смысл от этого не изменится. А вот "авторитетный сервер" по русски звучит как раз криво - а насколько авторитетный? А Миколу Питерского знает?
RedricShuhart
08.10.2021 00:22+1оптических кабелей, пронизывающих земной шар
Лучше всё-таки "опоясывающих". А то какое-то путешествие к центру Земли мерещится.
gred
08.10.2021 00:47+2собственно хотелось бы нормальный постмортем, а не эту сказочку, типа журналист изнасиловал инженера ))
Dime_n_u
08.10.2021 08:31Не понял. Как можно положить почти случайно такую сеть?.. я вот учусь на девопс, так уже через пол года начал понимать, что всё надо проверять, иногда даже элементарный upgrade пакетов
dewil
08.10.2021 16:39Вобще конечно забавно, когда строят такие проверки (на свой ДЦ) и потом это лавинообразная ситуация, при которой все само себя отключает.
lanvin07
08.10.2021 17:48"ошибка в системе защиты помешала остановить выполнение команды"; "инструменты по исследованию аварийных ситуаций, полностью зависели от DNS"
"К счастью, мы были хорошо подготовлены к подобным ситуациям"
Серьёзно?
Nickmd
13.10.2021 14:39Значит, в Плане Восстановления Деятельности не рассматривали подобный сценарий, просто "в голову не пришло!".
Сейчас внесут )
AntoniiTemny
Большое спасибо за перевод.
Очень неловко писать всякие мелкие придирки по грамматике, поэтому заранее извиняюсь, пара пожеланий по согласованию в пятом абзаце перевода:
"В ходе
повседневного/повседневной эксплуатации, нашим инженерам регулярно требуется отключать части магистральной сети для обслуживания — например, для ремонта оптического кабеля,увеличение/увеличения пропускной способности или обновления программного обеспечения маршрутизатора."schors Автор
Да почему неловко? Норм. Спасибо
Nehc
Только обычно такое пишут в личку.
ProRunner
Я даже больше скажу - тут работает выделение текста и Ctrl-Enter для быстрой отправки сообщений об опечатках
AntoniiTemny
Буду знать, спасибо
raamid
А я попытался как-то написать в личку и мне такую капчу выкатили, что я ее так и не прошел, в итоге написал общее сообщение. Не знаю как сейчас дела обстоят, давно в личку не писал.
schors Автор
Не вижу проблемы ни в каком виде репорта. Сюда так сюда
Ashmanov
"где бы они не находились" - > ни.
Но вообще, в любом случае "переводчик" сначала перевёл Гуглом, а потом выгладил - рудиментные артефакты МП видны. В принципе, здесь выглаживание достойное, сейчас такое нельзя получить даже у профессиональных переводческих контор, которые все переводят Гуглом или Яндексом, даже если врут, что перевод у них человеческий.
AntoniiTemny
Учту на будущее, спасибо
KGeist
>"В ходе
повседневного/повседневной эксплуатации, нашим инженерамТут ещё калькирование запятой. В английском она нужна, в русском -- нет.