Из графиков пингов видно, что наиболее пострадала BGP-система в Океании, что проявлялось для пользователей Сети в таймаутах пакетов и ошибками соединений с сервисами, что естественно привело к масштабной потере данных. Это было вызвано большим увеличением времени прохождения данных из-за того, что некоторые маршрутизаторы из-за переполнения таблиц стали недоступны.
Вот, например, трассировка из Сиднея, которая показывает значительную потерю пакетов на маршрутизаторах провайдера Global Crossing на 7 хопе.
1 2 ms 1 ms 1 ms xxx.xxx.xxx.xxx
2 * * * Timed Out
3 1 ms <1 ms <1 ms lag30.sglebinte01.aapt.net.au[202.10.14.196]
4 1 ms 1 ms 2 ms po41.sglebbrdr11.aapt.net.au[202.10.14.198]
5 <1 ms <1 ms <1 ms 203-219-106-153.tpgi.com.au[203.219.106.153]
6 2 ms 3 ms 3 ms syd-gls-har-int2-be-20.tpgi.com.au[203.29.129.196]
7 272 ms 316 ms 272 ms globalcrossing1-10g.hkix.net[123.255.91.212]
8 * * * Timed Out
9 * * * Timed Out
10 * * * Timed Out
Как отмечалось ранее, в то же время Европа испытывала куда больше проблем с DNS, как видно из этого трека из Франкфурта. Тут тоже потеря пакетов привела к увеличению времени DNS-трансляций.
Кроме того, в странах СНГ были зафиксированы сбои Lawful Intercept систем, установленных на ABR. Кое-где это привело к тому, что сайты работали только через https.
Отвлекаясь от деталей произошедшего, глобальная проблема, возникнувшая в пятницу показывает громадный потенциал «Эффекта бабочки» в воздействии на глобальные сети. Относительно лёгкий «взмах крыльев» у провайдера в Малайзии вызвал цепную реакцию, которая повлекла за собой проблемы у других операторов, глобальные потери пакетов на другой части Земли. Это также показывает, что несмотря на все меры предосторожностей, которые принимают сетевые администраторы, иногда работа наших сайтов находится полностью вне нашей компетенции.
Даже несмотря на то, что специалисты Level 3 Communications, с которой Telecom Malasia имела главную связность, оперативно изолировали и оповестили провайдера о проблемах, угон привёл к таким масштабным последствиям.
Компания, виновная в случившемся, уже опубликовала официальные комментарии.
Комментарии (18)
Levor
15.06.2015 14:49+7Да, это был эпик вин. Судя по всему, там небыло никакого «угона префиксов» (да и даже если бы кто-то заанонсил префиксы ТМ — сломался бы роутинг только к сетям ТМ), а просто ТМ заанонсили пирам часть FV, а Level3 это не отфильтровали. В результате сломалось много чего и много где, в мейлерах nanog начался неслабый флейм в сторону L3. Некоторые писали, что у них фильтры уже почти год не работали, то есть потенциально ошибка любого клиента могла привести к подобному.
P.S. Happy Friday! https://twitter.com/TMCorp/status/609167065300271104
kefirfromperm
15.06.2015 15:17+3Может кто-нибудь русским языком объяснить, что произошло?
mva
15.06.2015 15:25+2тов. Levor, вон, описал чуть выше:
от имени Telecom Malaysia был анонс маршрутов, которые через них идти не должны. Такое должно было отсекаться магистральным пиром Level3, но этого не было. Как не защитилась и ощутимая часть других провайдеров описанных в топике. Позже, Level3 среагировал и отфильтровал (и, наверное, занульроутил), но было уже поздно. В итоге, у всех, кто получил соответствующие анонсы и оставил всё на откуп автоматике (т.е. не занимается ручным мониторингом таблиц) с трафиком начала происходить чехарда.
Как-то так…Levor
15.06.2015 16:07+5В целом верно, но не совсем так. ТМ проанонсировали аплинкам часть FV — это элементарная ошибка, которую легко допустить. L3 не должны были принимать анонсы сетей, не принадлежащих ТМ и их клиентам (получить список сетей можно из RIR DB, большинство провайдеров используют такие фильтры). В крайнем случае, должно стоять ограничение на максимальное количество получаемых префиксов, но не было даже этого.
Далее, поскольку ТМ — клиент L3, префиксы получаемые от ТМ имели у L3 больший приоритет, нежели префиксы, получаемые от пирингов с другими Tier1. Это естественно, т.к. оператор хочет посылать трафик к сетям клиента через непосредственный пиринг, за который клиент платит, а не через конкурентов.
Нижестоящие операторы, имеющие аплинка L3, отфильтровать ничего не могли, т.к. они как получали FV, так и продолжали его получать, только уже внутри сети L3 трафик терялся. Не пострадали (или пострадали незначительно) другие Tier1 и их клиенты (не имеющие пиринга с L3).
По поводу фикса — точно не скажу, но вроде-бы так никто ничего и не зафильтровал, просто в ТМ заметили, что что-то пошло не так и пофиксили проблему.rdntw
15.06.2015 16:24Странно что такой оператор как L3 так косячит
MetallicAt
15.06.2015 17:07+3Если вы с ними лично работали когда-нибудь, то это для вас совсем не должно быть сюрпризом.
RicoX
15.06.2015 16:58+9Исправьте пожалуйста желтушный заголовок, что такое угон префиксов в понимании топикстартера? Была элементарная ошибка администратора маршрутизатора со стороны ТМ, которую очень легко допустить по недосыпу, перепутав IN и OUT анонсы, она бы и закончилась на уровне ТМ, но вышестоящий провайдер положил хрен на безопасность своей автономной системы и разрешил анонсить от своих пиров что угодно в любом количестве, что и вызвало сетевую аномалию. В своей работе неоднократно сталкивался с ситуацией когда через Level3 пролезала любая срань, включая фейковые АСки, причем список тех-же фильтров можно легко получать чуть-ли не в автоматическом режиме той же
ну строчишь потом письма в Level3 и методично пытаешься выйти с уровня «Ваш звонок очень важен для нас» на уровень админов, обычно благодарят и закрывают. Не понятна в чем новость, ну совпало что ASки и со стороны ТМ и со стороны L3 админят не совсем компетентные спецы, бывает. Заголовок о том, что пара администраторов AS криво настроила пирринг, что вызвало сетевую аномалию по всему миру уж очень кричащий, сам протокол BGP достаточно нежная субстанция и не предполагает раздолбайства.bgpq3 -J -E AS-%ИМЯ%
EminH
15.06.2015 23:39Проясните пожалуйста, правильно ли я понял что у L3 не был настроен bcp38 ( en.m.wikipedia.org/wiki/BCP38 ) ??
rdntw
18.06.2015 16:07Это про uRPF чтоли?
Или про синхронизацию с RIPE DB и формирование prefix-list на основании этого? :)
Mithgol
Что такое угон префиксов?
crypby Автор
Умышленное изменение таблиц маршрутизации. AS (автономная система — система сетей и маршрутизаторов) принадлежащая какому-либо провайдеру подвергается атаке, злоумышленник заставляет систему анонсировать или несуществующие, или чужие сети. Суть в том, чтобы или заставить захваченную автономку перенаправлять трафик по нужному злоумышленнику маршруту, чтобы где-нибудь его проанализировать, или закрутить маршрутизацию так, чтобы терялись данные, что и случилось в конкретном случае.
Очень толковые комментарии хаброжителей ниже, не буду повторяться.