Утром в прошлую пятницу (12 июня), начиная с 8:40 по UTC (4:40 по EDT) был совершён угон префиксов у магистрального провайдера «Телеком Малайзия», что повлияло на работу маршрутизаторов в Глобальной Сети на 4 континентах. Проблемы наблюдались в течение двух часов, и затронули главным образом на провайдеров в Океании, а также Европе, Азии и Северной Америке.

Из графиков пингов видно, что наиболее пострадала BGP-система в Океании, что проявлялось для пользователей Сети в таймаутах пакетов и ошибками соединений с сервисами, что естественно привело к масштабной потере данных. Это было вызвано большим увеличением времени прохождения данных из-за того, что некоторые маршрутизаторы из-за переполнения таблиц стали недоступны.



Вот, например, трассировка из Сиднея, которая показывает значительную потерю пакетов на маршрутизаторах провайдера Global Crossing на 7 хопе.

1 2 ms 1 ms 1 ms xxx.xxx.xxx.xxx
2 * * * Timed Out
3 1 ms <1 ms <1 ms lag30.sglebinte01.aapt.net.au[202.10.14.196]
4 1 ms 1 ms 2 ms po41.sglebbrdr11.aapt.net.au[202.10.14.198]
5 <1 ms <1 ms <1 ms 203-219-106-153.tpgi.com.au[203.219.106.153]
6 2 ms 3 ms 3 ms syd-gls-har-int2-be-20.tpgi.com.au[203.29.129.196]
7 272 ms 316 ms 272 ms globalcrossing1-10g.hkix.net[123.255.91.212]
8 * * * Timed Out
9 * * * Timed Out
10 * * * Timed Out


Как отмечалось ранее, в то же время Европа испытывала куда больше проблем с DNS, как видно из этого трека из Франкфурта. Тут тоже потеря пакетов привела к увеличению времени DNS-трансляций.



Кроме того, в странах СНГ были зафиксированы сбои Lawful Intercept систем, установленных на ABR. Кое-где это привело к тому, что сайты работали только через https.

Отвлекаясь от деталей произошедшего, глобальная проблема, возникнувшая в пятницу показывает громадный потенциал «Эффекта бабочки» в воздействии на глобальные сети. Относительно лёгкий «взмах крыльев» у провайдера в Малайзии вызвал цепную реакцию, которая повлекла за собой проблемы у других операторов, глобальные потери пакетов на другой части Земли. Это также показывает, что несмотря на все меры предосторожностей, которые принимают сетевые администраторы, иногда работа наших сайтов находится полностью вне нашей компетенции.

Даже несмотря на то, что специалисты Level 3 Communications, с которой Telecom Malasia имела главную связность, оперативно изолировали и оповестили провайдера о проблемах, угон привёл к таким масштабным последствиям.

Компания, виновная в случившемся, уже опубликовала официальные комментарии.

Комментарии (18)


  1. Mithgol
    15.06.2015 14:46
    +25

    Что такое угон префиксов?


    1. crypby Автор
      15.06.2015 18:54
      +6

      Умышленное изменение таблиц маршрутизации. AS (автономная система — система сетей и маршрутизаторов) принадлежащая какому-либо провайдеру подвергается атаке, злоумышленник заставляет систему анонсировать или несуществующие, или чужие сети. Суть в том, чтобы или заставить захваченную автономку перенаправлять трафик по нужному злоумышленнику маршруту, чтобы где-нибудь его проанализировать, или закрутить маршрутизацию так, чтобы терялись данные, что и случилось в конкретном случае.

      Очень толковые комментарии хаброжителей ниже, не буду повторяться.


  1. Levor
    15.06.2015 14:49
    +7

    Да, это был эпик вин. Судя по всему, там небыло никакого «угона префиксов» (да и даже если бы кто-то заанонсил префиксы ТМ — сломался бы роутинг только к сетям ТМ), а просто ТМ заанонсили пирам часть FV, а Level3 это не отфильтровали. В результате сломалось много чего и много где, в мейлерах nanog начался неслабый флейм в сторону L3. Некоторые писали, что у них фильтры уже почти год не работали, то есть потенциально ошибка любого клиента могла привести к подобному.

    P.S. Happy Friday! https://twitter.com/TMCorp/status/609167065300271104


  1. kefirfromperm
    15.06.2015 15:17
    +3

    Может кто-нибудь русским языком объяснить, что произошло?


    1. mva
      15.06.2015 15:25
      +2

      тов. Levor, вон, описал чуть выше:
      от имени Telecom Malaysia был анонс маршрутов, которые через них идти не должны. Такое должно было отсекаться магистральным пиром Level3, но этого не было. Как не защитилась и ощутимая часть других провайдеров описанных в топике. Позже, Level3 среагировал и отфильтровал (и, наверное, занульроутил), но было уже поздно. В итоге, у всех, кто получил соответствующие анонсы и оставил всё на откуп автоматике (т.е. не занимается ручным мониторингом таблиц) с трафиком начала происходить чехарда.

      Как-то так…


      1. Levor
        15.06.2015 16:07
        +5

        В целом верно, но не совсем так. ТМ проанонсировали аплинкам часть FV — это элементарная ошибка, которую легко допустить. L3 не должны были принимать анонсы сетей, не принадлежащих ТМ и их клиентам (получить список сетей можно из RIR DB, большинство провайдеров используют такие фильтры). В крайнем случае, должно стоять ограничение на максимальное количество получаемых префиксов, но не было даже этого.

        Далее, поскольку ТМ — клиент L3, префиксы получаемые от ТМ имели у L3 больший приоритет, нежели префиксы, получаемые от пирингов с другими Tier1. Это естественно, т.к. оператор хочет посылать трафик к сетям клиента через непосредственный пиринг, за который клиент платит, а не через конкурентов.

        Нижестоящие операторы, имеющие аплинка L3, отфильтровать ничего не могли, т.к. они как получали FV, так и продолжали его получать, только уже внутри сети L3 трафик терялся. Не пострадали (или пострадали незначительно) другие Tier1 и их клиенты (не имеющие пиринга с L3).

        По поводу фикса — точно не скажу, но вроде-бы так никто ничего и не зафильтровал, просто в ТМ заметили, что что-то пошло не так и пофиксили проблему.


        1. rdntw
          15.06.2015 16:24

          Странно что такой оператор как L3 так косячит


          1. MetallicAt
            15.06.2015 17:07
            +3

            Если вы с ними лично работали когда-нибудь, то это для вас совсем не должно быть сюрпризом.


            1. rdntw
              18.06.2015 16:02

              Из буржуйских магистралов общение было только с РЕТН, вполне все профессионально и оперативно.
              Видимо не везде так…


              1. RicoX
                18.06.2015 21:07

                Ой не везде, не везде, от страны обитания не зависит, везде хватает раздолбайства.


  1. nakamura
    15.06.2015 15:21

    Чето не везет Малайзии, нужно батюшку с кодилом отправить хотябы.


    1. mva
      15.06.2015 15:25
      +7

      и что он там будет кОдить? :)


      1. Alexeyslav
        15.06.2015 16:28

        чертей и демонов…


      1. andy_p
        16.06.2015 00:20

        Кодилить.


  1. RicoX
    15.06.2015 16:58
    +9

    Исправьте пожалуйста желтушный заголовок, что такое угон префиксов в понимании топикстартера? Была элементарная ошибка администратора маршрутизатора со стороны ТМ, которую очень легко допустить по недосыпу, перепутав IN и OUT анонсы, она бы и закончилась на уровне ТМ, но вышестоящий провайдер положил хрен на безопасность своей автономной системы и разрешил анонсить от своих пиров что угодно в любом количестве, что и вызвало сетевую аномалию. В своей работе неоднократно сталкивался с ситуацией когда через Level3 пролезала любая срань, включая фейковые АСки, причем список тех-же фильтров можно легко получать чуть-ли не в автоматическом режиме той же

     bgpq3 -J -E AS-%ИМЯ%
    
    ну строчишь потом письма в Level3 и методично пытаешься выйти с уровня «Ваш звонок очень важен для нас» на уровень админов, обычно благодарят и закрывают. Не понятна в чем новость, ну совпало что ASки и со стороны ТМ и со стороны L3 админят не совсем компетентные спецы, бывает. Заголовок о том, что пара администраторов AS криво настроила пирринг, что вызвало сетевую аномалию по всему миру уж очень кричащий, сам протокол BGP достаточно нежная субстанция и не предполагает раздолбайства.


  1. EminH
    15.06.2015 23:39

    Проясните пожалуйста, правильно ли я понял что у L3 не был настроен bcp38 ( en.m.wikipedia.org/wiki/BCP38 ) ??


    1. rdntw
      18.06.2015 16:07

      Это про uRPF чтоли?
      Или про синхронизацию с RIPE DB и формирование prefix-list на основании этого? :)


  1. Breaker
    16.06.2015 08:09

    Что за сервис/утилита, из которой скриншоты?