Произошел упс — в 18.45 упала сеть РТКОММ и лежит до сих пор (уже почти 6 часов). В результате недоступны несколько хостингов (знаю об www.1gb.ru, www.jino.ru) целиком.
Это повторение проблемы от 2-го июля — тогда она была ночью и сеть лежала полчаса — гораздо менее заметно.

P.S. Вот только на днях на одном из форумов я убеждал сеошников выбирать геораспределённые площадки (это мой конёк), а меня в ответ убеждали, что современные ДЦ обычно больше, чем на 10 минут не падают.

Комментарии (34)


  1. Wedmer
    06.07.2015 01:38

    А альтернативных провайдеров нет? Хотя даже подключение к десяти провайдерам не поможет, если все проложены через один и тот же коллектор. Последний выгорает, и все «альтернативные» провайдеры идут лесом.


    1. rekby Автор
      06.07.2015 01:51
      +2

      Абсолютно точной информации у меня пока нет. Насколько я знаю проблема в главном маршрутизаторе, который по идее супер-надежный и ломаться не должен, так что от собственно количества аплинков в ДЦ тут мало что зависит.


      1. Wedmer
        06.07.2015 01:53
        +6

        Даже супернадежные надо чем то резервировать)


        1. JDima
          06.07.2015 11:25

          Провайдеры, даже магистралы, не резервируют оборудование. Дорого. Оптика обычно куда чаще ломается, и даже ее могут запросто не резервировать. Ну перегрыз ее дикий экскаватор, ну остался город/регион на несколько часов без связи, ничего страшного…

          Нерезервированное железо как правило вполне дает три девятки, этого провайдеру хватает. Да и вообще, как правило самые сложные и интересные проблемы не устраняются резервированием, так как затрагивают весь слой топологии.

          Ну а то, что у клиентов сервис будет чаще ломаться — «проблемы негров шерифа не ...». Любят нас наши провайдеры. Хотя с другой стороны — и денег мало берут.


          1. Wedmer
            06.07.2015 12:11

            Но ребята в ДЦ могли бы позаботиться о резерве. Хотя обычно все забивают на подключение резерва до второго или третьего серьёзного облома с каналом.


            1. JDima
              06.07.2015 12:43

              А вот это действительно большой косяк, довольно нетипичный для датацентров. Если только датацентр не принадлежит самому РТ. Не в курсе.


          1. olku
            06.07.2015 13:56
            +1

            Наверное, Вы имеете в виду не «магистралов», у которых физический уровень построен на SDH, в кольце. Эти коммутаторы переключают трафик без участия человека за доли секунды. За этим процессом довольно любопытно наблюдать на менеджменте. Крупный провайдер не всегда «магистрал» и глобальная сеть не строится на Эзернете, хоть и в волокно его запихать теперь весьма недорого.


            1. JDima
              06.07.2015 13:58
              +1

              Я как довольно крупный клиент всех основных операторов связи постоянно вижу крупные аварии. Обычно причин две — «обрыв оптики» и «сбой маршрутизатора». На днях у одного из них с интервалом в несколько часов перегрызли сразу две оптики, возникли проблемы с целым регионом страны. Но это редкость.


              1. olku
                06.07.2015 16:19

                Когда West и East перегрызают, это больше напоминает диверсию. Как работавший у оператора масштаба маленькой страны, проблема — это когда дизель п… дят на станции, что кладет оба кольца при обесточивании. Пресслужба оператора никогда не расскажет об этом. Крысы, оно, сподручнее. Твари серые, че с них взять :)


                1. JDima
                  06.07.2015 16:41
                  +1

                  Второе волокно порвали через девять часов после первого, за два часа до его восстановления. Может, крысы, или обычное весеннее обострение у диких экскаваторов. У них ведь очень тонкий нюх, закопанное стекло за километр чуют.


          1. VarvarRus
            06.07.2015 14:10

            По статистике «среднестатистического телекома» количество аварий обычно распределяется следующим образом, озвучиваю примерный порядок, в среднем:
            40% — проблемы с ЭП,
            40% — проблемы с оборудованием или сетью ПД (не связано с обрывом оптики или деградацией физического уровня),
            5% — проблемы на физическом уровне, обрыв оптики (выгорание коллекторов, «дикие экскаваторы» и т.д.),
            15 — другое (обычно подразумевается «человеческий фактор», типа что-то делали и завалили «пол района»).
            У «магистралов» скорей всего всё также. Так что оптику рвут в худшем случае 1 раз в 2 месяца, а проблемы с маршрутизаторами гораздо чаще. Поэтому дорогие маршрутизаторы всё-таки скорей всего резервируются, либо топология и маршрутизация предусматривает перераспределение трафика на другой рабочий гейт.

            Да, и понятное дело, то что является реальной причиной не всегда озвучивается клиенту. Т.е. всегда есть реальная причина, а есть «официальная версия».


            1. JDima
              06.07.2015 14:31
              +1

              Аварии из-за проблем с питанием? 40%? Это на последней миле что ли? Если а центральных узлах, то это полный капздец. Как бы два блока питания, ИБП, ДГУ и всё такое.

              «проблемы с оборудованием или сетью ПД» — наверняка тот случай, где обычно автоматического переключения на резерв не происходит. Условно: линейная карта начинает сыпать ошибками и теряет половину пакетов. Только половину, потому соседства не могут окончательно развалиться.

              «Поэтому дорогие маршрутизаторы всё-таки скорей всего резервируются, либо топология и маршрутизация предусматривает перераспределение трафика на другой рабочий гейт.»
              Тогда я не могу объяснять, почему у меня сразу в нескольких очень крупных точках ложатся все (десяток-два) совершенно разные (интернет, L3VPN, L2VPN и т.д.) каналы одного провайдера. Время лежания обычно от 10 минут до пары часов. Происходит такое раз в 2-3 месяца. В отчете — «сбой маршрутизатора». Я почему-то склонен им поверить в том плане, что произошло что-то плохое с одной железкой, а резерва не было.


              1. VarvarRus
                07.07.2015 15:49
                +1

                Что именно за проблемы у РТКомм-а, может сказать только РТКомм.
                Проблемы с ЭП — широко распространённая причина сбоев. Речь сейчас не идёт о крупных ЦОД-ах Яндекса и т.д., ибо там всё строится«в чистом поле с нуля» и все нюансы подобного плана стараются соблюсти. Речь идёт о «малых телекомовских ЦОД-ах», которые организуются в крупных бизнес-центрах. Там зачастую нет возможности организовать ЭП по 1а категории (2 разных фидера + АВР + ДЭС). Ибо фидер всего один в данном районе, или мощности его исчерпаны, места под ДЭС нет — парковки и т.д. Да и сама ДЭС — дорогое удовольствие. Поэтому зачастую ограничиваются одним фидером и ИБП в каждую стойку.
                Центральные маршрутизаторы ядра сети телекома почти всегда резервируются, но ЦОД-ы не всегда к данному ядру цепляются напрямую. Сеть ПД, к которой цепляются данные ЦОД-ы уже давно построена, на промежуточных узлах связи данной сети тоже не всегда нормальное ЭП. Могут профокапить расчёт трафика до данного ЦОД и данным трафиком положить какой-нибудь промежуточный маршрутизатор на сети, либо «вдруг» может выясниться, что пропускной способности сети до ЦОД-а не хватает, а расширить её проблематично. Причём это выясняется когда в данный ЦОД придёт какой-нибудь серьёзный клиент. В общем может быть всё, что угодно, ибо «зима у нас приходит неожиданно», а «вирус „кривые ручки“ сведёт на нет даже самое благое начинание.
                Каналы L3VPN, L2VPN, кстати, могут долгое время лежать, если они все идут через один маршрутизатор, на котором проблема вдруг появилась. Даже если клиенту заявляют, что все каналы идут через разное оборудование.


      1. BasilioCat
        06.07.2015 12:09
        +2

        Насколько я помню, по причине сбоев главного маршрутизатора РТКомм валялся довольно длительное время в 2008, 2010 году, а на моей памяти еще раньше был простой почти в два дня — пока замену не привезли (точные даты интернет уже не помнит). То есть это штатная ситуация ;)


  1. Devil_Chrono
    06.07.2015 02:09
    +8

    Это настолько огромный косяк специалистов РТКОММ, что словами его выразить просто невозможно.
    То есть:
    1. Резервирования нет
    2. Состояние маршрутизатора не мониторится
    3. Упали все модули или же весь маршрутизатор полностью (что является просто недопустимым)


  1. zvyagaaa
    06.07.2015 12:15
    +11

    Да ладно, щас на работу придут — перезагрузят маршрутизатор. Просто в отпусках все.


  1. greenkaktus
    06.07.2015 12:32
    -1

    Если ты не госник, то выбирать хостинг местный как-то странно.


    1. grossws
      06.07.2015 16:30

      Скоро будет уже не, т. к. 152-фз.


      1. greenkaktus
        06.07.2015 16:32
        -2

        Насколько я помню, достаточно иметь копию данных в России. Если она отваливается, все претензии к хостеру.


        1. grossws
          06.07.2015 17:28

          152-фз, статья 18, пункт 5:

          При сборе персональных данных, в том числе посредством информационно-телекоммуникационной сети «Интернет», оператор обязан обеспечить запись, систематизацию, накопление, хранение, уточнение (обновление, изменение), извлечение персональных данных граждан Российской Федерации с использованием баз данных, находящихся на территории Российской Федерации, за исключением случаев, указанных в пунктах 2, 3, 4, 8 части 1 статьи 6 настоящего Федерального закона.

          (часть 5 введена Федеральным законом от 21.07.2014 N 242-ФЗ)

          www.consultant.ru/document/cons_doc_LAW_178749/?frame=17
          © КонсультантПлюс, 1992-2015

          Пока в законе нет требования хранения исключительно на территории РФ, но какова будет реальная правоприменительная практика — покажет время.


          1. greenkaktus
            06.07.2015 17:34
            +3

            Реальной правоприменительной практики почти нет. Ибо всем наплевать очень глубоко, пока ты не заинтересовал компетентные органы. А если уж заинтересовал, уже не важно где у тебя базы и как ты исполняешь ФЗ.


    1. lubezniy
      06.07.2015 22:50

      Почему? Мы не гос, но долго уже сидим на местном, и в целом нас это устраивает.


    1. rekby Автор
      06.07.2015 22:58
      +3

      ну собственно я к государству никак не отношусь, в Россию начал переезжать еще до принятия закона об обязательном хранении данных в России.

      Причин несколько:
      1. Упрощение официального деньго- и документооборота относительно платежей заграницу.
      2. БОльшая стабильность стоимости услуг (не плавает в зависимости от курса, т.е. абсолютная цифра может быть несколько выше но она не плавает и это удобно при планировании или резких скачках валюты — не надо прогнозировать и закладывать эти риски в стоимость услуг).
      3. Работаем по одним и тем же законам.
      4. При более-менее равных условиях я предпочитаю чтобы деньги оставались в России.

      Сейчас на рынке уже есть предложения сопоставимые по ценнику и качеству загранице, так что я просто нашел два ДЦ которые меня полностью устраивают по цене/качеству и набору возможностей (искать правда пришлось долго — около года).


      1. grossws
        07.07.2015 16:54

        Ещё вполне нормальной причиной может быть уменьшение latency до серверов, например.


  1. VFedorV
    06.07.2015 13:18

    да, сложно сделать резерв корневому маршрутизатору:

    13.04.2015 в период времени с 22.00 до 23.50 (на самом деле с 20:40) на сети передачи данных SAFEDATA наблюдались неполадки корневого маршрутизатора.
    … из переписки с менеджером одного из ДЦ в Москве. Сначала говорили что виноват экскаватор (реконструкция Волгоградки). Во время аварии BGP сессий не было видно ни на одном из 3-х(?) пирингов, которые анонсируют AS Safedata. Так что каналов вроде и не один, но это не спасает когда они в одном колодце или когда проблема на корневом маршрутизаторе.


    1. mayorovp
      06.07.2015 14:42
      +1

      Не должно быть никаких «корневых маршрутизаторов» в отказоустойчивой сети…


      1. AmberSP
        06.07.2015 17:32

        Сильно не бейте, я не сетевик, но нет ли тут проблемы формулировок и терминов?
        Совершенно уверен, что на прошлой работе было нечто, что сетевики называли «корневой маршрутизатор». И что те же самые сетевики запрашивали «страховочный» даунтайм для учений по сбою этого самого корневого маршрутизатора — они создали отказоустойчивую (с их точки зрения) сеть и хотели проверить, действительно ли она сохранит работоспособность в случае отказа корневого маршрутизатора. Ну и т.к. бизнес сильно ИТ-зависимый, на всякий случай запросили на это время даунтайм.

        Насколько я помню, учения прошли успешно.


        1. khim
          06.07.2015 18:15

          Все приличные фирмы такие учения проводят. А иначе как вы убедитесь что ваша отказоустойчивая система действительно отказоустойчива?


        1. mayorovp
          06.07.2015 18:53
          +1

          На самом деле такого термина как «корневой маршрутизатор» вообще нет. Каждый понимает его по-своему. Сетевики из комментария выше, к примеру, понимали этот термин как «самый главный маршрутизатор, без которого ничего не работает». Вот таких маршрутизаторов и не должно быть в сети.


          1. JDima
            07.07.2015 14:22
            +1

            Пару месяцев назад AMS-IX чихнул (кто-то сделал L2 кольцо на 100G, минут 10 продолжалось). Заметил весь интернет.

            «Корневым маршрутизатором» может быть слой топологии. Отвал этого слоя производит к локальной катастрофе. Последствия той катастрофы могут быть глобальными для организации. Не все могут добиться того, чтобы выпадание одной стойки или одного ЦОДа не нарушало работы бизнес-процессов, это требует соответствующих подходов на всех уровнях (не только сеть), не всегда это возможно.

            И даже полная геораспределенность ничего не гарантирует. Помнится, у Cloudflare однажды разом потух весь бордер по трем десяткам локаций. Ну всегда найдется нечто общее у элементов слоя топологии. К примеру, общая управлялка плюс общий баг на всех железках.

            У провайдеров «корневые маршрутизаторы» как одиночное устройство, падение которого нарушает работоспособность очень многого — самое обычное дело. Один инженер из «большой тройки» рассказывал мне, как одна SFPшка распидорасила им весь транспорт где-то на полчаса — большая и важная железка упала от этого. С тех пор они посреди дня даже жалкую SFPшку воткнуть не могут, только ночью.


  1. zharikovpro
    06.07.2015 15:20

    > выбирать геораспределённые площадки (это мой конёк)
    Можете дать какие-то базовые рекомендации по теме? Очень интересно)


    1. zharikovpro
      06.07.2015 15:21
      +1

      Упс, уже нашел в ваших постах и профиле ссылку))


      1. rekby Автор
        06.07.2015 22:48

        ага, если заинтересует что-то подробнее — спрашивайте в профильных постах — с удовольствием прокомментирую детали.


  1. AntiHelper
    11.07.2015 23:06

    насколько я знаю: РТКом последние 3-4 года закупал оборудование у одной знаменитой китайской компании, выпускающей сетевое оборудование(инфа из анализа госзакупок).
    Может проблема в этом?