Прошел первый день РедСлёрма, интенсива по системному администрированию.
На РедСлёрме системные администраторы Southbridge рассказывают, что и почему используют в работе. Отдельное спасибо Selectel за ресурсы для практики.


На РедСлёрм собралось 40 человек (14 в зале, 26 в онлайне). Учитывая, что повторять РедСлёрм мы больше не будем, получился милый эксклюзивный междусобойчик.


По сравнению с первым Слёрмом не хватает лета, треша и ощущения потной и кровавой победы над обстоятельствами. Там мы вечером собирались на веранде, открывали ноутбуки и пиво, и сидели до полуночи. Было что-то среднее между хакатоном и бардовским слетом.


Тут мы вовремя начали и раньше времени закончили, потому что не случилось ни одной задержки, на которую мы закладывали резерв. Автобус долетел из Москвы за 1:20 (а мы закладывали 2 часа), интернет не падал, звук не пропадал, отряд техподдержки сразу отвечал на вопросы, в общем, любители эвент-экшена среди организаторов уже порывались что-нибудь сломать, чтобы потом героически починить. А перед ужином мы пошли в бассейн. То есть у оргов нашлось полтора часа поплавать. Вот что значит удачная площадка.


Еще не поздно записаться на Слёрм-2 (запускаем кластер Kubernetes, 25-27 октября) и МегаСлёрм (создаем production-ready кластер Kubernetes, 29-31 октября).

Комментарии (13)


  1. aSkobin Автор
    22.10.2018 22:08
    +1


  1. Konkase
    22.10.2018 22:46

    monit следит за zabbix, а кто следит за monit? Monit не нужен, все делается нативными способами systemd


    1. evg_krsk
      22.10.2018 23:15

      А zabbix за monit, очевидно. Обычная взаймостраховка. Если умирают оба, мониторинг зажигает аварию "Давно не было данных от агента".


      Не надо преувеличивать. Systemd это не инструмент мониторинга. Счастье, что в нём нет поддержки IMAP/POP3/SMTP и много чего ещё, что есть в монит.


      1. divanikus
        23.10.2018 13:22

        systemd может перезапускать упавший агент. Письмо конечно не пошлет.


        1. evg_krsk
          23.10.2018 13:45

          Об этом и говорю. Скрипт не запустит, протоколы не умеет. Ибо не мониторинг.


          1. divanikus
            23.10.2018 15:20

            Ну с другой стороны, а что еще надо? Если агент просто упадет, он его поднимет. Если агент упадет и не сможет подняться, в заббиксе должен алерт подняться «агент упал».


            1. evg_krsk
              23.10.2018 15:33

              Зачастую процесс жив, но по сути не функционирует, надо уметь общаться с процессом "на его языке" чтобы определять его состояние. Лично сталкивался с таким на примере zabbix-agent-а. С тех пор починили вроде, но есть и другие подобные запросы, в т.ч. и от клиентов со странными программами.


  1. shibanovan
    24.10.2018 09:58

    А пароль от гита доступен только участникам?


    1. aSkobin Автор
      24.10.2018 09:58

      да


      1. shibanovan
        24.10.2018 10:12

        справедливо )


  1. aSkobin Автор
    24.10.2018 09:58

    И практика доступна только участникам :)


  1. PbIPXA
    24.10.2018 21:22

    немного не понял по поводу проблемы «нарушение связности ДЦ с системой мониторинга»
    что мешает повесить тригер на прокси который в ДЦ собирает данные и во все остальные тригеры этого ДЦ повесить зависимость?
    Если нет прокси- то на другой высокодоступный объект типа мегароутера дц
    вроде бы давно уже такой механизм есть и работает


    1. crazylh
      25.10.2018 00:47

      Тем что штатно такое заббикс не умеет и надо костылить в каждом хосте. А это значит все шаблонные триггеры надо привязывать к проверке на доступность прокси.


      В общем такое себе удовольствие.