Прошел первый день РедСлёрма, интенсива по системному администрированию.
На РедСлёрме системные администраторы Southbridge рассказывают, что и почему используют в работе. Отдельное спасибо Selectel за ресурсы для практики.
На РедСлёрм собралось 40 человек (14 в зале, 26 в онлайне). Учитывая, что повторять РедСлёрм мы больше не будем, получился милый эксклюзивный междусобойчик.
По сравнению с первым Слёрмом не хватает лета, треша и ощущения потной и кровавой победы над обстоятельствами. Там мы вечером собирались на веранде, открывали ноутбуки и пиво, и сидели до полуночи. Было что-то среднее между хакатоном и бардовским слетом.
Тут мы вовремя начали и раньше времени закончили, потому что не случилось ни одной задержки, на которую мы закладывали резерв. Автобус долетел из Москвы за 1:20 (а мы закладывали 2 часа), интернет не падал, звук не пропадал, отряд техподдержки сразу отвечал на вопросы, в общем, любители эвент-экшена среди организаторов уже порывались что-нибудь сломать, чтобы потом героически починить. А перед ужином мы пошли в бассейн. То есть у оргов нашлось полтора часа поплавать. Вот что значит удачная площадка.
Еще не поздно записаться на Слёрм-2 (запускаем кластер Kubernetes, 25-27 октября) и МегаСлёрм (создаем production-ready кластер Kubernetes, 29-31 октября).
aSkobin Автор
Konkase
monit следит за zabbix, а кто следит за monit? Monit не нужен, все делается нативными способами systemd
evg_krsk
А zabbix за monit, очевидно. Обычная взаймостраховка. Если умирают оба, мониторинг зажигает аварию "Давно не было данных от агента".
Не надо преувеличивать. Systemd это не инструмент мониторинга. Счастье, что в нём нет поддержки IMAP/POP3/SMTP и много чего ещё, что есть в монит.
divanikus
systemd может перезапускать упавший агент. Письмо конечно не пошлет.
evg_krsk
Об этом и говорю. Скрипт не запустит, протоколы не умеет. Ибо не мониторинг.
divanikus
Ну с другой стороны, а что еще надо? Если агент просто упадет, он его поднимет. Если агент упадет и не сможет подняться, в заббиксе должен алерт подняться «агент упал».
evg_krsk
Зачастую процесс жив, но по сути не функционирует, надо уметь общаться с процессом "на его языке" чтобы определять его состояние. Лично сталкивался с таким на примере zabbix-agent-а. С тех пор починили вроде, но есть и другие подобные запросы, в т.ч. и от клиентов со странными программами.
shibanovan
А пароль от гита доступен только участникам?
aSkobin Автор
да
shibanovan
справедливо )
aSkobin Автор
И практика доступна только участникам :)
PbIPXA
немного не понял по поводу проблемы «нарушение связности ДЦ с системой мониторинга»
что мешает повесить тригер на прокси который в ДЦ собирает данные и во все остальные тригеры этого ДЦ повесить зависимость?
Если нет прокси- то на другой высокодоступный объект типа мегароутера дц
вроде бы давно уже такой механизм есть и работает
crazylh
Тем что штатно такое заббикс не умеет и надо костылить в каждом хосте. А это значит все шаблонные триггеры надо привязывать к проверке на доступность прокси.
В общем такое себе удовольствие.