Каким образом можно от третьего лица определить, работают ли мои сайты и сервера? Есть ли вероятность ошибки? Кто и когда должен узнать о проблеме, чтобы вовремя принять меры? На все эти вопросы я постараюсь ответить, подробно рассмотрев функцию мгновенных оповещений о падениях сервиса мониторинга сайтов ХостТрекер, а также возможные сценарии эскалации оповещений и распределения ролей.
Итак, вследствие определенных (как ни печально, но обычно неприятных) обстоятельств вы решили, что было бы неплохо, если бы за сайтом приглядывал еще кто-то кроме вас и вашей команды. Но возникают вопросы. С некоторыми придется определиться самостоятельно: готовы ли мы просыпаться ночью ради этого сайта, насколько бурным будет энтузиазм коллег на предложение реагировать на ночные СМСки, сколько вообще этот сайт может не работать в случае чего, ну и, конечно же, кто виноват. С некоторыми же другими вопросами мы попытаемся вам помочь.
Используя сервисы мониторинга от третьего лица, проморгать проблему практически нереально. Кроме разве что случаев кэширования сайта где-то на пути, но ведь в таком случае его и клиенты увидят, верно ведь? Хотя, если немного разобраться в дополнительных настройках, то и здесь можно найти способы надежной и однозначной проверки.
Важным параметром здесь является интервал мониторинга. Проверяя сайт раз в полчаса, нужно быть готовым к тому, что о проблеме узнаешь действительно только через полчаса.
Хорошо, а если наоборот: проблемы нет, а меня разбудят? Или потревожат сон любимого шефа?
Вполне логичное требование. Во-первых, алгоритм проверки предусматривает перепроверку с нескольких серверов. Во-вторых, если все же случаются кратковременные сбои, которые вовсе не сбои с точки зрения собственной значимости, то предусмотрена возможность задержать оповещение до выяснения обстоятельств:
Это значит, что через 3 минуты сайт проверят еще раз, и если проблема не решилась сама собой — тогда и огласят тревогу. Почему так может получиться? Лаг сети, перезагрузка сетевого или серверного оборудования, технические работы на сервере, пиковая нагрузка на сервер, а то и просто вдруг выросший немного пинг. Да мало ли что. SLA 100% пока еще не гарантирует ни один хостинг. Таким образом, кратковременные сбои отфильтруются.
Что еще важно и интересно — эту задержку можно установить индивидуально для каждого контакта. Например, вполне рабочая схема:
То есть можно предусмотрительно настроить все таким образом, чтобы мотивирующие пинки и Ценные Указания начали поступать ровно в тот момент, когда без них действительно не разобраться.
Да, есть компании и люди, которые ценят личное время сотрудников. И это очень похвально. Для таких случаев предусмотрена возможность настроить график рабочего времени:
Это очень удобно, если предусмотрена позиция «ночного админа» (или даже не админа — просто перезагрузить сервер сможет и не айтишник) или же, например, есть представительства в разных временных поясах и можно разделить зоны ответственности по времени.
Для особо критических систем предусмотрена функция повторного оповещения. И повторятся оно будет до тех пор, пока сайт/сервер/сервис не работает, либо пока кто-нибудь зайдет в учетку и изменит настройки. Также есть возможность повторяемого голосового звонка. То есть это не СМС, которая всего раз пиликнет, а надоедливый дозвон, пока кто-то не возьмет трубку.
Всегда можно выбрать несколько способов оповещения. И настроить так, чтобы любой чих приходил на почту, а когда действительно что-то важное — то более оперативными методами.
Кроме того, все доступно в логах:
Подобные сценарии широко используются нашими клиентами и допиливаются согласно пожеланий. Поэтому, как и всегда, мы рады всем замечаниям и предложениям.
Итак, вследствие определенных (как ни печально, но обычно неприятных) обстоятельств вы решили, что было бы неплохо, если бы за сайтом приглядывал еще кто-то кроме вас и вашей команды. Но возникают вопросы. С некоторыми придется определиться самостоятельно: готовы ли мы просыпаться ночью ради этого сайта, насколько бурным будет энтузиазм коллег на предложение реагировать на ночные СМСки, сколько вообще этот сайт может не работать в случае чего, ну и, конечно же, кто виноват. С некоторыми же другими вопросами мы попытаемся вам помочь.
Надежно ли это?
Используя сервисы мониторинга от третьего лица, проморгать проблему практически нереально. Кроме разве что случаев кэширования сайта где-то на пути, но ведь в таком случае его и клиенты увидят, верно ведь? Хотя, если немного разобраться в дополнительных настройках, то и здесь можно найти способы надежной и однозначной проверки.
Важным параметром здесь является интервал мониторинга. Проверяя сайт раз в полчаса, нужно быть готовым к тому, что о проблеме узнаешь действительно только через полчаса.
Хорошо, а если наоборот: проблемы нет, а меня разбудят? Или потревожат сон любимого шефа?
Не хочу беспокоиться зря
Вполне логичное требование. Во-первых, алгоритм проверки предусматривает перепроверку с нескольких серверов. Во-вторых, если все же случаются кратковременные сбои, которые вовсе не сбои с точки зрения собственной значимости, то предусмотрена возможность задержать оповещение до выяснения обстоятельств:
Это значит, что через 3 минуты сайт проверят еще раз, и если проблема не решилась сама собой — тогда и огласят тревогу. Почему так может получиться? Лаг сети, перезагрузка сетевого или серверного оборудования, технические работы на сервере, пиковая нагрузка на сервер, а то и просто вдруг выросший немного пинг. Да мало ли что. SLA 100% пока еще не гарантирует ни один хостинг. Таким образом, кратковременные сбои отфильтруются.
Что еще важно и интересно — эту задержку можно установить индивидуально для каждого контакта. Например, вполне рабочая схема:
- Администратор/разработчик сайта получает оповещение немедленно
- Начальник отдела — через 30 минут, самое время предоставить помощь, если проблема серьезная
- Менеджер проекта — через 1 или 3 часа, в это время как раз уже пора искать отмазку для клиентов, если проблема все еще не решена
То есть можно предусмотрительно настроить все таким образом, чтобы мотивирующие пинки и Ценные Указания начали поступать ровно в тот момент, когда без них действительно не разобраться.
Тщательно спя в кровати, вы помогаете обществу
Да, есть компании и люди, которые ценят личное время сотрудников. И это очень похвально. Для таких случаев предусмотрена возможность настроить график рабочего времени:
Это очень удобно, если предусмотрена позиция «ночного админа» (или даже не админа — просто перезагрузить сервер сможет и не айтишник) или же, например, есть представительства в разных временных поясах и можно разделить зоны ответственности по времени.
Разбудить любой ценой
Для особо критических систем предусмотрена функция повторного оповещения. И повторятся оно будет до тех пор, пока сайт/сервер/сервис не работает, либо пока кто-нибудь зайдет в учетку и изменит настройки. Также есть возможность повторяемого голосового звонка. То есть это не СМС, которая всего раз пиликнет, а надоедливый дозвон, пока кто-то не возьмет трубку.
А если все же что-то пропущу?
Всегда можно выбрать несколько способов оповещения. И настроить так, чтобы любой чих приходил на почту, а когда действительно что-то важное — то более оперативными методами.
Кроме того, все доступно в логах:
Подобные сценарии широко используются нашими клиентами и допиливаются согласно пожеланий. Поэтому, как и всегда, мы рады всем замечаниям и предложениям.