Серверы «Тринити» — это готовое, полноценное, протестированное решение, которое мы поставляем клиентам с несколькими типами мониторинга, в том числе с вариантом, основанном на макрос-шаблоне Zabbix. С помощью него можно «из коробки» быстро отслеживать состояние серверов, а также изменять параметры, даже не имея специальной подготовки. Теперь клиенту не придётся настраивать мониторинг самостоятельно или просить это делать администратора. А так как наши платформы используют протокол управления Redfish, шаблон подойдёт пользователям не только серверов «Тринити», но и любых серверов с Redfish. Это RnD «Тринити», мы немного расскажем про этот шаблон.
Как работает шаблон для мониторинга
Шаблон отслеживает состояние аппаратной части серверов с Redfish: температуру процессоров, температуру зон на материнской плате, напряжение в шине, напряжение в CPU, состояние памяти и другие показатели, которые наша плата может отдать в зависимости от наличия сенсоров.
Напомним, что Redfish — это протокол управления серверами и их мониторинга, надстройка в IPMI (OpenBMC). В основном серверы используют протокол SNMP, поэтому у Zabbix готового решения работы с Redfish нет. Наш шаблон работает только для серверов с Redfish. Под каждое железо и даже каждую версию IPMI нужен свой шаблон, потому что из версии в версию адреса источников данных могут меняться. Если Zabbix задать правильные параметры, то на выходе получится информация, которую мы поймём и сможем занести в базу данных. Если же использовать шаблон для сервера с другим протоколом, то из-за других адресов расположения данных будет приходить непонятная информация, с которой мы не сможем ничего сделать. Этот нюанс имеет значение, по крайней мере до тех пор, пока Zabbix не сделает полную поддержку Redfish.
У Zabbix есть универсальные макросы, которые могут обрабатывать информацию. Наш шаблон представляет собой внутреннюю настройку Zabbix через эти макросы. Zabbix берёт информацию у сервера по HTTPS, обрабатывает её и кладёт в свою базу данных. Он рисует графики и хранит эту информацию в своей БД.
Так в шаблоне отображается информация, которую отдаёт сервер. Это список датчиков, которые имеются в сервере:
В каждый датчик можно зайти и посмотреть более подробную информацию. Например, напряжение в шине. Оно отмечено на вертикальной шкале этого графика: максимальное, минимальное, плюс запас.
Если будет скачок до 10 Вольт, шкала уменьшится. Горизонтальная шкала — это временной промежуток. Шаблон ставит точку, когда в шине было достигнуто определённое напряжение. Эту информацию Zabbix заносит в базу данных. Временной интервал можно настраивать, у нас стоит промежуток в 4 минуты.
Далее — график со шкалой температуры и временным интервалом:
Снизу — последнее показание: минимальное, максимальное и среднее. Если температура скакнёт выше установленной, левая шкала графика уедет вверх. Отметим, что Zabbix собирает и хранит информацию о самих температурах, а не графики, поэтому для наглядного отображения данных ему нужна графическая система.
Немного о процессе реализации шаблона
Его можно было сделать одним из двух способов: через скрипты или через настройки Zabbix (при помощи встроенных макросов). Второй вариант оказался более быстрым, к тому же внешние скрипты могут быть запрещены службой безопасности компании-заказчика.
Буквально за один рабочий день мы сделали шаблон через макросы, добавили туда триггеров и написали инструкцию о том, как прикрутить готовый шаблон к любому Zabbix-серверу. На основании этих триггеров заказчик может делать и свои. При срабатывании триггеров, программа выполняет действия, например, подсвечивает строку с «красной» температурой, мигает. В шаблоне мониторинга серверов «Тринити» предусмотрены разные варианты оповещений, например, SMS на телефон, письмо на почту.
В общем, шаблон, сделанный через макросы, — это быстрое и работающее решение. Работа по изменению его в случае обновления OpenBMC или Redfish займёт 20 минут. Мы можем быстро создать и доработать систему мониторинга под нужды заказчика.
Ссылки:
Комментарии (4)
Bagatur
13.05.2024 13:58Ну хорошо, Redfish так Redfish, а чем не угодил SNMP для мониторинга железа? Какой был резон пилить новый протокол, для которого надо ещё и отдельные телодвижения с шаблонами исполнять вместо того, чтобы готовый MIB использовать?
Вопрос, конечно, риторический, но тем не менее...
gss7 Автор
13.05.2024 13:58В одной из моделей серверов были нюансы с реализацией SNMP, проще было использовать Redfish.
Lazhu
Харды, как всегда, фантомы