Серверы «Тринити» — это готовое, полноценное, протестированное решение, которое мы поставляем клиентам с несколькими типами мониторинга, в том числе с вариантом, основанном на макрос-шаблоне Zabbix. С помощью него можно «из коробки» быстро отслеживать состояние серверов, а также изменять параметры, даже не имея специальной подготовки. Теперь клиенту не придётся настраивать мониторинг самостоятельно или просить это делать администратора. А так как наши платформы используют протокол управления Redfish, шаблон подойдёт пользователям не только серверов «Тринити», но и любых серверов с Redfish. Это RnD «Тринити», мы немного расскажем про этот шаблон.

Как работает шаблон для мониторинга

Шаблон отслеживает состояние аппаратной части серверов с Redfish: температуру процессоров, температуру зон на материнской плате, напряжение в шине, напряжение в CPU, состояние памяти и другие показатели, которые наша плата может отдать в зависимости от наличия сенсоров. 

Напомним, что Redfish — это протокол управления серверами и их мониторинга, надстройка в IPMI (OpenBMC). В основном серверы используют протокол SNMP, поэтому у Zabbix готового решения работы с Redfish нет. Наш шаблон работает только для серверов с Redfish. Под каждое железо и даже каждую версию IPMI нужен свой шаблон, потому что из версии в версию адреса источников данных могут меняться. Если Zabbix задать правильные параметры, то на выходе получится информация, которую мы поймём и сможем занести в базу данных. Если же использовать шаблон для сервера с другим протоколом, то из-за других адресов расположения данных будет приходить непонятная информация, с которой мы не сможем ничего сделать. Этот нюанс имеет значение, по крайней мере до тех пор, пока Zabbix не сделает полную поддержку Redfish. 

У Zabbix есть универсальные макросы, которые могут обрабатывать информацию. Наш шаблон представляет собой внутреннюю настройку Zabbix через эти макросы. Zabbix берёт информацию у сервера по HTTPS, обрабатывает её и кладёт в свою базу данных. Он рисует графики и хранит эту информацию в своей БД.  

Так в шаблоне отображается информация, которую отдаёт сервер. Это список датчиков, которые имеются в сервере: 

В каждый датчик можно зайти и посмотреть более подробную информацию. Например, напряжение в шине. Оно отмечено на вертикальной шкале этого графика: максимальное, минимальное, плюс запас. 

Если будет скачок до 10 Вольт, шкала уменьшится. Горизонтальная шкала — это временной промежуток. Шаблон ставит точку, когда в шине было достигнуто определённое напряжение. Эту информацию Zabbix заносит в базу данных. Временной интервал можно настраивать, у нас стоит промежуток в 4 минуты. 

Далее — график со шкалой температуры и временным интервалом: 

Снизу — последнее показание: минимальное, максимальное и среднее. Если температура скакнёт выше установленной, левая шкала графика уедет вверх. Отметим, что Zabbix собирает и хранит информацию о самих температурах, а не графики, поэтому для наглядного отображения данных ему нужна графическая система.

Немного о процессе реализации шаблона

Его можно было сделать одним из двух способов: через скрипты или через настройки Zabbix (при помощи встроенных макросов). Второй вариант оказался более быстрым, к тому же внешние скрипты могут быть запрещены службой безопасности компании-заказчика.  

Буквально за один рабочий день мы сделали шаблон через макросы, добавили туда триггеров и написали инструкцию о том, как прикрутить готовый шаблон к любому Zabbix-серверу. На основании этих триггеров заказчик может делать и свои. При срабатывании триггеров, программа выполняет действия, например, подсвечивает строку с «красной» температурой, мигает. В шаблоне мониторинга серверов «Тринити» предусмотрены разные варианты оповещений, например, SMS на телефон, письмо на почту. 

В общем, шаблон, сделанный через макросы, — это быстрое и работающее решение. Работа по изменению его в случае обновления OpenBMC или Redfish займёт 20 минут. Мы можем быстро создать и доработать систему мониторинга под нужды заказчика.

Ссылки: 

Комментарии (4)


  1. Lazhu
    13.05.2024 13:58

    список датчиков, которые имеются в сервере

    Харды, как всегда, фантомы


  1. Bagatur
    13.05.2024 13:58

    Ну хорошо, Redfish так Redfish, а чем не угодил SNMP для мониторинга железа? Какой был резон пилить новый протокол, для которого надо ещё и отдельные телодвижения с шаблонами исполнять вместо того, чтобы готовый MIB использовать?

    Вопрос, конечно, риторический, но тем не менее...


    1. OlgaRode
      13.05.2024 13:58

      Вернёмся с ответом.


    1. gss7 Автор
      13.05.2024 13:58

      В одной из моделей серверов были нюансы с реализацией SNMP, проще было использовать Redfish.