Интегральная оценка метрик загруженности сервера / forpes.ru

Главная
Интегральная оценка метрик загруженности сервера

Интегральная оценка метрик загруженности сервера +4

21.04.2020 14:34

pony77 8 1500 Источник

Работая в одном из крупнейших банков страны мне пришлось столкнутся с задачей оценки эффективности использования ресурсов примерно 16 тысяч серверов. Задача была сформулирована предельно просто — нужно было разработать методологию оценки метрик загрузки сервера за период. В идеале оценка загрузки сервера за период должна производится по одному или нескольким (не более 8) числам.

Несколько слов об особенностях использования виртуальных серверов

В больших организациях (особенно в банках) есть разношерстный зоопарк legacy-приложений, развернутых на разных серверах с помощью разнообразных технологий виртуализации. Частное облако это перспективная технология, но в реальности крупные организации еще долго будут использовать различные платформы виртуализации для развертывания разнообразных приложений.

По мере развития платформ виртуализации наступает момент, когда никто в компании не может понять насколько эффективно используются ресурсы. Даже самые развитые средства мониторинга не дают ответ на этот вопрос из-за различных сценариев использования серверов. Например, в департаменте может быть сервер отчетов, который будет полностью загружен только ограниченный период времени. Скажем, часа 3-4 в конце месяца. В реальных сценариях динамически ресурсы для таких серверов никто не выделяет — это сложно технически и организационно. Ресурсы выделяются именно под максимальную периодическую загрузку сервера, хоть она и бывает нечасто.

Как резюме — в крупных организациях ресурсы виртуальных ферм расходуются крайне неэффективно.

Ниже я предлагаю методологию, с помощью которой можно легко обосновать увеличение и уменьшение ресурсов, выделяемых виртуальному серверу вне зависимости от сценария работы.

Методология

Для оценки загруженности ресурсов необходимо собирать статистику разнообразных счетчиков, для оценки загруженности ресурсов будут использоваться различные метрики. Условно счетчики можно разделить на 2 типа (по скорости изменения): “быстрые” и “медленные”. Хорошим примером “быстрого” счетчика является счетчик загрузки процессора (%CPU). Примером медленного счетчика служит объем свободного места жесткого диска в процентах (%FreeSpace).
Оценка медленных счетчиков заключается в вычислении экстремального (минимального или максимального) значения метрики за период. Такой подход позволяет (например, при оценке свободного места диска) оценить свободный ресурс и, при необходимости, выделить дополнительные объемы или уменьшить текущие.

Для быстрых счетчиков используется другой подход. Недостатки использования простых интегральных метрик (среднее, максимум, минимум и медиана) для оценки динамики таких счетчиков хорошо описаны здесь. К общим недостаткам можно отнести отсутствие информации о повышенных нагрузках (средних и пиковых). Если в качестве интегральной метрики брать максимальное значение за период, то наличие выбросов (например мгновенная загрузка CPU до 100% при запуске программы) не даст объективной информации.

В статье предлагается для оценки быстрой метрики использовать квантиль 0,9 (это значение, которое указывает уровень, ниже которого лежит наблюдаемая величина в 90% отсчетов). При равномерной загрузке сервера по этой метрике мы можем адекватно оценить среднюю загрузку процессора. Но этот подход обладает теми же недостатками — отсутствием информации о повышенных нагрузках (средних и пиковых).

Ниже в качестве иллюстрации недельный и суточный график счетчика %CPU. Максимальное значение счетчика на графиках было 100%.

На графике видно, что в указанный период присутствует всплеск нагрузки, который длится примерно 3 часа. Для этого счетчика был выполнен расчет разнообразных метрик за неделю. Из графика 2 видно, медиана (зеленая линия, значение 5%), среднее (желтая, значение 12%) и квантиль 0,9 (красная, значение 27%) фильтруют изменение нагрузки и информация о ней теряется.

В качестве развития идеи квантилей я хотел бы предложить идею скользящего квантиля. Это аналог скользящей средней, но в качестве оконной функции используется квантиль 0,9. Причем использовать для оценки уровня счетчика мы будем 2 скользящих квантиля — быстрый с небольшим периодом (1 час) и медленный с большим периодом (24 часа). Быстрый квантиль отфильтрует мгновенные выбросы и даст информацию о пиковых нагрузках. Медленный квантиль позволит оценить среднюю нагрузку.

Как видно из графиков скользящие квантили 0,9 это динамические характеристики (коричневый — быстрый, фиолетовый — медленный). Для простоты оценки состояния счетчика в качестве метрик предлагается использовать:

максимальное значение квантиля с периодом 1 час, которое показывает максимальную продолжительную нагрузку сервера за период,
среднее значение квантиля с периодом 24 часа, которое показывает усредненную нагрузку сервера за период.

На графике максимальное значение быстрого квантиля — черная прямая на уровне 85%, среднее значение медленного квантиля — розовая прямая на уровне 30%.

Таким образом, при анализе загруженности ресурсов сервера (по счетчику %CPU) если брать в качестве метрики среднее за месяц (12%), то можно принять ошибочное решение об уменьшении выделенных ресурсов. Двойная метрика быстрый/медленный скользящий квантиль (85 и 30%) показывает, что выделенных ресурсов достаточно, но излишков нет.

Решение

Реализация оценки эффективности использования ресурсов разложилась на 3 задачи:

сбор данных
разработка методологии оценки
имплементация методологии в текущую архитектуру

Выше я рассмотрел задачу 2 этой реализации, ниже немного поговорим о третьей задаче.

Сбор данных производился в БД ClickHouse. Эта колоночная СУБД идеально подходит для хранения time-series данных. Подробно об этом рассказывалось на ClickHouse Meetup 5 сентября 2019 года. Сравнение ClickHouse с другими time-series DBMS можно посмотреть здесь.
В результате сбора данных у нас образовались несколько таблиц, в которых данные были организованы построчно (значения каждого счетчика записывалась в отдельную строку). И, конечно, с сырыми данными были проблемы.

Первая проблема — неравномерность промежутков между записями счетчика. Например, если стандартным периодом записи счетчика были 5 минут, то иногда встречались пропуски и следующая запись отстояла от предыдущей более чем на 5 минут (до 20 минут).

Вторая проблема — иногда данные о счетчике приходили 2 и более раза (с разными значениями) с одной и той же меткой времени.

И третья проблема — в ClickHouse нет оконных функций.

Для решения первой проблемы можно использовать ASOF JOIN. Идея достаточно проста — для каждого счетчика каждого сервера создать таблицу равномерно с равномерно заполненными интервалами времени. Использование ASOF JOIN позволит заполнить значения в новой таблице ближайшими по времени значениями из таблицы сырых данных (варианты заполнения, аналогичные ffill и bfill можно настроить).

Решение второй проблемы — агрегация с выбором максимального значения в данный момент времени.

Для решения третьей проблемы рассматривались несколько вариантов решений. Первый — скрипт на Python был отвергнут из-за недостаточного быстродействия. Второй вариант решения — копирование сырых данные в БД MSSQL, расчет метрик и копирование обратно — показался слишком сложным для реализации. Также в MSSQL есть оконные функции, но нет нужной агрегатной функции. Можно было бы озадачится и написать свою собственную SQL CLR функцию. Но этот вариант был отвергнут из-за излишней сложности.

Рабочим решением может быть SQL скрипт для ClickHouse. Пример этого скрипта приведен ниже. Для простоты я рассмотрел вычисление только быстрого квантиля для одного счетчика для нескольких серверов. Выглядит решение не очень просто и не очень удобно, но работает.

В итоге в тестовом режиме был создан отчет в PowerBI для демонстрации методологии.

Заключение

В качестве заключения хотелось бы порассуждать о развитии решения. Если посмотреть на решение с точки зрения хранилищ данных, то видно, что таким образом решена задача создания хранилища данных (Data Warehouse) из слоя сырых данных (Staging Area). Можно дискутировать об архитектуре, но для ClickHouse как колоночной базы данных нормализация не критична (а может даже вредна).

Дальнейшее развитие хранилища видится в создании таблиц-агрегатов (день\неделя\месяц) с разным временем жизни (TTL). Это позволит избежать чрезмерного распухания хранилища.
Следующим шагом может стать использование данных для предиктивной аналитики.

P.S.

Код и данные для тестирования выложены здесь .

Комментарии (8)

BugM
22.04.2020 02:41
#21525380
А чем это лучше стандартных Graphite и Grafana?

pony77 Автор
22.04.2020 12:28
#21526684
Graphite (так же как SCOM или HP Operation Manager) это система сбора счетчиков.
Набор метрик для оценки счетчиков в системах такого рода сильно ограничен (среднее за период, возможно, медиана). В модельной ситуации по среднему за месяц вы сделаете ошибочный вывод об избыточности выделенных ресурсов.
Я в статье не рассматривал систему сбора, я рассматривал методологию оценки уже собранных счетчиков. Применение методологии помогает правильно оценить загруженность серверов в как сценариях равномерной загрузки, так и в сценарии, когда загрузка сильно неравномерно.
1. BugM
  22.04.2020 13:30
  #21527134
  А кто мешает передавать туда просто cpu каждые n секунд и уже в Графане смотреть графики. Там достаточно возможностей для оценки.
  1. pony77 Автор
    22.04.2020 15:21
    #21527858
    В Графане таких возможностей нет. Смысл статьи — оценить загрузку сервера за период по нескольким числам (это называется интегральные метрики).
    Если у вас десяток серверов — эта статья не для вашей ситуации. Если их 500 — тогда за день вы не сможете просмотреть графики и оценить нагрузку. Если серверов 16000, то для просмотра графиков нужно нанимать армию сисадминов.
    Эта методология позволяет исключить этап разбора графиков.
    
    BugM
    22.04.2020 22:17
    #21529688
    Вы не умеете в Графане квантили считать?
    Или фильтровать все неинтересное?
    
    16к северов должны быть одинаковыми. Абсолютно одинаковыми по небольшому числу групп. И есть смысл смотреть или на усредненную нагрузку по группам, или на выбивающиеся из общей кучи значения.
    
    Нам интересна общая нагрузка, чтобы сопоставлять её с пользователями, рпс или что там у вас и оценивать планы сколько еще надо если нагрузка так то вырастет.
    И нам интересны артефакты. Пошардировали плохо или что-то нетиповое произошло и у нас летит неравномерная нагрузка.
    И то и другое можно смотреть с помощью Графаны и какого-нибудь событийного мониторинга по вкусу.
    Внезапные 99% занятого места на диске хочется получать в Телеграмм, а не искать на графиках. А вот общий рост занятого места так что 99% на заметном проценте машин будет к НГ лучше на графиках видно.
    
    Ваш сценарий когда нагрузка идет 3 часа в месяц как раз и означает что надо резать мощности. А на эти 3 часа поднимать еще контейнер или контейнеры. Экономия. Зачем платить за 31 день, когда можно заплатить за 0.2 дня?

pony77 Автор
23.04.2020 15:08
#21532480
Нам интересна общая нагрузка, чтобы сопоставлять её с пользователями,
— я не настаивая на использовании этого решения вами.

А на эти 3 часа поднимать еще контейнер или контейнеры.
— не все legacy приложения контейнеризируются. Описаный пример — это сервер отчетности, при недостатке вычислительной мощности приложение падает по таймауту, при недостатки памяти — memory error. Второй контейнер не поможет. А если приложение упало, то вас поднимут по звонку в 3 ночи в воскресенье и потребуют отчетов для топов по почте.
Из-за того, что у вас появилась технология контейнеризации никто не будет бросаться переписывать приложения. Работает — не трогай. Это типичная картина для многих крупных организаций.
1. BugM
  23.04.2020 21:37
  #21534044
  Вы деньги из тумбочки берете?
  a1.2xlarge 8 16 ГиБ 0,2328 USD за час или 171 бакс в месяц.
  Если у вас таких десяток (что очень далеко даже от 500 из вашего прошлого комментария) это 1700 баксов в месяц. Вы уверены что выделить разработчика на месяц чтобы он адаптировал софт к контейнерам и экономил 80% от этой суммы обойдется дороже чем платить за простаивающие сервера?
  
  Да-да Амазон дорогой. Пусть даже ваш хостинг раза в 2 дешевле. Все равно окупаемость адаптации это месяцы, а не годы. При паттерне нагрузки: 20% — типовая, 95% — 3 часа в месяц и размере кластера хотя бы от десятка серверов.
  1. pony77 Автор
    24.04.2020 16:53
    #21537484
    Вы деньги из тумбочки берете?
    Не я, а работодатель и не из тумбочки, а из воздуха (банковский мультипликатор — это даже не воздух, а вакуум, полная пустота). Вы, видимо, не читали первый абзац статьи.
    Поэтому разговоры про AWS (и даже про Яндекс.облако) бессмысленны. Есть законодательство, есть СБ банка, они определяют что и как делать. Без санкции СБ вы даже чихнуть не сможете.

Интегральная оценка метрик загруженности сервера +4

Несколько слов об особенностях использования виртуальных серверов

Методология

Решение

Заключение

Комментарии (8)

BugM

pony77 Автор

BugM

pony77 Автор

BugM

pony77 Автор

BugM

pony77 Автор