• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll
logo

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • Управление мощностями ? та ещё задачка

Управление мощностями ? та ещё задачка +5

24.04.2017 16:45
ITSystemsManagement 0 1600 Источник
Серверное администрирование*, Серверная оптимизация*, IT-инфраструктура*, Блог компании Инфосистемы Джет
Отлично, когда ваше ИТ-детище сталкивается с ростом выручки, пользователей, CTR, обрабатываемых документов, кредитных заявок, количества филиалов и прочих приятно почесывающих ЧСВ вещах. Все эти штуки называются бизнес-драйверами, которые в правильной ситуации коррелируют с нагрузкой на ИТ-инфраструктуру, расположенной под вашим сервисом. Правильное планирование мощностей защитит вас от epic fails в чёрную пятницу (чтобы она не стала действительно чёрной ;)) и ваш бюджет во все остальные дни. Сегодня поговорим не о самом процессе управления мощностями, а о технической стороне вопроса. Расскажу, при помощи каких отчетов можно прикидывать тренды и строить корреляционные матрицы. Давайте вкратце расскажу какой опыт мы скопили, а все вопросы задавайте в комментариях или личным сообщением. Поехали!
cost_risk_balance



Первый метод оценки ? временной анализ. Сам по себе он бывает нескольких видов.

1. Производительность во времени (PTA – Performance vs Time analysis) –показывает значения одной или более метрик производительности за выбранный интервал времени. Ещё можно визуализировать несколько метрик, принадлежащих к различным системам в разных масштабах.

Основными задачами этого типа анализа являются:

  • определение наиболее критических ресурсов, для последующего использования в «что-если» анализе;
  • создание пороговых (базовых) уровней производительности для систем, основанных на исторических данных, для:
    • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе,
    • анализа тенденций (линейные, скользящие средние),
    • обнаружения типичного поведения (ежедневно, еженедельно, ежемесячно);
  • определения пиковых нагрузок;
  • определения повторяющихся всплесков и их значений.


pta_analyse

Пример временного анализа с визуализаций 3 метрик – загрузок ЦПУ, оперативной и дисковой памяти

2. Нагрузка во времени (LTA – Load vs Time analysis) – показывает поведение одной или нескольких бизнес-метрик в выбранный интервал времени. Примером является количество сделок в течение определенного периода времени.

Основные задачи LTA:

  • провести анализ и выбрать бизнес-метрики по следующим критериям:
    • значимость приложений,
    • зависимость между бизнес-метриками;

  • проверки или изменения временных интервалов, которые будут использоваться в дальнейшем анализе;
  • анализ тенденций (линейные, скользящие средние);
  • обнаружение типичного поведения (ежедневно, еженедельно, ежемесячно), возможных пиков нагрузок при выполнении периодических заданий;
  • определение повторяющихся всплесков и их значений;
  • определение пороговых значений бизнес-метрик для расчёта средних показателей и дисперсии.


pta_analyse_business_metrics

Пример временного анализа бизнес-метрик

3. Анализ конфигураций (CA — configuration analysis) – показывает исторические значения конфигурации конечных серверов и т.п. за выбранный период времени.

pta_analyse_infrastructure

Пример временного анализа конфигураций аппаратного комплекса

Второй метод оценки — корреляционный анализ.

При анализе данных создаются связки между бизнес-драйверами и технологическими ресурсами в соответствии с коэффициентом корреляции. Коэффициент корреляции ? это такой зверь, который показывает степень взаимосвязи двух метрик и может принимать значения от -100% (полная обратная зависимость) до +100% (полная прямая зависимость). Значение равное 0 (и близкое к нему) показывает отсутствие зависимости между парой метрик.

При построении отчета корреляционный анализ используется для построения корреляционных карт и карт бизнес-метрик. Карты бизнес-метрик ? ключевой компонент при построении отчета, отображающий зависимость бизнес-показателей и используемых ресурсов. К примеру, на рисунке ниже, приведена зависимость бизнес-метрик (количество запросов от веб-клиента и количество отправленных сообщений веб-клиенту) от ресурсов сервера приложений и СУБД, на котором работает приложение.

depending_metrics

Пример зависимостей метрик

На основании этой информации настраиваются карты бизнес-метрик для последующего анализа производительности в разрезе бизнес-нагрузки.

business_metrics_map

Пример карты бизнес-метрик

metrics_correlation

Расчет корреляции значений параметров производительности и бизнес-метрик

В результате выявляется степень загрузки бизнес-метриками конкретных ресурсов на конкретных серверах:

resource_load

Степень загрузки ресурсов нагрузкой бизнес-метрик

Полученные данные позволяют наглядно отразить зависимость бизнес-метрик от выделенных ресурсов и определить точки насыщения и т.п.:

PLA

Зависимость и точка насыщения общего количества запросов в бизнес-системе к загрузке CPU

Также, корреляционный анализ используется для сравнения любых пар метрик в системе. Это могут быть как бизнес-метрики, так и метрики производительности:

LLA

Пример сравнения двух бизнес-метрик (количество заходов на сайт против количества просмотренных страниц

comparison

Пример сравнения метрик производительности

И, наконец, третий тип оценки ? расчет трендов.

Модель прогнозирования будущего поведения (расчет трендов) используется, для определения будущих значений и динамики изменения одного или нескольких показателей производительности (или бизнес-метрик) по историческим данным.

Ниже на рисунке представлена модель возможного использования данного механизма. В систему загружены исторические данные по загрузке исходящего канала связи. Для этого параметра выставлено пороговое значение – 70% загрузки канала от максимально возможного. С помощью механизма экстраполяции автоматически выстраивается тренд динамики роста параметра и определяется время насыщения (достижения порогового значения) – менее 1 календарного месяца.

trend_calculation

Пример использования расчета тренда для определения времени насыщения

Такой инструмент также используется для проведения «что-если» анализа. К примеру, ниже представлен вариант сценария по расчету увеличения общего дискового пространства. На графике зеленым показан выделенный объем и точка увеличения дискового пространства (середина марта). Синим – график использования дискового пространства. Таким образом, построенный тренд и «что-если» анализ (добавление диска) показывают, что точка насыщения не наступит до конца года.

what_if

Вариант сценария по расчету увеличения общего дискового пространства

«Что-если» анализ также используется для расчета показателей работы ИТ-инфраструктуры в зависимости от изменяемых значений бизнес-метрик.

На рисунке ниже приведен пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов. В первой части таблицы указаны бизнес-метрики (Visits, Orders Received) и их текущие значения (30 000 заходов в час и 1 000 заказов). В графе Target указываются проверяемые значения параметров (120 000 и 5 000). В результате можно рассчитать максимальную нагрузку на инфраструктуру (61 500 и 2 400 соответственно), а также видна точка отказа – производительность CPU (красная точка на таблице внизу).

point_of_failure

Пример расчета максимально возможных показателей заходов в систему и количества отправляемых заказов

Таким образом, можно определить максимальную мощность инфраструктуры, определить узкие места и своевременно принять решение о модернизации.

Пожалуйста, обращайтесь с вопросами в комментариях. А если задача требует чуть более вдумчивого подхода, наш консалтинг – он, как майские праздники, – всегда вас порадует.

В конце поста есть пара опросов, будет здорово, если вы сможете уделить на них пару десятков секунд. Спасибо!

Автор статьи: Антон Касимов, архитектор систем управления, компания «Инфосистемы Джет».
Расскажите, как вы управляете мощностями

Проголосовало 12 человек. Воздержалось 7 человек.

Внедрен ли у вас в компании ITIL-процесс управления мощностями?

Проголосовало 10 человек. Воздержалось 6 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (0)

МЕТКИ

  • Хабы
  • Теги

Серверное администрирование

Серверная оптимизация

IT-инфраструктура

Блог компании Инфосистемы Джет

ит-инфраструктура

управление мощностями

инфосистемы джет

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • Управление мощностями ? та ещё задачка +5

    • 24.04.2017 16:45

    Удобная памятка и 8 ссылок на документацию по ГОСТ 34 (автоматизированные системы) +8

    • 17.02.2017 03:20

    Gartner выкатил новый магический квадрант для систем мониторинга +8

    • 19.01.2017 12:24

    Декомпиляция Java-методов на продуктивном приложении под нагрузкой – миф или реальность? +7

    • 10.11.2016 07:06

    Тестируем не совсем реальный (или совсем нереальный) мониторинг от New Relic и Appdynamics +7

    • 20.10.2016 16:39

    Как приготовить тосты и заодно визуализировать ИТ-системы +10

    • 03.10.2016 23:20

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
07:01

Почтовый Шарпей: как мы приручили 700+ шардов PostgreSQL +18

08:05

Сложно о простом. Все, что бы вы хотели знать о SFP модулях. Часть 2. Оптические кабели +17

09:08

Как я чуть не положил домен заказчика ZeroLogon’ом, или почему некоторые пентестеры опаснее хакеров +16

07:14

ML глазами практика и препода. Часть 2. Границы роста и цена энергии +16

07:14

ML глазами практика и препода. Часть 2. Границы роста и цена энергии +16

07:05

Ликбез по стоковым лицензиям: как легально использовать картинки и избежать штрафов +13

09:02

5 распространенных ошибок, которые допускают пользователи NAS +12

07:38

Как создавался и эволюционировал бот-комбайн для автоматизации техподдержки Купера +12

07:01

Регулярные выражения в плагине «Аналитика» для Р7 офис +10

03:02

Делаем LLM-советника по акциям РФ как в Alfa Arena +10

09:01

HTML и CSS антипаттерны +9

08:09

Как мы в коробках рассылки разгоняли +9

06:45

Схематизация мыследеятельности: от наскальных рисунков к бизнес-нотациям +9

10:01

Развёртывание своего облачного хранилища на VPS: Nextсloud и альтернативы +8

09:26

Обзор возможностей для разработчиков при работе с VK Mini Apps +7

10:38

Инженерная зрелость. Исследование практик и триггеров +6

09:18

Цифровой рентген: перемываем кости, зубы, иглы, да все что найдем +6

07:13

Организуем хаос: как аналитику составить надежный план встреч по сбору требований с заказчиком +6

06:55

VPN для админа, а не админ для VPN: Как мы убили OpenVPN и построили всё на WireGuard +6

06:22

BDD как клей между TDD и DDD +6

11:44

Протокол VLESS: Как он обходит цензуру в России и почему это работает +121

06:40

Почему дисциплина через силу не работает +79

11:22

Почему Pascal лучше для обучения программированию, чем Python +72

09:01

Разбираемся с композитным видеосигналом NTSC, и стоит ли изучать его в 2025 году. Часть 1 +57

10:20

Водоснабжение в Древнем Риме +46

13:01

Про 3D-печать нейлоном +43

13:07

Клиент telega сотрудничает с telegram и Павлом Дуровым? Разбираемся +41

04:09

Раздувает ли пузырь круговое финансирование ИИ? +37

11:30

Электроника в вопросах и ответах 4 +36

08:05

«Он же айтишник, у них всем платят по триста»: проверяем легенды IT-рынка с Патриков +36

12:20

Что такое глина? +24

08:00

Как использовать callback-функции в JavaScript +23

12:15

Визуализация горного ландшафта на C++ или велосипед для рендеринга +22

18:15

Почему Fortran в 2025 году всё ещё остаётся «ракетой» +21

14:31

Пять новых мини-ПК ноября 2025 года: от крошечных AI-станций до «умных» колонок с Ryzen +16

05:53

URL как контейнер состояния +16

07:51

Ухо не выполняет преобразование Фурье +14

05:01

Единая теория всего… в 3D графике? Разбираем алгебру Клиффорда как универсальный язык геометрии +14

15:02

Экспериментальные дата-центры списывают, а классические ЦОДы снова в моде? Подробный анализ ситуации +12

11:04

Математический парадокс показывает, как сочетание проигрышных стратегий может привести к победе +12

06:51

С go на C++ за две недели. Переписываю эмулятор ZX Spectrum +65

09:01

3D-реконструкция древних городов: Теночтитлан/Мехико +62

13:47

Я зарабатываю 1.8 млн в год, но мне нужно постараться, чтобы они не умерли +40

13:01

Паттерны ООП в 10 минутах от вас… Поведенческие шаблоны с примерами на Java +40

09:12

Почему Wi‑Fi в самолете такой ужасный, дорогой и до сих пор есть не везде? +39

12:20

Нобелевская премия по экономике 2025: почему это важно для рынка IT +37

08:00

Что делать, когда нашел эксплойт: шпаргалка, как помочь владельцу решения +36

05:26

Телеграм опять щемят в России, а также блокировки Revolut для россиян +35

06:41

Ранняя история алгебраических типов данных +27

08:10

Наука утверждает, что психологический пик человека приходится на возраст 55-60 лет +26

10:05

Когда мобильный гейминг встает на уровень с консольным. Смотрим, во что поиграть на смартфоне +24

09:00

AdGuard DNS: от нуля до 100 000 000 пользователей через боль +24

22:54

Делаем мыши Asus ROG полезными +23

06:53

Как мы освободили 7 ТиБ памяти +23

06:45

Инвертор напряжения или Inverting Buck-Boost +20

13:15

Сколько ели динозавры и при какой температуре их яйца развивались +16

10:38

Сразиться с драконом и сварить зелье: 4 настольные игры для любителей фэнтези +15

10:32

Sora 2 и Veo 3.1 борются за лидерство, Маск воюет с Википедией: главные события октября в ИИ +15

08:23

Создаем GUI на Python: от простого скрипта к Markdown-редактору с Flet +15

09:21

Как шпионить за самим собой и зачем это нужно +13

ОБСУЖДАЕМОЕ

  • Почему дисциплина через силу не работает +81

    • 215   55000

    Почему Pascal лучше для обучения программированию, чем Python +72

    • 198   14000

    «Он же айтишник, у них всем платят по триста»: проверяем легенды IT-рынка с Патриков +36

    • 168   35000

    Пользовательский опыт остается заложником предубеждений. MAX и Telegram -28

    • 153   21000

    Протокол VLESS: Как он обходит цензуру в России и почему это работает +121

    • 128   36000

    Я зарабатываю 1.8 млн в год, но мне нужно постараться, чтобы они не умерли +40

    • 125   79000

    Как я решил бросить программирование, стать вайбкодером и что из этого вышло -3

    • 86   22000

    Я хакнул галактику (часть 2) +7

    • 73   7200

    Как Amazon сделал склад умным, а Россия – нет +8

    • 72   15000

    Наука утверждает, что психологический пик человека приходится на возраст 55-60 лет +26

    • 63   41000

    Когда роботы начнут копировать роботов, накопленный капитал обесценится до нуля, а работы не будет как понятия +12

    • 56   10000

    Телеграм опять щемят в России, а также блокировки Revolut для россиян +35

    • 46   14000

    Почему Python так популярен в 2025? +1

    • 38   5300

    Почему Fortran в 2025 году всё ещё остаётся «ракетой» +21

    • 37   6300

    Заменяем лишние if-проверки на assert для инвариантов кода в C/C++ +2

    • 37   5800
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.