Что такое SLA, и сколько стоит девятка в аптайме / forpes.ru

Главная
Что такое SLA, и сколько стоит девятка в аптайме

Что такое SLA, и сколько стоит девятка в аптайме +39

21.10.2025 12:21

SrvTrantor 17 4700 Источник

Простой или не простой, вот в чём вопрос… Звучит философски, но в жизни сисадмина философии мало — куда важнее чёткие показатели. Например, сколько минут (или секунд) сервис может быть недоступен, прежде чем начнутся убытки и паника. Ответ на этот вопрос обычно можно найти в SLA, в котором все хотят увидеть побольше заветных «девяток» аптайма. Но что именно стоит «99,99%», откуда вообще берутся эти «девятки» и зачем SLA нужно ИТ-отделу? Давайте разбираться.

Что такое SLA

SLA — это соглашение об уровне сервиса, формальный договор между поставщиком услуги и её потребителем о том, какого качества сервис обязуется предоставлять поставщик. Проще говоря, SLA — это как гарантийный талон на ИТ-услугу, в котором описываются:

параметры работы сервиса (например, доступность, время отклика, время восстановления),
методы их контроля,
обязанности сторон,
и, главное, целевые показатели качества, которые обещает обеспечить поставщик.

На этом этапе важно понять, кто кому и что обещает по SLA. Чаще всего SLA заключается между провайдером и клиентом. Например, хостинг-провайдер обещает клиенту не менее 99,9% аптайма сервера или регламентирует время реакции поддержки на инциденты. Но SLA применяется и внутри организаций — зачем, расскажу дальше.

В целом, соглашение нужно для того, чтобы устранить разрыв между ожиданиями и реальностью. Пользователи хотят, чтобы сервис просто работал, а инженеры — чтобы их труд оценивали с пониманием ограничений. SLA переводит размытые ожидания в конкретные договорённости, делая уровень сервиса прозрачным и управляемым.

Когда параметры обслуживания формализованы, легче отслеживать отклонения, планировать улучшения и в целом выстраивать доверие.

Откуда берутся «девятки»

Основной параметр, фигурирующий в SLA инфраструктурных сервисов, — это доступность, она же время бесперебойной работы (аптайм). Доступность обычно выражается в процентах от времени за определённый период (месяц или год).

Например, 99% означает, что сервис работал 99% времени, а оставшийся 1% времени был недоступен (даунтайм). Высокие проценты удобнее для восприятия, чем прямое указание простоя в часах, поэтому отрасль обрела свой жаргон.

Так вот, «девятками» называют количество цифр «9» в числе процентов: 90% аптайма именуют «одна девятка», 99% — «две девятки», 99.9% — «три девятки» и т. д. Каждая добавленная девятка означает, что допускается в десять раз меньше времени простоя.

Разница между доступностью 99,9% и 99,99% — это почти 7 часов дополнительного простоя в год. Неудивительно, что для критичных систем требования выражаются в пяти «девятках» и выше.

Как правило, значения SLA устанавливают или на основе возможностей инфраструктуры, или по договорённости сторон, исходя из допустимых рисков.

Например, телеком-операторы исторически стремятся к пяти «девяткам» (99,999% аптайма) в своих сетях. А для внутренних корпоративных сервисов, если простои не слишком критичны, зачастую достаточно и двух «девяток» (99%). За всеми этими процентами стоит расчёт допустимого простоя.

Сколько стоит каждая «девятка»

Каждая дополнительная «девятка» в SLA серьёзно снижает допустимое время простоя. Ниже приведены ориентировочные значения допустимого даунтайма для разных уровней доступности (в расчёте на месяц и на год, при условии 30-дневного месяца и непрерывной работы сервиса 24/7).

Доступность (SLA)	Простой в месяц	Простой в год
99%	~ 7 ч. 18 мин.	~ 86 ч. 16 мин. (≈3.6 сут)
99.9%	~ 43 мин. 50 с.	~8 ч. 46 мин.
99.95%	~ 21 мин. 55 с.	~ 4 ч. 23 мин.
99.99%	~ 4 мин. 23 с.	~ 52 мин. 36 с.
99,999%	~ 26 с.	~ 5 мин. 16 с.

Даже 90% доступности означают ~72 ч простоя в месяц (почти 3 дня) или ~876 ч в год (36.5 суток). То есть «всего лишь» одна девятка на деле равна почти целому месяцу простоя.

Каждый шаг от 99% к 99,9% и так до 99,999% сокращает допустимые «перерывы» работы сервиса или сервера. На основе этого то, что измерялось часами, превращается в минуты или секунды. И, как вы можете понимать, цена каждой девятки высока.

Более того, технически обеспечить такие показатели также значительно сложнее. Например, 99,95% доступности обычно требует как минимум кластер из двух узлов (active-passive), чтобы один мог подхватить работу при сбое второго. А чтобы достичь уровня 99,99% и выше, систему придётся распределить по нескольким дата-центрам — иначе говоря, построить архитектуру без единичной точки отказа.

Если переводить всё на деньги — каждая следующая честная девятка добавляет нолик к стоимости системы, потому что сокращает потери. Допустим, интернет-магазин зарабатывает 50 млн рублей в год. При равномерных продажах это ~5700 руб. в час (в году 8 760 часов). Если его система работает с доступностью 99% (до ~87 часов простоя в год), потенциально теряется около 500 тыс. руб. выручки на простоях. А при 99,99% (до ~52 минут простоя в год) потери сократятся до 5 тыс. рублей.

Однако SLA не гарантия надёжности

«Девятки», к сожалению, не равны реальной безотказности системы. Во-первых, цифры относятся к оговорённой зоне ответственности. Если в соглашении сказано про 99,9% доступности дата-центра, это значит, что провайдер гарантирует бесперебойную работу своей инфраструктуры (электричества, охлаждения, сети) на 99,9% времени. Но если ваш сервер упал из-за бага приложения или «кривого» обновления — это не считается нарушением SLA.

Во-вторых, SLA оговаривает компенсации, а не спасает от простоев. Если провайдер не выполнил условия (аптайм оказался ниже обещанного), вы получите возмещение — обычно в виде кредитов или скидки. Но бизнес-ущерб от простоя этими кредитами не компенсировать полностью.

В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — �� эти часы не войдут в расчёт простоя по SLA.

В итоге на бумаге выходит 99,99%, а фактически сервис ежемесячно имеет час даунтайма на профилактику плюс, возможно, внеплановые сбои. Также важно уточнять период расчёта: 99,9% в месяц — это гораздо мягче, чем 99,9% в год.

Наконец, не все одинаково честны. Дешёвый хостинг с формальными 99,99% может оказаться менее надёжным, чем добросовестный провайдер, честно дающий 99,95%.

На основе описанного, SLA лучше воспринимать как базовый показатель или часть стратегии, но не стоит забывать о резервных копиях, мониторинге, тестировании отказоустойчивости и прочих практических мерах.

Зачем тогда оно нужно

SLA нужно не только провайдерам. Даже ИТ-отделу стоит считать и отслеживать уровень доступности своих сервисов. Итак, внутренний SLA:

Дисциплинирует. Когда вы измеряете аптайм, появляются конкретные цифры, которые можно улучшать. Команда видит: «В прошлом квартале у нас было 99,3% времени без сбоев, давайте постараемся довести до 99,5%». Появляется здоровый ориентир на надёжность.
Повышает прозрачность для соседних команд и руководства. Если ваш отдел поддерживает, скажем, внутреннюю CRM для отдела продаж, договорённость «мы обеспечиваем 99.5% доступности в рабочее время и восстановление за 1 час в случае сбоя» сразу снимает многие вопросы.
Помогает в ретроспективе инцидентов. Благодаря SLA можно точно фиксировать инциденты, минуты простоя, их причины и принятые меры. Эти данные ценны для планирования улучшений и для отчёта перед начальством.

Аптайм для SLA посчитать просто. В целом, это отношение времени бесперебойной работы к общему времени за период, в процентах. Например, за месяц сервис был недоступен суммарно 2 часа, значит, доступность:

(720 ч – 2 ч) / 720 ч × 100% ≈ 99.72%

Обычно внутри команды неформально договариваются, что считать инцидентом и как засекать время простоя (мониторинг вам в помощь). Также важно определить совокупную доступность системы, если она состоит из нескольких компонентов.

Например, ваше веб-приложение зависит от базы данных и API стороннего сервиса. Если у приложения 99.5% аптайма, у базы 99.9%, а у внешнего API — 99%, то общая надёжность будет ограничена самым слабым звеном: примерно 99% (может быть даже чуть меньше, если простои накладываются).

Кстати, зачастую внутренние метрики надёжности называют SLO — цель по уровню сервиса, на которую ориентируется команда. Это по сути то же самое, что и SLA, только без юридического веса. Вы можете оперировать тем термином, который больше нравится.

Инструмент, а не бюрократия

SLA часто воспринимают как нечто формальное, бюрократическую обязанность или маркетинговую уловку. Но, в сущности, правильно выстроенное SLA может стать очень полезным инструментом управления качеством ИТ-сервисов. Оно устанавливает прозрачные ожидания и стимулирует постоянное повышение надёжности.

Конечно, бумага «стерпит всё», и можно подписать соглашение хоть на 200% аптайма. Однако ценность SLA кроется не в самом факте наличия или крутизне цифр, а в том, что за ними стоит реальная работа.

Простой или не простой, вот в чём вопрос… А у вас в ИТ-отделе есть SLA или SLO?

Комментарии (17)

SWATOPLUS
21.10.2025 16:41
#28993370
Каждую ночь вторника стабильно проблемы с серверами доты. 10 минут простоя это норма, а бывает и по часу не найти игру. Казалось бы крупная компания, но до трёх девяток не дотягивают.
1. kenomimi
  21.10.2025 16:41
  #28993978
  Куда игроки с подводной лодки-то убегут... Потому во многих играх простои на обновы регулярны, и игроделов этот факт не смущает. Они теоретически могут понизить простои, но какой экономический эффект это даст, чтобы нести такие большие расходы? Вангую, что никакого.
1. DNess
  21.10.2025 16:41
  #28994742
  Так в ночь со вторника на среду у Valve профилактика небольшая. Там всё ненадолго отваливается и стим и контрстрайки с дотами. Как раз обычно минут в 10-15 укладываются.
  1. SWATOPLUS
    21.10.2025 16:41
    #28995204
    Ну так да. Тут больше вопрос, почему если все про это знают и всех это бесит, они с этим ничего не пытались сделать. Там же наверняка не один мейнфрем. Там несколько дублирующих друг друга серверов. Они могли бы обслуживать их по очереди в период малой нагрузки.
    
    В том же поиске игры в доте есть выбор региона, это наверняка разные сервера где игроки встают в очередь. Отключите поиск в России, потом в Восточной Европе, потом Западной. И тот кто ищет игру на трёх регионах (максимум можно 3 региона ставить) её находит, хоть на каком-нибудь.
    
    APXEOLOG
    21.10.2025 16:41
    #28995356
    Так может это мало кого бесит, вот и все?

Renatk
21.10.2025 16:41
#28993498
Как считается доступность? Например если 1 клиент получил ответ от сервера, а остальные 99,9% не видят сервис, это является ли проблемой этого дата центра или он скажет: 1 клиент смог открыть сайт, значит "100%" доступность и это проблема остальных 99,9% клиентов, и таким образом не падает downtime счётчик и статистика SLA.
1. yellowmew
  21.10.2025 16:41
  #29004944
  В статье написано: в SLA согласовываются методы контроля
  
  То есть эту ситуацию банально надо предусмотреть (геораспределенный мониторинг доступности, например)

Tzimie
21.10.2025 16:41
#28993502
И ни единого разрыва!
1. SWATOPLUS
  21.10.2025 16:41
  #28994476
  Я плачу, большую сумму, на баланс, что бы не было вообще разрывов.

Dimly
21.10.2025 16:41
#28994522
Интересно в чем отличие 99.9 в месяц от 99.9 в год. Может я что то не понимаю в математике? Или автор?
1. nv13
  21.10.2025 16:41
  #28994636
  Процент от 30 дней или 365
  1. Dimly
    21.10.2025 16:41
    #28994772
    Процент это процент. Что за 30 что за 365, что я не понимаю?
    
    CherryPah
    21.10.2025 16:41
    #28995292
    Условный 5 часовой даунтайм в одном случае попадает под SLA, в другом нет
    
    Dimly
    21.10.2025 16:41
    #28997260
    Ааа.. для длительных даунтаймов за пределами месячного лимита. Для кучи мелких нет разницы
    
    CherryPah
    21.10.2025 16:41
    #29001672
    Я, если честно, не стал бы пользоваться поставщиком у которого постоянно какие-то даунтаймы, пусть и мелкие и укладывающиеся в обещанный sla.
    
    А вот с какой скоростью обещают установить серьезную аварию - интересно.
    
    Dimly
    21.10.2025 16:41
    #29003500
    А я не про поставщика интересуюсь. Но очень полезный ответ - я был уверен что разницы нет, спасибо

pecmapm
21.10.2025 16:41
#28996886
В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — и эти часы не войдут в расчёт простоя по SLA.

Нужно понимать что частые регламентные работы уменьшают количество времени на котором расчитывается показатель доступности и час недоступности становится дороже и как следствие ниже показатель доступности :)