
Простой или не простой, вот в чём вопрос… Звучит философски, но в жизни сисадмина философии мало — куда важнее чёткие показатели. Например, сколько минут (или секунд) сервис может быть недоступен, прежде чем начнутся убытки и паника. Ответ на этот вопрос обычно можно найти в SLA, в котором все хотят увидеть побольше заветных «девяток» аптайма. Но что именно стоит «99,99%», откуда вообще берутся эти «девятки» и зачем SLA нужно ИТ-отделу? Давайте разбираться.
Что такое SLA
SLA — это соглашение об уровне сервиса, формальный договор между поставщиком услуги и её потребителем о том, какого качества сервис обязуется предоставлять поставщик. Проще говоря, SLA — это как гарантийный талон на ИТ-услугу, в котором описываются:
параметры работы сервиса (например, доступность, время отклика, время восстановления),
методы их контроля,
обязанности сторон,
и, главное, целевые показатели качества, которые обещает обеспечить поставщик.
На этом этапе важно понять, кто кому и что обещает по SLA. Чаще всего SLA заключается между провайдером и клиентом. Например, хостинг-провайдер обещает клиенту не менее 99,9% аптайма сервера или регламентирует время реакции поддержки на инциденты. Но SLA применяется и внутри организаций — зачем, расскажу дальше.
В целом, соглашение нужно для того, чтобы устранить разрыв между ожиданиями и реальностью. Пользователи хотят, чтобы сервис просто работал, а инженеры — чтобы их труд оценивали с пониманием ограничений. SLA переводит размытые ожидания в конкретные договорённости, делая уровень сервиса прозрачным и управляемым.
Когда параметры обслуживания формализованы, легче отслеживать отклонения, планировать улучшения и в целом выстраивать доверие.
Откуда берутся «девятки»
Основной параметр, фигурирующий в SLA инфраструктурных сервисов, — это доступность, она же время бесперебойной работы (аптайм). Доступность обычно выражается в процентах от времени за определённый период (месяц или год).
Например, 99% означает, что сервис работал 99% времени, а оставшийся 1% времени был недоступен (даунтайм). Высокие проценты удобнее для восприятия, чем прямое указание простоя в часах, поэтому отрасль обрела свой жаргон.
Так вот, «девятками» называют количество цифр «9» в числе процентов: 90% аптайма именуют «одна девятка», 99% — «две девятки», 99.9% — «три девятки» и т. д. Каждая добавленная девятка означает, что допускается в десять раз меньше времени простоя.

Разница между доступностью 99,9% и 99,99% — это почти 7 часов дополнительного простоя в год. Неудивительно, что для критичных систем требования выражаются в пяти «девятках» и выше.
Как правило, значения SLA устанавливают или на основе возможностей инфраструктуры, или по договорённости сторон, исходя из допустимых рисков.
Например, телеком-операторы исторически стремятся к пяти «девяткам» (99,999% аптайма) в своих сетях. А для внутренних корпоративных сервисов, если простои не слишком критичны, зачастую достаточно и двух «девяток» (99%). За всеми этими процентами стоит расчёт допустимого простоя.
Сколько стоит каждая «девятка»
Каждая дополнительная «девятка» в SLA серьёзно снижает допустимое время простоя. Ниже приведены ориентировочные значения допустимого даунтайма для разных уровней доступности (в расчёте на месяц и на год, при условии 30-дневного месяца и непрерывной работы сервиса 24/7).
Доступность (SLA) |
Простой в месяц |
Простой в год |
99% |
~ 7 ч. 18 мин. |
~ 86 ч. 16 мин. (≈3.6 сут) |
99.9% |
~ 43 мин. 50 с. |
~8 ч. 46 мин. |
99.95% |
~ 21 мин. 55 с. |
~ 4 ч. 23 мин. |
99.99% |
~ 4 мин. 23 с. |
~ 52 мин. 36 с. |
99,999% |
~ 26 с. |
~ 5 мин. 16 с. |
Даже 90% доступности означают ~72 ч простоя в месяц (почти 3 дня) или ~876 ч в год (36.5 суток). То есть «всего лишь» одна девятка на деле равна почти целому месяцу простоя.
Каждый шаг от 99% к 99,9% и так до 99,999% сокращает допустимые «перерывы» работы сервиса или сервера. На основе этого то, что измерялось часами, превращается в минуты или секунды. И, как вы можете понимать, цена каждой девятки высока.
Более того, технически обеспечить такие показатели также значительно сложнее. Например, 99,95% доступности обычно требует как минимум кластер из двух узлов (active-passive), чтобы один мог подхватить работу при сбое второго. А чтобы достичь уровня 99,99% и выше, систему придётся распределить по нескольким дата-центрам — иначе говоря, построить архитектуру без единичной точки отказа.

Если переводить всё на деньги — каждая следующая честная девятка добавляет нолик к стоимости системы, потому что сокращает потери. Допустим, интернет-магазин зарабатывает 50 млн рублей в год. При равномерных продажах это ~5700 руб. в час (в году 8 760 часов). Если его система работает с доступностью 99% (до ~87 часов простоя в год), потенциально теряется около 500 тыс. руб. выручки на простоях. А при 99,99% (до ~52 минут простоя в год) потери сократятся до 5 тыс. рублей.
Однако SLA не гарантия надёжности
«Девятки», к сожалению, не равны реальной безотказности системы. Во-первых, цифры относятся к оговорённой зоне ответственности. Если в соглашении сказано про 99,9% доступности дата-центра, это значит, что провайдер гарантирует бесперебойную работу своей инфраструктуры (электричества, охлаждения, сети) на 99,9% времени. Но если ваш сервер упал из-за бага приложения или «кривого» обновления — это не считается нарушением SLA.
Во-вторых, SLA оговаривает компенсации, а не спасает от простоев. Если провайдер не выполнил условия (аптайм оказался ниже обещанного), вы получите возмещение — обычно в виде кредитов или скидки. Но бизнес-ущерб от простоя этими кредитами не компенсировать полностью.
В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — �� эти часы не войдут в расчёт простоя по SLA.

В итоге на бумаге выходит 99,99%, а фактически сервис ежемесячно имеет час даунтайма на профилактику плюс, возможно, внеплановые сбои. Также важно уточнять период расчёта: 99,9% в месяц — это гораздо мягче, чем 99,9% в год.
Наконец, не все одинаково честны. Дешёвый хостинг с формальными 99,99% может оказаться менее надёжным, чем добросовестный провайдер, честно дающий 99,95%.
На основе описанного, SLA лучше воспринимать как базовый показатель или часть стратегии, но не стоит забывать о резервных копиях, мониторинге, тестировании отказоустойчивости и прочих практических мерах.
Зачем тогда оно нужно
SLA нужно не только провайдерам. Даже ИТ-отделу стоит считать и отслеживать уровень доступности своих сервисов. Итак, внутренний SLA:
Дисциплинирует. Когда вы измеряете аптайм, появляются конкретные цифры, которые можно улучшать. Команда видит: «В прошлом квартале у нас было 99,3% времени без сбоев, давайте постараемся довести до 99,5%». Появляется здоровый ориентир на надёжность.
Повышает прозрачность для соседних команд и руководства. Если ваш отдел поддерживает, скажем, внутреннюю CRM для отдела продаж, договорённость «мы обеспечиваем 99.5% доступности в рабочее время и восстановление за 1 час в случае сбоя» сразу снимает многие вопросы.
Помогает в ретроспективе инцидентов. Благодаря SLA можно точно фиксировать инциденты, минуты простоя, их причины и принятые меры. Эти данные ценны для планирования улучшений и для отчёта перед начальством.
Аптайм для SLA посчитать просто. В целом, это отношение времени бесперебойной работы к общему времени за период, в процентах. Например, за месяц сервис был недоступен суммарно 2 часа, значит, доступность:
(720 ч – 2 ч) / 720 ч × 100% ≈ 99.72%
Обычно внутри команды неформально договариваются, что считать инцидентом и как засекать время простоя (мониторинг вам в помощь). Также важно определить совокупную доступность системы, если она состоит из нескольких компонентов.
Например, ваше веб-приложение зависит от базы данных и API стороннего сервиса. Если у приложения 99.5% аптайма, у базы 99.9%, а у внешнего API — 99%, то общая надёжность будет ограничена самым слабым звеном: примерно 99% (может быть даже чуть меньше, если простои накладываются).
Кстати, зачастую внутренние метрики надёжности называют SLO — цель по уровню сервиса, на которую ориентируется команда. Это по сути то же самое, что и SLA, только без юридического веса. Вы можете оперировать тем термином, который больше нравится.
Инструмент, а не бюрократия
SLA часто воспринимают как нечто формальное, бюрократическую обязанность или маркетинговую уловку. Но, в сущности, правильно выстроенное SLA может стать очень полезным инструментом управления качеством ИТ-сервисов. Оно устанавливает прозрачные ожидания и стимулирует постоянное повышение надёжности.
Конечно, бумага «стерпит всё», и можно подписать соглашение хоть на 200% аптайма. Однако ценность SLA кроется не в самом факте наличия или крутизне цифр, а в том, что за ними стоит реальная работа.
Простой или не простой, вот в чём вопрос… А у вас в ИТ-отделе есть SLA или SLO?
© 2025 ООО «МТ ФИНАНС»
Комментарии (17)

Renatk
21.10.2025 16:41Как считается доступность? Например если 1 клиент получил ответ от сервера, а остальные 99,9% не видят сервис, это является ли проблемой этого дата центра или он скажет: 1 клиент смог открыть сайт, значит "100%" доступность и это проблема остальных 99,9% клиентов, и таким образом не падает downtime счётчик и статистика SLA.

yellowmew
21.10.2025 16:41В статье написано: в SLA согласовываются методы контроля
То есть эту ситуацию банально надо предусмотреть (геораспределенный мониторинг доступности, например)

Dimly
21.10.2025 16:41Интересно в чем отличие 99.9 в месяц от 99.9 в год. Может я что то не понимаю в математике? Или автор?

nv13
21.10.2025 16:41Процент от 30 дней или 365

Dimly
21.10.2025 16:41Процент это процент. Что за 30 что за 365, что я не понимаю?

CherryPah
21.10.2025 16:41Условный 5 часовой даунтайм в одном случае попадает под SLA, в другом нет

Dimly
21.10.2025 16:41Ааа.. для длительных даунтаймов за пределами месячного лимита. Для кучи мелких нет разницы

CherryPah
21.10.2025 16:41Я, если честно, не стал бы пользоваться поставщиком у которого постоянно какие-то даунтаймы, пусть и мелкие и укладывающиеся в обещанный sla.
А вот с какой скоростью обещают установить серьезную аварию - интересно.

Dimly
21.10.2025 16:41А я не про поставщика интересуюсь. Но очень полезный ответ - я был уверен что разницы нет, спасибо

pecmapm
21.10.2025 16:41В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — и эти часы не войдут в расчёт простоя по SLA.
Нужно понимать что частые регламентные работы уменьшают количество времени на котором расчитывается показатель доступности и час недоступности становится дороже и как следствие ниже показатель доступности :)
SWATOPLUS
Каждую ночь вторника стабильно проблемы с серверами доты. 10 минут простоя это норма, а бывает и по часу не найти игру. Казалось бы крупная компания, но до трёх девяток не дотягивают.
kenomimi
Куда игроки с подводной лодки-то убегут... Потому во многих играх простои на обновы регулярны, и игроделов этот факт не смущает. Они теоретически могут понизить простои, но какой экономический эффект это даст, чтобы нести такие большие расходы? Вангую, что никакого.
DNess
Так в ночь со вторника на среду у Valve профилактика небольшая. Там всё ненадолго отваливается и стим и контрстрайки с дотами. Как раз обычно минут в 10-15 укладываются.
SWATOPLUS
Ну так да. Тут больше вопрос, почему если все про это знают и всех это бесит, они с этим ничего не пытались сделать. Там же наверняка не один мейнфрем. Там несколько дублирующих друг друга серверов. Они могли бы обслуживать их по очереди в период малой нагрузки.
В том же поиске игры в доте есть выбор региона, это наверняка разные сервера где игроки встают в очередь. Отключите поиск в России, потом в Восточной Европе, потом Западной. И тот кто ищет игру на трёх регионах (максимум можно 3 региона ставить) её находит, хоть на каком-нибудь.
APXEOLOG
Так может это мало кого бесит, вот и все?