Простой или не простой, вот в чём вопрос… Звучит философски, но в жизни сисадмина философии мало — куда важнее чёткие показатели. Например, сколько минут (или секунд) сервис может быть недоступен, прежде чем начнутся убытки и паника. Ответ на этот вопрос обычно можно найти в SLA, в котором все хотят увидеть побольше заветных «девяток» аптайма. Но что именно стоит «99,99%», откуда вообще берутся эти «девятки» и зачем SLA нужно ИТ-отделу? Давайте разбираться.

Что такое SLA

SLA — это соглашение об уровне сервиса, формальный договор между поставщиком услуги и её потребителем о том, какого качества сервис обязуется предоставлять поставщик. Проще говоря, SLA — это как гарантийный талон на ИТ-услугу, в котором описываются: 

  • параметры работы сервиса (например, доступность, время отклика, время восстановления),

  • методы их контроля,

  • обязанности сторон,

  • и, главное, целевые показатели качества, которые обещает обеспечить поставщик.

На этом этапе важно понять, кто кому и что обещает по SLA. Чаще всего SLA заключается между провайдером и клиентом. Например, хостинг-провайдер обещает клиенту не менее 99,9% аптайма сервера или регламентирует время реакции поддержки на инциденты. Но SLA применяется и внутри организаций — зачем, расскажу дальше. 

В целом, соглашение нужно для того, чтобы устранить разрыв между ожиданиями и реальностью. Пользователи хотят, чтобы сервис просто работал, а инженеры — чтобы их труд оценивали с пониманием ограничений. SLA переводит размытые ожидания в конкретные договорённости, делая уровень сервиса прозрачным и управляемым.

Когда параметры обслуживания формализованы, легче отслеживать отклонения, планировать улучшения и в целом выстраивать доверие.

Откуда берутся «девятки»

Основной параметр, фигурирующий в SLA инфраструктурных сервисов, — это доступность, она же время бесперебойной работы (аптайм). Доступность обычно выражается в процентах от времени за определённый период (месяц или год). 

Например, 99% означает, что сервис работал 99% времени, а оставшийся 1% времени был недоступен (даунтайм). Высокие проценты удобнее для восприятия, чем прямое указание простоя в часах, поэтому отрасль обрела свой жаргон.

Так вот, «девятками» называют количество цифр «9» в числе процентов: 90% аптайма именуют «одна девятка», 99% — «две девятки», 99.9% — «три девятки» и т. д. Каждая добавленная девятка означает, что допускается в десять раз меньше времени простоя

Разница между доступностью 99,9% и 99,99% — это почти 7 часов дополнительного простоя в год. Неудивительно, что для критичных систем требования выражаются в пяти «девятках» и выше.

Как правило, значения SLA устанавливают или на основе возможностей инфраструктуры, или по договорённости сторон, исходя из допустимых рисков. 

Например, телеком-операторы исторически стремятся к пяти «девяткам» (99,999% аптайма) в своих сетях. А для внутренних корпоративных сервисов, если простои не слишком критичны, зачастую достаточно и двух «девяток» (99%). За всеми этими процентами стоит расчёт допустимого простоя.

Сколько стоит каждая «девятка»

Каждая дополнительная «девятка» в SLA серьёзно снижает допустимое время простоя. Ниже приведены ориентировочные значения допустимого даунтайма для разных уровней доступности (в расчёте на месяц и на год, при условии 30-дневного месяца и непрерывной работы сервиса 24/7).

Доступность (SLA)

Простой в месяц

Простой в год

99%

~ 7 ч. 18 мин.

~ 86 ч. 16 мин. (≈3.6 сут)

99.9%

~ 43 мин. 50 с.

~8 ч. 46 мин.

99.95%

~ 21 мин. 55 с.

~ 4 ч. 23 мин.

99.99%

~ 4 мин. 23 с.

~ 52 мин. 36 с.

99,999%

~ 26 с.

~ 5 мин. 16 с.

Даже 90% доступности означают ~72 ч простоя в месяц (почти 3 дня) или ~876 ч в год (36.5 суток). То есть «всего лишь» одна девятка на деле равна почти целому месяцу простоя.

Каждый шаг от 99% к 99,9% и так до 99,999% сокращает допустимые «перерывы» работы сервиса или сервера. На основе этого то, что измерялось часами, превращается в минуты или секунды. И, как вы можете понимать, цена каждой девятки высока.

Более того, технически обеспечить такие показатели также значительно сложнее. Например, 99,95% доступности обычно требует как минимум кластер из двух узлов (active-passive), чтобы один мог подхватить работу при сбое второго. А чтобы достичь уровня 99,99% и выше, систему придётся распределить по нескольким дата-центрам — иначе говоря, построить архитектуру без единичной точки отказа. 

Если переводить всё на деньги — каждая следующая честная девятка добавляет нолик к стоимости системы, потому что сокращает потери. Допустим, интернет-магазин зарабатывает 50 млн рублей в год. При равномерных продажах это ~5700 руб. в час (в году 8 760 часов). Если его система работает с доступностью 99% (до ~87 часов простоя в год), потенциально теряется около 500 тыс. руб. выручки на простоях. А при 99,99% (до ~52 минут простоя в год) потери сократятся до 5 тыс. рублей. 

Однако SLA не гарантия надёжности

«Девятки», к сожалению, не равны реальной безотказности системы. Во-первых, цифры относятся к оговорённой зоне ответственности. Если в соглашении сказано про 99,9% доступности дата-центра, это значит, что провайдер гарантирует бесперебойную работу своей инфраструктуры (электричества, охлаждения, сети) на 99,9% времени. Но если ваш сервер упал из-за бага приложения или «кривого» обновления — это не считается нарушением SLA. 

Во-вторых, SLA оговаривает компенсации, а не спасает от простоев. Если провайдер не выполнил условия (аптайм оказался ниже обещанного), вы получите возмещение — обычно в виде кредитов или скидки. Но бизнес-ущерб от простоя этими кредитами не компенсировать полностью. 

В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — �� эти часы не войдут в расчёт простоя по SLA. 

В итоге на бумаге выходит 99,99%, а фактически сервис ежемесячно имеет час даунтайма на профилактику плюс, возможно, внеплановые сбои. Также важно уточнять период расчёта: 99,9% в месяц — это гораздо мягче, чем 99,9% в год. 

Наконец, не все одинаково честны. Дешёвый хостинг с формальными 99,99% может оказаться менее надёжным, чем добросовестный провайдер, честно дающий 99,95%. 

На основе описанного, SLA лучше воспринимать как базовый показатель или часть стратегии, но не стоит забывать о резервных копиях, мониторинге, тестировании отказоустойчивости и прочих практических мерах. 

Зачем тогда оно нужно

SLA нужно не только провайдерам. Даже ИТ-отделу стоит считать и отслеживать уровень доступности своих сервисов. Итак, внутренний SLA: 

  • Дисциплинирует. Когда вы измеряете аптайм, появляются конкретные цифры, которые можно улучшать. Команда видит: «В прошлом квартале у нас было 99,3% времени без сбоев, давайте постараемся довести до 99,5%». Появляется здоровый ориентир на надёжность.

  • Повышает прозрачность для соседних команд и руководства. Если ваш отдел поддерживает, скажем, внутреннюю CRM для отдела продаж, договорённость «мы обеспечиваем 99.5% доступности в рабочее время и восстановление за 1 час в случае сбоя» сразу снимает многие вопросы. 

  • Помогает в ретроспективе инцидентов. Благодаря SLA можно точно фиксировать инциденты, минуты простоя, их причины и принятые меры. Эти данные ценны для планирования улучшений и для отчёта перед начальством. 

Аптайм для SLA посчитать просто. В целом, это отношение времени бесперебойной работы к общему времени за период, в процентах. Например, за месяц сервис был недоступен суммарно 2 часа, значит, доступность:

(720 ч – 2 ч) / 720 ч × 100% ≈ 99.72%

Обычно внутри команды неформально договариваются, что считать инцидентом и как засекать время простоя (мониторинг вам в помощь). Также важно определить совокупную доступность системы, если она состоит из нескольких компонентов. 

Например, ваше веб-приложение зависит от базы данных и API стороннего сервиса. Если у приложения 99.5% аптайма, у базы 99.9%, а у внешнего API — 99%, то общая надёжность будет ограничена самым слабым звеном: примерно 99% (может быть даже чуть меньше, если простои накладываются). 

Кстати, зачастую внутренние метрики надёжности называют SLO — цель по уровню сервиса, на которую ориентируется команда. Это по сути то же самое, что и SLA, только без юридического веса. Вы можете оперировать тем термином, который больше нравится.

Инструмент, а не бюрократия

SLA часто воспринимают как нечто формальное, бюрократическую обязанность или маркетинговую уловку. Но, в сущности, правильно выстроенное SLA может стать очень полезным инструментом управления качеством ИТ-сервисов. Оно устанавливает прозрачные ожидания и стимулирует постоянное повышение надёжности. 

Конечно, бумага «стерпит всё», и можно подписать соглашение хоть на 200% аптайма. Однако ценность SLA кроется не в самом факте наличия или крутизне цифр, а в том, что за ними стоит реальная работа. 

Простой или не простой, вот в чём вопрос… А у вас в ИТ-отделе есть SLA или SLO? 

© 2025 ООО «МТ ФИНАНС»

Комментарии (17)


  1. SWATOPLUS
    21.10.2025 16:41

    Каждую ночь вторника стабильно проблемы с серверами доты. 10 минут простоя это норма, а бывает и по часу не найти игру. Казалось бы крупная компания, но до трёх девяток не дотягивают.


    1. kenomimi
      21.10.2025 16:41

      Куда игроки с подводной лодки-то убегут... Потому во многих играх простои на обновы регулярны, и игроделов этот факт не смущает. Они теоретически могут понизить простои, но какой экономический эффект это даст, чтобы нести такие большие расходы? Вангую, что никакого.


    1. DNess
      21.10.2025 16:41

      Так в ночь со вторника на среду у Valve профилактика небольшая. Там всё ненадолго отваливается и стим и контрстрайки с дотами. Как раз обычно минут в 10-15 укладываются.


      1. SWATOPLUS
        21.10.2025 16:41

        Ну так да. Тут больше вопрос, почему если все про это знают и всех это бесит, они с этим ничего не пытались сделать. Там же наверняка не один мейнфрем. Там несколько дублирующих друг друга серверов. Они могли бы обслуживать их по очереди в период малой нагрузки.

        В том же поиске игры в доте есть выбор региона, это наверняка разные сервера где игроки встают в очередь. Отключите поиск в России, потом в Восточной Европе, потом Западной. И тот кто ищет игру на трёх регионах (максимум можно 3 региона ставить) её находит, хоть на каком-нибудь.


        1. APXEOLOG
          21.10.2025 16:41

          Так может это мало кого бесит, вот и все?


  1. Renatk
    21.10.2025 16:41

    Как считается доступность? Например если 1 клиент получил ответ от сервера, а остальные 99,9% не видят сервис, это является ли проблемой этого дата центра или он скажет: 1 клиент смог открыть сайт, значит "100%" доступность и это проблема остальных 99,9% клиентов, и таким образом не падает downtime счётчик и статистика SLA.


    1. yellowmew
      21.10.2025 16:41

      В статье написано: в SLA согласовываются методы контроля

      То есть эту ситуацию банально надо предусмотреть (геораспределенный мониторинг доступности, например)


  1. Tzimie
    21.10.2025 16:41

    И ни единого разрыва!


    1. SWATOPLUS
      21.10.2025 16:41

      Я плачу, большую сумму, на баланс, что бы не было вообще разрывов.


  1. Dimly
    21.10.2025 16:41

    Интересно в чем отличие 99.9 в месяц от 99.9 в год. Может я что то не понимаю в математике? Или автор?


    1. nv13
      21.10.2025 16:41

      Процент от 30 дней или 365


      1. Dimly
        21.10.2025 16:41

        Процент это процент. Что за 30 что за 365, что я не понимаю?


        1. CherryPah
          21.10.2025 16:41

          Условный 5 часовой даунтайм в одном случае попадает под SLA, в другом нет


          1. Dimly
            21.10.2025 16:41

            Ааа.. для длительных даунтаймов за пределами месячного лимита. Для кучи мелких нет разницы


            1. CherryPah
              21.10.2025 16:41

              Я, если честно, не стал бы пользоваться поставщиком у которого постоянно какие-то даунтаймы, пусть и мелкие и укладывающиеся в обещанный sla.

              А вот с какой скоростью обещают установить серьезную аварию - интересно.


              1. Dimly
                21.10.2025 16:41

                А я не про поставщика интересуюсь. Но очень полезный ответ - я был уверен что разницы нет, спасибо


  1. pecmapm
    21.10.2025 16:41

    В-третьих, дьявол кроется в деталях соглашения. Нужно понимать, что именно покрывает SLA, и какие есть исключения. Например, часто в контракте оговаривается, что плановое обслуживание (maintenance) не считается недоступностью. Провайдер может выполнять регламентные работы раз в месяц на протяжении часа — и эти часы не войдут в расчёт простоя по SLA. 

    Нужно понимать что частые регламентные работы уменьшают количество времени на котором расчитывается показатель доступности и час недоступности становится дороже и как следствие ниже показатель доступности :)