Меня зовут Максим Журавлев, я управляющий директор ДИТ «Занять и Сберегать», лидер сообщества инженеров сопровождения Сбера. В этой статье я хочу рассказать про надёжность высоконагруженных ИТ-систем и принципы, которым мы следуем.

Гаджеты, мобильные приложения и различные цифровые услуги стали неотъемлемой частью нашей жизни. И чем больше бизнес, тем дороже возможный простой системы и выше риск потери потенциального или текущего клиента на всё более увеличивающемся и конкурентном рынке в сфере услуг. Поэтому стабильно и качественно предоставленный ИТ-сервис для конечного пользователя имеет ту же ценность, что и полученная вовремя услуга, например, в розничной сети или корпоративном бизнесе. Чрезвычайно важно обеспечить стабильность и надёжность ИТ-ландшафта, созданного для Бизнеса. Однако не только инновационные или развивающиеся технологии способны обеспечить высокоуровневый сервис, но и сочетание чётко выстроенных процессов и нововведений.

Процессы

Предоставляя качественный сервис по высоконагруженным системам в режиме 24/7, необходимо опираться на комплексный подход, который включает в себя, в первую очередь, выстраивание процессов ITSM и непрерывное обучение инженеров. Классическая схема выглядит так:

Концепция ITSM

Набор методик ITSM обеспечивает применимость сервисного подхода в управлении ИТ. Сервисный подход — помощь заказчику (Бизнесу) в достижении его конечных результатов без специфических затрат и рисков, а также без прямого управления ресурсами Поставщика сервиса. То есть ITSM позволяет Бизнесу заниматься бизнесом, а не директивным управлением службами, отвечающими за информационные технологии.

Способы реализации сервисного подхода в ИТ сильно зависят от зрелости и финансовых ограничений поставщиков ИТ-услуг, но цели, выполнение которых обеспечивает ITSM, остаются неизменными:

  • обеспечение необходимого бизнесу качества ИТ‑услуг;

  • обеспечение требуемого уровня надёжности;

  • обеспечение скорости изменений.

Методология ITIL

ITIL — методология, которая с помощью процессного подхода позволяет реализовать концепцию ITSM. Она является самым распространённым в мире руководством по управлению ИТ-услугами и представляет собой набор принципов и специализированных процессов (практик), обеспечивающих полезность и надёжность предоставляемых ИТ-услуг. ITIL не внедряется, а «принимается», адаптируясь под специфику конкретной компании.

Все процессы ITIL сгруппированы по фазам жизненного цикла ИТ-услуги. Стратегия услуги помогает Поставщику понять, кто его целевая аудитория, какие у неё нужды и, следовательно, какие ИТ-услуги и в каком объёме ей необходимы.

Разберём основной набор сквозных процессов ITIL, которые формируют надёжность и безотказность систем.

  • Инцидент‑менеджмент. Технологический инцидент — это нарушение в работе ИТ‑системы, которое влияет как на работу отдельного пользователя, так и на работу бизнес‑сервиса в целом или его части. Минимизация влияния от инцидента, его предотвращение, а также быстрое восстановление услуг подразумевает под собой процесс жизненного цикла инцидент‑менеджмента.

  • Риск‑менеджмент. Процесс управления, связанный с минимизацией вероятности возникновения неблагоприятных событий, снижения возможных потерь, в том числе финансовых.

  • Управление мощностями. В рамках проектирования и выработки стратегии управления ИТ‑услугами, очень важно обеспечить управление техническими ресурсами, бюджетированием будущих мощностей, а также своевременным предоставлением технических средств с учётом экономической целесообразности.

  • Управление конфигурациями. В рамках предоставления ИТ‑услуг важно понимать, как соотносятся те или иные конфигурационные единицы с учётом взаимосвязей.

  • Управление запросами на обслуживание. В рамках управления услугами очень важно выстроить процесс управлениями внутренними запросами от клиентов, как внешних, так и внутренних.

Мониторинг

Система мониторинга — это глаза и уши всей команды сопровождения (руководства, инженеров, дежурных). Уровень критичности системы мониторинга при её должном развитии становится равен уровню критичности самой ИТ-услуги, для которой она создана.

Основные принципы построения системы мониторинга:

  • надёжность решения;

  • сбор всех типов метрик (построенных на классическом техстеке или cloud‑решениях);

  • автоматический сбор в телефонную конференцию и регистрация инцидентов;

  • принципы зонтичной системы мониторинга (включая мониторинг смежных ИТ‑услуг);

  • интеллектуальное подавление событий;

  • динамические пороговые значения;

  • доступность метрик и дашбордов из внешней сети, при наличии изолированного внутреннего сегмента;

  • прогнозирование метрик с помощью машинного обучения.

Принципы организации мониторинга:

  1. Моментальная реакция. Система должна быть построена так, чтобы основные метрики были доступны и видны для дежурной смены, а дублирование происходило с помощью СМС‑оповещения основных администраторов системы.

  2. Максимальная автоматизация типовых действий. Это основа быстрой реакции на любого рода отклонения и минимизации времени простоя в случае проявления проблем.

  3. Нахождение и решение проблем до того, как они приведут к инциденту. Прогнозирование, предиктивный мониторинг — ключевой фактор при организации современной группы поддержки ИТ‑систем.

Follow the sun — как это работает

Все описанные процессы подразумевают под собой поддержку промышленных решений в режиме 24 часа/7/365 таким образом, чтобы на любые вопросы, независимо от сложности и тематики (внедрение, разработка, тестирование, решение инцидентов или отклонений), практически беспрерывно и с оптимальными финансовыми затратами отвечали высокоуровневые специалисты. Такой подход к обслуживанию и поддержке информационных систем называется Follow the sun.

Он обычно используется в крупных компаниях, которые выполняют глобальные операции и требуют круглосуточной поддержки своих информационных систем. Это позволяет им обеспечить непрерывность бизнес-процессов и минимизировать время простоя.

Это относится и к Сберу, который, прежде всего, про надёжность и скорость предоставления клиентских сервисов. Мало кто догадывается, что за стабильной работой услуг организации стоит слаженная работа инженеров, каждый из которых отвечает за определённый сервис и инфраструктурный элемент. Всё это работает как единый живой организм в том числе благодаря использованию принципа Follow the sun.

Мгновенная реакция на нештатное поведение системы сильно увеличивает производительность службы поддержки, а также подразумевает под собой достаточно сложный процесс мониторинга критичных точек отказа системы как на прикладном, так и на инфраструктурном уровне.

Далее с менеджером услуги составляется карта точек отказа с согласованными параметрами реагирования.

По инициативе дежурного в любое время суток может быть собрана конференц-встреча с адресными группами поддержки инфраструктуры, на которой работает та или иная ИТ-услуга. Это помогает оперативно установить уровень, на котором произошёл сбой, и устранить его с минимальными последствиями для бизнеса.

Одно из ключевых направлений по линии поддержки — дежурная смена. Основная обязанность дежурных инженеров — наблюдение за штатной работой системы и мгновенная реакция на отклонения. Причём местонахождение дежурной смены не имеет значения, но есть лучшие практики, которые заключаются в двух простых правилах:

  1. Локация должна быть недорогой (в регионе).

  2. Желательно, чтобы дежурная смена работала в дневное время, то есть передача смен проходила между двумя площадками, которые находятся в разных часовых поясах (разница во времени 7–8 часов).

Второе правило подразумевает под собой работу эксперта дежурной смены в дневное время, в часы бодрствования. Ночью организм должен отдыхать, потому что у человека замедляется реакция и внимание. В банке есть несколько ИТ-хабов в разных регионах страны, и в зависимости от движения светового дня эксперт в том или ином хабе перехватывает функции в своё дневное время.

Качественная работа дежурной смены достигается благодаря обучению и материалам, предоставляемым лучшими экспертами сопровождения.

Навыки — ключевая вещь

Знания без практики не принесут никакой пользы. В стремительно меняющемся мире обучение необходимо для выживания как инженеров, так и организаций в целом. Это требует высокой вовлечённости и обучающих, и обучаемых. Достигать требуемого уровня вовлеченности позволяют амбициозные цели, которые должны стоять перед обеими категориями сотрудников.

Комплексному обучению уделяется огромное внимание. Знания и навыки, используемые в работе с системами компании, очень специфичные, приобрести их «на улице» практически невозможно. Человек может быть суперпрофи в базах данных Oracle или Red Hat OpenShift, но без понимания базового процесса сопровождаемых систем или процессинга от него не будет никакой пользы.

В дополнение к индивидуальному плану обучения, сотруднику в Банке доступен внутренний курс «Сопровождение и развитие банковских систем», который обновляется и дополняется активистами профсообщества инженеров сопровождения Сбера. Этот курс даёт новичку методологию и инструменты для формирования практических навыков сопровождения автоматизированных систем, реализующих корневые сервисы. А знания, представленные на курсе, собраны ведущими специалистами сопровождения и разработки — это концентрированная выжимка самого нужного и полезного.

Безусловно, принцип Follow the sun не панацея и не «серебряная пуля». Многие области и процессы должны работать слаженно на основании принятых мировых практик и стандартов. Многое также зависит от укомплектованности персонала техническим оснащением, от зрелости процессов, надёжности инфраструктуры и прикладного программного обеспечения. Однако каждый блок из общего процесса «Надёжность и доступность» является неотъемлемой частью общего жизненного цикла, а принцип Follow the sun может позволить не только пересмотреть внутренние подходы к поддержке услуг, но и качественнее подойти к созданию внутренних процессов организации.

Комментарии (1)


  1. ruspolkov
    01.04.2024 10:39

    Я считаю, этот подход дает нам преимущество в скорости решения проблем, так как мы можем мгновенно активировать другие команды в случае необходимости, даже если это происходит в неподходящее время для одной из команд.