Весной 2024 года в нашу компанию «ЛАНИТ-Интеграция» обратился заказчик - один из крупнейших отечественных промышленных автопроизводителей. Предприятие с оставшейся в наследие с советских времён заводской конгломерацией, множеством дочерних обществ, поставщиков материалов и комплектующих изделий.
Специфика взаимоотношений внутри этой группы компаний такова, что за работоспособность ИТ-инфраструктуры и предоставление ресурсов отвечает головной офис по формату провайдера облачных услуг, а за развитие и работоспособность непосредственно бизнес-сервисов – подразделение, их эксплуатирующее.
Но, как вы понимаете, что-то пошло не так. Как мы помогли заказчику разобраться со сложившейся ситуацией, читайте в этой статье.

Предыстория проекта
Предпосылкой к обращению послужил простой в работе одного из подразделений компании, ответственного за пополнение складских запасов и розничную продажу комплектующих. Случилось это из-за длительной недоступности сервиса базовой информационной системы (ИС) предприятия. Проблема не остановила производственный процесс, но произвела много шума и взаимных упрёков. Наш заказчик вынужден был провести собственное внутреннее расследование инцидента. По его результатам виновные, конечно же, были найдены и наказаны, но с дальнейшей проработкой компенсационных мероприятий возникли сложности. Отказ, как водится, произошёл не из-за какой-нибудь единичной неисправности на одной из сторон, а по целому ряду причин и обстоятельств негативного характера. Так и образовалось большущее сквозное отверстие в куске этого сыра.
Задача, предварительно озвученная нам, заключалась в том, чтобы найти истинные причины проблемы и разработать подход и меры, купирующие её возникновение в дальнейшем. Мы провели вводное совещание с CIO заказчика и пришли к выводу, что для решения вопроса необходимо изучить и проанализировать два направления: ИТ-инфраструктуру предприятия и его ИТ-процессы.
Изучать ИТ-процессы решили через призму ITSM-методологии, руководствуясь наличием частично внедренной системы у самого заказчика. Также предстояло провести аудит имеющегося серверного оборудования, систем хранения данных, средств виртуализации, резервного копирования и восстановления данных, сетевых устройств. Иными словами – основных строительных блоков ИТ-ландшафта. Для предстоящего обоснования возможных вариантов модернизации ИТ-инфраструктуры и процессов предприятия мы воспользовались демонстрацией диаграммы затрат на достижение целевых показателей RTO (Recovery Time Objective) и RPO (Recovery Point Objective), при этом показав необходимость поиска баланса между ценой предлагаемых решений и запросами бизнеса.

Соответственно, наша работа должна была содержать также и обследование эксплуатируемых информационных систем, включая предъявляемые к ним требования по допустимым простоям и потере данных. Полноценных SLA (Service Level Agreement) у заказчика, к сожалению, не оказалось. Но в системе учёта ИС были определены градации их критичности для работы бизнеса. Этими данными и было решено руководствоваться в дальнейшем.
Часть 1. Обследование процессов
Одна из составляющих проекта – обследование ITSM-процессов и оценка их зрелости, то есть уровня их стабильности, результативности и оптимизированности. Для этого часто используют модель CMMI (Capability Maturity Model Integration), которая определяет пять уровней зрелости.
Начальный. Деятельность ведется ситуационно. Например, именно так многие следят за своим здоровьем. Заболел зуб – начинаем выяснять, что делать и куда обращаться.
Управляемый. Деятельность уже ведется регулярно, присутствуют сложившиеся практики. Например, ходим к стоматологу примерно раз в полгода.
Определенный. Появляются регламенты, инструкции, графики; обращение к ним нерегулярное, а только при необходимости. Здесь мы не только решили, что нужно ходить ко врачу раз в полгода, а вносим эти визиты в календарь.
Контролируемый (управляемый на основе измерений). Регулярно проверяется соответствие регламента и реальной ситуации. График визитов не только вносится в календарь, но еще и контролируется.
Оптимизируемый. Процесс регулярно оптимизируется. Согласуется ли этот график с планом отпуска и загрузки на работе? Какой врач лучше? Не стоит ли одновременно планировать визиты к другим специалистам?
Как правило, чем более развитой является компания, тем более зрелые у неё бизнес-процессы. Они дают стабильный результат, а при грамотной оптимизации увеличивают свою эффективность. Для сотрудников заказчика, которые изо дня в день видят одни и те же процессы, очень важен взгляд со стороны (от внешнего консультанта), который будет свежо и непредвзято оценивать процессы.
Первое, с чем мы столкнулись, – огромная вариативность процессов и автоматизации. Какие-то из них детально формализованы (один только регламент на сотню листов, а еще рабочие и ролевые инструкции), а какие-то вообще никак не описаны. Где-то для автоматизации используется самописное решение, где-то – вендорский продукт, а где-то - ничего, кроме почты.
Также мы проанализировали заявки и обнаружили несколько интересных моментов.
Категорию «другое» в запросах на обслуживание имеют примерно 50% из них. Это может говорить о том, что имеющиеся шаблоны не покрывают реальную ситуацию с типовыми запросами. Построили в них облако слов и гипотеза подтвердилась: ~40% запросов связаны с доступом (заявки на доступ, смена пароля). Если для таких запросов сделать отдельную систему управления доступами (описывали в отдельной статье) и автоматизировать процедуру смены пароля (например, через SMS), то можно значительно снизить нагрузку на службу поддержки и высвободить ресурсы для развития.
Динамика распределения заявок по источникам (пользовательский портал, электронная почта, телефон, личные обращения) тоже показательна. Изначально большинство заявок поступали по телефону. Затем с популяризацией и развитием пользовательского портала сотрудники стали все больше подавать заявки через портал. Но доля заявок, поступающих через почту и телефон, дошла до определенного уровня, который не может преодолеть. Это вызвано спецификой работы. Например, сотрудникам производственных линий проще и привычнее позвонить по телефону, чем оформлять заявку.

Ряд процессов, чья зрелость важна для бизнеса, находится на низком уровне. Например, для критичных информационных систем отсутствовали планы аварийного восстановления (Disaster Recovery Plan), не проводились учебные мероприятия для сотрудников.
Процесс управления изменениями больше всего напоминал лоскутное одеяло: изменения в ПО собственной разработки были детально формализованы и велись сразу в трёх ИС без интеграции между ними. При этом они никак не синхронизировались с процессом внесения изменений в аппаратную инфраструктуру (этот процесс не был формализован, но частично велся в ITSM-системе). И оба процесса не имели связей с процессом управления изменениями в инфраструктуре информационной безопасности, в результате чего возникали проблемы несовместимости изменений и многочисленные инциденты.
Всего было выявлено порядка двадцати критичных уязвимостей в процедурах, устранение которых позволило заказчику значительно улучшить эффективность бизнес-процессов.
Часть 2. Обследование и оценка ИТ-инфраструктуры
Для обследования ИТ-инфраструктуры предприятия были использованы такие стандартные методы сбора информации, как интервью с ответственными специалистами заказчика, разработка и заполнение опросных листов. Кроме того, группа наших инженеров осуществила выезд на площадку заказчика для непосредственного взаимодействия с персоналом, оборудованием и системами.
Процедуру аудита и результаты отчёта здесь описывать не будем, все было достаточно стандартно. Скажем лишь, что с первых шагов подтвердилось предположение – вскрывшаяся проблема имеет комплексную природу и не ограничивается только одним сервисом. Были определены такие недостатки ИТ-инфраструктуры:
изрядно устаревшее оборудование;
отсутствие действующей поддержки на большую часть компонентов;
недостаточное покрытие сервисов и оборудования системой мониторинга;
переполненные хранилища;
недопустимые тайминги резервного копирования (РК);
наличие ошибок в системах и т.д.
Заказчик, естественно, не бездействовал последние несколько лет и проводил точечную модернизацию инфраструктуры по мере возникновения запросов и проблем в работе определенных ИС. Также вёл работу для поиска импортонезависимых решений в концепции «когда-нибудь нам на это придётся перейти». Такой подход привёл к интересной ситуации – в одном ЦОДе можно было увидеть такой антиквариат, как SUN Fire 280 или Superdome c Itanium второго поколения в составе рядом с новенькими Dorado и относительно свежими DL380 gen10.
Таким образом, основной нашей задачей стало донесение до заказчика мысли о необходимости внедрения комплексного подхода к модернизации. Для того, чтобы наглядно показать ему наличие разносторонних рисков и их негативное влияние на возможную доступность бизнес-сервисов, была разработана методика ресурсно-сервисной оценки. Основными этапами её стали:
определение факторов влияния на безотказную работу;
составление ресурсно-сервисной модели;
оценка рисков.
Давайте пройдемся по каждому пункту отдельно.
Факторы влияния (в нашем случае) – это тот самый перечень глобальных метрик, благодаря которым можно оценить надежность и отказоустойчивость работы ИТ-ресурсов инфраструктуры предприятия, оцениваемых в процессе аудита. Примерами таких факторов могут быть:
состояние серверного оборудования;
поддержка серверного оборудования;
устаревший гипервизор;
поддержка гипервизора;
резервные копии;
высокая доступность HA;
состояние оборудования SAN;
поддержка оборудования SAN;
состояние оборудования СХД;
поддержка оборудования СХД;
состояние сетевых подключений;
наличие репликации;
проверка восстановления;
наличие мониторинга и др.
По нашей методике необходимо дать оценку каждому из определённых факторов по степени критичности в части возможного нанесения общего ущерба ИТ-инфраструктуре. Критичность факторов может быть определена либо на базе действующих SLA, либо экспертным методом. Также она должна быть обсуждена и согласована с техническим отделом организации. К примеру, отсутствие действующей репликации на резервную СХД, либо несоответствие требуемому показателю RPO расписания в РК могут быть определены как наиболее критичный фактор при наличии соответствующих требований бизнеса.

Составление ресурсно-сервисной модели для каждой информационной системы, попавшей в периметр обследования, было выполнено следующим образом.
Определение взаимосвязей с ИТ-ресурсами, на которых функционируют компоненты информационной системы. Эта работа была проделана совместно с разработчиками систем и службой эксплуатации. Спасибо ребятам за терпение и их готовность идти навстречу.
Выявление зависимостей от прочих ИС и сервисов, таких как предоставление доступа в Интернет, доменная авторизация, центр сертификации и т.д. В этой части здорово пригодилось обследование процессов предприятия, проводимое нами параллельно с анализом ИТ-инфраструктуры, так как одним из артефактов этого изучения являлся каталог услуг.

Далее нам предстояло сопоставить, какие из обнаруженных факторов влияния несут в себе риски отказа работы обследуемых информационных систем. Для этого потребовалось следующее.
Определить наличие факторов влияния на возникновение рисковых событий для каждого компонента обследуемой ИТ-инфраструктуры.
Просуммировать весовые значения актуальных рисковых событий для анализа соответствия ИТ-инфраструктуры требованиям, предъявляемым бизнесом к ее доступности и надежности со стороны ИС.
При этом максимально возможный показатель итоговой оценки соответствует наименее надежному ИТ-активу. Минимальная оценка «0» свидетельствует о максимальной надежности ИТ-актива с точки зрения текущей оценки рисков.

Получившиеся при таком подходе результаты позволили в дальнейшем нашему заказчику:
определять первоочередные точки роста и слабые места эксплуатируемых компонентов ИТ-инфраструктуры;
оперативно оценивать различные варианты стоимости модернизации ИТ;
вести диалог с бизнесом, показывая объём необходимых изменений для обеспечения требуемых показателей непрерывности процессов.
Заключение
В результате наших работ заказчик получил не только отчёт, показывающий состояние ИТ-ландшафта с перечнем рекомендаций по улучшению общего состояния, но и удобный инструмент оценки соответствия оборудования и сервисов требованиям к непрерывности работы информационных систем предприятия. Как следствие – CIO сумел доказать бизнесу необходимость в проведении масштабной модернизации ИТ-инфраструктуры и получил требуемые средства и ресурсы.
Но это уже совсем другая история.
*Статья была написана в соавторстве с @Alejanders