В этой статье мы разберёмся, в чём разница между непрерывностью бизнеса и аварийным восстановлением (восстановлением после сбоя) — двумя обязательными стратегиями для любой компании, желающей избежать длительного простоя. Как объединение обеих практик повышает устойчивость к потенциально опасным для бизнеса угрозам?
Что такое непрерывность бизнеса
Непрерывность бизнеса (англ. BC, business continuity) — это запланированный комплекс мер, который определяет, как компания будет продолжать свою деятельность в случае аварийного сбоя. План временно устраняет инцидент, чтобы поддерживать критически важные бизнес-функции до тех пор, пока не будет устранена угроза. Цель — минимизировать время простоя в случае инцидента.
В идеале компания должна подготовить план НБ для каждого возможного сценария сбоя. Инциденты различаются в зависимости от географии и отраслевых вертикалей. Вот некоторые из наиболее распространённых:
стихийные бедствия (землетрясения, ураганы, лесные пожары и т. д.);
пожары и наводнения в офисах или серверных помещениях на территории предприятия;
региональные или локальные отключения электроэнергии;
вспышки заболеваний и пандемии;
кража, вандализм и аналогичные преступные деяния;
кибератаки (такие как программы-вымогатели, DDoS-атаки, фишинг, APT-атаки и т. д.);
попытки мошенничества со стороны высшего руководства компании;
потеря связи и сбои в работе программного обеспечения;
аварии в центрах обработки данных;
угрозы целостности и безопасности данных (например, утечка или повреждение).
Например, план управления непрерывностью бизнеса на случай затопления офиса предусматривает следующий порядок действий:
обеспечение безопасности сотрудников и клиентов на объекте;
обеспечение безопасности основных активов компании;
обеспечение бесперебойной работы критически важных процессов;
предоставление сотрудникам альтернативного рабочего места (например, временный офис или возможность работы на дому);
принятие мер по устранению источника затопления и осушению офиса.
Готовить план реагирования на каждый сценарий, который вы можете себе представить, конечно, нецелесообразно. Большинство компаний готовят планы только для реалистичных событий (например, готовиться к цунами неразумно для компании, расположенной в далёком от моря регионе).
Что такое аварийное восстановление
Аварийное восстановление, или восстановление после сбоя (англ. DR, disaster recovery), — это запланированный комплекс мер, которые определяют, как компания будет восстанавливать свою ИТ-инфраструктуру после разрушительного события. В то время как план непрерывности бизнеса нацелен на поддержание работы бизнес-процессов во время инцидента, восстановление после сбоя фокусируется на восстановлении технологических систем до состояния, предшествующего отказу.
Планирование DR включает в себя:
подготовку (насколько хорошо компания подготовлена к инциденту, связанному с ИТ);
реагирование (как компания реагирует на инцидент и обеспечивает доступность систем и данных);
восстановление (какие шаги предпринимает для восстановления ИТ-операций до исходного состояния).
Восстановление после сбоев относится к планированию непрерывности бизнеса, и ни одна стратегия BC не будет полной без плана восстановления ИТ-функций. DR готовится к тем же авариям, что и BC (стихийные бедствия, кибератаки, внутренние угрозы и т. д.), но фокусируется исключительно на восстановлении программного обеспечения и ИТ-активов, таких как:
внутренние серверы и другое оборудование;
сетевая инфраструктура и конечные точки;
ценные бизнес-данные;
приложения, ориентированные на клиентов;
внешние пограничные серверы;
критически важные приложения и программное обеспечение;
активы облачных вычислений.
Хотя план BC также охватывает вышеперечисленные факторы, план непрерывности бизнеса глубже проникает в то, как компания справляется с инцидентом (например, управление кризисом, безопасность сотрудников, альтернативные офисы, стратегии связей с общественностью и т. д.). Эти факторы не являются частью планирования DR.
Давайте рассмотрим тот же пример с затоплением, чтобы увидеть, как DR соответствует картине BC. Если внезапный порыв воды обрушится на ваш офис, план DR поможет быстро:
убедиться, что вода не повредит ИТ-активы;
переключить операции на резервное оборудование (на другом этаже или где-то за пределами офиса);
синхронизировать данные в новой ИТ-среде;
восстановить работу основной ИТ-системы, как только проблема затопления исчезнет.
Большинство стратегий DR предполагают переключение операций с основной системы на альтернативную площадку. Вместо того, чтобы устанавливать дорогие системы резервного копирования на месте, вы можете положиться на аварийное восстановление как услугу (DRaaS) и создать облачную инфраструктуру, которая мгновенно возьмёт на себя операции во время кризиса.
Почему важны непрерывность бизнеса и восстановление после сбоев
Для безопасности компании жизненно важны как непрерывность бизнеса, так и аварийное восстановление. План BC гарантирует, что вы продолжите предоставлять услуги во время и после инцидента. А план восстановления после сбоев гарантирует, что критически важные системы будут оставаться в сети, и ваши ИТ-системы быстро вернутся в рабочее состояние.
Компании излагают свои планы BC и DR в двух документах:
План обеспечения непрерывности бизнеса (BCP). Он объясняет, как компания собирается поддерживать основные функции во время и после аварийного сбоя. Этот документ посвящён работе бизнеса в целом и объясняет, как различные команды должны продолжать работать в необычных обстоятельствах.
План восстановления после сбоя (DRP) посвящён предотвращению потерь данных и функциональности ИТ-инфраструктуры.
Некоторые организации используют один документ для обоих планов. Давайте подробнее рассмотрим, что рекомендуется включать в эти планы вне зависимости от того, пишете ли вы их вместе или по отдельности.
План обеспечения непрерывности бизнеса
Что необходимо включить в план BC:
краткое изложение с глоссарием терминов;
актуальный анализ рисков, оценку уязвимостей и анализ влияния на бизнес;
список, в котором указано, где вы храните копии плана, кому необходим доступ к документу, а также ссылки на любые соответствующие файлы (например, план эвакуации);
все соответствующие юридические, договорные, страховые и нормативные обязательства;
обзор того, кто, когда и почему работал над планом;
цели плана BC;
обзор географических рисков и факторов;
список наиболее важных аспектов бизнеса, а также объяснение того, как быстро (и в какой степени) они должны быть возобновлены в случае возникновения инцидента;
рекомендации о том, как и когда использовать план;
тщательная оценка сценариев катастроф, их вероятности и последствий (например, стоимость ремонта, нарушение предоставления услуг конечным пользователям, потенциальные финансовые и юридические последствия и т. д.);
обзор группы реагирования на инциденты, а также контакты всех сотрудников, к которым можно обратиться в случае кризиса;
подробные руководства по предотвращению инцидентов;
инструкции по выявлению различных угроз;
пошаговые планы реагирования для каждого сценария стихийного бедствия;
любые изменения в процедурах управления, вступающие в силу во время и после инцидента;
списки дополнительных офисов, инструкции по работе на дому и политикам BYOD;
график проверки, тестирования и обновления плана BC;
четкий план коммуникаций с поставщиками, сторонними партнерами и средствами массовой информации;
метрики и ключевые показатели эффективности для измерения этапов воздействия и восстановления (например, максимально допустимое время простоя (MTD));
инструкции по обучению руководителей групп и отдельных сотрудников.
План восстановления после сбоев
Что необходимо включить в план DR:
заявление о намерениях и целях плана;
обзор того, кто и когда создал план;
тщательный анализ ИТ-инфраструктуры, сетей и данных, которые вы защищаете с помощью плана восстановления после сбоев;
инвентаризация всего соответствующего оборудования и программного обеспечения;
углубленный анализ ИТ-рисков;
обзор текущего технологического стека системы;
рекомендации по использованию плана;
данные RTO и RPO (целевое время восстановления указывает количество времени, необходимое для восстановления приложений и данных, а целевая точка восстановления указывает, как часто команда выполняет резервное копирование данных в обычных обстоятельствах);
список всего персонала, ответственного за выполнение плана восстановления после аварии;
пошаговые инструкции по перезапуску, перенастройке, повторному размещению и восстановлению систем во время кризиса;
список всех инструментов, необходимых для выполнения DR (плюс инструкции по их правильному использованию);
все необходимые средства аутентификации и все требуемые пароли;
подробные инструкции по предотвращению инцидентов и проактивной защите системы (например, использование средств защиты от вредоносных программ, настройка IDS, создание ежедневных резервных копий и т. д.);
критически важные функции, которые простаивают в случае сбоя ИТ-системы;
вся необходимая информация об ИТ-инфраструктуре, которая возьмет на себя управление в случае возникновения инцидента;
график плановых обзоров и обновлений стратегии;
инструкции по обучению сотрудников, отвечающих за управление ИТ-системой и руководство процессом восстановления после сбоев (тестирование на проникновение — это распространенный способ, которым компании проверяют готовность своей команды восстановления после сбоев).
Основные различия непрерывности бизнеса и аварийного восстановления
В таблице ниже поясняются основные различия между обеспечением непрерывности бизнеса и восстановлением после сбоев:
Сравнительный фактор |
Непрерывность бизнеса |
Восстановление после сбоев |
Приоритеты |
Поддержка работы предприятия во время стихийных бедствий и минимизация времени простоя бизнес-процессов. |
Ограничение влияния технологических сбоев и максимально быстрое восстановление ИТ-системы. |
Охват |
Все бизнес-процессы, необходимые для обеспечения функционирования организации (включая кадровое обеспечение, логистику, поставки, планы эвакуации и т. д.). |
Сосредоточение только на одной ИТ-системе и ее хранилищах данных. |
Время запуска |
Как только лица, принимающие решения, узнают об инциденте. |
Это ответ на инцидент, который начинается после начальных фаз BC. |
Время завершения |
Длится до тех пор, пока бизнес не вернется к нормальной работе, что обычно происходит значительно позже окончания стихийного бедствия. |
Завершается в тот момент, когда ИТ-инфраструктура возвращается в состояние, предшествовавшее инциденту. |
Инвентарь |
Ведет инвентаризацию всех критически важных активов, включая персонал, поставщиков, транспортные средства, здания и т. д. |
Ведет инвентаризацию соответствующих ИТ-активов и хранилищ бизнес-данных. |
Анализ риска |
Требует анализа влияния каждой угрозы на бизнес на макроуровне, которая может реально повлиять на операции. |
Оценивает только угрозы для ИТ-инфраструктуры, а также связанных с ней приложений и сервисов. |
Проактивность |
Уделяет особое внимание практикам, которые минимизируют риск в равной степени, поскольку фокусируется на планах реагирования. |
В основном фокусируется на ответных действиях, необходимых для восстановления ИТ-операций в случае непредвиденного события. |
Как сочетаются непрерывность бизнеса и восстановление после сбоев
Некоторые компании предпочитают планировать BC и DR изолированно, другие же сосредотачиваются на чём-то одном. Оба подхода не идеальны.
Непрерывность бизнеса и аварийное восстановление работают лучше всего, когда вы разрабатываете оба плана в тандеме и справляетесь с незапланированными событиями с помощью обеих стратегий. DR должно быть подмножеством более широкого плана обеспечения непрерывности бизнеса, который управляет частями «смягчения» и «восстановления» процедуры реагирования.
Комплексный подход гарантирует охват всех направлений бизнеса в случае катастрофы. Непрерывность бизнеса обеспечит доступность бизнес-функций для конечных пользователей, что исключит потерю дохода. Аварийное восстановление позволит команде максимально быстро восстановить нормальную работу ИТ-инфраструктуры.
Совместное использование этих двух практик имеет следующие преимущества:
независимо от того, столкнулась ли организация с незначительным сбоем или полномасштабной катастрофой, у команды есть четкий план действий, чтобы отреагировать наилучшим образом;
что бы ни случилось, вы сводите к минимуму продолжительность простоя;
вашей команде не придется импровизировать ни на одном этапе процесса реагирования на инцидент;
план DR будет лучше соответствовать интересам бизнеса;
комплексный подход выявляет слабые стороны, которые команда, работающая исключительно над одной стратегией, может упустить из виду;
сотрудники получают четкие инструкции о том, как действовать в наихудших сценариях, чтобы снизить уровень стресса в обычных обстоятельствах и уменьшить панику во время инцидентов.
Заключение
Непрерывность бизнеса и аварийное восстановление — две обязательные практики для любой компании, заботящейся о безопасности. Всегда есть риск возникновения неприятных инцидентов, и реагирование на них без надлежащего планирования BC и DR может быть катастрофическим. Инциденты часто парализуют ИТ-системы, мешают сотрудникам работать и останавливают все операции, приносящие доход. Как долго ваш бизнес сможет терпеть такие обстоятельства? Скорее всего, не очень долго, поэтому начните думать о подстраховках до того, как незапланированное событие возможно серьезно повредит вашей прибыли и репутации.
Комментарии (6)
SuharkovMP
29.08.2024 18:20+3Сбер, а у вас все-таки непрерывность бизнеса (Сбербанк основан в 1841 году) или аварийное восстановление (все что до 1991 года это другой банк)?
itGuevara
Это ведь про нынче модную операционную надежность \ операционную устойчивость (716П) и ГОСТ Р 57580.3/4 + СТО БР БФБО-1.5-2023 и т.п.
Как они сочетаются, т.е. business continuity vs операционная надежность \ операционная устойчивость?
Желательно на примерах западных стандартов и с картинками (схемами взаимосвязи).
saboteur_kiev
Вкратце, бэкапы это хорошо, но проблема с тем, что требуется время на восстановление, в течение которого бизнес не работает.
Поэтому нужны и бэкапы и отказоустойчивость.
Это как бэкапы и рейд1, например.
Бэкапы и кластеризация/репликация.
P.S. Вместо BC могут называть еще COB (Сontinue Of Business)
itGuevara
Не понял ответа. Я же про другое. Немного с другого ракурса:
На мой взгляд идет подмена понятий и яблоки складываются с апельсинами. Почему обязательно первое слагаемое бизнес, а второе ИТ:
При чем тут ИТ? Подобный план может быть разработан для компании, где ИТ = 0. В первой фразе "Непрерывность бизнеса" - про бизнес-понятия (яблоки), а во второй почему то уже про ИТ (апельсины).
Обычно это звучит: как "обеспечение непрерывности и/или восстановление деятельности", например, план ОНиВД
Там вообще может быть не про ИТ, а как в случае чего деньги переводить не по каналам связи, а пихать купюры в чемоданы и вести транспортными средствами в ЦБ, соседний банк \ филиал. "Восстановление деятельности" - как синоним "восстановление сломанных бизнес-процессов", которые могут быть с коэффициентом автоматизации 0.
2 Вообще не понятно соотношение всех этих понятий. Есть ли хорошая схема, которая показывает кто и куда входит. Например, "обеспечение непрерывности \ восстановление деятельности" вроде как входит в операционную надежность (operational resilience).
т.е. ОНиВД как декомпозируется, куда входит и кто из соседей?