Site Recovery Manager (SRM)


VMware Site Recovery Manager (SRM) это решение для обеспечения непрерывности бизнеса и аварийного восстановления, предназначенное для планирования, тестирования и восстановления ВМ (виртуальных машин) с защищаемого (основного) сайта на (резервный) сайт восстановления.

SRM предлагает 3 подхода к защите (репликации) ВМ:

Группы хранилищ (datastore groups). Защита ВМ в группах хранилищ посредством сторонних механизмов репликации (3-я сторона). Используется репликация на уровне массива (Array-based replication).
Отдельные ВМ. Защита отдельных ВМ на уровне хостов. SRM используется в комбинации с технологией VMware vSphere Replication.
Политики хранения (storage policies). Защита ВМ на основе специальных политик хранения. Используется репликация на уровне массива (Array-based replication).

SRM обеспечивает 2 варианта восстановления сайта (датацентра):

• Плановая миграция. Предполагает доступность и полную функциональность основного и резервного сайтов. Исключает потерю данных, это запланированная операция, проходит в рабочем порядке, без аварийных ситуаций.
• Аварийное восстановление (Disaster recovery). Рассчитано на внезапное падение основного сайта, осуществляется переключение на резервный сайт, незапланированная операция.

SRM осуществляет оркестровку процессов восстановления дата-центра и механизмов репликации, что обеспечивает минимизацию потерь данных и времени восстановления:

• SRM обеспечивает гашение ВМ на основном сайте и синхронизацию данных между сайтами в случае работоспособности основного сайта.
• SRM запускает на резервном сайте реплицированные ВМ в порядке определяемом планом восстановления.

SRM дает возможность тестирования планов восстановления. Для проведения тестов используются временные копии реплицированных данных, что позволяет исключить влияние на основные процессы обоих сайтов.

SRM обеспечивает 2 варианта развёртывания в контексте взаимоотношений между сайтами:
• Базовый (однонаправленный) вариант – предполагает возможность миграции сервисов основного дата-центра (защищаемый сайт) на резервную площадку (сайт восстановления).
• Двунаправленный вариант – обеспечивает защиту ВМ в обоих направлениях. Каждый сайт в образованной паре является основным, выполняя при этом функцию резервного для своего соседа.

Требования к конфигурации сайтов для работы SRM:

• Идентичность и совместимость версий SRM, vCenter Server, vSphere Replication на обоих сайтах.
• В случае репликации на уровне массива (Array-based replication), выбранная технология репликации должна поддерживаться на обоих сайтах, массивы образовывать пару.
• Инфраструктура резервного сайта (хосты, сети, хранилища) должна соответствовать ВМ и поддерживать нагрузки основного сайта. Резервный сайт может быть нагружен (сверх нормы) непродуктивными или некритичными ВМ, которые могут быть остановлены в случае восстановления основного сайта.
• Сайты должны быть соединены через надежную IP-сеть, обеспечивающую необходимую пропускную способность.
• Резервный сайт должен иметь подключение к публичным и частным сетям, доступным основному сайту.

Для работы технологии требуется установка SRM-серверов (Site Recovery Manager Server) на основном и резервном сайтах. Для небольших датацентров допустима установка SRM-сервера на одну систему с сервером vCenter, в частности установка их на одной ВМ. Для крупных инфраструктур из соображений нагруженности и доступности целесообразна установка SRM-сервера на отдельной системе (на отдельной ВМ).

Много-сайтовые конфигурации SRM


Стандартная конфигурация, которая рассматривалась выше, включала 2 сайта: основной и резервный. Оба сайта имеют по серверу vCenter, которые связываются посредством SRM-серверов, устанавливаемых на обоих сайтах. Таким образом, ВМ принадлежащие vCenter основного сайта могут быть восстановлены на vCenter резервного сайта.

На случай если дата-центр имеет более 2х площадок SRM поддерживает различные много-сайтовые конфигурации:

• Общий сайт восстановления — shared recovery site (many-to-one, N:1) – множество защищаемых сайтов могут реплицировать и восстанавливать свои ВМ на один общий резервный сайт;
• Общий основной сайт — shared protected site (one-to-many, 1:N) – основной сайт имеет несколько резервных площадок;
• Многие ко многим — many-to-many (N:N).

Сущности SRM (SRM-серверы) на основном и резервном сайте должны образовывать пару, им присваиваются одинаковые идентификаторы (extension ID). Поэтому, на общем сайте должно быть поднято количество сущностей SRM равное количеству его сайтов партнеров. Например, если общий сайт восстановления обслуживает 5 защищаемых сайтов, то на нем должно быть развернуто 5 SRM-серверов, образующих пары с защищаемыми сайтами. SRM-серверы общего сайта должны быть установлены на разных ВМ (хост-машинах) и иметь уникальные идентификаторы. При этом множество SRM сущностей общего сайта взаимодействуют с одним сервером vCenter, управляющим данным сайтом.

Нельзя устанавливать несколько SRM-серверов на одну хост-машину (ВМ). Каждый SRM-сервер должен иметь собственную БД. Один сайт восстановления может иметь не более 10 защищаемых сайтов.


SRM с репликацией на уровне массива (Array-based replication)


Данный подход предполагает репликацию данных между сайтами на уровне массивов (СХД), посредством заложенных в них механизмов репликации. Интеграция SRM с массивами осуществляется посредством storage replication adapters (SRAs), это программные компоненты, которые должны разрабатываться производителями массивов. Для поддержки Array-based replication на SRM-server каждого сайта должны быть установлены SRA для каждого подключенного к нему массива.


SRM с использованием vSphere Replication


SRM может использовать vSphere Replication (встроенная и бесплатная технология пакета VMware vSphere) для репликации данных на уровне ВМ между сайтами. Работа vSphere Replication не зависит от типа и модели хранилища, не требует интеграции с массивом (разработки SRA) и поддерживает любое хранилище совместимое с vSphere.

vSphere Replication позволяет создавать цепочку снапшотов для реплицируемых ВМ на резервном сайте – множество реплик защищаемых машин на разные моменты времени. Таким образом, появляется возможность выбора оптимального состояния ВМ для восстановления среди множества снапшотов реплики.


Смешанный режим репликации


SRM поддерживает смешанный режим работы в котором совместно используются оба механизма репликации: Array-based replication и vSphere Replication. Данный режим требует развертывания и настройки этих технологий на обоих сайтах. Настройка разных механизмов репликации для одних и тех же ВМ не поддерживается. Однако, SRM позволяет включать в один план задачи по восстановлению с разными механизмами репликации, но для разных ВМ.


vSphere Replication


vSphere Replication это расширение для vCenter, которое обеспечивает репликацию и восстановление ВМ на уровне гипервизора, а также обеспечивает мониторинг и управление данными процессами. Данная технология является альтернативой репликации на уровне массива. Решение поддерживает следующие варианты репликации ВМ сайта:

• между сайтом источника и целевым сайтом (site-to-site);
• между кластерами внутри одного сайта;
• между множеством сайтов источников и общим целевым сайтом (many-to-one).

vSphere Replication не зависит от типа массива и поддерживает любое хранилище совместимое с vSphere. Решение входит во все редакции vSphere (за исключением самой простой и бесполезной) и не требует покупки лицензий.

Репликация осуществляется путем передачи измененных блоков между сайтами или кластерами источника и цели. Это подразумевает первоначальную полную синхронизацию ВМ источника и её реплики. Настройка задания репликации позволяет установить RPO, а также активировать возможность сохранения множества промежуточных временнЫх состояний реплики (MPIT — multiple points in time) – аналог снапшотов ВМ.

Существует возможность мониторинга и управления состоянием репликации, получения информации о входящих и исходящих репликациях, состоянии сайтов, результатах репликации и ошибках.

Процесс восстановления ВМ из реплики не автоматизирован и требует ручного вмешательства. В частности, он требует вручную выбрать синхронизацию состояния ВМ с сайтом источника или восстановить последнее состояние из реплики. Восстановленная ВМ не имеет сетевых подключений дабы не вызвать потенциальных конфликтов, что требует ручного подключения ВМ к нужным виртуальным сетям дата-центра. MPIT обеспечивает восстановление реплицированной ВМ с заданной цепочкой снапшотов, что дает возможность выбрать нужное состояние восстановленной ВМ.

vSphere Replication appliance – основная сущность решения, которая регистрируется и подключается как расширение к серверу vCenter. vCenter допускает установку и подключение только одного vSphere Replication appliance (VR appliance). VR appliance включает встроенный vSphere Replication server, который управляет всеми процессами репликации. Для балансировки нагрузки поддерживается развертывание дополнительных vSphere Replication server, которые подключаются к основному VR appliance данного сайта (vCenter-а) и по сути сами являются виртуальными эплаенсами.

Пример конфигурации репликации site-to-site:

image

Пример конфигурации репликации между кластерами внутри одного сайта, при этом используются 2 VR сервера для балансировки нагрузки (это не обязательно, можно было обойтись одним VR appliance):

image

Пример конфигурации репликации many-to-one:

image
Поделиться с друзьями
-->

Комментарии (6)


  1. DonAlPAtino
    14.11.2016 10:00

    "• Аварийное восстановление (Disaster recovery). Рассчитано на внезапное падение основного сайта, осуществляется переключение на резервный сайт, незапланированная операция". Расскажите, пожалуйста, поподробнее. Возможно ли оно в автоматическом режиме или только в ручном. Как определяется что умерли именно сервера в датацентре, а не упал, например, защищенный канал между датацентрами?


    1. NoOne
      14.11.2016 11:12

      Только в ручном. Можно накрутить вокруг логики и дергать ручки API в автоматическом режиме. Но в самом SRM этого нет.


  1. vdeneko
    14.11.2016 11:37
    +1

    решение для обеспечения непрерывности бизнеса и аварийного восстановления, предназначенное для планирования, тестирования и восстановления ВМ

    про failback забыл еще

    о чем статья-то? продукту уже более 5 лет

    у каждого из способов свои преимущества и ограничения:
    array replication:
    + репликация может быть синхронной — считай это одно главное преимущество
    — SRA адаптеры создаются для СХД среднего уровня и выше, для начальных как правило нет
    — завязка на одного вендора СХД, нельзя с EMC реплицировать на HP и т.д.
    — лицензия на репликацию СХД нужна и она порой не дешевая
    — репликация целиком LUN/Share, что повышает трафик репликации, если на данных разделах лежат машины, которые не защищаем SRM

    vsphere replication:
    + встроенный функционал и не требует дополнительных денег, если куплена лицензия на гипервизор
    + нет привязки к СХД, можно миксовать вендоров и использовать в том числе и локальные диски
    + репликация отдельных ВМ, а не LUN/Share, что может минимизировать трафик репликации
    — только асинхронная репликация


  1. Balintrue
    14.11.2016 18:33

    Яков, спасибо за интересный обзор технологий. Но это именно обзор — не спорю очень качественный и детальный, а не руководство (tutorial) как помечено в теме. Возможно, будет продолжение? + 100 Вам в карму если бы мог )


  1. yahonts
    14.11.2016 18:37

    Пожалуйста. Обзор, пожалуй вы правы. Продолжения не предвидеться.


  1. m0ps
    17.11.2016 12:44

    Спасибо!
    Действительно доходчиво описано для того что бы понять что оно из себя представляет и по какому принципу работает.