Успеть за 24 часа: история переезда оборудования между ЦОДами / forpes.ru

Главная
Успеть за 24 часа: история переезда оборудования между ЦОДами

Успеть за 24 часа: история переезда оборудования между ЦОДами +4

29.03.2021 07:04

JetHabr 8 2300 Источник

Переезд сродни пожару. Накал страстей нужно умножить на 10, когда речь идет о перевозке целого ЦОДа крупного банка. Сомневаетесь, что за 24 часа можно перевезти 25 стоек, которые содержали 150 единиц оборудования, включая СХД, высокопроизводительные серверы HP Superdome и целый набор разных систем от Sun, Huawei, Lenovo, Quantum и IBM? Берите попкорн, кота на колени, вязание (нужное подчеркнуть), а мы расскажем, как это было и поделимся лайфхаками, как пережить подобные проекты.

Наш клиент — крупный банк, — готовился к строительству нового ЦОД. Старый дата-центр ждал полный демонтаж, а на его месте должен был быть возведен новый. И пока проектировался новый центр обработки данных, возникла необходимость оперативно перевезти оборудование на временную площадку.

Заказчик обозначил идеальный план — переехать за 24 часа. Наша задача состояла в том, чтобы как можно скорее обеспечить запуск оборудования основного ЦОДа, поскольку во время переезда ключевые системы банка были смигрированы в резервный.

Хорошая подготовка — половина успеха

Работали мы вместе с командой заказчика, куда входили специалисты по направлению СХД, виртуализации и серверов — всего больше 10 человек. Это были руководитель и администратор проекта, а также эксперты по сопровождению инженерных систем ЦОД, сетевой инфраструктуре, системам процессинга и другим специализированным банковским системам, телефонии, СУБД, системам виртуализации, управлению инцидентами, поддержке СХД и СРК и прочие. Специалисты заказчика отвечали за прикладную часть, и поначалу на наших плечах лежали только демонтаж, перевозка железа, монтаж и настройка инфраструктурного софта.

Вместе с заказчиком мы проводили аудиты исходной и целевой площадок. Нам нужно было продумать и просчитать переезд до минут, предусмотреть различные корнер-кейсы, а также коммутировать оборудование на новом месте. Этим занимались сетевики заказчика, которые должны были в день переезда предоставить нам схему подключения оборудования.

Позитивным побочным эффектом переезда стала ревизия имеющихся активов. Так выяснилось, что часть оборудования логичнее вывести из эксплуатации, чем перевозить. С одной стороны, заказчик сбросил с себя балласт из устаревших серверов, с другой — у нас уменьшилось число оборудования, которое нужно было перевозить и запускать.

Тем более, что в основном энергии требовала организация работы всех участников. Понятно, что никто не может работать без потери качества 24 часа подряд. Поэтому для переезда были организованы 3 смены по 8 часов — всего почти 40 человек. В состав команд вошли инженеры-монтажники, профильные инженеры для присутствующих классов оборудования и грузчики. Таким образом, в каждой команде были люди, которые демонтируют, раскоммутируют, перевозят, монтируют, коммутируют и настраивают.

Все были подготовлены и ориентированы на 8 утра, чтобы приступить к разборке техники для последующей перевозки. На этом идеальная часть проекта закончилась…

Три. Начинаем разбирать

Закон Мёрфи гласит: «Если что-то может пойти не так, оно пойдет не так». Практика такова, что чем масштабнее проект и экстремальнее сроки, тем больше вероятность возникновения «сюрпризов». Когда мы прибыли на площадку, далеко не все оборудование было готово к вывозу. Отключение и вывод систем из продуктива занял больше времени, и нам пришлось ждать старта.

Мы быстро адаптировались к ситуации и сперва-наперво переориентировали грузчиков, сказав им «пока не приезжайте». Остальным инженерам мы продлили смену, потому что заменить их было некем, а отпустить их «еще отдохнуть» было нельзя — непонятно, сколько именно времени пришлось бы ждать подготовки оборудования.

Два. Переезжаем

Отставание от графика уже перевалило 5 часов, когда оборудование было готово. Начали работать. Нужно было погрузить 25 стоек со 150 единицами оборудования. Чтобы уложить переезд в сутки, мы выставили приоритеты, разделив системы на 3 категории. Сначала перевозились наиболее критичные системы, потом — средней важности и наименее приоритетные.

В числе переезжавших устройств оказались не только серверы — переселялось также хранилище high-end класса Huawei Ocean Store и уникальная для России система защиты Hitachi Protection Platform. Это оборудование курировали профильные специалисты с соответствующей сертификацией. Тонкость заключалась в том, что нам нужно было подобрать по 3 инженера на каждый вид специализированного оборудования, чтобы в каждую смену кто-то «знающий» отвечал за соответствующие устройства.

Высококлассные инженеры — «бриллианты» в нашей команде. В проекте они работали вместе с помощниками, которые стали и дополнительными руками, и совершали простые операции под руководством монтажников. Они ставили салазки для серверов, переносили оборудование, крутили болты, упаковывали коробки и так далее.

Один. Собираем и запускаем

Несмотря на все сложности, мы укладывались в график и — даже! — привезли оборудование на площадку вовремя. И тут снова начались сюрпризы... Оказалось, что переданная нам схема коммутации расходится с реальной по отдельным точкам. Где-то не хватало кабеля, где-то не было нужных портов, а несколько серверов и вовсе не вошли на предполагаемые места в стойках по количеству юнитов.

К счастью, в каждой смене у нас были крутые сетевики, и бОльшая часть проблем решалась на месте. Парни быстро разработали дополнения и изменения к схеме коммутации. А там, где это было нужно, серверы просто поменяли местами, переставили и добавили необходимые соединения.

К подключению сложных устройств мы тщательно подготовились заранее и вовлекли в проект вендоров. Например, для отключения и подключения HP Superdome приехал инженер HPE. Hitachi Protection Platform мы запускали на новом месте при поддержке российского представительства. То же самое касалось и Huawei Oceanstor — нам потребовалось практически непрерывно поддерживать связь с техподдержкой производителя, пока шла настройка и конфигурирование на целевой площадке.

Можно ли успеть за 24 часа?

В результате мы действительно сдали собранный ЦОД через 23 часа 20 минут после начала переезда. Точкой отсчета для нас стал момент, когда наших инженеров подпустили к отключенному оборудованию. Потом еще в течение недели шла тонкая донастройка работы нового дата-центра. В одних случаях модифицировали коммутацию, некоторые устройства требовали обслуживания. Происходило сопровождение переехавшего ЦОДа. И если с подключением оборудования мы расправились на выходных, то еще до среды отлаживали нюансы, чтобы весь комплекс оборудования работал оптимально.

Такие проекты сложны из-за высокой нервной нагрузки. Я не спала сутки, и вся команда понимала, что права на ошибку нет. Но оно того стоило. Для сотрудников и клиентов банка переезд дата-центра так и остался незамеченным. Все было перевезено и запущено за выходной, и для нас это стало лучшей наградой.

Драгоценная мораль

Этот напряженный проект заставил меня еще раз проинспектировать мой личный список «Важно помнить», который меня выручает в подобных кейсах. Делюсь своей скрижалью.

При переезде нужно «думать за себя и того парня». По возможности нужно наладить сквозную проверку документации между всеми участниками: и теми, кто проектирует, и теми, кто внедряет. Это можно организовать, например, во время совместного осмотра площадки.
К работе с уникальным оборудованием обязательно нужно привлекать вендора. Стоит заранее делать запрос вендору, потому что нужный специалист может оказаться занят на время проекта.
На подобный переезд нужно закладывать дополнительные ресурсы. Во-первых, должно быть как минимум два менеджера. Один человека может энергетически не вытянуть разруливание проблем все 24 часа, если планы начнут сыпаться, как костяшки домино. Во-вторых, нужно предусмотреть скамейку запасных из исполнителей, если работы выйдут за рамки плана и основному составу нужно будет экстренно дать отдых.
Качественная подготовка к переезду — прекрасный повод для ревизии имеющегося ИТ-хозяйства. На этом проекте мы сэкономили массу времени и сил, отказавшись от перевоза старых серверов.
Ночные смены = увеличенная нагрузка. К ночным работам стоит относится аккуратнее вдвойне и команды менять вовремя, не рассчитывая на переработки.
Нужен почасовой план с пошаговым описанием действий всех участников. Да, сражение никогда не идет по плану, но, если у вас нет плана — вы точно проиграете. Поэтому очень помогает предварительно прогнать всю схему с участниками процесса в «настольном» режиме и заложить дополнительные резервы на случай сбоев. А еще, готовя такой план, не стоит попадать в ловушку сознания: если я пробегаю 100 метров за 10 секунд, то с марафоном за управлюсь меньше, чем за 1,5 часа. Это не так. Усталость сильно влияет на скорость работ, и это тоже нужно брать в расчет.

А вы участвовали в подобных ИТ-переездах? Какие выводы оказались самыми ценными для вас?

Автор: Нина Пушкарь, менеджер проектов «Инфосистемы Джет»

Комментарии (8)

Fitrager
29.03.2021 10:57
#22859036
А нельзя было поднять реплику ключевых элементов инфраструктуры в облаке у ЦОД провайдера и спокойно перевозить оборудование? Пользователи крупного банка наверняка им пользуются в выходной.
1. JetHabr Автор
  30.03.2021 23:10
  #22866370
  Мы отвечали только за переезд оборудования. Перед ним сотрудники банка мигрировали ключевые системы в резервный ЦОД, на это время и выпали даунтаймы. В ходе переезда простоя ключевых систем и сервисов не было.

gvitalik
29.03.2021 14:09
#22859880
Прям 12 друзей оушена. Непонятно, что делали, если бы грузовики с оборудованием встали где-нить в пробку часов на 6? Поэтому актуален вопрос Fitrager'а, почему не захотели настроить реплику ключевых элементов. Чтобы можно было откатиться обратно в случае чего.

xxxcoltxxx
29.03.2021 14:37
#22859996
Для меня (с колокольни программиста) переезд — это поэтапное отключение нод/реплик и включение их обратно в другом месте, т.е., спокойный переезд. Но видимо это заблуждение)
1. JetHabr Автор
  29.03.2021 14:41
  #22860020
  О да, классический конфликт ожидания и реальности) Когда мы готовимся к подобным проектам, то всегда предполагаем возможные риски. Но жизнь всегда подкидывает «креативные» варианты. В общем основной принцип — всегда начеку!)

GPL
29.03.2021 16:19
#22860462
а можно поподробнее насчет процессинга крупного банка? да, можно отключить на выходные АБС, ДБО, можно даже контроллеры домена поотключать (все). но хотелось бы уточнить, каким образом отключался процессинг, учитывая всю банкоматную сеть крупного банка и пользователей пластика.
мне почему-то кажется, что процессинг просто — напросто не глушился окончательно. также на месте директора по it крупного банка я бы поднял всю резервную архитектуру, которая могла бы отработать в случае проблем до полного восстановления.

GPL
30.03.2021 07:05
#22862564
ещё вопрос. Вы работали с носителями, содержащими банковскую тайну, персональные данные и, возможно, электронные ключи. работа со всем этим регулируется федеральными законами и внутрибанковской нормативкой. согласно инструкциям службы безопасности, их задачей было обеспечить конфиденциальность этой информации. сотрудники банковской безопасности принимали участие в процессе?

cahbe
30.03.2021 10:01
#22863014
Запасайтесь покорном:
1 — мы решили переехать за 24 часа
2 — со старта мы уже опаздывали на 5 часов
3 — вендоры наше всё
4 — мы переехали
5 — выводы — больше народу, больше вендоров, за всё хорошее против всего плохого
Такое ощущение что история со стороны HR-а — Пришли мальчики, все такие растакие и возили шкафчики все в проводах, какие мы молодцы.

Успеть за 24 часа: история переезда оборудования между ЦОДами +4

Хорошая подготовка — половина успеха

Три. Начинаем разбирать

Два. Переезжаем

Один. Собираем и запускаем

Можно ли успеть за 24 часа?

Драгоценная мораль

Комментарии (8)

Fitrager

JetHabr Автор

gvitalik

xxxcoltxxx

JetHabr Автор

GPL

GPL

cahbe