Это 2 Петабайта бэкапа

У нас 14 дата-центров по всему миру, из которых я занимаюсь обслуживанием десяти. Лет пять назад я думал, что там, за границей, всё блестит, поддержка внимательная и вежливая и ошибается только совсем по мелочам. Мои иллюзии довольно быстро развеялись.

Вот пример. Стоят у нас в стойках серверы, по сути — дисковые полки, предназначенные для «медленных» данных бэкапов. Место на них кончалось. В каждом сервере было по 24 диска и 36 слотов, мы решили добить ещё по 12 HDD. Я отправил тикеты, объяснил, что мы делаем и зачем, добавил, что нужно поставить диски в неподсвеченные слоты.

Через 10 минут мониторинг показал, что у нас выпал диск в первом сервере. «Ничего себе, коллеги жгут», — подумали мы. Наверное, задели или ещё что-то… Но тут почти сразу выпали второй и третий диски. Я начал звонить в немецкий саппорт, и мне ответил коллега из Индии.

К моменту, когда мы успели остановить его коллегу-грека, этот «терминатор» вытащил по 12 дисков из пяти серверов и готовился приступать к шестому. Система делала бешеный ребилд. Когда саппортер понял, что именно пошло не так, они начали вставлять диски обратно в сервера. И немного, совсем чуть-чуть, перепутали порядок. Что тоже сказалось на безумии ребилда. Но, к счастью, благодаря детальным объяснениям удалось предотвратить накатывание бэкапа — это прервало бы сервис на полчаса.

Так я узнал, кто конкретно и как может работать в поддержке. Тут есть и моя ошибка: рассчитывал-то я на привычную поддержку второй линии, понимающую меня в России с полуслова. И не учёл культурных и языковых различий. С тех пор мы пишем крайне детальные пошаговые инструкции в духе:
  1. Подойти к серверу такому-то.
  2. Убедиться, что это именно тот сервер, сверив номер такой-то.
  3. Отсчитать четвёртый диск сверху.
  4. Найти восьмой диск снизу.
  5. Если это один и тот же диск, аккуратно его вынуть.

В общем, исходим из того, что любое место, где можно сделать что-то не так или понять что-то не так, будет эксплуатироваться как уязвимость в коде. Коллеги иногда всё же подбрасывают нам новые нетрадиционные видения обычных действий, и мы дополняем типовые формы. На каждую обычную операцию у меня уже есть двухстраничные инструкции. Это очень помогает в работе.

Сент-Луис, США


Наш первый дата-центр расположен в США, в Сент-Луисе. В нем мы размещали облачный бэкап пользователей ещё в самом начале. Учитывая тогдашнюю популярность услуги и общее непонимание того, что бэкап надо не только делать, но ещё и хранить вне дома (Dropbox только год как родился, продвинутые пользователи бэкапы жгли чуть ли не на болванках), про архитектуру и масштабирование мы думали не особо много. Как оказалось, зря. Нагрузка начала расти быстрее, чем мы ожидали, и наш хостер PlusServer AG не смог довозить железо с необходимой скоростью.

Вообще, ЦОДы у нас двух типов: где мы берём в аренду площадь (дают стойки, охлаждение, питание и охрану), либо где мы берём фактически очень большую колокацию (дают секцию машзала, интернет, поддержку). В первых работают наши местные инженеры, во вторых — прямого доступа к железу нет, и работы выполняет команда поддержки дата-центра. В случае с PlusServer AG действует некий промежуточный сценарий, и, в основном, мы пользуемся услугами их инженеров. Сложностей или конфузов с ними не припоминаю. Тьфу-тьфу…

Сейчас сент-луисский ЦОД (наша секция) наполовину неактивен и находится в ожидании миграции — там очень много старого железа, которое используют разве что тестировщики.

Страсбург, Франция


Это второй по возрасту наш дата-центр, и там тоже много уже «взрослого» железа, даже, кажется, была пара i3, которые тестировщики забрали из основной инфраструктуры для «издевательств» во время краш-тестов.

Всё тот же Плюссервер, но общение с поддержкой идёт на удивление тяжело. Иногда им очень сложно что-то объяснить. Как вы уже прочли выше, если нужно что-то объяснить — уходит полчаса на все возможные варианты развития событий. Инструкция меньше чем на 30 пунктов на перезагрузку сервера, скорее всего, будет воспринята неверно.

На тестах 10G-свитча, когда мы просили сконфигурировать сеть на новом сервере, в момент исполнения тикета отвалился от мониторинга весь ЦОД целиком. Оказалось, что человек, настраивавший его, перепутал gateway и IP-сервера — и через один из серверов все остальные пробовали ломиться в сеть.

Токио, Япония


Третий наш дата-центр находится в Токио, сервис-провайдер — Еquinix, интернет-провайдер — Level 3. На самом старте они не могли вдвоём согласовать кросс-коннекты. Нам нужно было тогда получить burstable-канал, то есть линия на 10% от возможной утилизации сейчас, которую мы планировали расширять в 10 раз через два года. В точке же соприкосновения (MMR, Meet-me-Room, точки входа провайдерских каналов в ЦОД) связки не было вообще.

Level 3 сказали, что сделали всё корректно и не планируют что-то переделывать. В итоге полторы недели я сначала выяснял, что именно не так, а потом уговаривал обе компании сделать, как надо, собирая на конференц-коллы представителей разных их подразделений. Каждый сделал правильно и точно, по их убеждениям, и не хотел признавать свою ошибку. Поэтому я просил «пойти нам навстречу и сделать чуть больше». Сделали.

Самое приятное в работе с японской поддержкой — они невероятно исполнительные. Есть у этого и обратная сторона: инструкции нужны почти такие же, как в Страсбурге. Потому что они невероятно педантичны и задают очень-очень много вопросов. Как-то раз они 12 часов (!) ставили контроллеры в один сервер. Если возникает хоть одна ситуация, где есть два варианта ответа, и сотрудник поддержки знает, что на 95% первый вариант правильный, он сделает, как логично. Почти везде. Кроме Японии. В Японии он остановится, подробно опишет дилемму и будет терпеливо ждать вашего ответа. Например, они всегда останавливают процесс, если внутри сервера больше одного свободного слота, спрашивают, в какой именно ставить.

Франкфурт-на-Майне, Германия


Здесь тоже Equinix, полная поддержка с их стороны. ЦОД планировался как маленький вспомогательный в CDN, но перерос в серьёзную площадку. Именно эти парни вытащили нам по 12 дисков из серверов вечером в пятницу.

Чек-лист обращения такой:
  1. Разбивать инструкции на короткие пункты.
  2. Общаться односложными предложениями.
  3. Стараться не создавать возможности для решений «по месту», то есть детально прописывать все варианты.

Тогда всё работает просто отлично. Надо сказать, что других инцидентов после введения таких правил не было.

Хотя нет, была ещё одна история. Заканчивалось место, купили дисков сразу кучу коробок. Но не у местного поставщика (у него так быстро не было), а в Лондоне, и везли со склада из Нидерландов. Машина приехала в этот же день. Приходит письмо от поставщика: мол, мы диски доставили, получатель отказался, везём обратно. Оказалось, что бравые парни из безопасности не нашли непосредственно на коробках, кому эти диски предназначались. И развернули их обратно. С тех пор мы всегда просим корректно подписать коробки, если везём в ЦОДы с полным сервисом.

Кстати, Seagate очень оперативные — они по доброте душевной решили максимально быстро вернуть диски на склад отправителя, потому что явно заказчик ошибся городом, и диски срочно потребуются где-то в другой части планеты. Мы поймали поставку уже после самолёта: понадобился ещё один перелёт обратно. Приняли со второго раза успешно.

Сингапур, Сингапур


Пятый дата-центр тоже был под полным сервисом, только провайдер — Softlayer. Здесь за всё время не было ни одной истории, ни следа каких-то непониманий. Вообще ни одной проблемы, за исключением цены.

С ними очень просто: говоришь, что тебе необходимо, выставляют счёт и железно обеспечивают инфраструктуру. Цены у них одни из самых высоких, но можно и нужно торговаться — у разных посредников могут быть разные варианты для одних и тех же услуг, например. Персонала там много, судя по ответам на тикеты, но абсолютно все компетентны.

Сидней, Австралия


Шестой ЦОД мы хотели сделать уже со своим инженером. Но оказалось, что найти специалиста необходимого уровня компетенции в Австралии довольно сложно: нам был нужен, грубо говоря, фрилансер-админ на четверть ставки, который приезжал бы пару раз в месяц и делал бы текущую работу. Плюс выезжал бы на аварии. Обычно мы ищем таких кандидатов через специальные агентства, которые обеспечивают нас тремя-четырьмя десятками уже готовых на такую работу специалистов. После этого мы отбираем до 10 анкет и проводим собеседования по Skype. Остаётся один человек, работающий в штате, и ещё 1–2 на подхвате, чтобы если что — они смогли заменить его, например, при болезни.

Проблемой в ЦОД в Сиднее стали сервера с 72 дисками. Они требовали чертовски много питания — на стойку приходилось 6 таких серверов, и каждый съедал по 0,9 кВт, стойка — от 6 до 8 кВт. Мой коллега говорит, если заходишь после ливня, через 10 минут твоя одежда полностью сухая.

Лондон, Англия


В Лондоне мы совмещаемся с Acronis Disaster Recovery. Это самый скучный ЦОД, там ничего не происходило. Год как поставили железо. Так ничего и не происходит. Стук-стук.

Бостон, США


В Бостоне самый большой наш ЦОД. В планах есть его переезд.

В Бостоне мы экспериментировали с 72-дисковыми серверами в 4 юнита. Проблем просто наелись, потому что сервер просто волшебный. В бостонском офисе есть наш гуру-админ, но он вообще-то занимается другим, и каждый раз вызывать его через весь город ради замены диска — как-то не очень правильно. Да и накладно.

Пишем тикеты местной поддержке. Но она работает не от ЦОДа, а от сторонней компании, дающей стойки этого огромного дата-центра. А никого другого на площадку они не пускают: или наш гуру, или их саппорт. Сами они умеют вставлять USB-диски в машину для инициализации, менять сбойные диски и перезагружать сервера. Всё. Один раз из 72-дискового сервера надо было вытащить конкретные диски. Салазки там двойные, два диска один за другим. Сложно разобраться, где и что, поэтому иногда они всё же трогали не те диски. Пришлось ехать.

В какой-то момент после старта к нам прибежал с огромным письмом электрик. Суть сводилась к тому, что 7 серверов по 0,9 КВт в стойку — это немного перебор. Говорит, потребляет он 115% номинала, необходимо разгружать. А другие стойки были типовые — местные, где сзади два блока с розетками, куда, собственно, втыкать питание. Наши серваки длиннее обычных сантиметров на 20 — и вот ровно этими 20 сантиметрами они закрывали слоты питания. Мы разбавили стойку «короткими» серверами. Помню, пока играли в тетрис, меняли 60-килограммовые машины там, таскали вдвоем, поправляли здоровье.

Россия, Москва


Мы храним данные россиян строго в РФ. Если вы ждёте офигительных историй про нашу поддержку — не дождётесь. Хотя, конечно, парочка сюрпризов от DataPro есть в копилке. В США обычная практика техработ — за неделю приходит письмо в духе «Мы тут запланировали то-то и то-то, это нужно и полезно для всего ЦОДа и для вас, работы будут в такой-то интервал. Вас это не потревожит». В России уведомляют немного иначе, но вы и сами, наверное, знаете. Но надо сказать, прерывания сервиса ни разу не было.

До этого мы стояли в Твери. Когда перевозили железо из Твери в Москву — за 2 недели отработали переезд 15 серверов «на горячую». Хотели в одну итерацию, но решили не рисковать с даунтаймом. Возили по 2 сервера каждый день: я вставал в 6 утра, давал добро на упаковку, везли — в 11 вечера писали, что привезли, — ставили, проверял. Подняли виртуальную сеть между Москвой и Тверью на хорошем линке, сервера думали, что они в одной физической сети с той же самой адресацией, что и раньше. Так и таскали по 2 машины: восстановление, ребаланс, проверка, ещё 2 сервера.

Эшбурн, США


На эту площадку только едет бостонское железо, пока особо рассказывать нечего.

В Эшбурн мы везем всё из Бостона по схеме, отработанной на примере Твери. Тоже поднят 10G-линк, и машинки в одной сети с сохранением адресации. Идея в том, что нужно поднять железо на новом месте и дождаться ребаланса: если, например, половина дисков выпадает при перевозке, то нужно ждать довольно долго их рестора, а не везти следующую партию.

Ещё случаи


В Европе иногда бывают особенности с таможней: когда нам нужно было срочно поменять один сгоревший сервер, мы отправили машину из Бостона, а это 2 дня вместо трёх недель со склада поставщика в Европе. Но мы не учли таможенников. Не хватало номера VAT, и они не смогли из-за языкового барьера (французский) договориться с бухгалтерией в США. Отправили всё обратно. С тех пор заказываем в Европу из Европы.

В Бостоне возникла проблема, что 36-дисковый сервер заполняется за полторы недели, а это 200 терабайт. Заказ тоже от двух недель — и получается, что мы не успевали заказывать сервера на волне более чем успешного запуска одного из продуктов. Решили тогда новыми принципами упаковки и частичным распределением по другим ЦОДам, поменяли многое в архитектуре. Меня это коснулось тем, что пришлось заново настраивать процедуры закупок и работы с поставщиками, — с тех пор мы можем брать большие партии и быстрее по предварительным договорённостям, оплачивать позже.

Один раз брали на тесты сервера с неполной конфигурацией для «медленных» данных. Там был только один процессор вместо двух, а внутри — полка дисков и 10Гб-сетевая карточка. Включаем — карточка не работает. Не видят сервера эти карточки. Читаем мануал — там момент мелким шрифтом: PCI-слоты разделены по процессорам, нечётные — на первом, чётные — на втором. Все слоты работают исключительно, когда только два процессора, но питание приходит на все независимо от этого. Карточка моргает и горит, но её сервер не видит. Переставили в другой слот, хотя, вроде, это ещё производитель должен был на тестах сделать.

У DataPro в Твери как-то деревья упали на оптику: пропала публичная сеть, по телефону объяснили, что случилось. Одна линия шла теперь ровно через пару тополей, а резерв не работал. Сетевое оборудование не смогло переключиться на резервный канал.

В Германии Level 3 в 2015 настраивали свою маршрутизацию и чуть задели нашу часть оборудования парой уровней ниже. На полчаса отвалился коннект. В тот момент европейский ЦОД был главным — это привело к прекращению сервиса в части Германии. С тех пор мы поменяли архитектуру, но это лучше коллеги расскажут.

В США же был случай. Наверное, это самое весёлое за всё время, что я видел. Меняли сервер, позвали инженеров производителя, чтобы они заменили материнку и блок питания. 72 диска, масса брутто — 80 килограмм. Эти зайчики начали вытаскивать его из стойки вместе со всей требухой. Получилось у них только наполовину — он начал крениться и падать. Они попробовали его удержать и вытащить, но погнули салазки. Попробовали запихать назад, но их не пустили уже погнутые рельсы. Взяли и бросили в таком состоянии. Сказали, что приедут через неделю с заменой.

В целом, как видите, условно-опасная ситуация за 5 лет была только одна, когда стоял вопрос о накатывании бэкапа с другой площадки. Но обошлось. Всё остальное решалось локально и довольно хорошо. Мелкие шероховатости — это обычный человеческий фактор, и, наверное, было бы странно, если бы у нас было меньше историй.

Комментарии (22)


  1. zirf
    29.02.2016 15:34
    +7

    Насчет уровня техподдержки на Западе. Плавали — знаем.

    1. ggg запись в тикете. Удалось выяснить, это тикеты с причиной у интернет провайдера, сокращение "позвонили, никто не отвечает" — реально, кроме как позвонить узнать ничего и не сделаешь.
    2. 10% оборудования по факту есть, а в CMDB нет, то есть нет совсем (обслуживание не оплачивается).
    3. Потрясающее обилие равшанов и джамшутов тамошнего разлива, которым "step-by-step" and "spell it please".
    4. Звонишь на европейский номер, попадаешь в Бангалор.

    и.т.д.


  1. danfe
    29.02.2016 18:35
    +5

    Если возникает хоть одна ситуация, где есть два варианта ответа, и сотрудник поддержки знает, что на 95% первый вариант правильный, он сделает, как логично. Почти везде. Кроме Японии. В Японии он остановится, подробно опишет дилемму и будет терпеливо ждать вашего ответа. Например, они всегда останавливают процесс, если внутри сервера больше одного свободного слота, спрашивают, в какой именно ставить.
    Мне кажется, пример не очень удачный (даже если слоты равнозначные-одинаковые). Это вообще довольно распространенная ошибка: полагать, что если «можно втыкать в любой», то вопросов не возникнет.

    Это не так: люди не любят внезапно принимать немотивированные решения, что называется, на ровном месте. Я, например, в подобной ситуации точно так же, скорее всего, полезу в мануал или интернет (в т.ч. если более-менее уверен).


    1. funny_sailor
      29.02.2016 20:30
      +5

      Тут согласен, в некоторых ситуациях сам бы повел себя так же, но, когда вечером пишешь тикет на замену диска, а утром обнаруживаешь, что он не сделан с комментарием: "у нас только 2 из 4 винтиков, можно мы прикрутим на два?", глаз невольно начинает дергаться :)


      1. danfe
        29.02.2016 20:49
        +2

        Вот с "винтиками" согласен, этот пример был бы в самый раз. ;-)


      1. zirf
        29.02.2016 20:59
        +1

        Обратная ситуация. Упал сервер, через консоль было видно, что плашка RAM навернулась, до ЦОД более 3000 км. Отписали. через 10 мин сервер поднялся! У нас некоторые впали в экстаз "какой сервис". Ага, у меня был пароль для использования сервис-контракта, это "не положено", но для подстраховки. Замена NBD однозначно. Помолчал, связался с ихним инженером (свои люди). Я говорит убитую плашку вытащил, новая завтра будет, как обычно, завелось и ладно.


    1. agentapple
      01.03.2016 14:29

      Теперь понятна причина основательности инструкций к оборудованию HDS. =)


  1. furtaev
    29.02.2016 18:50
    +6

    … нужен, грубо говоря, фрилансер-админ на четверть ставки, который приезжал бы пару раз в месяц и делал бы текущую работу..

    Видимо, Вы еще мало плакали и кололись, раз продолжаете так экономить на людях. Желаю вам клиентов, оплачивающих четверть стоимости продукта (как вариант: 1 из 4-рёх платит, а трое — пираты/кардеры).


    1. alexkuzko
      29.02.2016 19:39

      Это да! Хотят по факту контрактора, т.е. человека, работающего по высокому рейту, а платить планируют как сотруднику, да еще и на четверть никакущей ставки. Жлобство.

      Негодую, т.к. постоянно с такими хитро… клиентами встречаюсь и приходится объяснять что сколько на самом деле стоит.


      1. BigD
        29.02.2016 22:17

        хм, это в развитых странах контракторам платят бОльшие рейты? при этом их в чем ограничивают, в страховках и годовых инкризах, а также гарантированном продлении?

        у нас, по-моему, все наоборот в части рейтов у контракторов.


    1. funny_sailor
      29.02.2016 21:03
      +1

      ну, зачем все так буквально понимать? работа оплачивается по часам, и никто еще не жаловался, вроде


    1. funny_sailor
      29.02.2016 21:04
      +1

      Если нам нужно зайти в дата-центр на пару часов раз в месяц, причём нерегулярно — аутсорса более чем достаточно.


    1. evilbot
      01.03.2016 09:41
      +2

      Вы пишете не зная реальной стоимости услуг. Четверь ставки — это, примерно, 40 рабочих часов в месяц. Я не представляю в каких случаях человеку надо проводить в ДЦ 40 часов в месяц. Обычно в ДЦ работ на 10-15 часов в месяц, а то и меньше. Зачем ради этого брать человека на полную ставку — непонятно. Может вы объясните бизнес кейс?


  1. ArjLover
    29.02.2016 21:21

    Сколько стоит такой сервер на 72 диска?


    1. evilbot
      02.03.2016 16:17

      Сильно зависит от дисков. Шасси где-то — 300к рублей(в России), плюс стоимость дисков.


  1. bird2gt
    01.03.2016 12:55
    +1

    Level3 очень хорошая, но страшно забюрократизированная контора. Мы через полтора месяца согласования и подписания контрактов поняли что проще делать конференс-кол с инженерами, продажниками и юристами одновременно чем писать бесконечные письма. С другой стороны, все работает который год практически идеально. Это был хороший урок что надо максимально разжевывать свои пожелания для зарубежного подрядчика.


    1. Uburwator
      01.03.2016 13:44
      +1

      Согласен, с одним важным нюансом:
      Level3 огромная, и по разные стороны от Атлантического океана совершенно разный уровень. В США — всё в разы лучше. Поэтому, когда люди, долго работающие там с ними, потом заключали договор с европейской стороной — потом рвали волосы, глядя на некомпетентность и общее раздолбайство. Даже сами с собой не могли договориться, не говоря уже об описанном выше переведении стрелок.

      В общем, желаю, чтобы работало и не ломалось, иначе будет многовато проблем (лучше сразу знать знакомого инженера, чтобы обойти все первые линии поддержки).


      1. evilbot
        01.03.2016 16:46

        Это не только в Level3, в бытность моей работы с British Telecom имели аналогичные проблемы, начиная от сроков подачи сервиса в 90 рабочих дней и заканчивая выставлением офферов после даты заказанного подключения.


    1. funny_sailor
      01.03.2016 16:22

      Расскажете подробнее, что именно было с ними сложно? Дело в том, что я тоже решаю вопросы конференс-коллами сразу с командой, но таких вопросов была буквально пара, включая описанный на MMR Токио.


  1. sim31r
    01.03.2016 13:54

    Когда перевозили железо из Твери в Москву

    Наш центр обработки данных, у энергетической компании, тоже переехал в Москву. Какой-то тренд по централизации данных в столице. А есть ли обратные примеры, когда ЦОД переезжают в регионы?


    1. funny_sailor
      01.03.2016 16:19

      К сожалению, такого опыта пока не было.


  1. ComodoHacker
    01.03.2016 13:55

    Всё тот же Плюссервер, но общение с поддержкой идёт на удивление тяжело. Иногда им очень сложно что-то объяснить. Как вы уже прочли выше, если нужно что-то объяснить — уходит полчаса на все возможные варианты развития событий. Инструкция меньше чем на 30 пунктов на перезагрузку сервера, скорее всего, будет воспринята неверно.
    А что, хостеры с адекватным персоналом неподъемно дороги?

    парни из безопасности не нашли непосредственно на коробках, кому эти диски предназначались. И развернули их обратно. С тех пор мы всегда просим корректно подписать коробки
    Извините, но тут ваша вина.


    1. scarab
      01.03.2016 17:42

      А что, хостеры с адекватным персоналом неподъемно дороги?

      Таковых исчезающе мало вообще.