Соточные Arista: скромный старт с амбициями на вырост

В самом начале всё выглядело достойно: надёжные Arista DCS-7170-64C-F с 64 портами по 100G, проверенные временем, отвечающие всем актуальным на тот момент требованиям. Мы развернули их по всем дата-центрам и чувствовали себя уверенно. Это выглядело оптимальным решением для текущего объёма задач.
Но инфраструктура не стоит на месте, особенно когда бизнес растёт. Количество клиентов росло, вместе с ними — сложность и требования к сети. Понадобилось больше гибкости, изоляции, междатацентровой связности. Мы начали смотреть в сторону VXLAN — и тут выяснилось: профиль Q-in-Q в Arista сильно (реально сильно) ограничивает количество MAC-адресов. Не баг, не фейл — просто особенности архитектуры, которая не была рассчитана на те масштабы, в которые мы стремительно ворвались.
Вывод был очевиден: пора готовиться к следующему этапу.
VXLAN: модно, стильно, масштабируемо
Когда требования ясны, становится проще принимать решения. Мы выбрали Huawei CloudEngine CE9855-32DQ — 1U-коммутаторы с поддержкой 400G. Они обеспечивали всё, что было нужно: производительность, надёжность, поддержку актуальных протоколов, включая поддержку VXLAN без ограничений.
Именно на них мы реализовали полноценную VXLAN-инфраструктуру между дата-центрами. Всё поднялось без лишнего шума. Быстро, чисто, масштабируемо. Было приятно видеть, как идея превращается в работающий механизм, да ещё и с запасом на будущее (спойлер: как оказалось не очень-то и далекое).
Апгрейд транспорта: от 200G DWDM к 400G ZR+
Параллельно с задачей внедрения VXLAN мы понимали, что физическая транспортная сеть требует апгрейда. До этого мы использовали Huawei транспондеры и мукспондеры на базе 200G и 400G DWDM (что, кстати, видно на первой фотографии).
Желание упростить топологию, сократить количество элементов и перейти к более компактному и энергоэффективному решению подвело нас к идее использовать 400G ZR+ трансиверы.
ZR+: теория против практики
ZR+ казался логичным следующим шагом — легко, технологично, транспондеры больше не нужны. Выяснилось, что ZR+ — с одной стороны, это новый стандарт передачи данных на дальние расстояния, с внушительными техническими характеристиками, а с другой — весьма требовательная технология. Требовательная по питанию, охлаждению, совместимости и даже по философии взаимодействия с оборудованием. И работает она, как оказалось, далеко не с каждым железом. Мы закупили модули, аккуратно установили их в наши CloudEngine — и… тишина. Никакой реакции. Ни ошибки, ни активности. Просто молчание.

Началось классическое инженерное "что мы упустили?". Документация, совместимости, списки сертифицированных устройств — всё указывало на одну простую вещь: ZR+ — технология со своими запросами. Очень специфическими. Это не просто вставил — и поехало. Это архитектурный выбор с последствиями.
ZR+ горячая штучка (ядерный реактор под капотом)
Оказалось, ZR+ — штука с характером. Она требует уважения, места и приличного охлаждения. Для таких условий 1U-коммутаторы — как однушка на троих. Мы упёрлись в физические лимиты.
К счастью, на этом повороте нас подхватили партнёры из Huawei. Благодаря оперативности команды , нам заменили свитчи на Huawei CE9865-4C — 4U-модели, уже способные справиться с ZR+.
С виду — те же 32 порта по 400G. Архитектура модульная: 4 слота, каждый из которых поддерживает модули с 8 портами 400G или 32 портами 100G. Но при использовании 400G ZR+ трансиверов выяснилось, что даже здесь есть ограничения:
Работают только в 2 из 4 слотов,
В каждом — только 4 порта из 8 (соседние физически блокируются),
Итого: максимум 8 активных ZR+ портов на шасси.

Это связано с тем, что ZR+ потребляют много энергии и выделяют серьёзное количество тепла. Железо не справляется с полной загрузкой. Мы пожертвовали плотностью в пользу стабильности и надёжности.
Пример размещения модулей ZR+ при температуре 0°C–35°C
[ Модуль 1 ] ✖ ✖ ✖ ✖ ✖ ✖ ✖ ✖
[ Модуль 2 ] ✖ ✖ ✖ ✖ ✖ ✖ ✖ ✖
[ Модуль 3 ] ◉ ⚫ ◉ ⚫ ◉ ⚫ ◉ ⚫
[ Модуль 4 ] ◉ ⚫ ◉ ⚫ ◉ ⚫ ◉ ⚫
Пояснение:
Используются только модули 3 и 4, как указано в документации.
В каждом модуле работают только порты 1, 3, 5 и 7.
Порты 2, 4, 6 и 8 автоматически блокируются.
Всего — 8 активных ZR+ портов, по 4 на каждый активный модуль.
ZR+ — это не просто модуль. Это мини-сервер внутри вашей оптики. И чтобы он работал стабильно, его нужно кормить, охлаждать и размещать с уважением (дать ему больше пространства).
Только 400G. Без исключений
Нас удивила ещё одна деталь: в новых 4U-свичах, работающих с 400G модулями, порты действительно строго 400G. Вставишь 100G — и ничего не произойдёт. Для поддержки соток нужны отдельные модули и совместимые карты.
Это уже не универсальность, к которой мы привыкли в предыдущих поколениях оборудования, а узкая специализация под конкретную задачу. Требования высокие, но и результат соответствует — производительность, стабильность, чёткая топология.
Почему мы всё это затеяли
Потому что инфраструктура — это не витрина, а скелет бизнеса. И как только клиенты начали расти — не только в объёмах, но и в технологических ожиданиях — стало ясно: нам тоже пора эволюционировать.
Особенно остро эта необходимость проявилась в Нидерландах, где мы активно развиваемся. Некоторые дата-центры просто перестали справляться с ростом: физически места под стойки было достаточно, но электричества для их питания — уже нет. Ограничения по мощности стали реальным тормозом.
Мы начали искать новые площадки и поняли: просто "расползтись" по разным локациям не вариант. Нам нужна была связная архитектура, в которой клиент может использовать свои стойки в разных местах как единое целое. Так VXLAN и ZR+ стали не просто технологиями, а критически важными инструментами развития.
Финал: без драм и без даунтаймов
Мы завершили замену. Да, было непросто: логистика, настройка, переключение без прерывания сервисов (*ни один клиент не пострадал). Всё было сделано аккуратно, на ходу, с максимальной чёткостью.
Сеть стала другой — современнее, масштабируемее, быстрее. Это был не просто апгрейд, а шаг в новую эпоху сетевых решений.
mapnik
Докиньте леденящих душу деталей pls: цена за 400G порт? Ограничение на количество маков при Q-in-Q? Потребление на стойку или на порт на 400G?
Прошу, потому что в нынешнем виде из статьи можно почерпнуть только "было неожиданно, но мы напряглись и смогли" и "HUAWEI!"