Привет! На связи Cloud4Y. Сегодня хотим рассказать о сетях и ЦОДах.
В современных центрах обработки данных (ЦОД) и крупных кампусных сетях традиционные технологии уровня 2 вроде Spanning Tree Protocol (STP) и VLAN сталкиваются с серьезными ограничениями. Протокол STP блокирует порты для предотвращения петель, что снижает полезную пропускную способность, а лимит в 4094 VLAN часто оказывается недостаточным для многопользовательских сред и облачных платформ.
Технология VXLAN (Virtual Extensible LAN) с управляющим протоколом EVPN (Ethernet VPN), преобразуя классические сети в высокомасштабируемые, предлагает гибкие и эффективные фабрики уровня 3.

Краткий обзор VXLAN
VXLAN – это технология инкапсуляции, которая позволяет создавать виртуальные сети уровня 2 поверх существующей физической инфраструктуры уровня 3. Она решает проблему масштабирования VLAN, используя 24-битный идентификатор VNI (VXLAN Network Identifier), что теоретически позволяет создать до 16 миллионов изолированных сегментов.
Принцип работы:
VTEP (VXLAN Tunnel End Point) – это устройство, которое выполняет инкапсуляцию и декапсуляцию трафика.
Когда Ethernet-кадр от виртуальной машины или сервера поступает на VTEP, он инкапсулируется в UDP-пакет.
К пакету добавляются заголовок VXLAN (содержащий VNI) и стандартные заголовки IP и Ethernet для передачи по IP-сети (underlay).
Когда пакет достигает VTEP назначения, внешние заголовки удаляются, а оригинальный Ethernet-кадр доставляется получателю.
Таким образом, для конечных устройств вся фабрика выглядит как единый L2-домен, в то время как в основе лежит маршрутизируемая и легко масштабируемая IP-сеть.
Роль EVPN
Изначально VXLAN использовал механизм "flood-and-learn" для обнаружения хостов, что схоже с работой обычных коммутаторов. Это создавало лишний широковещательный трафик в сети.
EVPN устраняет этот недостаток, предоставляя интеллектуальный Control Plane (плоскость управления). Вместо слепой рассылки EVPN использует протокол MP-BGP (Multi-Protocol Border Gateway Protocol) для распространения информации о доступности конечных устройств (MAC и IP-адресов) между VTEP. Это позволяет VTEP заранее узнать, за каким удаленным VTEP находится нужный хост, и отправлять трафик напрямую, избегая ненужного BUM-трафика (Broadcast, Unknown Unicast, Multicast).
Ключевые типы маршрутов в EVPN
EVPN использует несколько типов маршрутов для обмена информацией. Вот те, что важно знать:
Type 2: основной маршрут для объявления хостов. Каждый VTEP, обнаружив новый хост (MAC-адрес) в своей локальной сети, создаёт маршрут типа 2. Этот маршрут содержит MAC-адрес и, опционально, IP-адрес хоста. Затем он рассылается через BGP всем остальным VTEP в том же VNI. В результате все VTEP строят точную карту расположения хостов в фабрике.
Type 5: маршруты этого типа используются для обмена информацией о IP-подсетях (префиксах), а не отдельных хостах. Это ключевой элемент для эффективной маршрутизации между различными VXLAN-сегментами (inter-VNI routing) и для связи с внешними сетями (например, интернетом или традиционными L3-сетями). Маршрут типа 5 позволяет фабрике функционировать как распределенный маршрутизатор.
Type 3: маршрут отвечает за обработку BUM-трафика (широковещательного, неизвестного одноадресного и многоадресного), который необходим для работы протокола ARP. EVPN предлагает два основных механизма:
Ingress Replication: Исходный VTEP сам создает копии BUM-пакета и отправляет их поочередно каждому удаленному VTEP, который участвует в данном VNI. Этот метод прост в настройке, но может создавать большую нагрузку на исходный VTEP при большом количестве пиров.
Multicast в Underlay-сети: BUM-трафик отправляется на специальную multicast-группу в IP-сети. VTEP подписываются на эту группу, чтобы получать трафик. Этот метод более эффективен, но требует настройки протоколов multicast-маршрутизации (например, PIM) в базовой сети.
VPC в VXLAN EVPN: отказоустойчивость и Active-Active
Virtual Port-Channel (vPC) — это технология, позволяющая подключить конечное устройство (сервер, коммутатор) одновременно к двум разным коммутаторам, которые для подключенного устройства выглядят как один логический коммутатор. В контексте VXLAN EVPN применение vPC даёт огромные преимущества.
При построении фабрики пара коммутаторов настраивается как vPC-домен. Эти два коммутатора физически разделены, но работают как единое целое и выполняют роль единого логического VTEP. Каждый коммутатор в vPC паре имеет свой уникальный IP-адрес (называемый Primary IP, или PIP), который используется для маршрутизации в underlay сети. Оба коммутатора также разделяют общий вторичный IP-адрес, известный как Anycast VTEP IP-адрес (или Virtual IP, VIP).

Как это работает:
Сервер подключается линками к обоим коммутаторам vPC-пары в режиме агрегации каналов LACP.
Оба vPC-пира изучают его MAC- и IP-адреса.
В BGP EVPN оба устройства анонсируют маршрут к этому серверу (маршрут 2 типа), но в качестве next-hop указывают общий Anycast IP. То есть для остальной фабрики оба коммутатора анонсируют доступность сервера за ними через один и тот же VIP-адрес.
Это позволяет другим VTEP в сети видеть хост за одним логическим VTEP и использовать ECMP (Equal Cost Multi-Path) маршрутизацию для отправки трафика в сторону Anycast-адреса, эффективно распределяя нагрузку между двумя физическими коммутаторами vPC-пары
Когда сервер отправляет трафик, он может использовать любой из линков. Трафик инкапсулируется на том коммутаторе, на который пришел.
Когда трафик возвращается к серверу из фабрики, он может быть направлен на любой из двух физических коммутаторов vPC-пары, так как оба они ассоциированы с одним логическим VTEP.
Преимущества vPC в VXLAN EVPN:
Active-Active Forwarding. Весь трафик к серверу и от него полностью балансируется между двумя коммутаторами, удваивая доступную пропускную способность.
Высокая отказоустойчивость. Если один из коммутаторов vPC-пары или один из линков к серверу выходит из строя, трафик мгновенно и без потерь переключается на рабочий путь.
Упрощенная архитектура. С точки зрения EVPN Control Plane, за парой коммутаторов находится один логический VTEP, что упрощает топологию и управление.
Рекомендации по конфигурации vPC в VXLAN EVPN
1. vPC Infrastructure VLAN
Для обеспечения максимальной отказоустойчивости в vPC-топологии используется концепция "Infrastructure VLAN". Это специально выделенный VLAN, который служит резервным путем для трафика между vPC-пирами в критической ситуации. Основная задача этого механизма — предотвратить полную изоляцию одного из vPC-пиров, если тот потеряет все свои основные подключения к фабрике (аплинки к Spine-коммутаторам).
В таком сценарии отказа, коммутатор может использовать Infrastructure VLAN для маршрутизации трафика через vPC Peer-Link на своего соседа, который, в свою очередь, перенаправит его в фабрику через свои рабочие аплинки. Этот же путь используется для передачи BUM-трафика между пирами.

На схеме выше показаны два vPC-коммутатора (VTEP), соединенные Peer-Link. Если у одного из VTEP отказывают все аплинки к Spine-уровню, Infrastructure VLAN, настроенный на Peer-Link, активируется как резервный путь для маршрутизации трафика.
Настройка выполняется глобально и заключается в определении номера VLAN, который будет использоваться в качестве инфраструктурного.
Пример конфигурации Infrastructure VLAN 777:
nexus(config)# system nve infra-vlans 777
Этот VLAN должен быть добавлен в список разрешенных на транке vPC Peer-Link. Это гарантирует, что при необходимости через него сможет пойти трафик, обеспечивая дополнительный уровень отказоустойчивости для vPC VTEP.
2. vPC Fabric Peering
Современный подход, который устраняет необходимость в выделенных физических линках для vPC Peer-Link. Вместо этого пиринг устанавливается через существующую L3-cеть (spine-коммутаторы).

Преимущества:
Не тратятся дорогостоящие высокоскоростные порты коммутатора.
Использует отказоустойчивость и производительность всей фабрики.
Конфигурация:
В настройках vPC-домена создается virtual peer-link с указанием IP-адресов источника и назначения.
Важно настроить QoS (DSCP), чтобы маркировать и приоритизировать трафик синхронизации CFS (Cisco Fabric Service) через фабрику, предотвращая его потерю при перегрузках.
Пример конфигурации vPC Fabric Peering:
vpc domain 1
…
peer-keepalive destination 10.0.0.6 source 10.0.0.5
virtual peer-link destination 10.10.10.4 source 10.10.10.3 dscp 56
Для организации virtual peer-link в сетях VXLAN EVPN используется port-channel, не имеющий физических интерфейсов. Поскольку физических соединений между коммутаторами нет, peer-link функционирует поверх L3-сети (через underlay).
interface port-channel100
switchport
switchport mode trunk
vpc peer-link
Интерфейсы аплинка, задействованные в передаче трафика peer-link через L3, должны быть настроены с параметром port-type fabric. Это позволяет правильно идентифицировать направление передачи служебных сообщения peer-link до удаленного пира (если взглянуть на самую первую схему в этой статье, то от Leaf к Spine).
interface Ethernet0/1
…
port-type fabric
interface Ethernet0/2
…
port-type fabric
3. Advertise-PIP для маршрутов L3
По умолчанию L2 (Тип 2) и L3 (Тип 5) маршруты анонсируются с next-hop в виде общего Anycast VTEP IP (VIP). Однако, если L3-подсеть подключена только к одному из пиров (например, через "orphan" порт), это может привести к неэффективной маршрутизации. Команды advertise-pip и advertise virtual-rmac изменяют это поведение.
Маршруты типа 2 для хостов на vPC-портах продолжают анонсироваться с Anycast IP.
Маршруты типа 5 (префиксы) к хостам на orphan-портах анонсируются с Primary IP (PIP) того коммутатора, к которому они реально подключены. Это обеспечивает оптимальный путь для маршрутизируемого трафика.

Пример конфигурации Advertise-PIP:
router bgp 65536
address-family l2vpn evpn
advertise-pip
interface nve 1
advertise virtual-rmac
4. Таймеры восстановления vPC
После перезагрузки одного из коммутаторов в vPC паре (пира) возникает критический момент. Если его порты, принимающие трафик, активируются слишком быстро, другие устройства в сети могут направить на него трафик до того, как сам коммутатор полностью восстановит свою L3-связность (underlay) и получит всю информацию о маршрутах от соседей (overlay). Это приводит к "чёрным дырам" (black-holing) – ситуации, когда трафик принимается, но отбрасывается, так как узел ещё не знает, куда его направить.
Чтобы этого избежать, используется набор таймеров задержки, которые гарантируют, что интерфейсы активируются только после полной сходимости всех протоколов.
Описание таймеров:
delay restore
Этот таймер задерживает активацию портов, входящих в vPC (member ports), после перезагрузки коммутатора. Это основная задержка, которая даёт время протоколам маршрутизации базовой сети (например, OSPF) и плоскости управления EVPN (BGP) полностью сойтись.
Значение по умолчанию: 150 секунд.
delay restore orphan-port
Аналогично предыдущему, этот таймер задерживает активацию "orphan" портов – портов, к которым устройства подключены только к одному из vPC-пиров. Это необходимо, чтобы избежать "чёрных дыр" для трафика от одиночно подключенных устройств.
Значение по умолчанию: Равно значению delay restore.
delay restore interface-vlan
Задерживает активацию L3-интерфейсов (SVI), которые функционируют как распределенные шлюзы (Anycast Gateway). Это позволяет плоскости управления VXLAN окончательно стабилизироваться перед тем, как шлюз начнет маршрутизировать трафик.
Значение по умолчанию: 10 секунд.
source-interface hold-down-time
Это самый важный таймер для VXLAN. Он задерживает анонс loopback-интерфейса, используемого для NVE (т.е. VTEP IP-адреса), в протоколах маршрутизации underlay сети. Пока этот таймер активен, другие коммутаторы не видят перезагруженный VTEP как доступный путь для VXLAN-туннелей. Это гарантирует, что инкапсулированный трафик не будет отправлен на узел, который ещё не готов его обработать.
Значение по умолчанию: 180 секунд.
Выбор правильных значений – это баланс между скоростью восстановления и стабильностью. Значения по умолчанию являются хорошей и безопасной отправной точкой для большинства сетей. Логика их настройки строится на последовательности сходимости сети:
Сходимость Underlay (L3-сеть). Сначала должны установиться сессии OSPF/ISIS/EIGRP/BGP между коммутаторами.
Сходимость Overlay (BGP EVPN). После установления L3-связности должны установиться сессии MP-BGP EVPN, и VTEP-ы должны обменяться маршрутной информацией.
Активация Data Plane. Только после полной сходимости control plane можно безопасно активировать интерфейсы, принимающие трафик.
Рекомендации по настройке:
Основное правило: source-interface hold-down-time всегда должен быть больше, чем delay restore. Это гарантирует, что VTEP сначала дождётся сходимости протоколов на своих локальных интерфейсах (delay restore), и только потом объявит себя готовым для приема VXLAN-трафика от всей фабрики.
Тюнинг delay restore. Значение 150 секунд является консервативным. В небольших и быстрых сетях его можно уменьшить. В очень больших и сложных сетях, где сходимость BGP может занимать больше времени, его, возможно, придётся увеличить. Можно начать с дефолтного значения и наблюдать за временем сходимости BGP на перезагружаемом узле.
Тюнинг source-interface hold-down-time. Этот таймер можно установить на 30-60 секунд больше, чем значение delay restore. Например, если мы оставили delay restore 150, то source-interface hold-down-time 180 (значение по умолчанию) является логичным и безопасным выбором. Это дает дополнительный буфер времени для полной стабилизации.
Пример конфигурации. Предположим, мы определили, что нашей сети нужно 120 секунд для полной сходимости BGP EVPN.
Конфигурация vPC домена:
vpc domain 1
delay restore 120
delay restore orphan-port 120
delay restore interface-vlan 10
Конфигурация NVE интерфейса:
interface nve 1
source-interface hold-down-time 150
В этом примере мы даем 120 секунд на сходимость BGP и локальных портов, а затем ждём еще 30 секунд перед анонсом VTEP-адреса в сеть, обеспечивая надёжное и предсказуемое восстановление после сбоя.
Таким образом, применение технологии vPC в связке с VXLAN EVPN позволяет перейти от устаревших L2-топологий к построению высокопроизводительных сетевых фабрик. Использование таких практик, как vPC Infrastructure VLAN, vPC Fabric Peering, тонкая настройка таймеров и оптимизация маршрутизации с помощью Advertise-PIP, позволяет создавать современные, автоматизированные и чрезвычайно отказоустойчивые сетевые фабрики, которые являются отличной основой для облачных вычислений, виртуализации и контейнерных сред.