За последнее десятилетие ЦОДы прошли по пути стремительного развития в области технологий и методов развертывания сетевых сервисов.

Не все решения на этом пути были очевидны или дались просто.

Хотим поделиться сценарием применения концепции «Автономно Управляемых сетей» в сетях ЦОД



Что такое «Autonomous Driving» для ЦОД


Развитие сетей ЦОД можно условно разделить на три этапа:



DC 1.0


Первый этап, на котором преобладает простая консолидация сетевых реусров ЦОД — используем традиционную архитектуру: STP + VLAN

DC 2.0

Второй этап серьезно улучшает возможности DC 1.0 в части улучшения совместного использования ресурсов, эластичности их применения с помощью виртуализации ресурсов и динамической оркестрации сервисов. На этом этапе сети трансформируются в полносвязную оверлейную архитектуру.

При переходе c DC 1.0 на сценарий DC 2.0, мы получаем преимущество в современных зрелых сценариях облачных вычислений и масштабных внедрениях виртуализированных вычислительных мощностей.

DC 3.0

Третий этап нацелен на адаптацию к взрывному росту типов, объемов и сервисов вычислений в эпоху Искусственного Интеллекта, а точнее Машинного и Глубокого Обучения.

Этап серьезно отличается от предыдущих:

  • сверхнагруженными распределенными вычислениями в нескольких Центрах Обработки Данных и узлах переферийных вычислений;
  • более высокими требованиями к интеллекту сетевой архитектуры с глубокой интеграцией новых технологий, таких как контейнеры и удаленный прямой доступ к памяти (RDMA) в современных приложениях.

Корпоративные и коммерческие ЦОДы находятся в постоянном поиске «себя», чтобы поддерживать взрывные темпы развития облачных услуг. Стремление обеспечить необходимое качество услуг в соответствии с текущими требованиями к «открытости, емкости, масштабируемости, контролируемым затратам, безопасности и стабильности» становится краеугольным камнем в пирамиде ценностей.

Классические инструменты по эксплуатации и управлению ЦОД не показывают наглядную модель ЦОДа в сложившихся темпах роста сервисов, что удручает и пользователей, и владельцев сервисов.

На этом фоне регуляторы и потребители в отрасли высказали мнение, что набор высокоинтеллектуальных и простых решений для управления сетями должен быть включен в список первоочередных задач.

Что же нам мешает, а точнее что нам стоит обдумать:

  1. Масштабы — ЦОДы становятся большими, даже очень большими. У некоторых — сотни или тысячи серверов могут добавляться каждый месяц, и персонал ЦОД будет в постоянном процессе запуска новых устройств в ускоренном режиме. В обычном случае нужно — около 8 часов на дизайн и запуск сетевых настроек и сервисов. Можем быстрее — нам лучше и прибыльнее.
  2. Общая сетевая сложность. Основные сетевые устройства ЦОД — могут содержать сотни тысяч строк кода, превращая обслуживание в «жонглирование гирями в посудной лавке». Хотя конечно сложность — это понятие относительное и сугубо человеческое. Однако Заказчики в больших ЦОДах говорят о десятках и сотнях изменений каждый день, десятках или сотнях тысяч в год.
  3. Отказы или ошибки. Время — деньги. Особенно простои для банков и вообще финансовых учреждений. Восстановление должно занимать секунды, а не минуты или тем более часы. Что не всегда проимходит в классических сетях.

Как же быть?

Прежде всего — автоматизировать типовые ручные процедуры, использовать технологии автоматизации. Но не все инструменты или подходы одинаково полезны.

Разберем сценарий запуска сети в ручном и автоматизированном режиме:



  1. В ручном нам необходимо пройти по нашему шаблонному пути — займет ощутимое количество времени.
  2. В автоматизированном сумеем серьезно оптимизировать шаблонные операции, что уже высвобождает время на творческие, а не шаблонные задачи!

Что дальше? Посмотрим пример реализации такого подхода:


Но вы скажете — позвольте, а где Автономия или хотя бы Намерения? Ответ — уже рядом.
Сеть на основе Намерений — это то, что было маркетингом у многих последние несколько лет.
Конечный пользователь задает параметры работы приложения, а уже сеть формирует все остальные необходимые условия.

Рассмотрим на примере сервисов ЦОД:


Неплохо — а где же Автономность? Где эффект от ее применения?

Вся система меняется от пассивного исполнения к принятию решений на основе рекомендаций. После того, как пользователь вводит намерение, система ADN разумно рекомендует оптимальное решение. После того, как пользователь подтверждает рекомендацию, система автоматически выполняет его.

Например,

  • На этапе планирования, если вы создаете POD и вводите требования к масштабу и надежности для 1000 серверов, система рекомендует оптимальное сетевое решение;
  • На этапе развертывания службы, когда запускается новое приложение, система рекомендует оптимальное решение для развертывания на основе действующей сети после того, как вы введете предполагаемый объем клиентского доступа и будет ли разрешен доступ к внешней сети;
  • На этапе обслуживания старые сервисы часто переводятся в автономный режим. Система имитирует автономный процесс и воздействия, чтобы предотвратить ошибочное удаление конфигураций;
  • На этапе оптимизации система отслеживает состояние работоспособности сети в режиме 24х7 для выявления потенциальных отказов, например, прогнозирования тенденции выхода из строя оптических модулей и предварительного переключения продуктивного трафика на резервный канал.



Сеть ЦОД больше не будет холодной машиной, и вся система станет активным инструментом — помощником — мыслителем — «почти» инженером.

Подводя итоги — ключевые показатели сети ADN — это прежде всего рекомендации на основе намерений, верификация решения до его запуска и проактивная работа с потенциальными проблемами.

Сети ADN в начале своего развития — мы с Вами сейчас находимся на этапе — перехода с модели- «машина-в-помощь» на модель «человек-в-помощь».



С оптимизмом смотря в будущее ожидаем, что продолжится развитие сетей ADN и через пять лет — мы с Вами увидим уже сети с полной автономией.

Какими они будут мы еще полностью не знаем, но будет интересно — это мы можем обещать!

Заключение


Мы привносим искусственный интеллект в наши сетевые решения, чтобы выработать наилучшие решения и методы для работы с ней. Поставив ИИ на службу «сетевому автопилоту», Huawei стремится снизить сложность O&M-систем и механизмов предотвращения сбоев, чтобы повысить общую стабильность сети. Очень хотим, чтобы вам понравилось то, как это у нас получается.