За последнее десятилетие ЦОДы прошли по пути стремительного развития в области технологий и методов развертывания сетевых сервисов.
Не все решения на этом пути были очевидны или дались просто.
Хотим поделиться сценарием применения концепции «Автономно Управляемых сетей» в сетях ЦОД
Развитие сетей ЦОД можно условно разделить на три этапа:
Первый этап, на котором преобладает простая консолидация сетевых реусров ЦОД — используем традиционную архитектуру: STP + VLAN
Второй этап серьезно улучшает возможности DC 1.0 в части улучшения совместного использования ресурсов, эластичности их применения с помощью виртуализации ресурсов и динамической оркестрации сервисов. На этом этапе сети трансформируются в полносвязную оверлейную архитектуру.
При переходе c DC 1.0 на сценарий DC 2.0, мы получаем преимущество в современных зрелых сценариях облачных вычислений и масштабных внедрениях виртуализированных вычислительных мощностей.
Третий этап нацелен на адаптацию к взрывному росту типов, объемов и сервисов вычислений в эпоху Искусственного Интеллекта, а точнее Машинного и Глубокого Обучения.
Этап серьезно отличается от предыдущих:
Что же нам мешает, а точнее что нам стоит обдумать:
Как же быть?
Прежде всего — автоматизировать типовые ручные процедуры, использовать технологии автоматизации. Но не все инструменты или подходы одинаково полезны.
Разберем сценарий запуска сети в ручном и автоматизированном режиме:
Что дальше? Посмотрим пример реализации такого подхода:
Но вы скажете — позвольте, а где Автономия или хотя бы Намерения? Ответ — уже рядом.
Сеть на основе Намерений — это то, что было маркетингом у многих последние несколько лет.
Конечный пользователь задает параметры работы приложения, а уже сеть формирует все остальные необходимые условия.
Рассмотрим на примере сервисов ЦОД:
Неплохо — а где же Автономность? Где эффект от ее применения?
Вся система меняется от пассивного исполнения к принятию решений на основе рекомендаций. После того, как пользователь вводит намерение, система ADN разумно рекомендует оптимальное решение. После того, как пользователь подтверждает рекомендацию, система автоматически выполняет его.
Например,
Сеть ЦОД больше не будет холодной машиной, и вся система станет активным инструментом — помощником — мыслителем — «почти» инженером.
Подводя итоги — ключевые показатели сети ADN — это прежде всего рекомендации на основе намерений, верификация решения до его запуска и проактивная работа с потенциальными проблемами.
Сети ADN в начале своего развития — мы с Вами сейчас находимся на этапе — перехода с модели- «машина-в-помощь» на модель «человек-в-помощь».
С оптимизмом смотря в будущее ожидаем, что продолжится развитие сетей ADN и через пять лет — мы с Вами увидим уже сети с полной автономией.
Какими они будут мы еще полностью не знаем, но будет интересно — это мы можем обещать!
Мы привносим искусственный интеллект в наши сетевые решения, чтобы выработать наилучшие решения и методы для работы с ней. Поставив ИИ на службу «сетевому автопилоту», Huawei стремится снизить сложность O&M-систем и механизмов предотвращения сбоев, чтобы повысить общую стабильность сети. Очень хотим, чтобы вам понравилось то, как это у нас получается.
Не все решения на этом пути были очевидны или дались просто.
Хотим поделиться сценарием применения концепции «Автономно Управляемых сетей» в сетях ЦОД
Что такое «Autonomous Driving» для ЦОД
Развитие сетей ЦОД можно условно разделить на три этапа:
DC 1.0
Первый этап, на котором преобладает простая консолидация сетевых реусров ЦОД — используем традиционную архитектуру: STP + VLAN
DC 2.0
Второй этап серьезно улучшает возможности DC 1.0 в части улучшения совместного использования ресурсов, эластичности их применения с помощью виртуализации ресурсов и динамической оркестрации сервисов. На этом этапе сети трансформируются в полносвязную оверлейную архитектуру.
При переходе c DC 1.0 на сценарий DC 2.0, мы получаем преимущество в современных зрелых сценариях облачных вычислений и масштабных внедрениях виртуализированных вычислительных мощностей.
DC 3.0
Третий этап нацелен на адаптацию к взрывному росту типов, объемов и сервисов вычислений в эпоху Искусственного Интеллекта, а точнее Машинного и Глубокого Обучения.
Этап серьезно отличается от предыдущих:
- сверхнагруженными распределенными вычислениями в нескольких Центрах Обработки Данных и узлах переферийных вычислений;
- более высокими требованиями к интеллекту сетевой архитектуры с глубокой интеграцией новых технологий, таких как контейнеры и удаленный прямой доступ к памяти (RDMA) в современных приложениях.
Корпоративные и коммерческие ЦОДы находятся в постоянном поиске «себя», чтобы поддерживать взрывные темпы развития облачных услуг. Стремление обеспечить необходимое качество услуг в соответствии с текущими требованиями к «открытости, емкости, масштабируемости, контролируемым затратам, безопасности и стабильности» становится краеугольным камнем в пирамиде ценностей.
Классические инструменты по эксплуатации и управлению ЦОД не показывают наглядную модель ЦОДа в сложившихся темпах роста сервисов, что удручает и пользователей, и владельцев сервисов.
На этом фоне регуляторы и потребители в отрасли высказали мнение, что набор высокоинтеллектуальных и простых решений для управления сетями должен быть включен в список первоочередных задач.
Что же нам мешает, а точнее что нам стоит обдумать:
- Масштабы — ЦОДы становятся большими, даже очень большими. У некоторых — сотни или тысячи серверов могут добавляться каждый месяц, и персонал ЦОД будет в постоянном процессе запуска новых устройств в ускоренном режиме. В обычном случае нужно — около 8 часов на дизайн и запуск сетевых настроек и сервисов. Можем быстрее — нам лучше и прибыльнее.
- Общая сетевая сложность. Основные сетевые устройства ЦОД — могут содержать сотни тысяч строк кода, превращая обслуживание в «жонглирование гирями в посудной лавке». Хотя конечно сложность — это понятие относительное и сугубо человеческое. Однако Заказчики в больших ЦОДах говорят о десятках и сотнях изменений каждый день, десятках или сотнях тысяч в год.
- Отказы или ошибки. Время — деньги. Особенно простои для банков и вообще финансовых учреждений. Восстановление должно занимать секунды, а не минуты или тем более часы. Что не всегда проимходит в классических сетях.
Как же быть?
Прежде всего — автоматизировать типовые ручные процедуры, использовать технологии автоматизации. Но не все инструменты или подходы одинаково полезны.
Разберем сценарий запуска сети в ручном и автоматизированном режиме:
- В ручном нам необходимо пройти по нашему шаблонному пути — займет ощутимое количество времени.
- В автоматизированном сумеем серьезно оптимизировать шаблонные операции, что уже высвобождает время на творческие, а не шаблонные задачи!
Что дальше? Посмотрим пример реализации такого подхода:
Но вы скажете — позвольте, а где Автономия или хотя бы Намерения? Ответ — уже рядом.
Сеть на основе Намерений — это то, что было маркетингом у многих последние несколько лет.
Конечный пользователь задает параметры работы приложения, а уже сеть формирует все остальные необходимые условия.
Рассмотрим на примере сервисов ЦОД:
Неплохо — а где же Автономность? Где эффект от ее применения?
Вся система меняется от пассивного исполнения к принятию решений на основе рекомендаций. После того, как пользователь вводит намерение, система ADN разумно рекомендует оптимальное решение. После того, как пользователь подтверждает рекомендацию, система автоматически выполняет его.
Например,
- На этапе планирования, если вы создаете POD и вводите требования к масштабу и надежности для 1000 серверов, система рекомендует оптимальное сетевое решение;
- На этапе развертывания службы, когда запускается новое приложение, система рекомендует оптимальное решение для развертывания на основе действующей сети после того, как вы введете предполагаемый объем клиентского доступа и будет ли разрешен доступ к внешней сети;
- На этапе обслуживания старые сервисы часто переводятся в автономный режим. Система имитирует автономный процесс и воздействия, чтобы предотвратить ошибочное удаление конфигураций;
- На этапе оптимизации система отслеживает состояние работоспособности сети в режиме 24х7 для выявления потенциальных отказов, например, прогнозирования тенденции выхода из строя оптических модулей и предварительного переключения продуктивного трафика на резервный канал.
Сеть ЦОД больше не будет холодной машиной, и вся система станет активным инструментом — помощником — мыслителем — «почти» инженером.
Подводя итоги — ключевые показатели сети ADN — это прежде всего рекомендации на основе намерений, верификация решения до его запуска и проактивная работа с потенциальными проблемами.
Сети ADN в начале своего развития — мы с Вами сейчас находимся на этапе — перехода с модели- «машина-в-помощь» на модель «человек-в-помощь».
С оптимизмом смотря в будущее ожидаем, что продолжится развитие сетей ADN и через пять лет — мы с Вами увидим уже сети с полной автономией.
Какими они будут мы еще полностью не знаем, но будет интересно — это мы можем обещать!
Заключение
Мы привносим искусственный интеллект в наши сетевые решения, чтобы выработать наилучшие решения и методы для работы с ней. Поставив ИИ на службу «сетевому автопилоту», Huawei стремится снизить сложность O&M-систем и механизмов предотвращения сбоев, чтобы повысить общую стабильность сети. Очень хотим, чтобы вам понравилось то, как это у нас получается.