Ultra Ethernet: что это за технология и зачем она нужна дата-центрам / forpes.ru

Главная
Ultra Ethernet: что это за технология и зачем она нужна дата-центрам

Ultra Ethernet: что это за технология и зачем она нужна дата-центрам +13

15.02.2026 08:00

t3chnowolf 12 14000 Источник

Сети в дата-центрах за последние десятилетия заметно эволюционировали: еще сравнительно недавно для большинства задач хватало Gigabit Ethernet, и этого было достаточно для корпоративных сервисов и первых облаков. Ethernet удерживал позиции за счет массовости и огромной экосистемы. Однако с распространением крупных моделей искусственного интеллекта характер нагрузок резко изменился: тысячи ускорителей обмениваются терабайтами данных, коллективные операции требуют строгой синхронизации, а кратковременная перегрузка способна замедлить обучение всего кластера. В таких условиях традиционные сетевые подходы начинают упираться в свои ограничения — отсюда и возникает интерес к решениям вроде Ultra Ethernet.

Инициатива родилась в 2023 году благодаря корпорациям Intel, AMD, Broadcom, Cisco, Microsoft и другим. Они сформировали консорциум UEC. На сегодня в нем уже больше сотни компаний. Идея была в том, чтобы взять проверенный Ethernet и переработать его под нагрузки, которые доминируют сегодня: обучение нейросетей и высокопроизводительные вычисления. В 2025 году представили спецификацию 1.0 с полным описанием стека, включая транспортный протокол, механизмы управления перегрузкой сети (затором) и телеметрию. Уже появились первые чипы и сетевые карты с поддержкой: Broadcom показал свой Thor Ultra с 800G портами, AMD выпустила адаптеры Pensando Pollara, Nokia и Arista тестируют свитчи. Первые реальные продукты начали поступать на рынок, но экосистема только формируется. Давайте разберем, что именно изменилось и почему это может стать новым стандартом для больших систем.

Как устроена архитектура Ultra Ethernet

Основа остается прежней — стандартный Ethernet по IEEE 802.3. Кабели, оптика и физический уровень совместимы с тем, что уже используется в большинстве центров обработки данных. Это означает, что Ultra Ethernet не требует полной замены инфраструктуры железа канального уровня. Но для использования новых технологий, прежде всего транспорта UET и продвинутого управления перегрузками, нужны сетевые адаптеры и коммутаторы с соответствующей поддержкой.

Главные изменения происходят не на физическом уровне, а выше — в транспортной части стека. Для таких нагрузок поверх Ethernet вводят новый протокол — Ultra Ethernet Transport (UET), который рассчитан на интенсивный обмен данными между узлами, в том числе с прямым доступом к памяти, как в RDMA. Он изначально ориентирован на коллективные операции вроде AllReduce и AllGather, характерные для обучения моделей.

Внутри UET логика разделена на несколько частей: одна отвечает за тип операций и их обработку, другая — за доставку пакетов (с гарантией или без нее), третья — за контроль перегрузок с учетом сигналов от сети. Такой подход позволяет точнее управлять трафиком и лучше адаптироваться к нагрузкам больших кластеров.

Благодаря такому устройству пакеты одного потока могут идти разными маршрутами через всю сеть, причем без жесткого требования сохранять порядок. Это снижает хвостовые задержки. Плюс ко всему встроили расширенную телеметрию In-Network Telemetry (INT), которая в реальном времени собирает данные о состоянии линков, очередей и потоков прямо внутри свитчей. Проблемы замечают заранее — до того, как они превратятся в серьезный сбой.

Базовые API вроде libfabric или MPI остаются совместимыми, так что разработчикам не приходится переписывать приложения целиком. Однако для максимальной отдачи от новых механизмов возможна адаптация стека под специфику UET. В итоге получается подход, который стремится сочетать привычную инфраструктуру с серьезными улучшениями для AI и HPC.

Какие технические нововведения появились

Большинство изменений касается того, как сеть ведет себя при перегрузке. Раньше сигнал о проблеме шел от приемника — через механизмы приостановки передачи или уведомления о заторе. В новой схеме скорость регулирует сам отправитель, ориентируясь на сигналы от коммутаторов и принимающей стороны. Он быстрее сбрасывает темп, если видит перегрузку, поэтому ситуации, когда один узел блокирует другой данными, случаются гораздо реже.

Еще одно важное изменение — согласованное распределение трафика по нескольким маршрутам. Пакеты отправляются не по одному фиксированному пути, а расходятся по сети так, чтобы не возникали перегруженные участки. При этом допускается доставка вне строгого порядка, а приемник корректно собирает поток заново. В результате сеть лучше использует доступные каналы связи, и общая пропускная способность заметно растет, особенно в кластерах с тысячами узлов.

Отдельное внимание уделили защите от ситуации, когда множество нод одновременно отправляют данные одному получателю и перегружают его. Для этого ввели динамическое управление доступной пропускной способностью на стороне приемника, приоритетные очереди и другие механизмы, которые не дают передачи данных остановиться даже при интенсивных коллективных операциях. Появились несколько классов обслуживания для разных типов трафика и более точный контроль на уровне отдельных соединений.

В итоге сеть ведет себя гораздо стабильнее и предсказуемее. Встроенная телеметрия собирает данные о состоянии каналов и очередей прямо во время работы и позволяет быстро определить, где начинается перегрузка. По результатам первых испытаний оборудования в 2025 году механизмы управления трафиком показали себя рабочими: перегрузки происходят реже, а эффективность в задачах обучения моделей заметно выше, особенно там, где идет интенсивный обмен небольшими пакетами данных.

Как это влияет на производительность и надежность кластеров

В больших системах с тысячами GPU даже маленькие улучшения сети оборачиваются ощутимым выигрышем для всего кластера. Ultra Ethernet дает задержки на уровне микросекунд от узла к узлу, причем хвостовые значения стали ниже благодаря описанным выше механизмам. Для коллективных операций вроде AllReduce, где все узлы должны работать в унисон, это особенно важно: в ряде сценариев время синхронизации может сокращаться кратно.

Пропускная способность растет за счет того, что все доступные пути используются эффективно, а порты уже поддерживают 800 Гбит/с и выше с модуляцией PAM-4. Масштабирование приближается к линейному: добавляешь новые машины — и общая полоса увеличивается почти пропорционально, без резких провалов из-за узких мест.

Надежность также повысилась. Если один линк выходит из строя, трафик плавно перетекает на остальные маршруты благодаря координированному spraying, и деградации почти не заметно. Механизмы управления перегрузками не допускают появления горячих точек, которые раньше могли парализовать целый сегмент сети даже при частичном сбое.

В тестах и независимых обзорах 2025–2026 годов результаты демонстрируют показатели, приближающиеся к топовым конфигурациям InfiniBand по задержкам и пропускной способности в AI-нагрузках. При этом стандарт остается полностью открытым, а оборудование от разных вендоров проще интегрировать. Для многих компаний это становится важным аргументом, особенно когда нужно избежать зависимости от одного поставщика.

Чем отличается от привычных решений

Чтобы было нагляднее, давайте оценим возможности стандартов в виде таблички. Только основное, без погружения в сложные технические детали.

Характеристика	Ethernet с RoCE	InfiniBand	Ultra Ethernet
Задержка	10–100 мкс, высокая	1–5 мкс, низкая	Микросекунды, низкая
Управление перегрузкой	PFC/ECN, проблемы с incast	Без потерь, встроенное	На стороне отправителя, координированное
Многоканальная маршрутизация	Ограниченная (ECMP по потокам)	Полная (по пакетам)	Полная (по пакетам с координацией)
Открытость	Открытый, но с доработками для AI	Проприетарный	Полностью открытый
Стоимость	Низкая	Высокая	Средняя, совместимая с существующим
Масштабируемость	До десятков тысяч узлов	До сотен тысяч	Теоретически до миллионов узлов

RoCE на обычном Ethernet работает и сегодня, но требует очень аккуратной настройки, а хвостовые задержки все равно остаются больным местом даже с современными улучшениями. InfiniBand дает отличную скорость и надежность в задачах с плотной связью узлов, однако привязывает к единому вендору и обходится дорого. Ultra Ethernet берет лучшее от обоих вариантов: огромную экосистему от первого, продвинутые механизмы производительности и устойчивости от второго.

Разница в целом видна в подходе. Здесь построили новый стек с нуля под спецификацию UEC 1.0, который изначально рассчитан на нагрузки будущего — от эксафлопсных систем до крупных кластеров GPU.

Что в итоге

Ultra Ethernet, скорее всего, начнет появляться там, где сеть уже стала узким местом: в крупных облаках, которые строят огромные кластеры под обучение моделей, и в исследовательских центрах, где тысячи ускорителей должны работать как единое целое. Для таких систем важны не только низкие задержки, но и предсказуемое поведение сети при росте нагрузки. В научных вычислениях с кластерами на сотни тысяч узлов ситуация похожая: чем больше масштаб, тем болезненнее любая перегрузка или перекос трафика.

При этом переход не выглядит революцией — физическая основа остается прежней, а новые возможности добавляются по мере обновления оборудования. Пока это ранняя стадия: есть первые внедрения и тесты, но массового распространения еще нет. Насколько широко Ultra Ethernet приживется, станет понятно по тому, готовы ли крупные игроки действительно делать на него ставку в своих инфраструктурах.

Комментарии (12)

Mike_St
15.02.2026 08:19
#29531150
почему-то вспомнился третий закон Кларка: "Любая достаточно развитая технология неотличима от магии" )))

Goron_Dekar
15.02.2026 08:19
#29531204
Ждём релиза.

REPISOT
15.02.2026 08:19
#29531358
недавно для большинства задач хватало Gigabit Ethernet

После прочтения статьи может создаться впечатление, что до ИИ бума кругом был максимум 1G Ethernet. Даже в датацентрах. А тут раз - и изобрели 800G!

Так вот. ИИ тут вообще не при делах. Скорость Ethernet с самого начала удваивалась (а в начале - даже удесятерялась) каждые несколько лет. Все дело ~~в котиках~~ то есть в экспоненциальном росте пользовательского трафика. И про адаптеры 400G и 800G я читал задолго до того, как в новостях появился первый chatGPT.

Спецификация 800G разработана в 2019г. GPT вышел в 2022г.

UE - всего лишь оптимизация протокола (новость 2023г.) для ИИ. А автор подает это как "ради ИИ изобрели 800G"

Скрытый текст

Картинки старые, еще до ИИ. Но в них тренд на повышение скорости есть.

kibb
15.02.2026 08:19
#29531890
И чем же ib проприетарный?

ajijiadduh
15.02.2026 08:19
#29531998
управления затором

а может пробкой? или вообще о чём речь?
1. t3chnowolf Автор
  15.02.2026 08:19
  #29532068
  перегрузка сети имеется в виду, термин затор тоже в ходу, поставили и то и другое

ajijiadduh
15.02.2026 08:19
#29532008
сегмент ткани

какой ещё ткани
1. t3chnowolf Автор
  15.02.2026 08:19
  #29532072
  сегмент сети, конечно, спасибо

cskeleto
15.02.2026 08:19
#29532384
Интересно, насколько критична эта штука для inference-кластеров, а не только для training. У нас inference-воркеры на обычном 10G Ethernet, батчинг запросов на стороне API, нагрузка приходит волнами (резкие спайки в течение дня). Проблема обычно не в сетевом бэкбоне, а в том, что GPU успевают обработать батч быстрее, чем следующий успевает сформироваться.

Если я правильно понимаю, Ultra Ethernet больше про синхронизацию AllReduce в распределенном обучении, где тысячи GPU ждут друг друга. В inference на 10-50 воркерах обычный Ethernet должен справляться. Или я упускаю какой-то сценарий?

ALT0105
15.02.2026 08:19
#29536440
Главные изменения происходят не на физическом уровне, а выше — в транспортной части стека. Для таких нагрузок поверх Ethernet вводят новый протокол — Ultra Ethernet Transport (UET)

Ускорить Ethernet на порядок можно и на физическом уровне, изменив способ модуляции - об этом кратко в последнем пункте статьи
1. VMcS
  15.02.2026 08:19
  #29539232
  Не совсем понимаю откуда берется "на порядок". На бумаге все корректно, но это было справедливо четверть века назад, в эпоху коаксиала и хабов. С тотальным распространением коммутаторов и микросегментации (когда в сегменте находятся только сам коммутатор и единственный хост, к тому же работающие в дуплексе) говорить о конкуренции доступа к передаче - бессмысленно. Пропускная будет зависить от тактовой частоты, алгоритма модуляции, межкадровых интервалов. Но откуда отимизация на порядок? Или я что-то упустил?
  1. ALT0105
    15.02.2026 08:19
    #29539438
    Оптимизация доступа к среде получается только там, где есть эта проблема, где Ethernet выполняет свои прямые обязанности - прослушивание несущей и обнаружение коллизий. При использовании коммутаторов и микросегментации коллизий не возникает, прослушивать среду нет смысла и вообще нет задачи распределения доступа к среде, она принадлежит монопольно одному порту. Поэтому Ethernet в таких сетях не выполняет своего назначения, используется по привычке и на всякий случай - вдруг к порту коммутатора подключат хаб. Но если считать деньги, то реализация одноимпульсной модуляции гораздо дешевле коммутатора и работает одинаково эффективно в электрических, оптических и эфирных каналах