Мы в OpenYard внимательно следим за тем, как развивается инфраструктура для искусственного интеллекта — от железа до сетей и архитектуры дата-центров. Причём это не просто рабочая необходимость, а и то, что нам самим по-настоящему интересно. В эту статью попали материалы, которые мы собираем и анализируем в процессе исследований для наших новых продуктов. Здесь собраны ключевые тренды, которые уже начинают влиять на то, как мы будем строить свою инфраструктуру и запускать модели ИИ в ближайшие 5–7 лет.
Материал подойдет тем, кто работает с железом, инфраструктурой, занимается высокопроизводительными вычислениями или просто интересуется, как будут выглядеть дата-центры завтрашнего дня.

ИИ взрослеет — и инфраструктура тоже
Мир искусственного интеллекта сейчас переживает переходный период. Детские болячки, вроде гонки за размером моделей и количеством параметров, постепенно уходят на второй план. Вместо них акцент смещается на оптимизацию слоистой архитектуры, балансировку между числом и мощностью ускорителей, а дальше — на глубокую оптимизацию самих алгоритмов.
Если упростить — сейчас важно не столько раздуть отдельный GPU или сервер, сколько научиться использовать технологии параллельных вычислений и грамотно распределять нагрузку в больших кластерах, построенных на большем числе менее мощных специализированных ускорителях.
И да, история циклична: от мейнфреймов к ПК, потом обратно к тонким клиентам и облакам. То же самое ждёт и ИИ: распределённые вычисления на миллиардах устройств станут стандартом — как для инференса, так и для обучения. В этом смысле искусственный интеллект будет повторять путь, по которому шли цифровые валюты или edge-вычисления.
Главные игроки и железо будущего: тенденции в области серверов GPU и инфраструктуры AI
Инфраструктура искусственного интеллекта (AI) быстро эволюционирует под влиянием экспоненциального роста размеров моделей и необходимости более эффективного масштабирования обучения и вывода результатов (inference).
Nvidia: ставка на проприетарность и масштаб
Nvidia сохраняет лидерство благодаря своему подходу к платформе вычислений на базе ускорителей (GPU). Их GPU GB300 Grace Blackwell Ultra включает HBM3-память с объёмом до 288 ГБ, устраняя нехватку памяти для крупных языковых моделей. Система NVIDIA DGX B300 демонстрирует их видение: узлы с 8 GPU, соединённые через NVLink и NVSwitch, создают когерентное пространство памяти объёмом до 2,3 ТБ.
Их стратегия сетевого взаимодействия сосредоточена на InfiniBand и приобретении Mellanox, что имеет решающее значение. 400 Гбит/с NDR InfiniBand становится стандартом, как и 800 Гбит/с XDR. NVIDIA Grace Blackwell Ultra Superchip with ConnectX-8 SuperNICs представляют их шаг к интеграции CPU, GPU и DPU, используя NVLink-C2C для когерентного доступа к памяти между процессорами ARM и GPU и сетевым DPU адаптером ConnectX-8.
В 2026-2027 году мир ждёт новая архитектура ― Nvidia Rubin (Rubin GPU + Vera CPU + Quantum-X800 InfiniBand).
Объявленный компанией Nvidia формат HGX поддерживается американскими, а также китайскими и тайваньскими производителями. Системы строятся на проприетарных компонентах архитектуры Nvidia:
NVIDIA HGX B300 NVIDIA Blackwell Ultra GPUs,
NVIDIA Quantum-X800 InfiniBand and Spectrum™-X Ethernet,
NVIDIA BlueField®-3data processing units (DPUs).
HGX GPU
Дизайн основной платы HGX предположительно выполняется в соответствии с открытым стандартом OCP OAI OAI-UBB Base Specification r2.0 v1.0, однако, найти подтверждения на ресурсах Nvidia мне не удалось. На сайте OCP консорциума есть информация, что компания Nvidia присоединилась к стандарту OCP OAI и выпустила свою плату HGX в соответствии со стандартом. Однако компания Nvidia фактически сформировала собственный подстандарт HGX Form Factor Specification. Это не полностью открытый стандарт, и его совместимость с OAM-модулями других производителей ограничена.
Сами ускорители, устанавливаемые на плату HGX, не заявляются как OCP OAM совместимые, по крайней мере, найти подтверждения соответствия стандарту OCP не удалось.

Nvidia также предложила рынку модульный дизайн MGX. Его также поддержали производители систем, например, Compal, Gigabyte, Supermicro, MSI и т.д. Однако даже модульный дизайн MGX строится на базе проприетарных компонентов Nvidia, это всё те же строительные блоки:
GPU NVIDIA L40S Tensor Core, NVIDIA H100 Tensor Core, NVIDIA Grace Hopper™ Superchip, NVIDIA Grace Blackwell и т.д.,
CPU NVIDIA Grace, x86, Arm,
Несмотря на публичные заявления о поддержке стандартов OCP для платформы HGX, Nvidia не раскрывает полной спецификации совместимости своих ускорителей с OCP OAM (Open Accelerator Module). Такая практика вполне отражает реальное положение дел: формально Nvidia входит в консорциум OCP, однако её решения HGX и MGX представляют собой, по сути, закрытые проприетарные расширения, совместимые с OAM лишь частично. Фактически, OAM в исполнении Nvidia — это скорее маркетинговая отсылка к открытому стандарту, чем полноценная реализация всех его требований.
AMD: ставка на открытые стандарты
Серия AMD Instinct™ GPU от AMD представляет собой выход на рынок ускорителей AI. MI350 предлагает 288GB HBM3E-памяти, превосходя нынешние предложения Nvidia. Их стратегия подчеркивает открытые стандарты с помощью программного стека ROCm и технологии Infinity Fabric для сетевого взаимодействия.
Подход AMD отличается акцентом на совместимости CPU и GPU, используя опыт и знания x86. MI300A объединяет чиплеты CPU и GPU в одном пакете, ориентированном на HPC и AI-задачи, которые получают выгоду от тесной интеграции CPU-GPU. Их сетевая стратегия больше опирается на стандартный Ethernet с поддержкой RoCE (RDMA через согласованный Ethernet) вместо проприетарных интерфейсов.
AMD придерживается открытых стандартов в архитектуре систем. Создание платформы AMD Instinct базируется на OCP дизайне: The AMD MI300 Series platform comprises eight OCP Accelerator Module (OAM) form-factor MI300 Series GPUs in a Universal Baseboard (UBB) 2.0 design.AMD Instinct™ MI300 Series Cluster Reference Architecture Guide.
В качестве сетевой инфраструктуры AMD предлагает AMD Pensando™ DPU адаптеры. Модель AMD Pensando™ Salina 400 DPU поддерживает 400 Гбит/с и разрабатывается в рамках консорциума Ultra Ethernet Consortium.
Стратегия поддержки открытых стандартов помогает AMD расширять партнёрскую сеть и популяризировать свои решения.
Поддержка открытого стандарта Open Accelerator Infrastructure (OAI), Server/OAI - OpenCompute, в частности:

Intel: тихо, но системно
Intel придерживается диверсифицированного подхода, предлагая гетерогенные вычислительные решения, процессоры Xeon с расширениями AMX и будущую архитектуру Jaguar Shores. Gaudi 3 включает в себя интегрированные ускорители сети Ethernet, RoCE для эффективной масштабируемости и оптимизации вывода результатов.
Intel позиционирует свои процессоры как сбалансированное решение для инференса моделей ИИ, в том числе LLM Accelerate Artificial Intelligence Workloads with Intel® Advanced Matrix Extensions.
Gaudi 3 ― актуальный ускоритель от компании Intel. Выпускается в двух формфакторах:
HLB-325L ― OAM 2.0 карта. Он выполнен в соответствии со стандартом OCP OAM 2.0 Mezzanine card OAI-OAM Base Specification r2.0 v1.0, также как это делает AMD.
HL-338 - PCIe 5 FLFH карта. Обеспечена поддержка соединения 4х карт PCIe в единый кластер с использованием HLTB-304 x4 Top Board, аналог Nvlink 4-way bridge. Обеспечивается скорость 6x 200 GbE links от каждой карты.
Оснащён 128GB HBM памятью, чем уступает основным конкурентам в лице Nvidia и AMD. Но вряд ли это можно считать проблемой, при развитии технологий программирования моделей с повышением параллелизма и популяризации подходов HPC (MPI) в мире тренировок моделей.
Базовая плата HLB-325L Universal Baseboard, куда устанавливаются адаптеры HLB-325L, также построена на основе OCP стандарта OAI-UBB Base Specification r2.0 v1.0.

Для разработчиков моделей на базе ускорителей Gaudi компания Intel предлагает открытый оптимизированный программный стек Intel® Gaudi® Software.
Уникальное положение Intel заключается в их портфеле от конечных устройств до серверов: процессоры, ускорители, сетевое оборудование и технологии памяти. Их инициатива oneAPI нацелена на обеспечение единого программного стека и технологий для различных архитектур.
Достоинства архитектурного подхода OCP
Консорциум Open Compute Project (OCP) продолжает укреплять позиции в индустрии благодаря поддержке ключевых игроков рынка — Nvidia, AMD, Intel и других. В рамках инициативы Open Accelerator Infrastructure (OAI) эти компании разрабатывают серверные решения, соответствующие открытым стандартам OCP.
Так, ускорители от AMD и Intel выпускаются в формфакторе OCP OAM 2.0 Mezzanine card, согласно спецификации OAI-OAM Base Specification r2.0 v1.0. Эти ускорители устанавливаются на стандартную общую плату, поддерживающую подключение до 8 ускорителей. Сама плата разрабатывается в соответствии с открытым стандартом OAI Universal Baseboard (OAI-UBB) Base Specification r2.0 v1.0.
Nvidia, в свою очередь, формально поддерживает стандарты OCP в своей линейке решений HGX, однако компания пошла по пути создания собственного расширения стандарта — HGX Form Factor Specification Revision 1.0 Version 0.1. По сути, это проприетарная реализация, частично совместимая с OAM, что вызывает определённые вопросы с точки зрения открытости.
Тем не менее, унифицированное серверное шасси, разработанное по стандартам OCP и предназначенное для установки плат OAI UBB, действительно обеспечивает возможность интеграции модулей от разных производителей — при условии строгого соответствия спецификации OCP UBB13.
Такой подход полностью соответствует философии модульности и открытости, лежащей в основе инициативы Open Compute Project. На практике он снижает зависимость от конкретного вендора и упрощает масштабирование вычислительных систем.
Таблица 1. Совместимость компонентов в OCP-шасси
Компонент |
Можно ли менять между производителями? |
Одновременная установка разных вендоров? |
Шасси OCP |
Да, если по стандарту OCP |
Нет, только одно шасси |
UBB |
Да, по одной плате за раз |
Нет, только одна UBB |
OAM (ускорители) |
Да, можно смешивать |
Да, если соответствуют OAM-стандарту |
Использование ускорителей в формате мезонинных карт и их установка на универсальные базовые платы (UBB) позволяет унифицировать серверное шасси и упростить инфраструктуру дата-центров. Такой подход активно продвигается в рамках инициативы OCP OAI, и уже стал стандартом де-факто для крупных вендоров.
Важно отметить, что формфактор OAM и UBB изначально проектировался с учётом применения жидкостного охлаждения Direct-to-Chip Liquid Cooling(DLC). Это позволяет эффективно отводить тепло от ускорителей, что особенно актуально для современных высокопроизводительных систем.
Так, например, компания Supermicro позиционирует свои серверы линейки Universal GPU именно как решение, готовое к установке ускорителей на UBB и использующее DLC.
Тем не менее, на практике всё не всегда так однозначно. Один из производителей, с которым мы общались, заявил, что их серверы хоть и формально соответствуют OCP-стандартам, но полностью унифицированными назвать их нельзя — конструкция шасси имеет ряд особенностей, из-за которых необходимо использовать отдельное шасси для каждого производителя UBB.
Как всегда, за формальным соблюдением стандартов могут скрываться нюансы реализации, поэтому при выборе оборудования важно внимательно изучать не только документацию, но и реальные отзывы или технические консультации с производителями.
Новые подходы к AI-фермам
Дезагрегация всего
Тенденция движется в сторону дезагрегированной архитектуры, где ресурсы вычислений, памяти и хранения объединяются отдельно и соединяются через высокоскоростные связи. Это позволяет динамически распределять ресурсы в соответствии с требованиями рабочих нагрузок.
Жидкостное охлаждение становится нормой
По мере того как потребление энергии GPU приближается и превышает 700 Вт на чип, традиционные системы воздушного охлаждения достигают своих пределов. Прямое (Direct-to-chip) жидкостное охлаждение становится обязательным для высокоплотных кластеров AI (системы Nvidia DGX уже включают его). Computex 2025 этот тренд хорошо подтвердил.
Оптика вместо меди
К 2030 году прогнозируют, что оптические интерфейсы заменят медные соединения для сетевого взаимодействия внутри шкафов, решая, как проблемы пропускной способности, так и энергоэффективности. Оптические соединения становятся всё более важными для соединения графических процессоров в системах искусственного интеллекта и высокопроизводительных вычислений (HPC). Они обеспечивают более высокую пропускную способность и меньшую задержку по сравнению с традиционными электрическими соединениями, что позволяет эффективнее взаимодействовать между графическими процессорами, особенно в крупномасштабных кластерах. Такие стартапы, как Ayar Labs и Lightmatter, лидируют в разработке решений оптических соединений для графических процессоров.
Память выходит на первый план
Memory-Centric Architecture (Архитектура, ориентированная на память) — это подход к проектированию вычислительных систем, который ставит подсистему памяти в центр архитектуры, а не процессор (CPU). Цель — преодолеть «бутылочное горлышко фон Неймана», то есть ограничения производительности и энергоэффективности, вызванные необходимостью постоянного перемещения данных между памятью и вычислительными блоками.
Основная проблема, которую решает MCA: в традиционных системах (Processor-Centric) перемещение данных из DRAM в кэш и регистры CPU/GPU потребляет значительно больше времени и энергии, чем сами вычисления. С ростом объёмов данных (Big Data, AI/ML, высокопроизводительные вычисления) эта проблема стала критической. MCA стремится минимизировать перемещение данных.
Ключевые характеристики:
Близость вычислений к данным: реализуется через концепции Processing-in-Memory (PIM) или Near-Data Processing (NDP). Вычисления выполняются там, где хранятся данные, или очень близко к ним.
Высокая пропускная способность и низкая латентность: использование технологий, таких как High-Bandwidth Memory (HBM), 3D-стекирование памяти и высокоскоростных интерконнектов.
Большие общие пулы памяти: создание огромных, разделяемых между разными типами процессоров (CPU, GPU, DPU, FPGA) пространств памяти с высокой скоростью доступа.
Дезагрегация и компонуемость: ресурсы памяти и вычислений разделяются на независимые блоки, которые можно гибко комбинировать в зависимости от задачи.
Что ожидаем:
1. Массовое внедрение и развитие CXL (Compute Express Link)
Текущее состояние: CXL 2.0 внедряется, CXL 3.0/3.1 анонсирован. Это открытый стандарт для высокоскоростного, когерентного соединения между процессорами, ускорителями и памятью.
Прогноз на 5 лет: CXL станет доминирующим стандартом в дата-центрах. Он позволит реализовать настоящую дезагрегацию памяти: серверы смогут использовать не только локальную DRAM, но и огромные внешние пулы памяти (Memory Pooling), доступные через быструю сеть. Вероятно, это приведёт к созданию стоек памяти (Memory Appliances).
-
Влияние: гибкое масштабирование памяти независимо от CPU, повышение утилизации ресурсов, снижение общей стоимости владения (TCO) и поддержка гетерогенных вычислений (CPU, GPU, AI-ускорители получают общий доступ к данным).
2. Коммерциализация и стандартизация Processing-in-Memory (PIM)
Текущее состояние: существуют первые коммерческие продукты (Samsung HBM-PIM, SK Hynix AiM, UPMEM), но их внедрение ограничено из-за сложности программирования и отсутствия единых стандартов.
Прогноз на 5 лет: PIM и NDP (Near-Data Processing) найдут широкое применение в специфических задачах: ускорение баз данных (фильтрация, агрегация), рекомендательные системы, обработка графов и векторные операции в ИИ. Развитие получат вычислительные модули памяти (Computational Memory), например, SSD с функцией обработки данных или CXL-устройства с логикой.
-
Влияние: значительное снижение энергопотребления и задержек для data-intensive задач за счет выполнения простых операций прямо в памяти, разгрузка центрального процессора.
3. Продвинутая 3D-интеграция и чиплетные архитектуры
Текущее состояние: HBM (High Bandwidth Memory) уже широко используется в GPU и ускорителях. Технологии 2.5D и 3D-упаковки (например, Intel Foveros, TSMC CoWoS и SoIC) набирают обороты.
Прогноз на 5 лет: технологии HBM3E и HBM4 станут стандартом для высокопроизводительных систем. Будет развиваться гибридное связывание (Hybrid Bonding), позволяющее буквально склеивать кристаллы памяти и логики друг с другом (logic-on-memory, memory-on-logic). Это максимально приблизит вычисления к данным.
-
Влияние: экстремально высокая пропускная способность памяти (терабайты в секунду) и дальнейшее снижение задержек, что критично для обучения больших ИИ-моделей.
4. Гетерогенные и многоуровневые системы памяти (Memory Tiering)
Текущее состояние: системы используют в основном HBM (быстро, дорого) и DDR (медленнее, дешевле). Попытки внедрения Storage Class Memory (вроде Intel Optane) были не слишком успешными, но идея жива.
Прогноз на 5 лет: благодаря CXL станет стандартом использование нескольких уровней памяти: горячие данные в HBM или быстрой DDR5/6, тёплые данные — в пулах памяти, подключенных через CXL (возможно, более медленной, но ёмкой), холодные — в NVMe SSD. Управление этим будет всё больше брать на себя специализированное ПО (Software-Defined Memory).
-
Влияние: оптимизация стоимости хранения и скорости доступа. Возможность работать с наборами данных, превышающими объём локальной памяти сервера.
5. Развитие новых энергонезависимых типов памяти (Emerging Memories)
Текущее состояние: MRAM, ReRAM (RRAM), PCM разрабатываются много лет, но пока не могут конкурировать с DRAM по скорости и стоимости за гигабайт, а с NAND ― по плотности.
Прогноз на 5 лет: новые типы памяти вряд ли полностью заменят DRAM в течение 5 лет, но начнут активнее использоваться как промежуточный слой (Storage Class Memory) или в специализированных PIM-устройствах. Они могут предложить энергонезависимость (данные не теряются при отключении питания) и лучшую плотность.
Влияние: появление систем с возможностью мгновенного восстановления, снижение энергопотребления в дата-центрах, новые модели вычислений, основанные на персистентности данных.
Программное обеспечение-определяемая инфраструктура
Рабочие нагрузки ИИ существенно различаются по своим требованиям. Программно-определяемая сеть и компонуемая инфраструктура позволяют быстро перенастраивать ресурсы. Оркестровка на основе Kubernetes, Slurm, Singularity с учетом управления ресурсом графического процессора становится критически важной.
Эволюция дизайна серверов/ферм AI
Современные серверы AI эволюционируют за рамки традиционных формфакторов серверов:
Подача энергии: переход к 48В DC (OCP), распределению питания в шкафах, при этом некоторые конструкции распределения питания предусматривают прямую подачу DC от источника питания к чипам (платам). Шкафы с плотностью до 100 кВт+ становятся нормой.
Интегрированное охлаждение: шкафы включают встроенные системы жидкостного охлаждения, насосы и теплообменники, что минимизирует зависимость от внешних систем охлаждения.
Горизонтальное и вертикальное масштабирование (Scale-Up vs Scale-Out)
Ключевая дилемма ИИ: современные модели настолько велики, что не помещаются не только в память одного GPU, но зачастую и в память целого сервера. Поэтому оба подхода не просто важны, они необходимы и используются одновременно.
Тренд Scale-Up направлен на создание максимально мощного «кирпичика» для построения ИИ-системы. Упаковка как можно большего числа самых мощных ускорителей в одно шасси. Стандартом де-факто стали серверы с 8 GPU (например, NVIDIA HGX H200, AMD Instinct MI300X). Виден переход от PCIe к проприетарным высокоскоростным интерконнектам для связи GPU-to-GPU внутри узла:
NVIDIA NVLink и NVSwitch,
AMD Infinity Fabric.
Объединение центрального процессора (CPU) и графического ускорителя (GPU) в одном корпусе (package) с когерентным доступом к общей памяти. Примеры: NVIDIA Grace Hopper (GH200), AMD MI300A.
Устраняется бутылочное горлышко PCIe между CPU и GPU. Это позволяет GPU использовать не только свою сверхбыструю HBM-память, но и напрямую обращаться к большому объёму памяти CPU (DDR5) с высокой скоростью. Это фундаментальный сдвиг в Scale-Up архитектуре.
Использование High-Bandwidth Memory (HBM) в ускорителях. Переход к HBM3e и HBM4, что даёт не только огромную пропускную способность (терабайты в секунду на один GPU), но и увеличивает объём доступной памяти. Что в результате позволит загружать большие части модели или большие батчи данных в быструю память одного узла.
Тренд Scale-Out ― кластеры HPC и GPU, когда мощности даже самого мощного суперузла не хватает. Здесь главное ― это сеть.
Для обучения ИИ стандартный Ethernet недостаточен из-за задержек и накладных расходов. Требуются сети с экстремально высокой пропускной способностью и ультранизкими задержками (ultra-low latency). Два основных тренда развития сетей:
InfiniBand: де-факто стандарт для крупных ИИ-кластеров (до 400/800 Гбит/с на порт). Обеспечивает минимальные задержки и аппаратную поддержку RDMA (Remote Direct Memory Access), позволяя GPU одного сервера напрямую писать в память GPU другого сервера.
Ethernet (RoCE): cтандартный Ethernet пытается догнать InfiniBand с помощью RoCE (RDMA over Converged Ethernet). Он дешевле и более универсален, но сложнее в настройке для достижения низкой латентности. Новый консорциум Ultra Ethernet (UEC) нацелен на создание стандарта Ethernet, оптимизированного специально для ИИ и HPC.
Переход к топологиям типа Fat Tree или Clos, но с оптимизацией под ИИ-трафик. Например, rail-optimized дизайн: каждый GPU в сервере имеет свою собственную высокоскоростную сетевую карту (NIC) для прямого подключения к коммутатору без конкуренции с другими GPU того же сервера (Intel, AMD). Такой подход обеспечивает максимальную пропускную способность для каждого GPU при обмене данными с другими узлами, что критично для задач тренировки моделей ИИ.
Дезагрегация памяти (Размытие границ Scale-Up/Scale-Out)
Это попытка дать вычислительным узлам доступ к памяти за пределами их собственного шасси. Например, стандарт CXL (Compute Express Link) и технологии типа NVIDIA NVLink-C2C. Они позволяют создавать пулы памяти, доступные нескольким узлам. В будущем GPU сможет использовать не только свою HBM и память своего CPU (Scale-Up), но и удалённый пул памяти через быструю сеть CXL (Scale-Out), что частично решает проблему нехватки локальной памяти для гигантских моделей.
Эволюция сетевого взаимодействия
Консорциум Ultra-Ethernet: ожидается, что открытые стандарты для оптимизированного Ethernet для AI получат популярность, оспаривая патентованные интерфейсы.
RDMA: RDMA (прямой доступ к дальней памяти) будет широко распространён как по InfiniBand, так и по Ethernet (RoCE) для минимизации задержки при взаимодействии между GPU и узлами.
In-Network Computing: смарт-NICs и DPUs (устройства обработки данных) всё чаще будут выполнять задачи сети и обработки данных в сети, повышая общую эффективность.
Оптимизированные топологии: Dragonfly и Fat-Tree будут доработаны и широко приняты для кластеров AI, обеспечивая эффективный обмен трафиком и минимальное соперничество при большом параллелизме.
Усложнение программных моделей параллелизма (3D/4D Parallelism)
Чтобы эффективно использовать тысячи GPU, программное обеспечение должно «разрезать» модель и данные на части.
Data Parallelism: каждый узел обрабатывает разные данные на одной и той же копии модели.
Tensor Parallelism: одна операция (например, умножение матриц) делится между несколькими GPU внутри одного узла (использует Scale-Up интерконнект).
Pipeline Parallelism: разные слои модели размещаются на разных узлах, образуя конвейер (использует Scale-Out сеть).
Sequence Parallelism: распределение длинных последовательностей (например, в LLM) между GPU.
Фреймворки (PyTorch FSDP, NVIDIA Megatron, Microsoft DeepSpeed) становятся критически важны, так как они автоматизируют это сложное распределение, скрывая сложность железа от разработчиков ИИ.
К 2030 году инфраструктура AI будет характеризоваться экстремальной плотностью, жидкостным охлаждением, компонентами, соединёнными оптикой и память-центрическими конструкциями. Хотя каждый вендор ускорителей отличается своими уникальными архитектурами (CUDA, ROCm, oneAPI) и программными экосистемами, конвергенция в высокоскоростных сетях RDMA (InfiniBand или RoCE), CXL для памяти и передовых системах охлаждения будет универсальной.
Мы в OpenYard продолжим наблюдать за этой гонкой и делиться с вами самыми интересными находками. Если вам близка тема, задавайте вопросы — обсудим!
P.S. В процессе подготовки этой статьи наткнулся на документ Serving Large Language Models on Huawei CloudMatrix384, в котором подробно описана архитектура суперкластера Huawei CloudMatrix384, предназначенного для работы с LLM.
Приятно отметить, что выводы и наблюдения из моего собственного исследования во многом пересекаются с тем, что описывает Huawei в своей архитектурной документации. Это лишний раз подтверждает, что ключевые подходы к построению высокопроизводительных систем для LLM постепенно формируются в индустрии как общий стандарт.