Настольный дата-центр: как NVIDIA упаковала целый ИИ-кластер в корпус 15×15 см / forpes.ru

Главная
Настольный дата-центр: как NVIDIA упаковала целый ИИ-кластер в корпус 15×15 см

Настольный дата-центр: как NVIDIA упаковала целый ИИ-кластер в корпус 15×15 см +16

30.10.2025 07:10

BiktorSergeev 15 4000 Источник

Nvidia lanza su primer superordenador personal con IA: DGX Spark puede con los modelos de lenguaje más potentes en local — *Источник*

Совсем недавно NVIDIA представила DGX Spark — компактный AI-компьютер формата 150×150×50 мм. Внутри установлен Grace Blackwell Superchip GB10, объединяющий 20-ядерный ARM-процессор и GPU Blackwell, 128 ГБ единой LPDDR5X-памяти и накопитель до 64 ТБ. По уровню вычислительной мощности устройство сопоставимо с RTX 6000 Ada, но не требует серверной стойки, отдельного охлаждения и сложного подключения.

DGX Spark рассчитан на специалистов, которым нужно запускать крупные языковые модели и дообучать нейросети локально — без облачных квот, задержек и рисков для данных. В статье разберем архитектуру системы, интерфейсы и охлаждение, а также реальные сценарии, где мини-суперкомпьютер действительно заменяет сервер — от генерации изображений до вычислений в материаловедении.

«Железо», подключения и структура

В основе лежит Grace Blackwell Superchip GB10 — единый кристалл, где 20-ядерный ARM-процессор Grace и графический модуль Blackwell объединены шиной NVLink-C2C. Скорость обмена данными по ней в несколько раз выше, чем у PCI Express 5.0 ×16, поэтому CPU и GPU работают как одно целое, без задержек при передаче больших массивов данных — что критично при обучении нейросетей или обработке длинных контекстов.

Процессорная часть построена на ядрах Cortex-X925 и Cortex-A725: первые отвечают за ресурсоемкие вычисления вроде матричных операций и компиляции кода, вторые — за фоновую работу, подготовку данных и мониторинг. Ну а графический блок содержит 6144 CUDA-ядра, тензорные ядра пятого поколения для ускорения операций машинного обучения и RT-ядра четвертого поколения для рендеринга и трассировки лучей.

Новинка в разобранном виде. Источник — *Новинка в разобранном виде.* *Источник*

В DGX Spark установлено 128 ГБ LPDDR5X-памяти, доступной одновременно и процессору, и графическому ядру. Благодаря этому данные не нужно копировать между ними — все работает в едином пространстве. Пропускная способность 273 ГБ/с позволяет без задержек обрабатывать длинные тексты или большие пакеты изображений. В режиме низкой точности FP4 (четырехбитные числа) система справляется с моделями до сотен миллиардов параметров и подходит даже для тонкой настройки небольших нейросетей без потери качества.

В DGX Spark установлен NVMe SSD объемом 1 ТБ. А при необходимости можно добавить до 64 ТБ через внутренние разъемы или внешние хранилища. Все диски поддерживают аппаратное шифрование, поэтому данные — будь то медицинские снимки, последовательности ДНК или корпоративные файлы — можно безопасно держать локально, без передачи в облако.

Корпус DGX Spark выполнен из алюминия, окрашен в золотистый цвет и весит всего 1,2 кг. По форме это аккуратный куб, который органично смотрится на рабочем столе — и в офисе, и дома. За охлаждение отвечают два тихих вентилятора и массивная теплопластина, плотно прижатая к чипу, чтобы тепло распределялось равномерно. Даже при полной нагрузке температура держится в пределах 75–80 градусов, а шум не превышает 35 децибел — тише, чем у большинства ноутбуков во время сборки проекта или рендеринга видео. Питание подается от внешнего адаптера мощностью 240 Вт, подключаемого к обычной розетке. Благодаря этому систему можно без усилий переносить между комнатами, брать на презентации или ставить в коворкинге — без спецлиний и источников бесперебойного питания.

Подключения в DGX Spark продуманы так, чтобы все работало без переходников и лишних проводов. На корпусе — четыре порта USB Type-C со скоростью до 40 Гбит/с: один подает питание ноутбука или периферии, остальные подходят для внешних накопителей, мониторов с последовательным подключением или док-станций. Видеовыход HDMI 2.1a поддерживает 4K при 120 кадрах в секунду и 8K при 60, что удобно для демонстраций, монтажа и стриминга контента. Для сетевых задач предусмотрен порт RJ-45 (10 Гбит/с) и два QSFP-разъема на контроллере ConnectX-7 (по 200 Гбит/с). Через них можно объединять несколько устройств в кластер: два Spark почти удваивают производительность, а четыре превращаются в компактную вычислительную ферму с минимальными задержками. Беспроводная часть — протоколы Wi-Fi 7 и Bluetooth 5.4.

Характеристики DGX Spark:

Процессор: 20-ядерный ARM Grace (10 × Cortex-X925 + 10 × Cortex-A725)
Графика: GPU Blackwell с 6144 CUDA-ядрами, тензорными ядрами 5-го поколения и RT-ядрами 4-го поколения
Память: 128 ГБ LPDDR5X, единое адресное пространство CPU + GPU, пропускная способность 273 ГБ/с
Накопитель: NVMe SSD от 1 ТБ (расширяется до 64 ТБ через внутренние или внешние массивы)
Производительность: до 1 петафлопса в FP4 с учетом разреженности матриц
Интерфейсы: 4 × USB Type-C (40 Гбит/с), HDMI 2.1a, RJ-45 10 Гбит, 2 × QSFP (по 200 Гбит/с)
Беспроводные подключения: Wi-Fi 7 и Bluetooth 5.4
Операционная система: DGX OS на базе Ubuntu для ARM, предустановлены CUDA, cuDNN, TensorRT, контейнеры NVIDIA NIM
Охлаждение: два вентилятора и тепловая пластина с низким уровнем шума (до 35 дБ)
Питание: внешний адаптер 240 Вт
Габариты: 150 × 150 × 50 мм
Вес: 1,2 кг

С завода установлена DGX OS на основе Ubuntu для архитектуры ARM с полным набором инструментов от NVIDIA. CUDA для вычислений, cuDNN — глубокого обучения, TensorRT — оптимизации вывода и контейнерами с использованием платформы NVIDIA NIM для быстрого развертывания. Модель запускается буквально парой команд в терминале — скачал готовый образ, запустил контейнер, и через минуту уже получаешь вывод или стартуешь обучение без ручной настройки зависимостей, драйверов или борьбы с совместимостью. Производительность в низкой точности FP4 с учетом разреженности матриц достигает одного петафлопса, что ставит систему на уровень профессиональных ускорителей, но в корпусе, который занимает в двадцать раз меньше места, потребляет втрое меньше энергии и не требует серверного охлаждения или отдельного питания.

Применение в реальных задачах

DGX Spark рассчитан не только на разработчиков, но и на всех, кто работает с ИИ-инструментами в повседневной работе — от дизайнеров до исследователей. Компактный формат позволяет запускать те же модели, что раньше требовали серверных мощностей, но теперь — на столе. Ниже - несколько примеров.

В творческих проектах система дает свободу экспериментов без «облаков». Дизайнер может взять собственную подборку из нескольких тысяч изображений, адаптировать Flux.1 или Stable Diffusion XL и получить генератор, создающий контент в нужном стиле или под конкретный бренд. Все данные остаются на локальном накопителе, поэтому приватность и конфиденциальность не нарушаются. Отсутствие сетевых задержек позволяет мгновенно видеть результат генерации и менять параметры без ожидания отклика. Для работы с текстами DGX Spark справляется с моделями вроде Qwen3 или Llama, поддерживая контексты до 32 000 токенов. Это удобно при создании чат-ботов, систем retrieval-augmented generation и локальных ассистентов, которые можно встроить в любое приложение и получать ответы мгновенно, без привычных облачных задержек.

В инженерной сфере DGX Spark заменяет традиционные рабочие места с несколькими видеокартами или даже небольшими кластерами. Так, например, при расчетах в вычислительной гидродинамике загружают сетку из ста миллионов элементов, запускают симуляцию на тензорных ядрах и получают предварительные результаты за несколько часов вместо суток на процессорных системах. В материаловедении или химии единое адресное пространство памяти позволяет держать в оперативке миллионы молекулярных структур, ускоряя поиск оптимальных конфигураций или предсказание свойств новых соединений. Биоинформатики дообучают сети на геномных последовательностях, хранят сырые файлы FASTQ на внутренних дисках и полностью избегают передачи зашифрованных данных в облако, что соответствует строгим требованиям регуляторов вроде HIPAA или GDPR.

Несколько DGX Spark можно объединить в кластер для распределенного обучения больших моделей. Два сетевых порта QSFP (по 200 Гбит/с каждый) на контроллере ConnectX-7 обеспечивают быструю связь между устройствами, поэтому два или три таких модуля работают как единая когерентная система. Это удобно для небольших лабораторий и стартапов, которым нужно тестировать архитектуры или дообучать модели без доступа к дата-центру. Малые команды могут запускать на такой связке собственные чат-боты и внутренние LLM, используя корпоративные данные — без внешних API, подписок и лимитов по токенам. В университетах исследователи проводят десятки экспериментов параллельно, меняют гиперпараметры и отслеживают метрики в реальном времени, не дожидаясь своей очереди на общий GPU-кластер или облачные ресурсы.

А сколько это стоит?

Базовая версия DGX Spark оценивается в 3999 долларов. Для домашнего пользователя это серьезная сумма. Но если сравнить с серверными решениями с аналогичной производительностью, то стоимость становится привлекательной. Ведь одна только RTX 6000 Ada стоит около шести–семи тысяч долларов, а вместе с материнской платой, оперативной памятью, накопителем и блоком питания итог легко переваливает за десять. Здесь же все собрано в компактном корпусе, не требующем ни стойки, ни промышленного охлаждения, ни отдельной электролинии.

Продажи стартовали в октябре 2025 года, Spark уже вызвал интерес у исследователей, инженеров и разработчиков. По сути, DGX Spark делает то, что раньше было доступно только в дата-центрах: обучение, тестирование и настройку моделей можно проводить прямо на столе. Все работает локально — без задержек, ограничений и зависимости от облака. Это особенно важно там, где требуется быстрая обратная связь и гарантированная защита данных — от исследовательских лабораторий до небольших студий, которые хотят держать ИИ-проекты под полным контролем.

Как считаете, стоит ли овчинка выделки? Пишите в комментариях.

Комментарии (15)

010011011000101110101
30.10.2025 07:16
#29037886
Хо-чюююююю!

Наверняка появится и аналогичное для размещения у роботов на борту. Это сильно добавит им ума и умений.

по деньгам - это выгоднее, чем собирать аналогичную по производительности систему на видеокартах. Да и не получится собрать аналогичную. По крайней мере, своими руками
1. MountainGoat
  30.10.2025 07:16
  #29038318
  На Реддите народ не впечатлился, говорят, что если нет ограничений по габаритам и мощности питания, то можно получить за те же деньги лучше.
  1. 010011011000101110101
    30.10.2025 07:16
    #29038838
    128Gb сплошной VRAM и шина быстрее, чем PCIE*16? не знаю как это получить за те же деньги
    
    igrblkv
    30.10.2025 07:16
    #29039264
    Только память сильно медленная, а не как на видеокартах.
    
    В десктопном варианте за те же деньги будет сильно выше производительность.
    
    Посмотрел обзоры - не впечатляет.

Galy4a
30.10.2025 07:16
#29038004
компактный AI-компьютер формата 150×150×50 мм

По форме это аккуратный куб

unwrecker
30.10.2025 07:16
#29038030
Штука интересная. Жду тестов производительности, ну и снижения цены, конечно :)
1. NeriaLab
  30.10.2025 07:16
  #29038202
  На данный момент цена - 3 999 вечно зелёных и не думаю что цена сильно снизится даже на НГ

unreal_undead2
30.10.2025 07:16
#29038196
Про проблемы с перегревом стоило сказать (по многим сайтам пролетело, навскидку здесь).
1. legiomihi
  30.10.2025 07:16
  #29038304
  Первый блин как всегда комой, но в целом то направление верное.

Rezzet
30.10.2025 07:16
#29038472
Почему все пишут что это дата-центр? Давайте по факту, 6144 CUDA-ядер, это уровень RTX 5070, бюджетной видеокарты за $500. Процессорная часть 10 × Cortex-X925 + 10 × Cortex-A725, это не быстрее Ryzen 9950х, а скорее всего даже ближе к 9700X. Быстродействие память крайне низкое по сравнению даже с RTX 5070( 273 ГБ/с против 672 ГБ/с у видеокарты), что опять же делает не самый быстрый чип еще медленнее, особенно в вопросах нейросетей, да во всех вопросах оно замедляет видеочип. Если просто речь о вычислительной мощности - то любой комп с 5070, можно называть дата-центром на столе. Что же тогда сказать про владельцев 4090 и 5090.

Теперь о цене, $4k, что можно собрать за эти деньги. С таким количеством памяти для инференса нейронок - ничего, разве что можно макбук попробовать взять на каких-то скидках если они есть. Но если вам хватит 64Гб, то лучше взять обычное железо на интел или амд, и две Radeon AI Pro 9700 с 32Гб памяти на борту($1300 за штуку). Или четыре RTX 5070 по $500 за штуку(материнские платы на АМ5 есть с четырьмя PCIe 16x, но придется конечно использовать райзеры и мудрить корпус из профиля типа как для ферм делали). В общем за $4k можно собрать более быстрые, более масштабируемые альтернативы, при условии что вы готовы пожертвовать общим размером видеопамяти для инференса, есть задачи где это критично, ту же GPT-OSS 120B вы просто не запустите на чем-то меньше 96Гб видеопамяти(работать будет крайне медленно), есть задачи где 64Гб пока хватит, а именно работа с генерацией изображений(stable diffusion) и там лучше иметь чип быстрее.

В целом пока на рынке железа нет серебряной пули для простого энтузиаста, ну есть RTX6000, но ценник $8000+ немного отталкивает. А так что бы и быстро и много памяти и хорошо по поддержке софта и дешево, пока нет. Самое лучшее наверно это покупать бу(или новые) RTX 4090 и переделывать их в 48Гб. Или достаточно дешево стоящие на вторичке RTX 3090. Ходят слухи что в январе покажут RTX 5080 Super 24Гб. MacStudio и макбуки, а так же мини пк на Ryzen 395+ то же выглядят неплохо, но ценник все равно будет 3-4 тыщи вечнозеленых(а может больше за макстудио).
1. unwrecker
  30.10.2025 07:16
  #29038764
  Ну я, например, хочу топовое железо в компактном корпусе. Да, датацентром это точно называть не стоит, но штука прикольная. Надеюсь, Nvidia будет продвать чипы, и китайцы выпустят то же самое в разы дешевле.
  1. legiomihi
    30.10.2025 07:16
    #29039006
    Топовое железо и компактный корпус это оксюморон. Греться будет.
  1. Rezzet
    30.10.2025 07:16
    #29040044
    Топовое железо в компактном корпусе не выйдет. У меня стоит 4090, стоковая, при обучение LoRa потребляет 350Вт только одна видеокарта, накиньте еще 150Вт от остального компьютера, а потом умножьте в 1,5 и получите примерно цифры для RTX 5090, если вы придумаете как сначала обеспечить 600Вт питания, а потом отвести 600Вт из такого корпуса тогда наверно сможете поставить топовое железо в такой корпус. Шутка про то что компьютер стал обогревателем - это вообще не шутка, отключаю батарею в комнате когда ставлю на пятичасовое обучение.
1. Shannon
  30.10.2025 07:16
  #29049722
  Ryzen AI Max+ 395 (Strix Halo) же уже давно в продаже и уже давно оттестирован. С такой же унифицированной памятью и объемом в 128 Гб. В таком же форм факторе маленькой коробочки, на озонах по 180к продается.
  
  По бенчмаркам производительность генерации токенов TG плюс-минус такая же как у DGX Spark, но стоит в 2 раза дешевле. Нет CUDA ядер, но для LLM уже давно поддерживается Vulkan или ROCm.
  
  Strix Halo против DGX Spark: https://www.youtube.com/watch?v=Pww8rIzr1pg
  
  ту же GPT-OSS 120B вы просто не запустите на чем-то меньше 96Гб видеопамяти(работать будет крайне медленно), есть задачи где 64Гб пока хватит, а именно работа с генерацией изображений(stable diffusion) и там лучше иметь чип быстрее.
  
  Так GPT-OSS-120B изначально делали таким, чтобы его на домашних ПК можно было запускать, так что 96 Гб ему не требуется.
  
  Вообще, и для GPT-OSS-120B и для картинок хватит 8 Гб. GPT-OSS-120B не так сложно запустить с хорошей скоростью в 20-30 t/s на обычной видеокарте, тут важнее, чтобы хватило RAM, а не VRAM: https://habr.com/ru/articles/961478/
  
  GPT-OSS-120B
  Для тяжеловесной Qwen Image хватает 16 Гб, а Stable Diffusion XL же совсем не требовательна, для её запуска хватает 8 Гб, как и для более тяжелого Flux, для них к тому же есть gguf. Даже для генерации видео в Wan2.2 14B хватает 16 Гб.
  1. Rezzet
    30.10.2025 07:16
    #29051636
    А вот это прям полезная статья, не знал что так можно оптимизировать запуск моделей. Про SDXL, Flux и прочие знаю, при том что у меня основная работа это программирование, локально запускаю в основном для картинок. Правда никак их не настраиваю, кроме своих LoRa на своих датасетах. Для текстовых, посмотрел что типа ок, норм модели, но все равно полные версии на сайтах лучше, в данном случае приватностью можно пожертвовать, думаю что мои вопросы типа дай мне пример использования такой то библиотеки никому не впились.