CPU не умер, он просто ждал. Китай строит двухэксафлопсный суперкомпьютер без единого GPU

Главная
CPU не умер, он просто ждал. Китай строит двухэксафлопсный суперкомпьютер без единого GPU — прорыв, необходимость, фейк?

CPU не умер, он просто ждал. Китай строит двухэксафлопсный суперкомпьютер без единого GPU — прорыв, необходимость, фейк?

25.05.2026 08:39

vada 16 20000 Источник

El Capitan, Frontier, Aurora, JUPITER Booster — четыре нынешние эксафлопсные системы из рейтинга Top500, первые строчки суперкомпьютерной табели о рангах. Все четыре используют GPU-ускорение. Это архитектурный консенсус, который формировался около десяти лет и к 2024 году стал самоочевидным: хочешь эксамасштаб — используй GPU.

На этом фоне Китай объявляет о суперкомпьютере исключительно на CPU, без единого ускорителя. Это либо достаточно нетривиальное архитектурное решение, либо красивая история про независимость и импортозамещение. Скорее всего, оба варианта одновременно. Но чтобы это понять, нужно посмотреть назад и выяснить, как GPU вообще оказался на вершине суперкомпьютинга и почему это происходило не один год. Да и вообще неплохо бы разобраться, как GPU добрался до вершины суперкомпьютинга, что в этом противостоянии осталось от CPU и почему именно Китай решил поставить на него.

Санкции, Top500 и вопросики

В 2019 году США ввели первые ограничения против Huawei. Примерно тогда же Китай прекратил подавать результаты LINPACK в рейтинг Top500. Вероятно, совпадение ?

С 2022 по 2026 год экспортный контроль последовательно расширялся: NVIDIA A100, H100, H200, AMD-ускорители — все под ограничениями. Ответ Китая — переориентация на собственные разработки: Huawei Ascend 910C — для AI, Kunpeng — для серверных задач и теперь LX2 с LineShine — для HPC.

Ли Сяоли из комитета по инновациям Шэньчжэня на апрельском совещании прямо назвал LineShine демонстрацией «полной самостоятельности и управляемости по всему стеку». Это уже политическое заявление, в которое добавлена техническая суть.

Каждая страна или даже некие пулы стран используют те технологии и возможности, которые им доступны (в сочетании с экономической целесообразностью, разумеется). В силу санкционных неурядиц Китая и невозможности использования GPU в необходимых объемах, страна выбрала свой вектор в этой сфере.

К слову, о самом рейтинге

Весь приводить я, конечно, не буду, но любопытное покажу. Данные на ноябрь 2025 года, свежее в публичном доступе пока нет:

США — 171 суперкомпьютер; 1–3-е и 5-е места в Top500 заняты их системами.
Япония — 43 суперкомпьютера; 7-е место в рейтинге.
Германия — 40 суперкомпьютеров; 4-е место в рейтинге.
Италия — 18 суперкомпьютеров; 6-е и 10-е места в рейтинге.
Швейцария — 3 суперкомпьютера; 8-е место в рейтинге.
Финляндия — 3 суперкомпьютера; 9-е место в рейтинге.

Китай — 40 суперкомпьютеров. Сорок единиц, четвертое место по количеству систем в мире и ни одного в первой десятке. Мне было бы обидно.

У России 5 суперкомпьютеров. И кто бы что ни говорил, это действительно суперкомпьютеры, и их на пять больше, чем в большинстве стран. Хотелось бы еще 120–130, но что уж поделать.

Китай заявляет о 2 EFLOPS для LineShine — и это основная цифра, вокруг которой вертится вся дискуссия о новом суперкомпьютере. Но за ней скрывается вопрос, который в суперкомпьютинге принято задавать первым: что именно измерено?

Открытый вопрос о LineShine: заявленные 2 EFLOPS — это достигнутая производительность или пиковая?

El Capitan при теоретическом пике 2,82 EFLOPS показал на независимом LINPACK 1,809 EFLOPS — разрыв около 35%. Разница не ощутима, а огромна. Если заявленные ребятами из Поднебесной 2 EFLOPS — это пиковое значение, можно ожидать 1,3 EFLOPS реальной производительности. Это немало и очень достойно, но точно не первая строка рейтинга, хотя и вторая-третья — очень круто.

LINPACK — один из международных стандартов верификации производительности суперкомпьютеров. С 1993 года именно этот тест используется для составления рейтинга Top500. Однако Китай не отправляет результаты в рейтинг с 2019 года (дело это сугубо добровольное), и для LineShine исключение, судя по всему, не сделают. Формально Китай из рейтинга не вышел, но не раскрывает своих данных. Из-за этого вся оценка может быть нарушена. Вдруг у ребят там уже пара своих аналогов El Capitan припасена?

Зачем вообще нужны суперкомпьютеры

Прежде чем переходить к чипам, флопсам и пузомеркам, стоит ответить на вопрос, который часто остается за скобками: а что делают эти машины и на кой им такая производительность?

Суперкомпьютеры используются для программ, выполняющих наиболее интенсивные вычисления. Это, например, решение математических проблем, задач физики высоких энергий, науки о Земле, вычислительной биологии и химии. В этих сферах для решения задач применяется численное моделирование, требуется большой объем сложных вычислений и обработка большого количества данных.

В отдельных случаях суперкомпьютер выполняет одну программу, использующую все доступные ресурсы.

Глобальная климатическая модель с разрешением в один километр — это дифференциальные уравнения для каждой точки на поверхности планеты, пересчитываемые тысячи раз. Взрывная динамика ядерного оружия и гиперзвуковых летательных аппаратов — задачи, для которых альтернатива вычислениям — физические испытания.

Сюда же можно добавить разработку новых материалов (включая батарейные электролиты и сверхпроводники), метеорологию с субсуточным горизонтом прогнозирования (до 12–24 часов), геологоразведку, биоинформатику, электромагнитные симуляции и в последние годы обучение и инференс очень крупных ИИ-моделей.

LineShine, судя по публикациям, метит именно в этот набор: молекулярная динамика, гидродинамика, науки о жизни, дистанционное зондирование, обучение ИИ. Это список задач, под которые проектировалась архитектура.

С назначением разобрались, но без реальной пользы, результатов работы суперкомпьютеров этот блок был бы неполным. Разберем, чем именно занимаются суперкомпьютеры из самой верхушки Top500.

El Capitan в первую очередь предназначен для задач национальной безопасности США, включая моделирование и обеспечение безопасности ядерного арсенала в условиях запрета подземных испытаний. Кроме того, он используется для исследования новых материалов, для физики высоких плотностей энергии, ядерных данных и проектирования оружейных систем.

Frontier применяется для сложных научных симуляций в климатологии, физике, астрофизике и разработке новых материалов. Он просчитывает климатические сценарии, процессы в веществе и производит фундаментальные физические расчеты.

Aurora особенно активно позиционируется как система для задач искусственного интеллекта, где она показала очень высокую производительность. Помимо ИИ, ее используют для научных расчетов в областях вроде моделирования материалов и для других вычислительно тяжелых задач.

JUPITER Booster ориентирован на климатическое моделирование, биоинформатику, астрофизику, физическое моделирование и материаловедение. Еще он должен поддерживать исследования генеративного ИИ, нейронауки, моделирование белков, а также задачи, связанные с медицинской визуализацией и автономным вождением.

Просто напомню: все это работает на GPU-ускорителях. А как так вышло, расскажу в следующем блоке.

Как GPU взял суперкомпьютинг в осаду

Довольно долго суперкомпьютер по умолчанию означал машину, построенную из очень мощных процессоров (векторных или скалярных CPU), позже — многопроцессорные и кластерные системы на серийных CPU.

В ноябре 2000 года вершину Top500 занял IBM ASCI White — 512 узлов на процессорах IBM Power3. В 2002-м его сменил NEC Earth Simulator: 35,86 TFLOPS, разрыв с ближайшим конкурентом — пятикратный. В ноябре 2004-го первое место захватил IBM BlueGene/L на процессорах PowerPC 440 и удерживал его до 2008 года, постепенно наращивая мощность до 478 TFLOPS. Все три — CPU-кластеры. GPU в то время жил в отдельном мире графики, игр, рендера.

Переломный момент произошел в 2007 году, когда NVIDIA выпустила CUDA — фреймворк, позволявший запускать на GPU произвольные вычисления, а не только графику. Идея была проста: GPU — это тысячи небольших ядер, выполняющих одну и ту же операцию одновременно над огромными массивами данных. CPU — это десятки мощных ядер с глубокой иерархией кешей, предсказателем ветвлений и сложным механизмом исполнения команд «не по порядку». Разница в архитектуре становится очевидной, когда смотришь на реальные задачи.

Умножение матриц, свертки в нейросетях, симуляция сил между частицами в молекулярной динамике — все это задачи с высокой арифметической интенсивностью и предсказуемым доступом к памяти. Один и тот же фрагмент кода применяется к миллиардам элементов независимо друг от друга. Именно для этого GPU и создан: его SIMT-модель исполнения позволяет запускать тысячи потоков одним фронтом. Например, NVIDIA H100 выполняет 60 TFLOPS FP64 — и делает это именно потому, что задача в него «укладывается».

Но значительная часть HPC-вычислений устроена иначе: решение систем разреженных линейных уравнений, алгоритмы на графах, адаптивные сетки в CFD с нерегулярной структурой — здесь каждый следующий шаг зависит от результата предыдущего, данные лежат в памяти непредсказуемо, а логика ветвится. GPU в таких задачах теряет преимущество: большинство его ядер простаивает, пока часть ждет данных из памяти. CPU с его продуманной кеш-иерархией и предсказателем переходов справляется с нерегулярным кодом принципиально лучше.

Есть и третья категория — задачи смешанного типа: климатические модели, задачи сейсморазведки, некоторые режимы молекулярной динамики. Там арифметически интенсивные ядра соседствуют с разреженными структурами данных и сложной логикой управления. Именно поэтому большинство современных топовых систем гетерогенны: GPU берёт на себя плотную математику, CPU — все остальное.

Физики, химики и инженеры быстро поняли, что многие HPC-задачи — та самая плотная матричная математика, и первые GPU-кластеры появились в лабораториях уже к 2009–2010 годам.

А в 2012-м случился AlexNet. Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон (команда SuperVision) обучили сверточную нейросеть (препринт) на двух потребительских GTX 580 с 3 ГБ памяти каждая и разгромили всех соперников в соревновании ILSVRC2012 с отрывом в 10,8 процентных пункта. После этого вопрос о том, нужны ли GPU в научных вычислениях, самоустранился.

На обучение модели у команды SuperVision ушло около шести дней. Победители прямо говорили: «Все наши эксперименты говорят о том, что результаты можно улучшить, просто дождавшись более быстрых GPU».

К 2022 году Frontier в Окриджской национальной лаборатории стал первым в истории публично верифицированным эксафлопсным суперкомпьютером — 1,206 EFLOPS Rmax по LINPACK. Его архитектура: 37 000 GPU AMD Instinct MI250X. Следом вышли Aurora, El Capitan, Eagle — все на ускорителях.

Сегодня более половины суммарной вычислительной мощности Top500 генерируется GPU и другими ускорителями. CPU в топовых системах занимается управлением, I/O и общей логикой — важными, но все же вспомогательными функциями.

Судя по всему, создатели LineShine делают ставку на то, что современный CPU с HBM-памятью, широкими векторными блоками и сотнями ядер закрывает оба класса задач достаточно хорошо, без необходимости перекладывать данные между принципиально разными архитектурами и без двух отдельных программных стеков.

Сделать это в условиях, когда доступ к передовым ускорителям закрыт, а весь мировой HPC движется в противоположную сторону, — отдельная история. Китай не стал ждать, пока отменят санкции, или искать обходные пути. Вместо этого NSCC Shenzhen за несколько лет разработал собственный процессор с HBM, собственный высокоскоростной интерконнект и собрал из этого систему, претендующую на звание мощнейшей (или одной из таковых) в мире.

Что анонсировано, только факты

Данные: HPCwire.com (в том числе ссылается на документы NSCC Shenzhen) и препринта «Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials».

Дата и место: 24 апреля 2026 года, Шэньчжэнь; главный конструктор — Лу Ютун.

Заявленная производительность: 2 EFLOPS.

Полная конфигурация: 20 480 вычислительных узлов, 47 000 процессоров LX2 (ARMv9), 92 вычислительных шкафа, 36 сетевых шкафов, хранилище — 650 ПБ, 428 узлов хранения, 67 шкафов хранения с жидкостным охлаждением и пропускной способностью 10 ТБ/с.

Стек: полностью отечественный — процессоры, интерконнект LingQi, СХД.

Фазовое развертывание: первая фаза — 100 серверов Huawei Kunpeng, 12 800 ядер, уже запущена. Вторая фаза — полная конфигурация, сроки публично не называются.

Почему CPU-only в эксамасштабе — это нетривиально

Чтобы понять, что именно сделал Китай, нужно посмотреть на характеристики вычислительного узла.

Каждый узел LineShine содержит два процессора LX2:

304 + 304 = 608 ядер ARMv9 на узел;
4 ТБ/с + 4 ТБ/с = 8 ТБ/с суммарной пропускной способности памяти на узел;
60,3 TFLOPS FP64 на процессор = 120,6 TFLOPS FP64 на узел;
120,6 TFLOPS FP32 на процессор; поддержка FP16 и INT8 через блоки SME и SVE.

Узлы соединяются через LingQi — собственную высокоскоростную сеть с топологией dual-plane multi-rail fat-tree, 1,6 Тбит/с на узел, один миллион портов на всю систему.

Нетривиальность здесь не в количестве ядер. Эксамасштаб на CPU упирается в два ограничения, которые исторически делали эту идею нежизнеспособной.

Первое — пропускная способность памяти. CPU традиционно работает с DDR-памятью: быстро для последовательного кода, но катастрофически мало для задач с высокой интенсивностью обращений к данным. GPU давно решил это через HBM прямо на кристалле. LX2 идет тем же путем — восемь стеков HBM на процессор, 4 ТБ/с — и этим закрывает главный исторический аргумент против CPU-ориентированных HPC-систем.

Второе — масштабирование интерконнекта. 20 480 узлов — это не просто много серверов. Чтобы задача, распределенная на такое количество узлов, давала устойчивый результат, задержки должны быть достаточно малы, чтобы узлы не простаивали в ожидании данных. MPI-задачи при плохом интерконнекте деградируют нелинейно: добавляешь узлы — теряешь эффективность. LingQi с миллионом портов и fat-tree-топологией — решение именно этой проблемы.

Сколько iPhone нужно для суперкомпьютера

Для масштаба: iPhone 16 Pro обеспечивает около 68 ГБ/с memory bandwidth (пропускная способность памяти). Один вычислительный узел LineShine с его 8 ТБ/с — это примерно 118 смартфонов, работающих параллельно. Умножим на 20 480 узлов: чтобы воспроизвести суммарную пропускную способность памяти системы, понадобится около 2,4 миллиона iPhone.

GPU-системы достигают эксамасштаба иначе. El Capitan использует 44 544 AMD MI300A — гибридных APU, объединяющих CPU-ядра и GPU-ускоритель в одном кристалле с HBM. Максимальная производительность достигается за счет плотного матричного параллелизма в GPU-части: именно для этого ускорители и проектируются. Результат — 1,809 EFLOPS при теоретическом пике 2,821 EFLOPS.

LX2: это не тот Kunpeng, который вы знаете

В статьях о LineShine (я прочел несколько, когда готовил этот материал) часто мелькают оба названия — LX2 и Kunpeng, и авторы нередко используют их как синонимы. Однако это неточно: речь о двух разных процессорах.

Первая фаза строится на серверах Huawei Kunpeng — коммерческом серверном чипе HiSilicon с ядрами Taishan, архитектура ARMv8.2, 64 ядра, 7-нм технология TSMC. Это известный продукт, выпущенный в 2019 году.

Вторая фаза, то есть LineShine в полной конфигурации, — совсем другое. LX2 это ARMv9, два вычислительных кристалла, 304 ядра суммарно, 8 стеков HBM по 32 ГБ непосредственно на кристалле плюс 128 ГБ DDR5 вне его. По всем признакам это тот самый безымянный «Kunpeng с HBM», следы которого еще в конце 2024 года (упоминания были даже в 2023-м) появлялись в патчах ядра Linux от инженеров HiSilicon, — только теперь с именем и в реальном применении. В публичном каталоге Huawei LX2 как самостоятельного коммерческого продукта нет: это процессор, спроектированный под конкретную задачу.

К сожалению, я не смог найти в открытых источниках хоть какую-то дополнительную информацию о фазах реализации проекта. Поэтому у меня возник каскад очевидных вопросов: почему первая фаза реализована не на LX2? Они вообще существуют? Использование Kunpeng — это временный шаг? Есть вопросы, нет ответов, увы.

Возможно, кто-то в комментариях даст новую информацию из надежного источника. Буду очень благодарен и дополню эту часть статьи.

Что сейчас можно сказать с уверенностью

Если LineShine выйдет на заявленные показатели, CPU-only в эксамасштабе перестанет быть архитектурной гипотезой. Да, это будет не лучшим вариантом для всех задач, но доказанным. Для HPC-систем, которым важна универсальность, это меняет список допустимых решений.

Параллельный сигнал важнее, чем кажется на первый взгляд. Весь стек LineShine (от кристалла до интерконнекта) — отечественный. Это не просто импортозамещение, а вполне себе прецедент: суверенная вычислительная инфраструктура строится и запускается независимо от того, что происходит с внешними ограничениями.

Но три вопроса все равно остаются открытыми. Когда именно будет развернута полная система — не говорят, аналитики называют 2029–2030 годы. Данных об энергоэффективности нет вообще. Независимой верификации производительности нет и, похоже, не предвидится.

А еще мы наблюдаем разделение мира по технологиям: оказывается, какие-то задачи вполне реально выполнять иначе, не в какой-то одной парадигме, пусть и привычной. Это Китай и демонстрирует. Что-то недоступно? Хорошо, сделаем по-другому, исходя из доступности технологий и собственных возможностей. Если выбора нет или он «так себе», — что ж, нужно качать свои технологии и решения.

В любом случае будет интересно наблюдать за развитием этой «ветки».

Комментарии (16)

Andvecher
25.05.2026 08:46
#30015254
Но зачем
1. vada Автор
  25.05.2026 08:46
  #30015264
  Потому что могут? (-:
1. kenomimi
  25.05.2026 08:46
  #30019684
  Универсальность, ибо не все к ИИ сводится. На GPU кластере можно пускать очень малый класс задач. На CPU можно все подряд. Да, CPU+HBM в разы хуже по чистой энергоэффективности, но зато намного круче в плане универсальности.

thejeki
25.05.2026 08:46
#30015348
Потому что могут

BSOZ
25.05.2026 08:46
#30015392
Насколько вообще сегодня уместно называть GPU устройство, задачи которого никак не связаны с обработкой изображений? Просто CPU с архитектурой, предполагающей высокую параллельность и скорость вычислений за счёт примитивизации и всяческих инструкций для перемножения матриц за один такт. Я бы рассматривал это уже как отдельную архитектуру CPU. GPU не предназначается для майнинга криптовалют, ИИ и прочих задач. Пусть фактически это и одно устройство.
1. ciuafm
  25.05.2026 08:46
  #30015498
  Потому что современный GPU не вписывается в стандартную классификацию single instruction multi data (SIMD), а писать "MSIMD with HBM compatible with CUDA" долго, вот и пишут GPU - всем понятно о чем речь.
1. WASD1
  25.05.2026 08:46
  #30016404
  Я бы рассматривал это уже как отдельную архитектуру CPU.
  
  Она и есть отдельная и называется GP GPU.
  Просто в последнее "GP" люди писать стесняются.
  1. leslie500
    25.05.2026 08:46
    #30027074
    Они не стесняются, но неудобно писать в последнее GP.

unreal_undead2
25.05.2026 08:46
#30015574
создатели LineShine делают ставку на то, что современный CPU с HBM-памятью, широкими векторными блоками и сотнями ядер закрывает оба класса задач достаточно хорошо

В принципе старичок Fugaku на ARM без акселераторов до сих пор держится в десятке Top 500 (и в первой сотне есть ещё несколько машин на том же A64FX), так что ничего уникального в этом нет, хотя и нетипично.
1. DustCn
  25.05.2026 08:46
  #30028564
  Там Fujitsu довольно прилично в софт вложилась. Все что мне попадало оттуда в руки было довольно сильно переписано. Всякие ручные анроллы, ручной инлайнинг, луп фьюжн и прочие техники. Все это частенько на допотопном фортране и должно требовать уйму времени и денег на переписывание, тестирование и валидацию.

devzona
25.05.2026 08:46
#30015816
Скорее всего на ARMv8.2 мастерили прототип, делать большой кластер не имеет большого смысла. А вот в ARMv9 добавили векторные инструкции, как раз, то что надо.
1. vada Автор
  25.05.2026 08:46
  #30015840
  Вполне возможно. Ну и «чего им без дела лежать?» не исключаю. Хотя, здесь, сдаётся мне, некое кумулятивное многофакторное решение.

Politura
25.05.2026 08:46
#30017416
LX2 это ARMv9, два вычислительных кристалла, 304 ядра суммарно, 8 стеков HBM по 32 ГБ непосредственно на кристалле

Прям 8 стеков по 32 ГБ каждый, то есть в сумме 256 ГБ HMB на кристалле рядом с ядрами? Тут друг интересуется, можно ему один такой, ЛЛМ-ки погонять? :)
1. kenomimi
  25.05.2026 08:46
  #30019706
  5 лет друг пусть подождет, как модули начнут списыватся - будут по сто баксов на али. Примерно как сейчас V100.

LinkToOS
25.05.2026 08:46
#30019834
Качество генерации крайне низкое. Фактический материал испорчен бессмысленными добавлениями и некорректными переделками. Добавлен информационный шум.

Сама новость интересная. Вот пример, как она подается в других источниках. https://serverflow.ru/blog/novosti/kitayskiy-superkompyuter-lineshine-na-baze-arm-cpu-lx2-dostigaet-1-54-eflops-ii-proizvoditelnosti-be/

DustCn
25.05.2026 08:46
#30028486
LX2 оснащены 32 ГБ памяти HBM с пропускной способностью до 4 ТБ/с и поддержкой до 256 ГБ внешней памяти DDR5 на один чип.

Как по мне это только звучит круто. На самом деле если там 304 ядра и если разделить 32Гб на всех, это примерно 105Мб на ядро. :-/
На самом деле плотность ядер на узел такова, что даже если взять DDR с 256Гб на 1 сокет, то выходит что на ядро выйдет менее 1Гб. С сапфиром интеловым уже наелись такого, у него был режим кэша (когда HBM L4 кэш, а DDR просто память), может и тут будет. Но латентность доступа в этом режиме не очень.

Возникает вопрос - что считать то будем? Ну ЛЛМки тренировать, но не проще было реально гпу взять, или что то тезорное? У кого есть задачи, которым нужно экзафлопс, но при этом меньше 1Гб на процесс? Напишите мне, если есть - очень интересно узнать что это. Взлом SHA, майнинг битка не предлагать, извините :)

Дальше. Количество ядер, экзафлопсы и особенности сети.
Понятно что на всем кластере никто не будет гонять одну задачу на всех узлах разом. Даже не половине. Стартап просто займет больше времени чем расчет. Но разок линпака наверно можно померять. Но вот беда, памяти там для HPL практически нет. Обычный, классический линпак он от сетки не очень зависит. И если бы всем нужен был бы только линпак кластеры строили бы на эзернете. А тут памяти мало и будет сильный дисбаланс в сетку. И кстати, что за сетка то? Ну и более, для таких монстров, актуальный вопрос - а свичи потянут? Mellanox/Nvidia на последних интерконнектах обещала вроде congestion free topology. А тут?
Вообщем вопросы-вопросы.