El Capitan, Frontier, Aurora, JUPITER Booster — четыре нынешние эксафлопсные системы из рейтинга Top500, первые строчки суперкомпьютерной табели о рангах. Все четыре используют GPU-ускорение. Это архитектурный консенсус, который формировался около десяти лет и к 2024 году стал самоочевидным: хочешь эксамасштаб — используй GPU.

На этом фоне Китай объявляет о суперкомпьютере исключительно на CPU, без единого ускорителя. Это либо достаточно нетривиальное архитектурное решение, либо красивая история про независимость и импортозамещение. Скорее всего, оба варианта одновременно. Но чтобы это понять, нужно посмотреть назад и выяснить, как GPU вообще оказался на вершине суперкомпьютинга и почему это происходило не один год. Да и вообще неплохо бы разобраться, как GPU добрался до вершины суперкомпьютинга, что в этом противостоянии осталось от CPU и почему именно Китай решил поставить на него.

Санкции, Top500 и вопросики

В 2019 году США ввели первые ограничения против Huawei. Примерно тогда же Китай прекратил подавать результаты LINPACK в рейтинг Top500. Вероятно, совпадение ?

С 2022 по 2026 год экспортный контроль последовательно расширялся: NVIDIA A100, H100, H200, AMD-ускорители — все под ограничениями. Ответ Китая — переориентация на собственные разработки: Huawei Ascend 910C — для AI, Kunpeng — для серверных задач и теперь LX2 с LineShine — для HPC.

Ли Сяоли из комитета по инновациям Шэньчжэня на апрельском совещании прямо назвал LineShine демонстрацией «полной самостоятельности и управляемости по всему стеку». Это уже политическое заявление, в которое добавлена техническая суть.

Каждая страна или даже некие пулы стран используют те технологии и возможности, которые им доступны (в сочетании с экономической целесообразностью, разумеется). В силу санкционных неурядиц Китая и невозможности использования GPU в необходимых объемах, страна выбрала свой вектор в этой сфере.

К слову, о самом рейтинге

Весь приводить я, конечно, не буду, но любопытное покажу. Данные на ноябрь 2025 года, свежее в публичном доступе пока нет:

США — 171 суперкомпьютер; 1–3-е и 5-е места в Top500 заняты их системами.
Япония — 43 суперкомпьютера; 7-е место в рейтинге.
Германия — 40 суперкомпьютеров; 4-е место в рейтинге.
Италия — 18 суперкомпьютеров; 6-е и 10-е места в рейтинге.
Швейцария — 3 суперкомпьютера; 8-е место в рейтинге.
Финляндия — 3 суперкомпьютера; 9-е место в рейтинге.

Китай — 40 суперкомпьютеров. Сорок единиц, четвертое место по количеству систем в мире и ни одного в первой десятке. Мне было бы обидно.

У России 5 суперкомпьютеров. И кто бы что ни говорил, это действительно суперкомпьютеры, и их на пять больше, чем в большинстве стран. Хотелось бы еще 120–130, но что уж поделать.

Китай заявляет о 2 EFLOPS для LineShine — и это основная цифра, вокруг которой вертится вся дискуссия о новом суперкомпьютере. Но за ней скрывается вопрос, который в суперкомпьютинге принято задавать первым: что именно измерено?

Открытый вопрос о LineShine: заявленные 2 EFLOPS — это достигнутая производительность или пиковая?

El Capitan при теоретическом пике 2,82 EFLOPS показал на независимом LINPACK 1,809 EFLOPS — разрыв около 35%. Разница не ощутима, а огромна. Если заявленные ребятами из Поднебесной 2 EFLOPS — это пиковое значение, можно ожидать 1,3 EFLOPS реальной производительности. Это немало и очень достойно, но точно не первая строка рейтинга, хотя и вторая-третья — очень круто.

LINPACK — один из международных стандартов верификации производительности суперкомпьютеров. С 1993 года именно этот тест используется для составления рейтинга Top500. Однако Китай не отправляет результаты в рейтинг с 2019 года (дело это сугубо добровольное), и для LineShine исключение, судя по всему, не сделают. Формально Китай из рейтинга не вышел, но не раскрывает своих данных. Из-за этого вся оценка может быть нарушена. Вдруг у ребят там уже пара своих аналогов El Capitan припасена?

Зачем вообще нужны суперкомпьютеры

Прежде чем переходить к чипам, флопсам и пузомеркам, стоит ответить на вопрос, который часто остается за скобками: а что делают эти машины и на кой им такая производительность?

Суперкомпьютеры используются для программ, выполняющих наиболее интенсивные вычисления. Это, например, решение математических проблем, задач физики высоких энергий, науки о Земле, вычислительной биологии и химии. В этих сферах для решения задач применяется численное моделирование, требуется большой объем сложных вычислений и обработка большого количества данных.

В отдельных случаях суперкомпьютер выполняет одну программу, использующую все доступные ресурсы.

Глобальная климатическая модель с разрешением в один километр — это дифференциальные уравнения для каждой точки на поверхности планеты, пересчитываемые тысячи раз. Взрывная динамика ядерного оружия и гиперзвуковых летательных аппаратов — задачи, для которых альтернатива вычислениям — физические испытания.

Сюда же можно добавить разработку новых материалов (включая батарейные электролиты и сверхпроводники), метеорологию с субсуточным горизонтом прогнозирования (до 12–24 часов), геологоразведку, биоинформатику, электромагнитные симуляции и в последние годы обучение и инференс очень крупных ИИ-моделей.

LineShine, судя по публикациям, метит именно в этот набор: молекулярная динамика, гидродинамика, науки о жизни, дистанционное зондирование, обучение ИИ. Это список задач, под которые проектировалась архитектура.

С назначением разобрались, но без реальной пользы, результатов работы суперкомпьютеров этот блок был бы неполным. Разберем, чем именно занимаются суперкомпьютеры из самой верхушки Top500.

El Capitan в первую очередь предназначен для задач национальной безопасности США, включая моделирование и обеспечение безопасности ядерного арсенала в условиях запрета подземных испытаний. Кроме того, он используется для исследования новых материалов, для физики высоких плотностей энергии, ядерных данных и проектирования оружейных систем.

Frontier применяется для сложных научных симуляций в климатологии, физике, астрофизике и разработке новых материалов. Он просчитывает климатические сценарии, процессы в веществе и производит фундаментальные физические расчеты.

Aurora особенно активно позиционируется как система для задач искусственного интеллекта, где она показала очень высокую производительность. Помимо ИИ, ее используют для научных расчетов в областях вроде моделирования материалов и для других вычислительно тяжелых задач.

JUPITER Booster ориентирован на климатическое моделирование, биоинформатику, астрофизику, физическое моделирование и материаловедение. Еще он должен поддерживать исследования генеративного ИИ, нейронауки, моделирование белков, а также задачи, связанные с медицинской визуализацией и автономным вождением.

Просто напомню: все это работает на GPU-ускорителях. А как так вышло, расскажу в следующем блоке.

Как GPU взял суперкомпьютинг в осаду

Довольно долго суперкомпьютер по умолчанию означал машину, построенную из очень мощных процессоров (векторных или скалярных CPU), позже — многопроцессорные и кластерные системы на серийных CPU.

В ноябре 2000 года вершину Top500 занял IBM ASCI White — 512 узлов на процессорах IBM Power3. В 2002-м его сменил NEC Earth Simulator: 35,86 TFLOPS, разрыв с ближайшим конкурентом — пятикратный. В ноябре 2004-го первое место захватил IBM BlueGene/L на процессорах PowerPC 440 и удерживал его до 2008 года, постепенно наращивая мощность до 478 TFLOPS. Все три — CPU-кластеры. GPU в то время жил в отдельном мире графики, игр, рендера.

Переломный момент произошел в 2007 году, когда NVIDIA выпустила CUDA — фреймворк, позволявший запускать на GPU произвольные вычисления, а не только графику. Идея была проста: GPU — это тысячи небольших ядер, выполняющих одну и ту же операцию одновременно над огромными массивами данных. CPU — это десятки мощных ядер с глубокой иерархией кешей, предсказателем ветвлений и сложным механизмом исполнения команд «не по порядку». Разница в архитектуре становится очевидной, когда смотришь на реальные задачи.

Умножение матриц, свертки в нейросетях, симуляция сил между частицами в молекулярной динамике — все это задачи с высокой арифметической интенсивностью и предсказуемым доступом к памяти. Один и тот же фрагмент кода применяется к миллиардам элементов независимо друг от друга. Именно для этого GPU и создан: его SIMT-модель исполнения позволяет запускать тысячи потоков одним фронтом. Например, NVIDIA H100 выполняет 60 TFLOPS FP64 — и делает это именно потому, что задача в него «укладывается».

Но значительная часть HPC-вычислений устроена иначе: решение систем разреженных линейных уравнений, алгоритмы на графах, адаптивные сетки в CFD с нерегулярной структурой — здесь каждый следующий шаг зависит от результата предыдущего, данные лежат в памяти непредсказуемо, а логика ветвится. GPU в таких задачах теряет преимущество: большинство его ядер простаивает, пока часть ждет данных из памяти. CPU с его продуманной кеш-иерархией и предсказателем переходов справляется с нерегулярным кодом принципиально лучше.

Есть и третья категория — задачи смешанного типа: климатические модели, задачи сейсморазведки, некоторые режимы молекулярной динамики. Там арифметически интенсивные ядра соседствуют с разреженными структурами данных и сложной логикой управления. Именно поэтому большинство современных топовых систем гетерогенны: GPU берёт на себя плотную математику, CPU — все остальное.

Физики, химики и инженеры быстро поняли, что многие HPC-задачи — та самая плотная матричная математика, и первые GPU-кластеры появились в лабораториях уже к 2009–2010 годам.

А в 2012-м случился AlexNet. Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон (команда SuperVision) обучили сверточную нейросеть (препринт) на двух потребительских GTX 580 с 3 ГБ памяти каждая и разгромили всех соперников в соревновании ILSVRC2012 с отрывом в 10,8 процентных пункта. После этого вопрос о том, нужны ли GPU в научных вычислениях, самоустранился.

На обучение модели у команды SuperVision ушло около шести дней. Победители прямо говорили: «Все наши эксперименты говорят о том, что результаты можно улучшить, просто дождавшись более быстрых GPU».

К 2022 году Frontier в Окриджской национальной лаборатории стал первым в истории публично верифицированным эксафлопсным суперкомпьютером — 1,206 EFLOPS Rmax по LINPACK. Его архитектура: 37 000 GPU AMD Instinct MI250X. Следом вышли Aurora, El Capitan, Eagle — все на ускорителях.

Сегодня более половины суммарной вычислительной мощности Top500 генерируется GPU и другими ускорителями. CPU в топовых системах занимается управлением, I/O и общей логикой — важными, но все же вспомогательными функциями.

Судя по всему, создатели LineShine делают ставку на то, что современный CPU с HBM-памятью, широкими векторными блоками и сотнями ядер закрывает оба класса задач достаточно хорошо, без необходимости перекладывать данные между принципиально разными архитектурами и без двух отдельных программных стеков.

Сделать это в условиях, когда доступ к передовым ускорителям закрыт, а весь мировой HPC движется в противоположную сторону, — отдельная история. Китай не стал ждать, пока отменят санкции, или искать обходные пути. Вместо этого NSCC Shenzhen за несколько лет разработал собственный процессор с HBM, собственный высокоскоростной интерконнект и собрал из этого систему, претендующую на звание мощнейшей (или одной из таковых) в мире.

Что анонсировано, только факты

Данные: HPCwire.com (в том числе ссылается на документы NSCC Shenzhen) и препринта «Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials».

Дата и место: 24 апреля 2026 года, Шэньчжэнь; главный конструктор — Лу Ютун.

Заявленная производительность: 2 EFLOPS.

Полная конфигурация: 20 480 вычислительных узлов, 47 000 процессоров LX2 (ARMv9), 92 вычислительных шкафа, 36 сетевых шкафов, хранилище — 650 ПБ, 428 узлов хранения, 67 шкафов хранения с жидкостным охлаждением и пропускной способностью 10 ТБ/с.

Стек: полностью отечественный — процессоры, интерконнект LingQi, СХД.

Фазовое развертывание: первая фаза — 100 серверов Huawei Kunpeng, 12 800 ядер, уже запущена. Вторая фаза — полная конфигурация, сроки публично не называются.

Почему CPU-only в эксамасштабе — это нетривиально

Чтобы понять, что именно сделал Китай, нужно посмотреть на характеристики вычислительного узла.

Каждый узел LineShine содержит два процессора LX2:

  • 304 + 304 = 608 ядер ARMv9 на узел;

  • 4 ТБ/с + 4 ТБ/с = 8 ТБ/с суммарной пропускной способности памяти на узел;

  • 60,3 TFLOPS FP64 на процессор = 120,6 TFLOPS FP64 на узел;

  • 120,6 TFLOPS FP32 на процессор; поддержка FP16 и INT8 через блоки SME и SVE.

Узлы соединяются через LingQi — собственную высокоскоростную сеть с топологией dual-plane multi-rail fat-tree, 1,6 Тбит/с на узел, один миллион портов на всю систему.

Нетривиальность здесь не в количестве ядер. Эксамасштаб на CPU упирается в два ограничения, которые исторически делали эту идею нежизнеспособной.

Первое — пропускная способность памяти. CPU традиционно работает с DDR-памятью: быстро для последовательного кода, но катастрофически мало для задач с высокой интенсивностью обращений к данным. GPU давно решил это через HBM прямо на кристалле. LX2 идет тем же путем — восемь стеков HBM на процессор, 4 ТБ/с — и этим закрывает главный исторический аргумент против CPU-ориентированных HPC-систем.

Второе — масштабирование интерконнекта. 20 480 узлов — это не просто много серверов. Чтобы задача, распределенная на такое количество узлов, давала устойчивый результат, задержки должны быть достаточно малы, чтобы узлы не простаивали в ожидании данных. MPI-задачи при плохом интерконнекте деградируют нелинейно: добавляешь узлы — теряешь эффективность. LingQi с миллионом портов и fat-tree-топологией — решение именно этой проблемы.

Сколько iPhone нужно для суперкомпьютера

Для масштаба: iPhone 16 Pro обеспечивает около 68 ГБ/с memory bandwidth (пропускная способность памяти). Один вычислительный узел LineShine с его 8 ТБ/с — это примерно 118 смартфонов, работающих параллельно. Умножим на 20 480 узлов: чтобы воспроизвести суммарную пропускную способность памяти системы, понадобится около 2,4 миллиона iPhone.

GPU-системы достигают эксамасштаба иначе. El Capitan использует 44 544 AMD MI300A — гибридных APU, объединяющих CPU-ядра и GPU-ускоритель в одном кристалле с HBM. Максимальная производительность достигается за счет плотного матричного параллелизма в GPU-части: именно для этого ускорители и проектируются. Результат — 1,809 EFLOPS при теоретическом пике 2,821 EFLOPS.

LX2: это не тот Kunpeng, который вы знаете

В статьях о LineShine (я прочел несколько, когда готовил этот материал) часто мелькают оба названия — LX2 и Kunpeng, и авторы нередко используют их как синонимы. Однако это неточно: речь о двух разных процессорах.

Первая фаза строится на серверах Huawei Kunpeng — коммерческом серверном чипе HiSilicon с ядрами Taishan, архитектура ARMv8.2, 64 ядра, 7-нм технология TSMC. Это известный продукт, выпущенный в 2019 году.

Вторая фаза, то есть LineShine в полной конфигурации, — совсем другое. LX2 это ARMv9, два вычислительных кристалла, 304 ядра суммарно, 8 стеков HBM по 32 ГБ непосредственно на кристалле плюс 128 ГБ DDR5 вне его. По всем признакам это тот самый безымянный «Kunpeng с HBM», следы которого еще в конце 2024 года (упоминания были даже в 2023-м) появлялись в патчах ядра Linux от инженеров HiSilicon, — только теперь с именем и в реальном применении. В публичном каталоге Huawei LX2 как самостоятельного коммерческого продукта нет: это процессор, спроектированный под конкретную задачу.

К сожалению, я не смог найти в открытых источниках хоть какую-то дополнительную информацию о фазах реализации проекта. Поэтому у меня возник каскад очевидных вопросов: почему первая фаза реализована не на LX2? Они вообще существуют? Использование Kunpeng — это временный шаг? Есть вопросы, нет ответов, увы.

Возможно, кто-то в комментариях даст новую информацию из надежного источника. Буду очень благодарен и дополню эту часть статьи.

Что сейчас можно сказать с уверенностью

Если LineShine выйдет на заявленные показатели, CPU-only в эксамасштабе перестанет быть архитектурной гипотезой. Да, это будет не лучшим вариантом для всех задач, но доказанным. Для HPC-систем, которым важна универсальность, это меняет список допустимых решений.

Параллельный сигнал важнее, чем кажется на первый взгляд. Весь стек LineShine (от кристалла до интерконнекта) — отечественный. Это не просто импортозамещение, а вполне себе прецедент: суверенная вычислительная инфраструктура строится и запускается независимо от того, что происходит с внешними ограничениями.

Но три вопроса все равно остаются открытыми. Когда именно будет развернута полная система — не говорят, аналитики называют 2029–2030 годы. Данных об энергоэффективности нет вообще. Независимой верификации производительности нет и, похоже, не предвидится.

А еще мы наблюдаем разделение мира по технологиям: оказывается, какие-то задачи вполне реально выполнять иначе, не в какой-то одной парадигме, пусть и привычной. Это Китай и демонстрирует. Что-то недоступно? Хорошо, сделаем по-другому, исходя из доступности технологий и собственных возможностей. Если выбора нет или он «так себе», — что ж, нужно качать свои технологии и решения.

В любом случае будет интересно наблюдать за развитием этой «ветки».

Комментарии (10)


  1. Andvecher
    25.05.2026 08:46

    Но зачем


    1. vada Автор
      25.05.2026 08:46

      Потому что могут? (-:


  1. thejeki
    25.05.2026 08:46

    Потому что могут


  1. BSOZ
    25.05.2026 08:46

    Насколько вообще сегодня уместно называть GPU устройство, задачи которого никак не связаны с обработкой изображений? Просто CPU с архитектурой, предполагающей высокую параллельность и скорость вычислений за счёт примитивизации и всяческих инструкций для перемножения матриц за один такт. Я бы рассматривал это уже как отдельную архитектуру CPU. GPU не предназначается для майнинга криптовалют, ИИ и прочих задач. Пусть фактически это и одно устройство.


    1. ciuafm
      25.05.2026 08:46

      Потому что современный GPU не вписывается в стандартную классификацию single instruction multi data (SIMD), а писать "MSIMD with HBM compatible with CUDA" долго, вот и пишут GPU - всем понятно о чем речь.


    1. WASD1
      25.05.2026 08:46

      Я бы рассматривал это уже как отдельную архитектуру CPU.

      Она и есть отдельная и называется GP GPU.
      Просто в последнее "GP" люди писать стесняются.


  1. unreal_undead2
    25.05.2026 08:46

    создатели LineShine делают ставку на то, что современный CPU с HBM-памятью, широкими векторными блоками и сотнями ядер закрывает оба класса задач достаточно хорошо

    В принципе старичок Fugaku на ARM без акселераторов до сих пор держится в десятке Top 500 (и в первой сотне есть ещё несколько машин на том же A64FX), так что ничего уникального в этом нет, хотя и нетипично.


  1. devzona
    25.05.2026 08:46

    Скорее всего на ARMv8.2 мастерили прототип, делать большой кластер не имеет большого смысла. А вот в ARMv9 добавили векторные инструкции, как раз, то что надо.


    1. vada Автор
      25.05.2026 08:46

      Вполне возможно. Ну и «чего им без дела лежать?» не исключаю. Хотя, здесь, сдаётся мне, некое кумулятивное многофакторное решение.


  1. Politura
    25.05.2026 08:46

    LX2 это ARMv9, два вычислительных кристалла, 304 ядра суммарно, 8 стеков HBM по 32 ГБ непосредственно на кристалле

    Прям 8 стеков по 32 ГБ каждый, то есть в сумме 256 ГБ HMB на кристалле рядом с ядрами? Тут друг интересуется, можно ему один такой, ЛЛМ-ки погонять? :)