Привет, постоянные и не очень читатели!

Пора вернуться к моим любимым архитектурам, процессорам, техпроцессам и всему причастному. Это седьмой и САМЫЙ масштабный материал из цикла (и, вероятно, во всём Рунете) про китайские ISA, микроархитектуры и микроэлектронику.

Что было раньше:

  • Part IСкандальное разоблачение x86: ARM врывается с двух ног (58K, +61, 160 комментариев)

  • Part II: Этой индустрии нужен новый герой: ARM врывается с двух ног

  • Part IIIКитайский киднэппинг: похищение дочки

  • Part IVRISC‑V — звезда родилась: x86 не у дел, ARM сломала две ноги (67K, +64, 207 комментариев)

  • Part VСмерть GPU/CPU на транзисторах — архитектура квантовых компьютеров

  • Part VIУ VLIW длиннее x86: Itanium в шаге от величества, Эльбрус — подержите моё пиво, тайны PS2

  • Part VII: Как китайцы убили x86, ARM и создали своё — детектив Восточном экспрессе ← ВЫ ЗДЕСЬ

  • Part VIII — ██████████████.

В этом лонгриде я расскажу вам всё о серверных процессорах из Поднебесной на всех ключевых архитектурах: ARM (Huawei), x86 (Zhaoxin), RISC-V (T-Head) и LoongArch (Loongson). Будет и про строящиеся мегафабрики Huawei, и про создание независимой ISA (как наш Эльбрус, но с конкурентными продуктами и производством), и про китайские лицензированные x86-процессоры, и про многое другое.

Бонусом в каждом разделе распишу интересные факты про иероглифы в названиях компаний и их продуктах (символизм в китайской культуре). Например, вы узнаете, как компания Медоед куёт свои процесс��ры из легендарной стали (образно), чтобы бесстрашно сражаться с западными техногигантами (буквально). И это не шутка, а оммаж на мемы про медоедов.

Дамы и господа — Восточный экспресс готов к посадке. Пожалуйста, позвольте стюарду проводить вас к личному купе.

Восточный экспресс отходит от перрона — мы начинаем путь

Когда поезд тронулся, я понял, что пассажиры — та ещё компания.

Все собрались в вагоне-ресторане. У бара стояли двое: американец, потомок древнего рода x86, громко спорил с аристократом средних лет из британской семьи ARM. Первый пил бурбон, второй — скотч, будто нарочно, и, кажется, окружающие их абсолютно не волновали. В одиночестве за соседним столом сидел молодой и амбициозный идеалист из семьи RISC-V — он слушал стариков, щурясь в окно, но в диалог не вступал. А чуть подальше шумела большая компания китайцев — они пили байцзю из маленьких фарфоровых стопок и болтали на китайском, иногда выкрикивая «Ганьбэй!». Видимо, отмечали что-то.

Техническая ремарка! После художественного вступления будет много технических моментов, поэтому надо заранее кое-что разобрать на примере x86.

Есть архитектуры набора команд, они же ISA (instruction set architecture). Например, x86x86-64 (AMD64)IA-32Intel 64 — по сути, поколения одной и той же эволюции CISC, с добавлением 64-битности и новых режимов ра��оты.

Также есть микроархитектуры — конкретные реализации процессорных ядер. Примеры: NehalemSandy BridgeHaswellZenZen 3Alder Lake. У каждой — свои механизмы предсказания ветвлений, кеширование, ширина конвейера, глубина очередей, размер буферов и способы исполнения CISC-инструкций через микрооперации (µops).

Ещё есть наборы инструкций — то, с чем напрямую работает компилятор. Помимо базового x86, сюда входят: x87 (FPU)MMXSSE / SSE2 / SSE3 / SSE4AVX / AVX2 / AVX-512BMI1/2FMASHATSX и так далее. Каждое поколение добавляет новые команды, чаще всего — для векторных вычислений, шифрования и параллельных операций.

И расширения — не просто инструкции, а функциональные блоки, например, VT-x (виртуализация), TXT (защита доверенной среды), AMX (матричные вычисления). Эти модули не меняют ISA, но добавляют аппаратные возможности, которые ОС и гипервизоры видят как отдельные фичи CPU.

Ну и, конечно, разрядность (иногда говорят битность):

16-битные процессоры (например, Intel 8086) оперировали числами до 2¹⁶ и адресовали до 1 МБ памяти. Правда, делали это хитро — через сегментную адресацию.32-битные (процессор Intel 80386 и далее) впервые получили полноценное плоское 32-битное адресное пространство, то есть до 4 ГБ памяти без сегментных ухищрений. Это стало стандартом почти на два десятилетия.64-битные (например, x86-64, процессор Itanium на IA-64) теоретически позволяют адресовать до 16 эксабайт памяти (2⁶⁴ байт) — этого достаточно для любых современных задач, но на практике используют 48 бит (256 терабайтов). Почти все современные процессоры сейчас 64-битные.

Продолжаем.

С x86ARM и RISC-V я хорошо знаком — мы старые друзья. Между собой они ладят не очень, но со мной общий язык нашли. А вот с китайцами я успел лишь обменяться парой фраз при посадке. С ними-то я и собирался познакомиться поближе.

Итак, цель нашего путешествия — изучить, как Китай выстраивает альтернативную экосистему процессорных архитектур. Пока на западе всё вертится вокруг x86, ARM и частично RISC-V, Китай делает ставку на многоархитектурность и технологический суверенитет (свои спецы, фабрики, литография, сырье, цепочки поставок, рынки сбыта).

Пора узнать пассажиров из Китая поближе: их мотивы, что празднуют и смогут ли потеснить x86 и ARM.

Скажу ещё вот что — Восточный экспресс отправлялся в будущее, но не все пассажиры доберутся до конечной.

Столик с китайцами: знакомство с Loongson, Kunpeng, Phytium, T-Head и разговоры о стратегии

Вагон-ресторан гудит. Я поздоровался с китайцами — они жестом пригласили меня к себе. На их столе уже несколько пустых бутылок Маотая, блокноты, распечатки спецификаций ISA. Они перешли на понятный мне язык, мы познакомились и начали разговор о том, кто возглавит технологический суверенитет Китая.

  • Первого пассажира звали Лун-си́нь (龙芯 — Loongson);

  • Второго — Хуа-вэ́й Кунь-пэ́н (华为 — Huawei; 鲲鹏 — Kunpeng);

  • Третьего — Чжа́о-синь (兆芯 — Zhaoxin);

  • Ещё одного — Пин-то́у-гэ (平头哥— T-Head);

  • И, наконец, последнего — Чжун-си́нь Го-цзи́ (中芯国际 — SMIC, Semiconductor Manufacturing International Corporation), который молча изучал меня.

Я спросил их, какой ценой они пойдут к цели?

Мне намекнули, что пассажиры x86 и ARM слишком высокого мнения о себе: их решения давно разобрали по винтикам, скопировали, улучшили — и при этом сохранили совместимость. Мол, старики держатся только на патентах и поддержке США. А у того юнца, RISC-V, отличный ум, но все знают его незапатентованные технологии и копируют бизнес-модель.

Потом — тихо и не очень-то уверенно — они заговорили о тайваньских заводах, которые хотят вернуть в родную гавань.

В конце мы обсудили лучших инженеров, разработчиков и литографов со всего мира, которых переманивает огромными деньгами в Китай — и правительство охотно помогает в этом деле.

В разговоре я лучше понял их глобальную экономическую стратегию (Made in China 2025) относительно микроэлектроники: лицензированные технологии (для быстрого импортозамещения и выхода на рынок), проприетарные (для независимости) и открытые (для инноваций). Такой подход снижает риски с санкциями и экспортным контролем США. Kunpeng — на зрелом ARM для серверов (хорошая совместимость с софтом) и ЦОДов; Loongson — проприетарные решения (своя ISA, перешли с MIPS на LoonArch) для госсектора и национальных интересов; T-Head XuanTie — на RISC-V (то есть без роялти) для будущего (AIoT, облака). Zhaoxin — x86-совместимые, но независимые решения для госсектора и консьюмерского рынка.

Как сказал бы Пуаро: «Мсье, это был коллективный заговор. Они сделали это вместе, тихо и по расписанию. Виноваты все, но каждый по-своему».

А теперь я опишу модус операнди каждого пассажира.

Купе № 1 — Loongson: потомок рода MIPS, который сбежал от отца и создал свою ISA LoongArch

Пассажир первого купе — чинный, молодой, с упрямым взглядом. В его речи едва уловимый акцент MIPS, но во фразах — новые, современные слова, и он явно следит за обстановкой в мире.

Это Loongson. Изначально (в 2001 году) исследовательский проект назвали Godson — детище Института вычислительной техники (Institute of Computing Technology, ICT) при Китайской академии наук (Chinese Academy of Sciences, CAS). И, конечно, при поддержке государства.

Интересный факт!

В слове Лунгсон (龙芯) иероглиф Лун (龙) означает дракона. Считается одним из самых сакральных символов в китайской культуре. Например, императора называли Чжэнь Лун Тянь Цзы (真龙天子) — Истинный Сын Неба в облике дракона. Восточный дракон — существо благородное, мудрое, приносящее дождь и урожай, а не зло и смерть, как в западной культуре.

Иероглиф Синь (芯) состоит из двух частей: 艹 (трава/растение) и 心 — (изначально сердцевина тростника или фитиль лампы). В современном языке им часто обозначают чипы, микросхемы, вычислительные ядра, то есть сердце любого электронного устройства. Это идеальный иероглиф для микроэлектроники.

Английское слово Godson (крестник) выбрали исключительно из-за фонетического сходства, некая калька с произношения (Лунгсон → Годсон), которая оказалось неудачной для торговой марки, особенно если учитывать госфинансирование. Вместо могучего «Дракона» получился «Крестник» — зависимый, подчиненный статус. Тем более, что Китай официально атеистическая страна, христиан там около 5%.

Первый чип, Godson-1 (32-битный с частотой 200 МГц), был скорее MIPS-подобным процессором — не хватало 4-х инструкций, но в остальном очень близок к MIPS III. Из-за этого, кстати, разработчикам пришлось модифицировать компилятор, чтобы обойти отсутствующие инструкции и запустить Linux. После лицензирования следующие модели уже можно было назвать MIPS и MIPS-совместимыми.

Godson-1 стал первым в Китае процессором общего назначения с полными правами интеллектуальной собственности.
Godson-1 стал первым в Китае процессором общего назначения с полными правами интеллектуальной собственности.

Следом, в 2003, 2004 и 2006 годах вышло семейство 64-битных чипов Godson-2 на архитектуре MIPS64 (Godson-2B с тактовой частотой 250 МГц, Godson-2C с тактовой частотой 450 МГц и Godson-2E с тактовой частотой 1 ГГц). Одноядерный Godson-2E — первый полностью китайский чип с частотой 1 ГГц. Его производительности уже хватало для нетбуков и недорогих ПК, плюс появился встроенный северный мост и контроллер памяти DDR1.

Дальше шла эволюция от CPU до SoC: Godson-2F, Godson-2G, Godson-2H.

Семейство Godson-3 вышло в 2010 году — это многоядерные высокопроизводительные процессоры для ПК, серверов и встраиваемых решений. Там появилась межъядерная шина Network-on-Chip (NoC), иерархия кэшей, суперскалярный конвейер, контроллеры DDR2/3, интерфейсы ввода-вывода и многое другое. Там было два кристалла на одном модуле — да, это MCM (multi-chip module).

Четырёхъядерный Godson 3, позже вышли версии на 8 и 16 ядер.
Четырёхъядерный Godson 3, позже вышли версии на 8 и 16 ядер.

Китайцы сделали большой шаг к устранению зависимости от иностранных архитектур: относительно эффективная эмуляция x86 (а значит за лицензии платить не надо) и разработка собственных ядер.

Где-то здесь и начался полноценный переход к бренду Loongson. Название Godson оставили для исследовательской линии Китайской академии наук, а Loongson стал товарным брендом для рынка. Чтобы коммерциализировать MIPS-совместимые разработки (Godson 2, Godson 3), в 2008 году основали отдельную организацию Loongson Technology Co., Ltd. (龙芯中科技术股份有限公司 — для знающих китайский; интересно, что прямой перевод — Godson Zhongke Technology Co., Ltd).

Так как своих фабрик у компании нет, то на ранних этапах (2000-2010 гг.) чипы производили на мощностях швейцарско-итальянской компании STMicroelectronics. Но китайские фабрики активно развивались (ужесточился и экспортный контроль), а потому производство в итоге перенесли на заводы SMIC и другие китайские фабрики с техпроцессами 12 нм и 7 нм.

Коммерческие процессоры Loongson до 2020 года оставались MIPS-совместимыми. Руководство проекта и Китая (который вкладывал ресурсы) понимали и другие риски: зависимость от MIPS, давление со стороны США и запреты на поставку процессоров Intel и AMD для суперкомпьютеров и т.д.

Путь к технологическому суверенитету был стратегическим — его начали задолго до настоящего противостояния со Штатами.

Loongson 2F от STMicroelectronics в ноутбуке Gdium.
Loongson 2F от STMicroelectronics в ноутбуке Gdium.

В течение большей части 2010-х годов китайцы активно разрабатывали проприетарную архитектуру, которую анонсировали в 2020 году.

Так появилась LoongArch — новая RISC‑подобная архитектура с собственным набором команд, без лицензий MIPS. Она унаследовала дух классического RISC — простые, фиксированные инструкции, минимализм в декодировании и эффективность. В LoongArch есть три версии: 32-битные LA32R и LA32S и 64-битная LA64.

Система привилегий разделена на четыре уровня — от PLV0 (ядро) до PLV3 (пользователь), как в современных процессорных архитектурах. Набор регистров предельно прямолинеен: 32 общих, 32 для чисел с плавающей точкой, плюс векторные расширения LSX и LASX, отвечающие за 128 и 256-битные операции. Инструкции с фиксированной длиной (32 бита) укладываются в девять форматов — от простых арифметических до ветвлений и атомарных операций.

Поддерживаются два режима виртуальной памяти (это как спорткар и внедорожник у вас в гараже):

  • Прямое отображение (внедорожник) — через DMW (Direct Map Window, оно же окно прямого отображения) — это выделенный диапазон виртуальных адресов, которые напрямую отображаются на физические адреса по фиксированному алгоритму (например, виртуальный адрес + смещение = физический адрес);

  • Страничное отображение (спорткар) — через TLB (Translation Lookaside Buffer, он же Буфер ассоциативной трансляции), по сути очень быстрый, но небольшой аппаратный кэш для соответствий между виртуальными и физическими адресами.

Всё это делает фундамент архитектуры гибким для разных задач — от встраиваемых систем и ПК до серверов.

Сама Loongson Technology заявляет о 4 принципах новой ISA:

  • Современность (Modernity): Заточена под сегодняшние стандарты — быстрая и экономичная по своей природе.

  • Совместимость (Compatibility): Может работать с командами архитектур x86, ARM и других — эффективная бинарная трансляция.

  • Модульность (Configurability): Есть обязательная база (Loongson Base), а всё остальное — опции. Нужны векторные инструкции или виртуализация? Просто добавим модуль.

  • Масштабируемость (Extensibility): Обширное пространство для кодирования инструкций зарезервировано — всегда будет куда расти и что улучшать.

Процессоры на архитектуре LoongArch поддерживают Linux: Loongnix (на базе CentOS) и LoongOS (собственный дистрибутив Loongson) и компиляторы под LoongArch. На этой платформе уже работают GCC, LLVM, Go и даже JVM и .NET. GCC и LLVM полностью оптимизированы под LoongArch (с обновлениями на GitHub). Go и Rust компилируются нативно, а JVM (OpenJDK) и .NET (Mono/.NET Core) поддерживают запуск через эмуляцию или перекомпиляцию. Для гипервизоров (KVM, Xen, OpenStack) поддержка LoongArch пока экспериментальная, особенно в части PCI passthrough и NUMA-топологий.

При этом сохраняется частичная бинарная совместимость с кодом для MIPS благодаря близости ISA — огромное количество легаси-приложений запускается без перекомпиляции, что архиважно при миграции из старых систем.

С производительностью тоже интересно. Если поначалу четырёхъядерный Loongson 3A5000 (2021 год, 12 нм, 2,3–2,5 ГГц, ядро GS464V с двумя 256‑битными векторными блоками) в реальных тестах звёзд с неба не хватал (примерный уровень Core i7 4700 HQ), то к 2025-му линейка ушла далеко вперёд.

Среди самых производительных — серверный Loongson 3C6000. Один кристалл имеет 16 вычислительных ядер LA664 (7 нм, до 2,2 ГГц) и 32 потока через технологию Simultaneous Multithreading (SMT). 3C6000 изготавливают в трёх вариантах: S (Single, 16 ядер)D (Dual, 32 ядра) и Q (Quad, 64 ядра). Чипы соединяются напрямую на уровне платы через проприетарную шину LoongLink, что позволяет масштабировать конфигурацию до 256 логических ядер и обеспечивает когерентность на уровне NUMA. Он конкурирует с Intel Xeon Silver 4314 (16 ядер и 32 потока, 7 нм, до 3,4 ГГц в турбо) в многопоточных задачах, вроде SPEC CPU 2017 (до 2,5x выше 3A5000), а LS3D6000 на 32 ядра мощнее Intel Xeon Gold 6338 с таким же количеством ядер. Подходит для ЦОДов с фокусом на HPC.

А вот так выглядит (ниже на фото) первый, цитата: «на 100 % локализованный», двухпроцессорный сервер с собственной шиной для межпроцессорного взаимодействия Loongson Coherent Link (судя по названию — с когерентной памятью).

На саммите Loongson в июне компания продемонстрировала кластеры на 3C6000, работающие под LoongOS с нативным Kubernetes и TensorFlow.

Для удобства под катом вы можете посмотреть на таблицу по моделям семейства Loongson с годами, уровнями, архитектурой и ключевыми характеристиками.

Год

Модель

Ядра / Потоки

Архитектура / набор инструкций

Техпроцесс / частота

Примечание

2014-2016

3A2000 / 3B2000

2 ядра / 2 потока

MIPS64 Release 2 (лицензированный)

40 нм / 1.0 – 1.2 ГГц

Переходный этап от Godson-3. Одно из ранних массовых поколений процессоров Loongson.

2016–2019

3A3000 / 3B3000

4 ядра / 4 потока

MIPS64 R2 (Микроархитектура GS464E) + LoongEXT

40 нм / 1.35 ГГц - 1.5 ГГц

Указана поддержка когерентности на уровне каталога (Directory-based coherency) для многопроцессорных конфигураций.

2019

3A4000 / 3B4000

4 ядра

MIPS64 (микроархитектура GS464V)

28 нм / частота 1,8–2,0 ГГц

Последние модели до полного перехода.

2021

3A5000 / B5000

4 ядра (могут быть и многопроцессорные версии)

LoongArch (LA464V)

12 нм / 2.3-2.5 ГГц

Первый полноценный шаг с собственной ISA.

2023

3A6000

4 ядра / 8 потоков

LoongArch (LA664)

12 нм / 2,0–2.5 ГГц

Сопоставим с производительностью четырехъядерного процессора Intel core 10-го поколения, выпущенного в 2020 году.

2025

3C6000

16 (S), 32 (D), 64 (Q)

LoongArch (LA664)

7 нм / 2,0–2,2 ГГц

 

Серверная линейка, мультичиплеты.

Китайцы создали не просто копию MIPS, а фактически реинкарнацию чистого RISC под собственным флагом, со своими компиляторами и интерфейсом бинарного взаимодействия (ABI, Application Binary Interface).

В отличие от RISC-V, открытого и модульного, LoongArch — прагматичный и замкнутый продукт. Архитектура нужна для технологического суверенитета Китая — без лицензий и зависимости от других.

Переходим к следующему пассажиру.

Купе № 2 — Huawei Kunpeng: дворянин с родословной ARM

На багаже следующего пассажира — подпись Huawei Kunpeng. В руках у него книга HiSilicon. Он говорит кратко, технично, по делу — видно, что это бизнесмен с опытом. На вопрос о родословной отвечает — ARMv8.2-A, но все связи с семьёй разорвал несколько лет назад после ссоры.

Проект Kunpeng стартовал ещё в 2012–2013 годах как стратегическая инициатива Huawei (подразделение HiSilicon) для снижения зависимости от западных процессоров и расширения влияния на рынке серверных решений. Китайский гигант решил не изобретать архитектуру с нуля, а использовать проверенную ARM, лицензируя её и развивая под свои задачи.

Интересный факт! 

Название Kunpeng (鲲鹏, Куньпэн) — это аллюзия на мифологическую китайскую птицу, способную трансформироваться из рыбы. Происходит из древнего даосского трактата «Чжуан-цзы» (IV век до н.э.).

Иероглиф Кунь (鲲) — это гигантская неведомая рыба, длиной в несколько тысяч ли (китайских миль — около трети английской мили, сегодня — 500 метров), обитающая в глубинах Северного океана.

Иероглиф Пэн (鹏) — это колоссальная птица (колосс), которая может парить в небесах на высоте тысяч ли, её крылья подобны облакам в небе.

Да, китайцы любят символизм и ценят своё богатое культурное наследие.

Kunpeng построен на лицензированной ISA, а не на собственной архитектуре Huawei, но сверху много надстроек (подобно тому, как Apple развивает свои чипы серии M или Amazon свои Graviton) — это не стандартные Cortex-ядра.

Huawei продолжила развивать свою микроархитектуру TaiShan в версии V110, добавила расширения для работы с ИИ и оптимизации для серверных нагрузок.

Появилась поддержка AVX-подобных SIMD-инструкций через расширение набора команд NEON, аппаратная виртуализация и шина Hydra (проприетарный когерентный интерконнект) для мультчиплетного дизайна, чтобы эффективно масштабироваться до сотен ядер, а также интеграция с Ascend (AI-чипами Huawei) для ИИ-нагрузок.

Серия Kunpeng 920 дебютировала в 2019 году. На момент выхода Huawei называла их мощнейшими ARM-процессорами в мире. Всего есть пять модификаций: самая простая — 24 ядра; две по 32 ядра, одна на 48 и флагман на 64 ядра. Частота 2,6-3,0 ГГц, 8 каналов DDR4, PCIe 4.0, TDP 120-195 Вт, техпроцесс 7 нм от TSMC (изначально). Использует серверную шину CCIX для межпроцессорного взаимодействия. CCIX — это, по сути, расширение внутренней кэш-когерентной структуры на внешний интерфейс, которое позволяет открытой платформе работать с широким спектром внешних ускорителей.

Много про Kunpeng 920 писать я не буду, на Хабре уже давно всё есть, скажу кратко — это серверный чип с отличной энергоэффективностью и высокой производительностью для вычислительных кластеров, HPC и ЦОДов.

Куда важнее — экосистема вокруг него. Во-первых, Huawei многое переработала: собственные контроллеры памяти, фирменные высокоскоростные шины, и даже межпроцессорный интерконнект Hydra для многосокетных серверов.

Для работы есть собственные дистрибутивы EulerOS/openEuler (Huawei выпускала Linux для Kunpeng), платформа Huawei Cloud и семейство серверов TaiShan. Совместимость с различными CentOS, Debian и Ubuntu тоже на месте.

Но как вы помните, США в 2019 году ввели против Huawei жесточайшие санкции из-за угрозы национальной безопасности, которые ограничили развитие Kunpeng (и многих других решений компании). Kunpeng 930 в итоге заморозили (возможно, переименовали).

Так выглядит Kunpeng 930 по слухам.
Так выглядит Kunpeng 930 по слухам.

Тут самое интересное. Чтобы развивать серию дальше, нужен доступ к новой архитектуре ARM и заводы с современными техпроцессами. И, видимо, у Huawei получилось как-то устроить и то, и другое. Про архитектуру у меня есть отдельный материал на Хабре: «Китайский киднеппинг: величайшее хищение дочки».

Кратко из той статьи — китайцы смогли забрать себе все наработки ARM до уровня CPU Cortex-A77. Все IP достались компании Anmou Technologies, которая продолжила делать свои NPU и прочее, но сейчас про неё почти ничего не слышно. Вполне вероятно, что Huawei получила доступ к интеллектуальной собственности и теперь развивает ядра на её базе. Но это лишь мои предположения. Также ходят слухи, что Huawei таки купила бессрочную лицензию на ARMv9, но официальных подтверждений нет.

Huawei Connect 2025 (Шанхай, сентябрь 2025) Xu Zhijun (Эрик Сю) заявил, что новая линейка Kunpeng 950 выйдет в 2026 в двух вариантах: 96-ядерный (192 потока) и 192-ядерный (384 потока). Kunpeng 960 выйдет в первом квартале 2028 и будет вариант на 256 ядер / 512 потоков.
Huawei Connect 2025 (Шанхай, сентябрь 2025) Xu Zhijun (Эрик Сю) заявил, что новая линейка Kunpeng 950 выйдет в 2026 в двух вариантах: 96-ядерный (192 потока) и 192-ядерный (384 потока). Kunpeng 960 выйдет в первом квартале 2028 и будет вариант на 256 ядер / 512 потоков.

Насчёт производства. Вероятнее всего, 920 линейку сейчас производят на мощностях Semiconductor Manufacturing International Corporation (SMIC), которая ещё в 2022 наладила производство по 7 нм техпроцессу. При этом параллельно Huawei активно хантит бывших инженеров ASML, чтобы создать собственные литографические системы, и возводит гигантскую мегафабрику в Шэньчжэне для производства чипов на более современных техпроцессах (планируется переход на 5-нм), включая потребительские Kirin для смартфонов компании и ускорители Ascend для серверов и ИИ-нагрузок.

Строительство мегафабрики в районе Шэньчжэня. Слева — 2022 год, справа — май 2025 года.
Строительство мегафабрики в районе Шэньчжэня. Слева — 2022 год, справа — май 2025 года.

Не удивлюсь, если введение фабрики в эксплуатацию примерно совпадёт с четвёртым кварталом 2026 года (когда выйдут Kunpeng 950) или чуть раньше. По самим же чипам 950 и 960 пока ничего не известно: техпроцесс, архитектура, микроархитектура, частоты, кэши, поддержка памяти, есть ли инженерные образцы (должны быть) и прочее.

Будем ждать, но, вероятно, Huawei создаёт что-то новое на базе тех технологий, что лицензировала, разойдясь с ARM в другую ветвь эволюции. Но ещё больше меня удивит, если новые чипы выйдут на каком-нибудь RISC-V — инфраструктура, экосистема, компетенции и деньги позволяют.

Третий пассажир заждался, идём к нему.

Купе № 3 — Zhaoxin: бастард x86 с тайваньскими корнями, который живёт в тени великих

Тот самый чемоданчик из Криминального чтива.
Тот самый чемоданчик из Криминального чтива.

Третий пассажир оказался потомком династии VIA, законным носителем тайн x86. Он не кричал о себе — тихо и спокойно ехал первым классом в Восточном экспрессе. В речи — знакомые интонации x86, но с сильным китайским акцентом.

Начнём с VIA Technologies (Very Innovative Architecture) — тайваньской компании, которая в конце 90-х унаследовала x86-лицензию от старых сделок по поглощению Cyrix и Centaur. Славы гигантов она так и не снискала, но её процессоры и платы вполне продавались, в том числе и у нас: в середине 2000-х я держал в руках несколько таких компьютеров — под Windows XP они работали бодро, несмотря на скромные характеристики. Кстати, именно VIA в своё время активно продвигала интерфейс PCI вместо устаревающего ISA (не архитектура, а интерконнект).

Zhaoxin появился в 2013 году как совместное предприятие VIA и Shanghai Zhaoxin Semiconductor Co., Ltd. при поддержке правительства Шанхая. Проект создали для разработки отечественных x86-совместимых процессоров, чтобы не зависеть от западных компаний и политики.

ВАЖНО! Zhaoxin — единственный в мире производитель, который законно выпускает x86-совместимые процессоры вне США.

Интересный факт!

В названии Zhaoxin (кит. 兆芯, Чжаосинь) иероглиф Чжао (兆) означает либо числительное «триллион», либо «знак» или «предзнаменование».

Иероглиф Синь (芯) переводится как «сердцевина» или «ядро» Буквальный перевод получится «Триллион ядер», но зная символизм китайцев, можно придумать ещё много символических смыслов про масштабы, амбиции, глубину и т.п.

Первые шаги были скромными. В 2014–2015 годах вышли серии ZX-A и ZX-B — это были слегка переработанные дизайны от VIA Nano X2 C4350AL (ядро VIA Isaiah), 40-нм процессоры с 1–4 ядрами, частотами 533-1066 МГц для встраиваемых систем и ноутбуков; производительность на уровне Intel Atom или старых Pentium.

Сначала Zhaoxin сфокусировалась на полной совместимости с x86-64, включая SSE4.2 и AVX от Intel, чтобы нативно запускать Windows и Linux. В 2015-2016 годах вышел ZX-C и ZX-C+ — четырёхъядерные чипы на 28 нм (2 ГГц) с интегрированной в чипсет графикой (на основе VIA QuadCore-E и Eden X4), который тянул все офисные задачи и несложные мультимедиа нагрузки.

Настоящий прорыв Zhaoxin сделала в 2017 году с серией KaiXian KX-5000 (иногда встречается название ZX-D). Это были первые полноценные x86-процессоры Zhaoxin на собственной микроархитектуре WuDaoKou, 28 нм от HLMC и SMIC, до 8 ядер, частоты 1,8–2,0 ГГц, поддержка DDR4, PCIe 3.0 и встроенная в чипсет графика. Производительность примерно на уровне Intel Haswell (Core i3/i5 4-го поколения). Они шли в ПК, ноутбуки и серверы (KH-20000). Китай начал их внедрять в госучреждениях.

В 2019 году вышла KX-6000 на новой микроархитектуре LuJiaZui — переход на 16 нм (TSMC), до 8 ядер, частоты от 2.0 до 3,0 ГГц, улучшенный кэш, графика прямо в чипе (не на чипсете). Это уже уровень Intel Skylake (2015 год) с TDP до 95 Вт. Серверный вариант KH-30000 с 16 ядрами в двухсокетной конфигурации. Здесь Zhaoxin начала добавлять свои расширения: аппаратную виртуализацию VMX (совместимую с Intel VT-X). Работает также и с китайской отечественной ОС Unity (UOS). Из минусов: всё это дело распаивается на материнской плате, также нет многопоточности.

И вот тут НЕОЖИДАННО приходят санкции США. В 2020 году VIA попала под ограничения, и Zhaoxin пришлось переориентироваться на китайские фабрики (привет, SMIC).

Компания продолжила развитие, в 2023 году вышла флагманский KX-7000 — 7 нм (от SMIC), 8 ядер/8 потоков, частоты 3,2–3,7 ГГц, интегрированная графика на базе DX12, поддержка DDR5/LPDDR5, PCIe 4.0. Микроархитектура Century Avenue (по названию шанхайской улицы) — суперскалярная, с предсказанием ветвлений, большим кэшем (до 32 МБ L3).

Сокет — LGA 1700, вам не показалось.
Сокет — LGA 1700, вам не показалось.

Тесты показывают, что в Geekbench KX-7000/8 набирает около 823/3813 баллов (single/multi), что слабее современных Intel Core или Ryzen (уровень Ryzen 5 5600G и Core i3-8100), но достаточно для офисных ПК и серверов. Серверная линейка KH-40000 получила до 32 ядер в чиплет-дизайне и с когерентной шиной для многосокетных систем.

А в 2025 году Zhaoxin на World Artificial Intelligence Conference (WAIC 2025) в Шанхае представила KX-7000N — обновлённую KX-7000 с интегрированным NPU (Neural Processing Unit) для оффлайн ИИ-задач, вроде распознавания изображений или голоса, с производительностью до 10 TOPS. Это ответ на тренд AI PC от Intel и AMD.

Серверный Kaisheng KH-50000 получил чиплет-дизайн до 96 ядер (LAKE архитектура), 192 потоков через SMT, от 2,2 до 3,0 ГГц, до 384 МБ кэш L3, 12-канальная DDR5 5200 до 3 ТБ (6 ТБ на два ЦПУ), 128 линиями PCIe 5.0, CXL 2.0 и TDP 300–500 Вт. Техпроцесс 7 нм от SMIC.

Варианты: 16, 32, 48, 64 и 96 ядер, с возможностью масштабирования до 192 ядер в двухсокетных системах. По заявлениям, конкурирует с AMD EPYC Genoa (Zen 4) в HPC и ЦОДах, особенно в энергоэффективности. Снимки матрицы показывают 12 вычислительных чиплетов, плюс центральный кристалл ввода-вывода — явное подражание AMD I/O-die, но с китайскими оптимизациями для ИИ (интеграция с локальными NPU).

ISA от Zhaoxin — это чистый x86-64 с расширениями, но микроархитектура своя, с фокусом на безопасность (аппаратное шифрование, защита от Spectre/Meltdown) и совместимость. Поддержка виртуализации позволяет эмулировать ARM или RISC-V, но основа — бинарная совместимость с Intel/AMD, чтобы использовать софт без перекомпиляции. Экосистема тоже отличная: ОС Unity Operating System (UOS, на базе Deepin), Kirin OS, плюс нативные порты GCC, LLVM, OpenJDK. Работают Kubernetes, TensorFlow и даже Windows 11 (с драйверами). Производство — на SMIC, чтобы обойти санкции; компания инвестирует в R&D (исследования и разработка), хантит инженеров из TSMC и Intel.

Несмотря на отставание от Intel и AMD, Zhaoxin закрывает огромный пласт рынка и задач. Китай использует их в госсекторе, банках и телекоме. Будущее? Планы на KH-60000 в 2027–2028 с 128+ ядрами на 5 нм. Думаю, что США будут душить компанию и дальше. Да, Zhaoxin — это не революция, а отдельная ветвь эволюции x86 под флагом компартии. Зато своё, независимое, и главное — работает.

Переходим к следующему пассажиру. Купе № 4.

Купе № 4 — T-Head Xuantie: идеалист и бунтарь из рода RISC-V

Следующий пассажир — молод, но амбициозен. Он сидит с лёгкой улыбкой, в руках — схема процессора, взгляд уверенный. Его зовут Сюа́нь-те (玄铁 — Xuantie), он выходец из дома Alibaba Group, но носит фамилию T-Head (平头哥). В разговорах у него нет отголосков старых архитектур x86 или ARM — он явно подражает во всём моему другу RISC‑V.

Проект начинался как стратегический шаг Alibaba по созданию собственных процессоров, не зависящих от западных лицензий.

Мем из китайских интернетов: 工作 (гунцзуо) — «работа»; 我 (во) — «я». Из-за репутации медоеда компанию и назвали T-Head.
Мем из китайских интернетов: 工作 (гунцзуо) — «работа»; 我 (во) — «я». Из-за репутации медоеда компанию и назвали T-Head.

T-Head Semiconductor Co., Ltd — дочерняя компания Alibaba Group, основанная 19 сентября 2018 года. Она появилась после объединения компании C-SKY Microsystems (купленной Alibaba) и собственной исследовательской команды DAMO Academy, занимавшейся разработкой чипов.

Компанию основали как некий стратегический шаг техногиганта Alibaba по созданию собственных процессоров, не зависящих от западных лицензий (компания рассматривает RISC-V как основу для своей облачной инфраструктуры и периферийных вычислений). Основная деятельность — разработка технологий интегральных схем, проектирование процессоров для Интернета вещей и ИИ-чипов. Их разработки применяются в сферах связи 5G, ИИ и автономного вождения.

Alibaba активно вкладывается в софт‑экосистему — собственные SDK, LLVM-компиляторы, инструменты разработки, чтобы RISC-V‑чипы были готовы к реальным задачам. Китай ищет архитектуру, где не надо просить разрешения у извне. А RISC-V с открытой лицензией — идеальный кандидат.

Интересный факт!

Пин-то́у-гэ (平头哥 — T-Head) — слово состоит из трёх странных иероглифов.

Пин (平) — плоский, ровный.Тоу (头) — голова.

Гэ (哥) — братец или братан (уважительно-неформальное обращение к мужчине или даже к животному, обычно означает его крутой нрав).

Пинтоугэ — так в народе называют медоедов (вы их точно знаете по мемам) — символом абсолютного бесстрашия, упорства и дерзости. Они едят ядовитых змей, атакуют хищников в несколько раз больше себя: львов, медведей, леопардов, гиен и других. Они никогда не отступают и чертовски выносливы.

Серия процессоров Сюа́нь-те (玄铁) — название символическое, это легендарный материал в жанре фэнтези «уся» (китайские рыцарские романы). Это не обычная сталь, а невероятно прочный, редкий и магический сплав, из которого кузнецы высшего уровня выковывали божественное оружие, способное поразить любого врага.

Сюань (玄): Тёмный, сокровенный, мистический, таинственный, глубокий. Это слово в даосской философии означает нечто недосягаемое для обычного понимания.

Те (铁): Железо, металл.

Ну вы поняли. Компания Медоед в поисках терпилы куёт свои процессоры из магической стали, чтобы бесстрашно сражаться с западными техногигантами.

В 2019 году компания выпускает первый собственный процессор на архитектуре RISC-V — XuanTie 910 (XT910) для 5G, умных устройства и различных автопилотов. Отдельный чип содержит 1 ядро, но их можно объединять в кластеры по 1/2/4, а дальше в суперкластеры до 16 ядер. Частота — от 2,0 до 2,5 ГГц, 12-нанометровый техпроцесс, 64-битный, 12-уровневый конвейер с внеочередным исполнением команд. Alibaba утверждала, что XT910 — самый мощный процессор на базе RISC-V на момент выхода.

Кстати, ядра OpenC910 (и других версий: OpenE902, OpenE906, OpenC906), доступны на GitHub под лицензией Apache 2.0.

Hanguang 800
Hanguang 800

Чуть позже в этом же году на конференции Yunqi 2019 компания показала Hanguang 800 (含光, Хань-гуан) — это высокопроизводительный 12-нм чип для инференса (вывода) в системах искусственного интеллекта, у него 17 миллиардов транзисторов и пиковая вычислительную мощность в 820 TOPS. В стандартном отраслевом тесте ResNet-50 он достигает производительности инференса в 78 563 IPS и коэффициента энергоэффективности в 500 IPS/Вт. Комплект разработки программного обеспечения (SDK) тоже проприетарный, разработанный T-Head.

Название в честь одного из трёх легендарных мечей китайской мифологии (Три Меча Вэнь-вана) — Скрытый Свет. Это невидимый меч. Он не имеет ни формы, ни веса, проходит сквозь любой объект и оставляет его невредимым, так как поражает не тело, а саму цзи (жизненную силу, или как у нас говорят, энергию чи).

Yuzhen 600
Yuzhen 600

В 21 году T-Head выпустила UHF RFID-чип Yuzhen 600 (羽阵, Юй-чжэнь) — маломощный высокопроизводительный (речь о чувствительности к считыванию, дальности и надёжности). С помощью RFID-тегов можно, например, искать товар в магазине — специальный переносной терминал будет пищать при приближении �� лейблу с чипом и антенной. Название — отсылка к классической военной тактике, где лучники, выстроенные в ряд, могли обрушить на врага град стрел, решающий исход битвы на расстоянии (как RFID-метка).

И в тот же день показали серверный CPU Yitian 710 (倚天, Итянь) с 128 ядрами собственного дизайна (он обошёл Intel Xeon Platinum 8488C в ряде тестов). Чип даже признали самым эффективным серверным процессором на базе ARM для задач, связанных с базами данных, в крупномасштабных облачных средах.

Тоже отсылка к легендарному мечу из романа Цзинь Юна. «Меч, Опирающийся на Небо» — владелец такого меча получает силу, чтобы бросить вызов властителю мира. Ну а китайцы, видимо бросают вызов лидерам рынка с этим чипом. И да, она на ARMv9 c собственной микроархитектурой ядер.

По выходу на рынок информации нет (возможно, из-за техпроцесса 5-нм, который пока недоступен Китаю). Вероятно это очередная жертва санкций США. Поэтому Китай и видит в RISC-V архитектуру будущего, свободную от роялти и санкций.

В 2023 году ведущие китайские разработчики RISC-V объединились в China RISC-V Industry Alliance — патентный альянс, который должен укрепить позиции страны в открытых архитектурах. К инициативе подключились и научные институты, включая Китайскую академию наук, — теперь они двигают RISC-V не только в лабораториях, но и на национальном уровне.

Следующий важный шаг в RISC-V направлении — чип XuanTie C920. Это 64-битный высокопроизводительный процессор на архитектуре RISC-V RV64GCV. В отличие от Xuantie C910, он ориентирован на вычислительные нагрузки и серверный сегмент, где важны частота, IPC и энергоэффективность. C920 построен на 12-ступенчатом внеочередном (out-of-order) конвейере с множественной выдачей инструкций (multiple-issue superscalar pipeline). Это решение с высокой частотой и хорошим соотношением производительности к энергопотреблению.

Он использует 128-битный векторный блок, реализующий RISC-V Vector Extension v0.7.1, а потому ядро может эффективно выполнять параллельные операции над большими массивами данных — критично для машинного обучения, медиакодеков и численных расчётов.

Помимо стандартных расширений RV64GCV, C920 реализует проприетарные технологии XIE (XuanTie Instruction Extension) и XMAE (XuanTie Memory Attributes Extension). XIE — это набор дополнительных инструкций, оптимизирующих работу с памятью, ветвлениями и SIMD-операциями. XMAE управляет атрибутами памяти (кэшируемость, порядок доступа и т.п.), улучшая взаимодействие между ядрами и устройствами.

Каждый чиплет C920 содержит от 1 до 4 ядер, которые поддерживают аппаратную когерентность кэша. Поддерживается AXI4-интерфейс шины и отдельный порт когерентности устройств (Device Coherence Port), что облегчает интеграцию в многопроцессорные системы и SoC-решения.

Для виртуальной памяти используется система адресации Sv39, совместимая с Linux и другими RISC-V ОС.

Процессор включает стандартные контроллеры прерываний CLINT и PLIC, а также совместимый с RISC-V отладочный интерфейс и счётчики производительности (PMU). Всё это делает C920 неплохим решением для высокоуровневых система — от встраиваемых SoC до серверных платформ.

В марте 2025 года Alibaba анонсировала новейшие XuanTie C930 для высокопроизводительных вычислений. Чип соответствует профилю RVA23 и умеет работать с векторными вычислениями, операциями с плавающей запятой и атомарными инструкциями — всё это нужно для задач, где счёт идёт на гигафлопсы. В основе — суперскалярная архитектура с 15-ступенчатым конвейером и внеочередным исполнением команд, благодаря чему процессор уверенно справляется с параллельной обработкой данных.

Такие дела.

Гудок поезда разорвал тишину, и Восточный экспресс чуть дрогнул, сбавляя ход. Где-то впереди, в снежной темноте, замерцали огни станции — промежуточная остановка.

Промежуточная остановка Восточного экспресса

Восточный экспресс замедляет ход. Сквозь окна уже видно другой пейзаж и восточную архитектуру. Китай больше не догоняет — он строит собственные пути. Пусть шпалы пока скрипят и не все станции достроены, но обороты набраны. Состав ещё не достиг конечной, но направление выбрано верно — в будущее.

За спиной у нас старые железные дороги. Старики x86, ARM и молодой RISC-V вышли в Стамбуле — на границе между Европой и Азией. Ночью кто-то ранил аристократа Intel — не знаю его дальнейшей судьбы, но выглядел он неважно.

Мы же пересели на полностью китайский поезд и продолжили путь. Впереди — туман, тёмные тоннели, обвалы и долгие дни в дороге. В этом поезде едут Loongson, Huawei Kunpeng, Zhaoxin, T-Head и SMIC — каждый со своим билетом и своей целью. В других вагонах ещё много китайских бизнесменов — у кого-то довольно заметное дело, у других — попроще. И не исключено, что моё следующее расследование будет и про них.

Мы ещё не доехали, но ясно одно: китайцы — больше не пассажиры в чужом поезде. Они построили свой, сами управляют локомотивом, сами прокладывают пути и сами решают, кто выйдет на следующей станции, а кто доедет до конца.

Комментарии (0)