Сегодня вышел 47 рейтинг суперкомпьтеров мира Top500 в соответствии с тестом Linpack. В отличие от предыдущих 6 версий рейтинга, сменился лидер списка, на первое место вышла китайский суперкомпьютер Sunway TaihuLight (??·????) с результатом в 93 петафлопса на тесте Linpack (теоретическая производительность 125,4 петафлопс). Его производительность примерно в 3 раза выше чем у предыдущего лидера списка, китайского Tianhe-2.
image of Sunway TaihuLight. Jack Dongarra, Report on the Sunway TaihuLight System, June 2016

Новый суперкомпьютер разработан Национальным исследовательским центром параллельной вычислительной техники и технологий КНР (National Research Center of Parallel Computer Engineering & Technology). Размещена система в Национальном центре суперкомпьютеров в городе Уси провинции Цзянсу на востоке Китая.

image
В основе суперкомпьютера лежат новые китайские процессоры семейства ShenWei — SW26010 с оригинальной 64-битной RISC-архитектурой, предположительно изготовленные по технологии 28 нм. Каждый процессор оснащен 260 ядрами, работает на частоте 1.45 ГГц и имеет производительность 3.06 терафлопс.


Процессор был разработан в Shanghai High Performance IC Design Center. Процессор состоит из 4 сходных блоков ядер (core groups), соединенных встроенной сетью на кристалле. В каждом блоке имеется одно управляющее ядро (Management Processing Element, MPE), контроллер памяти DDR3 (128 бит) и 64 вычислительных ядра (Computing Processing Elements, CPE) в массиве 8x8. Оба типа ядер имеют микроархитектуру с внеочередным исполнением команд. Управляющие MPE-ядра поддерживает исполнение как операционной системы, так и пользовательского кода, использует 264-битные векторные операции, содержит по 32 КБ кеш-памяти первого уровня инструкций и данных и 256 КБ кеш-памяти второго уровня. Вычислительные CPE-ядра могут исполнять лишь пользовательский код с 264-битными векторами, они используют 16 КБ кеш-памяти инструкций и 64 КБ временной памяти (Scratch Pad Memory). Каждый из 4 блоков ядер имеет доступ к 8 ГБ оперативной памяти DDR3-2133, таким образом, в узле установлено 32 ГБ ОЗУ с общей пропускной способностью до 136,5 ГБ/с.

Производительность SIMD-вычислений на ядрах MPE составляет 16 плавающих операций двойной точности (64-бита) за такт, на ядрах CPE — 8 операций за такт. Общая производительность MPE-ядер на частоте 1.45 ГГц может достигать 23.2 гигафлопсов, CPE-ядер — 11,6 гфлопс.

Всего в суперкомпьютере используется более 10,6 миллионов ядер в составе 40960 однопроцессорных узлов в 40 вычислительных стойках. В каждой стойке установлено 4 суперузла, суперузел состоит из 32 модулей по 8 узлов на каждом. Модули имеют водяное охлаждение. Подробностей об основной сети суперкомпьютера немного, известно, что каждый чип SW26010 имеет PCI Express 3 (16x) подключение к трёхуровневой сети «Sunway Network». Диаметр сети — 7, «bisection bandwidth» — 70 ТБ/с. Донгарра сообщил, что используются чипы Host Channel Adapter и коммутаторов компании Mellanox, с пропускной способностью канала на уровне около 12 ГБ/с (100 Гбит/с) и задержками порядка 1 мкс.

Вычислительная эффективность на тесте HPL (Linpack) составила 74% от теоретической производительности. В то же время на более сложном тесте HPCG система показала лишь 0.3% от пикового уровня (некоторые системы достигают 1-3%), что свидетельствует об относительно медленной памяти и недостаточной пропускной способности сети. Для SW26010 соотношение пиковых флопсов к пропускной способности памяти составляет 22.4 флоп/байт (для сравнения, у Intel Knights Landing 7.2 флоп/байт). Также Донгарра отметил, что в системе сравнительно немного оперативной памяти, всего 1.3 ПБ (у Tianhe-2 — 1.4 ПБ, у американского Titan, занимающего уже 3-е место в Top500 — 0.71 ПБ).

Среднее энергопотребление суперкомпьютера во время исполнения теста HPL составляло 15,3 МВт (что несколько меньше чем 17 МВт у Tianhe-2), максимальное — чуть менее 18 МВт. По оценкам Донгарры, энергоэффективность составила 6 гигафлопс на Ватт (учитывалось потребление процессора, памяти и сети). Новый суперкомпьютер занял третье место в рейтинге green500.org (более энергоэффективны RIKEN Shoubu c 6,6 гфлопс/Вт и RIKEN Satsuki с 6,2 гфлопс/Вт).

Операционная система суперкомпьютера, Sunway Raise OS 2.0.5, основана на Linux. Пользователям предлагаются компиляторы C/C++, Fortran, утилиты автоматической векторизации, математические библиотеки. Утилита Sunway OpenACC предлагает поддержку стандарта OpenACC 2.0 для упрощения программирования многоядерных процессоров.

Стоимость создания суперкомпьютера — 1.8 млрд юаней, около 270 миллионов долларов США.

Наиболее подробная информация о суперкомпьютере доступна в статье основателя рейтинга Джека Донгарры: Jack Dongarra, Report on the Sunway TaihuLight System, June 2016, http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf; иллюстрации из статьи «The Sunway TaihuLight Supercomputer: System and Applications», by Fu H H, Liao J F, Yang J Z, et al., принятой к публикации в Sci. China Inf. Sci., 2016, 59(7): 072001, doi: 10.1007/s11432-016-5588-7.
Также опубликовано несколько слайдов из презентации TOP500 & Green500 Awards на ISC 2016:
image
Поделиться с друзьями
-->

Комментарии (20)


  1. ErmIg
    20.06.2016 18:14
    +2

    Интересно 264-битные векторные операции — это как? 256-битный вектор вещественных чисел + 8-битовая маска?


    1. a5b
      23.06.2016 02:14

      Странно, у Донгарры — 2 раза "264-bit vector instructions", а в китайской статье "The Sunway TaihuLight Supercomputer: System and Applications" пишут 256 — http://engine.scichina.com/publisher/scp/journal/SCIS/59/7/10.1007/s11432-016-5588-7?slug=full%20text
      "Both the MPE and CPE support 256-bit vector instructions."


      В китайской статье есть описание нескольких задач и сравнение их производительности на Tianhe-2 и на Sunway TaihuLight.


  1. melchermax
    20.06.2016 20:39
    +4

    Помнится мне, не так давно власти СШП не разрешали Интел продавать какие-то процессоры китайцам. Итог налицо, не вижу повода не отпраздновать.
    UPD: Вот эта публикация: https://geektimes.ru/post/248964/


    1. Alexsandr_SE
      21.06.2016 10:35

      Судя по тому, что в некоторых тестах «сложных» потеря от теории огромная и в разы больше других систем, то запрет можно продолжать и дальше.


      1. melchermax
        21.06.2016 13:31

        И что? Во-первых, это может быть и проблема с программным обеспечением, а во-вторых, никто не мешат китайцам постепенно допиливать свои процессоры. АРМ тоже когда-то был безвестен и ненужен, а теперь имеет приоритет в мобильных и встраиваемых системах. Посмотрите на новые мобильные процессоры Mediatek — они в плане производительности практически на одном уровне с Qualcomm, и развиваются дальше.


        1. Alexsandr_SE
          21.06.2016 13:41

          И то, что это не даст быстродействия в ряде задач. Чем больше таких вот провалов, тем сложнее будет решение задачи подгонять под архитектуру, если вообще возможно. А значить конкуренты на номинально более слабых суперкомпьютерах смогут на порядки быстрее решать свои задачи.

          не знаю что там с мобильниками, но пока, по крайней мере бюджетные заметно медленнее х86. Может на ватт и нормально, но нужна производительность зачастую, без оглядки на всё остальное. Опять таки подобная архитектура помнится была на приставках сони. Говорили, что программировать под неё довольно таки сложно.
          Нет, китайцы молодцы, но совокупная стоимость решения может превышать конкурентов, а скорость быть меньше. Куда тогда пойдут деньги? А Китай явно будет большей частью покрывать внутренние потребности с таким раскладом.


      1. santey_tm
        21.06.2016 16:45

        Сообщается, что 93ПФ достигнуто на Linpack. А это целый набор тестов, а не какой-то один узкозаточенный.


        1. Alexsandr_SE
          21.06.2016 17:42

          Вроде быLinpack осуществляет операцию умножения матрицы на матрицу несколько десятков раз и вычисляет усредненное значение времени выполнения теста.


        1. Mad__Max
          23.06.2016 01:03
          +1

          Может с тестами SPEC спутали? Там вот пакет разнообразных задач имеющих научное и практическое(прикладное) значение.
          А Linpack это фактически один единственный тет, на одной задаче (хоть и важной/часто используемой) — решение большой системы линейных уравнений.


    1. eldarmusin
      21.06.2016 12:27

      Ждём улучшений Эльбруса.


    1. oleg0xff
      21.06.2016 16:40

      А Вы то какой профит получили от этого, что аж праздновать собираетесь?


      1. dbanet
        21.06.2016 16:51

        Конкуренция.


        1. oleg0xff
          22.06.2016 13:09

          Ну конкуренция да, это может быть полезно. Освоить новую архитиктуру и систему команд, это впринципе задача решаемая. Но вот освоить язык производителя, чтобы иметь полноценный доступ к документации, это будет посложней.


      1. melchermax
        22.06.2016 01:51

        Вы не поверите, но я крайне испорченный человек: имею наглость радоваться чужим успехам, особенно тем, которые «вопреки», а не «благодаря». Кстати, слово «профит» по-русски звучит как «выгода».


        1. oleg0xff
          22.06.2016 10:56

          Ну если радуетесь чужим успехам, то и огорчайтесь отогда чужим потерям: радоость_за_китайскую_фирму + огорчение_за_интел = 0 — итого сумма радостей и горестей равна нулю, и собственно нечему радоваться или огорчаться.


          1. melchermax
            22.06.2016 13:22

            Интел — ведущий производитель процессоров в мире, даже такой большой заказ не особенно повлияет на эту фирму. Чему тут огорчаться? Тому, что акционеры получат по паре центов меньше? Или тому, что СШП не получат дополнительно пару миллионов долларов из-за своих тупых закидонов? Нет уж, я считаю, что всё справедливо: захотелось американскому правительству повыделываться — да пожалуйста, получите усиленную конкуренцию на рынке процессоров, а в перспективе и потерю части азиатского рынка. Кто знает, возможно, когда-то я сменю свой AMD A10-7800 на китайский процессор.


  1. helgihabr
    21.06.2016 01:37

    Судя по тому, что в одной ноде всего 32 ГБ (а нод более 40к), арендовать можно даже одну ноду?
    Имеются какие-либо данные о стоимости аренды (в отчете Донгарры не нашел ничего об этом)?


  1. a5b
    21.06.2016 04:26
    +3

    У Opennet есть интересная статистика о новом списке: http://www.opennet.ru/opennews/art.shtml?num=44630


    • … Lomonosov 2 сместился с 36 на 41 место… Кластер Lomonosov опустился с 96 на 108 место.
    • … Со 109 до 167 увеличилось число систем в Китае, который вытеснил США с первого места по числу кластеров. ..
    • Минимальный порог пиковой производительности для вхождения в Top500 вырос за полгода с 204.3 до 285.9 терафлопсов, а для Top100 — с 917 до 958.7 терафлопсов. ...
    • В качестве процессорной основы лидируют CPU Intel — 91% ..
    • 93 из 500 систем (в прошлом рейтинге — 104) дополнительно используют ускорители или сопроцессоры ...


    1. gDaniCh
      21.06.2016 16:29

      Полагаю наше ПО лучше и требует в 20 раз меньше ресурсов, следовательно нет необходимости в запредельных мощностях. Хотя конечно хотелось бы видеть наш эльбрус в топе.


  1. oleg0xff
    21.06.2016 11:51
    +1

    Роль Китай в произведстве электронике все растет, похоже программистам надо будет знать не только англйский но и китайский. А язык учить — это долго — это за несколко лет надо начинать. Так что полезно было бы заранее знать когда это произойдет, что бы подготовиться.