Два года назад на конференции ISC High Performance 2020 словацкая компания Tachyum анонсировала 128-ядерные процессоры Prodigy, а также ИИ-комплекс на их основе. Тогда сообщалось, что эти чипы планируется использовать в крупных ЦОД, высоконагруженных платформах, ИИ-системах и прочих направлениях, где нужна высокая производительность.

По словам разработчиков, процессор и инфраструктура, разработанная под этот чип, способны предоставить необходимые для таких вычислений ресурсы. Суперкомпьютер, основа которого чипы Prodigy, достаточно мощный — 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U. Все это сообщалось ранее, ну а сейчас появилось много информации о процессоре и ближайшей дате появления чипа в общем доступе.

Особенности архитектуры чипа


Известно, что процессор разрабатывается по современному 7-нм техпроцессу. Старшая версия содержит 128 ядер с частотой работы каждого до 4 ГГц, 12 каналов памяти DDR5-4800, 48 линий PCI Express 5.0 и два контроллера 400GbE. Кроме того, есть и версия с 64 ядрами. Она содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 линии и два сетевых интерфейса 400GbE.

Архитектура процессоров компании не предусматривает возможности внеочередного исполнения. Но если использовать оптимизацию на уровне компилятора, то появляется возможность до 4 внеочередных инструкций (4-way out-of-order issues). Кроме родного софта, процессор может работать с кодом x86, Arm и RISC-V. Правда, «чужой» код чреват потерей производительности на 30-40% в случае бинарной трансляции в Qemu.

Представители компании заявили, что преимущество процессора еще и в меньшем, чем у конкурентов, энергопотреблении.

Сейчас стало известно, что базовая модель процессора, Prodigy T832-LP, имеет 32 ядра и работает на частоте 3,2 ГГц. Теплопакет — 180 Вт. Если же его разогнать до 5,7 ГГц, то показатель уже выше — около 300 Вт. Ну а если взять и разогнать флагманскую модель чипа, T16128-AIX, со 128 ядрами, то речь идет уже о 950 Вт. К слову, T16128-AIX — 5 нм, а не 7 нм процессор.


Компания утверждает, что линейка процессоров Prodigy — конкурент мощным чипам от AMD, Intel & NVIDIA. Так, разработчики рассказывают, что их процессор показывает 4-кратное превосходство в отношении процессоров Intel Xeon в высоконагруженных вычислениях. Также процессор в 3 раза превосходит NVIDIA H100, если говорить о том же типе вычислений и в 6 раз — в задачах по работе с искусственным интеллектом. По отношению ко всем другим процессорам чип показывает 10-кратное превосходство при той же мощности.



Вот несколько основных особенностей чипа:

  • 128 высокопроизводительных унифицированных 64-разрядных ядер с частотой до 5,7 ГГц
  • 16 контроллеров памяти DDR5
  • 64 линии PCIe 5.0
  • Поддержка многопроцессорности для 4-сокетных и 2-сокетных платформ
  • Работа в серверных системах с воздушным и жидкостным охлаждением
  • SPECrate 2017. Целочисленная производительность примерно в 4 раза выше, чем у Intel 8380, и примерно в 3 раза выше, чем у AMD 7763HPC.
  • Производительность операций с плавающей запятой двойной точности в 3 раза выше, чем у NVIDIA H100
  • Производительность AI FP8 в 6 раз выше, чем у NVIDIA H100.


Согласно данным производителя, каждое из ядер содержит два 1024-битных блока векторных и 4096-битный блок матричных вычислений. Также стоит упомянуть по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, который формируется" из L2-кешей простаивающих соседних ядер.

Еще немного технических подробностей


На днях были опубликованы показатели характеристик новых процессоров. Так, флагманская модель выдает до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Тот же AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности около 560 Вт. Кроме того, 700-Вт SXM-версия NVIDIA H100 показывает до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.


Достоинством линейки Prodigy является универсальность — он может работать и как чип общего назначения, чего нет у Instinct или Hopper.

А что там с поставками?


Чип достаточно сложен в производстве — так что выход на промышленные поставки дело небыстрое. Но компания обещает начать отгрузку первых процессоров уже в конце 2022 или, в крайнем случае, начале 2023 года. Если будет реализован текущий план, то тестовые варианты процессора, которые можно будет протестировать, выпустят в конце лета 2022 года. Правда, их общая площадь не превысит 500 мм2. Затем, в декабре, выпустят уже полноценный чип, его протестируют независимые эксперты. Если все будет хорошо, то стартует процесс массового производства.

Насколько можно судить, средства у компании есть — в прошлом году она получила крупные инвестиции от партнеров, в результате чего капитализация компании выросла сразу в три раза. Конечно, по капитализации о реальности всего проекта судить нельзя, но если есть средства и специалисты — то вполне может все получиться.

Сейчас известно, что процессор без проблем обрабатывает прерывания и исключения, переключая режимы и обеспечивая корректные тайминги. Разработчикам удалось запустить Linux на базе FPGA-прототипа, плюс получилось запустить операционную систему и простое приложение — все это было показано в конце 2021 года.

Комментарии (10)


  1. moodpulse
    15.06.2022 04:16
    +3

    Интересно, а в заголовке после 128 нарочно пропущена конкретная характеристика (128-процессор)? Я на автомате почему-то прочитал как 128 разрядный, но имеются ввиду ядра, конечно же.

    Интересный вариант кликбейта)


    1. CarbonBot
      15.06.2022 10:33
      +1

      Тоже повелся на это. Первая мысль: "Ого, неужели наконец начнется эксплуатация подобных процессоров?"


      1. edo1h
        15.06.2022 13:41
        +1

        а зачем? сами по себе 64-битные целые не особо востребованы, поводом к переходу на 64 бита была потребность в расширении указателей.
        а прирост производительности приложений больше вызван попутными оптимизациями (увеличением числа регистров хотя бы), чем именно 64 битами.


        128-битные целые требуются ещё реже, да и для манипуляции кучей бит за раз часто simd подходит.


        1. moodpulse
          15.06.2022 17:06

          Да, смысла не так много, но это было бы более удивительно, чем 128 ядер, речь больше про это)


  1. edo1h
    15.06.2022 06:53

    Сейчас стало известно, что базовая модель процессора, Prodigy T832-LP, имеет 32 ядра и работает на частоте 3,2 ГГц. Теплопакет — 180 Вт. Если же его разогнать до 5,7 ГГц, то показатель уже выше — около 300 Вт.

    что-то не верится.


    • 5.7/3.2 > 300/180, то есть у них рост потребления с ростом частоты даже не линейный, а более плавный?
    • что-то я не припоминаю серийных процессоров с частотой 5.7 ГГц, слишком большой скачок, чтобы быть правдой.


    1. namee
      15.06.2022 08:21
      +2

      Старшая 128-ядерная модель T16128-AIX будет работать на частоте до 5,7 ГГц. Именно она будет иметь TDP в 950 Вт

      https://www.ixbt.com/news/2022/06/13/128-5-7-tdp-950-tachyum-prodigy.html

      можно кварталы отапливать одной стойкой

      Несколько слов о самой Tachyum. Компания основана в Словакии в 2016 году американцами. Стартап привлек 17 миллионов долларов инвестиций от правительства Словакии, но это не единственные денежные вливания в него. Глава компании – Радослав Даниляк (Radoslav Danilak) – отработал в полупроводниковой индустрии 25 лет, в том числе в SandForce, известной своими контроллерами для SSD.

      CPU Prodigy преподносятся создателями как «первые в мире универсальные процессоры» – за счет того, что они объединяют в себе самые разные блоки: собственно сам CPU, блоки AI и Deep Learning, блок высокопроизводительных вычислений. Но в целом, по своей идеологии такой процессор близок к однокристальным системам современных смартфонов, в которых тоже присутствуют блоки, отвечающие за общие (малые ядра) и высокопроизводительные (большие ядра) вычисления, нейронный процессор (NPU) и т.д. Так что ничего концептуально нового в структуре Tachyum Prodigy нет.


      1. kovserg
        15.06.2022 18:56

        image
        Какие-то скромные 4 вентилятора для 4х процессоров по 180Вт, не говоря уже о 950Вт.
        Да и если там 16 линий DDR5 на процессор куда они 64 планки памяти они спрятали?


        1. edo1h
          16.06.2022 07:59

          так это fpga-макет


  1. Sergey_Kovalenko
    16.06.2022 21:17

    Извините, наболело:
    "Таити, Тэрафлопсы, Таити, Тэрафлопсы" - чем умнее компьютеры, тем больше у меня на убунте лагает ворд онлайн. Программисты мамкины не могут сделать так, чтобы в третьем десятилетии 21 века текстовый редактор, блин, не лагал. Кажется, настал тот момент, когда скорость вычислений сможет поднять или развитие социальных наук или самая безнравственная евгеника.

    Анекдот: оторвите этому программисту руки и пришейте их к плечам.


    1. kovserg
      17.06.2022 20:33

      на убунте лагает ворд онлайн

      В этой фразе всё прекрасно. Видимо еще и всё в snap-ах на шифрованом zfs

      ps: недавно ставил ubuntu10 скорость по сравнению с 20 просто феерическая (и это в виртуалке, при этом функционал богаче, можно выбрать кодировку в терминале и поставить прозрачную картинку за задний фон и даже переименовать вкладку и календарь не падает, и обновляться постоянно не хочет).