Два года назад на конференции ISC High Performance 2020 словацкая компания Tachyum анонсировала 128-ядерные процессоры Prodigy, а также ИИ-комплекс на их основе. Тогда сообщалось, что эти чипы планируется использовать в крупных ЦОД, высоконагруженных платформах, ИИ-системах и прочих направлениях, где нужна высокая производительность.
По словам разработчиков, процессор и инфраструктура, разработанная под этот чип, способны предоставить необходимые для таких вычислений ресурсы. Суперкомпьютер, основа которого чипы Prodigy, достаточно мощный — 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U. Все это сообщалось ранее, ну а сейчас появилось много информации о процессоре и ближайшей дате появления чипа в общем доступе.
Особенности архитектуры чипа
Известно, что процессор разрабатывается по современному 7-нм техпроцессу. Старшая версия содержит 128 ядер с частотой работы каждого до 4 ГГц, 12 каналов памяти DDR5-4800, 48 линий PCI Express 5.0 и два контроллера 400GbE. Кроме того, есть и версия с 64 ядрами. Она содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 линии и два сетевых интерфейса 400GbE.
Архитектура процессоров компании не предусматривает возможности внеочередного исполнения. Но если использовать оптимизацию на уровне компилятора, то появляется возможность до 4 внеочередных инструкций (4-way out-of-order issues). Кроме родного софта, процессор может работать с кодом x86, Arm и RISC-V. Правда, «чужой» код чреват потерей производительности на 30-40% в случае бинарной трансляции в Qemu.
Представители компании заявили, что преимущество процессора еще и в меньшем, чем у конкурентов, энергопотреблении.
Сейчас стало известно, что базовая модель процессора, Prodigy T832-LP, имеет 32 ядра и работает на частоте 3,2 ГГц. Теплопакет — 180 Вт. Если же его разогнать до 5,7 ГГц, то показатель уже выше — около 300 Вт. Ну а если взять и разогнать флагманскую модель чипа, T16128-AIX, со 128 ядрами, то речь идет уже о 950 Вт. К слову, T16128-AIX — 5 нм, а не 7 нм процессор.
Компания утверждает, что линейка процессоров Prodigy — конкурент мощным чипам от AMD, Intel & NVIDIA. Так, разработчики рассказывают, что их процессор показывает 4-кратное превосходство в отношении процессоров Intel Xeon в высоконагруженных вычислениях. Также процессор в 3 раза превосходит NVIDIA H100, если говорить о том же типе вычислений и в 6 раз — в задачах по работе с искусственным интеллектом. По отношению ко всем другим процессорам чип показывает 10-кратное превосходство при той же мощности.
Вот несколько основных особенностей чипа:
- 128 высокопроизводительных унифицированных 64-разрядных ядер с частотой до 5,7 ГГц
- 16 контроллеров памяти DDR5
- 64 линии PCIe 5.0
- Поддержка многопроцессорности для 4-сокетных и 2-сокетных платформ
- Работа в серверных системах с воздушным и жидкостным охлаждением
- SPECrate 2017. Целочисленная производительность примерно в 4 раза выше, чем у Intel 8380, и примерно в 3 раза выше, чем у AMD 7763HPC.
- Производительность операций с плавающей запятой двойной точности в 3 раза выше, чем у NVIDIA H100
- Производительность AI FP8 в 6 раз выше, чем у NVIDIA H100.
Согласно данным производителя, каждое из ядер содержит два 1024-битных блока векторных и 4096-битный блок матричных вычислений. Также стоит упомянуть по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, который формируется" из L2-кешей простаивающих соседних ядер.
Еще немного технических подробностей
На днях были опубликованы показатели характеристик новых процессоров. Так, флагманская модель выдает до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Тот же AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности около 560 Вт. Кроме того, 700-Вт SXM-версия NVIDIA H100 показывает до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.
Достоинством линейки Prodigy является универсальность — он может работать и как чип общего назначения, чего нет у Instinct или Hopper.
А что там с поставками?
Чип достаточно сложен в производстве — так что выход на промышленные поставки дело небыстрое. Но компания обещает начать отгрузку первых процессоров уже в конце 2022 или, в крайнем случае, начале 2023 года. Если будет реализован текущий план, то тестовые варианты процессора, которые можно будет протестировать, выпустят в конце лета 2022 года. Правда, их общая площадь не превысит 500 мм2. Затем, в декабре, выпустят уже полноценный чип, его протестируют независимые эксперты. Если все будет хорошо, то стартует процесс массового производства.
Насколько можно судить, средства у компании есть — в прошлом году она получила крупные инвестиции от партнеров, в результате чего капитализация компании выросла сразу в три раза. Конечно, по капитализации о реальности всего проекта судить нельзя, но если есть средства и специалисты — то вполне может все получиться.
Сейчас известно, что процессор без проблем обрабатывает прерывания и исключения, переключая режимы и обеспечивая корректные тайминги. Разработчикам удалось запустить Linux на базе FPGA-прототипа, плюс получилось запустить операционную систему и простое приложение — все это было показано в конце 2021 года.
Комментарии (10)
edo1h
15.06.2022 06:53Сейчас стало известно, что базовая модель процессора, Prodigy T832-LP, имеет 32 ядра и работает на частоте 3,2 ГГц. Теплопакет — 180 Вт. Если же его разогнать до 5,7 ГГц, то показатель уже выше — около 300 Вт.
что-то не верится.
- 5.7/3.2 > 300/180, то есть у них рост потребления с ростом частоты даже не линейный, а более плавный?
- что-то я не припоминаю серийных процессоров с частотой 5.7 ГГц, слишком большой скачок, чтобы быть правдой.
namee
15.06.2022 08:21+2Старшая 128-ядерная модель T16128-AIX будет работать на частоте до 5,7 ГГц. Именно она будет иметь TDP в 950 Вт
https://www.ixbt.com/news/2022/06/13/128-5-7-tdp-950-tachyum-prodigy.html
можно кварталы отапливать одной стойкой
Несколько слов о самой Tachyum. Компания основана в Словакии в 2016 году американцами. Стартап привлек 17 миллионов долларов инвестиций от правительства Словакии, но это не единственные денежные вливания в него. Глава компании – Радослав Даниляк (Radoslav Danilak) – отработал в полупроводниковой индустрии 25 лет, в том числе в SandForce, известной своими контроллерами для SSD.
CPU Prodigy преподносятся создателями как «первые в мире универсальные процессоры» – за счет того, что они объединяют в себе самые разные блоки: собственно сам CPU, блоки AI и Deep Learning, блок высокопроизводительных вычислений. Но в целом, по своей идеологии такой процессор близок к однокристальным системам современных смартфонов, в которых тоже присутствуют блоки, отвечающие за общие (малые ядра) и высокопроизводительные (большие ядра) вычисления, нейронный процессор (NPU) и т.д. Так что ничего концептуально нового в структуре Tachyum Prodigy нет.
Sergey_Kovalenko
16.06.2022 21:17Извините, наболело:
"Таити, Тэрафлопсы, Таити, Тэрафлопсы" - чем умнее компьютеры, тем больше у меня на убунте лагает ворд онлайн. Программисты мамкины не могут сделать так, чтобы в третьем десятилетии 21 века текстовый редактор, блин, не лагал. Кажется, настал тот момент, когда скорость вычислений сможет поднять или развитие социальных наук или самая безнравственная евгеника.
Анекдот: оторвите этому программисту руки и пришейте их к плечам.kovserg
17.06.2022 20:33на убунте лагает ворд онлайн
В этой фразе всё прекрасно. Видимо еще и всё в snap-ах на шифрованом zfs
ps: недавно ставил ubuntu10 скорость по сравнению с 20 просто феерическая (и это в виртуалке, при этом функционал богаче, можно выбрать кодировку в терминале и поставить прозрачную картинку за задний фон и даже переименовать вкладку и календарь не падает, и обновляться постоянно не хочет).
moodpulse
Интересно, а в заголовке после 128 нарочно пропущена конкретная характеристика (128-процессор)? Я на автомате почему-то прочитал как 128 разрядный, но имеются ввиду ядра, конечно же.
Интересный вариант кликбейта)
CarbonBot
Тоже повелся на это. Первая мысль: "Ого, неужели наконец начнется эксплуатация подобных процессоров?"
edo1h
а зачем? сами по себе 64-битные целые не особо востребованы, поводом к переходу на 64 бита была потребность в расширении указателей.
а прирост производительности приложений больше вызван попутными оптимизациями (увеличением числа регистров хотя бы), чем именно 64 битами.
128-битные целые требуются ещё реже, да и для манипуляции кучей бит за раз часто simd подходит.
moodpulse
Да, смысла не так много, но это было бы более удивительно, чем 128 ядер, речь больше про это)