О компании Cerebras на Хабре писали несколько раз, чаще всего с упоминанием того, что она создала самый большой в мире процессор. И сейчас та же ситуация — она повторила свой рекорд, разработав гигант с 900 тыс. вычислительных ядер. Конечно, это чип не для обычных пользователей, а для работы в отрасли искусственного интеллекта. Что это за процессор и на что он способен?
Немного превосходных степеней
Производитель заявляет о новейшем, мощнейшем и крупнейшем чипе, который называется Wafer Scale Engine 3 (WSE-3). О ядрах уже сказано, теперь стоит упомянуть ещё и то, что чип содержит 4 трлн транзисторов. Его производительность в вычислениях, которые связаны с ИИ, — 125 петафлопс (PFLOPS). Процессор представляет собой цельную кремниевую пластину общей площадью в 46 225 мм² — это примерно в 60 раз больше, чем у Nvidia H100.
Как всегда в случае с Cerebras, это не концепция и даже не прототип чипа, а уже готовый процессор, выполненный по технологии 5-нм. Выпустила его компания TSMC — крупнейший контрактный производитель современных чипов, который вот уже пять лет (или даже больше) сотрудничает с Cerebras.
Компания, кстати, появилась в 2016 году и до сих пор не просто держится на плаву, а активно развивается. За время существования ей удалось выпустить три крупнейших для своего времени чипа для ИИ. Кроме того, на базе этих процессоров она производит и суперкомпьютеры, причём компактные — 15U.
Для чего предназначен процессор?
Он позволяет относительно быстро обучать крупнейшие в мире ИИ-модели, так что вполне возможно, что чип заинтересует корпорации вроде Google, Apple и другие. Во всяком случае, подобные процессоры не производит на данный момент больше никто — те решения, которые существуют, менее мощные.
Так, например, WSE-3 может похвастаться пропускной способностью памяти в 21 ПБ в секунду. Это примерно в 7 000 больше, чем у H100 от Nvidia. Что касается такой характеристики, как Fabric 214, то показатель у нового чипа примерно в 3 тыс. раз больше, чем у H100. Встроенной памяти у новинки целых 44 Гб.
Процессор способен работать с внешней памятью очень большой ёмкости — 1,5 Тб, 12 Тб и 1,2 ПБ. Это практически идеальная возможность для обучения ИИ-моделей, поскольку их не приходится разделять. По словам представителей компании, один чип может обучить ИИ-модель сразу по 24 трлн параметров.
Стоит отметить, что производительность систем от Cerebras зависит от коэффициента «разреженности» операций. По мнению экспертов, новая система компании будет несколько менее производительной в ходе выполнения операций FP16, чем пара серверов Nvidia DGX H100, при одинаковом энергопотреблении и площади установки. Результат — примерно 15 Пфлопс против 15,8 Пфлопс у Nvidia.
Что касается нового суперкомпьютера, базирующегося на возможностях чипа, то его можно масштабировать в кластерах до 2 048 систем, что позволяет работать с моделями по 70 млрд параметров, настраивая их за день. Это отличная возможность для тех компаний, которые занимаются развитием искусственного интеллекта. Система позволяет использовать такие фреймворки, как PyTorch и TensorFlow.
Сейчас известны не все характеристики нового суперкомпьютера, но предыдущая модель, CS-2, потребляла 17 кВт энергии. CS-1 требовалось 19 кВт.
Что насчёт суперкомпьютера?
Сейчас Cerebras уже вовсю занимается внедрением этих систем в своём суперкластере Condor Galaxy AI. Он предназначен для работы с очень масштабными задачами с применением искусственного интеллекта. Кластер будет включать сразу девять суперкомпьютеров из разных регионов.
В этом году кластер планируется дополнить системой CG-3 в Далласе, штат Техас. В ходе её создания разработчики интегрируют несколько CS-3 с общей ИИ-производительностью 8 экзафлопс. В итоге общий результат суперкластера составит примерно 64 экзафлопс.
Но и это ещё не всё — дело в том, что производитель гигантских процессоров уже работает с Qualcomm. Партнёры собираются разрабатывать оптимизированные модели для ИИ-ускорителей Qualcomm с Arm-архитектурой.
В частности, запланирована оптимизация моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.
«Как мы уже показали, разреженность при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт применения небольшой и облегчённой модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).
Конечно, чип от Cerebras не может быть недорогим. Скорее всего, его стоимость намного превысит цену ускорителей Nvidia H100 — они продаются примерно по $30 тысяч.
В ближайшем будущем компания раскроет больше информации о чипе, суперкомпьютере, включая стоимость того и другого
Комментарии (14)
Sonichka
18.03.2024 19:16+2Есть уже пластины диаметром 400мм и похоже им есть куда расти со своим процессором.
CBET_TbMbI
18.03.2024 19:16+2Это хорошо. Может ИИшники, наконец, отстанут от видеокарт и те вернутся к нормальным своим ценам (насколько помню, всю жизнь у видюх и процев был примерный паритет по ценам).
rPman
18.03.2024 19:16с сотнями тысяч долларов себестоимости за чип? еще столько же на обвязку, и за софт еще лямячик отдать.
А это устройство как я понял продается с 10х наценкой.
'не в этой жизни (с)'
rPman
У меня только один вопрос - почему их чип квадратный?
Они же всю пластину утилизируют, зачем выбрасывать четыре хорды?
Breathe_the_pressure
Ну вы уж хотите ИИ дать все преимущества. Квадратное труднее перекатывать.
NeoCode
Может хорды использовали для других процессоров или микроконтроллеров.
alliumnsk
Такое практикуется?
event1
площадь круга с радиусом 150 мм — 70685 кв. мм
clarifyingman
Хорды? Мой внутренний математик негодует.
Вы же хотели сказать 4 сегмента?
P.S. Пойду форточку открою.