О компании Cerebras на Хабре писали несколько раз, чаще всего с упоминанием того, что она создала самый большой в мире процессор. И сейчас та же ситуация — она повторила свой рекорд, разработав гигант с 900 тыс. вычислительных ядер. Конечно, это чип не для обычных пользователей, а для работы в отрасли искусственного интеллекта. Что это за процессор и на что он способен?

Немного превосходных степеней

Производитель заявляет о новейшем, мощнейшем и крупнейшем чипе, который называется Wafer Scale Engine 3 (WSE-3). О ядрах уже сказано, теперь стоит упомянуть ещё и то, что чип содержит 4 трлн транзисторов. Его производительность в вычислениях, которые связаны с ИИ, — 125 петафлопс (PFLOPS). Процессор представляет собой цельную кремниевую пластину общей площадью в 46 225 мм² — это примерно в 60 раз больше, чем у Nvidia H100.

Как всегда в случае с Cerebras, это не концепция и даже не прототип чипа, а уже готовый процессор, выполненный по технологии 5-нм. Выпустила его компания TSMC — крупнейший контрактный производитель современных чипов, который вот уже пять лет (или даже больше) сотрудничает с Cerebras.

Компания, кстати, появилась в 2016 году и до сих пор не просто держится на плаву, а активно развивается. За время существования ей удалось выпустить три крупнейших для своего времени чипа для ИИ. Кроме того, на базе этих процессоров она производит и суперкомпьютеры, причём компактные — 15U.

Для чего предназначен процессор?

Он позволяет относительно быстро обучать крупнейшие в мире ИИ-модели, так что вполне возможно, что чип заинтересует корпорации вроде Google, Apple и другие. Во всяком случае, подобные процессоры не производит на данный момент больше никто — те решения, которые существуют, менее мощные.

Так, например, WSE-3 может похвастаться пропускной способностью памяти в 21 ПБ в секунду. Это примерно в 7 000 больше, чем у H100 от Nvidia. Что касается такой характеристики, как Fabric 214, то показатель у нового чипа примерно в 3 тыс. раз больше, чем у H100. Встроенной памяти у новинки целых 44 Гб.

Процессор способен работать с внешней памятью очень большой ёмкости — 1,5 Тб, 12 Тб и 1,2 ПБ. Это практически идеальная возможность для обучения ИИ-моделей, поскольку их не приходится разделять. По словам представителей компании, один чип может обучить ИИ-модель сразу по 24 трлн параметров.

Стоит отметить, что производительность систем от Cerebras зависит от коэффициента «разреженности» операций. По мнению экспертов, новая система компании будет несколько менее производительной в ходе выполнения операций FP16, чем пара серверов Nvidia DGX H100, при одинаковом энергопотреблении и площади установки. Результат — примерно 15 Пфлопс против 15,8 Пфлопс у Nvidia.

Что касается нового суперкомпьютера, базирующегося на возможностях чипа, то его можно масштабировать в кластерах до 2 048 систем, что позволяет работать с моделями по 70 млрд параметров, настраивая их за день. Это отличная возможность для тех компаний, которые занимаются развитием искусственного интеллекта. Система позволяет использовать такие фреймворки, как PyTorch и TensorFlow.

Сейчас известны не все характеристики нового суперкомпьютера, но предыдущая модель, CS-2, потребляла 17 кВт энергии. CS-1 требовалось 19 кВт.

Что насчёт суперкомпьютера?

Сейчас Cerebras уже вовсю занимается внедрением этих систем в своём суперкластере Condor Galaxy AI. Он предназначен для работы с очень масштабными задачами с применением искусственного интеллекта. Кластер будет включать сразу девять суперкомпьютеров из разных регионов.

В этом году кластер планируется дополнить системой CG-3 в Далласе, штат Техас. В ходе её создания разработчики интегрируют несколько CS-3 с общей ИИ-производительностью 8 экзафлопс. В итоге общий результат суперкластера составит примерно 64 экзафлопс.

Но и это ещё не всё — дело в том, что производитель гигантских процессоров уже работает с Qualcomm. Партнёры собираются разрабатывать оптимизированные модели для ИИ-ускорителей Qualcomm с Arm-архитектурой.

В частности, запланирована оптимизация моделей для Cloud AI100 Ultra, в которых будут использоваться преимущества таких методов, как разреженность, спекулятивное декодирование, MX6 и поиск сетевой архитектуры.

«Как мы уже показали, разреженность при правильной реализации способна значительно повысить производительность ускорителей. Спекулятивное декодирование предназначено для повышения эффективности модели при развёртывании за счёт применения небольшой и облегчённой модели для генерации первоначального ответа, а затем использования более крупной модели для проверки точности этого ответа», — отметил гендиректор Cerebras Эндрю Фельдман (Andrew Feldman).

Конечно, чип от Cerebras не может быть недорогим. Скорее всего, его стоимость намного превысит цену ускорителей Nvidia H100 — они продаются примерно по $30 тысяч.

В ближайшем будущем компания раскроет больше информации о чипе, суперкомпьютере, включая стоимость того и другого

Комментарии (14)


  1. rPman
    18.03.2024 19:16
    +9

    У меня только один вопрос - почему их чип квадратный?

    Они же всю пластину утилизируют, зачем выбрасывать четыре хорды?


    1. Breathe_the_pressure
      18.03.2024 19:16
      +27

      Ну вы уж хотите ИИ дать все преимущества. Квадратное труднее перекатывать.


    1. NeoCode
      18.03.2024 19:16
      +2

      Может хорды использовали для других процессоров или микроконтроллеров.


      1. alliumnsk
        18.03.2024 19:16
        +1

        Такое практикуется?


    1. event1
      18.03.2024 19:16
      +1

      площадь круга с радиусом 150 мм — 70685 кв. мм


    1. clarifyingman
      18.03.2024 19:16
      +4

      Хорды? Мой внутренний математик негодует.

      Вы же хотели сказать 4 сегмента?

      P.S. Пойду форточку открою.


  1. Sonichka
    18.03.2024 19:16
    +2

    Есть уже пластины диаметром 400мм и похоже им есть куда расти со своим процессором.


  1. CBET_TbMbI
    18.03.2024 19:16
    +2

    Это хорошо. Может ИИшники, наконец, отстанут от видеокарт и те вернутся к нормальным своим ценам (насколько помню, всю жизнь у видюх и процев был примерный паритет по ценам).


    1. Sabbone
      18.03.2024 19:16
      +2

      Ну, или этот проц и станет видокартой


      1. NekitGeek
        18.03.2024 19:16
        +6

        ... но Crysis все равно будет лагать.


    1. rPman
      18.03.2024 19:16

      с сотнями тысяч долларов себестоимости за чип? еще столько же на обвязку, и за софт еще лямячик отдать.

      А это устройство как я понял продается с 10х наценкой.

      'не в этой жизни (с)'


  1. Zpon
    18.03.2024 19:16

    Хочу посмотреть хешрейт RandomX


  1. FireWind
    18.03.2024 19:16
    +2

    Интересно, как они отводят тепло от такого чипа? 17 Квт на такой площади, это совсем не мало


    1. rPman
      18.03.2024 19:16

      Специально созданное, жидкостное

      Посмотрите, какой размер помпы для прокачки жидкости у них (картинка на КДПВ старой статьи на хабре)

      https://habr.com/ru/companies/dcmiran/articles/476706/