Встречаем WSE-2: 7-нм процессор с 850 тысячами ядер и энергопотреблением в 15 кВт / forpes.ru

Главная
Встречаем WSE-2: 7-нм процессор с 850 тысячами ядер и энергопотреблением в 15 кВт

Встречаем WSE-2: 7-нм процессор с 850 тысячами ядер и энергопотреблением в 15 кВт +43

21.04.2021 14:31

skovalev 66 15400 Источник

Компания Cerebras два года назад представила свой первый процессор, размер которого был равен размеру кремниевой пластины. Площадь его составила 46 225 мм?, размеры — 220х220 мм, количество транзисторов — 1,2 трлн. Первый чип получил название WSE (Wafer Scale Engine) и производился по нормам 16-нм техпроцесса.

Что касается нового чипа, то он выполнен уже по нормам 7-нм техпроцесса. Площадь осталась той же, а вот транзисторов в два раза больше — теперь 2,6 трлн. Количество ядер тоже увеличилось более чем в два раза: 850 тысяч вместо 400 тысяч, как у предыдущей модели. Процессор предназначен для дата-центров, задач по обработке вычислений в области машинного обучения и искусственного интеллекта (AI).

Подробности создания и характеристики WSE-2

У чипа 40 ГБ встроенной памяти SRAM — на 22 ГБ больше, чем у предыдущей модели. Пропускная способность составляет 20 Пб/с. При этом энергопотребление чипа осталось на прежнем уровне — 15 кВт.

Отметим, что этот процессор — не концепт, а вполне себе рабочая система. Его создатели добиваются очень высокой производительности благодаря сшиванию штампов на кремниевой пластине посредством коммуникационной сети. Общая пропускная способность в итоге повышается до 220 Пб/с. Частота ядер — от 2,5-3 ГГц.

	Cerebras Wafer Scale Engine 2	Cerebras Wafer Scale Engine	Nvidia A100
Process Node	TSMC 7nm	TSMC 16nm	TSMC 7nm N7
AI Cores	850,000	400,000	6,912 + 432
Die Size	46,255 mm2	46,255 mm2	826 mm2
Transistors	2.6 Trillion	1.2 Trillion	54 Billion
On-Chip SRAM Memory	40 GB	18 GB	40 MB
Memory Bandwidth	20 PB/s	9 PB/s	1,555 GB/s
Fabric Bandwidth	220 Pb/s	100 Pb/s	600 GB/s
Power Consumption (System/Chip)	20kW / 15kW	20kW / 15kW	250W (PCIe) / 400W (SXM)

Чип сам по себе бесполезен, но компания специально для него разработала систему 15U, которая заточена исключительно под характеристики WSE-2. Система второго поколения почти ничем не отличается от системы первого. Блоки первого поколения ранее были отправлены заказчикам. Один из них установлен в Аргоннской национальной лаборатории министерства энергетики США. Она использует первую систему для научных целей — например, изучения черных дыр, а также для работы с медицинскими проблемами вроде анализа причин раковых заболеваний. Другим заказчиком стала Ливерморская национальная лаборатория.

В продажу чип и система для него поступят в третьем квартале 2021 года. Цена пока неизвестна.

Компания заявила, что компилятор легко масштабируется, так что проблем с использованием уже существующей экосистемы приложений нет. WSE-2 понимает стандартный код PyTorch и TensorFlow, который легко модифицируется с помощью специализированных программных инструментов и API-интерфейсов.

В чем уникальность такого процессора?

Именно в размере. Дело в том, что работать с одним большим чипом, площадь которого равна площади кремниевой пластины, очень сложно. Обычно микросхемы создают на круглых кремниевых пластинах диаметром 30,5 см. Из каждой можно изготовить 100 чипов.

Но далеко не все изготовленные чипы можно использовать, процент брака довольно велик. Проблема в процессе травления цепей в кремнии. Он настолько сложен, что не всегда проходит без ошибок и некоторые цепи в итоге просто не работают. Благодаря тому, что современные процессоры небольшие, процент ошибок невелик. Чем выше площадь чипа, тем больше вероятность получения дефектов, которые не позволят нормально использовать чип.

Большие процессоры пытались производить и ранее. Например, в 1980 году экс-сотрудник IBM Джин Амдал основал компанию Trilogy. Она получила целых $230 млн инвестиций, но в итоге так и не смогла выпустить готовый продукт, так что в 1985 году ее закрыли.

А вот у Cerebras, похоже, все получилось. Каким образом ей удалось достичь успеха, пока неясно, но, раз готовый продукт уже используется клиентами, значит, все хорошо. По словам представителей компании, WSE способен обучать системы AI в 100?1000 раз быстрее, чем существующее оборудование. Этого удалось достичь благодаря фильтрации нулевых данных ядрами SLAC (Sparse Linear Algebra Cores). Они оптимизированы для вычислений в векторном пространстве. Кроме того, разработчикам удалось создать технологию «утилизации разреженности» (sparsity harvesting) для повышения производительности вычислений при разреженных рабочих нагрузках (содержащих нули), таких как глубокое обучение.

Комментарии (66)

cepera_ang
21.04.2021 18:42
#22951308
+2
На минутку подумал, что такое дело можно будет у вас в облаке арендовать, даже загордился за российского провайдера :)

Железка однако весьма достойная, и когда о ней появилась первая информация, вызвала даже волну отрицания, что такое невозможно изготовить, а если возможно, то невозможно собрать в систему и охладить, а если и возможно, то всё равно никто не купит. Однако, клиентов хватает, судя по всему. Вот откуда дефицит чипов, если на каждый церебрас по целой пластине тратить :)
1. isden
  21.04.2021 18:43
  #22951316
  +1
  если на каждый церебрас по целой пластине тратить
  Еще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.
  1. cepera_ang
    21.04.2021 18:45
    #22951336
    +6
    Думаю нисколько, насколько я понимаю, там с запасом натыкано и ядер и интерконнектов и все дефектные просто отключаются и обходятся вокруг. Иначе вообще ни одного нереально было бы выпустить.
    
    perfect_genius
    21.04.2021 22:27
    #22952026
    Эдакий МультиКлет, получается.
    
    napa3um
    22.04.2021 13:02
    #22954184
    Интересно, возможна ли малварь (ну или не малварь), которая оживляет заблоченные на заводе ядра и биткоины на них майнит (пусть иногда с ошибками). Оверклокинг будет не по количеству мегагерц выше нормы, а по количеству ядер :).
  1. amartology
    22.04.2021 18:35
    #22955742
    +1
    ще интересно сколько там пластин в мусор уходит, чтобы получить одну годную.
    Они заявляют про процент выхода годных 100%, с учетом наличия в первом поколении 1.5% запасных ядер, а во втором — «намного меньше, чем в первом».
    
    Am0ralist
    22.04.2021 20:56
    #22956138
    У амд с пластины около 30% брака при их чиплетах на 7 нм по статьям выходило. Если продумали систему, как отрубать бракованные ядра по одному-группами меньше чиплетов амд, то общий ущерб пластине будет сильно меньше. Видимо с хорошим запасом делают.
    
    Ark1774
    23.04.2021 11:36
    #22958068
    30% брака это на старте линии или на уже отлаженной? А то эти цифры значительно различаются.
    
    Am0ralist
    23.04.2021 13:02
    #22958502
    Статья была в общем, анализ какой-то. И там было: мол у АМД вот типа 30% брака на zen2, а у интела чуть ли не 75% для 28 ядерных. С другой стороны у амд чиплеты весьма активно сортируются и полубрак в младшие процы уходит по всем параметра (и по частотам ядер, и по потреблению, и по отключению ненужных ядер) — и не понятно поэтому насколько цифра изменится, если задача сделать те же апушки для приставок (где монолитные кристаллы в несколько раз больше габаритами и с большей точностью параметров нужны), там может и больше быть.
    
    Но, если у обсуждаемых можно весьма гибко плохие места отключать от общей системы, то чем чёрт не шутит, могут и все пластины в итоге быть рабочими, просто на самом деле там может ядер процентов на 10 больше, например, да и параметры по частотам выбраны не максимально возможные на отсортированных ядрах, а какие-то не самые высокие.
1. ANIDEANI
  22.04.2021 06:53
  #22952774
  На нём crysis хоть пойдёт?
  1. Wingtiger
    22.04.2021 22:22
    #22956438
    нет, только брутал дум кое-как

a_freeman
21.04.2021 18:44
#22951330
При напряжении питания ядра, допустим, 1 Вольт, пиковый ток составит 15 кА.

Подвести такое по печатной плате очень сложно, сделать такую плату которая обеспечит подведение такой мощности с минимальным падением напряжения еще сложнее.
Вероятно для каждого из 12*7==84 SoC (каждый из которых может потреблять до 15kW/84==178W) на обратной стороне платы стоит компактный индивидуальный источник питания. Звучит уже вполне жизнеспособно.

После такого, вылезает второй вопрос: как они все это паяют? Понятно, что с паяльной пастой на печатной плате, с печью (smt reflow oven), но на таких масштабах любая неровность платы будет приводить к браку, любые температурные неоднородности в процессе нагрева будут вызывать такие неровности.

Допустим, спаяли. Даже запустили. В пиковом режиме эта штука выделяет до 15 киловатт. Как это охлаждать? :D

В общем вопросов после статьи больше чем ответов :)
1. cepera_ang
  21.04.2021 18:47
  #22951340
  Там ко всей плате подводится питание, ага. А с другой стороны равномерно тепловые трубки и дальше вода. Но всё равно это нужно включать в особом режиме, чтобы равномерно прогревалось и потом нагрузку тоже балансировать туда-сюда по ядрам. У них была крутая презентация на hotchips в прошлом году про эти системы. Хотя совсем детальных деталей никто не расскажет — ведь это то, что отличает их от конкурентов и почему их малореально сходу повторить.
  1. atd
    22.04.2021 09:52
    #22953182
    тепловые трубки не унесут столько мощности с такой площади, инфа 100%. по трубкам надо сразу воду качать
    
    DGN
    24.04.2021 09:21
    #22961578
    У 3M есть специальная жидкость для погружного охлаждения. Она просто кипит на поверхности кристалла.
    
    drWhy
    24.04.2021 12:43
    #22961976
    При кипении теплоотвод ухудшается из-за образующихся пузырьков пара. Проточная вода в данном случае наверно эффективнее.
    
    Ark1774
    24.04.2021 15:43
    #22962430
    Проточная вода проводит электричество в отличии от этой жидкости. И её как минимум местами используют, хоть она очень дорогая и активно испаряется. Возможно на глубине за счёт давления пузырьки крошечные и не влияют. Зато работает естественная конвекция, плюс пожаробезопасность.
    
    drWhy
    24.04.2021 16:46
    #22962638
    Так тут 15 кВт на 0,05 м. Ну и вода контакта непосредственного не имеет с кристаллом, снимает тепло с цельной медной пластины — фотка ниже.
    Можно дейтерийной водой непосредственно охлаждать, у неё проводимость гораздо ниже, а цену такого контура владельцы Cerebras себе наверняка позволить могут.
    
    Ark1774
    25.04.2021 08:24
    #22964192
    А если протечка? Минус дорогущий сервер и те что под ним. К тому же на самой материнке нужно часть горячих элементов охлаждать(те же конвертеры питания или мосты).
    А так бахнул комп в сухую воду или масло. И защита и охлаждение.
1. isden
  21.04.2021 18:48
  #22951344
  +1
  В прошлой статье есть пара интересных картинок.
  1. cepera_ang
    21.04.2021 18:50
    #22951360
    Хм, а в чём тогда новизна этой? :))
    
    isden
    21.04.2021 18:51
    #22951364
    +1
    Там рассказали, а тут выпустили :)
    
    cepera_ang
    21.04.2021 18:53
    #22951382
    Я имею в виду — в чём новизна статьи, которую мы обсуждаем :) По прошлой ссылке всё тоже самое описано. Селектел окончательно заленился и пошёл рерайтить собственные материалы по второму кругу?
    
    isden
    21.04.2021 18:55
    #22951384
    +1
    Ну там я так понял был анонс что мол вот будем такое делать, а тут уже готовый продукт.
    
    cepera_ang
    21.04.2021 18:59
    #22951408
    В продажу чип и система для него поступят в третьем квартале 2021 года
    Не особо отличается от анонса :)
    
    Ну, а с точки зрения простых пользователей (а не атомных лабораторий), так и вообще никогда — и цена 5-10лямов и не продаст никто (такой суперкомпьютер в коробке, щас).
    
    algotrader2013
    21.04.2021 19:09
    #22951448
    Может, когда-то подобное будет в AWS с прайсом в $5000 в час…
    Тогда представляю стартаперов, которые будут рассуждать «что-то пока наша модель, которая должна сделать прорыв в ИИ не фитится, но ничего, чуток инвестиций поднимем, часов 100 возьмем машинного времени, и тогда стартап точно взлетит»
1. drWhy
  21.04.2021 19:28
  #22951500
  ". Как это охлаждать? :D"
  СЖО Cerebras
1. MaximRV
  22.04.2021 13:21
  #22954284
  про питание и охлад, тут более менее на слайдах понятно: 3dnews.ru/992698

algotrader2013
21.04.2021 18:59
#22951410
-3
Интересно, почему столь скучным заказчикам достается такая мощь. Неужели обладание подобным чипом не может дать буст Гуглу в улучшении поиска, Тесле в улучшении автопилота, или, Фейсбуку в оптимизации рекламы?
1. drWhy
  21.04.2021 19:32
  #22951518
  +1
  А что, проведение симуляции атомных взрывов уже записали в скушности?
1. spqr_voldi
  21.04.2021 20:50
  #22951750
  +1
  Это как раз очень даже весёлые заказчики.
1. perfect_genius
  21.04.2021 22:25
  #22952016
  У вас иммунитет от рака?
  1. user1er
    22.04.2021 02:26
    #22952544
    Она использует первую систему для научных целей — например, изучения черных дыр, а также для работы с медицинскими проблемами вроде анализа причин раковых заболеваний.
    лишь бы не вышло как тут — а что это у вас тут жёлтенькое?
    На второй вопрос ответ вероятно будет содержаться в первом предложений из соседней статьй. Человек — это то, что он потребляет. Осталось только выделить конкретный маркер.
1. dyuriev
  22.04.2021 08:32
  #22952964
  в Тесле особенно 15кВт лишние, ага
  1. ivankudryavtsev
    22.04.2021 12:32
    #22954022
    видимо, речь идет про обучение, а не про бортовую систему.

bgnx
21.04.2021 20:38
#22951730
Вот он — триумф вертикального масштабирования! In-memory база данных поверх такого процессора способна будет обрабатывать десятки, сотни миллионов или возможно даже миллиард serializable транзакций в секунду и способна заменить сотни/тысячи серверов (и тот огромный оверхед при реализации распределенных транзакций в случае горизонтального масштабирования) определенно точно найдет своего покупателя.
Интересно как в этом процессоре работает механизм cache-coherence который обеспечивает CAS ("compare-and-swap") и другие атомарные обновления памяти? Cache-coherence это другими словами реализация атомарного бродкаста и поскольку это и так самая сложная часть при проектировании современных процессоров то здесь при 850 тысяч ядрер и возможном отказе этих ядер по отдельности проектировщики должны были выйти на уровень распределенных систем (интересно они реализовали paxos в железе?)
1. amarao
  21.04.2021 23:33
  #22952230
  +1
  Никак. Это же не процессор общего назначения.
1. MaximRV
  22.04.2021 13:26
  #22954308
  Чую для баз данных скоро тоже будут делать специализированные процессоры. Ещё более оптимизированные. Следующий шаг — реализация элементов языков запросов силами процессора, индексация таблиц силами встроенной памяти (типа «умная память» с дополнительной обработкой информации).
1. krote
  22.04.2021 19:43
  #22955936
  думаю с транзакциями там было бы все очень очень плохо, ибо очень большие проблемы горизонтальной синхронизации данных и т.п. для ридонли возможно разве что
  1. MaximRV
    22.04.2021 21:19
    #22956218
    Интересные наработки: www.osp.ru/os/2019/02/13054946

QuakeMan
21.04.2021 21:15
#22951834
Привели бы единицы измерения в столбцах к одной размерности. А то к Nvidia A100 пропускная шины в гигабайтах/сек, а к Cerebras в петабитах/сек.
К битам или байтам.
1. Mad__Max
  23.04.2021 17:38
  #22959680
  Зачем? Ведь в попугаях (битах вместо байт), удав получается значительно длиннее! (с) маркетологи.

Andrey_Dolg
21.04.2021 21:57
#22951952
Интересно почему он не круглой формы раз размером с кремниевую пластину, зачем же лишнее отрезать?
1. Ark1774
  21.04.2021 22:52
  #22952108
  Технология видимо не позволяет изготовлять круглые процессоры, т.к. адаптирована с маленьких. А значит там остаётся пустое место, которое никак не задействуется. Его откалывают и отправляют на повторный круг.
  1. alexey_public
    21.04.2021 23:20
    #22952194
    Его откалывают и выбрасывают. Кстати если они их сразу не уничтожают, то скоро на ali появятся миниатюрные Cerebras из кусочков :-)
1. stalinets
  21.04.2021 23:36
  #22952238
  +1
  Делали бы уже шар, с сокетом в виде двух полушарий и в сокете же подведение воды…
1. Mad__Max
  23.04.2021 17:42
  #22959700
  Потому что все литографические шаблоны (через которые «проецируется» схема чипа на пластину) и литографическая оптика работает с прямоугольными областями, разработанными для производства классических чипов. Никто под один даже сверхсложный чип свое собственное производственное оборудование разрабатывать и строить свои собственные отдельные заводы не будет, используют(адаптируют) то, что уже имеется.
  
  Вот из таких областей (их на фото четко видно 12х7 «плиток») чип и составлен. Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
  1. amartology
    23.04.2021 19:18
    #22960054
    Края куда уже не вписывается еще один подобный прямоугольных обрезаны.
    В целом вы правы, но все чуть-чуть сложнее.
    
    Ark1774
    24.04.2021 16:09
    #22962522
    Это усложнит технологию отделения кристаллов. Квадрат вписанный в круг легко отделить автоматически(и потом поделить на дольки), а вот огрызки придётся вручную доламывать.

ba00
21.04.2021 22:53
#22952112
+1
Интересно, сколько мегахешей даст на эфире или битке? :)
1. qyix7z
  22.04.2021 07:16
  #22952802
  Интереснее, сколько хешей на Вт приходится. А то может цифра будет впечатляющей, но платить за 15 кВт…
1. sappience
  22.04.2021 08:32
  #22952966
  Все.

Jetmanman
22.04.2021 07:20
#22952810
Цена известна?
1. amartology
  22.04.2021 18:37
  #22955748
  Порядка 5 миллионов долларов за системный блок.

sheru
22.04.2021 07:34
#22952826
Интересно, 1С ERP потянет?
Поговаривают, что там минимальные требования от 250мм х 250мм

smiface
22.04.2021 08:32
#22952968
Ждём тестов в майнинге

p_fox
22.04.2021 09:17
#22953084
Так мы его почти год назад встречали уже. И на Хабре писали:
https://habr.com/ru/company/selectel/blog/516516/
Тут конечно информации чуть больше. Но ажиотаж все равно непонятен.
А еще на многих ресурсах восхищенно обсуждают кол-во ядер. Забывая, что это не те ядра, что мы привыкли видеть в цп, а ближе к тем, что в видеокартах. Которые, кстати, тоже исчисляются тысячами давно.

dim2r
22.04.2021 09:45
#22953148
В 90х был проект транспютеров с языком параллельного программирования Оccam. Может опять станет востребованным. Тогда он работал на десятках связанных процессоров
1. isden
  22.04.2021 12:27
  #22953998
  Кмк, даже не учитывая языков вроде erlang, любой современный язык сможет утилизировать все эти 100500 ядер. Все зависит от архитектуры приложения и системы.

Nick_Shl
22.04.2021 18:05
#22955638
Одно не понятно: зачем на одной платине? В чём преимущество? Почему нельзя разрезать и установить отельные кристаллы как делала IBM для своей System/390 ES9000 Enterprise Server mainframe computer ещё в 90-х?
1. isden
  22.04.2021 18:18
  #22955676
  850к ядер? Даже если по 16 ядер на кристалл, это будет 53к кристаллов. На одной пластине проще сразу все сделать.
  
  Am0ralist
  22.04.2021 18:33
  #22955736
  Эм… так там же не те ядра. Даже в статье сравнивают с нвидиевским ядром. У которого по 7к ядер на кристалле.
1. amartology
  22.04.2021 18:44
  #22955762
  Все ради увеличения пропускной способности памяти. Это просто следующий шаг по сравнению с упомянутым вами девайсом от IBM. На него раньше не решались, потому что предыдущие попытки неизменно ломались об низкий процент выхода годных.
  
  Nick_Shl
  22.04.2021 20:44
  #22956098
  Не смешите. Пропускная способность памяти с одного края кристалла до другого будет не лучшей. Судя по квадратикам на пластине там N ядер + память разбиты на ячейки. И именно эти ячейки делают вычисления. Не думаю, что данные там сильно бегают от ячейки к ячейке. Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно. Но зато конструктив упростится, меньше проблем с неравномерным нагревом кристалла, с хрупкостью и тому подобным. Это больше похоже на "А потому что могём! А потому что круто!". Да можете. Да круто. Вот только преимуществ толком не даёт.
  
  amartology
  22.04.2021 20:51
  #22956122
  Не думаю, что данные там сильно бегают от ячейки к ячейке.
  Заявленная пропускная способность коммутационного массива — 220 петабит в секунду.
  
  Если пластину разрезать и смонтировать эти ячейки так как у того же IBM — ухудшится всё не сильно.
  Ухудшится принципиально. Емкость линии между двумя чипами — несколько пикофарад, индуктивность — несколько наногенри. Когда мы говорим о сотнях тысяч или миллионах линий, этого вполне достаточно, чтобы серьезно влиять и на быстродействие, и на энергопотребление.

VityaYerpenko
23.04.2021 16:22
#22959358
Интересное железо