Новое поколение ПЛИС это не только про повышение частоты… / forpes.ru

Главная
Новое поколение ПЛИС это не только про повышение частоты…

Новое поколение ПЛИС это не только про повышение частоты… +7

29.11.2025 13:05

yamifa_1234 8 7100 Источник

В этой статье хочу рассмотреть различные ПЛИС со стороны потребления ресурсов одного и того же проекта. Всем известно, что ПЛИС состоит из блоков (CLB), а вот содержимое этих блоков качественно меняется от поколения к поколению.

Прослеживается тенденция (и она очевидна), что сложность CLB повышается, сами примитивы становятся хитрее. От сюда вытекает вопрос, а на сколько эффективными становятся ячейки, и сколько ресурсов ПЛИС они экономят в сравнении с предыдущими поколениями?

Краткое пояснение

Эта статья не про оптимизацию и не описание внутреннего строения ПЛИС. Это МИНИ-статья, которая рассматривает конкретный аспект: сколько ресурсов потребляет один и тот же проект на разных ПЛИС.

Суть эксперимента

Я решил взять готовый код с гитхаба AES-128 написанный на Verilog, сделать ему минимальную обвязку и собрать.

Структура проекта получилась следующей:

Модуль UART на входе, для приема 16 байт ключа и 16 байт данных; так же условно добавил 1 байт в начале для определения передаваемых данных (ключ или данные), в первом байте также передается режим работы модуля: кодировать или декодировать. Таким образом функционал модуля задействован полностью и синтезатор не должен выкинуть лишнее.

Результат работы модуля AES-128 сохраняется в регистр, тоже 16-байтный и побайтно выводится через тот же UART.

Подопытные

Для данного эксперимента мне не нужно иметь физически ПЛИС на руках, достаточно выбрать целевой камень в проекте и сделать имплементацию. А это значит, что нужно определиться с выбором FPGA, которые будут участвовать.

Начну с самого маленького кристалла:

Spartan-3 (XC3S1000) – Я пробовал взять XC3S400, но проект в эту ПЛИС не влез.
Spartan-6 (XC6SLX16) – На таком кристалле есть пустые отладки на Aliexpress. У меня такая уже есть, поэтому решил взять именно ее, несмотря на то что в мире полно отладок и на XC6SLX9.
Artix-7 (xc7a100t) – У меня имеется отладка Nexys A7, на ней как раз стоит этот кристалл, поэтому выбор пал на нее как на представителей седьмого семейства.
Kintex UltraScale (xcku040) – c UltraScale я напрямую не сталкивался и не знаю какую ПЛИС удачнее выбрать, поэтому пошел на Aliexpress, вбил ключевые слова и нашел пару отладок, с них и взял название кристалла.

Наверняка все заметили, что в эксперименте участвуют ПЛИС фирмы Xilinx. Так сложилось, что на практике я сталкивался только с этой фирмой.

Так же для каждого эксперимента буду указывать выбранный грейд кристалла и Максимальную частоту на которой получилось собрать проект(Fmax).

Ход эксперимента

Список я начал с самой маленькой ПЛИС, и эксперимент так же начну с самой маленькой.

Spartan-3. grade-5, Fmax = 46 MHz

Slice Registers	2448
4 input LUTs	10001
Slices	6265

report utilization

Тут стоит отметить, что в Spartan-3 один слайс имеет 2 LUT и 2 регистра, примерно так и получается, что потребление LUT-ов примерно в 2 раза больше, чем слайсов (разумеется, численно). Далее будет видно, как потребление LUT будет уменьшаться.

Также хочу отметить, что при первой попытке сборки синтезатор использовал ROM память, чем увеличил частоту проекта и дополнительно увеличил потребление ресурсов. Чем это объяснить - не знаю.

Spartan 6. grade-3, Fmax = 104 MHz

Slice Registers	2451
Slices LUTs	5188
Slices	1573

Для этой сборки пришлось обратно включить использование RAM и ROM, возможно потому, что некоторые ресурсы слайсов могут использоваться в качестве памяти. Поэтому в данном плане эксперимент в потреблении ресурсов в сравнении со Спартан 3 будет не чистым, но(!) при полученной сборке не ~~пострадал~~ использовался ни один ROM.

Итак, что имеем: количество использованных регистров осталось ± прежним. А вот использование LUT, значительно сократилось. Также сократилось использование слайсов. Это вызвано в первую очередь измененной архитектурой слайса. Каждый слайс стал иметь до четырех 6-входовых LUT и 8 регистров. За счет увеличения количества входов LUT синтезатору удается более эффективно собрать код, а за счет увеличенного числа ресурсов на слайс, число слайсов уменьшилось.

report utilization

Artix-7. grade-1, Fmax = 87 MHz

Slice Registers	2460
Slices LUTs	3412
Slices	1214
F7 Muxes	545
F8 Muxes	140

Здесь стоит отметить, что я перешел в Vivado 2019.1.

В седьмом семействе ПЛИС уже на одну CLB полагается два слайса. В каждом слайсе 16 регистров, 8 лутов, и дополнительные функции - такие как: арифметические цепи и цепи переноса, распределённая память и сдвиговый регистр. Помимо того, значительно улучшена маршрутизация компонентов.

И аналогично видно, что потребление ресурсов снова снизилось, за счет более эффективных примитивов. Также видно, что добавились мультиплексоры, которые, кстати объединяют 2 LUT в один логический.

report utilization

Kintex UltraScale. grade-1, Fmax = 166 MHz

Slice Registers	2462
Slices LUTs	3409
CLB(вместо Slice)	608
F7 Muxes	545
F8 Muxes	140

На данном этапе теория провалилась. Поколение изменило ступень, но значительного прироста не произошло, зато они изменили архитектуру - если в предыдущем поколении на один CLB приходилось 2 Slice, то в этом кристалле от слайсов отказались и все считают в CLB; и все ресурсы что были раньше из двух слайсов переместили в один CLB. Из-за чего можно отметить уменьшение числа CLB вместо слайсов в два раза. Кроме того в этом семействе появились F9 Muxes, что в перспективе должно улучшить сборку проектов.

report utilization

Итоговая таблица

Параметр	Spartan-3	Spartan-6	Artix-7	Kintex UltraScale	Kintex UltraScale+
Slice Registers	2448	2451	2460	2462	2462
LUTs	10001	5188(-48%)	3412(-34%)	3409	3410
Slice/CLB	6265	1573(-75%)	1214(-23%)	608(-0%) CLB	673 CLB
F7 Muxes	-	-	545	545	545
F8 Muxes	-	-	140	140	140
Fmax(MHz)	46	104	87	166	200

В таблице выше я свел все показатели в одну таблицу. В скобках указан процент того, сколько было сохранено ресурсов в сравнении с предыдущим поколением.

Из таблицы видно, что потребление регистров не сильно зависит от поколения ПЛИС.

Значимых улучшений для UltraScale не наблюдается, видимо это какой-то переходный этап у Xilinx. Также не удержался и сделал контрольную сборку, но для UltraScale+. Видно, что поднялось потребление CLB, но все остальное осталось прежним.

Так же добавил строку с максимальной частотой. Это частота на которой получилось собрать проект. Тут стоит отметить факт, что для Спартана 3 и 6, уровень логики был в пределе 7-8, а уже для остальных кристаллов уровень логики был больше и составлял 13-16.

Заключение

Новое поколение ПЛИС это не только про повышение частоты и уменьшение нанометров, но также про более эффективное использование ресурсов. Разумеется, это связанно в первую очередь с изменением архитектуры ячеек и примитивов.

Использованная литература.

Комментарии (8)

nerudo
29.11.2025 14:22
#29181716
Для полноты исследования интересно было бы сразу привести тактовую частоту, на которой это ядро сможет работать в каждом семействе. Без фанатизма, например с настройками компиляции по-умолчанию и на каком-нибудь среднем speed grade.
1. yamifa_1234 Автор
  29.11.2025 14:22
  #29182204
  на спартане 3, на стадии синтеза, обещалась частота работы в районе 50Мгц, для спартана 6(грейд 3) частота уже в районе 100МГц. значения частот брал из вот такого сообщения, на сколько можно ему верить не могу точно сказать.

nerudo
29.11.2025 14:22
#29181750
Улучшений между Artix и Ultrascale не наблюдается, т.к. там очень близкая структура логических элементов. Изменения носили более глобальный характер. В первую очередь полная смена парадигмы тактовых деревьев. Считать в CLB - бесполезно, т.к. это исключительно вопрос оптимизации при работе плэйсера. Поместили два триггера в один CLB - занят один. Поместили в два соседних CLB - формально занято два, хотя фактический расход ресурсов одинаков.

Brak0del
29.11.2025 14:22
#29182394
Значимых улучшений для UltraScale не наблюдается, видимо это какой-то переходный этап у Xilinx.

Существенные улучшения там в частоте, Ультраскейл выжмет частоту раза в два выше, чем Артикс, а Артикс хоть немного да выше, чем Спартан. Собственно, потому он и Ультраскейл, что там степень интеграции выше. Почему важна высокая частота? Например потому, что появляется возможность работать с более скоростными трансиверами и запускать проекты про 10G/100G/400G, у которых широкие шины на не слишком низких частотах.

Прослеживается тенденция (и она очевидна), что сложность CLB повышается, сами примитивы становятся хитрее. От сюда вытекает вопрос, а на сколько эффективными становятся ячейки, и сколько ресурсов ПЛИС они экономят в сравнении с предыдущими поколениями?

Насчёт архитектуры, насколько помню, эволюция LUT на данный момент сошлась на том, что для low-power и low-footprint ПЛИС используют 4-входовые LUT, а для производительных ПЛИС 6-входовые. 6-входовые уменьшают кол-во уровней логики, отчего повышается частота, но чуть менее эффективны по площади. Упомянутый вами переход от 2 SLICE в CLB к одному тоже соответствует тренду на улучшение производительности -- ещё короче все пути. Также в Ультраскейлах улучшена архитектура роутинга, т.е. больше путей между всеми элементами и больше вариантов соединений.
1. yamifa_1234 Автор
  29.11.2025 14:22
  #29182692
  Существенные улучшения там в частоте
  
  Частоту я не оценивал, смотрел лишь на потребление ресурсов.
  Но комментарий ваш очень полезен, спасибо)

Ilya_JOATMON
29.11.2025 14:22
#29183344
Да, в сравнении стоило указать техпроцессы плис и достижимые в них частоты IP блока.

yamifa_1234 Автор
29.11.2025 14:22
#29184582
Прислушался к комментариям выше и доработал материал. указал частоту на которой получилось собрать проект. Выявились некоторые детали

checkpoint
29.11.2025 14:22
#29190610
Я мечтаю о ПЛИС с классической архитектурой логического блока (5/6-LUT + FF + 1-bit ALU + MUX) с гигантским количеством блоков и линий интерконнекта, выполненный по топовым нанометрам. Есть какое-то внутреннее чувство, что Ваш тестовый проект на такой ПЛИС мог бы выдать Fmax = 1 ГГц. Но прогресс ушел куда-то не туда.

Новое поколение ПЛИС это не только про повышение частоты… +7

Краткое пояснение

Суть эксперимента

Подопытные

Ход эксперимента

Итоговая таблица

Заключение

Комментарии (8)

nerudo

yamifa_1234 Автор

nerudo

Brak0del

yamifa_1234 Автор

Ilya_JOATMON

yamifa_1234 Автор

checkpoint