Буквально вслед за 10-нм процессорами Ice Lake Intel выпускает новое поколение своих FPGA, также производимых по 10-нм техпроцессу. Новая серия получила наименование Intel Agilex; по традиции, идущей со времен Altera, она разбита на несколько классов устройств для различных применений. В этом посте — общий обзор всей линейки Agilex.



Мы живем в мире облачных сервисов, самообучающихся систем и беспроводных сетей, где скорость обмена данными и их обработки постоянно увеличивается, а задержки должны уменьшаться. Новые FPGA Intel Agilex отвечают всем требованиям сегодняшнего дня и не сдадут свои позиции завтра. Перечислим отличительные особенности новой линейки.

  • Compute Express Link. Это первые FPGA, поддерживающие новую технологию Compute Express Link (CXL) подключения кеша и памяти, используемую в будущих поколениях процессоров Intel Xeon Scalable.
  • Архитектура HyperFlex второго поколения. Увеличение производительности и уменьшение потребления на 40% по сравнению с FPGA Intel Stratix 10.
  • Инновации в DSP. Первые и единственные пока FPGA, аппаратно поддерживающие BFLOAT16, производительность Digital Signal Processor — до 40 TFLOPS.
  • Поддержка стандарта Peripheral Component Interconnect express (PCIe) Gen 5.Более высокая скорость обмена данными по сравнению с PCIe Gen 4.
  • Скорость работы трансиверов. Поддержка трансиверов 112 Гб/с для сетей передачи данных 400GE и выше.
  • Расширенная поддержка памяти. Поддержка DDR4, перспективной DDR5, HBM и Intel Optane DC persistent memory.

Семейство Intel Agilex содержит три класса устройств.

  • Intel Agilex F-Series. FPGA и SoC этой серии характеризуется поддержкой трансиверов производительностью 58 Гбит/с, расширенными возможностями DSP, высокой интеграцией и архитектурой Intel Hyperflex Gen2. Они предназначаются для применения в дата-центрах и сетевых устройствах. Также имеется возможность интеграции FPGA с 4-ядерным процессором Arm Cortex-A53 для выполнения более широкого круга задач.
  • Intel Agilex I-Series. SoC и FPGA этой серии оптимизированы для высоконагруженных систем, передающих большое количество данных. Их особые приметы — возможность подключения к процессорам Intel Xeon с помощью шины Compute Express Link, аппаратная поддержка PCIe Gen 5 и трансиверы производительностью до 112 Гб/с.
  • Intel Agilex M-Series. SoC и FPGA данной серии предназначены для приложений, требовательных к вычислительной мощности и производительности памяти. Их характеристики: непосредственное подключение к процессорам Intel Xeon, поддержка HBM, встроенный контроллер DDR5, поддержка памяти Intel Optane DC persistent memory.

Технические спецификации FPGA Intel Agilex на сайте Intel:


Мы продолжим разговор о FPGA Intel Agilex по мере поступления интересных технических данных, их касающихся.

Комментарии (6)


  1. Inanity
    12.09.2019 12:48
    +1

    К сожалению, в размерности LUT-a пока прогресса нет, революция откладывается. Всё тот же LUT6. По сравнению со Stratix-10 добавили больше мультиплексоров в ALM, что по идее улучшит связность, хотя такое ощущение, что это на самом деле дублирует роль интреконнектов, т.е. наверняка очень мало скажется на конечном результате. Быстрый выход LUT6 и LUT5 тоже как новинка.

    Stratix-10 ALM


    1. amartology
      12.09.2019 14:35

      К сожалению, в размерности LUT-a пока прогресса нет, революция откладывается. Всё тот же LUT6.
      А кто сказал, что LUT c размерностью больше шестерки — это хорошо?


      1. Inanity
        12.09.2019 15:37

        А кто сказал, что LUT c размерностью больше шестерки — это хорошо?
        Если технология позволяет создать LUT большей размерности при той же производительности (задержке) и стоимости, то это практически всегда хорошо. Больше размерность LUT — более сложную логику (булеву функцию) можно упаковать внутри. А польза вполне очевидная. То, что делалось за 4 такта конвейера на LUT6 теоретически можно было бы сделать за 2 такта на LUT8, к примеру. Потом, обратите внимание, что судя по документации LUT6 получается из LUT4 двойным мультиплексированием. Конечно, не понятно как это выглядит на кристалле, но вполне вероятно, что базовый примитив таки — LUT4. Возможно на бОльшую размерность не переходят, т.к. пока нет на рынке критичных задач для такой архитектуры. Да и LUT6 уникален тем, что в него вмещается легко мультиплексор 4:1 + 2 входа управления. Например, для 8:1 уже нужно было бы LUT11 (8+3), что пока, видимо сложновато и не нужно. Да и софт придётся приспосабливать.


        1. Brak0del
          12.09.2019 16:13

          Здесь всё не так однозначно. С одной стороны, LUT6 позволяют вместить больше логики, а с другой — тянут увеличение энергопотребления, а также увеличение количества трассировочных линий на кристалле (и задержек распространения сигналов). Для LUT8 всё будет ещё хуже.
          Для примера, Microsemi в своих энергоэффективных FPGA целенаправленно использует 4-входовые LUT (их рассуждения о причинах).
          Вообще, размер LUT — это область активных исследований. Та же Altera/Intel выбрала LUT6, приводя данные по увеличению производительности на 14% за счет уменьшения числа уровней логики, но при этом и оверхед по площади в 17% (по сравнению с LUT4). Далее, они же приводят информацию о том, что средства синтеза используют LUT6 неэффективно, т.е. в большинстве случаев LUT6 остаются заполненными не до предела. Тема очень интересна, подробности можно глянуть например здесь и здесь. Видно много компромиссов и насколько я могу судить из их выкладок, оптимальное решение лежит в районе LUT4-LUT6.


        1. amartology
          12.09.2019 17:18
          +1

          Если технология позволяет создать LUT большей размерности при той же производительности (задержке) и стоимости, то это практически всегда хорошо.
          Так нет же, не «практически всегда хорошо», а на самом деле есть куча минусов, например те, что озвучены в комментарии выше. А для совсем простых задач вполне себе есть устройства с LUT2 и LUT3, и их производители явно не были ограничены ни в чем.


  1. leshabirukov
    12.09.2019 15:54

    Планируется ли поддержка BFLOAT16 в недорогих сериях?