Привет Хабр! С вами снова ServerFlow и мы хотим поговорить о насущном – о ИИ с нейросетями, а точнее о железе на котором нейросети обучают и на котором впоследствии они работают. В последние годы эта индустрия напоминает арену бойцовского клуба, где технологические гиганты с ожесточенной конкуренцией стремятся предложить наиболее производительные и эффективные решения для машинного обучения. И хотя не особо похоже, чтобы у кого-то на этой арене получилось сместить лидера рынка в лице NVIDIA, однако, попытки продолжают предприниматься.
Так продолжает и Intel, представив свету свою серию ИИ-ускорителей под брендом Gaudi, а не так давно и обновленную модель Gaudi 3. Ранее Intel предпринимала попытки в собственные разработки ИИ ускорителей, но в этот раз за работу взялась компания Habana Labs, приобретённая Intel в 2019 году за внушительную сумму в 2 миллиарда долларов. 

Путь к Gaudi

Корни архитектуры Gaudi уходят глубоко в разработки израильского стартапа Habana Labs, который был основан в 2016 году группой опытных инженеров и предпринимателей.

Первым значительным достижением Habana Labs стал выпуск Goya - процессора, оптимизированного для инференса нейронных сетей. Goya продемонстрировал впечатляющие результаты в задачах машинного обучения. Высокая производительность в купе с конкурентной энергоэффективностью привлекли внимание технологических гигантов, в том числе и Intel. 

Видя потенциал дальнейших разработок Habana Labs и их возможное влияние на рынок ИИ-ускорителей, Intel приняла стратегическое решение о полном приобретении компании за внушительную сумму в 2 миллиарда долларов. Это решение было обусловлено не только успехом Goya, но и перспективами разрабатываемого процессора Gaudi для обучения нейронных сетей.

Ускорители Intel Gaudi HL-205 установленные в специализированный сервер Habana Labs Gaudi HLS 1 OAM
Ускорители Intel Gaudi HL-205 установленные в специализированный сервер Habana Labs Gaudi HLS 1 OAM

Стоит отметить, что Intel ранее предпринимала попытки разработки собственных решений для работы с ИИ, такие как Intel Loihi, Nervana или потребительный Neural Compute Stick. Однако этим проектам не удалось достичь массового успеха из-за недостаточной конкурентоспособности. Именно это побудило Intel к приобретению Habana Labs, чьи разработки уже доказали свою эффективность, для быстрого усиления своих позиций на рынке ИИ-ускорителей.

Такое решение, хотя и было дорогостоящим, оказалось стратегически оправданным для Intel. Приобретение Habana Labs не только предоставило компании доступ к передовым технологиям в области ИИ, но и позволило быстро укрепить свои позиции на этом перспективном рынке, компенсируя отставание от конкурентов в сфере ИИ-ускорителей.

Intel Loihi – это нейроморфный чип, разработанный для имитации поведения биологических нейронных сетей, что позволяет эффективно выполнять задачи искусственного интеллекта и машинного обучения, используя спайковые нейронные сети
Intel Loihi – это нейроморфный чип, разработанный для имитации поведения биологических нейронных сетей, что позволяет эффективно выполнять задачи искусственного интеллекта и машинного обучения, используя спайковые нейронные сети

Прорывной Gaudi 3 

На сегодняшний день линейка Gaudi активно развивается и уже насчитывает три поколения, демонстрируя непрерывное совершенствование технологий Intel в области ИИ-ускорителей. Последнее достижение в этой эволюции - Gaudi 3, устройство для аппаратного ускорения задач в области машинного обучения.

Gaudi 3 относится к классу NPU (Neural Processing Unit) и представляет собой специализированный процессор, оптимизированный для работы с нейронными сетями. В отличие от универсальных GPU, NPU созданы для эффективной обработки тензоров - многомерных массивов данных, которые являются основой вычислений в глубоком обучении.

Для наилучшего понимания разницы между NPU и GPU можно привести следующее сравнение: если представить, что один блок GPU может обработать за раз один вектор данных, то аналогичный блок NPU способен одновременно оперировать целым тензором, что значительно ускоряет вычисления в задачах ИИ. Именно обилие тензорных ядер делает NPU беспрецедентно эффективными в задачах обучения ИИ.

Эта архитектурная особенность позволяет Gaudi 3 достигать впечатляющей производительности в задачах машинного обучения и искусственного интеллекта, обеспечивая значительное преимущество над традиционными вычислительными архитектурами в специфических ИИ-ориентированных сценариях использования.

Ключевые преимущества и возможные варианты исполнения Intel Gaudi 3
Ключевые преимущества и возможные варианты исполнения Intel Gaudi 3

Gaudi 3 воплощает эту концепцию, предлагая микросхему на базе 5-нм техпроцесса с 64 тензорными ядрами и 128 ГБ высокоскоростной памяти HBM2e. Его архитектура оптимизирована для работы с крупными языковыми моделями и включает в себя специализированные движки для матричных вычислений. Отдельно стоит отметить, что интеграция сетевого адаптера прямо в кристалл NPU (Neural Processing Unit) является ключевой особенностью архитектуры Gaudi 3. Это позволяет значительно повысить эффективность масштабирования системы, особенно при работе с LLM – крупными языковыми моделями и прочими задачами связанными с машинным обучением. Наличие 24 линков по 200 Гбит/с позволяет обеспечить высокую пропускную способность для передачи данных, что критически важно при распределенных вычислениях и обработке больших объемов данных. 

Сравнение с конкурентами

В тестах от Intel, Gaudi 3 демонстрирует впечатляющее результаты в сравнению с своими прямыми конкурентами от NVIDIA. Тесты проводились в задачах обучения LLM(больших языковых моделей) LLAMA2 и GPT3, на 7, 13 и 175 миллиардов параметров, где Gaudi демонстрирует до 1.7 раз* большую производительность по сравнению с NVIDIA H100. Этот значительный прирост производительности особенно важен в контексте обучения крупномасштабных языковых моделей и других сложных нейронных сетей, где время обучения является критическим фактором.

Слайд Intel демонстрирующий превосходство NPU Gaudi над аналогом Tesla H100

Не менее важным аспектом является энергоэффективность Gaudi 3, особенно в задачах инференса, где он демонстрирует до 40% лучшую эффективность по сравнению с конкурентами. Это преимущество имеет огромное значение для крупных дата-центров и облачных провайдеров, где оптимизация энергопотребления напрямую влияет на операционные расходы и экологичность инфраструктуры.

Такие впечатляющие результаты достигаются благодаря синергии нескольких ключевых факторов:

  1. Высокая вычислительная мощность, обеспеченная увеличенным количеством тензорных процессоров и специализированных матричных движков.

  2. Улучшенная архитектура памяти с большим объемом и повышенной пропускной способностью относительно Tesla H100, что критически важно для работы с большими моделями и датасетами.

  3. Эффективная сетевая инфраструктура, позволяющая создавать масштабируемые системы с высокой пропускной способностью между узлами за счет уже интегрированного сетевого адаптера.

Сочетание этих факторов позволяет Gaudi 3 стать мощным и универсальным инструментом для решения широкого спектра сложных задач в области искусственного интеллекта, от обучения крупномасштабных языковых моделей до высокопроизводительного инференса в реальном времени.

Противостояние NVIDIA: Есть ли шансы?

”Universal baseboard” на базе новейших Gaudi HLB-325 предназначенный для конкуренции с DGX системами от Nvidia за счет эффективного объединения ресурсов ускорителей 
”Universal baseboard” на базе новейших Gaudi HLB-325 предназначенный для конкуренции с DGX системами от Nvidia за счет эффективного объединения ресурсов ускорителей 

Intel Gaudi 3 демонстрирует впечатляющие результаты на фоне конкурентов, бросая вызов даже самым мощным решениям на рынке. Конфигурация с восемью ускорителями Gaudi 3 достигает феноменальной производительности в 14.6 петафлопс при вычислениях с FP8. Это существенно превосходит показатель в 8 петафлопс у аналогичной конфигурации на NVIDIA H100, что свидетельствует о значительном технологическом прорыве Intel.

Более того, экономическая эффективность Gaudi 3 выводит его на новый уровень конкурентоспособности: стоимость одного петафлопса производительности составляет около $18,7, тогда как у H100 этот показатель достигает $46,8. Это почти 2.5-кратное преимущество в соотношении цена/производительность, что делает Gaudi 3 не просто серьезным конкурентом, а потенциальным лидером рынка. Но здесь есть нюанс.


Нюанс в том, что в случае с H100 все эти терафлопсы мощности, точно будут по максимуму совместимы с широким рядом самых разных библиотек, фреймворков и готовых ИИ-моделей, поскольку NVIDIA превосходит конкурентов не столько в аппаратных разработках, как в продвинутой экосистеме своего программного обеспечения построенным вокруг четырёх заветных букв – CUDA.

Слайд с подробным сравнением Gaudi 3 с H100. Ускоритель от Intel в среднем на 50% быстрее в аналогичных сценариях
Слайд с подробным сравнением Gaudi 3 с H100. Ускоритель от Intel в среднем на 50% быстрее в аналогичных сценариях

 
А будет ли такая же ситуация с продуктом от Intel, насколько правдивы их тесты и не вскроются ли ещё какие подводные камни в процессе отладки ускорителей – загадка.

Однако, важно отметить, что преимущества Gaudi 3 наиболее ярко проявляются в специфических сценариях использования. В частности, его превосходство особенно заметно в задачах, требующих обработки больших объемов данных в памяти. Gaudi 3 оснащен внушительным объемом памяти HBM2e в 128 ГБ, что значительно превосходит возможности 80 ГБ HBM3 у H100. Это дает Gaudi 3 существенное преимущество в работе с крупномасштабными моделями машинного обучения и в задачах обработки естественного языка, где объем обрабатываемых данных критически важен для достижения высокой точности результатов.

Зачем Gaudi 3, когда есть Intel GPU Max?

Линейка продуктов Intel GPU MAX
Линейка продуктов Intel GPU MAX

Создание Gaudi 3 наряду с существующей линейкой GPU Max может показаться избыточным, однако это решение отражает глубокое понимание Intel диверсифицированных потребностей рынка ИИ-вычислений. Разработка Gaudi 3 - это не дублирование усилий, а стратегический шаг, направленный на охват различных сегментов рынка высокопроизводительных вычислений.

Линейка GPU Max, основанная на архитектуре Xe, ориентирована на широкий спектр задач, включая как традиционные графические вычисления, так и общие параллельные вычисления для AI. Эта универсальность делает GPU Max идеальным выбором для организаций, нуждающихся в гибких решениях, способных адаптироваться к различным типам рабочих нагрузок.

В противовес этому, Gaudi 3 представляет собой специализированное решение, оптимизированное исключительно для задач глубокого обучения и инференса в области ИИ. Его архитектура, основанная на тензорных вычислениях, позволяет достичь беспрецедентной эффективности в специфических AI-задачах, особенно в тех, которые требуют обработки больших объемов данных и сложных матричных операций.

Таким образом, создавая Gaudi 3, Intel преследует цель предоставить оптимальное решение для организаций, фокусирующихся исключительно на развитии и применении технологий искусственного интеллекта. Это позволяет компании удовлетворить потребности как тех клиентов, которым необходима максимальная гибкость (с помощью GPU Max), так и тех, кто ищет непревзойденную производительность в узкоспециализированных AI-задачах (с помощью Gaudi 3).

Успех Gaudi в Amazon Web Services

AWS на текущий момент является одним из ключевых и наиболее крупных клиентов использующих Gaudi для работы с машинным обучением. На текущий момент в целом складывается ощущение, что Amazon возможно и инициировала дальнейшие работы над Gaudi, возможно и вовсе используя Intel в качестве аутсорс разработчика, впрочем это лишь предположения.


В практическом плане это вылилось в создание инстансов Amazon EC2 DL1, заточенных под задачи машинного обучения. AWS провела серьезное тестирование этих инстансов, построив кластер из 16 машин, каждая с восемью ускорителями Gaudi. На этом "железе" они обкатывали обучение больших языковых моделей, в частности BERT с 1.5 миллиардами параметров.

Результаты оказались весьма неплохими. На 128 ускорителях удалось достичь эффективности масштабирования 82.7% при обучении BERT - это очень достойный показатель. Используя "родную" для Gaudi поддержку BF16, инженерам AWS удалось снизить аппетиты к памяти и ускорить процесс обучения. В итоге, с помощью софта от Habana и библиотеки DeepSpeed, они смогли предобучить огромную модель BERT за 16 часов на сети из 128 ускорителей.

Заключение

Стоит отметить, что у Intel получилось достичь по настоящему впечатляющих и прорывных результатов на уровне дизайна архитектуры Gaudi 3. Но, хорошая аппаратная составляющая это лишь часть успеха, настоящее испытание – это стабильное, надёжное и совместимое с популярными фреймворками ПО. Nvidia годами прикладывала усилия к развитию CUDA, на уровне API, документации, драйверов, кооперируясь с разработчиками фреймворков для машинного обучения. Возьмите любую из 10 наиболее популярных библиотек для нейросетей – и скорее всего аппаратное ускорение там будет заточено в первую очередь под технологии Nvidia. Но не Intel.
Да и в целом, за пределами машинного обучения, Intel никогда не славилась стабильным, надёжным и хорошо совместимым с сторонними решениями ПО. С одной стороны этот порочный цикл пытаются прервать их дискретные видеокарты для ПК-сектора, с провального старта получавшие регулярные обновления драйверов, что в итоге сделали их финансово привлекательным вариантом для бюджетного сегмента. А с другой стороны мы имеем AI-модули в последних поколениях процессоров Intel, которые в лучшем случае не работают вовсе из-за отсутствия поддержки или ошибок в драйверах, либо в худшем вызывают глобальные проблемы во всей системе.

Однако, если Intel сфокусирует свои ресурсы не только на дизайне новых моделей Gaudi, но также и на программной экосистеме удовлетворяющей потребности их клиентов, то можно смело предположить, что эту линейку ускорителей ИИ, скорее всего не ждёт забвение как их предшественников.
А вы что думаете на этот счёт? Будет интересно прочесть ваше мнение в комментариях, и спасибо что дочитали до конца!

Комментарии (16)