Каждый день окружающий нас мир генерирует все больше и больше информации — текстовой, графической, мультимедийной и т.д. За последние годы технологии искусственного разума и глубокого изучения сумели улучшить ряд приложений, которые помогают людям лучше воспринимать эту информацию, обогатив их возможностями распознавания речи, видео, изображений, а также функционалом рекомендаций.

За последний год Intel добавила аппаратную поддержку ЦПУ в нескольких фреймворков глубокого изучения для оптимизации приложений, делающих выводы на основе анализа. Основой этих оптимизаций является Intel Math Kernel Library (Intel MKL), использующая инструкции Intel Advanced Vector Extension (Intel AVX-512) для расширенной поддержки функционала глубокого изучения.

Caffe2 — это open source фреймворк глубокого обучения, созданный Facebook и отличающийся высокой скоростью работы и модульным исполнением. Caffe2 разработан для того, чтобы помочь исследователям тренировать большие модели машинного обучения и разрабатывать AI для мобильных устройств.

Intel и Facebook совместно интегрируют функции Intel MKL в Caffe2 для оптимальной производительности получения выводов. Таблица ниже показывает скорость получения выводов с
использованием библиотек Intel MKL и Eigen BLAS. В таблице OMP_NUM_THREADS показывает количество используемых физических ядер. Результаты показывают, что Caffe2 может быть хорошо оптимизирован с точки зрения процессора. Для небольших пакетов нагрузок рекомендуется использовать свое процессорное ядро для каждой нагрузки и запускать их параллельно.
OMP_NUM_THREADS=44 OMP_NUM_THREADS=1
Размер пакета Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
Intel MKL
(изобр./сек)
Eigen BLAS
(изобр./сек)
1 173.4 5.2 28.6 5.1
32 1500.2 29.3 64.6 15.4
64 1596.3 35.3 66.0 15.5
256 1735.2 44.9 67.3 16.2
Ранее в этом году на рынок были выведено новое поколение процессоров Intel Xeon (кодовое название Skylake). Одной из новинок Skylake стали 512-битные инструкции Fused Multiply Add (FMA) как часть векторного набора Intel AVX-512, обеспечивающего существенный прирост производительности по сравнению с предыдущими 256-битными инструкциями AVX2 как для тренировки моделей, так и для подсчета выводов. 512-битные функции FMA вдвое увеличивают достигаемые процессором FLOPS и сильно ускоряют матричную арифметику одинарной точности, используемую в сверточных и рекурентных нейронных сетях. Подсчет выводов хорошо параллелизуется и получит выгоду от увеличения количества ядер в новых процессорах. Кроме того, на скорости работы благотворно скажется увеличение частоты памяти и размера кэша Mid-Level-Cache (MLC) на одно ядро.
Поделиться с друзьями
-->

Комментарии (6)


  1. rotor
    30.05.2017 14:09

    Пользуясь случаем, хочу спросить. Планируется ли появление полноценной документации?
    Вроде бы интересный и перспективный фреймворк, но без документации что-то на нём делать не представляется возможным.
    То что есть на текущий момент выглядит весьма уныло.


    1. saul
      30.05.2017 14:54
      +1

      Ну, Caffe все-таки Facebook пилит… Intel только помогает с оптимизацией. Он много кому помогает.
      Так что лучше их спрашивать.


  1. MegO_Bonus
    30.05.2017 14:52
    +1

    это open source фреймворк глубокого изучения обучения (deep learning),


    1. saul
      30.05.2017 14:53
      +1

      Спасибо, поправил.


  1. turbanoff
    30.05.2017 14:52

    >отличающийся высокой скоростью работы и модульным исполнением

    А что такое модульное исполнение?


    1. saul
      30.05.2017 14:56

      Как я понимаю, состоящий из компонент, из которых можно взять только нужные.