Быстрое проникновение ИИ в повседневную жизнь несет значительные изменения требований к системам хранения данных. Те хранилища, которых было достаточно для проверки концепций ИИ, не подходят для «боевых» инсталляций. В этой статье описаны СХД-рекордсмены, используемые в ИИ-проектах.

Данные — это фундамент для решений, в которых применяется искусственный интеллект (ИИ) и глубокое обучение (deep learning, DL). Чем больше объем обучающего набора данных (training dataset), тем лучше работают найденные с помощью графических ускорителей связи и тем выше точность получаемых предсказаний.

Для специалистов, отвечающих за построение инфраструктур для ИИ с применением графических ускорителей будет полезен приведенный ниже список номинаций подходящих систем хранения данных:

  1. Самая большая параллельная файловая система с гибридной архитектурой

  2. Самая большая параллельная файловая система на флеш-накопителях

  3. Параллельная файловая система с самым быстрым восстановлением данных

  4. Масштабируемая параллельная файловая система с самым длительным 
    сроком службы

  5. Самая маленькая параллельная файловая система

Суперкомпьютерный центр Ок-Риджской национальной лаборатории (Oak Ridge Leadership Computing Facility, OLCF) недавно опубликовал характеристики своей новой файловой системы Orion. Вместе с другими системами, развернутыми в OLCF, система Orion будет работать с будущим суперкомпьютером Frontier, обладающим Эксафлопсной (1018 операций с плавающей точкой (двойной точности) в секунду) производительностью. Он будет построен на платформе HPE Cray EX Supercomputer. В узлах этого суперкомпьютера на каждый центральный процессор AMD EPYC приходится по 4 графических ускорителя AMD Instinct и один интерфейс интерконнета HPE Cray Slingshot. Orion будет развернута на базе массива Cray ClusterStor E1000 и представляет из себя гибридную файловую систему с тремя уровнями иерархии:

  • Производительный уровень с 5400 флэш-накопителями NVMe  общей емкостью 11,5 петабайт (ПБ) и пиковой скоростью чтения-записи в 10 ТБ/с.

  • Уровень долгосрочного хранения с 47 700 жесткими дисками с общей емкостью 679 ПБ, с максимальными скоростями чтения 5,5 ТБ/с и записи 4,6 ТБ/с.

  • Уровень метаданных с 480 накопителями NVMe с суммарной емкостью 10 ПБ.

Это своего рода новый эталон для крупных высокопроизводительных файловых систем.

Среди файловых систем, работающих полностью на флеш- накопителях, выделяется инсталляция в Национальном центре научных исследований в области энергетики (National Energy Research Scientific Computing Center, NERSC) в Национальной лаборатории Лоуренса в Беркли (Berkeley Lab). Здесь суперкомпьютер нового поколения Perlmutter подключен к all-flash системе с общей полезной емкостью 35 ПБ, также построенной на базе Cray ClusterStor E1000.

Производительность этой файловой системы критически важна для обеспечения работы суперкомпьютера Perlmutter на платформе HPE Cray EX Supercomputer, первая очередь которого состоит из вычислительных узлов с четырьмя графическими ускорителями NVIDIA A100 и двумя центральными процессорами AMD EPYC. Perlmutter занимает 5-ю строчку в текущем (июнь 2021) рейтинге TOP500 самых производительных суперкомпьютеров планеты. Но новые рекорды ставятся и за пределами крупнейших государственных научных лабораторий с мощнейшими суперкомпьютерами — там, где слияние классического моделирования с искусственным интеллектом (ИИ) меняет представление о роли и месте высокопроизводительных вычислений.

Хорошим примером этого является сотрудничество компаний Zenseact и HPE при разработке следующего поколения автомобилей с автономным управлением.  

В реализуемом проекте требуется защита данных (запись) и их чтение с высокой скоростью, чтобы процедура восстановления, если она потребуется, не влияла на жесткий график окон моделирования. Платформа HPE Data Management Framework (DMF), работающая на серверах HPE ProLiant DL, обеспечивает восстановление петабайт данных со скоростью около 200 ГБ в секунду.

Стоит отметить, что инфраструктура для Zenseact предоставляется в формате услуги HPE GreenLake.

Награда «за самый длительный срок службы масштабируемого хранилища для ИИ» достается системе хранения ClusterStor, работающей в связке с суперкомпьютером Blue Waters в Национальном центре суперкомпьютерных приложений (National Center for Supercomputing Applications, NCSA)Университета Иллинойса в Урбана-Шампейн.

Эта система обеспечивает данными тысячи ученых и инженеров и на сегодня длительность ее наработки составляет более 38 миллиардов процессоро-часов. Кластер с 4228 графическими ускорителями NVIDA запустили в марте 2013 г., когда большинство людей все еще считали, что сокращение AI расшифровывается как «American Idol» (американский идол), а GPU — как «Global Photographic Union» (Всемирный фотографический союз).

Суперкомпьютер Blue Waters недавно отпраздновал свой восьмой день рождения!
Но как быть с ИИ- проектами, для которых не нужны суперкомпьютеры или инвестиции в большие кластеры нецелесообразны?

Для них подойдет недавно анонсированное решение HPE Parallel File System Storage. В минимальной конфигурации оно представляет из себя программно-аппаратный комплекс с четырьмя узлами на основе серверов HPE ProLiant DL325 Gen10 Plus с 12 жесткими дисками или NVMe-накопителями и параллельной файловой системой IBM Spectrum Scale ECE (Erase Code Edition).

При этом «Самая маленькая параллельная файловая система» от HPE может наращиваться до 20+ ПБ полезной емкости и обеспечивать скорости передачи данных, измеряемые Терабайтами в секунду. Эта система обладает очень эффективной производительностью, особенно по сравнению с горизонтально-масштабируемыми NAS-решениями на основе NFS, такими как Dell EMC Isilon.

HPE Parallel File System Storage в начальной конфигурации с 12 твердотельными накопителями NVMe обеспечивает пропускную способность (чтение) около 35 Гигабайт в секунду (ГБ/с), в то время как одна из топовых моделей Dell EMC Isilon F800 обеспечивает «всего лишь» 15 ГБ/с, используя 60 твердо­тельных накопителей. То есть у конкурентного решения пропускная способность значительно ниже, хотя число твердотельных накопителей больше.


Официальный сайт ⬝ Группа ВКонтакте ⬝ Telegram-канал

Комментарии (0)