Настройка Linux для обучения моделей с GPU / forpes.ru

Главная
Настройка Linux для обучения моделей с GPU

Настройка Linux для обучения моделей с GPU -1

27.09.2024 15:10

ainoob 6 2900 Источник

Ну что ж, сборка железа завершена! Мой стенд с GPU стоит и ждёт команд к действию. Но, конечно, просто собрать ПК — это лишь начало пути. Теперь надо научить систему работать с этим зверем, установив Linux, драйверы, CUDA и остальные радости. А это, как мы знаем, может оказаться тем ещё квестом: если всё не заработает идеально сразу, то точно начнётся "шоу непредсказуемых проблем". Я не большой любитель настраивать и перенастраивать и не большой эксперт в Linux, но периодически приходится прибегать к настройкам, поэтому решил, что сразу напишу всё в виде скриптов для упрощения процесса и возможности откатиться. Результат в виде скриптов, которые "сами всё сделают за вас", и описание к ним можно посмотреть здесь! Если повезёт, они даже не сломают систему (шутка, обязательно сломают).

Три шага к успеху

Установку Linux я не затрагиваю, она хорошо описана, скажу только, что за основу я выбрал Ubuntu 24.04 Desktop версию (иногда требуется окружение desktop). А дальше выполнял настройку системы под свои потребности.

Для удобства настройки я разделил установку на три части, каждая из которых решает конкретные задачи, делая процесс более гибким и удобным:

Настройка удалённого доступа — включает SSH и безопасность, чтобы подключаться к машине.
Установка драйверов и CUDA — это ключ для задействования мощности GPU, без которого ваше железо просто бесполезно.
Инструменты разработки — Docker, Jupyter и другие приятные мелочи, чтобы писать и тестировать код было комфортно и безопасно.

Для каждого шага я написал скрипты который устанавливают и удаляют или управляют установленными компонентами. Настройки для каждого шага в config.env файлах. Более подробный readme.

Первый шаг: удалённый доступ

ПК я использую как домашний сервер, но иногда использую его desktop окружение, иначе можно было бы установить серверную версию линукс. Вообщем ПК стоит в темноте без монитора и все что на нем крутится должно быть доступно удаленно. Поэтому на первом шаге настроим удаленный доступ. Для этого предусмотрены:

SSH — для безопасного подключения к серверу.
UFW (Uncomplicated Firewall) — для защиты сети.
RDP — для удалённого рабочего стола.
VNC — так же для графического доступа.
Samba — для общего доступа к файлам в сети.

Подробный readme к первому этапу.

Второй шаг: драйверы NVIDIA и CUDA

Теперь давайте рассмотрим момент, ради которого всё затевалось. Ведь мне был нужен GPU, а раз так, не обойтись без NVIDIA драйверов.

Итак, что устанавливаем:

NVIDIA драйверы — чтобы видеокарта наконец-то поняла, что от нее хотят.
CUDA — магия параллельных вычислений без CUDA не обойтись с обучением сеточек.
cuDNN — библиотека cuDNN для задач глубокого обучения.
Python —для разработки, в моем случае, дистрибутив Ubuntu уже содержал Python 3.12, но нужно было установить вторую версию до 3.11.

Корректируем конфиг и запускаем скрипты, если повезёт, то вы не получите внезапную перезагрузку с чёрным экраном (который, к слову, тоже выглядит довольно минималистично и стильно). Если, все же, такое случится, то может вы просто Малевич?

Идем дальше с теми, у кого установка прошла успешно. Проверяем установку софта nvidia:

$ nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Fri_Jan__6_16:45:21_PST_2023
Cuda compilation tools, release 12.0, V12.0.140
Build cuda_12.0.r12.0/compiler.32267302_0

Если вывод следующей команды показывает именно ваш GPU, — значит, карма чиста и все только впереди, если нет, время пересмотреть жизненные приоритеты. Мне повезло.

$ nvidia-smi

Fri Sep 27 17:01:20 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3090 Ti     Off | 00000000:01:00.0 Off |                  Off |
|  0%   41C    P8              15W / 450W |   4552MiB / 24564MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      2441      C   python                                     4546MiB |
+---------------------------------------------------------------------------------------+

Ну и вишенка на торте — проверим, действительно ли ваш GPU готов работать на благо науки. Используйте следующий код (не забудьте установить предварительно pytorсh):

import torch
print("CUDA доступна: ", torch.cuda.is_available())
print("Количество доступных GPU: ", torch.cuda.device_count())

Результат должен быть:

python test_gpu.py
CUDA доступна:  True
Количество доступных GPU:  1

Если вывод подтверждает, что CUDA доступна, значит, настройка прошла удачно, и все готово, чтобы погрузиться в мир глубокого обучения на скорости GPU. Ну, или по крайней мере начать разбираться, что ещё пошло не так.

Подробный readme ко второму этапу.

Третий шаг: инструменты для разработки

После первых двух этапов имеем настроенный удалённый доступ, установленные драйверы, CUDA работает. Что дальше? А дальше нужно окружение для работы, чтобы можно было обучать свои модели, запускать их для тестирования и вообще загрузить по полной все эти cpu/gpu ядра и память, которые доступны в железе. Тут помогут скрипты, которые в моем случае устанавливают минимум нужных мне компонент, а именно устанавливаем:

Git: Система управления версиями.
Docker: Платформа контейнеризации.
Jupyter — разве не мечта каждого разработчика — видеть свои ошибки сразу в браузере?
Ray — платформа для тех, кто решил, что один GPU это скучно, и пора масштабироваться.

Подробный readme к третьему этапу.

Заключение

Наверняка можно сделать лучше, круче и так далее, но надеюсь, что мои скрипты кому то помогут сэкономить время на подготовку ПК к обучению моделей, а у кого-то вызовут здоровую или нездоровую реакцию. Порадуюсь за первых, поблагодарю вторых и пожалею третьих. В следующий раз планирую рассказать про установку LLM моделей.

Комментарии (6)

MountainGoat
27.09.2024 15:18
#27349324
+2
Marine learning? Неужели так трудно потратить минуту, чтобы исправить ошибки в нагенерированном изображении? Заставляет думать, что в приведённых командах такой же уровень точности, DUDA вместо CUDA и т. д.

А по тексту — для половины фреймворков CUDA отдельно ставить не нужно, у них всё своё. Не помешает, но и использоваться не будет. А если очень старый CUDA поставить, то может и помешать.
1. Dynasaur
  27.09.2024 15:18
  #27351500
  любопытно, я вот ставил ultalytics и cuda одновременно, не подумав. Вроде, в инструкции по ultralytics не написано, что надо ставить CUDA, я думал это само собой разумеется, а теперь не уверен :-)

dmitry78
27.09.2024 15:18
#27349446
+2
"я не большой, любитель настраивать " в школу, срочно! (я б с gentoo поиграл, но необходимости нет

Dynasaur

27.09.2024 15:18

#27350218

почему питон надо 3.11?

$ nvidia-smi
Fri Sep 27 23:47:22 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce GTX 1080        Off |   00000000:06:00.0  On |                  N/A |
| 41%   68C    P2            221W /  230W |    5901MiB /   8192MiB |     99%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

ainoob Автор
27.09.2024 15:18
#27351322
Это не обязательно, просто в моем проекте используется питон 3.11. По умолчанию в Ubuntu был установлен питон 3.12.

avshkol
27.09.2024 15:18
#27354264
Отлично, ждём примеров того, что и за какое время можно файнтюнить на 24 ГБ.

Настройка Linux для обучения моделей с GPU -1

Три шага к успеху

Первый шаг: удалённый доступ

Второй шаг: драйверы NVIDIA и CUDA

Третий шаг: инструменты для разработки

Заключение

Комментарии (6)

MountainGoat

Dynasaur

dmitry78

Dynasaur

ainoob Автор

avshkol