В данной статье речь пойдёт о замерах производительности и точности работы моделей YOLOv8 на разных устройствах с различными оптимизациями и без них. Большое внимание будет уделено работе Yolo на “слабых устройствах”, таких как Raspberry PI, Orange PI, Jetson Nano, мини ПК

Чтобы лучше понять автора:

При проведении данного исследования вектор интересов был направлен на решение задачи детекции в режиме реального времени на маломощных устройствах.

Современные задачи робототехники требуют вычислений "на борту", что особенно актуально для автономных систем. Важность данного исследования заключается в том, что оно направлено на решение задачи детекции в режиме реального времени на маломощных устройствах, что открывает новые возможности для использования компьютерного зрения в мобильных и автономных роботах. Будем считать, что FPS обработки изображений  >= 10 пригоден для некоторых задач детекции в реальном времени, но далеко не для всех.

В GitHub репозитории находятся код бенчмарка, скрипты для теста и результаты в csv файлах. Также все веса моделей, полученных в процессе исследования находятся в публичном доступе на Гугл диске и Второй гугл диск.

Оглавление

  • Скрипт бенчмарка

    • Описание метрик

  • Базовые модели Yolo на разных устройствах

    • Intel I7-12700H - в ноутбуке

    • N100 - Мини ПК

    • Raspberry PI 4 базовая

    • Raspberry PI 4 2.3 Ghz

    • Orange PI Zero 1 GB RAM

  • Выводы по базовому рантайму

  • Fine-Tuned Yolo модель на базовом рантайме

    • I7-12700H

    • N100

    • Raspberry PI 2.3Ghz

    • Orange PI Zero 1GB RAM

  • Выводы по Fine-Tuned модели

  • Базовые модели, эксперимент с входными изображениями

  • Как ускорить инференс модели

  • Квантизация и различные рантаймы

  • ONNX

    • I7-12700H

    • N100 - Мини ПК

    • Raspberry PI 4 2.3Ghz

    • Raspberry PI 4 базовая

    • Orange PI Zero 1GB RAM

  • Выводы по рантайму

  • Бенчмарк нашей модели на ONNX

    • I7-12700H

    • N100

  • OpenVINO - Оптимизация для Intel

    • I7-12700H

    • N100

  • NCNN

    • Intel i7-12700H

    • N100

    • Raspberry PI

  • TfLite и Deepsparse

  • Nvidia Jetson Nano

    • Попытки оптимизации

  • Выводы по рантаймы

  • Выводы по выбору модели и железа

Скрипт бенчмарка

Исследование проводится на 5 различных устройствах и более чем 60 моделях. Выполнение этой задачи вручную потребовало бы значительного времени и ресурсов, поэтому было принято решение автоматизировать процесс сбора данных. 

Система для бенчмарка состоит из серверной и клиентской частей. Серверная часть отвечает за хранение списков моделей и тестовых видео. Клиентский код запрашивает у сервера актуальные списки моделей и тестовых видео, загружает их и, проведя тестирование, отправляет результаты обратно на сервер.

Запуск сервера (из репозитория):

git clone https://github.com/ret7020/YoloBenchmarks
cd YoloBenchmarks/server
python3 server.py
Код сервера
import socket
from time import sleep
from threading import Thread
from config import *
from socket_utils import *
from os import path, makedirs
import csv

ip = "0.0.0.0"
port = 8001

makedirs(python_files_path, exist_ok=True)
makedirs(video_path, exist_ok=True)
makedirs(model_path, exist_ok=True)
makedirs(analytics_path, exist_ok=True)
headers_writen = []


def csv_benchmark(path, results):
    with open(path, 'a', newline='') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=CSV_HEADER)
        for model in results:
            res = results[model]
            print(res)
            writer.writerow({'model': model} | res)


def process_client(conn, addr):
    global analytics_path, headers_writen
    print("Connect from", addr)
    while True:
        recv = receive_json(conn)
        if recv["type"] == "ask_files":
            print(addr, f"asked file {recv['filename']} from group {recv['ftype']}")
            file_name = recv["filename"]
            if recv["ftype"] == "py":
                send_file(conn, path.join(python_files_path, file_name))
            elif recv["ftype"] == "video":
                send_file(conn, path.join(video_path, file_name))
            elif recv["ftype"] == "model":
                send_file(conn, path.join(model_path, file_name))
        elif recv["type"] == "get_models":
            send_json(conn, models)
        elif recv["type"] == "get_videos":
            print(addr, "asked videos")
            send_json(conn, videos)
        elif recv["type"] == "send_stats":
            print("Results from", addr)
            if not recv["save_name"] in headers_writen:
                with open(path.join(analytics_path, recv["save_name"]), 'w', newline='') as csvfile:
                    writer = csv.DictWriter(csvfile, fieldnames=CSV_HEADER)
                    writer.writeheader()
                headers_writen.append(recv["save_name"])

            csv_benchmark(path.join(analytics_path, recv["save_name"]), recv["results"])


if __name__ == "__main__":
    print(f"Run on {ip}:{port}")
    sock = socket.socket()
    sock.bind((ip, port))
    sock.listen(1)

    while True:
        conn, addr = sock.accept()
        t = Thread(target=process_client, args=(conn, addr))
        t.start()

Конфигурация сервера находится в файле config.py:

models = {
	"base": [
("yolov8n.pt", "12qTtp-hjls6N0UMLbkurzxHzuhpWxqWt", False),
    	("yolov8s.pt", "1ga8jan6BvP8Pbmphx9HHBvby96jQgjHS", False),
    	("yolov8m.pt", "1r0ph4mbFsiuuRDxJHAj3di9TFnzCXbUq", False),
    	("yolov8l.pt", "1f1SlM01l3EWvpH66fEqyrdsEe1F5PdFT", False),
    	("yolov8x.pt", "1stXAXeDSgaMFv8AkZwtiw5RXvInd74tQ", False)
]
}
videos = [
	 ("cubes.mp4", "1t1zOk8CPQGFdpRl7l3gJthydGOqDbRVI")
]

video_path = "files/videos"
model_path = "files/models"
python_files_path = "files/py"
analytics_path = "files/analytics"

CSV_HEADER = ['model', 'runtime', 'inference_time_1', 'fps', 'inference_time', 'device', 'half', 'int8', 'map50', 'map75', 'warmup_max_inf_time', 'warmup_min_inf_time', 'inference_time_max', 'inference_time_min']

models - словарь в котором ключи - категории моделей. В каждой категории находится список кортежей следующего формата:

[
	(“название весов моделей”, “ID файла на гугл диске”, директория или нет),
    (“название весов моделей”, “ID файла на гугл диске”, директория или нет)
]

Некоторые оптимизированные модели могут работать только на определённом железе (например, OpenVINO только на Intel). Поэтому пользователь на устройстве  для бенчмарка может выбрать категории моделей для теста вначале запуска.

videos - список видеофайлов для теста, имеющего похожий формат:

 ("Название файла", "ID файла на гугл диске")

analytics_path указывает на директорию для сохранения результатов бенчмарков, если директории нет, то она будет создана автоматически.

В CSV_HEADER менять можно только порядок колонок.

Интерфейс клиентского скрипта
Интерфейс клиентского скрипта

Запуск клиента (из репозитория):

git clone https://github.com/ret7020/YoloBenchmarks
cd YoloBenchmarks
python3 remote_run.py

Далее необходимо ввести ip сервера, порт (по-умолчанию 8001), название устройства (от него зависит имя файла с бенчмарком).

Далее скрипт запросит у сервера список моделей и видео для теста. Потом пользователю нужно выбрать категории моделей для теста. После этого скрипт скачает недостающие для теста файлы и приступит к бенчмарку.

Модели и видео файлы скачиваются с гугл диска через утилиту gdown, имеющую API под Python. Гугл диск позволяет скачивать файлы и директории с достаточно высокой скоростью. Некоторые модели представляют из себя не только файл весов, но и метафайлы, объединённые в одну папку.

Для использования gdown файл нужно сделать с “Доступом по ссылке”. ID файла можно достать из полученной ссылки:

https://drive.google.com/file/d/14DixrZ9Pcl_JpGzpB2U66YDwS4v9hHdS/view?usp=sharing

Пример использование библиотеки через Python:

import gdown

# Скачивание файла
FILE_ID = "14DixrZ9Pcl_JpGzpB2U66YDwS4v9hHdS" # ID файла на гугл диске
SAVE_TO = “open_me.png” # куда скачивать
gdown.download(id=FILE_ID, output=SAVE_TO)

# Скачивание директории
DIR_ID= "1ALYWISJipP2XOp1OHmDJ0XqPcOuCnQLd" # id директории на гугл диске
SAVE_TO = “dir” # куда скачивать
gdown.download_folder(id=DIR_ID, output=SAVE_TO)

Процесс тестирования моделей осуществляется следующим образом:

  1. Первые 10 кадров из тестового видео используются для "прогрева" модели. Поскольку после загрузки весов модели в оперативную память или память видеокарты доступ к ней сначала происходит неэффективно, первые несколько задач будут медленнее, чем последующие. Бенчмарк фиксирует минимальное и максимальное время инференса во время "прогрева", однако эти данные не используются для дальнейшего анализа.

  2. Когда модель готова к работе, запускается цикл обработки 200 следующих кадров из видео. Для каждой тестируемой модели эти 200 кадров будут идентичными, что позволяет стандартизировать условия тестирования (влияние количества потенциальных классов на изображении на производительность будет рассмотрено позже).

  3. Каждый кадр сжимается до разрешения 640x640 пикселей и передается в модель, при этом фиксируется время инференса.

  4. После обработки всех 200 кадров результаты собираются и отправляются на сервер для дальнейшего анализа.

В первой версии бенчмарка после замера скорости моделей проводилась валидация модели на coco8 (первые 8 изображений из датасета, на котором обучены базовые модели Yolo). Но 8 изображений оказалось недостаточно для объективной оценки качества работы модели. На метрики качества модели не влияет устройство инференса (значительно), поэтому метрики mAP50, mAP75 были посчитаны для каждой модели на датасете coco128 на Google Colab. Скрипт для замера mAP набора моделей здесь.

mAP (mean average precision) - одна из самых популярных метрик в задачах object detection, которая при достаточном количестве валидационных изображений позволяет достаточно точно определить качество работы модели. На самом деле, далее нас будет интересовать не само значение mAP, а то как сильно mAP оптимизированной модели отличается от базовой

Клиентская функция бенчмарка
def bench_model(model, video, args):
    inference_times = []
    is_half = True if "half" in args else False
    is_int8 = True if "int8" in args else False
    optimize = False if "ncnn" in args else True  # NCNN models can't work with optimize flag
    runtime = args[1] if len(args) > 1 else "BASE"

    capture = cv2.VideoCapture(video)

    # Warmup model before benched inference (anyway on test images set, not camera)
    warmup_times = []
    print(colored(f"Testing model: {model.ckpt_path} with video: {video}", "green"))
    for _ in range(10):
        _, frame = capture.read()
        res = model.predict(frame, task=TASK, verbose=False, half=is_half, int8=is_int8, optimize=optimize, save=False, visualize=False)
        warmup_times.append(res[0].speed["inference"])
    print(colored(f"Warmup finished", "green"))

    frames_cnt = 0
    progress_bar = iter(tqdm(range(200)))
    while capture.isOpened():
        ret, frame = capture.read()
        if ret and frames_cnt < 200:
            frame = cv2.resize(frame, (640, 640))
            res = model.predict(frame, task=TASK, verbose=False, half=is_half, int8=is_int8, optimize=optimize, save=False, visualize=False)
            inference_times.append(res[0].speed["inference"])
            frames_cnt += 1
            next(progress_bar)
        else:
            capture.release()
    print(colored(f"Benchmark finished", "yellow"))


    if VALIDATE:
        metrics = model.val(data=VALIDATE_CONFIG, verbose=False)
        map50 = metrics.box.map50
        map75 = metrics.box.map75
    else:
        map50 = None
        map75 = None
    print(colored(f"Model validated on {VALIDATE_CONFIG}", "yellow"))
    return {
        "inference_time": sum(inference_times) / (len(inference_times)),  # ms
        "inference_time_1": round(sum(inference_times) / (len(inference_times)), 1),  # ms 1 digit
        "inference_time_min": min(inference_times),
        "inference_time_max": max(inference_times),
        "fps": round(1000 / (sum(inference_times) / (len(inference_times))), 1),  # fps 1 digit
        "half": int(is_half),
        "int8": int(is_int8),
        "runtime": runtime,
        "map50": map50,
        "map75": map75,
        "device": "cpu",  # TODO selectable device
        "warmup_min_inf_time": min(warmup_times),
        "warmup_max_inf_time": max(warmup_times)
    }


def benchmark(models, images, repeat_coeff=5, save_callback=lambda x: None):
    print(
        f"Testing models: {len(models)}\nUniq images: {colored(len(images), 'green')}\nInferences count: {colored(str(len(models) * repeat_coeff * len(images)), 'yellow')}")
    results = {}
    for model in tqdm(models):
        args = model[1:] if len(model) > 1 else []
        model = YOLO(model[0])
        results[model.ckpt_path] = bench_model(model, args, images, repeat_coeff=2)
        save_callback(results[model.ckpt_path])

        # Clean system after inference
        del model
        torch.cuda.empty_cache()
        gc.collect()

    return results

Описание метрик mAP

Метрика mAP (mean Average precision) основана на IoU, которая рассчитывает пересечения детектируемого bounding box’а от эталонного.

Метрика IoU
Метрика IoU

mAP считает среднее IoU с заданным трешхолдом на валидационном датасете.
mAP50 - трешхолд по IoU 0.5 (50%)
mAP75 - трешхолд по IoU 0.75 (75%)

Базовые модели Yolov8 на разных устройствах

Все тесты проводились при минимальной сторонней загрузке системы.

Intel I7-12700H - в ноутбуке

Основные характеристики процессора:

  • Alder Lake (12 поколение)

  • Количество ядер: 14

  • Количество потоков: 20

  • Максимальная частота: 4.7 Ггц

Основные характеристики системы:

  • OS: Arch Linux

  • RAM: 16 Gb

  • Версии:

    • python: 3.11.6

    • ultralytics: 8.2.28

    • torch: 2.1.2

    • torchvision: 0.16.2

Тяжелее модель - инференс дольше
Тяжелее модель - инференс дольше

Модель

Время мс

FPS

mAP50

mAP75

max FPS

min FPS

вес мб

yolov8n.pt

103.6

9.7

0.607

0.476

10.78

7.2

6.2

yolov8s.pt

332

3

0.760

0.638

3.1

2.73

21.5

yolov8m.pt

834

1.2

0.784

0.652

1.53

0.8

49.7

yolov8l.pt

1652.1

0.6

0.828

0.706

0.61

0.59

83.7

yolov8x.pt

3065

0.3

0.829

0.707

0.4

0.23

130.5

В таблице выделены столбцы (FPS, max FPS, min FPS), значения которых меняются в зависимости от устройства запуска. 

С базовыми моделями всё достаточно просто и предсказуемо. Буква после yolov8 означает размер модели: nano, small, medium, large, x. Чем больше модель, тем больше её вес и fps ниже. mAP также выше у более тяжёлых моделей. Стоит обратить внимание, что FPS X модели в среднем в 2 раза ниже, чем у L модели. При этом mAP50 и mAP75 примерно одинаковые. Это подтверждают и официальные данные от ultralytics: 

  • mAP50-95 у L модели: 52.9

  • mAP50-95 у X модели: 53.9

N100 - Мини ПК 

Основные характеристики процессора:

  • Alder Lake (12 поколение)

  • Количество ядер: 4

  • Количество потоков: 4

  • Максимальная частота: 3.4 Ггц

Основные характеристики системы:

  • OS: Ubuntu 22.04 Server

  • RAM: 16 Gb

  • Версии:

    • python: 3.10.12

    • ultralytics: 8.2.28

    • torch: 2.3.0

    • torchvision: 0.1

Модель

Время мс

FPS

max FPS

min FPS

yolov8n.pt

249.4

4

4.02

3.72

yolov8s.pt

714.2

1.4

1.4

1.39

yolov8m.pt

1832.3

0.5

0.55

0.54

yolov8l.pt

3635.9

0.3

0.28

0.27

yolov8x.pt

5592.5

0.2

0.18

0.18

Raspberry Pi 4

Основные характеристики системы:
Активное охлаждение, алюминиевый корпус, достаточное питание.

  • OS: Ubuntu 22.04 Server

  • RAM: 8 Gb

  • Версии:

    • python: 3.10.12

    • ultralytics: 8.2.28

    • torch: 2.3.0

    • torchvision: 0.18.0

Тестирование всех базовых моделей мы не стали проводить полностью, так как FPS даже на yolov8m был слишком низким.

Модель

Время мс

FPS

max FPS

min FPS

yolov8n.pt

2001

0.5

0.50

0.48

yolov8s.pt

4999

0.2

0.202

0.191

yolov8m.pt

10832.3

0.1

0.08

0.07

Raspberry Pi 4 2.3Ghz

2.3Ghz - максимальная частота на которую можно разгонять процессор Raspberry PI при условии достаточного питания и охлаждения.

Основные характеристики системы:
Активное охлаждение, алюминиевый корпус, оригинальный блок питания на 3A

  • Версии:

    • python: 3.10.12

    • ultralytics: 8.2.28

    • torch: 2.3.0

    • torchvision: 0.18.0

    • ncnn: 1.0.20240410

    • onnxruntime: 1.18.0

Модель

Время мс

FPS

max FPS

min FPS

yolov8n.pt

1876

0.5

0.542

0.523

yolov8s.pt

4771.2

0.2

0.213

0.205

yolov8m.pt

11569.9

0.1

0.1

0.08

Значительного прироста FPS относительно не разогнанной Raspberry PI нет.

OrangePI Zero 1Gb RAM

Модель

Время мс

FPS

max FPS

min FPS

yolov8n.pt

4229.9

0.2

0.239

0.234

yolov8s.pt

714.2

0.1

0.079

0.078

FPS ещё ниже, чем на Raspberry PI

Выводы по базовому рантайму

Yolov8n работает ~ в 2 раза быстрее более тяжёлой yolov8s. На маломощных устройствах запуск моделей тяжелее yolov8n смысла не имеет, если необходимо получить детекцию в реальном времени.

Fine-Tuned Yolo модель на базовом рантайме

Кроме тестирования базовых моделей от ultralytics, обученных на датасете COCO, мы измерили производительность и качество работы своей модели обученной на основе весов yolov8n. Модель детектирует 3 класса, соответствующие трём цветам кубиков:

Все три класса
Все три класса

I7-12700H

За base.pt обозначается обученная модель без рантаймов и квантизаций.

Модель

FPS

mAP50

mAP75

max FPS

min FPS

base.pt

11.5

0.799

0.724

12.55

5.92

FPS этой модели больше yolov8n на 18.5%

N100

Модель

FPS

max FPS

min FPS

base.pt

4.2

4.308

4.048

FPS этой модели больше yolov8n на 5%

Raspberry PI 4 2.3Ghz

Модель

FPS

max FPS

min FPS

base.pt

0.6

0.6

0.58

FPS этой модели больше yolov8n на 20%

OrangePI Zero 1GB RAM

Модель

FPS

max FPS

min FPS

base.pt

0.3

0.3

0.26

Выводы по Fine-Tuned модели

Обученная модель работает быстрее yolov8n на ~20%. Это можно объяснить количеством параметров.

Следующая функция, позволяет по загруженной Yolov8 модели посчитать количество её параметров:

from ultralytics import YOLO
def cnt_params(model):
	p_cnt = 0
	for p in list(model.model.parameters()):
    	nn = 1
    	for s in list(p.size()):
        	nn = nn * s
    	p_cnt += nn
	return p_cnt

if __name__ == "__main__":
  m = YOLO("yolov8n.pt")
  print(cnt_params(m))

В yolov8n модели 3157200 параметров, а в дообученной 3011628 (на 4.8% меньше).

Базовые модели, эксперименты с входными изображениями

Проверим влияние количества потенциальных классов (количество предметов на изображении, которые умеет детектировать модель) на скорость инференса.

Для теста был написан простой скрипт на Python (на Гитхабе):

Hidden text
from ultralytics import YOLO
import cv2
import gc
import torch

times = []
MANY_CARS = ["./assets/images/cars_many.jpg",
         	"./assets/images/cars_many_1.jpg",
         	"./assets/images/cars_many_2.jpg",
         	"./assets/images/cars_many_3.jpg"]

SINGLE_CAR = ["./assets/images/single_car.jpg",
          	"./assets/images/single_car_1.jpg",
          	"./assets/images/single_car_2.jpg",
          	"./assets/images/single_car_3.jpg"]

MODELS = ["yolov8n.pt", "yolov8s.pt", "yolov8m.pt", "yolov8l.pt", "yolov8x.pt"]
PER_IMG_INF_CNT = 100

for model in MODELS:
	print("-" * 5 + model + "-" * 5)
	torch.cuda.empty_cache()
	gc.collect()
	m = YOLO(model)
    

	print("Warmup...")
	for _ in range(15): m("./assets/images/bus.jpg", save=False, verbose=False, visualize=False)


	print("Test...")
	for img in MANY_CARS:
    	times += [m(cv2.resize(cv2.imread(img), (640, 640)))[0].speed['inference'] for _ in range(PER_IMG_INF_CNT)]

	print(1000 / (sum(times) / len(times)), 1000 / max(times), 1000 / min(times))

	times = []
	torch.cuda.empty_cache()
	del m
	gc.collect()
	m = YOLO(model)
    
	print("Warmup...")
	for _ in range(15): m("./assets/images/bus.jpg", save=False, verbose=False, visualize=False)

	print("Test single cars...")
	for img in SINGLE_CAR:
    	times += [m(cv2.resize(cv2.imread(img), (640, 640)))[0].speed['inference'] for _ in range(PER_IMG_INF_CNT)]

	print(1000 / (sum(times) / len(times)), 1000 / max(times), 1000 / min(times))
	del m

Тестирование проводилось на 4 изображениях, где много машин и на 4 изображениях, где только одна машина.

Примеры изображений:

Первые 15 инференсов используются для “прогрева”. Затем каждая из 8 картинок(4 и 4) проходит 100 раз через нейросеть. После этого считается максимальный, минимальный и средний FPS. После теста на изображениях с большим количеством машин модель удаляется из памяти, чистится кэш CUDA, принудительно очищается мусор через gc.

Результаты запуска скрипта на Google Colab с GPU T4

Результаты оказались не очевидными. N модель быстрее работает, когда на изображении только одна машина. Но остальные, более тяжёлые модели работают быстрее на изображениях с большим количеством машин. Результаты запуска на Intel I7-12700H похожи по поведению (отличие только в том, что FPS ниже).

Предположение

Такое поведение моделей Yolo может быть связано с тем, что у N модели мало параметров и она рассчитана под детекцию небольшого количества объектов. Остальные модели содержат больше параметров и различных фич, которые являются оверхэдом для задачи детекции одного крупного объекта на изображении.

Как ускорить инференс модели

Базовые модели работают недостаточно быстро на процессоре для детекции в реальном времени. Существуют разные способы ускорения инференса модели, но все они заключаются в упрощении модели под необходимое оборудование Облегчение модели может ухудшить качество её работы, поэтому кроме замера скорости работы оптимизированных моделей стоит обращать внимание на её mAP до оптимизации и после.

Квантизация и экспорт моделей YOLO

Квантизация — это процесс уменьшения разрядности чисел, используемых для представления весов и активаций нейронной сети. Этот метод позволяет значительно снизить требования к вычислительным ресурсам и объему памяти, что особенно полезно для развертывания моделей на маломощных устройствах, таких как Raspberry PI, Orange PI и Jetson Nano.

В yolo, модели можно квантизировать в два вида разрядностей: half (FP16) и int8. Квантизация в int8 максимально облегчает модель. Но не всегда квантизация в half может дать прирост в скорости работы модели. Далеко не все процессоры, ввиду своей архитектуры, способны эффективно производить FP16 вычисления. Подробнее про FP16 на разных архитектурах можно прочитать в топике на stackoverflow.

В yolo реализована система экспорта моделей в различные форматы. Процесс экспорта моделей тоже был автоматизирован. Вы можете найти этот скрипт в GitHub репозитории (export.py). Пример конфига экспорта:

EXPORT_MODELS = [
    {"format": "openvino", "half": False, "int8": False, "optimize": True, "save_name": "cube_openvino_base_openvino_model"},
    {"format": "onnx", "half": False, "int8": False, "optimize": True, "save_name": "onnx_model.onnx"}
]

Указываются формат модели, квантизация, флаг оптимизации и имя для сохранения новой модели. При экспорте можно указать флаги optimize и simplify. Данные флаги подробно описаны разработчиком в issue на гитхабе. Если указан флаг simplify, то при экспорте в формат ONNX yolo попытается удалить “лишние” связи в модели и объединить некоторые операции. В скрипте данный флаг стоит для всех экспортов. Он не имеет смысл для других форматов модели, но ухудшить производительность точно не может. Флаг optimize применяет к модели JIT (Just In Time) компиляцию. Он работает не для всех моделей(например, ncnn его не поддерживает), поэтому явно прописывается в конфиге.

Скрипт работает следующим образом:

  • Прописывается конфиг с базовыми моделями (например, yolov8n.pt, yolov8s.pt)

  • Каждая базовая модель экспортируется в список форматов, указанных в конфиге

На выходе получается папка exported_models со всеми моделями (кроме базовых). Если нужно экспортировать отдельную одну модель, то можно воспользоваться терминальной командой Yolo:

yolo export model=ПУТЬ К ВЕСАМ format=ФОРМАТ int8=True simplify=True optimize=True data=coco8.yaml

Квантизация изначально отключена, чтобы её включить нужно добавить аргументы int8=True или half=True. Так же при экспорте с квантизацией(int8 или half) необходимо добавить аргумент data, содержащий путь к конфигу датасета модели. Для базовых моделей можно указать coco8.yaml, coco128.yaml, coco.yaml (первые 8 изображений; первые 128; полный датасет coco). Чтобы качество работы модели при квантизации меньше падала применяется калибровка. Она использует датасет модели, чтобы точнее квантизировать веса. 

Для экономии времени экспортировать модели можно на более мощных устройствах, а запускать на слабых. Например, экспортировать квантизированную модель для Raspberry PI можно на Google Colab. В документации по экспорту в формат TensorRT сказано следующее:

  • Remember calibration for INT8 is specific to each device, borrowing a "high-end" GPU for calibration, might result in poor performance when inference is run on another device.

Здесь говорится про TensorRT и GPU, но мы решили проверить справедливость утверждения для CPU. Для проверки модель yolov8n была экспортирована в ONNX с квантизацией int8 на Raspberry PI и ноутбуке с i7-12700H. Сначала модели были протестированы (замерена скорость работы и валидация на coco128) там, где экспортированы. Затем модель с ноутбука была проверена на Raspberry и наоборот. Изменений в mAP и FPS не было (при округлении значений до 10^4). Делаем вывод, что это утверждение актуально для инференса на GPU c TensorRT int8. Перейдём к тестированию различных рантаймов и форматов моделей Yolo.

ONNX

ONNX - единый формат, который упрощает процесс переноса моделей глубокого обучения между фреймворками. Кроме того, у onnx есть собственный рантайм для запуска моделей этого формата. Yolov8 из коробки поддерживает экспорт в onnx с квантизацией. ONNX модели должны работать на любых устройствах (в отличии от некоторых других форматов).

Тестировались следующие вариации моделей: без квантизации, с квантизацией в int8, модель без флага simpilfy. Квантизация в half и int8 не отличаются по скорости инференса и mAP

I7-12700H

Квантизация

int8 и обычная модель onnx не имеют особых отличий в скорости работы и качестве по метрикам mAP, если эта модель экспортирована с флагом simplify. Для эксперимента по проверке влияния флага simplify N модель была дополнительно экспортирована в onnx с квантизацией в int8 и без неё, но без флага simplify (simplify=False)

Simplify

Данный флаг увеличивает производительность ONNX модели на 10-20%. Без этого флага квантизипрованная в int8 модель работает быстрее (на ~3%) такой же модели, но без квантизации (в таблице yolov8n_onnxnosimp_base.onnx и yolov8n_onnxnosimp_int8.onnx ). При этом у моделей без simplify mAP совпадает с метриками моделей без этого флага

Команда для экспорта модели ONNX с квантизацией в int8 и флагами оптимизации:

yolo export model=yolov8n.pt format=onnx optimize=True simplify=True int8=True data=coco8.yaml

Если экспортируете не базовую модель, то в аргументе data нужно указать путь к своему конфигу датасета.

N100 Мини ПК

Отсутствие значительных отличий в скорости работы и метриках mAP между квантизированной в int8 и стандартной ONNX моделями подтверждают данные бенчмарка с процессора I7.

Raspberry PI 4 2.3Ghz

На разогнанной Raspberry запуск моделей onnx(на основе yolov8n) загружает все 4 ядра 4 потока под 100% и одноплатник зависает. Запуск инференса отдельно от бенчмарка работает также. Обновление onnx (с версии 1.14.1 до 1.16.1) не решило проблему.

Raspberry PI 4 базовая

Модель

FPS

yolov8n_onnx_base.onnx

1.9

yolov8n_onnx_int8.onnx

2.0

Orange PI Zero

Модель

FPS

yolov8n_onnx_base.onnx

1.3

yolov8n_onnx_int8.onnx

1.3

Выводы по рантайму

Комплексируя результаты бенчмарков модели ONNX с различных устройств, можно сделать следующие выводы:

На мини ПК с N100 ONNX позволяет на основе N модели проводить детекцию в режиме реального времени. Квантизация и экспорт модели в ONNX не ухудшает качество её работы. Ресурсов Orange PI и Raspberry PI недостаточно для данной задачи. 

Бенчмарк нашей модели на ONNX

I7-12700H

Модель

Время мс

FPS

mAP50

mAP75

base_onnx_base.onnx

76.2

13.1

0.782

0.699

base_onnx_int8.onnx

75.6

13.2

0.782

0.699

До конвертации в ONNX:

Модель

FPS

mAP50

mAP75

max FPS

min FPS

base.pt

11.5

0.799

0.724

12.55

5.92

Метрики mAP50 и mAP75 стали ниже, скорее всего это связано с недостаточностью обучающей выборки. Чем выше качество изначальной модели, тем ниже негативное влияние квантизации и экспорта в разные рантаймы. При этом скорость, своей модели в формате ONNX на 28% выше, чем N модель в ONNX.

N100

Модель

Время мс

FPS

base_onnx_base.onnx

85.4

11.7

base_onnx_int8.onnx

75.6

11.9

Наша модель "знает" намного меньше классов объектов, чем базовая COCO модель, количество параметров у нашей модели также меньше, поэтому её производительность немного выше.

OpenVINO - Оптимизация для Intel

OpenVINO (Open Visual Inference and Neural Network Optimization) — это набор инструментов от Intel для ускорения инференса нейронных сетей на различных платформах, включая CPU, интегрированные GPU, VPU и FPGA. OpenVINO предоставляет мощные инструменты для оптимизации моделей и их квантизации, что особенно полезно для выполнения моделей на маломощных устройствах. OpenVINO предназначен для работы на процессорах и видеокартах Intel, на других устройствах эти модели работать не будут.

Тестировались стандартная модель, квантизированная в fp16 и int8

I7-12700H

Квантизация в int8 моделей OpenVINO позволяет решать задачу детекции в режиме реального времени на процессоре I7 с помощью трёх базовых моделей(N, S, M).
Квантизация в half не увеличивает производительность моделей OpenVINO. Рассмотрим N модель.
Квантизированная в int8 OpenVINO модель быстрее базовой N модели более чем в 10 раз. Квантизация OpenVINO в int8 ускоряет её в ~2 раза.

N100

Различные степени квантизации моделей OpenVINO ведут себя одинаково на N100 и I7. OpenVINO позволяет решать задачу детекции в реальном времени на основе модели yolov8n, экспортированной в OpenVINO с квантизацией int8.

На Raspberry PI и Orange PI запуск OpenVINO невозможен. 

Из - за отсутствия значительного падения mAP у квантизированной в int8 модели и значительного прироста производительности стоит использовать данную 

Команда для экспорта моделей в OpenVINO с квантизацией в int8

yolo export model=yolov8n.pt format=openvino optimize=True simplify=True int8=True data=coco8.yaml

NCNN

Этот формат моделей предназначен для слабых устройств, наподобие Raspberry PI.

Intel i7-12700H

Квантизация в half и базовая модель не отличаются по своей производительности и метрикам mAP.

Модель

FPS

yolov8n_ncnn_int8_ncnn_model

8.1

yolov8s_ncnn_int8_ncnn_model

4.1

yolov8m_ncnn_int8_ncnn_model

2.1

yolov8l_ncnn_int8_ncnn_model

1.2

yolov8x_ncnn_int8_ncnn_model

0.8

N100

Модель

FPS

yolov8n_ncnn_int8_ncnn_model

9.6

yolov8s_ncnn_int8_ncnn_model

4.0

yolov8m_ncnn_int8_ncnn_model

1.8

yolov8l_ncnn_int8_ncnn_model

1.0

yolov8x_ncnn_int8_ncnn_model

0.7

Raspberry PI

Модель

FPS

yolov8n_ncnn_int8_ncnn_model

2.0

Orange PI

Модель

FPS

yolov8n_ncnn_int8_ncnn_model

0.2

Данный рантайм не даёт достаточной оптимизации.

TfLite и Deepsparse

Рантайм TFLite не показал значительного прироста производительности на наших устройствах, поэтому экспорт моделей в данный формат оказался бесполезным с точки зрения ускорения инференса.

Рантайм DeepSparse эффективно работает на батчах из изображений. При детекции в реальном времени возможности загрузить несколько изображений сразу нет. Кроме того, он не выдаёт стабильного FPS.

Nvidia Jetson Nano

Данное устройство умеет запускать модели на CUDA, что позволяет существенно ускорить инференс. Результаты запуска модели на процессоре не имеют особого интереса (на N модели всего 0.7 FPS). Подробная инструкция по настройке устройства для Ultralytics Yolo здесь.

Модель

FPS

max FPS

min FPS

yolov8n.pt

13.3

14.3

10.6

yolov8s.pt

6.3

6.3

6.2

yolov8m.pt

4.1

4.3

3.9

yolov8l.pt

3.4

3.3

2.8

yolov8x.pt

1.1

1.2

0.9

Для детекции в реальном времени можно использовать N модель, при этом более тяжёлые работают недостаточно быстро.

Попытки оптимизации

Попытки использовать различные рантаймы не увенчались успехом. 

После установки onnxruntimegpu, модели ONNX не получилось запустить на GPU, а их производительность на CPU очень низкая.

Для оптимизации моделей под Nvidia GPU существует специальный рантайм - TensorRT.

Yolo из коробки умеет экспортировать модели в этот формат вместе с квантизацией. Но экспорт модель необходимо на самом Jetson Nano, так как модель экспортированная на другой версии TensorRT может запускаться только на этой версии TensorRT. Версия TensorRT напрямую зависит от версии CUDA, которая зависит от gpu. Максимальная версия CUDA, которую можно установить на Jetson Nano - 10.2. На Google Colab стоит более новая версия CUDA, которая конфликтует с версией TensorRT 8.0.1.6 (установленной на Jetson Nano).

Экспорт модели средствами yolo командой:

yolo export model=yolov8n.pt format=engine batch=1 workspace=1 int8=True data=coco.yaml

приводит Jetson к зависанию. 

Затем мы попробовали экспортировать модель в формат onnx без оптимизаций, а затем штатную через утилиту trtexec. Команда экспорта выглядит так:

/usr/src/tensorrt/bin/trtexec --buildOnly --int8 --onnx=yolov8n.onnx --saveEngine=yolov8n.engine

Экспорт прошёл успешно, но время инференса модели стало слишком высоким (> 3000мс). Хотя в логах trtexec пишется про 65 мс:

Логи
[06/13/2024-22:25:10] [I]
[06/13/2024-22:25:10] [I] === Performance summary ===
[06/13/2024-22:25:10] [I] Throughput: 15.0389 qps
[06/13/2024-22:25:10] [I] Latency: min = 66.1836 ms, max = 66.7713 ms, mean = 66.4839 ms, median = 66.4787 ms, percentile(99%) = 66.7713 ms
[06/13/2024-22:25:10] [I] End-to-End Host Latency: min = 66.1941 ms, max = 66.7808 ms, mean = 66.4938 ms, median = 66.4887 ms, percentile(99%) = 66.7808 ms
[06/13/2024-22:25:10] [I] Enqueue Time: min = 5.84814 ms, max = 6.35657 ms, mean = 6.10814 ms, median = 6.11487 ms, percentile(99%) = 6.35657 ms
[06/13/2024-22:25:10] [I] H2D Latency: min = 0.481689 ms, max = 0.487305 ms, mean = 0.484034 ms, median = 0.484131 ms, percentile(99%) = 0.487305 ms
[06/13/2024-22:25:10] [I] GPU Compute Time: min = 65.4216 ms, max = 66.0064 ms, mean = 65.7226 ms, median = 65.7175 ms, percentile(99%) = 66.0064 ms
[06/13/2024-22:25:10] [I] D2H Latency: min = 0.274902 ms, max = 0.281067 ms, mean = 0.277307 ms, median = 0.277222 ms, percentile(99%) = 0.281067 ms
[06/13/2024-22:25:10] [I] Total Host Walltime: 3.12524 s
[06/13/2024-22:25:10] [I] Total GPU Compute Time: 3.08896 s
[06/13/2024-22:25:10] [I] Explanations of the performance metrics are printed in the verbose logs.
[06/13/2024-22:25:10] [I]
&&&& PASSED TensorRT.trtexec [TensorRT v8001] # /usr/src/tensorrt/bin/trtexec --int8 --onnx=yolov8n.onnx --saveEngine=yolov8n.engine
[06/13/2024-22:25:10] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +0, GPU +0, now: CPU 871, GPU 1882 (MiB)

Вывод по Jetson Nano

Максимальная производительность была получена на базовой модели yolov8n.pt, остальные рантаймы и форматы не работают корректно. При этом N модель работает на CUDA с достаточной скоростью (от 10.6 FPS до 14.3 FPS) для решения некоторых задач детекции в реальном времени.

Выводы по рантаймам

Различные рантймы с квантизацией и без неё позволяют значительно увеличить скорость инференса моделей на процессоре. Следующий график демонстрирует соотношение FPS и рантайма.

Обработка видеопотока в режиме реального времени на мини ПК с N100 возможна только на основе базовой модели yolov8n и рантаймов OpenVINO, ONNX, NCNN.

Из результатов бенчмарков видно, что OpenVINO работает максимально быстро (~в 5 раз быстрее) базовой модели.
OpenVINO является самым быстрым рантаймом для систем с процессорами Intel. Это рантайм, который надо пробовать в первую очередь, если необходимо ускорить работу модели Yolo на CPU или GPU от Intel.

OpenVINO на GPU

Разработчики OpenVINO заявляют, что рантайм способен ускорить инференс моделей на видеокартах Intel Arc, но проверить это не удалось.

Далее примерно одинаковая производительность у рантаймов NCNN и ONNX. Производительность TFLite значительно не отличается от производительности оригинальной модели.

Соотношение производительности между разными рантаймами на N100 частично соответствует данным с I7-12700H.

OpenVINO также является самым быстрым форматом. Далее по скорости идёт ONNX (так же, как и на N100). NCNN и TFLite работают примерно с той же скоростью, что и базовая модель. Но NCNN выдаёт практически такой же FPS как и на процессоре N100.

Рантайм

N100

I7

yolov8n_ncnn_int8

9.6

8.1

Далее представлен график метрики mAP(на датасете coco128), в зависимости от рантайма.

Из него явно видно, что точность работы модели при экспорте в различные рантаймы с квантизаций уменьшается очень незначительно.

Выводы по выбору модели и железа

Для решения задачи детекции объектов в реальном времени на встраиваемых системах необходимо применять модели на основе yolov8n с квантизацией и оптимизацией. Raspberry PI и Orange PI не способны решить данную задачу даже на оптимизированных моделях с квантизацией в int8. Лучшие результаты по скорости инференса на процессоре были достигнуты на системах с Intel и моделях OpenVINO.

Ресурсов мини ПК с процессором N100 хватает для работы OpenVINO int8 модели на основе N весов. 

Jetson Nano способен проводить детекцию в реальном времени на основе модели yolov8n, запущенной на CUDA. При этом другие рантаймы либо не запускаются, либо работают только на процессоре. 

Все csv файлы бенчмарков здесь:

https://github.com/ret7020/YoloBenchmarks/tree/master/Analytics

Комментарии (7)


  1. Dynasaur
    19.06.2024 11:06
    +2

    Простите, разве yolo запускают на Малине без ускорения? Нужно что-то типа Coral, иначе оно совсем дохлое. У меня есть свои результаты, могу поделиться, надо только найти и привести к сопоставимому виду


    1. ret77876 Автор
      19.06.2024 11:06

      Было интересно проверить какой максимум можно получить на устройстве без дополнительных аппаратных средств. Но было бы интересно увидеть ваши результаты с Coral, учитывая что такие модули достаточно доступные и их можно купить на Aliexpress.


  1. Dynasaur
    19.06.2024 11:06
    +1

    yolo v10 не пробовали? Вроде, обещают, что там более лёгкая модель делает ту же работу, за счёт этого должно быть быстрее.


    1. ret77876 Автор
      19.06.2024 11:06

      Запускать пробовали, но не в бенчмарке. Пока решили остановиться на стабильной восьмой версии


    1. ret77876 Автор
      19.06.2024 11:06

      Таблица FPS
      Таблица FPS

      Решил подробнее изучить тему с Yolov10. Это, конечно, результаты запуска на NPU, а не нативно. Но видимо, всё не так просто, не во всех случаях 10 модель быстрее 8 модели. Нашёл тут: https://github.com/Qengineering/YoloV5-NPU?tab=readme-ov-file#model-performance-benchmark-fps


  1. RGrimov
    19.06.2024 11:06

    А на Orange PI на NPU пробовали запускать?


    1. ret77876 Автор
      19.06.2024 11:06

      Если я ничего не путаю, то NPU есть только в пятой модели