Распознавание на python работало хорошо, но хотелось еще как-то это ускорить.
Спрашивается: если есть некоторая оболочка, позволяющая запустить модель на python - может быть есть оболочка позволяющая запустить ее на C/C++?
И такая нашлась: https://github.com/Geekgineer/YOLOs-CPP

Копируем:

git clone https://github.com/Geekgineer/YOLOs-CPP
cd YOLOs-CPP

Нам нужны дополнительно некоторые пакеты:

apt install curl libopencv-dev cmake g++

В файле build.sh нужно найти ONNXRUNTIME_VERSION - а потом посмотреть, на что реально она влияет. Описание процесса установки уже отстало от жизни, поэтому придётся ручками.
Скрипт должен скачать соответствующий версии файл - но там, откуда он его скачивает, версия более новая, к тому же скрипт желает загрузить версию для arm64, а там - aarch64.
В общем, вот это надо выполнить вручную: скачать, распаковать, сделать симлинк с нужным названием, закомментировать уже выполненное

ln -s onnxruntime-linux-aarch64-1.20.1 onnxruntime-linux-arm64-1.20.1

В этом пакете лежат include-файлы и so-библиотеки, нужные для сборки и работы.
Библиотеки *so имеет смысл скопировать в /usr/local/lib/

В каталоге YOLOs-CPP/src - три файла-примера использования детектора: для изображений, для видеофайлов и для видеопотока, например с камеры.
Каталог models содержит модели yolo в формате onnx, а include - *.hpp-файлы для работы с ними.

В файлах примеров необходимо правильно выбрать нужную версию модели - если используем yolo11 - то нужны будут YOLO11.hpp и указатели типа YOLO11* в коде *.cpp

В результате компиляции должны получится соответствующие исполняемые файлы. Но есть нюансы:

1 - примеры рассчитаны на запуск на десктопе, они должны показывать картинку с нарисованными рамками обьектов. Десктопа нет, работать это не будет.
Тут по сути нужен только пример работы с картинками - его надо переписать так, чтобы вместо вывода на экран сохранялся бы файл на диске:

cv::imwrite("out.jpg", image);
//cv::imshow("Detections", image);
//cv::waitKey(0); // Wait for a key press to close the window

2 - "из коробки" не заработал файл модели yolo11n.onnx.
Но там же, в models, есть скрипт export_onnx.py, а в прошлый раз, при запуске скриптов в python, мы уже получили работающий yolo11n.pt.
Можно перейти туда:

cd /root/yolo
. bin/activate
cp XXX/models/export_onnx.py ./
vi export_onnx.py

from ultralytics import YOLO

# Load the YOLOv11n model
model = YOLO("yolo11l.pt")

# Export the model to ONNX format
model.export(format="onnx")

./export_onnx.py
mv yolo11n.onnx XXX/models/

Если всё было сделано правильно - программа image_inference запустится, прочитает указанный в коде файл, и запишет out.jpg с рамками обьектов.
В принципе, тут можно было бы чуть доработать ее до указания в командной строке входного и выходного файлов - но это неинтересно, потому что сам процесс загрузки программы и модели занимает значительное время, а цель была в его уменьшении.

Требуется внести в программу возможность функционирования как веб-сервер, чтобы модель загружалась один раз, а использовалась - много, при каждом обращении.
И для этого придется найти какую-то библиотеку, чтобы не писать всё с нуля.

И такая библиотека есть: https://github.com/davidmoreno/onion

wget https://github.com/davidmoreno/onion/archive/refs/heads/master.zip
unzip master.zip
cd onion-master
mkdir build
cd build
cmake ..
make
sudo make install

По умолчанию полученные include и so-библиотеки устанавливаются в /usr/local/include и /usr/local/lib.
Теперь надо обновить кеш в ОС:

ldconfig /usr/local/lib

В examples можно найти примеры использования библиотеки. В данном случае нам нужен post - пример обработки POST-запросов.
Принцип работы простой: создается сервер, прописываются url которые он обрабатывает и функции, которые при этом вызываются.
В данном примере запрос к /data обрабатывает функция post_data, которая получает значение переменной text

...
  const char *user_data = onion_request_get_post(req, "text");
...

и отправляет его обратно клиенту.
Нам нужен файл - и беглый поиск по include-файлам сразу дает нам функцию

const char *path = onion_request_get_file(req, "file");

Причем path в данном случае указывает на временный файл, куда сохранено загруженное изображение, а этот файл находится в каталоге /tmp, который по сути tmpfs, т.е. в памяти.
То есть то, что и требовалось: минимальное время записи-чтения.

Теперь остается совместить ежа с ужом: если у нас есть программа, способная загружать файлы и обрабатывать их, и есть программа, способная принимать файлы и сохранять их куда-то временно - можно принимать файл, передавать его на обработку, и возвращать результат клиенту, что и требуется.

Перепишем код примера так:

#include <opencv2/highgui/highgui.hpp>
#include <iostream>
#include <string>

#include "YOLO11.hpp"

#include <signal.h>
#include <onion/log.h>
#include <onion/onion.h>
#include <onion/shortcuts.h>

onion *o = NULL;

// указываем используемые модели
const std::string modelPath = "/etc/yolo/models/yolo11n.onnx";
const std::string labelsPath = "/etc/yolo/models/coco.names";

// создаем один постоянный обьект
YOLO11Detector detector(modelPath, labelsPath, false); // no GPU

// это список names, соответствующих типу обьекта
// по сути он уже создается внутри detector, но используется только для
// отрисовки рамок внутри него же, поэтому создадим внешний
std::vector<std::string> classNames;

// ==========================================================
void onexit(int _) {
  ONION_INFO("Exit");
  if (o)
    onion_listen_stop(o);
}

// преобразуем обьект Detection в string
std::string toJsonString(const Detection& det) {
  std::ostringstream os;
  std::string name = classNames[det.classId];
  os << "{"
     << "\"name\":\"" << name << "\","
     << "\"class\":" << det.classId << ","
     << "\"confidence\":" << det.conf << ","
     << "\"box\":{"
     << "\"x1\":" << det.box.x << ","
     << "\"y1\":" << det.box.y << ","
     << "\"x2\":" << (det.box.width + det.box.x) << ","
     << "\"y2\":" << (det.box.height + det.box.y)
     << "}"
     << "}";
  return os.str();
}

// обработка файла
onion_connection_status post_data(void *_, onion_request * req, onion_response * res) {

  onion_response_set_header(res,"Access-Control-Allow-Origin","*");

  if (onion_request_get_flags(req) & OR_HEAD) {
    onion_response_write_headers(res);
    return OCS_PROCESSED;
  }

  const char * imagePath = onion_request_get_file(req, "file");

  cv::Mat image = cv::imread(imagePath);
  if (image.empty()){
    onion_response_printf(res, "[]");
    return OCS_PROCESSED;
  }

  auto start = std::chrono::high_resolution_clock::now();
  std::vector<Detection> results = detector.detect(image);
  auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(std::chrono::high_resolution_clock::now() - start);

  std::cerr << "Detection completed in: " << duration.count() << " ms" << std::endl;

  std::ostringstream os;
  os << "[";
  int i = 0;
  for (const auto& det : results) {
    if(i > 0) os << ",";
    std::string str = toJsonString(det);
    os << str;
    i++;
  }
  os << "]";

  std::string out = os.str();

  // не используем, хотя можем
  // detector.drawBoundingBox(image, results); // simple bbox drawing
  // detector.drawBoundingBoxMask(image, results); // Uncomment for mask drawing
  // cv::imwrite("/tmp/out.jpg", image);

  onion_response_printf(res, out.c_str() );
  return OCS_PROCESSED;

}

// ==========================================================

int main(){

  // загружаем свой список типов объектов
  classNames = utils::getClassNames(labelsPath);

  // запускаем сервер, мультитредовый вариант
  //o = onion_new(O_ONE_LOOP);
  o = onion_new(O_THREADED);
  onion_url *urls = onion_root_url(o);

  // вместо index.html
  onion_url_add_static(urls, "",
                       "<html>\n"
                       "<head>\n"
                       " <title>Image analyzer</title>\n"
                       "</head>\n"
                       "\n"
                       "Just upload file<br>\n"
                       "<form method=\"POST\" action=\"detect\" enctype=\"multipart/form-data\">\n"
                       "<input type=\"file\" name=\"file\">\n"
                       "<input type=\"submit\">\n"
                       "</form>\n" "\n" "</html>\n", HTTP_OK);

  // url обработки
  onion_url_add(urls, "detect", (void*)post_data);

  signal(SIGTERM, onexit);
  signal(SIGINT, onexit);
  onion_listen(o);

  onion_free(o);
  return 0;
}

Теперь надо всё это скомпилировать.
Так как все необходимые библиотеки уже установлены на свои места в системе - создаем просто Makefile с подключением нужных (и ненужных)

CXX_INCLUDES = -I/root/yolo/YOLOs-CPP/include -I/root/yolo/YOLOs-CPP/onnxruntime-linux-arm64-1.20.1/include -isystem /usr/include/opencv4

CXX_FLAGS = -O3 -march=native

LD_FLAGS = -L/usr/lib/aarch64-linux-gnu -L/usr/local/lib -lonion -lonioncpp -lrt -lpthread -lonnxruntime -lopencv_stitching -lopencv_alphamat -lopencv_aruco -lopencv_barcode -lopencv_bgsegm -lopencv_bioinspired -lopencv_ccalib -lopencv_cvv -lopencv_dnn_objdetect -lopencv_dnn_superres -lopencv_dpm -lopencv_face -lopencv_freetype -lopencv_fuzzy -lopencv_hdf -lopencv_hfs -lopencv_img_hash -lopencv_intensity_transform -lopencv_line_descriptor -lopencv_mcc -lopencv_quality -lopencv_rapid -lopencv_reg -lopencv_rgbd -lopencv_saliency -lopencv_shape -lopencv_stereo -lopencv_structured_light -lopencv_superres -lopencv_surface_matching -lopencv_tracking -lopencv_videostab -lopencv_viz -lopencv_wechat_qrcode -lopencv_xobjdetect -lopencv_xphoto -lopencv_highgui -lopencv_datasets -lopencv_plot -lopencv_text -lopencv_ml -lopencv_phase_unwrapping -lopencv_optflow -lopencv_ximgproc -lopencv_video -lopencv_videoio -lopencv_imgcodecs -lopencv_objdetect -lopencv_calib3d -lopencv_dnn -lopencv_features2d -lopencv_flann -lopencv_photo -lopencv_imgproc -lopencv_core

all:
  ${CXX} ${CXX_FLAGS} ${CXX_INCLUDES} ${CXX_DEFINES} yolo_server.cpp -o yolo_server ${LD_FLAGS}

make all
cp yolo_server /usr/local/bin/

По умолчанию onion-сервер работает на 8080 порту, это можно изменить указав явно порт в коде, а можно просто пробросить нужный порт при запуске Docker.
В итоге получаем все тот же yolo11, но работающий теперь на C++ вместо python. Судя по сообщениям программы - обработка изображений ускорилась примерно в 2 раза.

Более того, этих моделей yolo11 несколько:

  • yolo11n - nano

  • yolo11s - small

  • yolo11m - medium

  • yolo11l - large

  • yolo11x - extra large

Чем "больше" модель - тем больше памяти она требует, и тем дольше обрабатывает изображения. Выбрать модель можно простой заменой соответствующего файла при запуске сервера.
С точки зрения результата - разница примерно такая, что на фотографии толпы людей nano выделяет только первый ряд, а вот small уже цепляет и тех, кто стоит во втором и виден частично. Но каждая ступень увеличивает время детектировани примерно вдвое.
С другой стороны, те кто там за спинами - их всё равно видно плохо, так что практическая польза от этого сильно зависит от применения, зачем и для чего это надо: посмотреть или посчитать.

Ну и пример как оно детектирует: http://jbfw.duckdns.org/
Машинка там слабая, чисто для примера...

Комментарии (0)