Как работает видеоаналитика: от «узнавания» к «вероятности»

Многие заказчики полагают, что современная видеоаналитика мыслит почти как человек: видит кадр, узнает объект и принимает решение. На самом деле это не так. Нейросети, лежащие в основе этих систем, пока далеки от человеческого мышления.

Нейросеть не ищет в своей памяти «похожую картинку», как это делал бы человек. Вместо этого она выделяет в кадре набор математических признаков (например: «объект круглой формы находится в верхней части другого объекта»). На основе миллионов заранее обученных весов (параметров) сеть вычисляет вероятность: «это каска — 96%», «это человек — 98%».

Откуда берутся весы? База знаний нейросети наполняется вручную на этапе обучения. Специалисты-разметчики показывают модели тысячи кадров, выделяя на них людей, каски, инструменты и другие нужные объекты.

Почему идеальной точности не существует

Качество и надежность распознавания напрямую зависят от количества, качества и разнообразия размеченных кадров. Чем больше разных ракурсов, условий освещения и типов объектов увидела нейросеть на этапе обучения — тем выше ее точность в будущем. Но даже при идеальном обучении на результат работы влияет множество внешних факторов:

  • задымлённость и запылённость помещения;

  • попадание на объектив камеры посторонних предметов;

  • высокая влажность;

  • уровень освещения;

  • искажение кадра — например, новый ракурс, которого не было в обучающей выборке.

В итоге мы всегда имеем дело не с абсолютно точным ответом, а с некой вероятностью правильного результата. Из реальной практики: хороший, стабильный показатель работы видеоаналитики на промышленном объекте — 95% точности. Всё, что выше — труднодостижимый результат, требующий исключительных условий. А 100% точность на данный момент в принципе невозможна.

Главная проблема: несовместимость вероятностей и производственного мышления

Теперь переложим это на реалии российских предприятий. Лицо, принимающее решение (ЛПР), на производстве привыкло оперировать точными числами: вес, диаметр, допуск, температура. Деталь либо соответствует техническому заданию, либо брак. Система либо работает, либо нет. Понятие «почти правильно» или «с вероятностью 95%» здесь плохо приживается. На бумаге проект видеоаналитики выглядит очень заманчиво: Мы повесим пару камер и будем автоматически определять людей без касок. ЛПРу такая идея нравится — небольшими средствами можно закрыть важную задачу контроля безопасности. Но на этапе тестирования и сдачи проекта начинаются сложности:

  • система выдаёт ложные срабатывания;

  • или, что ещё хуже, пропускает 5 человек без каски из 100.

С точки зрения производства, 5 из 100 — это не работает. Руководитель получает не тот результат, который ожидал. И начинаются тяжёлые переговоры с интегратором: как принимать такую систему? Хорошо, если удаётся объяснить природу видеоаналитики и договориться о реалистичных критериях. Но так бывает не всегда и не на всех предприятиях.

Как снизить риски? Три практических совета

  1. Прописывайте вероятностные показатели в ТЗ

    С самого начала фиксируйте, что система работает с заявленной точностью (например, 95%). Если в документации обещано «высокое качество» или, не дай бог, 100% — интегратор берёт на себя огромный риск.

  2. Не доверяйте видеоаналитике критически важные процессы, связанные с жизнью и здоровьем людей

    Реальный пример: на одном предприятии планировали внедрить систему, которая должна определять руку человека, попавшую в конвейер, и мгновенно останавливать линию. Даже при 95% точности вопрос остаётся открытым: что будет с теми самыми 5%? Цена ошибки здесь слишком высока.

  3. Запрашивайте данные о точности на похожих объектах

    Перед подписанием договора попросите интегратора предоставить реальные показатели точности работы системы на объектах со схожими условиями (уровень освещения, запылённость, тип камер). Хорошо, если будет возможность посмотреть систему в действии на действующем предприятии.

Резюме

Видеоаналитика — это мощный, но пока не абсолютный инструмент. На текущий момент она выдаёт некую вероятность, а не гарантию 100%. Успешное внедрение на промышленном предприятии возможно только при условии, что заказчик и интегратор честно договариваются об этом с самого начала. Тогда 95% точности будут не поводом для споров, а достигнутым результатом.

Комментарии (2)


  1. OlegZH
    30.04.2026 16:48

    Реальный пример: на одном предприятии планировали внедрить систему, которая должна определять руку человека, попавшую в конвейер, и мгновенно останавливать линию. Даже при 95% точности вопрос остаётся открытым: что будет с теми самыми 5%? Цена ошибки здесь слишком высока.

    Скажите, пожалуйста, о почему Вы настаиваете именно на видеоаналитике? Наверное, для решения определённых и достаточно узких задач нужны специализированные датчики, а также определённое устройство самого конвейера, чтобы: 1) минимизировать саму возможность попадания руки; 2) жёстко локализовать критические участки; 3) обеспечить такие места простейшими фото-датчиками (как в турникетах метро).

    У видеоаналитики есть объективные пределы. Чтобы повысить её эффективность нужно: 1) стереоскопическое зрение (то есть — использовать одновременно две камеры, направленные в одну и туже сторону; можно представить себе и целую систему камер, которые с разных сторон просматривают одну и ту же зону); 2) иметь в электронных "мозгах" системы модели реальных предметов (то есть — модель "мира", чтобы строить правдоподобные рассуждения о ходе процесса); и 3) комплексирование с другими источниками данных (можно, даже, представить специальный костюм со встроенными датчиками RFID и специальными линиями, которые можно увидеть в определённом не обязательно оптическом диапазоне, чтобы система продолжала действовать и при задымлении/пожаре/отключении электроэнергии, но не самой системы).


    1. peacemakerv
      30.04.2026 16:48

      Мы когда-то занимались такой задачей, где на предприятии объекты распознавания - старинные железяки родом из СССР, работающие при температурах до 600 градусов (2-3 минуты). Объектов для распознавания порядка 500 штук в цеху, объем данных немалый.
      Внешний вид объектов под воздействием температуры - постепенно меняется.
      Возможность физического контакта с объектами заранее, да еще ко всем сразу, чтобы нанести какие-либо идентификаторы - отсутствует.
      Ну, и верно сказано - пыль, освещенность, движущиеся тени от оборудования - никто не отменял.
      Вероятности распознавания были, помню, до 83%.
      Тут датчик - только видеокамера.
      Предложите другой "датчик" в данных условиях.