В целях защиты персональных данных участников «Чистых игр» вместо оригинальных фотографий использовались стилизованные иллюстрации, сгенерированные с помощью технологий ChatGPT. Для демонстрации работы алгоритмов использовались в основном мои фотографии либо изображения из открытых источников.

Всем привет! Меня зовут Алина, я инженер‑исследователь в Центре искусственного интеллекта СФУ. В этой статье расскажу, как мы применяем методы компьютерного зрения для анализа фотографий уборок в проекте «Чистые игры», как подошли к задаче автоматической оценки качества уборок и какие технические решения легли в основу MVP. В конце поделюсь выводами и тем, что удалось сделать, а что ещё предстоит улучшить.

Введение

В последние годы внимание к экологическим инициативам растёт во всём мире. Одним из примеров масштабного вовлечения людей в практическую экологию стало международное движение «Чистые игры», где уборка территории проводится в игровом формате. Команды участников собирают мусор на выбранных площадках, сортируют его, фотографируют результаты и соревнуются друг с другом.

Фотофиксация — ключевой элемент процесса. Пары изображений «до» и «после» служат основанием для подтверждения качества уборки, а их проверка традиционно выполняется вручную. По мере роста объемов мероприятий возникает потребность в автоматизации этой проверки: ручная модерация трудоемка, требует значительных ресурсов и остается подверженной субъективным решениям.

Пример пары фотографий «до» и «после» уборки
Пример пары фотографий
«до» и «после» уборки

Почему автоматизация важна

При большом количестве участников ручная проверка изображений перестаёт быть масштабируемой. Автоматическая обработка позволяет:

  • уменьшить нагрузку на организаторов,

  • исключить субъективные решения,

  • повысить прозрачность и воспроизводимость оценок,

  • ускорить подведение итогов,

  • обеспечить возможность запуска «Чистых игр» в любом регионе без расширения команды модераторов.

Современные методы компьютерного зрения позволяют решать задачи подобного класса без создания моделей «с нуля». В нашем проекте акцент был сделан на интеграции существующих решений — это позволило сосредоточиться на правильной постановке задачи, обработке данных и построении прикладной логики.

Особенности данных

Анализ исходного набора данных показал заметное разнообразие снимков: они отличаются по качеству, ракурсу и общей композиции. Большая часть фотографий хорошо отражает процесс уборки, однако встречается и отдельный класс изображений, которые сложно однозначно отнести к корректным или некорректным.

Например, часть фотографий содержит участников, преднамеренно присутствующих в кадре вместе с собранным мусором — люди демонстрируют процесс уборки, позируют с мешками или фотографируются семьями на фоне очищенной территории.

Семейный кадр
Семейный кадр

Такие изображения сохраняют смысловую ценность, но создают сложности для автоматической интерпретации и анализа средствами компьютерного зрения.

 Изображения содержит ограниченное количество информации о мусоре
Изображения содержит ограниченное количество информации о мусоре

При этом особенно важно учитывать поведение пользователей: для многих участников фотография с собранным мусором — часть мотивации и эмоциональной вовлеченности. Чрезмерно строгие правила могли бы негативно сказаться на желании участвовать. Однако когда человек занимает большую площадь кадра, снимок теряет ценность для автоматической обработки.

Еще одна частая проблема — сложно точно понять, сделаны ли две фотографии в одном и том же месте. Это затрудняет как последующий анализ собранной информации, так и верификацию результатов.

Эти наблюдения определили требования к модулю автоматической валидации изображений.

Модуль валидации изображений

Валидация решает две ключевые задачи:

  1. Определение присутствия человека в кадре и оценка его доли в изображении.
    Для этого используется Grounding DINO‑B — современная модель детекции объектов, способная работать в zero‑shot режиме. Система отклоняет фотографии, где человек занимает более 70% площади кадра. Этот порог позволяет сохранить баланс между пользовательской свободой и технической корректностью анализа.

    Первое фото будет отклонено системой, а второе принято
    Первое фото будет отклонено системой, а второе принято
  2. Проверка совпадения локации на паре изображений «до/после».
    Для сопоставления местности используется модель LightGlue, модель сопоставляет ключевые точки на двух изображений. Она устойчива к различиям в освещении, ракурсе и частичной окклюзии. В сравнении с классическими методами (например, ORB или SIFT) LightGlue демонстрирует стабильность в условиях «полевой» съёмки.

    Найдена 281 совпадающая точка
    Найдена 281 совпадающая точка

На основе количества совпадающих ключевых точек формируется метрика сходства. Определили пороговое значение в 77 точек. Если она ниже порогового значения, пара изображений отклоняется как несоответствующая.

Модуль детекции мусора

Анализ снимков показал два основных требования. Во‑первых, модель должна уверенно распознавать разные типы отходов — они сильно различаются по форме, цвету и состоянию, могут быть частично повреждены или загрязнены. Во‑вторых, система должна работать и в ситуациях, когда полный список типов мусора заранее неизвестен. Это важно, потому что на реальных уборках встречаются самые разные объекты.

Под задачу подошёл современный метод — zero‑shot object detection. Он позволяет находить новые типы объектов без дополнительного обучения: достаточно задать их описание текстом. Такой подход проще классических решений, где под каждый класс нужна большая размеченная выборка.

В работе мы используем модель Grounding DINO Base. Она надёжно работает в zero‑shot режиме и сохраняет качество на снимках с разным ракурсом, освещением и уровнем детализации. Модель даёт точные локализации объектов и хорошо справляется с разнородными сценами, оставаясь устойчивой к изменению набора категорий. Поддержка текстовых описаний без дополнительного обучения делает её гибким инструментом. В совокупности эти свойства позволяют использовать Grounding DINO как оптимальное решение для нашей задачи.

Незначительное количество мусора в кадре
Незначительное количество мусора в кадре
Значительное количество мусора в кадре
Значительное количество мусора в кадре

Модуль оценки качества уборки

Оценка основана на данных детекции:

  1. Система подсчитывает количество обнаруженных объектов на изображениях «до» и «после».

  2. Рассчитывается процент убранных элементов.

  3. Если показатель превышает порог (текущий порог — 50 %), уборка считается успешной.

  4. При меньшем значении система дополнительно подсвечивает оставшийся мусор на фото «после» и просит участников повторить уборку и загрузить обновленный отчет.

Такой механизм пока реализован в базовом виде — это MVP, который решает ключевую задачу и даёт участникам понятную обратную связь, а организаторам — объективные данные о качестве уборки. В дальнейшем его можно расширить: например, добавлять оценку объёма или веса мусора, учитывать сложность объекта и другие параметры.

Демонстрация в Gradio

Сделали простенький интерфейс с инструкцией для участников.

Демонстрация интерфейса
Демонстрация интерфейса

Ниже представлены различные ситуации с которыми может столкнуться система.

Слишком много человека в кадре
Слишком много человека в кадре
Изображения очевидно сделаны в разных местах, сообщение с просьбой переснять фото
Изображения очевидно сделаны в разных местах, сообщение с просьбой переснять фото
Корректная пара фотографий "до" и "после" уборки, на первом фото обнаружено 4 загрязнения, на втором - 0, уборка считается успешной
Корректная пара фотографий "до" и "после" уборки, на первом фото обнаружено 4 загрязнения, на втором - 0, уборка считается успешной

Разработанная система автоматической оценки качества уборок показала, что современные методы компьютерного зрения уже сейчас позволяют заметно упростить модерацию отчётов и сделать процесс более прозрачным. Использование zero‑shot‑детекции, сопоставления ключевых точек и автоматической валидации снимков помогает сформировать устойчивый и повторяемый анализ без необходимости ручного разбора каждого случая.

Таким образом, мы разработали MVP, который соответствует требованиям: проверяет пары фотографий, отсеивает некорректные отчёты, оценивает качество уборки и формирует понятную обратную связь для участников. Такой подход снижает нагрузку на модераторов, ускоряет обработку результатов и создаёт единый стандарт проверки, который масштабируется на любые регионы и площадки.

Спасибо за прочтение!
Спасибо за прочтение!

Таким образом, мы увидели на практике, что не всегда нужно обучать отдельную модель под узкую задачу — во многих случаях удобнее и быстрее применить современные zero‑shot‑подходы. Они позволяют адаптировать систему к новым условиям без долгой подготовки данных и обучения.

Разработанная нами система легко масштабируется на другие сценарии: мониторинг территорий, контроль состояния городских пространств, оценку чистоты площадок после массовых мероприятий. Компьютерное зрение уже сегодня экономит время, снижает нагрузку на людей и делает рутинные процессы прозрачнее. В экологии его роль особенно заметна: технологии помогают объективно оценивать результаты уборок, поддерживать высокий стандарт качества и расширять масштаб инициатив.

И это только начало: по мере развития методов вклад компьютерного зрения в устойчивое развитие и заботу о планете будет становиться всё весомее.

Спасибо, что дочитали. Если у вас появятся вопросы или идеи, я открыта к обсуждению.

Комментарии (1)