Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:

  • как быстро аннотатор может разметить тысячу изображений;

  • удобно ли контролировать качество и правки;

  • можно ли подключить модель для предразметки;

  • как работает экспорт и интеграция с ML-пайплайном;

  • где будут храниться данные - на сервере компании или в облаке;

  • насколько легко масштабировать команду аннотаторов.

Я недавно проходил этот путь и размечал на том, что первым попалось в выдаче, - Roboflow. Но столкнувшись с рядом ограничений и багов (экспорт для Oriented Bounding Box (OBB)), стал искать альтернативы на основе рекомендаций в сети (Label Studio и CVAT). Альтернатив и конкурентов большое множество, но мой практический опыт основывается на этих трёх инструментах.

Ручная разметка более 6000 изображений не делает меня «экспертом», но такой объём дает право рассказать о том, что работает, а что - нет, и какой инструмент лучше подходит для разных сценариев.

Сравнение построено на выполнении одной и той же задачи в одинаковых условиях с одним и тем же набором данных. Всё, что ниже - это опыт из практики, который может сэкономить вам недели времени и бюджет.

Введение

Разметка - самый скучный, но критически важный этап в построении модели компьютерного зрения. От того, какой инструмент вы выберете, зависит не только удобство работы аннотаторов, но и скорость итераций, корректность границ объектов, консистентность классов и, в конечном итоге, качество итоговой модели. Всё это позволяет не просто «обучить что-то», а минимизировать ошибки на начальном этапе, ускорить цикл обучения, оптимизировать бюджет проекта и качество метрик итоговой модели.

Выбор платформы для разметки - это всегда компромисс между несколькими ключевыми факторами:

1.    Гибкость:

  • настройка интерфейса под конкретные задачи (bounding box, полигон, сегментация, keypoints и т. д.);

  • поддержка кастомных типов данных (видео, 3D, мультиканальные изображения);

  • возможность интеграции пользовательских скриптов и плагинов.

    2.    Скорость аннотирования:

  • предразметка с помощью модели (active learning, pre-labeling);

  • удобство интерфейса и горячих клавиш;

  • командная работа и распределение задач.

    3.    Контроль качества:

  • валидация, повторная аннотация, сравнение аннотаторов;

  • инструменты ревью и возврата задач;

  • логирование событий, бэкапы и версионирование аннотаций.

    4.    Безопасность и хранение данных:

  • выбор между локальным (self-hosted) и облачным (SaaS) вариантом;

  • разграничение прав доступа (просмотр, аннотация, ревью, администрирование).

    5.    Стоимость:

  • прямые затраты (лицензии, кредиты, подписки);

  • косвенные (развертывание, обучение команды, поддержка инфраструктуры);

  • масштабируемость по мере роста датасета.

Стоит выделить текущие тенденции, большинство платформ уже начинают поддерживать ассистированные модели (автоматическое аннотирование), которые делают предварительную разметку, а аннотаторы проверяют и корректируют её. Это заметно ускоряет процесс и снижает стоимость аннотации.

Многие команды отдают предпочтение self-host (локальным решениям), особенно если данные конфиденциальные, потому что таким образом можно полностью контролировать хранение, права доступа и соответствие требованиям безопасности.

Далее я рассмотрю три конкретные платформы: Roboflow, Label Studio и CVAT - на основе моего практического опыта. Работа проводилась на реальных датасетах из нескольких тысяч изображений, каждое из которых содержало от 1 до 140 объектов, поэтому сравнение носит прикладной характер.

Инструменты разметки

Roboflow - быстрый старт и единая платформа

Roboflow - облачная платформа, объединяющая сбор данных, разметку, управление версиями датасетов, обработку (pre-processing/augmentation), обучение моделей и их деплой.
Вы просто загружаете изображения или видео, размечаете их, и далее можете экспортировать метки или сразу обучить и развернуть модель.

Рисунок 1. Пример встроенной аналитики датасета платформы Roboflow.
Рисунок 1. Пример встроенной аналитики датасета платформы Roboflow.
Рисунок 2. Пример визуализации метрик обучения платформы Roboflow
Рисунок 2. Пример визуализации метрик обучения платформы Roboflow

Поддерживаются разнообразные типы задач: Object Detection, Single-Label Classification, Multi-Label Classification, Instance Segmentation, Semantic Segmentation, Keypoint Detection.

Ключевые особенности:

  • AI‑ассистированная разметка с поддержкой функций типа «pre‑labeling» или «Label Assist», что позволяет аннотаторам тратить меньше времени на рутинную работу;

  • Много форматов экспорта: JSON (COCO, и др.), XML (Pascal VOC), TXT (YOLO), CSV и other, в том числе и интеграция с Ultralytics Hub, AWS, Google cloud, Microsoft Azure и др.;

  • Удобное управление командами (задания на аннотацию, роли (Labeler, Reviewer, Admin), отслеживание прогресса и контроля качества);

  • Хорошая документация и зрелая экосистема (форум, блоги, датасеты, модели).

Плюсы

  • Минимальный порог входа. Подходит, если надо быстро запустить разметку или модель;

  • Удобный интерфейс, AI-помощь, готовые пайплайны, разнообразие датасетов, различные модели, аналитика датасета, анализ результатов обучения модели;

  • Один инструмент от «загрузки данных» до «депоя модели».

Минусы

  • Облачная платформа не подойдёт, если данные нельзя выносить наружу;

  • Стоимость затрат пропорциональна росту проекта, особенно если используется премиум-функции или большое количество данных/топовых моделей;

  • Ограничения бесплатного тарифа (публичность данных, размер команды/проектов);

  • «Черная коробка» относительно кастомизации интерфейса или разметки по сравнению с инструментами open‑source.

Roboflow - лучший выбор, если вы хотите быстро протестировать гипотезу и не тратить время на настройку инфраструктуры.

  • Когда нужен быстрый прототип: команда хочет стартовать, собрать датасет, размечать и сразу обучать/деплоить;

  • Когда проект не требует максимально строгого self-host контроля или когда облачное решение устраивает с точки зрения безопасности;

  • Когда есть ограничение по времени и хочется сразу рабочий инструмент без больших установок и инфраструктуры;

  • Когда задача охватывает разные этапы (разметка, обучение, деплой) и хочется минимизировать числа разных инструментов.

Когда стоит рассмотреть альтернативу

  • Если данные строго конфиденциальны и требуется полный контроль над инфраструктурой (локальное хранение и внутренняя сеть).

  • Если нужно очень специфическое или кастомное решение интерфейса разметки или workflow, которого нет «из коробки» в платформе.

  • Если бюджет ограничен и необходима минимум затрат и максимальная кастомизация - возможно open-source вариант будет выгоднее.

Рисунок 3. Приме рабочего шаблона Roboflow Workflows
Рисунок 3. Приме рабочего шаблона Roboflow Workflows

Roboflow Workflows - это визуальная среда для сборки end-to-end приложений компьютерного зрения из наборов готовых модулей. Каждый блок представляет собой атомарную операцию (загрузка данных, препроцессинг, вызов модели, постпроцессинг, фильтрация результатов, интеграция с внешними API и т. д.). Блоки соединяются в интерфейсе как узлы графа, что позволяет без кода собирать рабочие процессы - от быстрого прототипа до готового приложения, - а движок Workflows отвечает за выполнение всех шагов и совместимостью компонентов. Это снижает порог входа и позволяет переходить от прототипа к работающему приложению без дополнительной инфраструктуры.

Label Studio - максимальная гибкость и полный контроль

Label Studio - инструмент для разметки данных с открытым исходным кодом, разработанный компанией Heartex.

Рисунок 4. Метод установки Label Studio
Рисунок 4. Метод установки Label Studio
Рисунок 5. Поддержка разнообразных типов данных
Рисунок 5. Поддержка разнообразных типов данных

Его ключевое преимущество - поддержка практически любых типов данных: изображений, видео, текста, аудио, документов, временных рядов и даже произвольных структурированных форматов. Благодаря этому Label Studio подходит как для задач компьютерного зрения, так и для NLP, аудио-аналитики или multi-modal проектов.

Пример XML‑подобной конфигурации:

<View visibleWhen="region-selected">
  <Header value="Describe object" />
  <TextArea name="answer" toName="image" editable="true"
            perRegion="true" required="true" />
  <Choices name="choices" toName="image"
           perRegion="true">
    <Choice value="Correct"/>
    <Choice value="Broken"/>
  </Choices>
</View>

Интерфейс легко кастомизируется с помощью XML‑подобной конфигурации, в которой задается какие элементы отображать (bounding box, полигон, checkbox , текстовые поля и так далее). Это делает Label Studio удобным инструментом для нестандартных сценариев, когда нужно «разметить объект и описать его дефект текстом» или «выделить фрагмент аудио и классифицировать эмоцию».

Label Studio можно развернуть локально, интегрировать с существующей инфраструктурой и подключить к пайплайнам машинного обучения через API или Python SDK. Это делает его популярным в проектах, где важны безопасность, кастомизация и воспроизводимость.

Ключевые особенности:

  • Поддержка широкого спектра типов данных (CV, NLP, Audio, Time Series, табличные и кастомные форматы);

  • Гибкая конфигурация интерфейса разметки через декларативный XML-подобный язык;

  • REST API и Python SDK для автоматизации, интеграции с ML-пайплайном и кастомных workflow;

  • Возможность полного локального развертывания (self-hosted) с контролем доступа и хранением данных внутри организации

Плюсы:

  • Универсальность (подходит почти для любой задачи разметки);

  • Open Source (можно развернуть локально, модифицировать код и интегрировать в закрытую инфраструктуру);

  • Гибкость интерфейса (легко адаптируется под уникальные сценарии и сложные правила аннотаций);

  • Хорошая интеграция с ML-пайплайнами через API и SDK.

Минусы:

  • Из коробки нет продвинутой AI-предразметки (нужно настраивать вручную или дополнять внешними моделями);

  • Некоторые функции командной работы доступны только в Enterprise-версии;

  • Интерфейс может быть сложнее для новичков, особенно при кастомизации.

Label Studio - отличный выбор, если вы хотите максимальный контроль и гибкость.

  • Когда нужен полный контроль над данными и соблюдение требований безопасности (локальный деплой);

  • Когда задача не вписывается в стандартные шаблоны и требуется глубокая кастомизация интерфейса;

  • Когда нужно размечать разнообразные типы данных в едином инструменте;

  • Когда команда готова интегрировать систему в ML-пайплайн и автоматизировать workflow.

CVAT - проверенный стандарт для компьютерного зрения

CVAT (Computer Vision Annotation Tool) разрабатывался в Intel, и долгое время был «дефолтным» инструментом в компьютерном зрении. Платформа ориентирована прежде всего на разметку изображений и видео и часто используется в корпоративных проектах, где важны точность аннотаций, контроль качества и масштабируемость.

Пример установки продукта для Windows:

git clone https://github.com/cvat-ai/cvat
cd cvat
docker compose up -d
Рисунок 6. Пример интерфейса CVAT
Рисунок 6. Пример интерфейса CVAT

Поддерживаются разнообразные типы задач: Object Detection, Instance  / Semantic Segmentation, Keypoint / Skeleton Annotation, Video Tracking, Image-level labels.

Инструмент полностью поддерживает self-hosted режим, что делает его популярным среди компаний, работающих с конфиденциальными данными или требующих строгого контроля над инфраструктурой. CVAT может масштабироваться до команды аннотаторов, поддерживая роли, ревью и распределение задач.

Ключевые особенности:

  • Автоматизированная разметка с помощью встроенных AI-моделей (OpenVINO), включая автоподстановку и предсказания форм;

  • Полноценный self-hosted (развертывание в локальной сети, доступ по ролям, интеграция с внутренней инфраструктурой);

  • Гибкая система задач (распределение работы, назначение ревьюеров, контроль прогресса).

Плюсы

  • Открытый исходный код и активное сообщество - можно расширять функциональность, писать плагины и интеграции;

  • Идеально подходит для больших команд и сложных CV-проектов;

  • AI-ассистирование разметки (OpenVINO и подключаемые модели);

  • Полный контроль над инфраструктурой (self-hosted, приватность данных, соблюдение корпоративных стандартов безопасности).

Минусы

  • Порог входа (сложный интерфейс, настройка и администрирование self-hosted требует технических навыков (Docker, серверная инфраструктура));

  • Ограничена работа с типами данных вне CV;

  • Для быстрой одноразовой разметки может быть «тяжёлым» по сравнению с облачными платформами.

CVAT - выбор тех, кому важно держать данные у себя и нужно размечать видео или сложные CV-задачи.

  • Когда нужно размечать большие датасеты (видео) с трекингом и сложными объектами;

  • Когда важна точность, надёжность и командная работа в промышленном процессе аннотаций;

  • Когда требуется полный контроль над данными (self-hosted, приватные серверы, VPN-доступ);

  • Когда необходимо масштабировать аннотацию на десятки аннотаторов с чётким workflow.

Итоги

Критерий

Label Studio

CVAT

Roboflow

Типы данных

Фото, видео, текст, аудио, временные ряды

Фото и видео; фокус на CV (детекция, сегментация, трекинг)

Фото и видео; встроенные инструменты предобработки и версиирования датасетов

Развертывание

Self-host, Cloud/Enterprise

Self-host, Cloud/Enterprise

SaaS по умолчанию; приватность и self-host только на платных планах

Автоматизация / Label-assist

Поддерживается (ML backends), требует настройки

Auto-annotations через внешние модели / OpenVINO; требует конфигурации

Сильный фокус на AI-ассисте (Auto Label, Label Assist, SAM-поддержка), минимум настроек

Совместная работа / управление

Поддерживает роли, но некоторые функции в платной/enterprise

Командная работа, роли, ревью

Командная работа, история версий, история правок

Интеграции (Cloud, MLOps)

Поддержка S3/GCS/Azure, кастомные ML-бэкенды

Интеграции с Cloud, API, подключаемые модели

Плотная интеграция с пайплайнами, конвертирование форматов и хостинг моделей

Стоимость

OSS бесплатно, платные облачные/enterprise-фичи отдельно

OSS бесплатно; облачные/enterprise-фичи платно

Часть функций бесплатна, расширения по подписке

Когда выбирать

Нужна мультидоменная разметка и гибкая кастомизация интерфейсов

Сложные CV-проекты, видео, трекинг, строгий контроль данных (self-host)

Быстрое прототипирование, авторазметка, MLOps/облако из коробки

Все три инструмента решают одну задачу - разметить данные, но делают это очень по-разному. Roboflow позволяет максимально быстро стартовать, CVAT идеально подходит под «тяжёлые» CV-кейсы, а Label Studio даёт гибкость, которой нет ни у кого другого.

Когда я начинал, выбирал «что первое попалось». Сейчас я понимаю, что правильно выбранная платформа экономит недели работы и сотни человеко-часов. Поэтому если у вас впереди большая разметочная кампания, то не поленитесь протестировать инструменты. Практика в интерфейсе говорят больше, чем документация и отзывы.

Грамотно выстроенный пайплайн разметки - это не вспомогательный этап, а ключевой фактор успеха всего ML-проекта.

Скрытый текст

Не существует универсального ответа.

Комментарии (0)