Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:
как быстро аннотатор может разметить тысячу изображений;
удобно ли контролировать качество и правки;
можно ли подключить модель для предразметки;
как работает экспорт и интеграция с ML-пайплайном;
где будут храниться данные - на сервере компании или в облаке;
насколько легко масштабировать команду аннотаторов.
Я недавно проходил этот путь и размечал на том, что первым попалось в выдаче, - Roboflow. Но столкнувшись с рядом ограничений и багов (экспорт для Oriented Bounding Box (OBB)), стал искать альтернативы на основе рекомендаций в сети (Label Studio и CVAT). Альтернатив и конкурентов большое множество, но мой практический опыт основывается на этих трёх инструментах.
Ручная разметка более 6000 изображений не делает меня «экспертом», но такой объём дает право рассказать о том, что работает, а что - нет, и какой инструмент лучше подходит для разных сценариев.
Сравнение построено на выполнении одной и той же задачи в одинаковых условиях с одним и тем же набором данных. Всё, что ниже - это опыт из практики, который может сэкономить вам недели времени и бюджет.
Введение
Разметка - самый скучный, но критически важный этап в построении модели компьютерного зрения. От того, какой инструмент вы выберете, зависит не только удобство работы аннотаторов, но и скорость итераций, корректность границ объектов, консистентность классов и, в конечном итоге, качество итоговой модели. Всё это позволяет не просто «обучить что-то», а минимизировать ошибки на начальном этапе, ускорить цикл обучения, оптимизировать бюджет проекта и качество метрик итоговой модели.
Выбор платформы для разметки - это всегда компромисс между несколькими ключевыми факторами:
1. Гибкость:
настройка интерфейса под конкретные задачи (bounding box, полигон, сегментация, keypoints и т. д.);
поддержка кастомных типов данных (видео, 3D, мультиканальные изображения);
-
возможность интеграции пользовательских скриптов и плагинов.
2. Скорость аннотирования:
предразметка с помощью модели (active learning, pre-labeling);
удобство интерфейса и горячих клавиш;
-
командная работа и распределение задач.
3. Контроль качества:
валидация, повторная аннотация, сравнение аннотаторов;
инструменты ревью и возврата задач;
-
логирование событий, бэкапы и версионирование аннотаций.
4. Безопасность и хранение данных:
выбор между локальным (self-hosted) и облачным (SaaS) вариантом;
-
разграничение прав доступа (просмотр, аннотация, ревью, администрирование).
5. Стоимость:
прямые затраты (лицензии, кредиты, подписки);
косвенные (развертывание, обучение команды, поддержка инфраструктуры);
масштабируемость по мере роста датасета.
Стоит выделить текущие тенденции, большинство платформ уже начинают поддерживать ассистированные модели (автоматическое аннотирование), которые делают предварительную разметку, а аннотаторы проверяют и корректируют её. Это заметно ускоряет процесс и снижает стоимость аннотации.
Многие команды отдают предпочтение self-host (локальным решениям), особенно если данные конфиденциальные, потому что таким образом можно полностью контролировать хранение, права доступа и соответствие требованиям безопасности.
Далее я рассмотрю три конкретные платформы: Roboflow, Label Studio и CVAT - на основе моего практического опыта. Работа проводилась на реальных датасетах из нескольких тысяч изображений, каждое из которых содержало от 1 до 140 объектов, поэтому сравнение носит прикладной характер.
Инструменты разметки
Roboflow - быстрый старт и единая платформа
Roboflow - облачная платформа, объединяющая сбор данных, разметку, управление версиями датасетов, обработку (pre-processing/augmentation), обучение моделей и их деплой.
Вы просто загружаете изображения или видео, размечаете их, и далее можете экспортировать метки или сразу обучить и развернуть модель.


Поддерживаются разнообразные типы задач: Object Detection, Single-Label Classification, Multi-Label Classification, Instance Segmentation, Semantic Segmentation, Keypoint Detection.
Ключевые особенности:
AI‑ассистированная разметка с поддержкой функций типа «pre‑labeling» или «Label Assist», что позволяет аннотаторам тратить меньше времени на рутинную работу;
Много форматов экспорта: JSON (COCO, и др.), XML (Pascal VOC), TXT (YOLO), CSV и other, в том числе и интеграция с Ultralytics Hub, AWS, Google cloud, Microsoft Azure и др.;
Удобное управление командами (задания на аннотацию, роли (Labeler, Reviewer, Admin), отслеживание прогресса и контроля качества);
Хорошая документация и зрелая экосистема (форум, блоги, датасеты, модели).
Плюсы
Минимальный порог входа. Подходит, если надо быстро запустить разметку или модель;
Удобный интерфейс, AI-помощь, готовые пайплайны, разнообразие датасетов, различные модели, аналитика датасета, анализ результатов обучения модели;
Один инструмент от «загрузки данных» до «депоя модели».
Минусы
Облачная платформа не подойдёт, если данные нельзя выносить наружу;
Стоимость затрат пропорциональна росту проекта, особенно если используется премиум-функции или большое количество данных/топовых моделей;
Ограничения бесплатного тарифа (публичность данных, размер команды/проектов);
«Черная коробка» относительно кастомизации интерфейса или разметки по сравнению с инструментами open‑source.
Roboflow - лучший выбор, если вы хотите быстро протестировать гипотезу и не тратить время на настройку инфраструктуры.
Когда нужен быстрый прототип: команда хочет стартовать, собрать датасет, размечать и сразу обучать/деплоить;
Когда проект не требует максимально строгого self-host контроля или когда облачное решение устраивает с точки зрения безопасности;
Когда есть ограничение по времени и хочется сразу рабочий инструмент без больших установок и инфраструктуры;
Когда задача охватывает разные этапы (разметка, обучение, деплой) и хочется минимизировать числа разных инструментов.
Когда стоит рассмотреть альтернативу
Если данные строго конфиденциальны и требуется полный контроль над инфраструктурой (локальное хранение и внутренняя сеть).
Если нужно очень специфическое или кастомное решение интерфейса разметки или workflow, которого нет «из коробки» в платформе.
Если бюджет ограничен и необходима минимум затрат и максимальная кастомизация - возможно open-source вариант будет выгоднее.

Roboflow Workflows - это визуальная среда для сборки end-to-end приложений компьютерного зрения из наборов готовых модулей. Каждый блок представляет собой атомарную операцию (загрузка данных, препроцессинг, вызов модели, постпроцессинг, фильтрация результатов, интеграция с внешними API и т. д.). Блоки соединяются в интерфейсе как узлы графа, что позволяет без кода собирать рабочие процессы - от быстрого прототипа до готового приложения, - а движок Workflows отвечает за выполнение всех шагов и совместимостью компонентов. Это снижает порог входа и позволяет переходить от прототипа к работающему приложению без дополнительной инфраструктуры.
Label Studio - максимальная гибкость и полный контроль
Label Studio - инструмент для разметки данных с открытым исходным кодом, разработанный компанией Heartex.


Его ключевое преимущество - поддержка практически любых типов данных: изображений, видео, текста, аудио, документов, временных рядов и даже произвольных структурированных форматов. Благодаря этому Label Studio подходит как для задач компьютерного зрения, так и для NLP, аудио-аналитики или multi-modal проектов.
Пример XML‑подобной конфигурации:
<View visibleWhen="region-selected">
<Header value="Describe object" />
<TextArea name="answer" toName="image" editable="true"
perRegion="true" required="true" />
<Choices name="choices" toName="image"
perRegion="true">
<Choice value="Correct"/>
<Choice value="Broken"/>
</Choices>
</View>
Интерфейс легко кастомизируется с помощью XML‑подобной конфигурации, в которой задается какие элементы отображать (bounding box, полигон, checkbox , текстовые поля и так далее). Это делает Label Studio удобным инструментом для нестандартных сценариев, когда нужно «разметить объект и описать его дефект текстом» или «выделить фрагмент аудио и классифицировать эмоцию».
Label Studio можно развернуть локально, интегрировать с существующей инфраструктурой и подключить к пайплайнам машинного обучения через API или Python SDK. Это делает его популярным в проектах, где важны безопасность, кастомизация и воспроизводимость.
Ключевые особенности:
Поддержка широкого спектра типов данных (CV, NLP, Audio, Time Series, табличные и кастомные форматы);
Гибкая конфигурация интерфейса разметки через декларативный XML-подобный язык;
REST API и Python SDK для автоматизации, интеграции с ML-пайплайном и кастомных workflow;
Возможность полного локального развертывания (self-hosted) с контролем доступа и хранением данных внутри организации
Плюсы:
Универсальность (подходит почти для любой задачи разметки);
Open Source (можно развернуть локально, модифицировать код и интегрировать в закрытую инфраструктуру);
Гибкость интерфейса (легко адаптируется под уникальные сценарии и сложные правила аннотаций);
Хорошая интеграция с ML-пайплайнами через API и SDK.
Минусы:
Из коробки нет продвинутой AI-предразметки (нужно настраивать вручную или дополнять внешними моделями);
Некоторые функции командной работы доступны только в Enterprise-версии;
Интерфейс может быть сложнее для новичков, особенно при кастомизации.
Label Studio - отличный выбор, если вы хотите максимальный контроль и гибкость.
Когда нужен полный контроль над данными и соблюдение требований безопасности (локальный деплой);
Когда задача не вписывается в стандартные шаблоны и требуется глубокая кастомизация интерфейса;
Когда нужно размечать разнообразные типы данных в едином инструменте;
Когда команда готова интегрировать систему в ML-пайплайн и автоматизировать workflow.
CVAT - проверенный стандарт для компьютерного зрения
CVAT (Computer Vision Annotation Tool) разрабатывался в Intel, и долгое время был «дефолтным» инструментом в компьютерном зрении. Платформа ориентирована прежде всего на разметку изображений и видео и часто используется в корпоративных проектах, где важны точность аннотаций, контроль качества и масштабируемость.
Пример установки продукта для Windows:
git clone https://github.com/cvat-ai/cvat
cd cvat
docker compose up -d

Поддерживаются разнообразные типы задач: Object Detection, Instance / Semantic Segmentation, Keypoint / Skeleton Annotation, Video Tracking, Image-level labels.
Инструмент полностью поддерживает self-hosted режим, что делает его популярным среди компаний, работающих с конфиденциальными данными или требующих строгого контроля над инфраструктурой. CVAT может масштабироваться до команды аннотаторов, поддерживая роли, ревью и распределение задач.
Ключевые особенности:
Автоматизированная разметка с помощью встроенных AI-моделей (OpenVINO), включая автоподстановку и предсказания форм;
Полноценный self-hosted (развертывание в локальной сети, доступ по ролям, интеграция с внутренней инфраструктурой);
Гибкая система задач (распределение работы, назначение ревьюеров, контроль прогресса).
Плюсы
Открытый исходный код и активное сообщество - можно расширять функциональность, писать плагины и интеграции;
Идеально подходит для больших команд и сложных CV-проектов;
AI-ассистирование разметки (OpenVINO и подключаемые модели);
Полный контроль над инфраструктурой (self-hosted, приватность данных, соблюдение корпоративных стандартов безопасности).
Минусы
Порог входа (сложный интерфейс, настройка и администрирование self-hosted требует технических навыков (Docker, серверная инфраструктура));
Ограничена работа с типами данных вне CV;
Для быстрой одноразовой разметки может быть «тяжёлым» по сравнению с облачными платформами.
CVAT - выбор тех, кому важно держать данные у себя и нужно размечать видео или сложные CV-задачи.
Когда нужно размечать большие датасеты (видео) с трекингом и сложными объектами;
Когда важна точность, надёжность и командная работа в промышленном процессе аннотаций;
Когда требуется полный контроль над данными (self-hosted, приватные серверы, VPN-доступ);
Когда необходимо масштабировать аннотацию на десятки аннотаторов с чётким workflow.
Итоги
Критерий |
Label Studio |
CVAT |
Roboflow |
Типы данных |
Фото, видео, текст, аудио, временные ряды |
Фото и видео; фокус на CV (детекция, сегментация, трекинг) |
Фото и видео; встроенные инструменты предобработки и версиирования датасетов |
Развертывание |
Self-host, Cloud/Enterprise |
Self-host, Cloud/Enterprise |
SaaS по умолчанию; приватность и self-host только на платных планах |
Автоматизация / Label-assist |
Поддерживается (ML backends), требует настройки |
Auto-annotations через внешние модели / OpenVINO; требует конфигурации |
Сильный фокус на AI-ассисте (Auto Label, Label Assist, SAM-поддержка), минимум настроек |
Совместная работа / управление |
Поддерживает роли, но некоторые функции в платной/enterprise |
Командная работа, роли, ревью |
Командная работа, история версий, история правок |
Интеграции (Cloud, MLOps) |
Поддержка S3/GCS/Azure, кастомные ML-бэкенды |
Интеграции с Cloud, API, подключаемые модели |
Плотная интеграция с пайплайнами, конвертирование форматов и хостинг моделей |
Стоимость |
OSS бесплатно, платные облачные/enterprise-фичи отдельно |
OSS бесплатно; облачные/enterprise-фичи платно |
Часть функций бесплатна, расширения по подписке |
Когда выбирать |
Нужна мультидоменная разметка и гибкая кастомизация интерфейсов |
Сложные CV-проекты, видео, трекинг, строгий контроль данных (self-host) |
Быстрое прототипирование, авторазметка, MLOps/облако из коробки |
Все три инструмента решают одну задачу - разметить данные, но делают это очень по-разному. Roboflow позволяет максимально быстро стартовать, CVAT идеально подходит под «тяжёлые» CV-кейсы, а Label Studio даёт гибкость, которой нет ни у кого другого.
Когда я начинал, выбирал «что первое попалось». Сейчас я понимаю, что правильно выбранная платформа экономит недели работы и сотни человеко-часов. Поэтому если у вас впереди большая разметочная кампания, то не поленитесь протестировать инструменты. Практика в интерфейсе говорят больше, чем документация и отзывы.
Грамотно выстроенный пайплайн разметки - это не вспомогательный этап, а ключевой фактор успеха всего ML-проекта.
Скрытый текст
Не существует универсального ответа.