![](https://habrastorage.org/webt/ua/9z/za/ua9zzag6h8np76sybbnncmeipmo.jpeg)
Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.
Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.
1. Label Studio
![](https://habrastorage.org/webt/mv/gm/ss/mvgmssz6qzxv8e3xrfk43vluibu.jpeg)
Наш самый любимый опенсорсный инструмент разметки — это Label Studio, разрабатываемый Heartex Inc. Мы освещали enterprise-версию этого инструмента в своей статье, потому что были впечатлены её гибкостью и широкими возможностями активного обучения и совместной работы. Опенсорсная версия инструмента работает со всеми типами данных, включая аудио, текст, изображения, видео и временные последовательности.
Она поддерживает широкий ассортимент видов аннотирования, в том числе классификацию изображений, распознавание объектов и семантическую сегментацию. Она работает практически со всеми типами данных (аудио, изображения, текст и HTML), а также имеет уникальную конфигурацию под названием Labeling Config, в которой пользователь может проектировать собственный UI. У инструмента есть множество управляемых алгоритмами функций автоматизации, в том числе опция предварительной разметки, которая может самостоятельно размечать данные на основе имеющейся модели машинного обучения. Кроме того, инструмент собрал вокруг себя активное сообщество пользователей и имеет очень активный канал в Slack, в котором можно обмениваться опытом или отправлять просьбы к разработчикам.
2. Diffgram
![](https://habrastorage.org/webt/lr/00/-8/lr00-8fqmsl_-bfd4p2tz3ez6sk.png)
Вторая платформа в этом списке — это Diffgram. Мы тоже рассказывали ранее о Diffgram в серии Tools we love ещё тогда, когда этот инструмент был платным. С весны 2021 года Diffgram стал полностью опенсорсной платформой с опциональными платными сервисами и enterprise-поддержкой. Мы полностью поддерживаем такой переход и очень рады увеличению охвата пользователей.
На фоне остальных инструментов его выделяет то, что наряду с платформой аннотации он также имеет различные функции управления массивами данных и рабочими процессами. Он поддерживает практически все виды пространственного аннотирования на изображениях и в видео, в том числе ограничивающие прямоугольники, кубоиды и ключевые точки. Функция семантической сегментации имеет различные инструменты, например, автоматическое определение границ, комбинирование форм и преобразование точек в многоугольники. Кроме того, функция аннотирования видео поддерживает интерполяцию и разметку последовательностей, например, отслеживание событий и объектов.
3. LabeIImg
![](https://habrastorage.org/webt/rd/sy/pz/rdsypzogyunfi3y00blgwzf9nby.jpeg)
LabelIMG — ещё один очень популярный опенсорсный и бесплатный инструмент разметки изображений. На самом деле, это был первый инструмент, который мы начали использовать в 2017 году, он значительно упростил нашу работу благодаря своему простому и интуитивно понятному интерфейсу, а также тому, что его можно использовать офлайн для обеспечения максимальной защиты данных.
Кроме того, его можно установить практически в любой операционной системе: Windows, Linux, Ubuntu и Mac OS, а его библиотеку Python также можно использовать в Anaconda или Docker. Однако он поддерживает единственный способ разметки — ограничивающие прямоугольники; поэтому он может стать удобным первым инструментом, но для сложных проектов его может оказаться недостаточно. Он может сохранять аннотации как файлы XML в формате PASCAL VOC, а также в форматах YOLO и CreateML.
4. CVAT
![](https://habrastorage.org/webt/uh/5x/7p/uh5x7pb_ciiy8hqrboqsoklo8lo.jpeg)
Computer Vision Annotation Tool (CVAT) — это опенсорсное ПО, разработанное компанией Intel. Хотя его UI не самый понятный, оно очень мощное, обладает современными функциями и работает в Chrome. CVAT по-прежнему является одним из основных инструментов разметки для нас и наших клиентов, ведь оно гораздо быстрее, чем множество других инструментов на рынке.
CVAT обеспечивает распознавание объектов, классификацию и сегментацию изображений, аннотирование прямоугольниками, многоугольниками, линиями и ключевыми точками. CVAT даже имеет различные функции автоматизации, например, копирование и перенос объектов, отслеживание, интерполяция и автоматическое аннотирование объектов, реализованные на основе TensorFlow OD API. Благодаря этому инструменту легко организовать совместную работу, позволяющую разделять и делегировать задания.
5. ImageTagger
![](https://habrastorage.org/webt/j7/or/xh/j7orxhg0zzzomuevgor4u5ue4kq.jpeg)
ImageTagger — это опенсорсная онлайн-платформа для совместной работы над разметкой изображений. Эта платформа разработана Никласом Фидлером с кафедры информатики Гамбургского университета специально для Robot World Cup и спроектирована таким образом, чтобы сама процедура разметки была как можно более интуитивной и быстрой.
Она позволяет размечать массивы изображений ограничивающими прямоугольниками, многоугольниками, линиями и ключевыми точками. У неё есть опции управления проектами и функции помощи в QA, например, предварительная загрузка изображений, загрузка существующих меток и проверка меток. Кроме того, в ней сделан упор на совместную работу и она обеспечивает возможность крупномасштабной совместной работы с разметкой массивов изображений благодаря разделению разметчиков на команды.
6. LabelMe
![](https://habrastorage.org/webt/yj/s3/zp/yjs3zpx_abfd_zrj3dtxbc-sjrs.png)
LabelMe — это опенсорсный инструмент, считающийся классикой индустрии разметки. Это ПО, разработанное в 2008 году Массачусетским технологическим университетом для создания канонического массива данных LabelMe, может использоваться как онлайн, так и офлайн. Оно совместимо с Windows, Ubuntu и Mac, а также с Python launchers. LabelMe обеспечивает аннотирование изображений и видео при помощи многоугольников, прямоугольников, окружностей, линий, ключевых точек, семантической сегментации и сегментации экземпляров объектов.
Кроме того, оно обеспечивает классификацию при помощи инструмента аннотирования флагов изображений, а также функцию очистки и имеет настраиваемый UI. Также ПО позволяет экспортировать семантическую сегментацию и сегментацию экземпляров в форматах VOC и COCO. Однако в нём практически отсутствуют функции управления проектами, потому что оно не предназначено для совместной разметки. Вместо этого в нём реализована интеграция с Mechanical Turk для удобного аутсорсинга ручного процесса разметки.
7. VIA
![](https://habrastorage.org/webt/ua/9z/za/ua9zzag6h8np76sybbnncmeipmo.jpeg)
VGG Image Annotator, также известный под именем VIA, был разработан Visual Geometry Group Оксфордского университета. Этот довольно простой инструмент ручного аннотирования изображений, аудио и видео — один из самых любимых для нас, и мы по-прежнему регулярно им пользуемся. Он очень прост в установке и использовании, его можно применять как офлайн-приложение в любом браузере с поддержкой HTML.
VIA может выполнять разметку такими фигурами, как прямоугольники, окружности, эллипсы, многоугольники, многоугольники, ключевые точки и линии. VIA поддерживает экспорт в CSV и JSON, а также имеет ограниченные функции управления проектами, например, создание нескольких задач для аннотатора и отслеживание прогресса в простом, но удобном UI.
8. Make Sense
![](https://habrastorage.org/webt/mj/_4/gw/mj_4gwqqfrpso7427knkxefrk_i.jpeg)
Make Sense — относительно новая опенсорсная платформа аннотирования. Она выпущена летом 2019 года Петром Скальски, имеет потрясающий UI и простые функции аннотирования с дополнительным распознаванием объектов и изображений. Чтобы начать работу, достаточно зайти на веб-сайт платформы, перетащить изображение и сразу приступить к его разметке. Платформа не хранит изображения онлайн, поэтому не вызовет проблем с приватностью.
Make Sense поддерживает ограничивающие прямоугольники, ключевые точки, линии и многоугольники и даже использует ИИ-модели для автоматизации части задач автоматизации, например, модель SSD, предварительно обученную на массиве данных COCO, и модель PoseNet, которую можно использовать для определения позы персонажа и основного объекта на изображении или в видео. В настоящее время Make не имеет функций управления проектами и API.
9. COCO Annotator
![](https://habrastorage.org/webt/gn/xq/xl/gnxqxlxz-rw70-46hxspzlw5ntq.jpeg)
COCO Annotator, созданный на основе Vue.js — это опенсорсный фронтендный JavaScript-фреймворк модели model–view–view для создания пользовательских интерфейсов и одностраничных приложений, разработанный Джастином Бруксом. Это веб-инструмент сегментации изображений, предназначенный для помощи в разработке и обучении моделей распознавания объектов, локализации и обнаружения ключевых точек.
Разметку массивов данных можно создавать кривыми произвольной формы, многоугольниками и ключевыми точками, а также другими функциями, позволяющими размечать сегменты изображений, отслеживать экземпляры объектов и даже размечать объекты с разделёнными видимыми частями одного экземпляра. При этом инструмент эффективно сохраняет и экспортирует аннотации в формате COCO. Также COCO Annotator поддерживает аннотирование изображение при помощи частично обученных моделей и имеет продвинутые инструменты выделения, например, DEXTR, MaskRCNN и Magic Wand. Наконец, в нём есть система аутентификации пользователей для обеспечения безопасности.
10. Dataturks
![](https://habrastorage.org/webt/db/de/jw/dbdejwn9ooqcocg_bvsquigkisq.jpeg)
Последний пункт нашего списка — это опенсорсная платформа, которая больше не обновляется. Ранее Dataturks был платным сервисом, приобретённым Walmart в 2018 году. С тех пор разработка платформы разметки прекратилась и теперь она свободна доступна в GitHub. Она совершенно бесплатна, несмотря на множество намёков о возможности дополнительной оплаты, встречающихся при работе с ПО. Похоже, она долгое время не развивалась, однако по-прежнему является надёжным опенсорсным инструментом аннотирования данных. Она обеспечивает асинхронную работу команд над аннотированием различных типов данных, включая изображения, видео, текст и NER.
При аннотировании изображений она позволяет отрисовывать многоугольники произвольной формы для генерации масок сегментируемых изображений, а также поддерживает классификацию изображений при помощи многоугольных меток и ограничивающих прямоугольников. У неё даже есть функция визуального отслеживания объектов, в которой пользователь может отрисовать вокруг объекта ограничивающий прямоугольник на нескольких кадрах видео, после чего инструмент автоматически выполнит интерполяцию между точками. Dataturks может экспортировать данные в форматы VOC, Tensorflow и Keras.