Формирование бюджета, создание и масштабирование операций по разметке данных
Недооценка труда, необходимого для разметки данных — это распространённая ошибка, признаваемая даже тяжеловесами отрасли разработки ИИ. Большинство распространённых трудностей, с которыми AI/ML-компании сталкиваются в процессе разметки данных, сводится к неадекватному планированию. Эта проблема может принимать различные формы, например:
- Почему мы потратили 100 тысяч долларов на этот набор данных?
- Где набор данных, на создание которого у нас ушло пять месяцев?
- Почему наш data scientist тратит по 40 часов в неделю на разметку данных?
К счастью, все эти трудности можно решить адекватным планированием. В этой статье мы вкратце изложим ключевые элементы хорошего планирования и прогнозирования. Их можно разбить на пять категорий:
- Установка целей
- Планирование проекта
- Оценка времени и затрат
- Оценка партнёров
- Назначение менеджера проекта
1. Установка целей
Прежде чем приступать к этапу планирования, мы должны сначала решить, чего хотим достичь в нашем проекте. Или, по словам Джеффа Безоса, начать с пресс-релиза. Хотя ваши цели будут соответствовать вашим конкретным потребностям, существуют и самые распространённые цели проектов разметки данных:
- Усовершенствование процесса разметки данных для кратковременных и долговременных проектов
- Снижение общих затрат на разметку данных
- Освобождение рабочего времени data scientist-а и инженера машинного обучения
2. Планирование проекта
На этом этапе нужно определиться с базовой информацией, на основе которой вы будете создавать свой проект. Мы выяснили, что самую критически важную информацию на этапе планирования можно разбить на три основные категории:
- Данные — сначала вам нужно будет полностью разобраться с данными, с которыми вы работаете. Следует учесть такие аспекты, как объём данных, количество данных, которые вы будете изучать, будет ли их поставка единовременной или повторяющейся. Выбор репрезентативной выборки поможет вашей команде гораздо лучше заранее оценить работу, чем если бы она начинала вслепую работать с полным набором данных. При выборе формата ввода-вывода, на входе, например, для спутниковых снимков могут быть такие форматы, как .jpeg и .geotiff, а на выходе — стандартные отраслевые форматы наподобие COCO, VOC или Yolo. Также стоит учесть способ передачи или хранения данных, например, электронная почта или общие накопители.
- Инструкции — чтобы устранить несогласованность при создании набора данных, ограничьте количество переменных. Для этого задайте высокоуровневую цель или метрику успеха алгоритма. Например, это может быть «определение проходимых для транспорта участков на основании спутниковых снимков с точностью 95%». После этого определитесь с тем, что конкретно вам нужно знать для вашей отрасли. Например, при изучении проходимых для транспорта участков со спутникового снимка это может быть разметка дорог и участки только для пешеходов. Инструкции помогут выполняющим аннотирование сотрудникам понять, какие класс, атрибуты и метки необходимо использовать. Кроме того, наличие готовых примеров поможет большому коллективу аннотаторов обеспечить целостность набора данных.
- Инструментарий — выбор ПО для аннотирования данных влияет на весь процесс в целом. При выборе инструментария есть множество различных вариантов: внутренние инструменты компании, открытое ПО или приложения сторонних поставщиков. Какой бы тип инструментария вы не выбрали, он должен обладать понятной документацией и инструкциями, чтобы команда, занимающаяся разметкой, смогла обучаться работе с инструментом. При работе с большими коллективами разметки также необходимо определиться с доступом и разрешениями. Чаще всего используются следующие профили пользователей: аннотатор, проверяющий, менеджер и администратор. Инструменты должны быть сконфигурированы таким образом, чтобы они поддерживали классы, атрибуты, связи, ограничения и различные типы аннотаций.
3. Оценка времени и затрат
Наверное, самая распространённая ошибка проектов разметки данных — недооценка времени и затрат, необходимых для получения высококачественных размеченных данных. Для более точного прогнозирования необходимо учесть три основных компонента.
- Приблизительные оценки — в рамках оценки нужно также учитывать действия по устранению перекосов. Они заключаются в контроле набора данных и создании репрезентативного набора данных. Время, потраченное на один размеченный элемент, зависит от сложности. Например, для полного аннотирования спутникового изображения может потребоваться от одного до четырёх часов. Выполните предварительную оценку, взяв за основу местную минимальную оплату труда. Например: 1000 снимков * 2 часа на снимок * 9,35 доллара = 18700 долларов
- Ожидания — существует значительная разница между кратковременными и долговременными проектами. Обычно кратковременные проекты требуют очень высокой точности, и в контексте того, что разметчики уже имеют опыт работы с темой, вам больше может подойти разметка данных внутри компании. В долговременных проектах аутсорсинговая разметка данных превосходит по эффективности работу внутри компании после периода первоначальной настройки.
- Бюджет — для точного прогнозирования сумм, которые необходимо потратить на задачи разметки, мы рекомендуем разделить проект на два этапа: этап оценки (примерно 10% от набора данных), что позволит вам приблизительно оценить необходимые затраты; и этап производства, который поможет вам на основании оценки спланировать объём данных. В долговременных проектах установите минимальное целевое количество новых задач для разметки на каждую неделю и не менее раза в квартал пересматривайте скорость обработки.
Для оптимизации бюджета мы рекомендуем воспользоваться следующими советами:
- Отфильтровывайте занимающие много времени пограничные случаи
- Ограничивайте количество изображений в разнообразном наборе данных
- Снизьте количество классов и атрибутов
- Начинайте с небольшой команды и постепенно увеличивайте её, чтобы обеспечить качество данных при экономии средств
4. Оценка партнёров
Установление партнёрства с поставщиком, специализирующимся на разметке данных, может обеспечить вам множество долговременных преимуществ, в том числе стабильный поток размеченных данных, специализированные аннотации и предсказуемые затраты.
При выборе потенциальных партнёров в разметке данных рекомендуем обратить внимание на следующие аспекты:
- Опыт в вашей области экспертизы и знакомство с ней — насколько обучены аннотаторы на специализацию в вашей отрасли?
- Размер команды — в целом, чем больше команда, тем выше скорость обработки. Размер команды поставщика должен гарантировать мощности, необходимые для нужного вам результата
- Расположение – это влияет на множество других факторов, например, на цену, доступность по часовым поясам и ресурсы
- Коммуникации и вовлечённость – мы рекомендуем работать с поставщиками, способными выделить вам отдельного специалиста по работе с клиентами, который будет вашим единственным контактным звеном
- Инструментарий и оборудование – Есть ли у поставщика оборудование, необходимое для работы с вашими данными? Например, есть ли у него адекватные графические карты для рендеринга графики высокого разрешения?
- Организация и безопасность данных – как поставщик хранит данные и обеспечивает их безопасность? Это может быть обеспечение физической защиты благодаря устройствам хранения, виртуальные частные сети и многофакторная аутентификация
- Полоса пропускания и электропитание – имеет ли поставщик базовую инфраструктуру, обеспечивающую передачу больших объёмов данных, и стабильную подачу электричества для питания и охлаждения?
- Цены и время выполнения заказов – предлагают ли поставщики конкурентное цены и подходящие соглашения об уровне обслуживания (SLA)?
5. Назначение менеджера проекта
Назначение менеджера проекта для процесса разметки данных из персонала вашей компании может значительно упростить выполнение проекта и обеспечить работу над своими задачами data scientist-ов и разработчиков.
Менеджер проекта должен отвечать за следующие аспекты:
- Планирование проекта – работа с ответственными лицами над выработкой понимания требований, графиков и затрат на проект
- Оценка партнёров – выработка понимания сильных и слабых сторон каждого поставщика и сотрудничество с ними для обеспечения наилучших результатов
- Взаимодействие между ответственными лицами – как главное связующее звено, менеджер проекта должен обеспечить чёткую коммуникацию между всеми ответственными лицами, задействованными в проекте
- Контроль качества данных – обеспечение необходимого стандарта получившихся размеченных данных
- Отслеживание прогресса – обеспечение своевременной поставки данных и соответствия затрат рамкам бюджета
Заключение
На основании своего опыта можем сказать, что при внедрении этих рекомендации с учётом собственных требований в будущих проектах разметки вы сможете добиться следующего:
- Точно оценивать время и трудозатраты
- Минимизировать затраты и снижать риск
- Обеспечить качество результата
- Поддерживать чёткую коммуникацию.
IgorDev
Подскажите, а как в вакансиях российских и англоязычных компаний называют "разметчиков" ?
kucev Автор
Их так и называют "разметчики", "разметчики данных". Еще есть "ассесоры", это разметчики, которые размечают интернет страницы для задачи оценки релевантности.
IgorDev
"Разметчик данных" вакансий нет на хх, есть разметчики по кройке железа, ассесоры есть на 30 тыс. рублей в месяц по всей стране яндекс ищет - может они и работают на бигдату и диплёнинг, но в вакансии это скрыто от кандидатов...
Что, как? Где же этот многоярдовый рынок подготовки данных для нейросеток? Опять РФ в стороне?
Упс... поправка - найдено целых 6 вакансий в РФ, где это словосочетание встречается... но без указания ЗП и восновном лидов ищут.