Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". 

Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна.

Качество проекта по машинному обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.

Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.

Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против. 

Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:

In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаниям с собственным штатом дата-аналитиков. 

Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут вам потребуется все тщательно спланировать и организовать; новых сотрудников нужно будет обучить, чтобы они смогли выполнить работу согласно вашим требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, его придется приобрести. 

Краудсорсинг: краудсорсинговые платформы – это способ решить одну отдельно взятую задачу при помощи большого количества исполнителей. Так как на крауд-платформах множество исполнителей из разных стран и их можно отфильтровать по уровню, то набрать команду там можно достаточно быстро и относительно бюджетно. Но стоит учитывать, что краудсорсинговые платформы довольно сильно различаются как по уровню квалификации исполнителей, так и по возможностям для контроля качества и управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно сразу просчитывать все эти параметры. 

Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератор и дискриминатор), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими. 

«Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.  

В этой таблице мы приводим наглядное сравнение вышеописанных методов: 

Достоинства 

Недостатки

In-house

Контроль процесса

Высокое качество

Предсказуемый результат

Большие временные затраты 

Аутсорсинг 

Возможность собрать команду под конкретную задачу

Время на обучение

Планирование, организация процесса

Краудсорсинг

Масштабируемость

Глобальные задачи

Скорость

Стоимость работ

Трудно контролировать качество

Требуются ресурсы на сбор данных о платформе 

Компании, специализирующиеся на обработке данных

Высокое качество

Масштабируемость

Глобальные задачи 

Скорость

Высокая стоимость

Синтезирование и расширение

Эффективность по времени

Можно собрать много данных для обучения

Необходимы высокие вычислительные мощности

Программный метод

Автоматизация 

Скорость 

Низкий уровень качества

Каждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы. 

-------------

Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.

Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.