5 подходов к разметке данных для проектов машинного обучения / forpes.ru

Главная
5 подходов к разметке данных для проектов машинного обучения

5 подходов к разметке данных для проектов машинного обучения +3

09.11.2020 18:24

anna_zh 1 1100 Источник

Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока".

Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна.

Качество проекта по машинному обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.

Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.

Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против.

Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:

In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаниям с собственным штатом дата-аналитиков.

Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут вам потребуется все тщательно спланировать и организовать; новых сотрудников нужно будет обучить, чтобы они смогли выполнить работу согласно вашим требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, его придется приобрести.

Краудсорсинг: краудсорсинговые платформы – это способ решить одну отдельно взятую задачу при помощи большого количества исполнителей. Так как на крауд-платформах множество исполнителей из разных стран и их можно отфильтровать по уровню, то набрать команду там можно достаточно быстро и относительно бюджетно. Но стоит учитывать, что краудсорсинговые платформы довольно сильно различаются как по уровню квалификации исполнителей, так и по возможностям для контроля качества и управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно сразу просчитывать все эти параметры.

Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератор и дискриминатор), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими.

«Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.

В этой таблице мы приводим наглядное сравнение вышеописанных методов:

	Достоинства	Недостатки
In-house	Контроль процесса Высокое качество Предсказуемый результат	Большие временные затраты
Аутсорсинг	Возможность собрать команду под конкретную задачу	Время на обучение Планирование, организация процесса
Краудсорсинг	Масштабируемость Глобальные задачи Скорость Стоимость работ	Трудно контролировать качество Требуются ресурсы на сбор данных о платформе
Компании, специализирующиеся на обработке данных	Высокое качество Масштабируемость Глобальные задачи Скорость	Высокая стоимость
Синтезирование и расширение	Эффективность по времени Можно собрать много данных для обучения	Необходимы высокие вычислительные мощности
Программный метод	Автоматизация Скорость	Низкий уровень качества

Каждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы.

-------------

Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.

Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.

Комментарии (1)

ZlodeiBaal
10.11.2020 16:01
#22286010
Что-то очень поверхностная статья. С кучей очень спорных утверждений

Однако, этот способ, скорее всего, подойдет только крупным компаниям с собственным штатом дата-аналитиков.

Очень часто наоборот, правильная интеграция in-house разметки бывает основным продуктом. И её надо делать до разработки по DataScince.

Очень часто переходы между разными вариантами разметки — весьма гладкие и непрерывные. Вообще, я вот тут чуть более подробно рассказываю, в том числе большое число вариантов которых тут нет — youtu.be/fwbHkVka3G4

5 подходов к разметке данных для проектов машинного обучения +3

Комментарии (1)

ZlodeiBaal