Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

Что такое разметка данных и кто такой разметчик

Машинное обучение постоянно незаметно улучшает качество нашей повседневной жизни, делая ее удобнее. Оно помогает нам находить любимую музыку и фильмы на стриминговых сервисах, прогнозируя наши предпочтения на основе предыдущих выборов. В смартфонах алгоритмы распознавания изображений позволяют мгновенно организовать фотоальбомы, автоматически группируя снимки по лицам, местам и событиям.

А позволяет машинам обучаться как раз разметка данных, то есть процесс, когда исполнители добавляют специальные метки к элементам данных. Данные могут быть представлены в различных формах: изображения, видео, текст, аудио. Но, чтобы использовать эти данные, их нужно обработать и упорядочить. То есть данные должны быть «понятными» для машины или, другими словами, размеченными.

Например, если у нас есть набор данных с геометрическими фигурами, чтобы обучить на нем машину, нужно убедиться, что каждый круг помечен как «круг», квадрат — как «квадрат», треугольник — как «треугольник». Это превращает набор случайных элементов в организованную систему, полезную для обучения. Без такой разметки данные остаются «сырыми» и неупорядоченными. Именно специалисты по разметке превращают «сырые», то есть необработанные данные, в полезные, размеченные данные.

Занимаются проставлением меток разметчики данных. Но, хотя эта работа может показаться чем-то необычным и сложным, доступным лишь специалистам из IT, на самом деле это не совсем так: для работы в разметке не нужен опыт или специальные навыки.

Чем занимается разметчик данных

Разметчик данных выполняет задачи, связанные с подготовкой данных для обучения моделей машинного обучения. Это могут быть:

Транскрибация: преобразование устной речи в текст, что особенно важно для редких языков. Например, мы недавно завершили проект по транскрибации таджикского языка, и без работы сотни разметчиков это было бы невозможно. В других проектах мы расшифровывали разговоры в колл-центрах, чтобы компании могли анализировать частые вопросы и улучшать обслуживание клиентов.

Разметка объектов: создание меток на изображениях и видео. Например, необходимо обводить автомобили на дороге для разработки систем автопилота, выделять скот на пастбищах для мониторинга здоровья животных или размечать сорняки на полях, чтобы усовершенствовать агротехнические решения. У нас также были проекты по разметке выбоин на дорогах для улучшения инфраструктуры, родинок и опухолей на коже для поддержки медицинских исследований, камней на конвейере в горнодобывающей отрасли. Мы даже размечали бактерий под микроскопом!

Выделение ключевых слов: задача поиска наиболее значимых и информативных фраз в тексте. Например, в проектах по анализу отзывов о продуктах мы помогали брендам понять, что именно их клиенты ценят больше всего. В другом проекте мы выделяли ключевые фразы из юридических документов, чтобы ускорить процесс подготовки контрактов и судебных дел.

Разметка документов: структурирование текстов, например, для извлечения данных из анкет для автоматизации рекрутинговых процессов или выделения важной информации из финансовых отчетов для аналитиков. В медицинских исследованиях мы помогали извлекать ключевые данные из историй болезни, чтобы облегчить работу врачам.

Анализ эмоций: аннотация текстов для определения эмоций, проявляемых людьми. Например, мы определяли эмоции в комментариях и отзывах к товарам, чтобы помочь брендам определить отношение клиентов.

Некоторые задачи могут выполнять люди без специальной подготовки, в то время как другие требуют узкоспециализированных навыков. В любом случае, важно строго придерживаться технического задания, которое может быть довольно объемным и занимать несколько страниц. Точность аннотаций имеет ключевое значение: ошибки могут повлиять на работу модели машинного обучения.

Сколько зарабатывает разметчик данных

Есть исполнители, которые размечают данные на специальных сайтах, к примеру, в Яндекс.Заданиях. За одно маленькое задание на таких платформах можно получить около 0.01-0.02$, но цену определяет заказчик.

А вот средняя зарплата исполнителей на полной ставке в специальных компаниях по разметке данных  — около 38 или 40 тыс. рублей за полный день. А вот за четыре часа работы разметчик может рассчитывать на 20 тыс. рублей.

А еще оплату определяет проект: на заданиях, требующих уникальных навыков, можно лучше заработать. Например, за транскрибацию таджикского языка мы платили в два раза больше, чем за большинство простых проектов, где нужно размечать изображения. Также за определение опухолей на медицинских изображениях заплатят намного дороже, чем за разметку котиков, ведь сделать это сможет только человек с профильным образованием.

Какие перспективы есть у разметчика данных

Конечно, в этой сфере есть свои перспективы роста. Со временем разметчик может научиться работать быстрее и качественнее, что позволит ему больше зарабатывать. Хороший совет от наших менеджеров — сосредоточиться на одном направлении, например, на транскрибации аудио. Выполняя один тип заданий, вы сможете “набить руку” и улучшить навыки.

Опытные разметчики рассказывают: сначала работа занимала у них больше времени, к примеру, аудио для транскрибации приходилось прослушивать очень медленно, постоянно переслушивая, чтобы понять все детали. Но с опытом у них получалось размечать аудио уже на полной скорости. Они могли выполнять задачи уже после одного прослушивания. Поэтому в этой сфере действует правило: чем больше опыта у тебя есть, тем быстрее ты справляешься с работой.

Также в Data Light есть очень много кейсов карьерного роста из разметчиков в руководителей: опытные и инициативные разметчики могут стать тимлидами и управлять командами. А если исполнителю не близка карьера менеджера, он может перейти в отдел контроля качества. Тогда он не будет сам проставлять метки, а только проверять готовую работу других исполнителей.

Как добиться успеха в профессии

Хотя эту профессию легко освоить, чтобы преуспеть, необходимо обладать определенными навыками:

  • Высокая ответственность и внимание к деталям: разметка может быть монотонной, но требует точности. Она подойдет усидчивым людям, которых не пугает однообразная работа.

  • Навыки работы с компьютером: уверенное владение ПК необходимо, а вот опыт в IT не обязателен.

  • Готовность работать с инструментами разметки данных: на проектах разметчик учится использовать специализированный софт, к примеру, CVAT. Но пока вы не устроились, вы просто не сможете самостоятельно зарегистрироваться или практиковаться работать в инструменте, поэтому подавляющее большинство разметчиков приходят в профессию без предварительного опыта.

  • Обучаемость и организованность: поскольку работа удаленная, важно уметь планировать свой день и находить время для выполнения задач. А еще разметчику нужно быть готовым учиться новому, принимать обратную связь и адаптироваться к новым заданиям и программам.

А вот отсутствие опыта не является преградой при устройстве на работу. Большинство разметчиков приходят к нам без опыта, но быстро осваиваются благодаря внутренним курсам и интенсивам.

Один из наших руководителей даже провел эксперимент, показав обучающий курс по разметке своему сыну. Тот с легкостью прошел финальную проверку. К сожалению, законодательство РФ не позволило юному карьеристу устроиться в Data Light — парню было всего 12 лет.

Сложности профессии

Хотя профессия разметчика данных кажется простой, у нее есть свои сложности.

  • Монотонность и усталость: разметка данных — это очень однообразный процесс, и, поверьте, он очень быстро утомляет.

  • Высокий уровень ответственности: точность разметки критична для успеха модели машинного обучения, так как любые неточности могут значительно повлиять на результаты.

  • Специфика проектов: некоторые задачи требуют глубокого понимания контекста, например, разметка медицинских изображений или юридических текстов.

Как начать карьеру в разметке данных

Самый простой способ — связаться с Data Light. Можно откликнуться на одну из вакансий или написать на почту o.voluevich@data-light.ru. Для начала можно попробовать свои силы в разных типах разметки, используя наш чат-бот.

Если хотите найти работу в разметке, начните с простых шагов:

  • Ознакомьтесь с теоретической базой: базовые знания в области машинного обучения будут полезны для понимания процесса разметки.

  • Пройдите онлайн-курсы или тренинги: существует множество курсов, обучающих работе с разметкой данных. Например, бесплатный курс от Нетологии или серия вебинаров в рамках “Академии разметчиков” от Data Light.

  • Получите практический опыт: стажировки, работа на фрилансе или учебные проекты помогут понять, насколько вам интересна эта сфера.

После этого ищите вакансии разметчика данных в компаниях, занимающихся машинным обучением или анализом данных. К примеру, у нас, все наши вакансии публикуются на HH.ru.

Удачи вам в карьере!

Комментарии (4)


  1. Mishootk
    11.10.2024 14:49

    Я правильно понимаю, что только подпитываясь разметчиками данных ИИ будет держаться на уровне и не деградировать? Как только уменьшается поток новых для сети размеченных данных для обучения, она либо остается на прежнем уровне (т.е. переходит в разряд запрограммированного алгоритмического устройства) либо самостоятельно дообучаясь на неразмеченных (частично и сгенерированных) данных начинает деградировать? То есть матрица в классическом проявлении: нужны биологические батарейки.


    1. lomovoy_player
      11.10.2024 14:49

      И не батарейки, а именно вычислительные мощности. Матрица частично вычислялась за счёт самих людей и этим объясняется возможность людей на матрицу влиять. Хм, а ведь если задуматься, Матрица это большой генератор данных для машин


    1. exTvr
      11.10.2024 14:49

      То есть матрица в классическом проявлении: нужны биологические батарейки.

      Ну а куда ж без нас, кожаных.

      • Распознавание+

      • Разметка+

      • Средства передачи в матрицу+

      • Зацикливание и галлюцинации без нас-

        Похоже, что у нас пока ещё есть некоторое время./s


  1. Tyusha
    11.10.2024 14:49

    Какие слова: "карьера", "успех в профессии"... А по факту 100 миллионов малолетних индусов красноглазиков, отыскивающих велосипеды на капче по 14 часов день за плошку риса — вот правдивое описание профессии.