Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.
Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.
Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель отдела, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.
Что такое ОКК и как он устроен?
Отдел контроля качества (ОКК) в Data Light - это ключевое звено в работе нашей компании. Отдел состоит из:
валидаторов, которые проверяют данные, помогают выявлять аномалии в разметке, подсвечивать аутлаеров на проекте, помогают в разборе ошибок и работают над постоянным развитием команды
руководителей групп, которые назначают валидаторов на проект и рассчитывают капасити отдела. Каждый руководитель группы ОКК отвечает за различные направления, такие как модерация, работа с изображениями, речевые генеративные модели и сбор данных. Это разделение соответствует операционным направлениям компании, что позволяет контролировать процессы на всех этапах работы.
Как мы контролируем качество на разных проектах?
Каждый проект, совершенно новый или в рамках очередной итерации для существующего, начинается с одного: руководители групп операционной команды оценивают сложность, количество необходимых исполнителей, сроки и метрики, которые будут использованы для оценки качества работы. Эти данные передаются в ОКК, где их анализируют. Мы используем различные инструменты, чтобы определить, сколько ресурсов потребуется для валидации и какие специалисты будут наиболее эффективны на данном проекте.
В зависимости от опыта и навыков валидаторы распределяются по проектам. Например, если проект уже запускался ранее, то предпочтение отдается тем специалистам, которые уже работали над ним. В случае новых проектов, если у нас нет необходимых навыков в штате, мы либо привлекаем новых сотрудников, либо проводим внутреннее обучение для текущих.
Несмотря на то, что мы стремимся к самому высокому качеству, мы — не роботы, поэтому ошибки случаются даже в ОКК. Для их минимизации мы проводим регулярное обучение, тестирование и анализ метрик.
Как корректно оценивать качество на проектах?
Одним из ключевых нововведений в ОКК является метрика экспертизы, которая будет запущена в этом месяце. Это цифровое отображение уровня экспертизы отдела контроля качества, которое позволит нам наглядно видеть, с каким качеством выполняется работа на каждом проекте. Например, если экспертиза отдела составляет 98%, это значит, что по всем направлениям наша работа соответствует этому показателю. Эта метрика будет включать в себя несколько подтипов: ремониторинг, тестирование, согласованность, error rate по апелляциям и производительность валидаторов.
Руководители групп ОКК следят за выполнением этих метрик и занимаются постоянным развитием специалистов, как хардовых, так и их софтовых навыков.
Как это функционирует на проектах?
Чтобы лучше понять, как работает наш отдел на практике, рассмотрим пример одного из необычных и тяжелых проектов. Этот проект был новым и сложным не только для нас, но и для заказчика. При запуске подобных проектов мы всегда предупреждаем клиента, что первые недели могут потребовать времени на адаптацию и корректировку процессов, и только спустя месяц можно ожидать стабильного выхода на таргетные показатели.
В случае с этим проектом первоначальные метрики значительно отклонялись от установленных таргетов. В первые недели качество работы отличалось от цели в несколько раз в худшую сторону, что было вызвано перегрузкой штата.
Тем не менее, через несколько недель удалось сократить отклонение до превышения всего на 3% от установленного таргета, а через два с половиной месяца мы смогли приблизиться к заветной цели и даже перевыполнить ее. Это потребовало значительных усилий: мы увеличили количества валидаторов, заменили одного из специалистов и подготовили двух бэкапов, которые начали активно работать над проектом. Также провели 5 мастер-классов совместно с заказчиком, разработали собственные тренажеры и тренинги по дообучению ребят. Благодаря этим мерам к третьему месяцу работы мы смогли выйти на таргетные показатели качества на этом невероятно сложном проекте.
На что обращать внимание при организации контроля качества? 4 совета от руководителя ОКК
Правильно составленная репрезентативная выборка
Это метод широко признан и применяется во многих областях, где требуется оценка качества или характеристик больших наборов данных.
Но тут есть много важных моментов: ее объема должно хватать, чтобы делать гипотезы и выводы на ее основе по всей генеральной совокупности. И она должна быть репрезентативной, то есть это не просто набор последовательных кейсов. К примеру, если нужно 500 кейсов, некоторые берут 500 первых и начинают их проверять, объём-то необходимый собран. Но это нельзя назвать хорошей выборкой.
Важно, чтобы выборка была действительно репрезентативной: данные должны быть отобраны случайно, они должны быть взяты за разные периоды времени, они должны отражать всю совокупность данных. Также следует учитывать вклад различных исполнителей: если один специалист разметил большую часть данных, его работа должна быть пропорционально представлена в выборке.
Предположим, клиент просит нас разметить миллион фотографий и разделить их по полу: на фото мужчина или женщина. После выполнения работы возникает вопрос о проверке качества этой разметки и о том, какой объем данных нужно проверить для достоверной оценки.
Проверять весь миллион фотографий неэффективно и затратно, поэтому мы используем репрезентативную выборку. Стандартный подход с уровнем доверия 95% и погрешностью 5% подразумевает проверку всего 384 случайно выбранных кейсов. Такой объем выборки позволяет с высокой степенью уверенности судить о качестве разметки всего миллиона фотографий.
Уровень доверия 95% означает, что мы на 95% уверены в том, что полученный результат отражает реальное состояние всей разметки. Погрешность в 5% указывает на возможный диапазон отклонений от полученного результата. Например, если в выборке обнаружено 5% ошибок, то реальный уровень ошибок во всём датасете может колебаться от 0% до 10%.
Полученные результаты позволяют принимать обоснованные решения: если уровень ошибок соответствует оговоренным таргетам, проект считается успешным. В противном случае можно обсуждать доработки или корректировки оплаты. Репрезентативная выборка также служит объективным инструментом при обсуждении с заказчиком качества выполненной работы.
2. Правильно выбранные метрики
Можно сказать, что error rate — это всегда нужная метрика, но проекты бывают совершенно разные, и не всегда получается использовать стандартные метрики. Если для вашего проекта стандартные метрики не подходят, это не значит, что контроль качества в вашем проекте не нужен, нужно просто правильно подобрать метрики.
3. Четкая экспертиза в одной сфере
Мы стараемся растить экспертов-валидаторов в рамках направлений, при этом каждый фокусируется на своих задачах. Поэтому мы стараемся в первую очередь прокачивать именно такую линейную экспертизу, когда валидатор становится узкопрофильным экспертом.
При этом, чтобы “глаз не замыливался”, мы в рамках 10-20% capacity даем валидатору возможность поработать на проектах, которые немного отличаются от его экспертной линии, но которые тоже ему интересны.
4. Налаженные процессы коммуникации с другими отделами
Я считаю, что отдел контроля качества должен быть не просто независимым звеном, работающим в изоляции от других команд, а частью всего процесса. Контроль качества не должен ассоциироваться с чем-то далеким и абстрактным, где кто-то «там» сидит и что-то проверяет.
Для достижения этого нужны четкие и отлаженные процессы взаимодействия между всеми участниками, которые работают на проекте. Важно, чтобы все процессы были четкими, понятными и, главное, рабочими, а не просто формальными. Каждый сотрудник, будь то исполнитель или руководитель, должен понимать и знать все ключевые этапы взаимодействия.
Если потребуется, каждый должен быть готов хоть посреди ночи ответить на вопросы о том, когда и как проводится калибровка с командой, где найти повестку, какие вопросы обсуждаются, а какие выносятся на встречи с заказчиком, как определяется объём репрезентативной выборки и т.д. Прямо как с таблицей умножения в школе