Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!
Работа в поле: сбор и проверка информации для Яндекс.Справочника
Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.
С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника. Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице.
В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.
Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.
Как Толока помогает Алисе быть современной и остроумной
С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.
В сборе этих данных помогает Толока. Например, одна из задач – прослушать аудиозапись и расшифровать ее. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.
Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Ошибку в итоговых данных удается сократить до 1-2%.
Понять, что сказал пользователь, недостаточно. Нужно еще правильно ответить. У ответов Алисы есть несколько аспектов качества. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. Все эти метрики представляются в виде заданий на Толоке. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами.
Но не всегда аспекты качества можно формализовать. Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Это субъективные параметры, которые сложно представить в виде оценочной модели. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший.
Как сделать, чтобы в Яндекс.Автобусах все играли по правилам
Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.
Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Еще один способ – установить счетчик людей на входе в автобус. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик.
Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Осталось научиться обрабатывать фото, то есть считать количество пассажиров. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Кроме того, камера в автобусе одна, на фото не всегда попадают лица. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.
Разработчики обратились к толокерам. Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Стоимость решения – менее 150 долларов. Чтобы посчитать один рейс, требуется 7 рублей.
Эксперимент провели на четырех автобусах по 300 рейсам. Оказалось, что 9% выручки шло в обход перевозчика. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.
Нанять 100500 модераторов и сэкономить: опыт Rambler Group
Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.
Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Чтобы их проверять, нужен штат модераторов. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.
В поисках решения Rambler Group обратилась к Толоке. Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Для контроля качества модерации одно задание предлагали троим исполнителям. Стоимость установили минимальную – 1 цент.
Результаты:
На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.
Эксперимент посчитали успешным, но немного поменяли условия. Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Количество комментариев в задании увеличили с 10 до 15. Это позволило сократить затраты еще на 35%.
С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом. Теперь комментарии на всех проектах Rambler Group модерируются через Толоку.
Комментарии (11)
Mobile1
16.11.2018 12:28А почему нельзя с IP камеры в автобусе фигачить фото в нейросеть и озадачить чтобы она считала?
Наподобие https://habr.com/company/mobile_one/blog/422585/
Sabubu
16.11.2018 12:33> Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую
Согласие у людей спрашивать не требуется?Vasiliy_S
16.11.2018 13:03Поддерживаю. Отправил запрос в РКН, проверить законность таких фото.
З.Ы. Чувствую, что заминусуете.xander27
16.11.2018 19:41+2А разве
Кстати, все лица пассажиров предварительно алгоритмически «размываются».
Не решает вопрос? Особенно если добавить надпись о том что ведется видеонаблюение.
Плюс автобус всетаки общественное место. Я видел в авбтобусах камеры и подпись что ведется видеоналюдение. Но там скорей всего просто на регистратор пишется, без отправки диспетчеру. Хотя дела осбо не меняет
MIKEk8
16.11.2018 20:36Пусть я и понимаю логику людей которые возмущаются, что их в общественных местах снимают. Да и места со свободным доступом в которых запрещена съёмка. Но если это может увидеть случайный человек, то в этом не много смысла. А ведь это было-бы довольно удобно снимать всё, что с тобой произошло, и потом вместо вспоминания просто пересмотреть. Не говоря уж о том-что можно не словами описывать, а просто показать (и доказать при необходимости) что произошло. Главное чётко разделять где можно снимать, а где нельзя.
roscomtheend
19.11.2018 14:06Уж не знаю что у Рамблера с модерированием, но раньше у них был противоестсественный интеллект — неадекватные комментарии с руганью оставляли, а нормальные выпиливались.
3aBulon
Я что хочу сказать — очень дешево. Не очень хочется тратить такое количество времени получая центы. Это просто смешно.
Hardcoin
Зачем тратить время? Наоборот, имеет смысл пользоваться сервисом для своих задач, потому что очень дёшево.
for611bing
поклацал 4 минуты картинки, получил 7 центов — примерно 5 рублей. Час напряженной работы — и бесплатная шаурма в кармане. Очень, очень дешевая шаурма, ингридиенты для которой готовились также через толоку