Продолжаем рассказывать о том, как в Яндексе и других крупных компаниях используют краудсорсинг. В предыдущем посте мы говорили о беспилотниках и качестве поиска товаров.

Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника и модерации комментариев. Все подзаголовки кликабельны и ведут на записи докладов. Поехали!

image

Работа в поле: сбор и проверка информации для Яндекс.Справочника


Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.

С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника. Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице.

В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.

Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.



Как Толока помогает Алисе быть современной и остроумной


С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.

В сборе этих данных помогает Толока. Например, одна из задач – прослушать аудиозапись и расшифровать ее. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.

Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Ошибку в итоговых данных удается сократить до 1-2%.

Понять, что сказал пользователь, недостаточно. Нужно еще правильно ответить. У ответов Алисы есть несколько аспектов качества. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. Все эти метрики представляются в виде заданий на Толоке. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами.

Но не всегда аспекты качества можно формализовать. Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Это субъективные параметры, которые сложно представить в виде оценочной модели. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший.

Как сделать, чтобы в Яндекс.Автобусах все играли по правилам


Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.

Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Еще один способ – установить счетчик людей на входе в автобус. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик.

Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Осталось научиться обрабатывать фото, то есть считать количество пассажиров. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Кроме того, камера в автобусе одна, на фото не всегда попадают лица. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.

Разработчики обратились к толокерам. Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Стоимость решения – менее 150 долларов. Чтобы посчитать один рейс, требуется 7 рублей.

Эксперимент провели на четырех автобусах по 300 рейсам. Оказалось, что 9% выручки шло в обход перевозчика. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.

Нанять 100500 модераторов и сэкономить: опыт Rambler Group


Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.

Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Чтобы их проверять, нужен штат модераторов. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.

В поисках решения Rambler Group обратилась к Толоке. Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Для контроля качества модерации одно задание предлагали троим исполнителям. Стоимость установили минимальную – 1 цент.

Результаты:



На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.

Эксперимент посчитали успешным, но немного поменяли условия. Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Количество комментариев в задании увеличили с 10 до 15. Это позволило сократить затраты еще на 35%.

С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом. Теперь комментарии на всех проектах Rambler Group модерируются через Толоку.

Комментарии (11)


  1. 3aBulon
    16.11.2018 11:13

    Я что хочу сказать — очень дешево. Не очень хочется тратить такое количество времени получая центы. Это просто смешно.


    1. Hardcoin
      16.11.2018 12:21

      Зачем тратить время? Наоборот, имеет смысл пользоваться сервисом для своих задач, потому что очень дёшево.


    1. for611bing
      16.11.2018 16:41
      +1

      поклацал 4 минуты картинки, получил 7 центов — примерно 5 рублей. Час напряженной работы — и бесплатная шаурма в кармане. Очень, очень дешевая шаурма, ингридиенты для которой готовились также через толоку


  1. Mobile1
    16.11.2018 12:28

    А почему нельзя с IP камеры в автобусе фигачить фото в нейросеть и озадачить чтобы она считала?
    Наподобие https://habr.com/company/mobile_one/blog/422585/


  1. Sabubu
    16.11.2018 12:33

    > Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую

    Согласие у людей спрашивать не требуется?


    1. Vasiliy_S
      16.11.2018 13:03

      Поддерживаю. Отправил запрос в РКН, проверить законность таких фото.
      З.Ы. Чувствую, что заминусуете.


      1. xander27
        16.11.2018 19:41
        +2

        А разве


        Кстати, все лица пассажиров предварительно алгоритмически «размываются».

        Не решает вопрос? Особенно если добавить надпись о том что ведется видеонаблюение.


        Плюс автобус всетаки общественное место. Я видел в авбтобусах камеры и подпись что ведется видеоналюдение. Но там скорей всего просто на регистратор пишется, без отправки диспетчеру. Хотя дела осбо не меняет


        1. MIKEk8
          16.11.2018 20:36

          Пусть я и понимаю логику людей которые возмущаются, что их в общественных местах снимают. Да и места со свободным доступом в которых запрещена съёмка. Но если это может увидеть случайный человек, то в этом не много смысла. А ведь это было-бы довольно удобно снимать всё, что с тобой произошло, и потом вместо вспоминания просто пересмотреть. Не говоря уж о том-что можно не словами описывать, а просто показать (и доказать при необходимости) что произошло. Главное чётко разделять где можно снимать, а где нельзя.


          1. Sabubu
            17.11.2018 23:20

            А товарищу майору было бы вдвойне удобно!


            1. qw1
              18.11.2018 11:55

              Или вдвойне неудобно, если на запись попадёт товарищ полковник.


  1. roscomtheend
    19.11.2018 14:06

    Уж не знаю что у Рамблера с модерированием, но раньше у них был противоестсественный интеллект — неадекватные комментарии с руганью оставляли, а нормальные выпиливались.