Команда студентов из Корнельского университета, принимающая участие в программе Tech Challenge, разработала самообучающееся приложение, способное распознавать сарказм. Приложение-сервис, получившее название TrueRatr, является совместной разработкой Cornell Tech и Bloomberg. Сам проект делался с целью научиться автоматически определять сарказм в обзорах различных товаров.

Но использовать разработку можно и для других целей, благо, это open source. В команде разработчиков есть как MBA кандидаты, инженеры, дизайнеры. Разработчики утверждают, что научить машину определять сарказм было очень непросто. Ранее подобные попытки делались, но определять сарказм по фразам типа «yeah, right», пунктуации или другим подобным признакам — не лучшее решение.

После детальной дискуссии было принято решение научиться искать в тексте слова, несущие как негативное, так и позитивное значение. Все они должны находиться в пределах одной и той же фразы. Примером может быть «I love getting yelled at», где «I love» несет позитивный контекст, а «getting yelled at» — негативный. Вся эта фраза с большой степенью вероятности будет помечена системой, как сарказм.

После использования такого метода точность алгоритма возросла до 71%. Это, конечно, недостаточно, но все же существенно выше, чем простое подбрасывание монетки — так выразился сам руководитель проекта. Для повышения точности алгоритма разработчики сделали его самообучающимся. И это сработало, алгоритм стал еще более точным, показатель эффективности возрос до 75%. К слову, люди определяют сарказм заметно хуже.



После этого было решено проверить работу алгоритма на практике — в приложении к обзорам Mac OS X и iOS программ. Сервис провел анализ обзоров, размещенных на Apple App Store, и убрал те, что посчитал сарказмом. При желании пользователь мог просмотреть рейтинг обзоров, выделив наиболее саркастичные. Соответственно, авторы таких обзоров и оценку приложениям выставляют не самую высокую. Если убрать подобные обзоры, рейтинг приложения возрастает. Правда, не всегда. В случае Grand Theft Auto: Chinatown, со страницы которого были скрыты обзоры с сарказмом, рейтинг приложения упал с 4,5 до 3,9.



В общем-то, пока что можно сомневаться в том, что использование TrueRatr для обнаружения обзоров с сарказмом — лучшее применение разработке. Но если есть желание, алгоритм можно использовать в собственных проектах.

Комментарии (11)


  1. hostadmin
    21.01.2016 01:25
    +2

    Да не уже ли?


    1. vilky
      22.01.2016 09:51

      Уже.


  1. saboteur_kiev
    21.01.2016 01:41

    «что использование TrueRatr для обнаружения обзоров с сарказмом — лучшее применение разработке.»

    По-моему как раз одно из лучших — помочь с рутинной модерацией. Например в первую очередь отмодерировать помеченные как сарказм, а затем уже все остальные — явно меньше человекозатрат. А вообще, IMHO, определение сарказма очень зависит от знаний, поэтому алгоритм и в текущем виде будет улучшаться вместе пополнением базы знаний компа.


  1. denis_g
    21.01.2016 02:19

    Я бы предложил доработать алгоритм, чтобы он принимал во внимание не только само сообщение, но и контекст, в котором оно находится; а также умел распознавать определённые сигнатуры, которые, зачастую, присущи сообщениям с сарказмом, например, такие:

    https://habrastorage.org/files/393/f9b/34d/393f9b34d53d4323bca9a4fdef10910c.jpg.


  1. dMac
    21.01.2016 11:41
    +2

    >>К слову, люди определяют сарказм заметно хуже.

    Вот тут начинается веселье. Есть плохо формализуемое понятие «сарказм».
    Есть люди, которые могут определять его в примерах текстов — и это, так сказать, «образцовый классификатор». Когда автоматическая система превышает
    по качеству распознавания образцовую — как можно доказать, что она нашла именно сарказм (притом, что определение, действительно это сарказм или нет — возможно только людьми)?

    Или фраза про «определяют сарказм заметно хуже» — сама по себе сарказм?


  1. altima
    21.01.2016 14:05
    +1

    То, что лежит в Гите по ссылке не похоже на код самообучающейся системы по определению сарказма

    Из комментов под оригинальным материалом:

    The linked source code just seems to be the web assets of the front-end.

    It connects to trueratr-backend.herokuapp.com. Reading the about there points to the real source code which is hosted here:

    github.com/MathieuCliche/Sarcasm_detector

    EDIT: Which is weird though since it's created by someone not listed among those involved with this project while their posted source seems to get it's actual results from Mathieu Cliche's sarcasm detector.

    EDIT2: Looking through it some more it seems that the open sourced part is just a material design front-end. The back-end seems to be a modification of the above linked sarcasm detector with two additional routes which allow searching on iTunes app names and iTunes app IDs instead of inputting direct strings.

    I'm really quite curious as to what exactly the team actually did? Is it just a nice looking front-end and does it still use the algorithm for sarcasm detection of the original source? Or are there real modifications to the back-end beyond linking it with iTunes and will those modifications be open sourced?


  1. dendron
    21.01.2016 14:20
    +2

    Очень полезное изобретение. Очень.


    1. petropavel
      21.01.2016 15:31
      +1

      TrueRatr: 0, no negative context words


  1. mefrill
    21.01.2016 15:44

    Чуть более года назад слушал обзорный доклад по автоматическому распознаванию иронии ainlconf.ru/materialRosso.


  1. k0ldbl00d
    21.01.2016 22:37
    +2

    image


    1. Mad__Max
      23.01.2016 18:39

      Леонард утомился работать детектором сарказма и начал писать бота для Шелдона (с) КО
      Ну анализ обзоров в интернете лишь прикрытие.