Команда студентов из Корнельского университета, принимающая участие в программе Tech Challenge, разработала самообучающееся приложение, способное распознавать сарказм. Приложение-сервис, получившее название TrueRatr, является совместной разработкой Cornell Tech и Bloomberg. Сам проект делался с целью научиться автоматически определять сарказм в обзорах различных товаров.
Но использовать разработку можно и для других целей, благо, это open source. В команде разработчиков есть как MBA кандидаты, инженеры, дизайнеры. Разработчики утверждают, что научить машину определять сарказм было очень непросто. Ранее подобные попытки делались, но определять сарказм по фразам типа «yeah, right», пунктуации или другим подобным признакам — не лучшее решение.
После детальной дискуссии было принято решение научиться искать в тексте слова, несущие как негативное, так и позитивное значение. Все они должны находиться в пределах одной и той же фразы. Примером может быть «I love getting yelled at», где «I love» несет позитивный контекст, а «getting yelled at» — негативный. Вся эта фраза с большой степенью вероятности будет помечена системой, как сарказм.
После использования такого метода точность алгоритма возросла до 71%. Это, конечно, недостаточно, но все же существенно выше, чем простое подбрасывание монетки — так выразился сам руководитель проекта. Для повышения точности алгоритма разработчики сделали его самообучающимся. И это сработало, алгоритм стал еще более точным, показатель эффективности возрос до 75%. К слову, люди определяют сарказм заметно хуже.
После этого было решено проверить работу алгоритма на практике — в приложении к обзорам Mac OS X и iOS программ. Сервис провел анализ обзоров, размещенных на Apple App Store, и убрал те, что посчитал сарказмом. При желании пользователь мог просмотреть рейтинг обзоров, выделив наиболее саркастичные. Соответственно, авторы таких обзоров и оценку приложениям выставляют не самую высокую. Если убрать подобные обзоры, рейтинг приложения возрастает. Правда, не всегда. В случае Grand Theft Auto: Chinatown, со страницы которого были скрыты обзоры с сарказмом, рейтинг приложения упал с 4,5 до 3,9.
В общем-то, пока что можно сомневаться в том, что использование TrueRatr для обнаружения обзоров с сарказмом — лучшее применение разработке. Но если есть желание, алгоритм можно использовать в собственных проектах.
Исходники проекта есть на GitHub.
Но использовать разработку можно и для других целей, благо, это open source. В команде разработчиков есть как MBA кандидаты, инженеры, дизайнеры. Разработчики утверждают, что научить машину определять сарказм было очень непросто. Ранее подобные попытки делались, но определять сарказм по фразам типа «yeah, right», пунктуации или другим подобным признакам — не лучшее решение.
После детальной дискуссии было принято решение научиться искать в тексте слова, несущие как негативное, так и позитивное значение. Все они должны находиться в пределах одной и той же фразы. Примером может быть «I love getting yelled at», где «I love» несет позитивный контекст, а «getting yelled at» — негативный. Вся эта фраза с большой степенью вероятности будет помечена системой, как сарказм.
После использования такого метода точность алгоритма возросла до 71%. Это, конечно, недостаточно, но все же существенно выше, чем простое подбрасывание монетки — так выразился сам руководитель проекта. Для повышения точности алгоритма разработчики сделали его самообучающимся. И это сработало, алгоритм стал еще более точным, показатель эффективности возрос до 75%. К слову, люди определяют сарказм заметно хуже.
После этого было решено проверить работу алгоритма на практике — в приложении к обзорам Mac OS X и iOS программ. Сервис провел анализ обзоров, размещенных на Apple App Store, и убрал те, что посчитал сарказмом. При желании пользователь мог просмотреть рейтинг обзоров, выделив наиболее саркастичные. Соответственно, авторы таких обзоров и оценку приложениям выставляют не самую высокую. Если убрать подобные обзоры, рейтинг приложения возрастает. Правда, не всегда. В случае Grand Theft Auto: Chinatown, со страницы которого были скрыты обзоры с сарказмом, рейтинг приложения упал с 4,5 до 3,9.
В общем-то, пока что можно сомневаться в том, что использование TrueRatr для обнаружения обзоров с сарказмом — лучшее применение разработке. Но если есть желание, алгоритм можно использовать в собственных проектах.
Исходники проекта есть на GitHub.