Команда учёных, ИТ-специалистов из нескольких американских и британских университетов и Microsoft Research выявили связь между содержанием и эмоциональным окрасом сообщений в Twitter и доходом пользователей. Люди с высоким доходом публикуют новости о политике и выражают гнев, а с меньшим — используют нецензурную лексику и публикуют оптимистичные сообщения.

image

В Великобритании существует «The Standard Occupational Classification» — система, классифицирующая работников по сложности и квалификации труда. В эту иерархию входят девять классов. Учёные отобрали пять тысяч аккаунтов, представляющих все девять классов, и обработали базу из десяти миллионов их твитов.

В процессе обработки твитов учёные отобрали специфические слова, чаще всего встречающиеся у каждого класса. Для каждого класса алгоритм отобрал слова, которые по частоте употребления сильно отличаются от частоты в других классах. Затем исследователи вручную сгруппировали результаты по категориям и по эмоциональному окрасу.

Люди, имеющие более высокий доход, реже выражают религиозность и более спокойно ведут себя. У них больше фолловеров и ретвитов, чем у пользователей с меньшим доходом, хотя они отправляют меньше сообщений и меньшее количество ссылок. Автоматический анализ языка выявил, что люди с высоким доходом чаще выражают гнев и страх, публикуют новости о политике, негосударственных организациях и сообщения о корпорациях.

Люди с меньшим доходом чаще используют нецензурную лексику, но их сообщения более оптимистичны. Они пользуются Twitter для общения на повседневные темы.

Полученные данные позволят решать обратную задачу — угадывать доход пользователей по Twitter, во всяком случае в Великобритании.

image
Доход пользователей в выборке по их количеству. В исследовании участвовали 5191 аккаунт.

Обработка больших массивов сообщений в Twitter позволяет учёным проводить исследования в разных сферах науки. Ранее психологи доказали, что негативные эмоции ведут к сердечным заболеваниям. Тогда исследователи проанализировали 148 миллионов твитов от пользователей из 1347 различных регионов США, выделяя признаки негативных эмоций — упоминания о катастрофах, преступлениях и болезнях, сетование на недостаток сна и другие слова маркеры. Затем учёные сравнили результат с реальным географическим распределением сердечно-сосудистых заболеваний. Как оказалось, обе карты похожи друг на друга.

image

Комментарии (13)


  1. AllexIn
    03.10.2015 21:04
    +1

    предсказывать доход пользователей по Twitter, во всяком случае в Великобритании.

    Почему предсказывать? Разве пользователи не знают свой доход?
    Угадывать скорее.


    1. Regis
      03.10.2015 22:08
      +8

      «Предсказывать» — вполне подхоядщий стандартный термин, когда речь идет о построении математической модели зависимости одного (неизвестного) параметра от других. То, что пользователи знают свой доход в данном контексте значениям не имеет.


  1. bogolt
    04.10.2015 00:14
    +7

    Ранее психологи доказали, что негативные эмоции ведут к сердечным заболеваниям.

    Корреляция не значит следствие. В оригинале не доказали, а именно нашли зависимость. Вполне может статься, что люди с больным сердцем просто чаще испытавают негативные эмоции.


  1. Stiver
    04.10.2015 00:42
    +13

    Как оказалось, обе карты похожи друг на друга.

    xkcd.com/1138


    1. Starche
      04.10.2015 14:44

      да мне вот тоже не понятно — неужели при построении таких карт сложно поделить на данные о плотности населения, чтобы хоть как-то нормализовать результаты


      1. ssneg
        05.10.2015 17:39

        В данном случае речь идет о Heart Disease Rate, которая скорее всего измеряется в количестве заболеваний на 10'000 человек, т.е. уже взвешена по населению.


  1. CAJAX
    04.10.2015 00:43
    -1

    Капитанистое исследование. Выяснили, что в Великобритании белые образованные мужчины за 35 зарабатывают больше чёрных необразованные женщин.


  1. rogrom
    04.10.2015 10:35
    +1

    Люди, имеющие более высокий доход ..
    Как они доходы узнали?


    1. ivansychev
      04.10.2015 10:51
      +2

      Отобрали 5000 аккаунтов людей, принадлежащих к конкретным девяти профессиональным классам. От принадлежности к классу зависит размер дохода.


      1. askbow
        05.10.2015 18:55

        В исследовании в разделе Data чуть интереснее:

        • Используя API, они сделали выборку по ключевым словам из классификатора профессий, выбирая не более 200 учётных записей для каждой профессии
        • Перебрали результаты руками, исключив примерно половину по разным причинам
        • В том числе, полностью исключили подкатегории (3-х значные коды), в которые попало меньше 50 учётных записей
        • Осталось «5,191 users from 55 3-digit groups, spread across all nine 1-digit SOC groups»
        • Использовали таблицы Annual Pay из (судя по описанию, я могу ошибаться) вот этого файла: www.ons.gov.uk/ons/rel/ashe/annual-survey-of-hours-and-earnings/2013-revised-results/2013-revised-table-14.zip чтобы узнать средние доходы по каждой 3-х значной группе


  1. Pinkerator
    04.10.2015 12:47
    +7

    Важно понимать, что если ты сам начнешь публиковать в твиттере новости о политике и «выражать гнев», то доходы от этого не увеличатся :) Скорее с последней работы выгонят.


  1. olegchir
    04.10.2015 14:28
    +1

    То есть у тебя есть всего два выхода: рано умереть или быть бомжом?

    Что же мы делаем со своей жизнью…


  1. Revertis
    05.10.2015 19:03

    Просто умные и по-настоящему взрослые люди видят настоящий мир, а не то, что просачивается через розовые очки.