Ученые из Перми создали программу для психолингвистического анализа пользователей соцсетей / forpes.ru

Главная
Ученые из Перми создали программу для психолингвистического анализа пользователей соцсетей

Ученые из Перми создали программу для психолингвистического анализа пользователей соцсетей +8

29.10.2019 17:50

denis-19 22 4600 Источник

По информации агентства ТАСС, сотрудники Пермского государственного национального исследовательского университета (ПГНИУ) разработали компьютерную программу, с помощью которой можно составить психологический и лингвистический портрет пользователей на основании опубликованных ими комментариев в различных социальных сетях.

Подобные исследования в России ведутся уже давно, но существующие на текущее время системы оценки поведения пользователей в социальных сетях оценивают в основном только лайки и репосты пользователей. Ученые из Перми решили исследовать комментарии пользователей.

Разработанная лингвистами и математиками из Перми программа называется BFI CNN Detector. На данный момент точность используемого в программе алгоритма определения социальных и поведенческих параметров авторов комментариев составляет 70%.

Проведение данного исследования и написание программы BFI CNN Detector заказало Министерство образования и науки РФ. В настоящее время этот программный продукт уже создан и зарегистрирован Федеральной службой по интеллектуальной собственности РФ. Используемый для создания программы язык программирования — Python.

В процессе разработки алгоритма программы ученые из ПГНИУ изучали, что именно и каким образом пишут пользователи в комментариях в различных социальных сетях. В базу данных BFI CNN Detector внесено более 21 тыс. различных комментариев пользователей, которые проанализировали по стилистике, жанрам, информативности. Алгоритм программы при помощи нейронной сети, включающей в себя сверточные слои, может классифицировать вид и стиль комментариев более чем из 150 разных категорий. Кроме этого, оценивает такие параметры пользователей, как возраст, пол, количество друзей, интенсивность написания комментариев, количество постов и психологические черты, которые исследователи собирали с помощью опросника The Big Five Inventory. На основе полученных данных ученые составили психолингвистические портреты для каждого исследуемого пользователя.

По словам профессора кафедры теоретического и прикладного языкознания ПГНИУ Константина Белоусова, в ходе исследований ученые смогли установить некоторые закономерности:

в текстах мужчин почти нет извинений, а у женщин они частотно присутствуют;
пользователи-мужчины, для которых характерна недобросовестность, часто в своих текстах используют сарказм и иронию;
пользователи, которые часто шутят, проявляют враждебность и признаки интровертности (сосредоточенности на внутреннем мире);
пользователи, которые проявляют сочувствие, чаще всего доброжелательны и консервативны.

Комментарии (22)

DrBulkin
29.10.2019 21:56
#20822260
+1
Автор, поправьте заголовок. Программы и алгоритмы патентованию не подлежат. Ученые зарегистрировали программу.

VDG
30.10.2019 00:06
#20822634
с помощью которой можно составить психологический и лингвистический портрет пользователей на основании опубликованных ими комментариев в различных социальных сетях.
На одних только комментариях сеть не обучить. Нужно ещё знать какому пользователю (психотип) соответствует комментарий, чтобы знать, что мы хотим получить на выходе сети. А эти данные взять им было неоткуда. Подозреваю, что размечали данные сами учёные на основании собственных догадок. Отсюда получившаяся нейросеть — «аппроксимация предположений и заблуждений», оттого и точность 70%.
1. adictive_max
  30.10.2019 04:16
  #20823034
  +1
  А учитывая, что и «психотип» — штука очень размытая, непостоянная и зависимая от внешних воздействий, получается генератор примеров для эффекта Барнума.
1. orion76
  30.10.2019 08:23
  #20823292
  В базу данных BFI CNN Detector внесено более 21 тыс. различных комментариев пользователей,
  
  Судя по небольшому количеству «исходного материала» (21 тыс.) группа авторов комментариев относительно небольшая. Возможно даже авторы — сотрудники ПГНИУ, и данные по их «психотипу» в наличии имеются.
  1. VDG
    30.10.2019 18:42
    #20826442
    Если обучение было на небольшой группе, то тогда эта работа вообще не о чём, просто очередное «достижение» + освоение.

xsevenbeta
30.10.2019 08:31
#20823314
+2
Напрягают меня все эти составления психологических портретов. Так и вижу, будущий интерфейс:

Вася Пупкин:
1. Лояльность режиму — 78%
2. Уровень интеллекта 6% (-4%)
3. Уровень любви к Путину 44% (+5%)
4. Уровень православия 45% (+15%)
5. Критическое мышление 0%.

* Посадить за экстремизм — Да/Нет
* Оскорбить свои чувства верующего Да/Нет
* Подбросить наркотики — Да/Нет
1. goga_kk
  30.10.2019 10:59
  #20823844
  А Вас не напрягает, что на каждое упоминание российских ученых появляются комментарии, подобные Вашему? Которые охотно плюсуются местными кармодрочерами.
  Уже давно пора запретить такие новости на Хабре и публиковать только кошерные текста прошедшие все мыслимые и нет проверки на толерантность.
  1. mihmig
    30.10.2019 11:20
    #20823926
    -2
    Напрягает не это. Напрягает что данное «изобретение» российских учёных имеет неиллюзорную вероятность использования текущим политическим режимом в своих целях.
    Примерный алгоритм:
    1. «Доводим» алгоритм до 99.9% — кто Вы такой, чтоб спорить с учёными?
    2. Используем в «экспертизе» для суда. — «У суда нет оснований не доверять показаниям алгоритма»
  1. beduin01
    30.10.2019 11:21
    #20823936
    -2
    А как вы думаете кто спонсирует подобные разработки? И кого потом будут сажать как сажают после лингвистической экспертизы текста вырваного из контекста
  1. i360u
    30.10.2019 11:34
    #20824020
    +1
    А вас не напрягает то, что российские «ученые» в каждом подобном «упоминании», не изобрели какой-нибудь новый сверхэффективный способ опреснения воды, или новый вид аккумуляторов, или новое эффективное лекарство от страшной болезни? Какое «упоминание», такая и реакция: конъюнктурная поделка по заказу «большого брата» не представляющая из себя ничего особенного, нового и прорывного. И сомнительного качества, учитывая какие далеко идущие выводы ребята сделали на основе своего микро-дата-сета.
    
    goga_kk
    31.10.2019 11:28
    #20828902
    Конечно напрягает и я естественно против распилов и т.д.
    Но из новости вообще нельзя сделать каких-либо выводов о эффективности программы. Точнее конечно можно, но они могут любые, кому как хочется (читай «выгодно»).
    В связи с этим мне вообще не ясно, что данная новость делает на хабре.
    А также не пойму, как это связано с моим вопросом про появление подобных комментариев?
    Очередное подтверждение, что прокачанный мозг не является критерием адекватности в оценки ситуации. Это относится и к другим ответившим на мой вопрос.
    П.С. Не имею возможности полемики в связи всего одним комментом в сутки)
    Желаю вам и остальным все-таки отвечать по существу, а не вопросом на вопрос, да еще и не по делу. Всех благ)
    
    i360u
    31.10.2019 11:49
    #20829036
    Дело в том, что на Хабре, в отличие от, есть люди, которые имеют какое-то представление о машинном обучении и его возможностях. Некоторые даже имеют представление о NLP и сопутствующей проблематике. А кто-то имеет опыт оценки сложности систем на уровне стоящего за этим матана. И в статье приведена вполне конкретная информация о размере дата-сета, который использовался, приведены некие результаты и выводы. Также, явно указан заказчик. Так вот, эти некоторые, как вы выразились, «кармодрочеры», также способны строить непротиворечивые логические цепочки, в отличие от Вас, видимо. Удачи.
    
    goga_kk
    01.11.2019 11:31
    #20833940
    Отвечу в вашей же хамской манере.
    Не надо лить воду про NLP и иже с ним. У меня достаточно знаний, как теоретических, так и практических (хотя тут и довольно скромно), чтобы оценить, что написано в новости, а написано, я повторюсь там ровным счетом ничего и крутить написанным каждый может в своих интересах, что вы кстати и доказали.
    
    И в статье приведена вполне конкретная информация о размере дата-сета, который использовался, приведены некие результаты и выводы.
    
    И где связь между этой вашей фразой (и вообще всем выплеснувшимся с вас...) и вопросом, который я задал по поводу появления бредо-комментариев при слове «российский ученый»? У вас что-то с логикой вообще беда.
    
    На хабре несомненно % умных людей выше среднего. Один только юмор в комментариях чего стоит, и вообще обсуждения, порой интереснее самой статьи. Но наличие комментария с которого начался диалог и ответов типа вашего как раз доказывает, что тут и полно ~~баранов~~ недалеких кармодрочеров.
    
    П.С.
    
    Толерантность чему? стесняюсь спросить.
    
    loki82 всему, чтобы нравилось 99% завсегдатаев. Под «нравилось» подразумеваю отсутствие желания минусить материал, а в идеале ставить "+" и восторгаться написанным в комментариях.
  1. xsevenbeta
    30.10.2019 21:28
    #20827020
    С 1го ноября вы станете чуть ближе к вашей мечте. Если плюсуют мнение не согласное с вашим, то обязательно кармодрочеры. Ага, ага))
  1. loki82
    30.10.2019 22:22
    #20827216
    Наверное потому, что российские ученые заняты не тем чем надо? А те, кто занят чем надо уже не российские? Было же уже за 2 месяца, как минимум, две статьи чем занимаются ученые.
    
    рошедшие все мыслимые и нет проверки на толерантность.
    
    Толерантность чему? стесняюсь спросить.
1. HellFir-e
  30.10.2019 11:57
  #20824166
  Сейчас у спец.служб многих стран есть примерно такой софт, но не такой утрированный и саркастический =)))
  Есть списки фраз и слов, которые люди, типа террористов(или людей, которые участвуют в расстрелах, не ради запугивания, а простапатамушта), писали у себя в блокнотиках, тетрадях, в переписках и т.д., и по этому списку вылавливают людей анализируя переписки, почту и прочее.
  Ну и всё складывается/делится — хз как, я же не специалист в этом xD
  И выдаётся количество попаданий, а дальше уже всё анализируется ручками. Просматривают, что писал, если сильно надо последят, чтобы посмотреть что делает, а там уже принимается решение, если ничего особенного не выявлено… жалко, ну и фиг с ним, по-любому найдётся какой-нибудь отбитый позже.
  
  Это, примерно, как мы распознаём рекламу/заказные статьи по неестественным(или естественным для рекламы) наборам фраз, хотя даже не видели, что рекламируется, кем и т.д.
1. roscomtheend
  31.10.2019 08:54
  #20828148
  А что за проценты в скобках? Временный эффект от принятого зелья (судя по всему — ладана)?

superstarstas306
30.10.2019 10:10
#20823608
+1
А че, можно было просто взять любую из десятков нейронок для comments toxicity хоть с того же kaggle, слегка перелейблить данные и рубить капусту на грантах и правах собственности? Норм

mihmig
30.10.2019 11:34
#20824022
-1
Предсказываю появление специального плагина для браузеров, заменяющие одинаковые по виду символы русского текста на похожие из множества UTF-8.
Да не просто русские-латинские, а экзотические, чтоб у этих горе-учёных их питончик с exeption-ами вылетал!

Vlad_fox
30.10.2019 12:41
#20824426
пользователи, которые проявляют сочувствие, чаще всего доброжелательны

не надо быть ученым, чтоб обнаружить такую кореляцию
1. DrunkBear
  30.10.2019 13:11
  #20824626
  Улыбаешься? Шутишь и смеешься? Постишь анекдоты? Ещё и иронизируешь, небось? Сразу видно, недобросовестный враждебный интроверт! /irony
1. Nemutaisama
  31.10.2019 12:45
  #20829376
  эмм… совсем мимо — пользователи проявляющие сочувствие чаще всего эгоистичные вайнеры, делающие это для начала диалога с последующим переводом стрелок на себя и свои псевдопроблемы. И лишь некоторые действительно хотят помочь и поддержать.