По информации агентства ТАСС, сотрудники Пермского государственного национального исследовательского университета (ПГНИУ) разработали компьютерную программу, с помощью которой можно составить психологический и лингвистический портрет пользователей на основании опубликованных ими комментариев в различных социальных сетях.

Подобные исследования в России ведутся уже давно, но существующие на текущее время системы оценки поведения пользователей в социальных сетях оценивают в основном только лайки и репосты пользователей. Ученые из Перми решили исследовать комментарии пользователей.

Разработанная лингвистами и математиками из Перми программа называется BFI CNN Detector. На данный момент точность используемого в программе алгоритма определения социальных и поведенческих параметров авторов комментариев составляет 70%.

Проведение данного исследования и написание программы BFI CNN Detector заказало Министерство образования и науки РФ. В настоящее время этот программный продукт уже создан и зарегистрирован Федеральной службой по интеллектуальной собственности РФ. Используемый для создания программы язык программирования — Python.

В процессе разработки алгоритма программы ученые из ПГНИУ изучали, что именно и каким образом пишут пользователи в комментариях в различных социальных сетях. В базу данных BFI CNN Detector внесено более 21 тыс. различных комментариев пользователей, которые проанализировали по стилистике, жанрам, информативности. Алгоритм программы при помощи нейронной сети, включающей в себя сверточные слои, может классифицировать вид и стиль комментариев более чем из 150 разных категорий. Кроме этого, оценивает такие параметры пользователей, как возраст, пол, количество друзей, интенсивность написания комментариев, количество постов и психологические черты, которые исследователи собирали с помощью опросника The Big Five Inventory. На основе полученных данных ученые составили психолингвистические портреты для каждого исследуемого пользователя.

По словам профессора кафедры теоретического и прикладного языкознания ПГНИУ Константина Белоусова, в ходе исследований ученые смогли установить некоторые закономерности:

  • в текстах мужчин почти нет извинений, а у женщин они частотно присутствуют;
  • пользователи-мужчины, для которых характерна недобросовестность, часто в своих текстах используют сарказм и иронию;
  • пользователи, которые часто шутят, проявляют враждебность и признаки интровертности (сосредоточенности на внутреннем мире);
  • пользователи, которые проявляют сочувствие, чаще всего доброжелательны и консервативны.

Комментарии (22)


  1. DrBulkin
    29.10.2019 21:56
    +1

    Автор, поправьте заголовок. Программы и алгоритмы патентованию не подлежат. Ученые зарегистрировали программу.


  1. VDG
    30.10.2019 00:06

    с помощью которой можно составить психологический и лингвистический портрет пользователей на основании опубликованных ими комментариев в различных социальных сетях.
    На одних только комментариях сеть не обучить. Нужно ещё знать какому пользователю (психотип) соответствует комментарий, чтобы знать, что мы хотим получить на выходе сети. А эти данные взять им было неоткуда. Подозреваю, что размечали данные сами учёные на основании собственных догадок. Отсюда получившаяся нейросеть — «аппроксимация предположений и заблуждений», оттого и точность 70%.


    1. adictive_max
      30.10.2019 04:16
      +1

      А учитывая, что и «психотип» — штука очень размытая, непостоянная и зависимая от внешних воздействий, получается генератор примеров для эффекта Барнума.


    1. orion76
      30.10.2019 08:23

      В базу данных BFI CNN Detector внесено более 21 тыс. различных комментариев пользователей,

      Судя по небольшому количеству «исходного материала» (21 тыс.) группа авторов комментариев относительно небольшая. Возможно даже авторы — сотрудники ПГНИУ, и данные по их «психотипу» в наличии имеются.


      1. VDG
        30.10.2019 18:42

        Если обучение было на небольшой группе, то тогда эта работа вообще не о чём, просто очередное «достижение» + освоение.


  1. xsevenbeta
    30.10.2019 08:31
    +2

    Напрягают меня все эти составления психологических портретов. Так и вижу, будущий интерфейс:

    Вася Пупкин:
    1. Лояльность режиму — 78%
    2. Уровень интеллекта 6% (-4%)
    3. Уровень любви к Путину 44% (+5%)
    4. Уровень православия 45% (+15%)
    5. Критическое мышление 0%.

    * Посадить за экстремизм — Да/Нет
    * Оскорбить свои чувства верующего Да/Нет
    * Подбросить наркотики — Да/Нет


    1. goga_kk
      30.10.2019 10:59

      А Вас не напрягает, что на каждое упоминание российских ученых появляются комментарии, подобные Вашему? Которые охотно плюсуются местными кармодрочерами.
      Уже давно пора запретить такие новости на Хабре и публиковать только кошерные текста прошедшие все мыслимые и нет проверки на толерантность.


      1. mihmig
        30.10.2019 11:20
        -2

        Напрягает не это. Напрягает что данное «изобретение» российских учёных имеет неиллюзорную вероятность использования текущим политическим режимом в своих целях.
        Примерный алгоритм:
        1. «Доводим» алгоритм до 99.9% — кто Вы такой, чтоб спорить с учёными?
        2. Используем в «экспертизе» для суда. — «У суда нет оснований не доверять показаниям алгоритма»


      1. beduin01
        30.10.2019 11:21
        -2

        А как вы думаете кто спонсирует подобные разработки? И кого потом будут сажать как сажают после лингвистической экспертизы текста вырваного из контекста


      1. i360u
        30.10.2019 11:34
        +1

        А вас не напрягает то, что российские «ученые» в каждом подобном «упоминании», не изобрели какой-нибудь новый сверхэффективный способ опреснения воды, или новый вид аккумуляторов, или новое эффективное лекарство от страшной болезни? Какое «упоминание», такая и реакция: конъюнктурная поделка по заказу «большого брата» не представляющая из себя ничего особенного, нового и прорывного. И сомнительного качества, учитывая какие далеко идущие выводы ребята сделали на основе своего микро-дата-сета.


        1. goga_kk
          31.10.2019 11:28

          Конечно напрягает и я естественно против распилов и т.д.
          Но из новости вообще нельзя сделать каких-либо выводов о эффективности программы. Точнее конечно можно, но они могут любые, кому как хочется (читай «выгодно»).
          В связи с этим мне вообще не ясно, что данная новость делает на хабре.
          А также не пойму, как это связано с моим вопросом про появление подобных комментариев?
          Очередное подтверждение, что прокачанный мозг не является критерием адекватности в оценки ситуации. Это относится и к другим ответившим на мой вопрос.
          П.С. Не имею возможности полемики в связи всего одним комментом в сутки)
          Желаю вам и остальным все-таки отвечать по существу, а не вопросом на вопрос, да еще и не по делу. Всех благ)


          1. i360u
            31.10.2019 11:49

            Дело в том, что на Хабре, в отличие от, есть люди, которые имеют какое-то представление о машинном обучении и его возможностях. Некоторые даже имеют представление о NLP и сопутствующей проблематике. А кто-то имеет опыт оценки сложности систем на уровне стоящего за этим матана. И в статье приведена вполне конкретная информация о размере дата-сета, который использовался, приведены некие результаты и выводы. Также, явно указан заказчик. Так вот, эти некоторые, как вы выразились, «кармодрочеры», также способны строить непротиворечивые логические цепочки, в отличие от Вас, видимо. Удачи.


            1. goga_kk
              01.11.2019 11:31

              Отвечу в вашей же хамской манере.
              Не надо лить воду про NLP и иже с ним. У меня достаточно знаний, как теоретических, так и практических (хотя тут и довольно скромно), чтобы оценить, что написано в новости, а написано, я повторюсь там ровным счетом ничего и крутить написанным каждый может в своих интересах, что вы кстати и доказали.

              И в статье приведена вполне конкретная информация о размере дата-сета, который использовался, приведены некие результаты и выводы.

              И где связь между этой вашей фразой (и вообще всем выплеснувшимся с вас...) и вопросом, который я задал по поводу появления бредо-комментариев при слове «российский ученый»? У вас что-то с логикой вообще беда.

              На хабре несомненно % умных людей выше среднего. Один только юмор в комментариях чего стоит, и вообще обсуждения, порой интереснее самой статьи. Но наличие комментария с которого начался диалог и ответов типа вашего как раз доказывает, что тут и полно баранов недалеких кармодрочеров.

              П.С.
              Толерантность чему? стесняюсь спросить.

              loki82 всему, чтобы нравилось 99% завсегдатаев. Под «нравилось» подразумеваю отсутствие желания минусить материал, а в идеале ставить "+" и восторгаться написанным в комментариях.


      1. xsevenbeta
        30.10.2019 21:28

        С 1го ноября вы станете чуть ближе к вашей мечте. Если плюсуют мнение не согласное с вашим, то обязательно кармодрочеры. Ага, ага))


      1. loki82
        30.10.2019 22:22

        Наверное потому, что российские ученые заняты не тем чем надо? А те, кто занят чем надо уже не российские? Было же уже за 2 месяца, как минимум, две статьи чем занимаются ученые.

        рошедшие все мыслимые и нет проверки на толерантность.

        Толерантность чему? стесняюсь спросить.


    1. HellFir-e
      30.10.2019 11:57

      Сейчас у спец.служб многих стран есть примерно такой софт, но не такой утрированный и саркастический =)))
      Есть списки фраз и слов, которые люди, типа террористов(или людей, которые участвуют в расстрелах, не ради запугивания, а простапатамушта), писали у себя в блокнотиках, тетрадях, в переписках и т.д., и по этому списку вылавливают людей анализируя переписки, почту и прочее.
      Ну и всё складывается/делится — хз как, я же не специалист в этом xD
      И выдаётся количество попаданий, а дальше уже всё анализируется ручками. Просматривают, что писал, если сильно надо последят, чтобы посмотреть что делает, а там уже принимается решение, если ничего особенного не выявлено… жалко, ну и фиг с ним, по-любому найдётся какой-нибудь отбитый позже.

      Это, примерно, как мы распознаём рекламу/заказные статьи по неестественным(или естественным для рекламы) наборам фраз, хотя даже не видели, что рекламируется, кем и т.д.


    1. roscomtheend
      31.10.2019 08:54

      А что за проценты в скобках? Временный эффект от принятого зелья (судя по всему — ладана)?


  1. superstarstas306
    30.10.2019 10:10
    +1

    А че, можно было просто взять любую из десятков нейронок для comments toxicity хоть с того же kaggle, слегка перелейблить данные и рубить капусту на грантах и правах собственности? Норм


  1. mihmig
    30.10.2019 11:34
    -1

    Предсказываю появление специального плагина для браузеров, заменяющие одинаковые по виду символы русского текста на похожие из множества UTF-8.
    Да не просто русские-латинские, а экзотические, чтоб у этих горе-учёных их питончик с exeption-ами вылетал!


  1. Vlad_fox
    30.10.2019 12:41

    пользователи, которые проявляют сочувствие, чаще всего доброжелательны

    не надо быть ученым, чтоб обнаружить такую кореляцию


    1. DrunkBear
      30.10.2019 13:11

      Улыбаешься? Шутишь и смеешься? Постишь анекдоты? Ещё и иронизируешь, небось? Сразу видно, недобросовестный враждебный интроверт! /irony


    1. Nemutaisama
      31.10.2019 12:45

      эмм… совсем мимо — пользователи проявляющие сочувствие чаще всего эгоистичные вайнеры, делающие это для начала диалога с последующим переводом стрелок на себя и свои псевдопроблемы. И лишь некоторые действительно хотят помочь и поддержать.