По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).

Начнем сразу с картинок.

Итак, картинка первая.


Рис.1. Распределение обсценной лексики по источникам.

Тут можно не комментировать, из подписи к картинке все понятно. Хотя нет. Нужно пояснить, откуда и что за данные:

За четверо суток (с 9 по 14 мая) было собрано около 710 тыс. русскоязычных сообщений (это около 400 тыс. авторов), содержащих предмет исследования — обсценную лексику. Точнее не любую, а верхушку частотного словаря сквернословия, которая составляет около 70% от общей массы. В принципе, это достаточно для небольшого исследования. Данные собраны и обработаны системой Brand Analytics.

Анализ показал не только распределение абсолютного употребления данной лексики по регионам и городам и регионам (см. рис.2 и рис. 3 соответственно),


Рис.2. Распределение обсценной лексики по городам России.


Рис.3. Распределение обсценной лексики по регионам России.

Но и распределение по полу и возрасту (см. рис. 4 и рис. 5 соответственно).
<
img src=«habrastorage.org/files/389/e9f/263/389e9f2638ae48ebacb5160f6c8297df.png»/>
Рис.4. Распределение обсценной лексики по возрастам.


Рис.5. Распределение обсценной лексики по полу.

Но не буду огорчать читательниц: данные по полу не совсем корректны. Я посмотрел топы авторов – самые неприлично пишущие барышни оказались рекламой секс услуг, попросту говоря — спамом (и, по всей видимости, роботами, которые отсечь в потоке, к сожалению, просто не получиться: публикации постоянно меняют лексику, публикуют не периодически, имеет друзей и нормальное кол-во репостов, т.е. ведут себя как люди). Либо замаскированными мальчиками. То есть на самом деле процент дам меньше.

Предвижу вопрос читателей: ну с абсолютным распределением по гео вроде бы и так более-менее понятно, а как с относительным. Кто у нас попал в матерщинники. Попробуем сделать картинку:


Рис.6. Распределение обсценной лексики по России.

Небольшое пояснение: покраснение показывает более частое употребление обсценной лексики относительно зеленых областей.
Некоторые области с очень низким количеством сообщений (например, Чукотка – менее 0.02% от общей суммы) не очень корректно отображают действительное положение дел (немного искажают картину).
Тем не менее, вот десятка лидеров, не брезгающих неприличными словами:
  • Хабаровский край
  • Приморский край
  • Республика Саха (Якутия)
  • Магаданская область
  • Камчатский край
  • Еврейская автономная область
  • Мурманская область
  • Забайкальский край
  • Амурская область
  • Алтайский край

А вот, так сказать, аутсайдеры:
  • Республика Карачаево-Черкесия
  • Ленинградская область
  • Республика Ингушетия
  • Кабардино-Балкарская Республика
  • Республика Коми
  • Тюменская область
  • Республика Северная Осетия
  • Республика Тыва
  • Чеченская Республика
  • Вологодская область

В целом видно, что меньше всего употребляют эти нехорошие слова северо-кавказские республики и Ленинградская область (видимо вся питерская интеллигенция в мае выехала на дачу). Не хочу никого обидеть, но с Тюменской областью у меня сомнения, поскольку приходилось там бывать. Хотя давно это было…
Какие можно сделать выводы, глядя на всю эту красоту? Мы видим покраснение к востоку России и части севера России (Мурманская область, Ненецкий АО). Отчасти это говорит о том, что там не то чтобы больше ругаются матом, а просто говорят на нем. Вообще обсценная лексика имеет несколько функций. Думаю, даже стоит остановиться на этом и сделать небольшой лингвистический экскурс.

Функции обсценной лексики

Известный американский лингвист Стив Пинкер в своей недавно вышедшей у нас в переводе книге «Субстанция мышления: язык как окно в человеческую природу» выделил пять функций или пять способов сквернословия:
  1. Описательная (значение слова соотносится со своим предметом референции);
  2. Идиоматическая (или иносказательная);
  3. Агрессивная (выражение своей оценки по поводу происходящего);
  4. Эмфатическая (огрубление семантики с целью выделения значимых для говорящего вещей)
  5. Катартическая (не поверите: проведены научные исследования, которые говорят о том, что ругательства облегчают боль!)

В советское время у больших и не очень больших начальников успехом пользовалась эмфатическая функция: если начальник начинал ругаться, значит на это следовало обратить особое внимание. В принципе, и сейчас некоторые менеджеры активно эксплуатируют такой способ управления коллективом, но его эффективность год от года слабеет. Причиной тому распространение обсценной лексики в СМИ, кино, музыке и пр., а также среди молодежи, что снимает с нее (с этой лексики) элемент табуирования – если раньше при девушках считалось неприличным выражаться, то теперь это уже почти разговорная норма. Поэтому можно сказать, что сейчас больше работает агрессивная функция.
Эмфатическая функция наиболее сильно смещает семантическое значение слова в диахроническом аспекте. За примерами далеко ходить не надо: еще лет 30-40 назад слово «трахать» имело смысл «сильно ударить чем-либо» или «издавать резкий громкий звук», как правило в разговорном контексте, теперь это слово практически всегда употребляется, как синоним глагола группы Е (см. первую часть). Другая история с вполне нормальными глаголами «залупить» и «залупиться — залупаться» («краска залупилась»), который практически перестал употребляться (ни одного вхождения в НКРЯ) вследствие однокоренного обсценного товарища.
Катартической функцией пользуются все без исключения, разве что заменяя грубые слова эвфемизмами, не придавая по сути им определенного значения («блин», «черт», «ёпрст» и др.). Это своего рода способ «примирения» с действительностью: выругался и стало легче.

Идиоматической функцией больше пользуются творческие личности, чтобы подчеркнуть свою эксклюзивность, ну а порой и просто потому что «слово из песни не выкинешь». К тому же в наше время тексты литовать не надо – выложил и интернет видео-вирус – стал знаменитостью.

Ну и последнее, о чем хотелось бы упомянуть. Некоторые современные когнитивные нейробиологи стали вновь обращаться к гипотезе Дарвина о том, что эмоциональные выкрики были одним из главных связующих звеньев между языком животных и языком человека. Такой поворот событий отводит особую роль обсценной лексики не только в эволюции речеобразования человека, но позволяет по-другому взглянуть на процессы человеческой коммуникации.
Поделиться с друзьями
-->

Комментарии (19)


  1. EndUser
    25.05.2016 05:18
    -1

    (undone)


  1. Survtur
    25.05.2016 08:55
    +8

    Ваши пай-чарты построены по абсолютным количествам. Думаю было бы интереснее посмотреть доли обсценной лексики среди обычной.


    1. Kelt_Rivera
      25.05.2016 10:42
      +6

      Согласен. рисунки 1-3 выглядят просто как распределения пользователей по соц. сетям и жителей России по регионам. Стоило хотя бы на общее число пользователей\жителей поделить.


      1. lingvolab
        25.05.2016 10:58

        Да, к сожалению, пока нет хорошего инструмента нормировки (в разработке). Ниже мы написали подробнее почему и как нормировали для рисунка 6.


  1. Gryphon88
    25.05.2016 09:22
    +3

    Пожалуйста, расскажите. как нормировались данные для рисунка 6


    1. lingvolab
      25.05.2016 10:56

      Попробую объяснить, это не очень тривиальная нормировка. Нормировать на все население региона некорректно, т.к. разное проникновение интернета, разная активность и пр. Нормировать на количество пользователей наверно можно, но тут, опять же, влияет разная активность пользователей (у одного через слово, а у другого всего один раз), да и инструмент визуализации в Brand Analytics пока не реализован. Поэтому нормировка производилась на количество некоторых общеупотребительных слов, которые более-менее равномерно распределены по регионам. Это могут быть союзы, модальные глаголы, или другие слова, которые всегда в топе частотного словаря и имеют маленькую дисперсию по времени и месту. Пробовали разные варианты, картинка практически не меняется, за исключением «крайних точек» — регионов с очень низкой активностью, откуда очень мало сообщений (как Чукотка, например).


      1. Gryphon88
        25.05.2016 11:11

        Насколько я понял, Вы сделали как делают в ПЦР (полимеразной цепной реакции) — выбрали набор housekeeping genes и нормировали по нему? Кстати, а как такой набор звучит, сколько там слов?


        1. lingvolab
          25.05.2016 11:23

          Именно рисунок 6 нормирован на модальных глаголах, их частота не сильно колеблется по времени и месту, особенно когда речь идет о больших числах (более 700 тыс. вхождений).


  1. toby3d
    25.05.2016 09:22
    +2

    Кр. — сес. тал., бл!


  1. Alexlexandr
    25.05.2016 10:22
    +4

    Статья понравилась. Хочу поделиться наблюдениями из жизни. Три года назад ходил на байдарке по Полярному Уралу, по реке Собь. В районе городов Воркута, Лабытанги, Харп-Северное сияние. Пересекался там с местными людьми на маршруте, в городах, когда пару дней не мог уехать на поезде (плацкарт), с приезжими рабочими и водителями (с разных регионов Росссии), 6 дней в поезде (по 3 дня туда и обратно).
    Был приятно удивлен, что за 17 дней не слышал ни одного слова матом. Разве только от себя и то, про себя.
    Такой вот приятный культурный шок испытал.
    В Харпе проплывали мимо колонии строгого режима, в которой в то время сидел подельник Ходорковского. Колония т.н. «крытка», т.е. полностью под одной крышей вся колония, все помещения, без прогулок на свежем отдыхе. Т.е. действительно очень строгая. Девушки устали и прямо в 10 метрах от колючки начали ставить палатки передохнуть :) прямо под вышкой наблюдения. С вышки услышали очень приятный, ровный, без мата и малейшего наезда голос, который сказал, что тут не самое лучшее место, а в 200х метрах левее есть удобная полянка. С Харпа в Лабытанги и далее в позде до Москвы ехали в одной маршрутке с освободившимися «зэками». Даже их поведение и лексика были очень корректным.
    Получается, что все же поведение в Интернете сильно отличается от поведения в общении. Или же эти аудитории мало пересекаются :)


    1. maxberger
      25.05.2016 10:43
      +1

      Я читал, что в местах заключения как раз и не ругаются матом. Так как за неосторожное слово, например, «козел» человека могут просто убить. Зеки как раз могут разговаривать как питерские интеллигенты.


    1. alexisneverlate
      27.05.2016 12:45

      Мне кажется, в интернете обсценную лексику используют, в основном, школьники из неблагополучных семей и им подобные.
      Если бы замеры проводились в школах России было бы любопытное исследование.


      1. sim31r
        31.05.2016 04:08

        Школьники из любых семей, родители сами в шоке, если случайно видят переписку. Дети не исправляются, просто меняют пароли. В данном случае просто способ самоутверждения, «круче» только курить. Такое точно с 5го по 9й класс.


  1. SirAlex
    25.05.2016 10:43

    Из собственных наблюдений добавил бы 2 такие функции обсценной лексики: 1. Социальная — если матерится «лидер группы» (начальник, вожак стада, душа компании итп) остальные будут даже неосознанно копировать его поведение. 2. Самая банальная — человек не знает термина, забыл слова, путается в падежах и все эти дырки заменяет «помогалками».


    1. elingur
      25.05.2016 11:42
      +1

      Первое — это скорее поведенческая функция, лексика тут может быть ни при чем. А вторая — это идеоматическая: заменил, потому что забыл, или потому что так «интереснее».


  1. netaholic
    25.05.2016 10:43
    +2

    Спасибо за статью, но очень не хватает относительных величин, потому как иначе получается как на картинке


    1. netaholic
      25.05.2016 10:47
      +1

      У меня read-only аккаунт и мне не удалось вставить картинку тэгом.
      Вот она: https://imgs.xkcd.com/comics/heatmap.png


      1. lingvolab
        25.05.2016 11:12

        Данное микро исследование не является заявкой на истину, и никак не привязано ни к бизнесу, ни к аналитике. Показано состояние употребления обсценной лексики в определенный период времени. Картинка может меняться в зависимости от причин, которые было бы интересно выяснить, например.


  1. AstarothAst
    25.05.2016 18:27
    +1

    >> Идиоматической функцией больше пользуются творческие личности, чтобы подчеркнуть свою эксклюзивность
    Матерятся на лунную дорожку :)