Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!

Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!

Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.

San-Francisco

Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.

Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.

Распределение заработных плат


В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.

Вот так выглядит распределение базовых доходов сотрудников за 4 года:
Базовые доходы

Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.

Теперь посмотрим на распределение общего дохода сотрудников:


Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.

В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.

Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.

Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:


Как видно, медианный доход штатника составляет около $130.000 в год.

Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.

Проверим, так ли это:


На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

Социальное неравенство


Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.

Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):


Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.

На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.

Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.

Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:


Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.

Эффект Матфея


Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!

На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.


Теперь давайте построим графики среднего дохода высшего и низшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в низшем дециле существенно упал на -12,6%.


Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.

Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.

Карьерный рост


Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.

Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:


Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.

Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.

Заключение


Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.

Мы можем отметить следующие тезисы:
  • зарплаты в муниципалитете очень скученны
  • хороший специалист может зарабатывать не меньше посредственного руководителя
  • медианная зарплата несильно отличается от средней
  • разрыв доходов между богатыми и бедными увеличивается
  • даже в спокойной госслужбе есть возможности для карьерного роста

Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.

Комментарии (58)


  1. kokorins
    12.04.2016 10:08
    +1

    Свечки по-моему не репрезентативны, тем более с группировкой по годам. Гистограмма со смещением или график отношения к первому году выглядели бы более внятно.


  1. v0rdych
    12.04.2016 10:20
    +22

    Я-то было подумал тут про РФ. Свечки были бы мягко говорят другими, я полагаю.


    1. Alligattor
      12.04.2016 10:56
      +10

      «Свечки» в наших ареалах плавно превращаются в остроконечный скипетр, при этом конец скипетра пробивает не только небеса, но и вселенную…


    1. fediq
      12.04.2016 11:00
      +11

      В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
      В статье есть ссылка на подборку статистики, можете ознакомиться.


      1. redmanmale
        12.04.2016 11:13
        +6

        Не все же доходы попадают в статистику. Особенно, в России.


        1. GreyPhantom
          12.04.2016 12:46

          Да даже если и попадают… Зарплата моей жены= МРОТ (бюджетник), а средняя з/п в регионе по данным статистики в 3-5 раз выше. Что же получается- в регионе очень мало работников бюджетной сферы? Или просто у кого-то (скажем, главврача местной больницы) доход на порядок выше?


          1. Meklon
            12.04.2016 19:54

            Потому и есть смысл всегда указывать еще и медиану.


          1. Source
            12.04.2016 23:16

            Кстати интересно, какой процент работающего населения занят в бюджетной сфере? На вскидку кажется должно быть около 15%


          1. fediq
            12.04.2016 23:17

            В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.


      1. alexeyrom
        13.04.2016 10:27

        А вы думаете, что статистика неравенства доходов госслужащих совпадает с такой статистикой для населения в целом?


        1. fediq
          13.04.2016 10:50

          Неравенство для населения в целом будет существенно больше.

          Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).


          1. alexeyrom
            13.04.2016 20:11

            Вот именно. Так что та ссылка, которую вы привели, не даёт оснований утверждать, что

            статистически причин увидеть другие «свечки» нет


            Если даже для США в целом такие причины есть!

            Тем более даже не уточнив, например, идёт ли речь о всей РФ или о бюджетниках какого-нибудь аналогичного по статусу города.


  1. Apatic
    12.04.2016 10:53
    -1

    Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе.

    Ну вот как-то да…
    На основе данных (например) Росстата было бы что-то более актуальное и интересное, наверное.
    В любом случае, спасибо за статью.

    Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.

    Я так понимаю ящик с усами построен с отсечением выбросов сверху? То есть в расчете средней и медианы выбросы не принимали участия?


    1. fediq
      12.04.2016 11:05

      Среднее точно считалось по всем данным.
      Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.


      1. Apatic
        12.04.2016 11:07

        «усы» точно отбрасывают учитывают выбросы


        Мм?


        1. fediq
          12.04.2016 11:11
          +1

          Опечатался, поправил.


  1. mikhailt
    12.04.2016 10:55
    +4

    Благодарю. Прекрасный короткий обзор, который может дальше использован как пример для подобного анализа для других стран и групп.
    Кстати, Норвегия, наверно единственная страна в мире, где данные доходов, налогов и капиталов каждого человека доступны публично (с некоторыми ограничениями) для всех.
    Вот например норвежский топ 100 богатых по доходам/налогам/капиталу по областям/районам
    www.dn.no/skattelister/#!/Norge/2014/


    1. fediq
      12.04.2016 11:07

      О, спасибо за наводку!

      И за комплимент. =)


      1. kraidiky
        12.04.2016 12:13
        +4

        Статья классная! А уж если бы кто проанализировал данные по Норвегии, это было бы вообще очень ценно для понимания реальности.


  1. knagaev
    12.04.2016 10:56
    +3

    Только один вопрос — почему Вы называете это Data Science?


    1. Apatic
      12.04.2016 11:06
      +6

      Вспомним известную цитату.

      Потому что Data Science, как и Big Data — это как секс в разговорах подростков.
      Все это обсуждают, но никто не знает, что это такое на самом деле.


    1. fediq
      12.04.2016 11:08
      +62

      Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.


      1. knagaev
        12.04.2016 11:09
        -1

        Сарказм засчитан :)


  1. e1emental
    12.04.2016 11:09

    «На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному». Судя по диаграмме, это скорее распределение Релея, хотя возможно это случайность.


    1. fediq
      12.04.2016 11:11

      Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

      Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.


  1. Akr0n
    12.04.2016 11:26
    +4

    По тексту до хабраката не понятно, что речь идет не о России. Нехорошо.


    1. Antelle
      12.04.2016 11:35

      Здание transamerica pyramid известное вроде бы


  1. Seven-ov
    12.04.2016 11:36
    +15

    Смешанное чувство, когда твоя зарплата находится в зоне статистической погрешности… Снизу…


  1. rboots
    12.04.2016 11:37
    -6

    Социальное неравенство это проблема? Мэр города должен получать столько же, сколько уборщица? На мой взгляд госслужащим наоборот недоплачивают, потому что не должен мэр получат меньше руководителя самой крупной корпорации в том же городе. А так сколько платим — такую власть и имеем, что туда только воровать с такой зарплатой идут, что у нас, что в США.


    1. Punk_UnDeaD
      12.04.2016 11:51

      Главнее всех — бухгалтерия, а главный в бухгалтерии — главный бухгалтер.


    1. DnV
      12.04.2016 11:52

      Как в США-то воровать, посодют же.


    1. EvilPartisan
      12.04.2016 12:01
      +4

      Роковая ошибка в вашей логике, что руководитель всегда работает на владельца.
      У компании владелец — это конкретный человек или группа. У города — население этого города.


    1. Captcha
      12.04.2016 12:07
      -1

      Бедные, бедные депутаты с зарплатой 400 т.р. (+ премии и овер 9000 льгот). На такую зарплату у нас можно только выживать, но не жить.


    1. MagicGTS
      13.04.2016 09:01

      Подавляющие число людей, способных к административной борьбе (при этом могут слабыми работниками в целом), часто ненасытны в деньгах или власти, и не менее часто добиваются и того и другого не чистыми методами. Вывод, высокие зарплаты не гарантируют вообще ничего, кроме высокого ФОТ и потенциально, ещё большего воровства.


  1. hombre
    12.04.2016 12:03
    +6

    Карьеру интересно изучать в разрезе распределения по отдельным профессиям
    у архитекторов, юристов и врачей видно «2-е дыхание»,
    тоже неплохо инженерам, пожарным, полицейским и мэрам)
    image


    1. xenohunter
      12.04.2016 13:11
      +9

      Хорошая профессия — Animal.


      1. hombre
        12.04.2016 14:52

        я сначала подумал, что это всякие собаки на службе, питомцы зоопарка и т.п., но потом увидел

        код R
        query = «select Id,
        case when jobtitle like '%fire%' then 'Fire'
        when jobtitle like '%police%' then 'Police'
        when jobtitle like '%sherif%' then 'Police'
        when jobtitle like '%probation%' then 'Police'
        when jobtitle like '%Sergeant%' then 'Police'


        when jobtitle like '%MTA%' then 'Transit'
        when jobtitle like '%transit%' then 'Transit'
        when jobtitle like '%anesth%' then 'Medical'
        when jobtitle like '%medical%' then 'Medical'
        when jobtitle like '%nurs%' then 'Medical'
        when jobtitle like '%health%' then 'Medical'
        when jobtitle like '%physician%' then 'Medical'
        when jobtitle like '%Orthopedic%' then 'Medical'

        when jobtitle like '%health%' then 'Medical'
        when jobtitle like '%pharm%' then 'Medical'
        when jobtitle like '%airport%' then 'Airport'
        when jobtitle like '%animal%' then 'Animal'
        when jobtitle like '%architect%' then 'Architectural'
        when jobtitle like '%court%' then 'Court'
        when jobtitle like '%legal%' then 'Court'

        when jobtitle like '%MAYOR%' then 'Mayor'
        when jobtitle like '%librar%' then 'Library'

        when jobtitle like '%parking%' then 'Parking'

        when jobtitle like '%Public Works%' then 'Public Works'
        when jobtitle like '%Attorney%' then 'Attorney'
        when jobtitle like '%MECHANIC%' then 'Automotive'
        when jobtitle like '%automotive%' then 'Automotive'
        when jobtitle like '%custodian%' then 'Custodian'
        when jobtitle like '%engineer%' then 'Engineering'
        when jobtitle like '%engr%' then 'Engineering'
        when jobtitle like '%account%' then 'Accounting'
        when jobtitle like '%Gardener%' then 'Gardening'
        when jobtitle like '%General Laborer%' then 'General Laborer'
        when jobtitle like '%food serv%' then 'Food Service'
        when jobtitle like '%clerk%' then 'Clerk'
        when jobtitle like '%porter%' then 'Porter'
        else null
        end as JobType
        from Salaries»


        1. xenohunter
          12.04.2016 15:36
          +1

          Кажется, код не опровергает вашу версию.


          1. Wesha
            14.04.2016 01:27
            +3

            Есть служба "Animal control" — это всякие собаколовы и т.п. Типа отлавливать шарящихся по мусоркам енотов, выдворять из города медведей и т.п.


            Кстати, один местный рассказывал такую хохму — делал очень реалистичный маскот-костюм льва, надел его испытать, разлёгся у себя на заднем дворе — а соседи через забор увидели, и вызвали этот самый Animal Control — "У соседа во дворе ЛЕВ!!!"


    1. AlexanderG
      12.04.2016 14:22
      +1

      Ужасающе узкие распределения в низкоквалифицированном труде.


      1. Orky
        13.04.2016 12:52
        +2

        Это логично. В низкоквалифицированном труде расти некуда. Если ты грузчик, то ты будешь таскать ящики. Делать это более профессионально фактически невозможно. Все тонкости труда познаются за неделю в худшем случае.


  1. Vjatcheslav3345
    12.04.2016 12:46
    -3

    А в России можно посчитать что либо подобное — а то чем интереснее по той или стране данные тем тщательнее их берегут от любопытных.


  1. Shultc
    12.04.2016 14:27
    +2

    Я хочу компьютерную игру (RTS), в которой вот такая вот статья будет одной главой туториала…


  1. PsyHaSTe
    12.04.2016 15:33

    А почему вы подгоняли под нормальный закон? Видно же, что нужно что-то другое посмотреть. Тот же хи-квадрат, весьма похоже описывает данные — резкий рост в начале и постепенное снижение в дальнейшем.


    1. atikhonov
      12.04.2016 15:43

      Доходы населения моделируют распределением Парето обычно


      1. Ares_ekb
        13.04.2016 05:04
        +1

        По-моему логнормальное тоже иногда используют…


        1. atikhonov
          13.04.2016 09:41
          +1

          верно, главное exp


    1. fediq
      12.04.2016 23:10

      Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

      Задачи параметризовать выборку каким-либо распределением не стояло.


  1. AmirL
    12.04.2016 19:11

    медианная зарплата несильно отличается от средней

    в муниципальной сфере в СФ. Все таки это гос учреждение, публичные люди и все такое. Имхо именно в этой выборке медиана и должна была быть максимально приближена к средней. А вот в реальной (конкурентной среде частного бизнеса), это были бы другие цифры.


    1. fediq
      12.04.2016 23:13

      Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
      В википедии есть интересующие вас цифры со ссылкой на данные Росстата.


    1. verlena
      13.04.2016 08:34
      -1

      nmnmnmmnmnm


      1. verlena
        13.04.2016 09:56

        Прошу прощенья, это был случайный коммент


  1. pro100olga
    13.04.2016 10:26

    Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.


  1. rosnord
    13.04.2016 10:51
    -1

    Кроме того можно сравнить средние месячные зп за 2012-2014 (до волнений) в месяц по оф. статистике:
    в Норвегии — 3313$, Росии — 377$, Украине — 116$ и Индии —


    1. fediq
      13.04.2016 10:53

      Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.


      1. rosnord
        13.04.2016 16:44

        Это очевидно, однако мы живем в мире, в социуме, и все-таки резонно посмотреть не только вертикально, но и горизонтально, тем более в комментариях.