Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.
Сразу вскрою основную интригу — что это за данные и откуда я их взял. Это реальная информация о заработных платах муниципальных служащих города Сан-Франциско (на фото), что в Калифорнии, США. В датасете присутствую настоящие имена, занимаемые должности, оклады, бонусы, сверхурочные и премии некоторых (возможно, всех) служащих за 4 года — с 2011 по 2014 включительно. Данные не очень чистые и не совсем стандартизованные, но работать с ними можно. Все это любезно предоставила администрация штата в рамках проекта Transparent California. Все суммы — в долларах в год, до вычета налогов.
Я осознанно пропущу этапы изучения и подготовки данных, а также код построения графиков. Желающие могут изучить все это в github. Там Python, Jupyter, Pandas и Seaborn. Итак, приступим.
Распределение заработных плат
В датасете есть не только базовые доходы сотрудников, но и различные надбавки. Дабы не углубляться в мелочи, будем рассматривать только базовый доход и общий доход с учетом всех надбавок и премий.
Вот так выглядит распределение базовых доходов сотрудников за 4 года:
Эти четыре… гхм… “морковки” символизируют распределение доходов за 4 года. По оси Y — величина дохода, по оси X — плотность вероятности распределения доходов. Поперечные пунктирные линии — это квартили 25%, 50% (медиана) и 75% распределения. Четко видно несколько уплотнений — в районе $5.000, $65.000, $110.000 и $170.000. Так выглядят классы сотрудников — временные рабочие, линейный персонал, высококлассные специалисты и топ-менеджмент. Кажется, что “морковка” медленно едет вверх, что может означать как растущий уровень благосостояния, так и инфляцию.
Теперь посмотрим на распределение общего дохода сотрудников:
Данные за 2011ый год сильно отличаются от последующих. Оказалось, что у нас нет данных о премиях в течение этого года. Вообще, данные за 2011ый год отформатированы иначе, что сильно затрудняет их использование. Кроме того, в этом году сменилось выборное правительство, из-за чего зарплаты людей на выборных должностях посчитаны не за полный год.
В остальных годах мы видим, что слой премий “сгладил” “морковку” распределения, практически ликвидировав четкое деление сотрудников по классам. Т.е., с учетом премий хороший линейный специалист зарабатывает сравнимо с ненапрягающимся экспертом.
Сан-Франциско — недешевый город. Официальная минимальная зарплата составляет порядка $20.000 в год, субъективный прожиточный минимум — от $40.000 в год. Непонятно, откуда же такое большое число людей с зарплатой меньше МРОТ? Ответ кроется в признаке Status — FT (Full-time) и PT (Part-time), т.е. в выборке есть не только штатные сотрудники, но и совместители, в т.ч. разовые подработки. Признак Status проставлен только для 2014го года.
Вот так выглядит распределение общих доходов с разделением на штатных и внештатных сотрудников:
Как видно, медианный доход штатника составляет около $130.000 в год.
Давайте заодно ответим на вопрос, которому посвящено множество споров в интернетах — как связаны средняя и медианная зарплата. Бытует мнение, что средняя зарплата значительно выше медианной засчет доходов топ-менеджмента.
Проверим, так ли это:
На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному. Наибольшему значению плотности распределения соответствует средняя зарплата, которая составляет $90.000. На нижнем рисунке изображены квартили распределения зарплат, средняя линия внутри прямоугольника — медианная зарплата, и она составляет $85.000. Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.
Социальное неравенство
Наиболее волнительным в зарплатах является вопрос их справедливого распределения (от каждого — по способностям, каждому — по труду?). Мудрые предки оставили нам численные метрики неравенства распределения доходов. К наиболее популярным относятся индекс Джини и индекс R/P. Давайте поговорим о них подробнее.
Индекс Джини — это статистический показатель степени расслоения величины. В экономике его обычно используют для измерения расслоения населения по доходам. Считается индекс Джини как выраженное в процентах отношение площади между кривой Лоренца и диагональю y=x (зеленая область) к площади всего треугольника ниже диагонали (синяя + зеленая области):
Показатель измеряется от 0 до 100, где 0 — полное равенство (всё синее), а 100 — все доходы у одного человека (всё зеленое). Для примера, Джини России — 42.0, США — 45.0, Германии — 27.0, Китая — 47.3. Самый маленький Джини у Швеции — 23.0, самый большой — у африканских банановых монархий, где он может подниматься свыше 60.
На рисунке выше изображена кривая Лоренца для доходов штатных сотрудников. Индекс Джини для них составляет 18.9, что говорит о практически коммунистической уравниловке. Можно трактовать это так — если вам удалось попасть в штатные сотрудники мэрии Сан-Франциско, зарплатой вас не обидят. А можно так — если вы работаете в мэрии, карьерная лестница у вас невысокая.
Еще одним любопытным индикатором расслоения является отношение доходов богатых к доходам бедных. Посмотрим на темно-синий “треугольник” на рисунке выше. Его ширина — 20%, это 20% богатейших людей. Высота темно-синего треугольника — 31%. Это значит, что на 20% богатейших людей приходится 31% совокупного дохода. Теперь обратите внимание на красный треугольник. Его ширина — 20% (беднейших людей), а высота — 12% (дохода), т.е. на 20% беднейших людей приходится 12% совокупного дохода. Индекс Rich/Poor 20 отражает отношение доходов богатейших 20% к беднейшим 20% общества. Для штатных сотрудников муниципалитета Сан-Франциско R/P 20 составляет 2,5. Можно трактовать это как высоту потолка роста на карьерной или социальной лестнице.
Теперь для сравнения посмотрим на кривую Лоренца для внештатных сотрудников:
Мы видим разительное отличие от предыдущего графика. Дуга кривой Лоренца прогнулась далеко вниз, зеленая область увеличилась в размерах. Богатый треугольник занимает почти половину высоты, а бедный треугольник почти не видно. Индекс Джини составляет 53.6, а R/P 20 равен 45. Это примерно соответствует бедным странам Южной Америки, с ярко выраженным расслоением на зажиточных капиталистов и простоватых мучачос.
Эффект Матфея
Мудрость поколений гласит, что “всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет”. Другими словами, зазор между бедными и богатыми постоянно увеличивается. Это забавное явление прото-социологи наблюдают в течение тысячелетий, а в последнее время его осознание стало доступно широким массам. Из Эффекта Матфея, как его называют экономисты, следует вывод, что единственный способ приумножить свое состояние и оставить наследство своим детям — принадлежать к верхушке общества. Эта гипотезу весьма неприятно осознавать, и было бы неплохо, если б она оказалась ложной. Так давайте же ее опровергнем!
На рисунке ниже вы видите суммарный размер фонда оплаты труда муниципалитета Сан-Франциско за 3 года. Он вырос c $3,70 млрд в 2012ом году до $3.82 млрд в 2014ом, показав рост +3,2% общего объема.
Теперь давайте построим графики среднего дохода высшего и низшего децилей (10% самых больших и самых маленьких зарплат). Как видно, средний доход в высшем дециле увеличился на +3,0%, в то время, как доход в низшем дециле существенно упал на -12,6%.
Это означает не только то, что эффект Матфея есть, но и то, что он крайне силён и легко заметен невооруженным взглядом. Можно предположить, что именно этим объясняется уверенный рост индекса Джини в США в течение последних 30 лет.
Стоит отметить, что из-за отсутствия разметки full-time/part-time в ранних годах, мы оценивали доходы децилей на смешанной выборке из штатников и внештатников. Это могло внести существенные корректировки в результат, так что я в нем не уверен — чересчур неправдоподобно выглядит величина зазора.
Карьерный рост
Раз уж мы заговорили о карьерном росте, давайте проверим — есть ли он, или это фантастика? Поскольку разбираться в иерархии американских чиновников нет никакого желания, будем считать, что карьерный рост сводится к росту зарплаты. В датасете есть имена и фамилии людей, и они ожидаемо повторяются из года в год.
Давайте посмотрим на доходы одних и тех же людей в 2012ом и 2014ом годах, посчитаем рост в процентах и построим распределение роста в пересчете на один год:
Слева изображен график плотности вероятности роста дохода, справа — график функции распределения роста дохода. Во-первых, видно, что рост доходов 20% сотрудников лежит в диапазоне от 0 до 2%, что примерно покрывает инфляцию. Наиболее распространенный рост доходов — от 2% до 5%, он наблюдается в 50% случаев, это мода скорости карьерного роста. Далее, примерно 15% людей смогли добиться роста в 5-10%, такой темп роста можно считать высоким. И не более 5% людей показали выдающийся рост доходов более чем на 10% год к году. Стоит также отметить, что 10% сотрудников показали отрицательный рост дохода, т.е. их зарплаты уменьшались год к году.
Заметим, что для построения этого графика мне пришлось наложить на выборку угрубляющие фильтры, чтобы срезать “длинный хвост”, образованный людьми, кто перешел из разовых контрактников в штат, тем самым увеличив свои доходы от муниципалитета в 50-100 раз. Эти фильтры могли существенно повлиять на распределение.
Заключение
Оказалось, что на примере даже такого маленького мирка, как муниципалитет города Сан-Франциско, можно изучать социологические и экономические закономерности.
Мы можем отметить следующие тезисы:
- зарплаты в муниципалитете очень скученны
- хороший специалист может зарабатывать не меньше посредственного руководителя
- медианная зарплата несильно отличается от средней
- разрыв доходов между богатыми и бедными увеличивается
- даже в спокойной госслужбе есть возможности для карьерного роста
Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе. Я не рекомендую делать на основе этой статьи далеко идущих выводов об экономической статистике в США и, тем более, в мире в целом.
Комментарии (58)
v0rdych
12.04.2016 10:20+22Я-то было подумал тут про РФ. Свечки были бы мягко говорят другими, я полагаю.
Alligattor
12.04.2016 10:56+10«Свечки» в наших ареалах плавно превращаются в остроконечный скипетр, при этом конец скипетра пробивает не только небеса, но и вселенную…
fediq
12.04.2016 11:00+11В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
В статье есть ссылка на подборку статистики, можете ознакомиться.redmanmale
12.04.2016 11:13+6Не все же доходы попадают в статистику. Особенно, в России.
GreyPhantom
12.04.2016 12:46Да даже если и попадают… Зарплата моей жены= МРОТ (бюджетник), а средняя з/п в регионе по данным статистики в 3-5 раз выше. Что же получается- в регионе очень мало работников бюджетной сферы? Или просто у кого-то (скажем, главврача местной больницы) доход на порядок выше?
Source
12.04.2016 23:16Кстати интересно, какой процент работающего населения занят в бюджетной сфере? На вскидку кажется должно быть около 15%
fediq
12.04.2016 23:17В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.
alexeyrom
13.04.2016 10:27А вы думаете, что статистика неравенства доходов госслужащих совпадает с такой статистикой для населения в целом?
fediq
13.04.2016 10:50Неравенство для населения в целом будет существенно больше.
Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).alexeyrom
13.04.2016 20:11Вот именно. Так что та ссылка, которую вы привели, не даёт оснований утверждать, что
статистически причин увидеть другие «свечки» нет
Если даже для США в целом такие причины есть!
Тем более даже не уточнив, например, идёт ли речь о всей РФ или о бюджетниках какого-нибудь аналогичного по статусу города.
Apatic
12.04.2016 10:53-1Однако, это всего лишь один сектор экономики и только в одном весьма нетипичном городе.
Ну вот как-то да…
На основе данных (например) Росстата было бы что-то более актуальное и интересное, наверное.
В любом случае, спасибо за статью.
Как видим, действительно, средняя зарплата выше медианной, но отнюдь не существенно.
Я так понимаю ящик с усами построен с отсечением выбросов сверху? То есть в расчете средней и медианы выбросы не принимали участия?fediq
12.04.2016 11:05Среднее точно считалось по всем данным.
Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
mikhailt
12.04.2016 10:55+4Благодарю. Прекрасный короткий обзор, который может дальше использован как пример для подобного анализа для других стран и групп.
Кстати, Норвегия, наверно единственная страна в мире, где данные доходов, налогов и капиталов каждого человека доступны публично (с некоторыми ограничениями) для всех.
Вот например норвежский топ 100 богатых по доходам/налогам/капиталу по областям/районам
www.dn.no/skattelister/#!/Norge/2014/
e1emental
12.04.2016 11:09«На верхнем рисунке вы видите попытку подогнать распределение зарплат к нормальному». Судя по диаграмме, это скорее распределение Релея, хотя возможно это случайность.
fediq
12.04.2016 11:11Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.
Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
Seven-ov
12.04.2016 11:36+15Смешанное чувство, когда твоя зарплата находится в зоне статистической погрешности… Снизу…
rboots
12.04.2016 11:37-6Социальное неравенство это проблема? Мэр города должен получать столько же, сколько уборщица? На мой взгляд госслужащим наоборот недоплачивают, потому что не должен мэр получат меньше руководителя самой крупной корпорации в том же городе. А так сколько платим — такую власть и имеем, что туда только воровать с такой зарплатой идут, что у нас, что в США.
EvilPartisan
12.04.2016 12:01+4Роковая ошибка в вашей логике, что руководитель всегда работает на владельца.
У компании владелец — это конкретный человек или группа. У города — население этого города.
Captcha
12.04.2016 12:07-1Бедные, бедные депутаты с зарплатой 400 т.р. (+ премии и овер 9000 льгот). На такую зарплату у нас можно только выживать, но не жить.
MagicGTS
13.04.2016 09:01Подавляющие число людей, способных к административной борьбе (при этом могут слабыми работниками в целом), часто ненасытны в деньгах или власти, и не менее часто добиваются и того и другого не чистыми методами. Вывод, высокие зарплаты не гарантируют вообще ничего, кроме высокого ФОТ и потенциально, ещё большего воровства.
hombre
12.04.2016 12:03+6Карьеру интересно изучать в разрезе распределения по отдельным профессиям
у архитекторов, юристов и врачей видно «2-е дыхание»,
тоже неплохо инженерам, пожарным, полицейским и мэрам)
xenohunter
12.04.2016 13:11+9Хорошая профессия — Animal.
hombre
12.04.2016 14:52я сначала подумал, что это всякие собаки на службе, питомцы зоопарка и т.п., но потом увидел
код Rquery = «select Id,
case when jobtitle like '%fire%' then 'Fire'
when jobtitle like '%police%' then 'Police'
when jobtitle like '%sherif%' then 'Police'
when jobtitle like '%probation%' then 'Police'
when jobtitle like '%Sergeant%' then 'Police'
when jobtitle like '%MTA%' then 'Transit'
when jobtitle like '%transit%' then 'Transit'
when jobtitle like '%anesth%' then 'Medical'
when jobtitle like '%medical%' then 'Medical'
when jobtitle like '%nurs%' then 'Medical'
when jobtitle like '%health%' then 'Medical'
when jobtitle like '%physician%' then 'Medical'
when jobtitle like '%Orthopedic%' then 'Medical'
when jobtitle like '%health%' then 'Medical'
when jobtitle like '%pharm%' then 'Medical'
when jobtitle like '%airport%' then 'Airport'
when jobtitle like '%animal%' then 'Animal'
when jobtitle like '%architect%' then 'Architectural'
when jobtitle like '%court%' then 'Court'
when jobtitle like '%legal%' then 'Court'
when jobtitle like '%MAYOR%' then 'Mayor'
when jobtitle like '%librar%' then 'Library'
when jobtitle like '%parking%' then 'Parking'
when jobtitle like '%Public Works%' then 'Public Works'
when jobtitle like '%Attorney%' then 'Attorney'
when jobtitle like '%MECHANIC%' then 'Automotive'
when jobtitle like '%automotive%' then 'Automotive'
when jobtitle like '%custodian%' then 'Custodian'
when jobtitle like '%engineer%' then 'Engineering'
when jobtitle like '%engr%' then 'Engineering'
when jobtitle like '%account%' then 'Accounting'
when jobtitle like '%Gardener%' then 'Gardening'
when jobtitle like '%General Laborer%' then 'General Laborer'
when jobtitle like '%food serv%' then 'Food Service'
when jobtitle like '%clerk%' then 'Clerk'
when jobtitle like '%porter%' then 'Porter'
else null
end as JobType
from Salaries»xenohunter
12.04.2016 15:36+1Кажется, код не опровергает вашу версию.
Wesha
14.04.2016 01:27+3Есть служба "Animal control" — это всякие собаколовы и т.п. Типа отлавливать шарящихся по мусоркам енотов, выдворять из города медведей и т.п.
Кстати, один местный рассказывал такую хохму — делал очень реалистичный маскот-костюм льва, надел его испытать, разлёгся у себя на заднем дворе — а соседи через забор увидели, и вызвали этот самый Animal Control — "У соседа во дворе ЛЕВ!!!"
AlexanderG
12.04.2016 14:22+1Ужасающе узкие распределения в низкоквалифицированном труде.
Orky
13.04.2016 12:52+2Это логично. В низкоквалифицированном труде расти некуда. Если ты грузчик, то ты будешь таскать ящики. Делать это более профессионально фактически невозможно. Все тонкости труда познаются за неделю в худшем случае.
Vjatcheslav3345
12.04.2016 12:46-3А в России можно посчитать что либо подобное — а то чем интереснее по той или стране данные тем тщательнее их берегут от любопытных.
Shultc
12.04.2016 14:27+2Я хочу компьютерную игру (RTS), в которой вот такая вот статья будет одной главой туториала…
PsyHaSTe
12.04.2016 15:33А почему вы подгоняли под нормальный закон? Видно же, что нужно что-то другое посмотреть. Тот же хи-квадрат, весьма похоже описывает данные — резкий рост в начале и постепенное снижение в дальнейшем.
fediq
12.04.2016 23:10Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.
Задачи параметризовать выборку каким-либо распределением не стояло.
AmirL
12.04.2016 19:11медианная зарплата несильно отличается от средней
в муниципальной сфере в СФ. Все таки это гос учреждение, публичные люди и все такое. Имхо именно в этой выборке медиана и должна была быть максимально приближена к средней. А вот в реальной (конкурентной среде частного бизнеса), это были бы другие цифры.fediq
12.04.2016 23:13Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
pro100olga
13.04.2016 10:26Интересно почитать, спасибо. Если интересует тема доходов, то US Census Bureau в своем ACS дает данные по доходам населения, но правда на основе опросов, то есть люди могут занижать.
rosnord
13.04.2016 10:51-1Кроме того можно сравнить средние месячные зп за 2012-2014 (до волнений) в месяц по оф. статистике:
в Норвегии — 3313$, Росии — 377$, Украине — 116$ и Индии —fediq
13.04.2016 10:53Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.
rosnord
13.04.2016 16:44Это очевидно, однако мы живем в мире, в социуме, и все-таки резонно посмотреть не только вертикально, но и горизонтально, тем более в комментариях.
kokorins
Свечки по-моему не репрезентативны, тем более с группировкой по годам. Гистограмма со смещением или график отношения к первому году выглядели бы более внятно.