У доски стоит менеджер и обосновывает фичу, показывая медианные значения. На задней парте в обнимочку, с попкорном, сидят аналитик с датасайентистом.
- А почему ты используешь здесь именно медиану? 
- Потому что она, в отличие от среднего, отбрасывает крайние значения. 
Учитель по математике замер примерно в этой позе.

Этот пост я решила написать, потому что у меня подгорело. Продакты и исследователи накрепко запомнили, что среднее усредняет 2 крайних значения (это когда Катя ростом 1 метр, Вася ростом 2 метра, и по средним меркам им шьют джинсы на 1.50) и действительно стали почти повсеместно использовать медиану.
Её используют просто по умолчанию, в любой ситуации.
Буквально вчера в одном уважаемом исследовании я прочитала про «медианные зарплаты айтишников». Ну и да, когда их спрашиваешь, что такое медиана, ребята отвечают про то, что она корректнее показывает обычную зарплату и втихую гуглят определение.
Когда это верно и что не так? Давайте я напомню определение и проиллюстрирую примерами.
Медиана — грубо говоря, это значение в середине числового ряда.
Если представить реальные данные, то медиана почти ничего нам не говорит о крайних значениях. И ничто не мешает медиане совпадать с минимальным или максимальным значением.
Например, утверждение «медианная зарплата разработчика мидла — 400 тыс» может на самом деле выглядеть так: 50, 50, 400, 400, 400 или так 400, 400, 400, 900, 900.
Или вообще вот так: 50, 50, 400, 900, 900.
Есть разница на практике? Какой будет обычная зарплата?
Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты.
Почему же уважаемые люди используют медиану?
Есть ситуация, в которой медиана действительно надёжнее: это когда данные близки к нормальному распределению: большинство значений собраны в центре графика в виде горба, и выбросов немного. В этом случае обычно среднее гораздо чувствительнее к выбросам, чем медиана.

Например, когда сырые данные опроса по зарплатам звучат вот так: 200, 390, 395, 400, 405, 410, 950.
Невооруженным глазом видно, что первое и последнее значение выбиваются, и если их не учитывать, получим зарплату в 400 тыс. А средним в нашем примере будет 450, или сколько угодно, если кому‑то повезло и он зарабатывает 3 миллиона в месяц.
Я Таня из Семейки Продактов (телеграм) У меня правда чуточку подгорела эта тема, и я очень надеюсь, что тут найдется кто‑то, кто поймет, о чем именно я говорю.
Но чаще всего распределение бывает нормальным на академических примерах, в той же теории вероятности с подбрасыванием кубика. То есть, когда результаты ни от чего не зависят и друг на друга не влияют.
А насколько часто такое бывает в жизни?

Ну то есть, вы можете думать, что у вас в даных обычный горб, а график на самом деле U‑образный график.
Что я хочу сказать? Использовать медиану, не показав или не понимая распределение данных — это манипуляшки. Расчет на то, что все мы плохо помним статистику, а научные термины настолько уважаем, что без достойного повода гуглить не будем.
Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. И что вы хотите проиллюстрировать, тоже надо учитывать. Там на задней парте, с попкорном уже сидят два профи, работа которых в этом и заключается, и если они говорят, что менеджеры загоняются — менеджеры загоняются.
Комментарии (35)
 - TryDotAtwo15.08.2025 17:43- Медиана показывает не саму зп, а границу, где 50% выборки меньше, а 50% больше. Поэтому в плане зарплат это хорошая метрика при любом распределении. Хз в чём бугурт в целом. - Дальше уже можно всякие моды в подвыборках указывать и прочее, но в целом медиана норм тема и если не знаешь о распределении  - Gutt15.08.2025 17:43- где 50% выборки меньше, а 50% больше. - Меньше или равны медиане, больше или равны медиане. 
  - Vsevo10d15.08.2025 17:43- Вот именно, обычно- то как раз мы берём не пять зарплат по отделу, а пять миллионов зарплат в стране, где 30% получают пенсию в 18 тысяч, основная масса где-то пыхтит за тысяч 40 - 100, и ещё в эту выборку попадёт пара десятков миллионеров и пара миллиардеров, и в среднем выйдет, что люди получают 340 тысяч в месяц. И я как научный сотрудник, который должен зарабатывать "200% от средней зп по региону" прекрасно знаю, как высчитывается эта цифра, чтобы и Путин с майскими указами был сыт, и ФОТы целы. - Так что медиана именно для зарплат рулит при любой более- менее показательной выборке.  - lear15.08.2025 17:43- Сейчас в РФ медиана 75к, средняя 90к. 
 Разница в 20% относительно большая, но не критичная.- Если взять 2021 год, то там 40к и 60к, что даёт разницу в 50%. 
 Т.е. прогресс в сторону выравнивания есть.- (Средняя-Медиана)/Медиана - PS. Зарплаты немного округлил, т.к. это комментарий, а не статья.  - QweLoremIpsum15.08.2025 17:43- Всегда было интересно а есть ли цифры по России но без Москвы? и было бы интересно сравнить их с Москвой  - lear15.08.2025 17:43- https://rosstat.gov.ru/labor_market_employment_salaries - Там есть и по субъектам, и по типам предприятий, и гпх. 
 
  - vanxant15.08.2025 17:43- Не мешайте научному работнику своим скучными цифрами. Ну хочет он 200% от медианы вместо средней — пожелаем ему успеха в его борьбе:) 
 
 
 
 - Vict77715.08.2025 17:43- Даже во всех представленных случаях медианное значение более показательно чем среднее. - А крайние значения (определенный процент в зависимости от цели) слева и справа обычно специально отбрасывается 
 - lolikandr15.08.2025 17:43- Вообще то медиану используют потому, что это более правдивый показатель при любом распределении. Если медианная зарплата - значит половина людей точно получает эту сумму, а то и больше. А средняя зарплата вообще непонятно что показывает - может 10% людей получают такую сумму, а может и 45%, никто не знает. 
 Конечно лучше бы приводили 90ый-процентиль, но и медиана - уже хорошо! - Andy_U15.08.2025 17:43- А средняя зарплата вообще непонятно что показывает - Нее. Понятно. Если ее умножить на количество сотрудников, то мы получим общую сумму, ушедшую на оплату труда в организации. Т.е. все от задачи зависит.  - venanen15.08.2025 17:43- Так получается телега впереди лошади, среднее - это метрика, для которой общая сумма уже известна и является входным параметром для расчета. Средняя ЗП в стране 100 тугриков - ни о чем не говорит, потому что распределение непонятно, а вот средняя 100 тугриков, а медианная - 10 говорит о сильном перекосе зарплат.  - Andy_U15.08.2025 17:43- это метрика, для которой общая сумма уже известна и является входным параметром для расчета. - Кому-то известна, кому-то - нет. 
 
 
 
 - Pusk115.08.2025 17:43- Вот прямо сегодня продакту рассказывал, что медиана для его кейса ни о чём не говорит и продукт на неё никак не влияет. Возили курьеры заказы и сами разбирались кто какой заказ повезёт. Решение за них стала принимать система. Заказов столько же, курьеров столько же, ставка такая же. Ни средняя ни мидиана не изменились и не должны были измениться. Другое дело, что раньше были курьеры, которые зарабатывали 7, а были кто зарабатывал 3. Но это уже другая история про отклонения и возможность найма ребят подешевле. 
 - nikolz15.08.2025 17:43- Медиана - робастная оценка. - Оценка, на которую не влияют выбросы, называется робастной (robust). 
 - lear15.08.2025 17:43- Что же надо использовать? А я не знаю, какие у вас данные, надо на распределение глянуть. - Ну тогда стоило привести примеры. 
 Когда медиана уместна, а когда другие более показательны.
 А так это больше похоже на наброс, а не на конструктив.- Кажется, что в этих примерах даже среднее скажет нам больше о том, как на самом деле выглядят зарплаты. - "Когда кажется, креститься надо", ну или хотя бы самому разобраться, прежде чем писать. 
 Что вам среднее показывает того, что не показывает медиана в ваших данных?
 Что вы хотели увидеть? Какая цель?
 - Anton_Menshov15.08.2025 17:43- .... и классический пример Квартета Энскомба : на данные действительно нужно сначала смотреть, а не только среднее\медиану\ и т. д. 
 - SebastianP15.08.2025 17:43- еще полезно динамику зп определять по "среднее геометрическое" : Предположим, например, что человек инвестирует 1000 долларов и получает годовую прибыль в размере +10%, −12%, +90%, −30% и +25%, в результате чего конечная сумма составляет 1609 долларов. Средний процентный рост — это среднее геометрическое годовых коэффициентов роста (1,10, 0,88, 1,90, 0,70, 1,25), а именно 1,0998, то есть среднегодовой рост составляет 9,98 %. Среднее арифметическое этих годовых доходов составляет 16,6 % годовых, что не является значимым средним показателем, поскольку темпы роста не складываются аддитивно. 
 - Earthsea15.08.2025 17:43- Есть еще мода, или модальное значение - самое часто встречающееся число. Например в ряду 25, 50, 50, 50, 100, 400, 500, 1000000, 2000000, 1000000000 это будет 50. В статистике зарплат это самый интересный показатель, но чтобы что-то значимое получилось, надо округлять, допустим до десятков тысяч рублей. 
 - iiwabor15.08.2025 17:43- Если честно, то ни средняя, ни медианная зарплата не имеет никакого практического смысла. Что реально имеет значение - это какая зарплата у тебя лично прямо сейчас)  - Habr468754415.08.2025 17:43- Ну так медианная это и показывает: если ткнуть в случайного человека, то у него окажется медианная. А вот средняя с меньшей вероятностью, хотя автору почему-то средняя больше "нравится " 
  - vanxant15.08.2025 17:43- Для предпринимателей средняя как раз имеет смысл. Допустим, вы прикидываете, а не открыть ли IT-подразделение рыл так на 100. Среднюю зарплату айтишников можно тупо умножить на 100 и получить примерный размер ФОТ (фонда оплаты труда). И там уже будет учтён и директор, и стайка студентов-джунов. С медианой вы так не сделаете. 
 
 - economist7515.08.2025 17:43- Медиана не должна применяться вместо или без Средней. 
- Средняя важнее, т.к. она применяется вместе с другими ключевыми техниками (ЦПТ, сигмы, квантильный анплиз) 
- Сравнивать две совокупности/выборки по средним можно, по медианам - почти что нельзя. 
- Средняя должна считаться по очищенным данным (выбросы - ошибки ввода убираем, выбросы - ЗП топов госкомпаний, протерев глаза, оставляем). В большинстве случаев в журналистике этого никто не делает. Ошибок все меньше, так что пункт самоликвидируется году так к 2030 (по зарплате в России). 
- Зарплата - лучшая тема для рассуждений обо всем, равнодушных нет. В РФ с некоторыми рук. госкомпаний, получающими 4 млн в день - создаётся идеальная иллюстрация важности Медианы. Именно из-за этих счастливчиков средняя в РФ 90, а медиана 75. И хотя их мало - получают они так много, что дают те самые 20% разницы. Которые порождают 80% народного гнева (правило Парето, но в данном случае шутка). 
 - Впрочем, ситуация сейчас меняется к лучшему, и это хорошо. Ещё некоторые недовольные забывают что 90 и 75 это до вычета налогов, а свою ЗП до удержаний они не знают. Там не только НДФЛ 13-15%, но и 20% людей с исполнительными листами, корпоративными ипотеками, распоряжениями по квартплате, начетами итд. Прочесть расчетный листок или 2-ндфл могут единицы процентов. 
 - oldmold15.08.2025 17:43- Ещё можно использовать "alpha-trimmed mean" - это такой микс среднего и медианы, который используется в обработке сейсмических данных. 
 - kravian15.08.2025 17:43- Горячо поддерживаю тезис автора о том, что полезно задуматься, какая метрика и для чего считается. Хочу дополнить аргументы, когда медиана хуже. - Уже было сказано, что а) медиана ближе к настоящему среднему, чем выборочное среднее, когда есть выбросы, (та самая робастность к выбросам), и б) при асимметричном распределении медиана ближе к основной массе наблюдений, чем среднее (все примеры про з/п). Это так, и отсюда же ясны недостатки медианы: а) когда выбросов мало, медиана менее точна, чем среднее. Если вы взяли 10 сотрудников из 1000, изучили их данные и хотите экстраполировать на всю 1000, то в отсутствие выбросов в выборке через среднее это делается точнее, чем через медиану. На самом деле, есть такой показатель, как эксцесс (который четвертый центральный момент), он как раз тесно связан с долей и величиной "очень больших" отклонений - так вот можно прямо найти для эксцесса порог, ниже которого лучше пользоваться средним, а выше - медианой, и часто в реальных данных будет предпочтительно среднее. Не говоря уже о подготовленной выборке, когда выбросы удалены. - Что касается б), то тут еще проще: да, среднее дальше от моды, чем медиана, но если хочется ближе к моде, то надо использовать саму моду :) В споре про з/п все аргументы в пользу медианы - это аргументы в пользу моды. "Медиана отражает типичное наблюдение" - нет, мода делает это еще лучше. - P.S. Этим я стараюсь не запретить использование медианы, а сбалансировать комментарии, показав аргументы против медианы - в пользу медианы аргументов достаточно. 
 
           
 




dyadyaSerezha
Интересно, а как это будет на обычном русском?)
Где там U? Не увидел.
А в целом, все верно.
vesper-bot
В примерах его и нет, возможно пропущен, правда и называется это "бимодальное распределение", а не "U-образный", хм. Там кстати с медианой всё вообще шоколадно :)
dyadyaSerezha
Не бимодальное, а биполярное, и не распределение, а расстройство. Всему вас учи)
vesper-bot
А это что такое, по-вашему? "Не выиграл, а проиграл, а так всё правильно"