Что делает перспективного ребенка из местной спортивной секции чемпионом мира по футболу, олимпийским призером или обладателем Кубка Стэнли?
Одни ответят талант. Без таланта далеко не уедешь. К пяти годам Тайгер Вудс появился в главном журнале про гольф и в нескольких телевизионных шоу, а Майкл Фелпс вышел в финал Олимпиады 2000 в пятнадцать ¹. Другие назовут упорный труд. И тоже будут правы.
Но что если есть и другая причина. Другой фильтр, о котором мы раньше не слышали. Или не хотели слышать. Что, если он не так мелодичен, не так романтичен и уж совсем не вписывается в наше представление об истинном успехе?
Relative Age Effect (или Эффект Относительного Возраста)
Какова вероятность родиться первого января? А десятого октября? А ... На самом деле, эта вероятность распределена достаточно равномерно в течение года. Однако при пристальном рассмотрении дней рождения профессиональных футболистов Европейских юношеских сборных, все оказывается далеко не столь прозрачно.
40% игроков родились в первые три месяца года, в последние три — только 12%. — Причина в тривиальном делении детей на команды согласно возрасту.
Первое, что делает спортивная школа, встретив ребёнка, — определяет его в команду согласно году рождения: команда 1997 г. р., 2005 г. р., 2010 г. р. и т. д. Таким образом, дети, родившиеся в один год, оказываются в прямой конкуренции друг с другом. За место в составе. За внимание тренера. За возможность представлять школу на соревнованиях.
Однако разница в несколько месяцев в столь юном возрасте, не просто существенна, она критична. Ребёнок, родившийся в феврале 2015, в среднем, более развит, чем тот, который родился в ноябре того же года. Речь не только о физическом развитии, но и о ментальном. Дополнительные девять месяцев опыта в детстве просто-напросто делают разницу. И тренеры, осознавая это или нет, принимают возраст за талант, физиологию и все остальные качества, которыми принято лелеять успешных спортсменов.
В результате, именно эти дети получают больше игрового времени, лучшие тренировки, лучшую среду для развития, и снежный ком преимуществ только растет, превращаясь из нескольких месяцев преимущества в качественный разрыв в навыках.
Сноска для любителей статистики — Почему наблюдаемый эффект не случаен?
Рассмотрим каждый день в качестве случайной величины равной кол-ву рождений в этот день. В таком случае, нам необходимо изучить различия между двумя подвыборками: первым (Янв-Мар) и последним (Окт-Дек) кварталами. Для этого проведем t-тест* на равенство средних и получим p-value много меньше критического (0.05) — наблюдаемая разница статистически значима.
* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения случайной величины, но эта предпосылка допустима в контексте рождений в день.
А может талант и правда зависит от месяца рождения?
Конечно, гороскопы и астрология могут поспорить с моей позицией, но, в данном случае, дата рождения совсем не сказывается на уровне таланта или усердия. И об этом свидетельствует, как минимум, два факта:
Распределение «популярных» месяцев рождения разное при разных системах отбора: делении по году; отборе на основе теста; ...
Сглаживание эффекта при взрослении
О втором поподробнее. В пользу существования феномена говорит его нивелирование со временем. При переходе от команды U19 к U21, доля родившихся в первые три месяца снижается на 5% (39% -> 34%).
Делаем еще один шаг в сторону полноценной сборной, и снова снижение. Да еще и доля родившихся в последние три месяца значительно подрастает. Сглаживание видно невооруженным глазом.
Заключительный тест. Спарсим даты рождения самых крутых футболистов. В качестве метрики крутости используем их трансферную стоимость. Voilà! Перед глазами еще более сглаженное распределение. Иными словами, колоссальный перекос дней рождения в молодежных командах попросту не связан с реальным талантом футболистов.
Бонус. Взгляните на месяцы рождения шести самых дорогостоящих футболистов прямо сейчас ²:
???????? Эрлинг Холанд — Июль
???????? Килиан Мбаппе — Декабрь
???????? Винисиус Джуниор — Июль
???????????????????????????? Фил Фоден — Май
???????????????????????????? Джуд Беллингем — Июнь
???????? Педри — Ноябрь
И что с этим можно сделать?
Существует несколько подходов к тому, чтобы, если уж не искоренить, то хотя бы сократить Эффект Относительного Возраста:
группировать детей в секции с меньшей гранулярностью: команда Янв 2015 - Мар 2015; команда Апр 2015 - Июл 2015; ...
использовать квоты на количество мест в команде по месяцам рождения или соблюдать необходимое максимальное значение среднего возраста внутри команды
в некоторых видах спорта — взвешивать очки участников согласно их относительному возрасту внутри года рождения
Однако, в контексте реальности важно то, что ни один из них, по большому счету, не используется в кое-либо существенном масштабе. И это пугает.
Финальное
На самом деле, проблема Относительного Возраста куда более глобальна, чем спорт. Она наблюдается и в образовании (за счет единой даты сдачи экзаменов), и в карьере, и во многих других областях, непосредственно связанных с конкуренцией ³.
Но, если вы что-то унесете из этой статьи, так точно то, что не стоит опускать руки, если ты родился в декабре. И, конечно, не нужно подгадывать зачатие ребенка, чтобы родить его в начале года. Найдутся и такие. Помните, что на каждую искаженную систему отбора найдется свой Мбаппе.
И помните, что провалы в дизайне систем, даже самых каждодневных, повсеместно вокруг нас. Сколько потенциальных Лебронов Джеймсов и Лео Месси мир упускает по этой причине? Может, стоит перестать быть слепыми к проблемам, и начать экспериментировать. Тестировать. Ошибаться. Но двигаться, двигаться в сторону лучшего мира.
Много увлекательной статистики и исследований в моей телеге: @halftimestat. И еще больше впереди. Наслаждайтесь!
P. S.: Автор статьи родился в январе. И даже это не помогло ему стать футболистом.
Комментарии (81)
Dekmabot
00.00.0000 00:00+13Помню на курсе педагогики про малышей нам рассказывали, в первые годы жизни ребёнка его органы, мышцы и области мозга развиваются последовательно с точностью до недель, на что влияет наличие внешних факторов, например если 3-4 месяц жизни ребёнка приходится на лето и малыш получает больше солнца и витамина D, то сильнее развиваются определённые направления. Тут же проводили параллели со знаками зодиака, что описанная в них специфика характера разных знаков как раз и обуславливается календарным месяцем, когда у ребёнка протекал тот этап развития, который влияет на эту черту характера.
Признаюсь, отношусь скептически к этой теории, так как знаки зодиака в разных широтах одинаковые, а климат разный.
Пс: теперь я знаю почему не стал футболистом, месяц не тот!
Holger108
00.00.0000 00:00+3Тут же проводили параллели со знаками зодиака, что описанная в них специфика характера разных знаков как раз и обуславливается календарным месяцем, когда у ребёнка протекал тот этап развития, который влияет на эту черту характера.
Это натягивание совы на глобус, в современной астрологии оперируют точным временем рождения. И там нет никаких рациональным объяснений. Там есть корреляция между их, астрологов, расчетами и событиями реальной жизни (как считают те, кто полагает астрологию работающей системой), но природа этой корреляции неизвестна.
Изменения в гороскопе клиента, которые произошли бы, родись он на 15 минут раньше или позже, перекрыли бы те изменения, которые попытались бы объяснить рационально климатическими факторами, обусловленными месяцем рождения.Думаю, рационально объяснить астрологию не получится, это стопроцентная эзотерика, но вот расчеты там алгоритмические и на 100% формализуемые. И проверить ее очень просто поэтому - написать программу для расчетов и проверить на прошлых событиях людей с точно известным временем рождения. Странно, что до сих пор этого не сделали как критики астрологии, так, тем более, и ее сторонники.
Areso
00.00.0000 00:00+1Автор, а чем объясняется аномальный выброс майских?
halftimestat Автор
00.00.0000 00:00Это одна из нераскрытых загадок, пока что
Что удалось выяснить, так это то, что "эффект Мая" выше в топовых сборных (в особенности, много таких спортсменов в Англии, Португалии, Испании, Франции) (отсюда и его "остатки" в распределений месяцев самых дорогих игроков)
Одно из предположений заключается в локальных особенностях отбора, или случайных эффектахavshkol
00.00.0000 00:00Возможно, тем, что первые месяцы жизни тельцов приходятся на тёплый и сухой период, из-за чего они более крепкие физически, меньше тренировок пропускали из-за болезни?
halftimestat Автор
00.00.0000 00:00В таком случае, стоило бы ожидать сопоставимого показателя и. апреле/июне, но это не так — выброс специфичен для Мая
alcanoid
00.00.0000 00:00+1Пик отмен авиа- и железнодорожных билетов приходится на пору после экзаменов, когда не сдавшие что-то иногородние студенты остаются на пересдачи и вынуждены переносить отъезд. Здесь, скорее всего, действует подобный фактор.
Май — последний месяц учёбы в школе. Если тебе исполняется семь в мае, то ты уже можешь к этому времени отучиться год в школе и заниматься спортом в школьной секции, а твой сосед, родившийся в июне, вряд ли будет допущен к учёбе с шести лет и пойдёт в школу на год позже. А год тренировок — это серьёзная фора.
Иными словами, майские могут попадать в спорт через школу в максимально раннем возрасте из возможного в рамках школы, и как раз по этому месяцу проходит отсечка.
NNikolay
00.00.0000 00:00Наверняка в каких-то случаях набор в разные группы по возрасту идет по принципу - сколько лет исполнилось на начало сезона. Я на знаю, там в мае играть зачинают?
Over-9000
00.00.0000 00:00Похоже, в хоккее такого пика нет. По крайней мере, в 1982-83 гг.
https://cdn.tribuna.com/fetch/?url=https%3A%2F%2Fsun9-25.userapi.com%2FmDmaWeLzciDHNPj0lcozQUSmHklcVoWJDv4w6Q%2FrD8VEYtmFj8.jpg
Извините, практически первый попавшийся источник.
mister_pibodi
00.00.0000 00:00+1Статья всего лишь повторяет то, что было давным давно написано толи у Малькольма Гладуэлла, то ли во Фрикономике.
halftimestat Автор
00.00.0000 00:00+2Все так, я этого и не скрывал. Ссылка на книгу есть в статье. Но мне интересно посмотреть на эту историю, как минимум с двух сторон:
1. Приложить знания к футбольным данным и убедиться в затухании эффекта при взрослении и отсутствии связи с реальными навыками
2. Книге 15 лет, этому эффекту еще больше. А изменений в системе отбора, по-прежнему, практически никаких
Kanut
00.00.0000 00:00Однако при пристальном рассмотрении дней рождения профессиональных футболистов Европейских юношеских сборных, все оказывается далеко не столь прозрачно.
Интересная теория. Есть только один нюанс: в той же Германии детей совсем не обязательно делят по годам рождения. Что в школе, что в спорте.
То есть даже в школу одного ребёнка могут взять в 6 лет, а другого только в 7. В зависимости от их развития.
В спорте это ещё более ярко выражено. И даже "официальные" возрастные группы(например для турниров) это разрешают.
halftimestat Автор
00.00.0000 00:00+1Спасибо за деталь. Да, интересно теперь простратифицировать эффект по странам, например. А с точки зрения Relative Age Effect, если такое зашумление на уровне отдельных стран существует, то наличие эффекта в среднем еще более пугающее...
Kanut
00.00.0000 00:00Или просто причина в чём-то другом. Например в том что в первые три месяца года рождается больше детей.
Или например есть какая-то связь между спортивными успехами и погодой в первые(какие-то конкретные) месяцы жизни.
Просто по хорошему есть корреляция и есть попытки её как-то объяснить. Но именно что попытки.
AlexTheCleaner
00.00.0000 00:00+1Кстати было бы интересно посмотреть на статистику южноамериканских игроков (юношеских сборных в том числе) по датам рождения. Такой же выброс в начале года или нет.
adeshere
00.00.0000 00:00+3Кстати было бы интересно посмотреть на статистику южноамериканских игроков (юношеских сборных в том числе) по датам рождения. Такой же выброс в начале года или нет.
Присоединяюсь к вопросу. Уважаемый автор, если у Вас технология "на мази", нарисуйте, пожалуйста, и эти распределения тоже? Единственное, как заметил thevlad, цифры все-таки надо разделить на число дней в месяце, или, еще лучше, на общее количество родившихся в этом месяце. Чтобы сравнивать вероятности, что гораздо правильнее методологически.
Вообще, было бы очень интересно сделать такой анализ для более широкого набора показателей (включая не только физическое развитие). В РФ даже есть научный журнал, в чью тематику статьи такого плана вполне бы вписались. Только вот не присылают ведь... Боятся обвинений в астрологии, видимо. Хотя наука должна не бояться проверять любые гипотезы.Главное, чтобы это делалось методически корректно (без тенденциозности в отборе данных и без ошибок в статистической обработке).
P.S. Можете рассматривать мое сообщение как намек - аккуратная работа такого плана в этом конкретном журнале точно будет поддержана ;-)
halftimestat Автор
00.00.0000 00:00Спасибо за комментарий. Очень ценный фидбэк!
статистику южноамериканских игроков — очень интересно изучить, но поскольку это скорее дополнение к статье, результаты будут только в телеграм канале, посященном проекту, оформлять их в отдельную статью не очень целесообразно
цифры все-таки надо разделить на число дней в месяце — уже ответил в той ветке, почему это не было сделано (коротко: навредит восприятию, без особой фактической необходимости), теоретическое ожидаемое значение исходя из количества дней и равномерного распределения, к слову, представлено темно-синим на графиках
научный журнал — большое спасибо, рассмотрю опцию. Развитие исследования последует точно. Опять же, детали точно будут в телеграме и, надеюсь, в новых статьях
ss-nopol
00.00.0000 00:00+3Лучше всего второгодникам!
А также тем кто идёт в школу позже на год.
(нет)
maeris
00.00.0000 00:00Я знаю только о тех, кто пошёл в школу раньше на год, и имеющаяся на руках статистика не в их пользу.
VFaland
00.00.0000 00:00+3Интересно б посмотреть на оф статистику, из немногих знакомых кто начал/закончил школу на год раньше все весьма успешны/счастливы.
F1eex
00.00.0000 00:00Вспоминая школьные годы не замечаю чтобы "прошлогодние" - рожденные в ноябре-декабре преимущественно были в чем-то лучше чем даже самые младшие рожденные в сентябре.
adeshere
00.00.0000 00:00+2Я знаю только о тех, кто пошёл в школу раньше на год, и имеющаяся на руках статистика не в их пользу.
Для статистики: ну вот я ноябрьский, и пошел в школу в 6 лет. С одной стороны, на уроках физкультуры это было заметно. С другой - чтобы на равных играть в футбол с одноклассниками, приходилось целенаправленно работать над финтами и техникой (спасибо соседу по дому, который в молодости играл за Знамя Труда из Орехово-Зуево, а после переезда в наш город скучал по футболу и при любом удобном случае выходил во двор, чтобы нас чему-нибудь научить ;-) Еще меня третья четверть спасала: папа был лыжником, поставил мне технику, а на лыжне даже ее зачатки дают тотальное преимущество над тем, кто "идет пешком". Так что именно на физкультуре проблемы возраста как-то решались. Чего нельзя сказать про другие занятия - например, учительница по начальной школе
отказалась брать меня в третий класс...
Пришлось сразу после второго идти в четвертый. Но это уже совсем другая история...
Gor40
00.00.0000 00:00Меня физрук от футбола отвадил. За 2 года поставил мне 3 фингала. Метко попадал мячом мне в очки.
Gor40
00.00.0000 00:00+1А также тем кто идёт в школу позже на год.
В нормальную школу. У нас была школа для детей с ЗПР. По причине бедности города, школу закрыли, детей раскидали по всем остальным школам. Так в 9 классе пришлось драться с тремя семиклассниками прямо во время урока. Двое мои одногодки, один старше меня на год. Потом собака с милицией приходила.
thevlad
00.00.0000 00:00+4Такие данные надо всегда нормализовать, в данном случаи на количество родившихся в этом месяце. Так как нам нужна условная вероятность P(стал_футболистом | если родился в месяце M). То что количество родившихся в каждом месяце одинаково и равномерно распределено, совершенно не очевидно.
halftimestat Автор
00.00.0000 00:00Согласен про условную вероятность в этом контексте. Но нормализация навредила бы визуальной составляющей. Тем не менее, с точки зрения фактической точности, предпосылки не нарушены: про околоравномерное распределение дней рождения информации достаточно много в открытом доступе
thevlad
00.00.0000 00:00Тут еще интересный вопрос, это доверительный интервал, я тупо воткнул в пуассоновское распределение 40, и у меня получилась дисперсия ~6. То есть три сигмы это будет +/- 18, куда укладываются практически все данные.
adeshere
00.00.0000 00:00+/- 18, куда укладываются практически все данные.
В чем и засада. Надо накапливать статистику, а с однородными данными объективно проблемы... :-(
thevlad
00.00.0000 00:00+1Это не засада, а не возможность отбросить более чем логичную нуль-гипотезу, что данные получились чисто случайно, и никакой зависимости от месяца рождения на самом деле просто нет. Судя по комментариям(где начали выстраивать различные правдоподобные теории "для этой закономерности") это вообще типичный пример, как можно обманывать не подготовленных людей при помощи статистики.
adeshere
00.00.0000 00:00+1Это не засада, а не возможность отбросить более чем логичную нуль-гипотезу, что данные получились чисто случайно
Ну а вот у меня нет уверенности, что данные получились чисто случайно. Т.к. некая логика в рассуждениях псевдоастрологов все-таки есть. Что на детей, родившихся в определенных сходных условиях, должно как-то влиять: произошло ли это весной-летом, когда кругом витамины и птички поют, или же в осеннем слякотном сумраке, когда из избы не выйдешь. Как и то, растут ли они в окружении чуть более старших сверстников, либо среди чуть более младших. С рациональной точки зрения эффекты такого рода вполне возможны, хотя их величина неизвестна (т.е. может быть и пренебрежимо ничтожной).
Поэтому у меня нет оснований априори отвергать эту гипотезу, как противоречащую общепризнанным научным фактам. Как, впрочем, нет и никаких оснований априори опровергать альтернативную ей нулевую гипотезу.
Поэтому я и хочу проверить обе эти гипотезы фактами и выбрать более подходящую на основе анализа данных, а не просто из общих соображений. А вот с адекватными данными-то как раз и проблема....
Так что для меня это именно, что подстава :-(
P.S. Уточню, что для меня
псевдоастрологи
- это вовсе не те, которые про "натальины карты", или как составить строго индивидуальный гороскоп с кучей мелких подробностей (зависящих от даты рождения с точностью до секунды), о котором 90% читающих (вне зависимости от даты рождения) скажут: "да это же в точности про меня!". Эти-то как раз профессионалы своего дела, разбирающиеся в психологии, и в построении текстов, которые умело окучивают желающих отдать свои деньги за довольно специфический
способ развлечься
Мне все-таки сложно представить, что большинство клиентов астрологов действительно верят вот в это вот все; я надеюсь, что для многих из них это скорее форма досуга, чем руководство к практической деятельности
Но точно так же, как мы считаем этих "настоящих" астрологов псевдоучеными за то, что они пытаются "косить" под ученых, используя соответствующую терминологию и т.д., так вот, точно так же мы можем назвать "псевдоастрологами" тех, кто пытается применить научный подход для оценки правдоподобия тех гипотез, которые были впервые сформулированы астрологами. Почему нет?
UPD:
Судя по комментариям(где начали выстраивать различные правдоподобные теории "для этой закономерности")
Мне кажется, Вы чересчур критичны. Вообще-то в науке это совершенно нормальный способ рассуждений: заметить какой-то эффект (не исключено, что случайный незначимый артефакт), затем сформулировать правдоподобную гипотезу, которая, потенциально может его объяснить, а затем аккуратно проверить эту гипотезу путем анализа известных эмпирических фактов или целенаправленных экспериментов, когда есть такая возможность. Так что я бы ни в коем случае не стал критиковать тех, кто высказывает такие гипотезы, за сам факт высказывания. Гораздо полезнее выискивать слабые места и противоречия внутри этих гипотез, чтобы не тратить потом время на проверку заведомо несостоятельных версий. Но если таких противоречий не видно - то проверять все-таки надо путем сопоставления с эмпирическим опытом, систематизированным, в том числе, и в виде статистически значимых закономерностей.
это вообще типичный пример, как можно обманывать не подготовленных людей при помощи статистики
Ну кто ж будет спорить, что неподготовленных людей легко обмануть. Особенно, если привлечь к делу статистику. Но я бы все-таки постарался четко различить две ситуации: 1) когда такой обман совершается умышленно (автор специально подогнал данные и/или выбрал из множества вариантов только те графики, которые подходят под нужный ответ), и 2) когда недостатки анализа вытекают из недостаточной тщательности исследования, когда автор пытался, но не смог правильно учесть все необходимые факты. Или просто не имеет достаточно данных, чтобы получить надежный ответ.
Первое, разумеется, абсолютно недопустимо. А вот второй случай - это неизбежные издержки научного метода, так как никто и никогда не может сделать все идеально. В науке исправление таких погрешностей и недостатков анализа - это нормальный рабочий процесс. Я бы даже сказал, один из стандартных путей поиска истины...
thevlad
00.00.0000 00:00+2В науке обычно принято, что доказательство приводит тот кто делает утверждение. В данном случаи, надо доказать, что данные не появились чисто случайно. Это не доказано. А то что люди могут видеть закономерности там где их в принципе не может быть. Например сгенерированных графиках случайного блуждания, я такое видел и не раз.
В данном случаи мне вполне достаточно оценить доверительный интервал, при условии что данные случайны. Чтобы понять что любые гипотезы построенные из закономерности в этих данных, мягко говоря слабо чем обоснованны.
Но я бы все-таки постарался четко различить две ситуации: 1) когда такой обман совершается умышленно (автор специально подогнал данные и/или выбрал из множества вариантов только те графики, которые подходят под нужный ответ), и 2) когда недостатки анализа вытекают из недостаточной аккуратности исследователя, который хотел, но не смог правильно учесть все необходимые факты.
Второе вытекает из-за отсутствия базового понимания, как должным образом исследовать статистические феномены. Вы ведь не доверяете строить ядерные реакторы сантехникам? Или людей лечить? Здесь тоже самое.
adeshere
00.00.0000 00:00+2В науке обычно принято, что доказательство приводит тот кто делает утверждение
Да, именно так. Если бы автор отправил свою статью в Nature, ее бы там развернули именно по этой причине. Однако современная наука - это коллективный процесс. Поэтому я считаю допустимым, когда кто-то заметил неожиданный артефакт и публикует его просто для обсуждения. То есть без аккуратного доказательства, а в надежде, что кто-то из прочитавших статью заинтересуется и продолжит расследование. Попросту говоря, такой возглас: "Смотрите-ка...".
Ну и вторая цель публикаций такого рода - это собрать советы и критику, чтобы продолжить работу над темой на новом уровне. Где еще можно получить подобный фидбек, как не на Хабре?
В общем, мне кажется, что приведенные в статье графики вполне "тянут" на такой возглас, и, тем самым, их публикация все же оправданна, несмотря на отсутствие доказательств, "что данные не появились чисто случайно".
Конечно, есть риск, что кто-то из читателей не станет вникать глубоко, а просто примет все сказанное за установленный факт. Ну так обсуждение в комментариях для того и предназначено, чтобы оценки стали более взвешенными. А если у автора будет возможность реализовать высказанные в ходе обсуждения просьбы и предложения, то и вовсе может получиться достаточно интересно.
thevlad
00.00.0000 00:00В общем, мне кажется, что приведенные в статье графики вполне "тянут" на такой возглас, и, тем самым, их публикация все же оправданна, несмотря на отсутствие доказательств, "что данные не появились чисто случайно".
Было бы гораздо лучше, если автор в конце честно написал, что наблюдаемые эффекты на границе статистической значимости. Тогда те бы кто ее прочитал, хоть о чём-то задумались. А так, причина почему люди верят во всякую псевдонаучную ерунду(мягко говоря), как раз часто лежит в неспособности оценить вероятность получения какого-то эффекта "чисто случайно". А подобные "исследования", не показывая как надо делать правильно, лишь подливают масло в подобный образ мышления.
halftimestat Автор
00.00.0000 00:00+1Расстраивает, что статья хоть для кого-то оказалась побудителем к "псевдонаучной ерунде". Цель статьи ровно в противоположном — показать и рассказать популярным языком о реальном статистическом феномене (подтвердив фактами) и, как раз наоборот, разбудить в читателе интерес к научному подходу к проблеме и дискуссии.
thevlad
00.00.0000 00:00Неужели вы не понимаете, почему в научных статьях приводят доверительные интервалы и p-value? Потому что базовая гипотеза - что подобные "распределения" данных, могли возникнуть чисто случайно.
halftimestat Автор
00.00.0000 00:00Как точно подмечено выше:
Если бы автор отправил свою статью в Nature, ее бы там развернули именно по этой причине
Именно поэтому статья не в Nature, а на хабре — и это не пренебрежение читателем хабра, а наоборот — доверие его критическому мышлению и верности научному методу на пути к новым итерациям исследования.
Проблема недостатка данных давно и глубоко известна. Конечно, если бы в молодёжные сборные отбирали по тысяче игроков в год, проблем бы не было, но это не так (и не нужно, чтобы было так, наверное). Поэтому во всех подобного рода исследованиях, не всегда имея роскошь собрать побольше данных, приходится — в рамках адекватных заданных предпосылок — выкручиваться, собирать критику и продолжать искать истину.
Автор статьи не утверждает, что каждое его слово высечено в мраморе. Он хочет рассказать и побудить интерес, а не истерию, и при этом отвечает за математическую адекватность выбранных методов. В этом, по мне, и заключается научный поиск истины.
thevlad
00.00.0000 00:00Если вам интересен "поиск научной истины". То правильный алгоритм таков - мы собрали данные, и получили некоторые результаты. Приводим такие-то доверительные интервалы основанные на гипотезе что подобное распределение данных могло возникнуть чисто случайно. Исходя из них возможно предположить, что какой-то "сигнал" на границе шума возможно имеет место быть, но утверждать мы ничего не можем. Необходимо провести дополнительные исследования, к примеру, проследить подобную корреляцию еще на 3-4 популярных видах спорта. Если распределение сохранится, то это даёт нам какую-то уверенность, что эффект действительно имеет место быть.
Автор статьи не утверждает, что каждое его слово высечено в мраморе. Он хочет рассказать и побудить интерес, а не истерию, и при этом отвечает за математическую адекватность выбранных методов. В этом, по мне, и заключается научный поиск истины.
Поиск научной истины заключается, в поиске достоверных и фальсифицируемых знаний. А вот таких "исследователей гомеопатии" как раз выше крыши.
halftimestat Автор
00.00.0000 00:00Просто, помимо того, что уже сказано в ветке выше (что важно), я еще и не согласен с вашими статистическими методами.
Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году (соответствующие доли даже вынесены в легенду графика).
Так вот, если рассматривать каждый день в качестве случайной величины равной кол-ву рождений в этот день, то достаточно посчитать статистики этой сл величины в первой выборке (Янв-Мар) и последней (Окт-Дек). И провести хотя бы t-тест* на равенство средних. И здесь вы и поймете, почему неправы. Потому что p-value там на уровне много ниже 0.05. Скриншот с данными для теста прилагается.
* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день
thevlad
00.00.0000 00:00Не очень понял постановку эксперимента. Количество рождений топовых спортсменов в каждый день из первых трех месяцев и последних трех? У вас ведь вроде только месяцы на картинках были приведены.
PS: если бы подобные выкладки были в статье, то у меня бы даже вопросов не возникло.
thevlad
00.00.0000 00:00Кстати в статье в википедии по relative age effect, приведены данные, которые действительно хорошо выбрасывает за доверительные интервалы. Так что да, можно сказать что эффект реально имеет место быть. Мои возражению имеют, чисто методологический смысл. Чтобы делать исследования как это должно, всегда необходимо исходить из гипотезы что данные могли быть получены случайно.
halftimestat Автор
00.00.0000 00:00+1только месяцы на картинках были приведены
Опять же, вопрос трейдоффа между скрупулезным подтверждением каждого факта в тексте и "читаемостью" статьи. Именно поэтому в статье есть акцент на сравнении рождаемости в первые три месяца года и последние (их можно рассматривать как две выборки случайной величины — количества рождений в день).
Комментарий учту — может быть, опубликую версию для желающих покопаться в материале в телеграм-канале проекта.
необходимо исходить из гипотезы что данные могли быть получены случайно
Абсолютно согласен. Расчеты, опровергающие случайность, приведены выше. Только вот на википедию стоит ссылаться с большой осторожностью. Спасибо за Вашу бдительность.
MagisterAlexandr
00.00.0000 00:00+1Но нормализация навредила бы визуальной составляющей.
А отсутствие нормализации делает визуальную составляющую бессмысленной.
halftimestat Автор
00.00.0000 00:00Не согласен. Теоретическое матожидание количества дней рождения (исходя из предпосылки о равномерности по дням и пропорциональности количеству дней в месяце) представлено на графиках (синим) для понимания "чего стоило бы ожидать". И здесь самый важный вопрос: проходят ли данные в исследовании goodness-of-fit тест (использовал тест Колмогорова-Смирнова) с равномерным. Ответ: не проходят.
mikelavr
00.00.0000 00:00+5Не про спорт, но близко. Дочь пошла в школу в 6 лет (так сложилось). Первые годы была везде отстающей, но очень хотела догнать одноклассников. К средней школе догнала, школу закончила с золотой медалью, и колледж тоже с медалью.
Хотя генетику никто не отменял, но многое зависит от психологии. А во взрослом возрасте - от того, что происходит с человеком, когда он "падает" (что происходит примерно всегда). Сумеет "подняться", проанализировать произошедшее, и продолжить - или нет...halftimestat Автор
00.00.0000 00:00+3Согласен. Психология очень многое определяет здесь. Но на каждый положительный пример найдется и пример ученика, который — демотивированный — опустит руки. Matthew Effect — это примерно об этом.
P. S.: Автор статьи тоже пошел в шесть и тоже приходилось догонять. Не сказать, плохо это или хорошо, но одно очевидно: это влияетadeshere
00.00.0000 00:00Автор статьи тоже пошел в шесть и тоже приходилось догонять. Не сказать, плохо это или хорошо, но одно очевидно: это влияет
Именно! Поскольку я ноябрьский, родители очень хотели дать мне дополнительный год для поступления в ВУЗ. И целенаправленно готовили, чтобы отдать в школу в 6 лет. Не помню точно, когда меня научили читать и считать до 100, но это было задолго до школы. А поскольку на полках в доме стояли А.Брэм, Жюль Верн, Библиотека современной фантастики и т.д., читать было что. Хотя началось все с природоведения и астрономии, так что во втором классе я уже делал в школе доклад "про гравитацию".
Конечно, какой-то импульс мне бы придали при любой дате рождения. Но разные месяцы явно накладывают свой отпечаток.
Gor40
00.00.0000 00:00когда меня научили читать и считать до 100, но это было задолго до школы.
Пришёл в школу умея хорошо читать. Учительница однажды заставила читать вслух. После теста на скорость чтения, так как некоторые личности заорали что я соврал про количество прочтённого. Читать вслух и на скорость оказалось очень неудобно.
DazaiIsoki
00.00.0000 00:00Интересная информация. Спасибо за статью. Надо высчитать когда будет ребенок :)
kasyachitche
00.00.0000 00:00+5На самом деле, эта вероятность распределена достаточно равномерно в течение года.
С чего бы? У вас есть аргументы? У меня есть контраргумент по ссылке. Там же есть график, где видны вполне себе установившиеся колебания в течение года. На этих данных я построил ящики с усами, можно посмотреть и понять, что распределение рождений по месяцам в течение года ни разу не равномерно. Явно видно что в первую половину года дети рождаются чаще, чем во вторую. Не кажется ли вам, что этот график похож на те, что вы приводите?
upd. Вот по тем же данным построена своего рода цветная диаграмма.
halftimestat Автор
00.00.0000 00:00В контексте исследования Европейских сборных целесообразно посмотреть на статистику по всей Европе: один из множества примеров. Можете на свой вкус goodness-of-fit тест провести на соответствие равномерному.
Не исключаю, при этом, что при той или иной фильтрации данных (в рамках отдельной страны, или региона, или возрастной когорты, или ...) отклонения от идеально равномерного могут быть, и это нормально. Ненормально то, насколько аномально распределение сборных (опять же, тест Колмогорова-Смирного показывает различие в распределениях между данными в исследовании и рождаемостью).event1
00.00.0000 00:00Вот данные евростата за 2018. Февраль от июля (крайние значения) отличаются на 1/5 примерно (370 против 450). На вашем графике этого не видно. Что на самом деле даже подкрепляет ваш аргумент, но тем не менее график лучше рисовать по корректным данным.
kasyachitche
00.00.0000 00:00+1Спасибо за ссылку. С сайта можно выгрузить все данные в табличном виде и построить вот такой график. На равномерное распределение похоже не очень, но и на распределение футболистов по возрасту тоже не похоже. Нужен анализ.
kasyachitche
00.00.0000 00:00Не могу понять при чем тут данные по вашей ссылке. Может я не туда смотрю, но это количество рождений по годам, а не по месяцам.
тест Колмогорова-Смирного показывает различие в распределениях между данными в исследовании и рождаемостью
Меня смущает тот факт, что исходное распределение рождаемости по месяцам у вас подозрительно ровное, так что если это распределение не соответствует действительности, то и тесты проводить смысла нет.
kasyachitche
00.00.0000 00:00Я понял свою ошибку. Никаких претензий к равномерности распределения больше не имею))
DeltaKilo
00.00.0000 00:00+1Кому интересно, Инфа по очкам набранным игроками НХЛ по месяцам их рождения за всю историю наблюдений: https://www.quanthockey.com/nhl/birth-month-totals/nhl-players-career-stats.html
Там же можно посмотреть по отдельным сезонам, сейчас, например, доминирует Май.
Segneto
00.00.0000 00:00Подобные выводы делал еще когда учился в школе. Сам рождён в феврале 85, и в школу пошел в 92 году, то есть 8 лет исполнилось через полгода обучения, но были одноклассники у которых даты рождения октябрь-ноябрь 84 и у них чаще всего получались бОльшие успехи и в спорте, и в обучении. То есть эти 5 месяцев разницы в возрасте, особенно в начальной школе, дают хорошую фору по развитию.
Vsevo10d
00.00.0000 00:00Ну так великие футболисты вырастают не на деревьях, а из юных футболистов, продемонстрировавших свою "+ несколько месяцев" мощь в школьном кружке. Даже странно, что кривые сглаживаются.
Насчет майских - наверняка то же самое примерно. Допустим: учебный год заканчивается к июню; в секцию клюкошайб и ногомячей набирают в условные 12 лет. Приходит такой ребенок майский в секцию - запишите меня! Апрельских еще брали, а ему уже говорят - месяц остался, не будем тебя учить, приходи на будущий год. Кто в новом наборе будет сильным и способным акселератом? Эффекта Матфея даже на сложных интеллектуальных работах не избегают, когда выбранного "способного" сотрудника босс начинает тащить и дальше. Чего уж там до физруков с квадратно-гнездовым мышлением, кто сильнее - того и лепим местным чемпионом (привет Штатам с их культом универского бейсбола, на который чуть ли не в Плюще учебные квоты).
Было бы интересно посмотреть, сохраняется ли такая статистика для стран, где традиционно другие календарные планы учебы.
thevlad
00.00.0000 00:00Только все эффекты в данном "исследовании", ниже границы стат значимости или около того. Поэтому такое "исследование" ни в одном уважающем себя научном журнале никогда не опубликуют. Типичный пример того, как дурить голову людям, не подготовленным в области статистики.
Пуассоновское распределение для интенсивности(среднего) 40, даёт средне квадратичное отклонение ~6, то есть три сигмы(p-value 0.997) это будет +/- 18, доверительный интервал если нуль-гипотеза(о случайности полученных данных) верна дает [22-58]. Это помимо того что еще может быть зависимость от количества родившихся в разные месяцы.
gchebanov
00.00.0000 00:00+1Лучше конечно без дисперсии, сразу по распределению считать, тут, кстати, совпадает, но в социальных исследованиях принято p-value 0.05, и оно более-менее (по модулю разброса рождаемости) соблюдается [27-53].
Я бы сказал что тут есть повод не искать причины и вводить новые принципы формированию групп, а для начала проверить больше статистики, для этого значимости вполне хватает.thevlad
00.00.0000 00:00Это все на уровне стат значимости, и даже если нуль гипотеза отвергается, не понятно что это доказывает. В данном случаи, у нас есть некоторая интенсивность события, которую мы принимаем не зависящей от времени года(месяца), это наша нуль гипотеза. Проблема в том, что оценка интенсивности у нас тоже точечная, по честному она тоже должна давать вклад в дисперсию. Вторая проблема это не нормализованность данных по рождаемости. Третья проблема, даже если мы отбрасываем нуль гипотезу, как видно по данным(исходя из доверительного интервала), "сила" эффекта, то есть смещения интенсивности минимальна.
PS: и p-value 0.05 это для единичного эксперимента, если брать повторяющиеся, как в статье, то там будет другое значение
PSS: вообще я хотел просто обратить внимание, что не смотря на красивые картинки, наблюдаемый эффект на границе стат значимости, и делать из этого какие-то глубокие выводы, по меньшей мере преждевременно.
halftimestat Автор
00.00.0000 00:00Насчет значимости результатов повторю тезис из другой ветки. Вы зачем-то используете свои предпосылки и приписываете их к выводам в исследовании. Принципиальная история в исследовании — сравнение первых трех и последних трех месяцев в году(соответствующие доли даже вынесены в легенду графика).
Так вот, если рассматривать каждый день в качестве случайной величины равной кол-ву рождений в этот день, то достаточно посчитать статистики этой сл величины в первой выборке (Янв-Мар) и последней (Окт-Дек). И провести хотя бы t-тест* на равенство средних. И здесь вы и поймете, почему неправы. Потому что p-value там на уровне много ниже 0.05. Скриншот с данными для теста прилагается.
* — с t-тестом (который, к слову, и был разработан для тестов на малых данных) вообще нужно быть очень осторожным, поскольку он предполагает нормальность распределения сл величины, но эта предпосылка допустима в контексте рождений/день
thevlad
00.00.0000 00:00Теперь постановка эксперимента и методология похожа на адекватную.
Только напомню, что в изначальной статье были распределение средних по месяцам, а не по дням(что дает совершенно другую оценку дисперсии), и вообще отсутствовали какие-либо доверительные интервалы и p-value.
PS: и я это все пишу, не потому что хочу докопаться, а рассматриваю статью именно с научной точки зрения. Да, тут вы взяли эффект который скорее всего имел место быть. Но в общем случаи, представьте что вам принесли статистическое исследование. С каких позиций вы будете оценивать его достоверность? Минимум, что его результаты хотя бы не получены чисто случайно. Без адекватной оценки доверительного интервала и p-value этого сказать не возможно. А примеров "наукообразной гомеопатии", когда результаты всяких "фуфломицинов" полученные чисто случайно или путем долгого насилования данных, выдают за достоверный факт на самом деле полно.
MagisterAlexandr
00.00.0000 00:00+3У нас в секции борьбы была просто детская группа, в которой и 8-летние были, и 13-летние. В соревнованиях распределяли по весу, а не по возрасту.
А в школе как раз лучше учиться среди старших. Это как бы поднимает планку, на которую ориентируешься, и потом среди сверстников чувствуешь себя ваще крутым.
adeshere
00.00.0000 00:00+1У нас в секции борьбы была просто детская группа, в которой и 8-летние были, и 13-летние. В соревнованиях распределяли по весу, а не по возрасту.
Кстати, да! Интересно, а среди "весовых" видов спорта подобные "месячные" закономерности есть?
Albert2009Zi
00.00.0000 00:00+1В Германии по весу и возрасту, НО в группах по два года. Например, сейчас Jugend C - это ребята 2011 - 2012 годов и т.д.
В командных видах может оно и работает, но в борьбе сомневаюсь. Если ты "мешок", то хоть осенний, хоть весенний, всё равно будешь проигрывать.
ALenaH
00.00.0000 00:00+4Родилась в декабре, была самая младшая в школе, закончила ее в 16 лет со вторым аттестатом по школе (серебро), потом красный диплом в первом универе и почти красный во втором. Эх, а если бы в январе??? Всё что жила - всё зря
involute
00.00.0000 00:00+1Вам теперь можно продавать календари зачатия для разных видов спорта с инструкцией по развитию карьеры))
thevlad
00.00.0000 00:00Календарики слишком дешево и одноразово, нужно продавать магическую жидкость содержащую молекулы "успешных спортсменов", чтобы еще усилить эффект. Хотя стойте...
vassabi
00.00.0000 00:00всегда было забавно читать - как много статей с "учителя\тренеры\прочие люди (или система) отбирают детей предвзято, айяйяй что же делать что же делать" и т.д.
или вкратце - про социально обусловленную разницу
И почти нет статей с "дети, которые внутриутробно развивались в разные месяцы - развиваются после рождения тоже по-разному"
т.е. про биологически обусловленную разницу.
Что-то мне кажется, что мало шансов, что такой биологической разницы нет. А отсутствие таких статей происходит потому что "это неинтересно" ...
PeterPK
00.00.0000 00:00Увлекаюсь настольным теннисом.
Тренерам в данном виде спорта вышеописанный эффект хорошо знаком.
Даты рождения нынешних трех лидеров юношеской сборной России:
Гребнев Максим Родился: 9 января
Кацман Лев Родился: 31 марта
Сидоренко Владимир Родился: 7 апреляКомментарий тренера:
Детям родившимся в конце года трудно конкурировать с одногодками. Очень важно для карьеры заскочить в "паровоз сборных" - мини-кадетская сборная, кадетская, юношеская. Сборы, финансирование, турниры, лучшие тренеры - если не заскочил в этот паровоз, то потом догнать уже очень сложно.
А в мини-кадетскую сборную легче заскочить родившимся в начале года, в этом возрасте разница в пол года год еще играет заметную роль. Заскочил в мини-кадетскую сборную - дальше уже тащат в следующие.P.S. Пара Кацман-Гребнев стали чемпионами Европы в паре по взрослым - впервые в истории СССР-России.
MAXH0
Класс! Как практикующий учитель скажу, что так оно и есть. Особенно это заметно на доп. образовании с разновозрастными группами, но в рамках одного класса статистика тоже наглядно видна. Зачастую лидеры класса просто чуть старше и взрослее.
halftimestat Автор
А есть какие-либо подвижки в сторону устранения или, для начала, сглаживания эффекта на локальном уровне?
P. S.: очень ценно услышать комментарий от человека, сталкивающегося с феноменом на практике
MAXH0
Вам по ФГОСам ответить или из практики.
Так сказать: "В условиях перехода системы общего образования на федеральные государственные образовательные стандарты (далее – ФГОС) эффективным механизмом обеспечения достижения каждым обучающимся планируемых результатов освоения основных образовательных программ становится индивидуализация обучения. В современной педагогической практике представлено множество подходов к пониманию этого понятия." :)))
Из практики то все еще проще. Информатика в школе - это не спорт высоких достижений. Она для всех. Информатика в кружках - уже более специализирована. Поэтому надо пробуждать интерес к предмету и переводить на кружки (бесплатные). Точно так же как раньше каждый учитель физкультуры в школе искал потенциальных спортсменов. А дальше либо участие в конкурсах (20%) либо просто посещение кружка по фану (80%)...
Если вдруг введут строгий KPI по эффективности участия в конкурсах ситуация, как ни странно, может ухудшиться.
vassabi
надо делать на старте два чемпионата - для летних и для зимних.
и тогда будет два набора спорстменов - в одном преимущество будет у январско-мартовских, а во втором - у июльско-сентябрьских.
можете сами оценить "простоту" решения :)
MAXH0
По программированию это легко, но по футболу трудно.
Хотя календарь олимпиад и школьных и вузовских привязан к расписанию каникул. Обычно: Осень - отборочные на регион; Зима - регион; Весна - финалы. А летом летние смены - хакатоны с полным погружением для финалистов. Тоже полная сезонность наблюдается.