Распределение Гаусса на графике — это колоколообразная кривая. Она достигает своего пика в среднем значении и убывает по обе стороны от него. Социологи его применяют, когда изучают мнение, а статистики — средние доходы, рост людей и то, кто какую окрошку предпочитает.

Распределение удобное, математически выверенное. Показывает, что типичные события происходят часто, а редкие — редко. В начале двадцатого века выяснилось, что для некоторых случаев оно не подходит, более того — может выдать ложные результаты.

Например, оно не подходит для промышленного пивоварения. К такому выводу однажды пришёл учёный (и экспериментальный пивовар компании Гиннесс) Уильям Госсет. Он столкнулся с проблемой: как подойти к оценке качества сырья и продукта, если данных для анализа мало, и в итоге вывел так называемое t-распределение. У него, в отличие от распределения Гаусса, более низкий «горб» и толстые «хвосты» — края, отвечающие за маловероятные события. За счёт этих хвостов, а также благодаря своей возможности меняться, притворяясь гауссовым, t-распределение незаметно, но прочно вошло в нашу жизнь.

Правда, под именем «распределение Стьюдента».

image
Нормальное распределение (z) и два варианта распределения Стьюдента

Уильям Сили Госсет родился в 1876 году в Кентербери, в семье английского полковника. Юноша хотел пойти по стопам отца и стать офицером, однако не смог: помешало плохое зрение. Поэтому он поступил в Винчестерский колледж, а затем в Оксфорд, где изучал математику и химию. Завершив обучение, он отправился туда, где были очень нужны молодые учёные-химики с математическим складом ума.

На пивоварню.

image
За 60 лет до Госсета

Варка пива — не самый простой процесс, но и не волшебство. Многое зависит от ингредиентов, ячменя и хмеля, которые в свою очередь зависят от условий выращивания. А пиво любят за постоянство вкуса. Поэтому здесь особенно нужен и важен контроль.

Обычно контролем занимались сами пивовары. По виду, запаху и вкусу они оценивали качество ингредиентов и либо пускали их в дело, либо браковали. Когда производство наращивает объёмы, такая схема уже не очень подходит.

Вот, например, у ячменя множество сортов. При одинаковых условиях выращивания один сорт может давать вдвое больше урожая, чем другой. Как это определить научно и достоверно? Вырастить два поля ячменя двух разных сортов, собрать сначала урожай, а потом две выборки, провести статистическую проверку гипотез.

Но это долго и дорого, поэтому обычно сначала делают случайную выборку, а потом выводы.

Если выводы по выборке соответствуют стандартному распределению, то всё ок, она корректна и репрезентативна.

image
Вот так (по Гауссу) — нормально

А если значения на графике образуют не колокол, а слона в удаве, значит, принцип отбора какой-то неправильный и экстраполировать выводы не стоит.

image
Вот так нормальное распределение выглядеть НЕ должно

У компании Гиннесс не было времени выращивать целые поля разных ячменей, и выводы нужно было делать по нескольким исследованным образцам. Здесь требовался математический ум.

В 1899 году ум как раз устроился на работу в компанию.

Колокол и блюдце


Уильям Госсет начал с того, что вывел вероятность ошибки. Он рассчитал, с какой вероятностью разные небольшие выборки могут дать значение, отличное от истинного. Сделать это можно было только одним способом: провести много, очень много экспериментов.

Изучив множество выборок, Госсет подсчитал, что два образца дают точность в районе 80 %, три — уже 87,5 %, а при исследовании 87 образцов вы получите примерно ту же точность, что и при изучении тысячи. Это позволило серьёзно сократить расходы, однако компания решила, что потенциал ноу-хау не исчерпан — и отправила Госсета в оплачиваемый отпуск, который он провёл в лаборатории известного биолога и статистика Карла Пирсона.

Результатом отпуска и стало то самое t-распределение. Госсет вывел формулу, позволявшую оценить качество выборки в зависимости от количества её степеней свободы, или, иначе говоря, независимых элементов в выборке. При этом число степеней свободы всегда на единицу меньше количества объектов в выборке, то есть при выборке в 5 элементов у нас будет 4 степени свободы, при 3 — 2. Объясняется это просто: если вам известно среднее арифметическое выборки и все значения, кроме одного, вы легко сможете высчитать это последнее значение. То есть оно не является независимым.

image
Сама формула выглядит так. Y — значения независимых переменных из выборки, n — количество степеней свободы

На основе этой формулы можно построить распределения для разных небольших выборок и нарисовать график. При трёх (то есть для двух степеней свободы) он имеет форму лежащего вверх дном блюдца: его «горб» сильно ниже, чем у стандартного распределения, а «хвосты» — толще. Это позволяет учитывать тот факт, что при небольшой выборке, скорее всего, получится больший разброс значений. Но чем больше образцов, тем сильнее график вытягивается вверх по центру, приближаясь к стандартному распределению.

Такое распределение учитывает, что в выборке может быть чуть больше необычно больших или маленьких значений, при этом общая картина сохраняется: если вы взяли три образца и их результаты соответствуют «блюдцу», всё ок. А если нет — то, сравнив графики, вы всё равно сможете понять, какова вероятность ошибки. И если она невелика — ею можно пренебречь и в продакшене.

Ячменное поле экспериментов


Однажды к Госсету за советом обратился коллега — солодовник Эдвин С. Бивен, тот занимался экспериментальной работой ещё с 1890-х годов. Их сотрудничество оказалось взаимовыгодным: математические навыки Госсета дополняли практический опыт Бивена.

В 1913 году Бивен предложил дизайн эксперимента по схеме шахматной доски: восемь сортов ячменя на участках размером один квадратный ярд. Каждый сорт был представлен по одному разу в каждом блоке, но распределение внутри блока было сбалансированным, а не случайным. А Госсет тем временем сформулировал метод оценки ошибки для сравнения сортов, алгебраически эквивалентный дисперсионному анализу. Который, к слову, в этот же период, но независимо от Госсета, разработал Рональд Фишер.

Они были знакомы, вели переписку и, судя по всему, как положено великим умам, мыслили одинаково.

Вместе с тем Фишер считал, что рандомизированные схемы круче, а Госсет — что сбалансированные. И поэтому первый критиковал второго за метод «полурядовой полосы», который тот вместе с Бивеном часто использовал для полевых испытаний. Например, два сорта ячменя высевались длинными полосами на площади около одного акра. Такой подход позволял точно оценивать ошибки при сравнении различных сортов. В одном из экспериментов стандартная ошибка среднего значения сорта составила около 0,6 процента. Госсет утверждал, что сбалансированные схемы имеют меньшую реальную ошибку по сравнению с расчётной. И хотя они могут пропускать небольшие реальные различия, значительные пропускают гораздо реже.

Впрочем, вообще Госсет был за сочетание баланса и рандомизации во имя точности.

Так откуда же здесь Стьюдент?


Разработав свою теорию, Уильям Госсет решил её опубликовать, так как он всё же был учёным и хотел, чтобы новые знания распространялись. Однако у компании было другое мнение. Получив новую прорывную технологию, она хотела использовать её самостоятельно, а не отдавать в руки конкурентам. Тем более что всего несколькими годами ранее произошёл неприятный случай, один из коммерческих секретов был опубликован в общедоступном издании. В конце концов начальство позволило выпустить статью под псевдонимом Стьюдент, чтобы никто не догадался. В смысле, чтобы конкуренты не смогли связать технологию с пивоваренной промышленностью и понять, откуда ноги растут.

Они и не поняли.

А t-распределение так и осталось распределением Стьюдента.

image
Уильям «Ну Стьюдент, так Стьюдент» Госсет

Используют его там, где размер выборки мал и не подходит под нормальное распределение. С его помощью можно, например, оценить эффективность разных сотрудников, сравнив относительно небольшое количество их показателей. Распределение Стьюдента используют при анализе рынка, социологических исследованиях, даже в медицине. Предположим, есть медицинское исследование, в котором участвует десять человек, из них пятеро получили плацебо. С таким малым числом участников трудно определить является разница статистически значимой или случайной.

В общем, Госсет использовал статистические методы для улучшения различных этапов пивоварения, включая выбор и обработку сырья, контроль за ферментацией и консистентность качества конечного продукта. Это было особенно важно для масштабного производства Гиннесса, где даже небольшие улучшения играют значительную роль.

А ещё, говорят, что он был просто хорошим парнем.

Комментарии (6)


  1. event1
    20.08.2024 12:47
    +6

    Ну всё хорошо, но дорогие переводчики, пожалуйста переводите акры, ярды и прочие дюймы в человеческие единицы измерения. Всё-таки 21ый век. Хватит уже лошадиными жопами мерить.


  1. kay_kay
    20.08.2024 12:47

    А можно вот этот абзац перевести обратно на английский, а затем опять на русский, но на понятный русский?

    В 1913 году Бивен предложил дизайн эксперимента по схеме шахматной доски: восемь сортов ячменя на участках размером один квадратный ярд. Каждый сорт был представлен по одному разу в каждом блоке, но распределение внутри блока было сбалансированным, а не случайным. А Госсет тем временем сформулировал метод оценки ошибки для сравнения сортов, алгебраически эквивалентный дисперсионному анализу. 


    1. kisaa
      20.08.2024 12:47

      As early as 1912 and 1913 Beaven had invented the “chessboard” design, and experiments had been laid down, each with eight varieties of barley on yard-square plots, in three centers. These were essentially “block designs,” with each variety occur ring once in each block; but within the block, the arrangement was balanced rather than random. At this time Gosset discovered the correct estimate of error per plot for the varietal comparisons, precisely the same result as would be obtained from an analysis of variance.

      https://www.encyclopedia.com/people/social-sciences-and-law/sociology-biographies/william-sealy-gosset


  1. kareon
    20.08.2024 12:47

    Когда изучал матстатистику и теорию вероятностей в универе, все удивлялся: ничего себе, какой-то студент, а в честь него целое распределение назвали :)


    1. dumbaq
      20.08.2024 12:47

      Настоящий учёный на всю жизнь студент!


  1. digital_scientist
    20.08.2024 12:47

    вот кстати, лучше бы в универе эконометрику разъясняли на пальцах зернах, чтобы на примерах статистики было понятно зачем то или иное распределение на практике. У меня, к сожалению, таких примеров не было