Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина, «предмет гуманитарных наук — выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении».

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза — утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на всей выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза (null hypothesis) — гипотеза об отсутствии различий (утверждение об отсутствии различий в значениях или об отсутствии связи в генеральной совокупности). Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ая вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается (вероятность ошибки выше 5%), считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода (отклонения истинной нулевой гипотезы).

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов — Basic and Applied Social Psychology (BASP) — вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода — ошибкам обнаружить различия или связи, которые на самом деле не существуют.

В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods (doi: 10.3758/s13428-015-0664-2, pdf).

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии (то есть статей, в которых анализируются результаты экспериментов и делаются выводы) содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы statcheck исследователи проверили более 250 000 p-значений в статьях, опубликованных в научных журналах по психологии с 1983 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688 112 p-значений в 50 945 научных статьях по психологии опубликован на сайте PrePrints.

По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ (краудсорсинг — потому что результаты автоматической проверки нужно ещё проверить вручную силами сообщества — эта работа затянется на месяцы или годы).

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой statcheck, хотя в одной работе ошибок не обнаружилось.


Дороти Бишоп считает, что такие автоматические отчёты с указанием «0 ошибок» — это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться со своим соавтором и внести исправления в работу. В то же время она желает провести аудит самой программы statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу.

Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием «0 ошибок». Симпатичная профессор Дженнифер Такетт спрашивает, можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора.


Результаты автоматического аудита 50 945 научных статей по психологии ещё предстоит провести. Можно предположить, что примерно в половине из них будут ошибки, как это показало прошлогоднее предварительное исследование на более ограниченной выборке. В любом случае, набор данных опубликован в открытом доступе. Работает полнотекстовый поиск по названию научной работы и по автору.

Так что если вам в ближайшее время попадётся ссылка на какой-то научное исследование по психологии — обязательно проверьте его по базе PubPeer.
Поделиться с друзьями
-->

Комментарии (31)


  1. GeMir
    10.10.2016 21:35

    Нулевая гипотеза «среднее значение равно заданному» на иллюстрации в начале статьи может быть сформулирована только для двустороннего теста. Альтернативная гипотеза будет в таком случае «среднее значение не равно заданному», а не «нулевое значение меньше заданного». Так же не стоит путать p-значение и ?-уровень. Вероятность совершения ошибки первого рода (отклонение нулевой гипотезы при условии, что она верна) — это именно ?-уровень.


  1. Forest_Gump
    10.10.2016 22:46
    -5

    «Есть три вида лжи: ложь, наглая ложь и статистика».


    1. vinograd19
      10.10.2016 23:19
      +7

      Никогда не понимал этого заклинания. Так говорят только невежды.


      1. GeMir
        10.10.2016 23:41
        +5

        Речь в данном случае, как и в случае с высказыванием Черчилля («I only believe in statistics that I doctored myself») не столько о статистике, сколько о статистиках. О том, как результаты (в том числе математически верных) расчётов интерпретируются в своих интересах определёнными людьми (пример с корреляцией числа журавлиных гнёзд и числа новорожденных).


      1. SinsI
        11.10.2016 00:17
        +1

        Оно очень хорошо описывает ситуацию, когда политики и журналисты в целях пропаганды не учитывают парадокс Симпсона.


      1. Forest_Gump
        11.10.2016 02:24
        +1

        На Лурке есть статья «Средняя температура по больнице», которая объясняет мою позицию.

        А кто-нибудь знает, что может быть использовано вместо p-value? В Википедии есть подраздел с альтернативными подходами для проверки гипотез, но из него я только понял, что, в принципе, альтернатив p-value не существует.


        1. eiennohito
          11.10.2016 10:13

          Я ходил на пару лекций по психологии в Киотском университете.

          Современный подход — это публикация effect sizes и доверительных интервалов повсеместно. А p-value некоторые журналы вообще перестали считать как что-то ценное.


        1. kxx
          11.10.2016 14:01

          Почитайте про Credible interval" — байесовский подход.


      1. Pakos
        11.10.2016 10:06

        Матстатистика — да, конечно. Но есть ещё жаргонное название ведомства, куда из бухгалтерий и «кадров» стекаются разные данные типа «среднее число детей на сотню работников в организации» и прочее не очень понятное, а поскольку многие отправляют туда данные с… (скажем так) потолка, то и на выходе соответствующее. Потом оно проходит фильтрацию по нужным критериям и от изначального значения остаётся 0 целы хрен десятых. Garbage in — garbage out. И народ повторяет эту мантру, поскольку в тельавизоре видит только 146.46% и всякие заявления «мы стали жить более лучше» с красивыми графиками. А «ту, правильную» статистику они хорошо если в институте прогуливали, а не вообще не подозревают о её существовании.


      1. skyeff
        11.10.2016 10:33
        +1

        «В общежитии в комнате живут два студента, один съедает палку колбасы в день, другой вегетарианец, по статистике каждый студент съедает пол-палки колбасы в день.».

        Проблема статистики, как и любого другого формального подхода в интерпретации. Но так как статистика — это научный инструмент к нему доверия у обывателя больше. Собственно в этом суть высказывания — недобросовестный человек с помощью статистики может обмануть значительно больше людей чем просто лжец.


        1. vinograd19
          11.10.2016 10:44

          Проблема статистики, как и любого другого формального подхода в интерпретации.

          Это проблема не только статистики. В том числе тезиса «Есть три вида лжи: ложь, наглая ложь и статистика», открывшего эту дискуссию. Недобросовестный человек с помощью него может обмануть значительно больше людей чем просто лжец.


      1. geher
        11.10.2016 12:17

        Вполне нормальное высказывание, если правильно осознавать его контекст. И столь же бессмысленная, как и кучи других громких фраз, если ее использовать саму по себе, бездумно и вне контекста (как рано или поздно начинает использоваться большинством практически любая другая громкая фраза).
        Как и другие подобные, она может быть опрокинута простым контрпримером. И точно так же она целиком без особых проблем может оказаться на месте статистики в самой себе.
        Но суть ее на самом деле до безобразия проста. Речь идет о манипуляции статистическми данными в СМИ, когда показывается выгодное, замалчивается неприятное, когда используются произвольные интерпретации и т.п. Когда вроде нет ни слова лжи, а у людей на основе опубликованного получаются совершенно логичные, но столь же неверные выводы.


        1. vinograd19
          11.10.2016 12:20

          Ну и я о том же. Ты человеку даешь аргументы в виде статистики, а он не глядя заявляет «есть ложь, есть наглая ложь, а есть статистика».

          Имхо фраза эта вредней, нежели аргументы в виде ложной статистики, потому как проще в использовании.


          1. geher
            11.10.2016 13:39

            Это всего лишь проявление сложившегося недоверия к публикуемым статистическим данным почти вне зависимости от источника.
            Увы, приучили людей во всем мире за долгие годы. Сама фраза тут особой роли не играет, ибо не более чем замена банальному «Не верю», которому пытаются необоснованно добавить веса громкой фразой. Ровно с той же целью (добавление веса своим словам), к месту и не к месту люди цитируют извстных людей.
            Что еще интереснее, многие, размахивая этой фразой как флагом, вполне верят в «свою» статистику (собранную самостоятельно или из источника, которому они все-таки пока доверяют). Другой вопрос, что их источник может быть гораздо более «неточным», чем опровергаемый ими.


    1. izobr
      11.10.2016 10:43
      +2

      Я бы обновил это высказывание до: «Есть три вида лжи: ложь, наглая ложь и заявления маркетологов».


      1. ArPi
        11.10.2016 20:11

        А я бы до «Есть три вида лжи: ложь, наглая ложь и (заявления политиков | предвыборные обещания)»


  1. MMS1
    10.10.2016 22:46

    Автор статьи безусловно прав, когда приводит определение Бахтина — «предмет гуманитарных наук — выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении». А как же иначе, если существуют самые разнообразные подходы к классификации теорий и концепций личности? Р. С. Немов насчитывает по край ней мере 48 теорий личности, каждая из которых может быть оценена по пяти параметрам, являющимся основанием для классификации.


    1. igruh
      11.10.2016 08:18

      Да-да, помню как одна надейка делила хронопов на классы.


  1. kxx
    11.10.2016 00:09

    И еще Фишер утверждал: «Формально нулевая гипотеза никогда не может быть принята».


  1. Dum_spiro_spero
    11.10.2016 00:14

    До математики надо еще дойти.
    Участвовал в исследовании — установление связи между типизацией Майерс-Бриггс и ценностями.
    Испытуемым (несколько десятков человек) были розданы опросники, которые они заполнили. Дальше была проведена матобработка.
    С математикой проблем здесь не было, а вот с правдивостью данных полученных в результате опроса-теста…


    1. nikitazvonarev
      11.10.2016 00:49
      +1

      Но реально ли получить что-то разумное на выборке в несколько десятков человек?


      1. igruh
        11.10.2016 08:20
        +1

        Ошибка не менее 32% на десятке человек. Для опроса это, безусловно, катастрофически малая и нерепрезентативная выборка.


      1. artem_klevtsov
        11.10.2016 11:28

        В таком случае к уровню значимости неплохо бы добавить оценку мощности.


    1. SkiBY
      11.10.2016 11:28

      Есть хороший анекдот про исследование длины кой-чего.
      Два исследования — в одном опрашивали, а в другом меряли.

      Люди сами не знают о себе ничего, а вы их еще и спрашиваете.


  1. CorneliusAgrippa
    11.10.2016 10:00
    +1

    Недавно был мальчик, обнаруживший город майя в Мескике, теперь студентка, разоблачившая психологию… На мой взгляд, это очередное проявление эффекта Даннинга-Крюгера, коим страдает (из моих наблюдений) подавляющее большинство студентов и аспирантов, которые только начинают заниматься научной деятельностью. После прочтения пары книжек им начинает казаться, что им удалось обнаружить либо что-то великое в своей работе, либо что-то ужасное в работах других. С опытом это обычно проходит, но не у всех. У кого не проходит, тот становится университетским профессором.

    Каждую научную статью нельзя воспринимать как истину в последней инстанции. Ученые ошибаются, заблуждаются, делают никому не нужные вещи и т.д., но тем не менее, наука в целом движется вперед. Это примерно как картины пуантилистов — если рассматривать каждую отдельную точку, или даже несколько соседних точек — ничего не понятно, какая-то каша, но если отойти подальше, отдельные точки сливаются в общую картину.
    Данная студентка начала разглядывать на такой картине листву на дереве, и обнаружила, что отдельные точки не зеленые (листва же должна быть зеленой!) а желтые, красные и, о ужас!, даже синие! Синего цвета листья уж точно быть не могут! И надо провести аудит еще 50 945 точек — наверняка там есть цвета, не соответствующие представлениям студентки о том, какого цвета должны быть листья.

    Все вышесказанное является моим частным мнением, основанном на личном опыте, и не претендует на правильность и объективность.


    1. Xaliuss
      11.10.2016 11:10

      Как человек, читающий математическую статистику у психологов, хочу сказать, что масштабы некачественных статистически работ по психологии действительно могут быть больше, чем по другим дисциплинам. Это ещё и связано с тем, что большинство связей в психологии определить можно только статистически, в отличии от той же биологии, где обычно всё таки понятно где связь может быть. Но вот в той же биологии доцент, работающий со мной на кафедре, делает научные работы вместе с биологами, отвечая в них именно за грамотную обработку статистики. В психологии всё может быть только хуже, а обычные психологи знают статистику в объёме достаточном для применения её методов, но не для понимания всех нюансов того, когда и как их применять.

      Ещё стоит учесть, что в психологии ищут часто в работах связи между очень большим числом характеристик, и естественным образом возникает синдром меткого стрелка (или же из всех работ в публикацию идут те, где связь обнаружена). По моему мнению, для надежности какой-то статистической взаимосвязи в психологии её должны проверять несколько групп независимо (хотя бы две). Это уже должно отсеять случайности. Но это сложно и дорого.


    1. SkiBY
      12.10.2016 14:57

      Вы, по-моему, смешиваете теплое с кислым.
      Во-первых, откуда брюзжание по поводу «молодежь нынче не та»? Большинство значимых открытий великие ученые делали задолго до 30 лет. А потом очень долго доказывали то, что открыли.

      Во-вторых, статьи по психологии иногда похожи на гороскопы — всё вот так и вот так, но, в принципе, может быть и совсем наоборот. Как-то не слишком научно и однозначно.

      В-третьих, статьи по психологии в авторитетных журналах таки влияют на общество и людей вокруг нас. Не напрямую, конечно, а хотя бы через женские журналы. Прочитает кто-то, как правильно нужно жить и все — пропал семейный очаг. Так что тема важная, и откровенно высосанные из пальца «исследования» нужно банить.


      1. CorneliusAgrippa
        12.10.2016 17:51

        А утверждение «Большинство значимых открытий великие ученые делали задолго до 30 лет.» — это из Вашего личного опыта, или есть какие-то статистические данные (с уровнем значимости более 0.05)?


        1. SkiBY
          12.10.2016 23:27

          Хорошо, с массово и задолго до 30 — это вы правы.
          Но можете посмотреть на награды Нобелевской премии по физике и химии — сколько было лет ученым было на момент открытия(не доказательства, а именно открытия)?
          Не хотите считать — держите:
          В Кентерберийском университете Новой Зеландии были изучены биографии 280 великих ученых. 65% из них (главным образом мужчины) самые значительные открытия в своей карьере сделали до 35 лет.

          И чем точнее наука, тем младше были первооткрыватели.


          1. CorneliusAgrippa
            13.10.2016 10:18

            Полностью согласен. Теперь давайте посмотрим, сколько вместе с этими 280 великими учеными работало обычных ученых. Статистики у меня нет, поэтому точное число назвать сложно, но думаю, что ученых, совершивших открытия, были доли процента. А вот мнят себя великими учеными практически все студенты и аспиранты (это уже из личного опыта, и кстати, совершивших великое открытие среди моего круга знакомых не было). Я и сам тоже через это прошел, но довольно быстро понял, что великим ученым я не буду и что имел в виду Сократ, когда сказал «Я знаю, что я ничего не знаю».
            Поэтому, вероятность того, что эта студентка на самом деле разоблачила всю психологию как лженауку (заголовок в стиле «Ученый изнасиловал журналиста») довольна мала.

            А банить «исследования» не нужно. Однажды моя 7-летняя дочь высказала на редкость глубокую мысль. Мы шли по довольно грязной улице после дождя, она посмотрела на большую грязную лужу и произнесла: «Даже в самой грязной луже отражается чистое небо».


  1. MMS1
    12.10.2016 09:27

    Статья по сути затрагивает основное — поиск достоверности и истины в психологии и других когнитивных дисциплинах.
    Системный мультидисциплинарный подход позволяет в основном обойти озабоченности, связанные с глиальными клетками и полями, а также с узкой специализацией дисциплин и их изолированностью.
    Абстракции биологов-системщиков естественно снимают эти озабоченности. Смотрим:
    В. Б. Швырков. «Введение в объективную психологию. Нейрональные основы психики»
    www.rus.triz-guide.com/1831.html