Виктор Петрик демонстрирует свой нанофильтр (Источник: rusphysics.ru)
В 1963 году Джейкоб Кэн, психолог из Нью-Йоркского университета, проанализировал около 70 статей, опубликованных в издании Journal of Abnormal and Social Psychology и обнаружил интересный факт. Лишь малое число ученых признавали неудачи своих исследований в работах. Для этих материалов он выполнил подсчет их «статистической мощности». Термин «статистическая мощность» означает вероятность отвержения нулевой гипотезы, если она фактически неверна.
По статистике, подтверждение ожидаемого исследователем результата проявляется в ходе всего лишь 20% выполняемых экспериментов. Как оказалось, практически во всех изученных Коэном работах авторы указывали положительный ожидаемый результат исследований. Получается, что авторы просто не докладывают о неудачах. Более того, некоторые авторы искажают результаты своих исследований, указывая положительный эффект даже в том случае, когда его нет.
Величина мощности при проверке статистической гипотезы зависит от следующих факторов:
- величины уровня значимости, обозначаемого греческой буквой ? (альфа), на основании которого принимается решение об отвержении или принятии альтернативной гипотезы;
- величины эффекта (то есть разности между сравниваемыми средними);
- размера выборки, необходимой для подтверждения статистической гипотезы.
Со времени публикации работы Джейкоба Коэна прошло уже более полувека, но авторы научных исследований все так же рассказывают о своих успехах, скрывая поражения. Это доказывают результаты еще одной работы, опубликованной недавно в Royal Society Open Science. Авторы этой работы — Пол Смальдино из Калифорнийского университета и Ричард Мак Элрес из Института эволюционной антропологии Общества Макса Планка. По словам исследователей, современные статьи не стали качественнее. По крайней мере, статьи, которые относятся к психологии, неврологии и медицинской науке.
Изучив несколько десятков статей, опубликованных в период времени с 1960 по 2011 год, ученые определили, что средний показатель статистической мощности в этом случае равен 24%. Это лишь немногим выше того параметра, который был просчитан Коэном. И это несмотря на то, что за последние годы методы научного исследования стали точнее, а для исследователей публикуется все больше книг и статей с описанием принципов и методов научной работы.
Усредненная статистическая мощность публикаций, размещенных в научных журналах с 1960 по 2011 года
Получив такой результат, ученые задумались над тем, что может изменить текущее положение вещей, чтобы авторы научных работ стали добросовестнее. Для этого Мак Элрес и Смальдино создали компьютерную эволюционную модель. В рамках этой модели около 100 виртуальных лабораторий соревновались за право получения вознаграждения. Оно выплачивалось в том случае, если в рамках исследования команда лаборатории получала действительно значимый результат. Для определения размера вознаграждения ученые использовали такой показатель, как объем публикаций.
Как выяснилось, некоторые лаборатории работали более эффективно, чем другие, показывая больше результатов. В то же время, эти лаборатории часто выдавали ожидаемое за действительное. В этом случае результаты выверялись хуже, и результаты интерпретировались, как положительные. Если результаты работы выверялись тщательнее, то публиковалось меньше работ.
В каждом цикле симуляции все моделируемые лаборатории выполняли эксперименты и публиковали результаты. После этого ученые убирали наиболее старую лабораторию из ряда случайно выбранных. А лаборатории из еще одного случайного списка (критерий выборки — максимальное количество полученных вознаграждений) позволяли создать собственное подразделение, которое занималось активной работой по публикации научных материалов. Предварительные результаты анализа компьютерной модели продемонстрировали: публиковавшие больше всех работ лаборатории уделяли лишь малую толику времени проверке результатов и становились наиболее авторитетными, распространяя свои методы исследований в научном сообществе.
Но было еще кое-что. Как оказалось, повторение результатов работы какой-то одной лаборатории коллективом другой приводит к улучшению репутации первой лаборатории. А вот неудача в повторении результатов какого-либо эксперимента приводит к проблемам и понижению репутации лаборатории, которая провела такой эксперимент первой. В этом случае срабатывает фильтр, который не допускает появления в научном сообществе фальшивых исследований с модифицированными результатами исследований.
Чем сильнее было наказание для тех, кто опубликовал непроверенные результаты, тем мощнее оказывался фильтр некачественных исследований. При максимальном наказании в 100 баллов лабораторий с фальшивыми данными резко вырастало количество публикаций с реальными результатами. Кроме того, вырастало и количество повторных экспериментов, которые проводили другие лаборатории с намерением повторить полученные кем-то результаты.
Напомню, что все, сказанное выше — смоделированная на ПК ситуация. Авторы исследования делают следующий вывод: как и раньше, сейчас научные организации, которые публикуют больше работ, чем другие, считаются наиболее авторитетными. К сожалению, фильтр некачественных публикаций, который сработал в виртуальном мире, не слишком хорошо работает в мире реальном. Дело в том, что НИИ и отдельные исследователи не слишком часто проверяют результаты друг друга. Если бы такие проверки с намерением повторить результат, полученный партнером, осуществлялись чаще, то и «фальшивых результатов» в мире науки стало бы значительно меньше.
Авторы исследования считают, что компьютерная модель показала возможность изменения текущего положения вещей. Если бы фонды и научные организации не давали деньги тем ученым и лабораториям, кто публиковал непроверенные результаты своих исследований, выдавая их за положительный результат, то обманщиков быстро бы стало меньше. Но реализовать такую модель в реальном мире довольно сложно. «Легче сказать, чем сделать», — говорит Смальдино.
Так что пока в плюсе оказываются те организации, кто публикует много статей. А вот организации, которые тщательно выверяют свои результаты, публикуются реже.
DOI: 10.1098/rsos.160384
Комментарии (28)
samoanman
26.09.2016 05:08+8Законы Мерфи в редакции А. Блоха, раздел «Научные исследования», закон Майерса:
— Если факты не подтверждают теорию, от них нужно избавиться.
Следствие №2:
— Эксперимент можно считать удавшимся, если нужно отбросить не более 50% сделанных измерений, чтобы достичь соответствия с теорией.
Руководство к действию, однако…
FransuaMaryDelone
26.09.2016 05:58+1Сценарий 1: Будет организована контора, которая станет отделять хороших ученых от читеров (типа комиссии по лженауке, только глобально). Деньги потекут хорошим (у которых есть разрешение на науку или которых нет в черном списке лгунов), читеры-лгуны заплачут. Потом хакеры взломают секреты, окажется, что некоторые хорошие на самом деле были отъявленными читерами… Конец науке, пессимизм, депрессия, читаем гороскопы, колдуем спиритизм.
Сценарий 2: Все махнули рукой. Некоторые, которые хотят «чистой» науки, — перестали хотеть. Каждый занимается, чем хочет. Кругом обман, читаем гороскопы, колдуем спиритизм.Saffron
26.09.2016 07:17Сценарий 3: Вместо журналов используется p2p web of trust, без единого центра власти. Сообщество учёных напрямую управляет научными исследованиями. Понять и управлять механизмом они не могут. Технологическая сингулярность, сильный ИИ, конец всем человекам.
mwambanatanga
26.09.2016 07:39+2Учёные и так полностью управляют научными исследованиями. А вот финансированием они управляют в гораздо меньшей степени. И p2p им контроля никак не прибавит. Грустно.
DEM_dwg
26.09.2016 07:26У Британских ученых, все статьи подтверждены исследованиями…
Причём одни Британские ученые, полностью подтверждаю исследования первооткрывателей…
MaxALebedev
26.09.2016 07:36+8Вспоминается сборник «Физики шутят».
Изложение результатов:
«Типичные результаты приведены на...» (Приведены лучшие результаты.)
«Хотя при репродуцировании детали были искажены, на исходной
микрофотографии ясно видно...» (На исходной микрофотографии видно то же
самое.)
«Параметры установки были существенно улучшены...» (По сравнению с
паршивой прошлогодней моделью)
«Ясно, что потребуется большая дополнительная работа, прежде чем мы
поймем...» (Я этого не пони-маю.)
«Согласие теоретической кривой с экспериментом:
Блестящее… (Разумное...) Хорошее… (Плохое...) Удовлетворительное…
(Сомнительное...) Разумное… (Вымышленное...) Удовлетворительное, если
принять во внимание приближения, сделанные при анализе...» (Согласие вообще
отсутствует.)
«Эти результаты будут опубликованы позднее...» (Либо будут, либо нет.)
«Наиболее надежные результаты были получены Джонсом...» (Это мой
дипломник.)
LeonidI
26.09.2016 09:37Мне казалось, что большинство работ которые я читал, либо в духе «мы хотели узнать как А зависит от Б, получилась такая зависимость. Эта зависимость может объясняться вот так(придумать объяснение можно для любой зависимости)», либо в духе «мы хотели собрать устройство, которое делает А методом Б. Получилось достичь таких-то характеристик. » В обоих случаях как бы нет начальной гипотезы, которая может не подтвердиться. Поэтому, не опровергая вывод статьи, на её содержание смотрю скептически.
kibitzer
26.09.2016 13:08+1В статье написано, что речь в основном идет о публикациях по психологии и медицине. Для них 90% работ — это проверка стат.гипотез. При этом часто выборки крайне небольшие, не являются репрезентативными и притянуты за уши. Проблема поднимается постоянно, но что-то поменять сложно, особенность ещё и в самих науках.
Iamkaant
26.09.2016 10:56В системе финансирования науки нужна золотая середина между а) большим количеством работ и никакой повторяемостью (так сейчас) и б) проверкой почти всех результатов, но медленным прогрессом (так было лет 60 назад). Очевидно, что нужно лучше финансировать проверочные работы, но как отсечь возможность сговора – вопрос.
bopoh13
26.09.2016 16:29Была статья с похожим смыслом //geektimes.ru/post/276800/ и выступление на TED (искать лень).
SpongeBrainSquareBalls
26.09.2016 18:18+3Образчик английского юмора в разделе "Ethics" статьи Смальдино и Элерса:
Our meta-analysis used only previously published data. All simulated scientists were humanely euthanized
arandr
26.09.2016 18:18<<Дело в том, что НИИ и отдельные исследователи не слишком часто проверяют результаты друг друга.>>
Хм, забавно. Выходит, не так уж другим и нужны эти результаты? Если бы кто-то на основе этих результатов развивал какие-либо теории или технологии, то чужие результаты бы перепроверялись постоянно. А так получается, сделал кто-то что-то, опубликовался — ну и ладненько, никому это не нужно.Posigrade
26.09.2016 23:43+1кому-то когда-то может быть и для работы понадобится, до тех ценность — под сомнением имхо.
была тут статья про лженауку не так давно, скопипащу часть своего комментав посте приведено интересное утверждение: «самый серьезный удар по науке нанесла недавняя попытка в ходе крупномасштабной кампании повторить 100 опубликованных исследований по психологии, менее половины из которых действительно удалось провести снова» О чем это говорит? Имхо это говорит о том, что несмотря на свою громкость (ну раз их стали проверять, значит они привлекли внимание), никакой особой ценности эти исследования скорее всего не представляли (пусть даже и в Science статья была): никто из научного сообщества, узнав про эти исследования, не возбудился и не сказал «интересно! пожалуй нам стоит попробовать с такой стороны на наш вопрос посмотреть, может тогда сможем увидеть, что-то новое в нашей головоломке». не было такого! Никому из научного сообщества и из приладников не было дела до этих «исследований» (кроме, возможно, шнобелевского комитета), никто не попытался эти вещи как-то воспроизвести или использовать, чтоб облегчить себе работу.
https://geektimes.ru/company/ua-hosting/blog/268766/#comment_8936196trapwalker
26.09.2016 21:05Я бы предложил такой вариант. Фонды, финансирующие исследования требуют от лабораторий (или обещают им бонусы), чтобы они страховали правильность результатов своих исследований. Таким образом часть средств от каждого гранта лаборатория должна держать на специальном страховом счете. Эти средства получат лаборатории, которые перепроверят и обоснованно опровергнут результаты предыдущих исследований. Лаборатория также может сама претендовать на свою же страховку, если найдёт ошибки в своих исследованиях. Таким образом мы мотивируем лаборатории перепроверять свои и чужие исследования, искать ошибки и тщательнее контролировать свои выводы. Размер страхового взноса лаборатории должен напрямую зависеть от качества ее исследований и публикаций, от ее рейтинга по индексу исследования/опровержения.
ivlis
Никакой журнал не будет публиковать статью: «Мы попробовали X и у нас не получилось Y». В этом нет ничего удивительного.
Saffron
Значит, журналы не нужны.
ivlis
У журналов простая логика, публикуем то что будут читать и на что будут ссылаться. Статей «Мы исследовали яркость светодиода и не обнаружили зависимости от фазы Юпитера» можно написать бесконечное множество, но их никто не прочитает и никто не будет цитировать. Даже технически корректные работы с положительным результатом довольно трудно опубликовать в хорошем журнале, потому что редактор отклонит статью как не интересную.
Журналы нужны, потому что они отбирают из огромного потока информации стоящую. Если бы не было бы журналов, что либо найти было бы совершенно не возможно, всё бы утонуло в шуме фриков.
Saffron
Негативная информация — тоже стоящая. Не всякая, вы привели хороший пример бесполезной, но многие другие — полезны. И если журналы не умеют находить актуальность в негативной информации, то они не нужны.
FransuaMaryDelone
ronkajitsu
Обозначаемая проблема несколько другая. Суть в том, что публикуются работы с подогнанными результатами к ожидаемым. Начинается исследование на тему, доказывающую что если X, то Y. В ходе исследований зависимости выявить не получилось, или в 15% случаев, например. Но т.к. за исследования платят, а подтверждение результата сделать необходимо, то подготавливается работа, где по сути результаты если и не сфальсифицированы, то проведены в очень специфичных условиях. Например, нейронную сетку проверяли на обучающей выборке, вместо реальных данных. Получили результат 99,8%, вместо реальных 60%.
В результате, исследования проведены, получен «положительный» результат, исследователи молодцы и т.п. А потом этот механизм становится потоковым. Либо за деньгами гонятся и берутся за множество работ, не успевая проводить полноценные исследования, либо не могут подтвердить результаты в силу неправильности постановки задачи. Скорее всего, одна из основных проблем — это то что за отрицательный результат в исследованиях не платят, а не то что журнал не примет такую работу. Тем более, если многие исследования проводятся как часть государственных проектов, где по умолчанию провал недопустим.
Vjatcheslav3345
А нельзя ли ставить задачу так «Доказать, что влияние „Х“ на „У“ — отсутствует», если же исследователь доказал и обосновал обратное — т.е. влияние есть, то можно приплатить ему небольшую премию дополнительно.
К тому же есть такие заказчики, которым во что бы то ни стало нужна достоверность данных а не «предопределённый результат» — например, страховщики — им, скажем, с случае как с обычными, таки роботизированными автомобилями нужна достоверная статистика.
ronkajitsu
Ставить такую задачу можно, но процесс подготовки проекта и получения гранта выглядит несколько другим образом — это раз. За такую постановку задачи мало кто готов заплатить — это два. Платят за достижение цели, а значит если доказывают обратное, то цель не достигнута — это три.
Обычно процесс получения гранта и выполнения работ выглядит примерно так: подаётся заявка, в которой описывается задача, как она важна для будущих исследований или конкретного конечного результата, что вот как будет зашибись, и что на это требуется N денег. Т.е. всеми силами доказывается, что исследование перспективное и деньги не будут потрачены зря. Заказчик (не суть важно какой) должен заинтересоваться и вложить деньги. Его интересует конечный результат, в большинстве случаев. Ну а дальше идут работы, за выполнение которых платят денежку. Если в процессе работы будет получен результат, который не соответствует ожиданиям, то вас за это не похвалят, а скажут что вы не выполнили условия контракта. При этом получить новый контракт будет уже проблематично.
Т.е. получается, вы поставили задачу, убедили что будет всё хорошо (вы знаете тему, есть задел, никто лучше вас не справится с задачей), а потом выдали, что ничего не получится, т.к. Y.
Вот, кстати, примеры конкурсов.
Конечно, если включить здравый смысл, то вполне очевидно что не все исследования могут заканчиваться успехом. Для этого при подаче заявки на какой-либо грант необходимо указывать опыт работ, полученный задел по данной задаче и вообще в данной области. Если не будет положительной оценки успеха работы и получения нужного результата, то за это платить не будут. А за новые исследования, без задела, готов платить только узкий круг лиц, да и лишь за те, что так или иначе им интересны в перспективе. Да и сколько будут за это платить? Для подобных исследований есть конкурсы РФФИ, например, но финансируются они гораздо меньшими суммами. И снова же, если вы не исследовали вопрос и не можете дать каких-то чётких гарантий, то вряд ли вам дадут на исследование финансирование.
P.S. Можно заметить, что я рассмотрел именно государственные программы финансирования исследований, но в бизнесе, на мой взгляд, спрос будет не намного меньше. Если финансирование из бюджета как бы планируется на проекты, то частный вкладчик может за свои кровные неплохо так стрясти потом. Хотя, наверное, закончить проект по причине невозможности выполнить требования может быть будет проще, не потратив миллиарды на нереализуемую идею.
RuLine
Если говорить о государственных субсидиях и грантах, то там все еще интереснее.
Всегда есть показатели, которые исследователи должны выполнить:
опубликовать N статей в рецензируемых журналах и индексируемых в WoS, Scopus
подать Х заявок на изобретение/полезную модель
написать и защитить Y диссертаций
Количество этих показателей удручает, от 3 в год, при средней продолжительности НИР 2-3 года
При этом публикация 1 статьи в приличном журнале с IF>1,5 занимает от года (чаще 1,5-2).
Сюда же добавляют каких-нибудь промышленных испытаний, промысловых испытаний и прочее.
После чего возникает вопрос как группа исследователей ХХХ умудрилась успешно закончить за 2-3 года проект и выполнить следующие показатели: 5-6 статей, 2-3 заявки на патент, 1-2 кандидатские/докторские диссертации и промысловые испытания.
У меня есть несколько вариантов: заявка была подана по уже полученным ранее данным; данные были получены «методом умственного эксперимента».
ronkajitsu
Да, я упростил описание, не особо заморачиваясь с рядом формальных признаков. И так по сути же весело;)
Логичнее всего, что это первый вариант. Заявка подана по ранее полученным данным. Ведь маловероятно что такой конкурс выиграет компания или институт, которые по этой тематике никогда не работали. А начало работ или их основа строится на том что есть.
А вот с публикациями интереснее. Работы, которые были поданы на публикацию ранее срока заключения контракта не засчитываются. Только то, что было подано в редакцию и опубликовано после даты начала работ. Т.е. даже если работы уже есть в черновиках, всё равно публиковаться надо в сжатые сроки.
Поэтому тем, у кого за плечами ничего нет, в таких конкурсах ничего не светит по-умолчанию.
boojum
Как вы себе представляете вообще доказательство отсутствия чего либо?
Насколько я понимаю, доказать и обосновать можно только обратное — наличие.
Zenitchik
Когда речь идёт об отсутствии конкретного эффекта в конкретных условиях — то это нетрудно доказать экспериментально.