Как 164 команды получили 164 разных ответа на один вопрос / forpes.ru

Главная
Как 164 команды получили 164 разных ответа на один вопрос

Как 164 команды получили 164 разных ответа на один вопрос +12

14.04.2026 07:01

mesh_up 2 6400 Источник

В науке есть понятие стандартной ошибки — это неточность, которая возникает из-за того, что исследователь работает не со всей совокупностью данных, а только с выборкой. О ней помнят, её умеют считать и учитывают при выводах.

Но существует и нестандартная ошибка.

Она возникает из-за того, что разные исследователи по-разному анализируют одни и те же данные. Один считает среднее по дням, другой — по месяцам. Один убирает выбросы, другой оставляет. Один берёт одну модель, другой — другую. Нестандартная не в смысле «странная», а в смысле «нет стандарта»: нет общепринятого способа проводить анализ, а значит, нет и точки отсчёта. Если бы все исследователи использовали единый метод, она была бы равна нулю.

Только они не используют.

Дать всем одно и посмотреть, что будет

Дизайн эксперимента FINance Crowd Analysis Project: собрать большую группу исследователей, дать всем одинаковые данные и одинаковые вопросы и зафиксировать, насколько разбегутся ответы. Данные предоставила Deutsche Börse. 720 миллионов торговых записей по фьючерсам на индекс EuroStoxx 50 с 2002 по 2018 год.

В эксперименте участвовали 164 исследовательских команды и 34 независимых рецензента. Причём все суровые и закалённые: у 31% команд есть публикации в топовых журналах по финансам или экономике, у 52% в составе был профессор, 65% уже работали с данными такого масштаба. Попасть в эксперимент без PhD в команде и без опыта в эмпирических финансах было нельзя.

Задача для всех была одинаковой: оценить, как менялся каждый из шести показателей рынка в среднем за год. Шесть гипотез: об эффективности рынка, о спреде между ценой покупки и продажи, о доле клиентских сделок в объёме торгов, о спреде по клиентским ордерам, о доле рыночных ордеров и о валовом доходе клиентов.

Авторы хотели не только зафиксировать разброс, но и понять: помогает ли обратная связь его уменьшить?

Для этого эксперимент разбили на четыре этапа.

Сначала — полная изоляция. Команды работали только с данными и инструкциями: никаких переговоров и обмена методами. Потом каждая команда получила анонимные отзывы двух независимых рецензентов и могла пересмотреть свой анализ. Следующий шаг — что-то вроде научной конференции: всем показали пять лучших работ с анонимизированными авторами. Видишь сильные чужие подходы — и можешь обновить свой. Наконец, на четвёртом этапе убрали все методические ограничения: команды могли свободно заимствовать и использовать чужие подходы.

Соавторство в итоговой публикации гарантировалось всем, кто дошёл до конца, вне зависимости от результатов. То есть подгонять ответ под вывод не было никакого смысла.

Хьюстон, у нас проблемы

Разброс оказался огромным, причём даже на самых, казалось бы, простых вопросах.

*Каждая точка — одна команда, прямоугольник охватывает среднюю половину всех результатов*

Возьмём гипотезу про долю клиентского объёма. Медианная оценка составила −3,3% в год — это значение, которое ровно делит все 164 результата пополам: половина команд получила больше, половина меньше. Интерквартильный размах (то есть диапазон, в который уложилась средняя половина всех оценок, без самых крайних) составил 1,2 процентного пункта. Звучит терпимо, но это только середина. Крайние значения разошлись от −7% до +2%. То есть одни говорят «доля клиентов падает на 7% в год», другие — «растёт на 2%».

Отдельная история с гипотезой про эффективность рынка. Медианная оценка: −1,1% в год. Но диапазон между командами — 6,7 процентного пункта. Это уже принципиальная неопределённость. Один из участников получил +74 491%. Это не опечатка. Из-за этого одного выброса среднее по всем командам улетело к 446%, стандартное отклонение — к 5 817%. Для гипотезы о спреде по клиентским ордерам одна команда выдала −6 275 383%, тогда как все остальные получили от −2 897% до +870%.

Такие результаты возникают из вполне легитимных, но очень разных методологических решений, которые при определённых данных дают улетающие в космос числа.

Для всех шести гипотез авторы проверили: а вдруг это просто случайный шум, а не систематическое расхождение? Нет. Статистический тест отверг гипотезу об отсутствии разброса на уровне значимости 0,5% для каждой из шести. Это очень жёсткий порог, значительно строже стандартного научного. P-value меньше 0,0001 означает, что вероятность того, что такой разброс возник случайно, меньше одной сотой процента.

Короче, разброс реальный, большой и точно не случайный.

Дальше авторы задали следующий вопрос: может, проблема концентрируется в слабых работах? Сильные команды сходятся, а слабые расходятся? Проверили через три независимые переменные.

Первая — качество команды. Казалось бы, чем сильнее команда, тем точнее результат. Но внутри «нормального» диапазона это почти не работает: типичный разброс между командами при росте качества практически не менялся. Зато на краях — работает. Сильные команды реже выдавали экстремальные результаты. Не точнее в среднем, а стабильнее в худшем случае. При этом конкретный состав важнее абстрактного «уровня»: профессор в команде или работа вдвоём снижали разброс заметнее, чем просто высокие баллы опыта.

Вторая — воспроизводимость кода. Независимая организация Cascad проверяла: насколько легко стороннему человеку запустить код команды и получить те же цифры? Шкала от 0 до 100. Средний балл по эксперименту — 64,5 (это хорошо!). Рост воспроизводимости на одно стандартное отклонение снижал типичный разброс между командами на четверть. Если метод можно воспроизвести — значит, он достаточно чётко описан. А чётко описанный метод оставляет меньше пространства для интерпретаций.

Третья — оценки рецензентов. Рост оценки на одно стандартное отклонение снижал типичный разброс на треть. Рецензенты умеют отличать аккуратный анализ от работы методом тыка, и это отражается в данных. Но главное не это. Лучшие работы не просто получали высокие оценки, а бились между собой. Чем качественнее исследование, тем ближе его результат к результатам других качественных исследований.

Теперь про обратную связь.

Первый этап — до любой обратной связи. Верхний график — разброс в середине распределения (средняя половина команд). Нижний — разброс на краях (почти весь диапазон)

От первого этапа к четвёртому типичный разброс между командами сократился почти вдвое, причём на краях — более чем вдвое. Механизм понятен: когда видишь, как думают коллеги, часть расхождений исчезает сама. Но даже на четвёртом этапе разброс остаётся, и он статистически значимый.

В общем, обратная связь мощно локализует проблему.

Но не убирает.

Вот где конфликт достигает кульминации.

Перед стартом эксперимента всех участников попросили сделать прогноз: насколько сильно разойдутся оценки других команд? Не абстрактно, а конкретно, в числах. Чтобы стимул был настоящим, случайно отобранным 20% участников пообещали по 300 долларов при условии, что их предсказание окажется в пределах 50% от реального разброса. Это важно: без такого стимула люди склонны называть социально приемлемые цифры, а не думать честно.

Результат оказался крутым.

Каждая точка — предсказание одной команды о том, насколько разойдутся результаты коллег. Прямоугольник — средняя половина всех предсказаний, линия внутри — середина. Красная точка — реальный разброс. Оранжевая — то же, но без самых крайних результатов

Реальный разброс превысил предсказанный в среднем на 71,7%. Для пяти из шести гипотез как минимум три четверти участников (тех самых суровых и закалённых исследователей с PhD, публикациями в топовых журналах, годами работы с рыночными данными) его недооценили. Они были искренне убеждены, что коллеги придут примерно к тем же результатам, что и они сами.

Единственное исключение — гипотеза про долю клиентского объёма, где задача кажется сугубо арифметической. Там недооценка составила всего 9%, статистически это незначимо. То есть когда задача выглядит как «возьми и посчитай», интуиция исследователей работает нормально. Но стоит задаче стать чуть менее очевидной, стоит появиться хоть какому-то пространству для манёвра, возникает существенный разброс.

Авторы прямо называют это объяснением того, почему проблема нестандартных ошибок так долго оставалась незамеченной. Логика простая: если вы уверены, что ваш коллега при тех же данных получит примерно то же число, зачем вообще думать о систематическом расхождении между исследователями? Зачем его измерять? Зачем публиковать диапазон вместо точки?

Причём учёные не скрывают неопределённость намеренно.

Они не подозревают о её реальном масштабе.

Карта развилок

Зафиксировать разброс — это одно. Но авторы пошли дальше и спросили: откуда он берётся конкретно?

Для этого они использовали многомерный анализ. Идея такая: путь от сырых данных до итоговой цифры — это не прямая линия, а дерево развилок. На каждой развилке исследователь выбирает один из нескольких разумных вариантов. Удалять ли первые и последние 30 минут торговли — период открытия и закрытия, когда рынок ведёт себя нестандартно? 21% команд убирали, 79% оставляли. Как обращаться с выбросами — аномально большими сделками, которые могут исказить картину? 65% оставляли как есть, 20% сглаживали (подтягивали экстремальные значения к границам нормального диапазона), 14% удаляли полностью. На какой частоте анализировать данные, то есть какими кусками нарезать 17 лет торговли? 37% работали с дневными данными, 41% — с годовыми, 21% — с месячными. Какую математическую модель использовать для оценки тренда?

Каждый из этих выборов сам по себе разумен. Единственно правильного пути нет.

Цветные прямоугольники — разброс, который получается при систематическом переборе всех разумных методологических комбинаций. Серые — реальный разброс между командами

Но комбинации накапливаются быстро: только для одной гипотезы девять таких развилок дают 6 912 возможных путей анализа. Чтобы систематически прогнать все разумные комбинации и посмотреть, какие развилки создают наибольший шум, потребовалось несколько дней работы с учётом 1 000 бутстрэп-выборок на каждый путь — это почти 164 000 прогонов по 720 миллионам торговых записей.

Два главных виновника вышли из этого анализа с большим отрывом.

Каждый столбик — одна комбинация: модель и частота данных (дни, месяцы, годы). Недельные данные убраны — их использовала только одна команда из 164

Первый — выбор модели. Для оценки тренда существуют три стандартных подхода: тренд-стационарная модель (линейный тренд, встроенный прямо в регрессию), лог-разности (считать изменения в логарифмической шкале) и относительные изменения (считать, на сколько процентов изменилось значение от периода к периоду). Все три математически корректны, все три используются в приличных изданиях. Но для гипотезы об эффективности рынка результаты разошлись до неприличия. При модели относительных изменений и дневных данных медианная оценка составила −23 000% в год. При той же модели, но с месячными данными — −200%. При годовых — −4,56%. При тренд-стационарной или лог-разностной модели частота анализа почти не влияла на результат, и числа оставались в разумных пределах независимо от того, дневные данные или годовые.

Почему так происходит?

Здесь вступает в игру неравенство Йенсена, известное с XIX века, но в данном контексте ведущее себя как паскуда.

Когда вы оцениваете долгосрочный тренд через цепочку краткосрочных относительных изменений, то есть перемножаете много маленьких процентов, чтобы получить большой, математика начинает систематически врать. Ожидаемое значение произведения не равно произведению ожидаемых значений. На дневных данных эта ошибка накапливается с каждым шагом и за 17 лет вырастает до катастрофических размеров. Линейные модели устроены иначе и от этого эффекта не страдают. Итог: выбор между тремя одинаково корректными методами сдвигает оценку с −23 000% до −4,5%.

Второй — частота анализа. Для той же гипотезы об эффективности рынка частота определяла не только масштаб, но и знак результата. При высоких частотах (секунды, минуты) почти все анализы показывали снижение эффективности рынка. Он становится менее случайным, в нём появляются предсказуемые паттерны. При низких частотах (дни, месяцы) примерно половина команд получала рост эффективности, половина — снижение.

Просто одни смотрели на гипотезу в микроскоп, а другие забивали им гвозди.

Самой чувствительной развилкой в гипотезе о валовом доходе клиентов оказался вопрос, который большинство команд развилкой даже не считали. Клиенты на этом рынке в среднем теряют деньги, их валовой доход отрицательный. Если эти потери растут по абсолютной величине (число становится всё более отрицательным) — это положительный тренд или отрицательный? 21% команд ответили «положительный»: число выросло, модуль увеличился, динамика направлена вверх. 79% ответили «отрицательный»: потери усиливаются, тренд идёт вниз.

Что всё это меняет

Из результатов следует несколько неудобных вещей.

Когда мы видим «эффект = 5% ± 1%», этот ±1% учитывает один источник неточности: случайность выборки. Но та же команда с теми же данными могла получить другой результат, если бы выбрала другую модель, другую частоту или иначе обработала выбросы. Эта неопределённость в опубликованную статью не попадает.

Результаты исследований при повторной проверке оказываются слабее или не воспроизводятся вовсе. Обычное объяснение — подгонка: исследователи перебирают методы, пока не получат значимый результат, и публикуют только его. В этом эксперименте не было никакого стимула подгонять, но разброс всё равно оказался огромным. Плохая воспроизводимость может объясняться не только недобросовестностью. Добросовестные исследователи с одинаковыми данными просто приходят к разным ответам.

Как правило, научная статья публикует одно число от одной команды. Но это одна реализация из широкого распределения возможных ответов, рядом с которой существуют ещё 163 команды, получившие другие числа, часть из них — противоположные.

Авторы предлагают очень романтичную метафору.

Данные — это свет. Анализ — призма, через которую свет преломляется в оценку. Стандартная ошибка — дрожание источника: шум в данных, случайность выборки. Нестандартная ошибка — различия в форме самих призм. Даже при одинаковом свете разные призмы дают разные спектры.

Измерять дрожание наука научилась, теперь осталось понять, насколько разные призмы.

Комментарии (2)

Byaka8kaka
14.04.2026 07:27
#29826096
Интересно, а если повторить этот эксперимент полностью - результаты и выводы другие будут?)
1. mesh_up Автор
  14.04.2026 07:27
  #29827394
  Надеюсь, что это исследование прямо сейчас и проводится.