Предсказания, а не случайность
Как сделать предсказания любых событий так, чтобы тебе поверили серьезные учёные, ты стал знаменитым и получил нобелевку? Это очень просто: надо убедить учёных в том, что твои предсказания – это именно предсказания, а не случайность. Для этого вполне хватит школьного курса теории вероятностей. Итак, на надо выполнить лишь три пункта.
Пункт 1. Опишем предсказываемое событие, ограничив его временным и пространственным интервалом. К примеру, мы утверждаем, что некое событие произойдёт в следующие сутки (временной интервал) в пределах 100 км (пространственный интервал).
Далее нам надо подсчитать вероятность случайного появления этого события в указанном интервале. Для этого есть различные методы, в зависимости от типа событий, их распределения и т.д. Но это надо сделать, и именно для этого мы указываем чёткий временной и пространственный интервал события. Обозначим эту вероятность Pслуч.
Искушение: В этом пункте очень хочется схитрить, объявив интервал равный бесконечности. То есть, это событие на другом конце Земли – это мы немного в координатах ошиблись, а то что оно через год – ошибка во времени. Но увы – именно для этого нам и нужна оценка случайного появления. В случае бесконечного интервала она будет слишком близка к 1.
Пункт 2. Далее мы будем смотреть, сколько из предсказанных событий произошло. И на основании этого подсчитаем вероятность уже наших предсказаний. То есть, если в указанном промежутке событие фактически произошло, ставим плюс один, не произошло – ноль, и так для всех наших предсказаний. Обозначим эту вероятность Рпред.
Искушение: Иногда событие не попадает в наш диапазон совсем чуть-чуть. Плюс час, минус километр. И очень хочется его подсчитать как совпадение. Многие недобросовестные исследователи так и делают. Но нет – нам надо либо расширять изначально диапазон предсказаний, либо выбрасывать наше событие из подсчёта как неуспешное.
Дилемма: И тут есть такая интересная дилемма — если мы увеличим диапазон, в него попадут больше предсказанных событий. Но – увеличится и вероятность случайного совпадения. Уменьшая диапазон — уменьшаем точность своих предсказаний.
Оценочный анализ Далее можно провести оценочный анализ Pслуч. и Pпред. Если вероятность случайного события намного больше предсказанного, или они примерно равны – то мы занимаемся чем-то не тем. Обманом, подгонкой фактов – но только не предсказаниями. Если же Pслуч. намного меньше 1, а Pпред. больше хотя бы 0.5 – то можно говорить о том, что исследование удалось. Дальше надо строить более точные вероятностные оценки, затем писать статьи и бежать за нобелевкой. Оценочный анализ на этом будет закончен.
Вам кажется, что эта статья ни о чём, и всё это – очевидные для исследователя вещи? Но увы, исследование, которое я сделал ниже, показывает полное непонимание этих вещей людьми, официально занимающимися наукой.
Часть вторая: предсказание землетрясений
Перейдём к исследованию достоверности предсказаний землетрясений. Написать эту статью меня сподвигла дискуссия, начавшаяся в комментах к этому посту. Суть такая: некий коллектив учёных считает, что он может предсказывать землетрясения, а один из авторов даже выкладывает эти предсказания на сайте. Я взялся проверить достоверность со статистической точки зрения.
Для начала, сложность возникла с границами предсказаний – автор нигде напрямую не указывает, в каком диапазоне оно делается. То есть, как понять, что вот это событие – это именно то, что мы предсказали? Ответа в научных статьях нет. Мало того, из графика точности предсказаний видно – авторы рассматривают в качестве успешных предсказания событий, случившихся за 1000 км. от предсказанной точки.
Но мы можем определить границы сами. Для этого возьмём эти цитаты из их научных работ:
Эпицентр землетрясения, пока, включает район с радиусом около 50 км.Мы видим, что погрешность в градус (это порядка 100 км) – вполне приемлемая точность по координатам. Это подтверждается и вышеприведенным графиком. Для интервала по времени возьмём сутки, исходя из следующей цитаты:
Время наступления предполагаемого землетрясения могло варьировать в пределах ± 13 ч от расчетного срока. Из 1118 прогнозов 978 случаев оправдались в тот день, на который они прогнозировались;По сообщениям авторов, заявленная точность такого прогноза:
Успешность данных прогнозов составляет около 70 – 80 %.
Независимая оценка прогноза
Для оценки было взято 15 сентября 2016 года (я мог проверить, что прогноз действительно появился за один день до события, и с тех пор не менялся). Чтобы не создавать нагрузку на сайт автора, прикладываю картинку с прогнозом.
Фактические данные были взяты с сайта EMSC
На сайте есть возможность посмотреть все землетрясения за любой промежуток времени, с определёнными магнитудами. Данные можно скачать в виде CSV или наложить на гугл-карту:
Мы видим полное несовпадение данных. Данные брались за 15 сентября, выбирались все события с магнитудой больше 3. Если мы сравним эти изображения, мы увидим что очаги не совпадают на десятки градусов. Там даже не надо углубляться в подсчёты, из рисунков и так всё ясно. Но можно сделать небольшой дополнительный анализ. В таблице в левой колонке предсказанные данные, в правой – координаты ближайшего эпицентра, если эпицентр находится ближе примерно десятка градусов от предсказанной точки.
Предсказанные | Фактические |
24N 121E (большое) | |
39N 123W | |
31N 115W | |
47N 67W | |
0.5S 78.5W | 3.34S 80.8W |
39N 28W | |
42N 13E | 42.8N 13.2E |
36N 4E | |
36.5N 22E | 40.1N 24.8E |
36N 70E | |
54N 164E | |
6N 126E | 3.8N 129.1E |
42S 172E |
Из 13 событий (одно из них – сильное), всего 4 произошли в пределах 1000 км. от указанной точки, и всего одно вписалось в заявленный авторами квадрат 50 км.
Неужели что-то совпало?
Но одно из них – совпало с точностью до градуса! Неужели хоть что-то получилось? Нет, всё проще, оно не подходит оценку по случайности. Как видно из приведенной ниэе таблицы фактических землетрясений, там просто трясло каждый день, начиная с 10 сентября. Поэтому вероятность события в указанной точке за 15 сентября была слишком близка к 1.
Date | Latitude | Longitude | Magnitude |
15.09.2016 | 42.82 | 13.19 | 4.3 |
14.09.2016 | 42.73 | 13.18 | 3.2 |
13.09.2016 | 42.58 | 13.2 | 3.4 |
12.09.2016 | 42.8 | 13.22 | 3.2 |
11.09.2016 | 42.68 | 13.28 | 3.3 |
10.09.2016 | 42.79 | 13.24 | 3.1 |
10.09.2016 | 42.96 | 13.16 | 3.3 |
10.09.2016 | 42.84 | 13.26 | 3 |
Ввиду явного несоответствия двух картинок – предсказанных и фактических землетрясений, дальнейший анализ проводить не вижу смысла, можно переходит к выводам.
Вывод
Судя по статистическим данным, предсказания от данных учёных не имеют никакой силы. Кого именно обманывают авторы – людей или себя, остаётся неизвестным. Но их графики, в которых они показывают достоверность предсказаний – не соответствуют действительности.
Что, собственно, хорошо соотносится с работами учёных USGS которые в недавних работах показали невозможность краткосрочных прогнозов, так как система хаотична – из-за сложного строения земной коры возмущение нарастает экспоненциально. Это как с кучкой песка – подсыпая по песчинке, мы знаем что рано или поздно горка осыпется (долгосрочные прогнозы (годы, десятилетия) делаются) – но мы не знаем, когда именно это произойдёт (краткосрочные (сутки и часы) невозможны). Подробнее и интереснее написано тут, в разделе «Уроки прошлого, сомнения и надежды на будущее».
Комментарии (68)
geisha
19.09.2016 20:37TL;DR: Автор взял прогноз каких-то людей из Питера о землетрясениях. Он в тот день не совпал ну прям совсем. Автор поглумился, сказал что и как надо было делать и, конечно же, экстраполировал один такой день на все время сколько у этой вселенной осталось.
Нет, что вы, я не защищаю псевдоученых (от этого и в карму можно хватануть, хех), но если вы проводите такое разоблачение в пространственном домене, то почему бы не провести во временном? ВедьОпишем предсказываемое событие, ограничив его временным и пространственным интервалом.
P.S. уже обсуждается выше в ветке.caveeagle
20.09.2016 00:49+5Это не экстраполяция, это выборка из генеральной совокупности. Она мала — но с учётом большой разницы между ожидаемым и наблюдаемым значением она достаточна для оценочного анализа. Если бы совпадения были бы более значимыми, я бы не поленился оценить доверительный интервал для этой выборки.
Впрочем, если хотите — можете сделать это сами, все данные и методики открыты. Либо можете просто перевести предсказания (начиная с 15 сентября) в табличную форму и прислать мне — я проведу дополнительный анализ.
LeonidI
19.09.2016 21:09+1На этом сайте ссылок на публикации нет, а на старом — есть. Вот только там несколько десятков докладов на конференциях, Вестник РГГМУ, научпоп — и все.
Да, я не проводил мероприятий по поиску где-то ещё. И данные не полны — я беру 10 лет от последней записанной на сайте статьи, а это 2013 год. Но те публикации, которые приводят авторы сайта, сложно назвать публикациями в серьезных и уважаемых научных журналах. А это звоночек — отсутствие хороших публикаций за последние 10 лет.alexisneverlate
20.09.2016 16:38Публикаций полно, в том числе в научных изданиях ака институт физики земли.
Но вот почему они не выложены на сайтах — большой вопрос к коллективу ученых. :)
alexisneverlate
20.09.2016 09:39Думаю оценка по одному дню вызвана тем, что было чтобы сравнивать на основании периода нужно время, которого всегда жаль.
Мне лично было бы интересно узнать откуда такая разница в точности — возможно мы чего то не знаем. Попробую провентилировать этот вопрос и отписаться. (ну кроме «врут!»)
Вот тут куча данных от самих ученых, возможно для удачных дней, и, если предположить отсутсвие намеренного искажения, — совпадений больше http://www.forecast-center.com/statistic
1. из графика точности предсказаний видно – авторы рассматривают в качестве успешных предсказания событий, случившихся за 1000 км. от предсказанной точки.
Ваша цитата: Из 13 событий (одно из них – сильное), всего 4 произошли в пределах 1000 км. от указанной точки
не то чтобы 1к км это мало, но тем не менее. Тогда вписываются 4ре а не одно.
2. Из статей понятно что речь о +-13 часах т.е. т.к. данных по времени нет — то что отмечено на конкретный день может быть как за предыдущий так и за следующий день (т.к. у нас мало данных так «с ходу»)
3. А чтобы проверить всё подробно — нужна таблица, автор не выкладывает данные в csv.
Думаю такие данные вполне можно было бы запросить, включая временные показатели и тогда за больший период у оценки появится не оценочная а именно статистическая значимость.
Еще раз спасибо за статью. :)caveeagle
20.09.2016 10:40Немного уточню: авторы рассматривают (скорее всего, так как в статьях я не нашел этих методов) вообще все события. На графике точности по координатам видно, что на этот график попадают события, находящиеся в 15 градусах от точки. Но всё-таки, исходя из графика, видно что большинство точек попадает в отклонение один градус (поэтому я и взял именно его).
Если бы я взял интервал в 15 градусов (который имеется на графике) то да, событий попало бы больше (собственно, четыре). Но тогда у нас была бы высокая вероятность случайного совпадения.
Насчёт времени — увы, на сайте такой информации нет, у меня есть из данных только дата.
Да, насчёт этого можно просто спросить у автора, и действительно, если будут таблицы (за вторую половину сентября) — я могу пересчитаь данныые. Более ранние трогать не хотелось бы — так как я не был свидетелем их появления.LeonidI
20.09.2016 16:36Очень (реально, очень) интересно было бы посмотреть на такую статистику хотя бы за неделю. Потому что если авторы могут предсказывать землетрясение с вероятностью 70% и точностью примерно 100км за сутки — это очень интересно, полезно, перспективно и по моим оценкам стоит много денег. А вот если это точность 1000км или вероятность 30% — то нет.
а) Потому что десяток кругов радиусом 1000км перекрывают почти все сейсмически опасные зоны. И потому что зону 100км можно предупреждать или эвакуировать, а 1000 км — нет.
б) потому что вероятность 30% — это «может быть», а 70% — это «скорее всего», и можно реализовать планы типа «подготовка к ЧС».
P.S. Если это 70% и 100км — надо срочно публиковаться в приличном иностранном журнале и патентовать технологию.alexisneverlate
20.09.2016 16:49Технология патентованная довольно много лет как.
По этой же причине многие исходные данные не в открытом доступе — и так много сайтов разных методов землятресений перепечатывает
Как получена цифра в 70% (мы давайте предполжим что они намеренно данные исследований не искажали) —
Думаю что там есть нюансы в методологии в которых имеет смысл разобраться.
Т.е. не обличать по одному дню и прогнозу «шарлатаны» а, как вариант — написать, спросить, почитать что ответят, насколько это вообще адекватно.
>>с вероятностью 70% и точностью примерно 100км за сутки
Утверждают что за ДВОЕ суток, за сутки — уточненный
В общем, мне кажется надо провести более детальный анализ верности того утверждения про 70% на основании современных и открытых данных. Только вот где его публиковать? :) Думаете посетителям GT такое интересно?LeonidI
20.09.2016 17:14Да, я думаю что это было бы интересно.
Особенно если методология, удобная авторам конкретного метода, будет обсуждена и доработана — так, чтобы показать реальную эффективность метода.
Xaliuss
20.09.2016 17:17+2Не верится во всё это. Против этого говорит статистика последствий крупных землетрясений, которые предсказать для предварительной эвакуации/подготовки удалось только один раз, после серии форшоков. Если бы существовала надежная модель, предсказывающая с точностью 70% крупные землетрясения (6+ баллов), и она сработала бы хотя пару раз (так что прогноз появился до землетрясения), то на дальнейшее её уточнение ушли бы сразу миллионы и миллиарды. А пока происходят такие трагедии как в Италии, существование надежных краткосрочных прогнозов невозможно. По ссылке выше можно проследить текущее состояние дел в прогнозировании, и далее определения сеймсоопасных зон и среднесрочных/долгосрочных прогнозов дело не идёт. Это позволяет выдвигать соответствующие требования к зданиям, и проводить подготовку к действиям. в случае ЧП в опасных зонах, но пока не более того.
alexisneverlate
20.09.2016 22:16Ну вот в том то и дело что не верится. если полноценную оценку проведем с автором статьи — статью опубликуем, там и посмотрим независимый анализ.
Ну так по моему опыту — всё так. Мне говорилось про отдельные крупные землетрясения заранее.(Фукусима, Цунами 2004го), без шуток.
Денег в этом пока не обнаружено c 2001 года. (везде свои бюджеты «осваивают», большие).
тем не менее — пока непонятно кому это нужно могло быть в достаточной степени чтобы деньги платились.
Как думаете почему изначальный мой дико заминусованный коментарий появился в теме «когда ты изменил мир а никто это не заметил», в контексте того что задумался сколкько исследований которые могут иметь большой смысл осталось «в столах»Xaliuss
20.09.2016 23:04Говорить заранее о землетрясениях многие могли, вопрос был ли это пригодный для действий прогноз или нет. И в любом случае постфактум это не так значимо, и вопрос о ложных прогнозах остаётся. В ссылке выше указывается, что сотни миллионов уже вкладывают. Удачные прогнозы могут спасти много жизней и много денег.
Патентованность технологии тоже вызывает большие вопросы. Её закрытость затрудняет проверку и уточнение методики, а зарабатывать на этом нельзя. Может я чего-то не понимаю, но почему не сделать всю возможную информацию по землетрясениям открытой, ведь в случае реального прогресса выигрывают все?
DarkChemist
20.09.2016 10:40Если Pслуч>>Pпред не значит ли это что возможно есть противоположная зависимость и стоит проверить ее?
geisha
20.09.2016 13:24+1Это не бинарные предсказания (вы, вероятно, имели ввиду «будет сегодня дождь или нет?»). Если сделать их бинарными (т.е. рассматривать default city в качестве подопытного), и инвертировать, то получится, что Москву трясет ежедневно. Это, конечно, гораздо менее вероятно.
caveeagle
20.09.2016 13:52Это было бы, если бы я рассматривал всю выборку данных. Тогда действительно, можно было бы предположить, что авторы нашли «антипризнак» — характерный признак отсутсвия событий.
Но я рассматриваю лишь частичную выборку из генеральной совокупности данных. Поэтому я лишь опровергаю нулевую гипотезу. В нашем случае нулевая гипотеза — это «вероятность успешного предсказания порядка 70%».
Но опровержение нулевой гипотезы не означает доказательство гипотезы, обратной нулевой (то есть гипотезу Pслуч>>Pпред надо доказывать отдельно). И для её доказательства нужна как раз генеральная совокупность, а не выборка.
alexisneverlate
20.09.2016 16:29+1Получил занятный комментарий от человека, который чуть ближе к этому коллективу чем я. (но не из этих ученых, если что. :))
1) если автор статьи внимательно прочитал бы труды и статьи, на которые он ссылается, он бы увидел, что отсчёт статистики ведётся с 2001 года.
Землетрясения прогнозируются только по северному полушарию (точнее его определенным районам), поэтому учитывать все землетрясения за сутки смысла нет. И статистика «оправдываемости» считается по-другому.
(прим. думаю речь о том показателе в 70% — т.е. он считался совсем иначе)
2)опять-таки если статья прочитана, то из статьи ясно, что временной промежуток указан таковым не из-за попытки шарлатанить, а из-за промежутка поступления данных по атмосфере, геодезическим показателям и геомагнитным. Про атмосферные данные и их точность все мы можем судить по прогнозам погоды
3) если читать статьи, а не просто брать цифры, становится ясно, что при прогнозе учитываются конкретные сейсмически активные районы, по которым уже ведутся столетние наблюдения и статистика возникновения событий (землетрясений) при определённых условиях. Все данные по километражу — опять-таки учитываются показания датчиков, многие из которых расположены на расстояниях, достаточно великих друг от друга.
Кроме того сам эпицентр и волна распространения землетрясения могут достигать расстояний, превышающие тысячи км.
Данные с датчиков начинают поступать и обрабатываться за несколько суток, их качество, скорость поступления напрямую влияют на качество прогноза.
4)этот коллектив ведёт учёт землетрясений с магнитудой более 4 баллов, цифра 70-80 выведена от количества прогнозов по землетрясений с такой магнитудой и по факту попадающих в этот ± 13 чамов временной промежуток.
Повторюсь, что Землю трясет ежедневно в районах, которых это даже не регистрируется. Трясет неделями без перерыва
Общая уверенность в невозможности прогнозирования и ведёт к тому, что данная область исследования не продвигается никак.
Ещё повторюсь, что метод запатентован, активно используется. И приносит реальную пользу.caveeagle
20.09.2016 17:03И да, давайте проверим их архивные выкладки со статистикой:
Вот их картинка (в виде ссылки)
Выглядит красиво, верно? Вроде бы всё совпало?
А вот реальная картина за этот период:
Ссылка на google maps
Видно, что несовпасть оно просто не могло — в предсказанных районах трясёт постоянно.alexisneverlate
20.09.2016 17:11Трясет постоянно да, но на Google Maps — накопленные данные.
А пометки — не за период а те, которые успешно предсказаны за 1-2 суток именно в тех местах где они были в эти +- 13 часов.
(понимаю что это можно проверить только фактической независимой оценкой т.к. нужно самому видеть, но в своих комментариях исхожу из того что намеренно данные не искажались)caveeagle
20.09.2016 17:18+1Пусть присылают табличные данные (хоть с завтрашнего дня) — напишу статью-опровержение, если был не прав. Но именно прогнозные данные. Потмоу что на их сайте (и то, что они выкладывают в фейсбук) это только координаты, и сутки. Другой информации в открытом доступе нет.
BigBeaver
20.09.2016 19:33поэтому учитывать все землетрясения за сутки смысла нет. И статистика «оправдываемости» считается по-другому.
Так в статье не говорится же «было N землятресений, из них M предсказано» — там как раз и написано «было предсказано K, из них L сбылось». Или я что-то не так понимаю?caveeagle
20.09.2016 19:41Да. Из них L сбылось. Но вероятность сбывшихся землетрясений близка к 1 (это я про статью).
Предположим, у нас есть точка, где трясёт постоянно — например, завод перфораторов. Добавляя эту точку в статистику, мы повышаем число правильных предсказаний.
По поводу архивных данных — это действительно могут быть накопленные данные — тогда я не прав. Но анализировать их смысла нет, до тех пор пока я не буду уверен, что это действительно прогноз, и что его никто не менял с момента предсказания.
caveeagle
20.09.2016 16:56+1Автор прочитал. Но — цифры там можно нарисовать любые, поэтому автор доверяет лишь тем цифрам, которые может проверить сам. Проверить могу только недавние.
И да, повторю кратко идею статьи: выполните предсказания с учётом двух пунктов. Это произойдёт в таком-то диапазоне координат и в таком-то диапазоне времени, с такой-то вероятностью. Всё. Тогда это будет научный подход.
И я нигде не говорил, что надо предсказывать всё, это никак не влияет на точность.alexisneverlate
20.09.2016 17:16Конструктивные вопросы и как всё это выглядит со стороны очень ценны и я лично очень благодарен за поднятые вопросы.
На мой взгляд тоже имеет смысл выкладывать больше данных и не бояться что их какие-то сайты себе заберут как «свои» (хотя это уже много лет происходит даже без более точных данных. :))
alexisneverlate
20.09.2016 17:03Получил комментарий и от самого коллектива.
>
Не профессионально использовать для оценки качества прогнозов результаты только ОДНОГО прогностического дня, поскольку заявленная оценка в 75% получена по многолетним данным.
Действительно, 15 сентября оказался не очень удачным прогнозом, на что есть свои объективные причины.
Это является естественным процессом, поскольку в один день могут оправдаться 50% сейсмических событий, а на следующий день 95%.
В основном это определяется качеством поступающей информации.
На сайте и фейсбуке, на последнем выкладываются бесплатные прогнозы, указано, что нужно учитывать ±13 час.
Если учесть это, то результаты прогноза за 15 сентября будут следующими:
Прогноз Фактические
1509 36,0 4,0 4,0
>1509 42,0 13,0 4,0 42,8 13,2 4,3 z=10
>1509 36,5 22,0 4,0 37,7 21,2 2,7 z=2
>1509 36,0 70,0 4,0 36,4 70,9 4,2 z=195 сдвиг — 6h 33M(16.09)
>1509 6,0 126,0 4,0 5,8 124,5 5,5 z=210 сдвиг — 7h 50M(16.09)
kor. 24,0 121,0 5,0
1509 -42,0 172,0 4,0
>1509 55,0 164,0 4,0 50,0 156,3 4,4 z=80
>1509 39,0 -122,0 4,0 42,2 -121,8 2,5 z=0
1509 31,0 -115,0 4,0
1509 47,0 — 67,0 4,0
>1509 -0,5 — 78,5 4,0 0,5 — 79,9 4,7 z=10 сдвиг + 8h 10M(14.09)
1509 39,0 — 28,0 4,0
Тогда из 13 сейсмических событий оправдались 7, т.е. чуть более 50% и максимальное отклонение до 800 км наблюдается только для района Камчатки.
Зачем писать не разобравшись или даже не запросив точные данные?
График отклонения по широте, которым спекулируют в качестве претензий, как раз и показывает, какие отклонения по координатам могут возникнуть в процессе работы и какими причинами они вызваны, что нужно предпринять, чтобы увеличить точность прогнозов.
P.S. Прошу прощения за отсутсвие верстки — таблицу не нашел как вставитьcaveeagle
20.09.2016 17:16+1Не, так не пойдёт =) Погноз — это информация, которую я получаю до события. То, что они написали сейчас про 15 сентября, это не прогноз.
Спросите их — если им будет интересно, я готов написать ещё одну статью, и публично опровергнуть мои выводы, сделанные здесь.
Для этого мне надо: заранее в течении нескольких дней давать прогноз в табличном виде. В прогнозе указывать прогнозируемое время (я приму интервал +-13 часов, но тогда сам прогноз должен даваться за 13 часов до события) Также сказать диапазон по координатам (например, 2 градуса, или 1 градус — любой диапазон, но он должен быть). Ещё можно сказать вероятность прогноза (если они хотят).
Если они вдруг согласятся — пишите в личку. Свяжемся, и я проведу такой анализ.
.alexisneverlate
20.09.2016 17:35Спасибо я поговорю с ними. Мне такой формат был бы очень интересен и, надеюсь, не мне одному.
(примерно это и предлагал изначально организовать)
Как будет ответ — напишу в ЛС.
LeonidI
20.09.2016 19:04+11. Я считаю что ± 13 часов от суток — это ок и кажется это где-то указывалось, т.е. готов считать еще три события условно «успешными»
2. Но считаю точность 1000км неприемлемой для практических применений. Ну, представьте что в пообещали землетрясение в Москве, в произошло оно в Питере :)
3. Если будете писать статью, было бы интересно оценить вероятность успешно предсказать землетрясение, выбрав как предсказание: а) 10 точек, область в 1000км от которых максимально перекрывает сейсмически опасные зоны. б) эпицентры 10 самых сильных землетрясений за последние суткиalexisneverlate
20.09.2016 22:57>Но считаю точность 1000км неприемлемой для практических применений. Ну, представьте что в пообещали землетрясение в Москве, в произошло оно в Питере :)
По данным ученых заметно менее 1000км.
Надеюсь получится сделать более полную независимую оценку чтобы это оценить на большем числе параметров и прогнозов
daiver19
Это очень научный подход, не хватает только слова «очевидно».
А вообще нужно понимать, что предсказание характеризуется точностью. Понятно, что иметь стопроцентную точность в предсказании землетрясний весьма сложно.
Цитата с их же сайта. Я понятия не имею, врут они или нет, но говорить о статистике не подкрепив результат достаточным количеством данных (статистика хотя бы за несколько месяцев-год) просто смешно.
caveeagle
Я там табличные данные привёл, чуть ниже кратинок. Чтобы действительно было очевидно. Если из 13 предсказаний — предсказнием не является ни одно (вероятность меньше 8% при заявленной 70%), какой смысл тратить силы? Я проверил прогноз за 17 сентября — там та же картина. А чтобы проверить всё подробно — нужна таблица, автор не выкладывает данные в csv.
И да, предсказания я могу проверять только те, которые сделаны после 15 — так как я должен быть уверен в том, что это именно прогноз.
BigBeaver
Просто прикиньте вероятность того, что при средней успешности в 70-80% в случайно выбранный автором день было верно угадано всего 8%. Все сразу ясно станет.
Rikkitik
Ну, справедливо говоря, теория вероятности вполне допускает такое антисовпадение, поэтому нужно проводить анализ на большом интервале, а не за один день. Автор статьи тоже пожертвовал обработкой статистики и научностью анализа, соблазнившись очевидностью и эффектностью выводов.
BigBeaver
Так я и не отрицаю, что допускает. Но согласитесь, он довольно мал. Шанс НЕ угадать хотя бы 1 из 4 (25% точность, а мы тут о 8% говорим) уже менее процента. Думаю, любой, кто ценит свое время забил бы после такого результата.
p.s. методика полностью изложена, данные открыты — любой сомневающийся может добавить еще 1-2 дня в выборку. Если результат будет такой же — можно смело ставить крест.
Rikkitik
Тем не менее, в статье о пользе научного метода не стоит пренебрегать им самому.
geisha
Я всеми руками за и влепил бы вам плюс. Именно такая мысль об отсутствии временной выборки осталась после прочтения. Я, если честно, вообще не понимаю, что оправдывает существование этой статьи. Чистое лицемерие в тексте.
sHaggY_caT
поставила вам обоим
caveeagle
То, что я делал — это оценочный анализ данных, и это не противоречит научному методу. Нас учили, что не имеет смысла вычислять точные данные, если оценочный анализ показывает несостоятельность гипотезы.
На примере: могут ли обезьяны случайно напечатать Шекспира за время человеческой жизни? Можно подсчитывать точное количество знаков в тексте, и подсчитать точную вероятность того, что это может произойти. А можно оценить её как заведомо меньшую одной миллиардной даже для одной страницы текста, и не проводить дальнейший анализ, посчитав это «практически невероятным». И это будет вполне научным методом.
geisha
Я, с вашего позволения, процитирую то, что вы написали ниже.
Во-первых, это не объясняет, почему она мала (т.е., фактически, время там отсутствует как степень свободы). Во-вторых, доверять или нет это, пока что, личное дело каждого. Кроме того, лично вы в самой статье никаких оценок не проводили (спасибо LeonidI). Вы даже толком не опровергли ни это ни это:Вам на будущее: «Если ты сделаешь что-то быстро и плохо, то никто в последствии не вспомнит о том, что ты это сдеал быстро.» (с) не-помню-кто
geisha
Во, придумал как понятнее сформулировать. Ваши оценки вероятностей и опровержения без временного домена очень неустойчивы по отношению к корреляциям в этом временном домене о которых мы не знаем или делаем вид, что не знаем. Если бы я жил в средней полосе и предсказывал ежедневно пасмурную погоду, а вы бы взяли и наложили мои предсказания на один, два, три солнечных дня, заявив, что с вероятностью 1 к 200000 я неправ, то сами бы угодили в вероятностную ловушку.
Чтобы я вам поверил при данных условиях вы должны заявить, что характерное время для процессов стоящих за землетрясениями гораздо меньше одного дня.
caveeagle
Э… что-то не понял ваших утверждений. Давайте пользоваться всё-таки устоявшимися терминами теории вероятностей и матстатистики.
Я взял выборку из генеральной совокупности, и по ней опроверг нулевую гипотезу, которая состояла в том, что «вероятность успешного предсказания порядка 70%».
Вероятность этой нулевой гипотезы оказалась меньше уровня значимости. В науке уровень значимости принимают обычно 5% или 1%. Если уровень значимости меньше, гипотеза считается опровергнутой.
К чему именно из этого есть претензии?
geisha
Именно из этого? Ок. Но я, если честно, не увидел ни одного устоявшегося термина теории вероятностей в самой статье. Кроме того, я считаю, что наша дискуссия может быть интересна более широкому кругу
срывающих покровылиц.Ваша выборка не случайна («невероятностная» тыц). Т.е. вы (на самом деле, опять же, не вы) сделали правильную оценку вероятности в предположении, что выборка случайна, но она не случайна. :) Мы уже знаем, что все 13 событий произошли в один день. Единственное, что здесь случайно — выбор дня для выборки. Все остальное вполне себе детерминированно: выбраны все события этого дня. Может ли быть такое при случайной выборке? Может. Но вы сами специально написали то, что один день для всех событий был выбран, полагаю, в качестве примера:
caveeagle
Да, это действительно может быть — неслучайность выборки (а может и не быть, доказательств неслучайности тоже нет). Но я исходил из статей авторов — там ни слова не сказано о том, что точность предсказаний может зависить от дня в году.
Точность зависит, по их словам, от силы предсказнных землетрясений, и от точности метеоданных (у нас нет данных о том, что точность метеоданных зависит от конкретного дня, метеоспутнки летают равномерно). Так что моё предположение основано на их статьях.
geisha
Там в википедии вторым пунктом идет «извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц». Давайте сюда вашу таблицу, мы все над ней посмеемся. Хоть какой-то прок будет.
Тут я вижу определенное непонимание. Точность — да, не зависит. Было бы глупо если бы она заведомо зависела — мы бы тогда использовали этот факт и улучшили бы наш прогноз. А вот сами события — зависят от дня в году. У вас есть сомнения? Вы же сами пишете в статье о том, что в (42.82, 13.19) уже неделю как трясёт. Ну давайте, продемонстрируйте свои умения в счете и оцените вероятность того, что случайное пространственно-временное пятно размером 100x100 квадратных км на один день образует последовательность из 9 элементов.
Xaliuss
То, что выбран конкретный день на выводы принципиально не влияет, так как сама исходная модель от дней особо не зависит (в любой день должна быть примерно одинаковая точность). Если бы специально выбирался день с худшей/лучшей точностью в году — другое дело, но для начальной одного дня достаточно, на результат он существенно не влияет. По сути мы здесь имеем дело не с выборкой, а сужением модели. Аналогом будет то, что если какое-то утверждение справедливо для млекопитающих, то оно должно быть справедливо для кошек. Это классический этап проверки любой теории — рассмотрение частного случая, и этот этап теория предсказания землетрясений не прошла.
geisha
Как сказал автор, «К чему именно из этого есть претензии?». Судя по «принципиально не влияет», «особо не зависит» и «сужением модели» я был «в принципе, прав».
Утверждение: с вероятностью в 1% случайно выбранное животное является собакой.У меня к вам много замечаний и большую их часть я осветил ранее. Оставлю самое вопиющее:
Xaliuss
Подразумеваются утверждения, для которых сужение данных не существенно. В исходной модели для предсказаний нет существенных отличий одного дня от другого.
Особо не зависит — точность предсказаний от дня меняется мало, и не может быть такого, что на некоторые дни точность 95%, но изредка встречается 5%. Соответственно выбор дня принципиально (с точки зрения опровержения гипотезы) на картину влиять не будет, так как разница между ожидаемым и фактическим слишком велика. Для работы автора этой статьи достаточно, чтобы предсказания в рамках одного дня были независимыми, или близкими к этому. Любые погрешности закрываются p-значением менее 0,01% (считая вероятность попадания 70% и фактическим 1/11).
geisha
Это просто неправда. Предсказания в рамках одного дня основаны на одних и тех же данных: Погода, к примеру, вполне себе коррелирует на расстояниях масштаба всей планеты тем более в один и тот же день. Любая производная этих данных тоже будет коррелировать.
Но, опять же, дело не в этом. :) Дело в том что -->статистическая выборка не случайна<--. Ведь нам могли бы дать предсказания в виде черной коробки, без каких-либо объяснений. И чтобы проверить качество коробки мы заботимся именно о том, что наш тестовый набор не имеет корреляций.
BigBeaver
Если бы корреляции были сщественными, то и предсказания не были бы проблемой, не? Мы бы просто на основе НЕ независимости событий получали бы вероятность землетрясений на завтра из знаний об уже произошедших.
geisha
Так все и работает, да: исторические данные -> модель -> предсказания. К примеру, сейчас мы уже знаем где опасно строить высотки, а где — нет.
BigBeaver
Вы ведь не читаете, что вам пишут, верно?
Или как, по-вашему, связано распределение вероятности по площади с корреляцией между разными землетрясениями?
geisha
А вот оно. Я правда очень ждал. :) То, что вы называете вероятностью зависящей от координат и времени и есть корреляции. Не верите? Корреляция — синоним зависимости. Если что-то начинает зависеть от времени или координаты, в том числе вероятность события, это означает, что оно коррелирует во времени или пространстве. Так-то. Возвращаясь к изначальному вопросу о хорошей, некоррелирующей выборке нам бы неплохо иметь события, которые настолько разнесены во времени и пространстве, что эти ваши вероятности событий сильно напоминают случайные числа.
BigBeaver
Как-то слишком толсто.
Xaliuss
Если В подмножество А, то факт верный для всех элементов из А, будет верен и для В. В случае статистических характеристик достаточно, чтобы принцип разделения А на подгруппы не коррелировал с соответствующей характеристикой.
Корреляций в реальных данных в любом случае полностью не избежать (и в статистике есть методы, как работать с корреляцией данных). Но рамках этой статьи нас интересует одна характеристика — точность прогноза, и в рамках предсказаний на один день корреляцией (только попаданий прогнозов) можно пренебречь (попарная корреляция даже в 5%-10% принципиально общую картину не изменит, а больше вряд ли может быть), так как землетрясения происходят достаточно далеко друг от друга.
Для подтверждения гипотезы одного дня конечно мало, но для опровержения уже достаточно, никакие погрешности так сильно на результат повлиять не могут.
geisha
Угу, там в Италии 9 дней подряд трясло а потом внезапно перестало. Давайте сюда расчеты ваших процентов.
Xaliuss
Не, мы получаем, что если факт неверен для В, то он не верен для А.
Я же сказал, что прогноз на один день, с землетрясениями расположенными далеко друг от друга. В этом случаи корреляция между точного попаданиями прогнозов (с учетом погрешности по расстоянию и времени) будет малой.
Dronton2
Вероятно, имеется ввиду недостаточность объёма выборки.
Если бы прогноз давался с точностью 99%, то для его проверки, может быть, было достаточно взять период в 1 день. Но заявленная точность прогноза — 70-80%. Дисперсия достаточно велика. И в течение проверяемого вами дня могло не случиться ни одного из предсказанных событий.
Вспомните историю с Пуанкаре и булочником. Вряд ли Пуанкаре поверили бы в полиции, если бы он собрал статистику всего за неделю или около того.
BigBeaver
В целом, я с вами согласен, но автор указывает все используемые допущения и его подход более, чем логичен при текущей доступности исходных данных.
Разумеется, выводы стоило сформулировать более аккуратно, но при шансе ошибки порядка одной статтысячной искушение слишком велико. Зато, это хорошо демонстрирует нам, как даже изначально очень серьезно настроенный человек может косячить… и напоминает о необходимости посмотреть разделы «Methods» при анализе любой работы даже самого авторитетного автора, каким бы симпатичным не выглядел «Abstract»))
geisha
В каких приближениях изволите прикинуть? Это не случайные и не независимые события.
BigBeaver
Да в любых. Просто, надо их указать.
Землетрясения-то?Раскройте пожалуйста мысль, а то я уже начинаю думать, что у кого-то есть детерминированная модель.
geisha
Я выше написал, что я имею ввиду. Землетрясения случаются в сейсмоопасных зонах и могут длится неделями, как показал автор статьи. Если взять за событие наличие или отсутствие землетрясения в определенном квадрате в определенный день, то это не независимые события.
BigBeaver
Если где-то трясет 5 дней подряд, то на вероятность того, что будет трясти завтра, это никак не влияет. В конце он приводит как раз материалы по этому поводу. С другой стороны, матожидание будет выше в сейсмоактивных районах, и это автор, вроде, упоминает (если нет — то косяк, но на общие выводы тоже не влияющий).
geisha
BigBeaver
Не так уж и маловероятно в геологических масштабах аремени (сколько уже существует италия?), имхо. Но если у вас есть конкретные рассчеты, я бы посмотрел. Кроме того, я не могу судить, это по землятресению каждый день, или одно длинное — я не сейсмолог. Как такие вещи определяются вообще?
geisha
Хз как. Но, если будет время, попробую спарсить данные и построить пару графиков корреляций для статьи сюда. Может это вас убедит. Ну как, убедит со значительной вероятностью. :)
LeonidI
Очень грубая и очень примитивная оценка. Просто чтобы оценить порядок величин.
Берем: предсказано 13 событий, предсказание верно с вероятностью 70%, из событий верно предсказано одно, 12 — ошибочные. Предполагаем, что автор статьи не пытался нас обмануть и не ошибся, определяя количество верно угаданных (возможна ошибка в понимании методики — предсказание не на календарные сутки, ошибка с переводом координат в километры и т.п.). Предполагаем что это случайно выбранный день, а автор не пытался выбрать худший из дней за какой-то период. Предполагаем события независимыми (что почти верно для землетрясений, но может оказаться неверным для метода обработки данных, выдающего предсказания). Считаем вероятность: двенадцать неудач дают 0,3^12; один успех *0,7; Число перестановок из 13 событий одно неправильное — 13. Перемножаем:
0,3^12*0.7*13 = 0.000005
Возможно, есть факторы которые обуславливают удачные или неудачные дни для предсказания землетрясений. Но шанс получить такую (или худшую) выборку из 13 взятых наугад событий — один из 200.000. Ну, если вероятность верного предсказания действительно 70%.