Всем привет! Меня зовут Виктория Головнева, я работаю джуниор аналитиком. Как и любой джун, я постоянно прохожу какие-то курсы, читаю статьи и книги по рабочей (и околорабочей) тематике, чтобы прокачивать мой уровень знаний в SQL, статистике, методах визуализации данных и многом другом.

Недавно мне попалась книга «Как не ошибаться. Сила математического мышления», Джордана Элленберга — о ней и пойдёт речь.

В этой статье я хочу привести несколько простых математических/логических задач, которые:

  • Помогут немного размять мозги;
  • Возможно, кому-то помогут узнать новые понятия из математики и статистики.

Ну и посоветовать интересную книгу, которая на примерах из реальной жизни показывает, какие ошибки можно допустить даже в простых ситуациях, и как правильно задавать себе вопросы, чтобы не совершать эти ошибки в дальнейшем.

Заинтересовались? Тогда погнали под кат!



Небольшое введение


Все задачи, приведённые в этой статье, — не более чем выбранные задачи, которые ставит перед читателем математик Джордан Элленберг, автор книги «Как не ошибаться. Сила математического мышления».

В своей книге автор на 512 страницах простым языком без формул и сложных терминов пытается показать читателю, что математика — это не «выучи таблицу умножения» и «формулы, по которым можно взять интеграл», а определенный взгляд на мир, который может быть весьма полезен в разных ситуациях.

Хочу сразу отметить некоторые особенности данной книги, которые мне удалось заметить.

Первая приятная особенность

Достаточно часто творения, которые заявляются как «что-то сложное объясним для всех», имеют общую проблему — уж совсем элементарные вещи начинают разжевывать на простейших примерах, полностью опуская термины или «слишком сложные понятия». Элленберг же смог найти определенный баланс. То есть если нужно ввести аксиому из геометрии, он ее введет и напишет. Если речь идет о законе больших чисел, то формулировку закона он приведет. Просто подведет к ней плавно и через жизненный пример.

Вторая «цепляющая» особенность

Очень много отсылок к реальным статьям/исследованиям/событиям. Тут вам и примеры из Второй мировой, и оценивание высших учебных заведений в Америке, и суть некоторых азартных игр, и мошеннические схемы.

Третья особенность, которую я бы назвала специфической

Много рассуждений на различные темы: от религии до правильного устройства государства. Лично я такие моменты не сильно люблю. Приведу цитату из книги в качестве примера, чтобы проще объяснить, о чем я говорю:
Как бы я ни любил числа, я считаю, что люди должны придерживаться какого-то из принципов: «Я не верю в Бога», «Я верю в Бога» или просто «Я не уверен». Как бы я ни любил байесовский вывод, я считаю, что людям лучше обретать веру (или отбрасывать её), не прибегая к числам. В этом деле математика хранит молчание.

Но если оценивать книгу в целом, достаточно интересно и увлекательно.

А кому будет полезно прочитать книгу?


Мне кажется, в первую очередь книга будет полезна тем, кто не сталкивается со статистикой напрямую, но каждый день смотрит на данные и старается задавать себе (или кому-то) правильные вопросы для принятия решений. Как минимум потому, что есть целый блок про способы жонглирования числами и про то, как это жонглирование заметить и распознать откровенную манипуляцию с данными.

Также книга может быть полезна джунам-аналитикам. Ведь всегда лучше учиться на чужих ошибках, чем совершать собственные. А таких «совершенных ошибок» автор книги приводит достаточно много.

И, конечно, тем, кому просто нравится изучать статистику на реальных задачах. В этой статье я постаралась передать тот формат повествования, которого придерживается автор, а именно формат: задача > неправильное рассуждение > немного теории > правильный ответ.

Также можно спокойно подсовывать эту книгу родителям или друзьям, которые далеки от мира математики и постоянно мучают вас вопросами: «да чем же ты все таки занимаешься?» или «ой, да зачем учиться в техническом вузе? Калькулятор и компьютер все посчитают за нас!».

Проверено на личном опыте на моих собственных родителях, кстати.

Ну когда уже задачи?


Со вступлением и кратким описанием самой книги почти закончили, так что давайте переходить к самому интересному.

Задачка №0 (разминочная): «Что укрепить в самолете?»
Представьте, что случилось непоправимое и вы оказались в 1943 году в разгар Второй мировой войны. Вы — инженер, задача которого усовершенствовать существующие самолеты так, чтобы они были более устойчивы к вражеским атакам.

Но есть ограничение: дополнительная броня — тяжелая, а значит покрыть весь самолет — не выход, он станет тяжелым и менее маневренным.

Ваша задача: найти оптимальное решение.
В вашем распоряжении данные об элементах конструкции самолета и количестве пулевых отверстий на квадратный фут, которые собраны на основании осмотра вернувшихся из боевых сражений самолетов.

  • Двигатель — 0,11
  • Фюзеляж — 1,73
  • Топливная система — 1,55
  • Остальные части самолета — 1,8

Ну и здравый смысл.

Внимание, вопрос: что стоит укрепить в первую очередь?

Ответ
Броню стоит укреплять не там, где больше всего пробоин. Броню стоит укреплять там, где пробоин на выживших самолетах меньше всего или нет вовсе.

В данной задаче мы сталкиваемся с таким понятием, как систематическая ошибка выжившего. Термин был введен математиком Абрахамом Вальду, перед которым и поставили данную задачу. Он понял, что укрепление тех мест, которыми чаще всего повреждены у вернувшихся самолетов, — это логическая ловушка. Ведь в данном случае упускается тот факт, что эти самолеты выживали. Пробоины в этих зонах не были критичны для полета. Погибали же машины с повреждениями в других зонах, а значит именно их и следовало укреплять.

С систематической ошибкой выжившего мы сталкиваемся постоянно. Она возникает в тех случаях, когда мы делаем выводы на основе данных, которые описывают ситуацию только с одной стороны (со стороны «выжившего»). При этом мы не знаем об однобокости и считаем, что перед нами вся картина целиком.

Хотелось бы сразу привести два хрестоматийных примера допущения ошибки выжившего при разработке продукта.

Ситуация #1: Планируется качественное исследование. Вы хотите пообщаться с пользователями вашего продукта, чтобы протестировать новую функциональность и понять, какой путь проходят пользователи в продукте, чтобы достигнуть своих целей.

Делаете рассылочку, назначаете несколько интервью. Казалось бы, где здесь может быть ошибка?

Все достаточно просто. Есть вероятность, что люди, которые согласились на интервью, это те, кто остались в вашем продукте (выжившие) и смогли с ним разобраться. А те ребята, которые не справились и ушли из продукта (и кто может вам рассказать о реальных критических проблемах), на интервью могут не попасть.

Ситуация #2: Представьте, что вы выпускаете новую фичу. Через некоторое время к вам приходит саппорт и говорит: «У нас уже 1000 запросов по поводу этой функциональности. Кажется, пользователи недовольны и им не нравится, они не могут с этим разобраться».

Это тоже классический пример, где вы можете ошибаться. Здесь вы работаете только с пользователями, которые были заинтересованы в новой фиче, но не разобрались с ней. Нужно обязательно пойти и проверить, какое количество пользователей справились с настройкой (и как следствие, не пришли в саппорт с жалобой). И уже на основании полных данных делать выводы, стоит ли выпиливать/менять новую функциональность.

Чтобы не стать жертвой ошибки выжившего, можно воспользоваться математическим приемом: присвоить некоторым переменным значение 0. В случае с самолетами такой переменной выступит количество самолетов, у которых было прямое попадание в двигатель и которые вернулись на авиабазу. Соответственно, наши данные дополняются еще одной строчкой:

  • Двигатель (прямое попадание) — 0


Этому может быть 2 объяснения:

  1. Немецкие орудия попадают во все части, кроме двигателя
  2. Самолеты после такого ранения не возвращаются на авиабазу, а значит двигатель — самое уязвимое место.


Задача №1: «Доверять ли фондовому брокеру из Балтимора?»
Представьте, в понедельник вы проверяете свою почту и натыкаетесь на письмо от фондового брокера из Балтимора, где говорится, что с этого понедельника акции компании X пойдут вверх.

И, о чудо, так и происходит.

Следующий понедельник и снова письмо от этого брокера, но на этот раз в письме говорится, что акции компании Y начнут падать.

И вновь предсказание сбывается.

История повторяется десять понедельников подряд. На одиннадцатый понедельник вы получаете письмо, где вам предлагают доверить свои деньги фонду этого брокера. Да, комиссия на порядок выше, чем у всех остальных, но «уникальная схема и дар предвидения» того стоят.

Внимание, вопрос: стоит ли доверять фондовому брокеру из Балтимора? Где здесь может быть подвох?

Ответ
На первый взгляд — неплохая сделка. Какова вероятность сделать 10 правильных прогнозов подряд?

Вот это мы как раз можем рассчитать. Упростим и допустим, что любой человек может предсказать судьбу акций верно с вероятностью 50%, то есть 1/2. Тогда для двух сделок вероятность составит уже 1/4. Вероятность трех правильных прогнозов составляет 1/8 и так далее.

Вероятность того, что любой человек может 10 раз подряд верно предположить судьбу акций составляет (1/2)^10 = 1/1024.

То есть мы точно видим, что вероятность 10 раз не ошибиться человеку, который ничего не смыслит в акциях, стремится к нулю.

Однако ситуация будет выглядеть иначе, если перейти в систему отсчета нашего брокера из Балтимора. В первую неделю он делает первую рассылку на 10240 человек. Но не все письма были одинаковыми. Половина была о том, что акции вырастут, другая половина — что акции упадут. Таким образом 5120 человек получают верный прогноз. Через неделю брокер на «верную» половину делает новую рассылку, повторяя схему. После второй недели у него останется 2560 контактов.

И так далее.

После 10 недели у него останется 10 контактов, которые получали «верные» прогнозы все 10 недель.

Здесь мы сталкиваемся с так называемой «возможностью для маневра».

Когда вы пытаетесь сделать достоверные выводы из маловероятности события, вы можете столкнуться именно с этой проблемой. Для полноты картины следует рассматривать не только «маловероятность» того или иного события, но и фактическое количество исходов, которые мы считаем «маловероятными».

Кстати, если вы думаете, что в жизни такое случиться не может, то ошибаетесь. Недавно на VC была статья, в которой автор рассказывает ситуацию из жизни, которая практически полностью копирует схему фондового брокера из Балтимора.

Задача №2: «Будут ли все страдать от избыточного веса?»
Национальная программа проверки здоровья и питания населения отслеживает данные о состоянии здоровья большой репрезентативной выборки граждан. В частности, данные о доле людей, имеющих избыточный вес.

Изучив данные, авторы статьи в журнале Obesity сделали предположение: К 2048 году все население Америки будет страдать от избыточного веса.

Внимание вопрос: так ли это? Если нет, то где ошибка в рассуждениях.

Ответ
Конечно, нет. Все дело в том, что не все линии прямые.

«Тем не менее, как мы узнали от Ньютона, каждая линия достаточно близка к прямой. Эта идея лежит в основе линейной регрессии — статистического метода, имеющего для социологии то же значение, что и отвертка при ремонте дома. Каждый раз, когда вы читаете в газете, что: люди, у которых много двоюродных братьев и сестер, чувствуют себя более счастливыми; граждане стран, где шире представлена сеть экспресс-кафе «Бургер Кинг», больше придерживаются свободной морали; сокращение приема ниацина повышает риск дерматофитоза в два раза; каждые 10 тысяч долларов дохода на 3% повышают вероятность, что вы проголосуете за республиканцев, — во всех этих случаях вы имеете дело с результатом, полученным методом линейной регрессии

И понятно, какой логикой руководствуются авторы. Перед их глазами данные:

  • Начало 1970 годов — менее половины населения Америки страдают от ожирения.
  • Начало 1990 годов — около 60% населения Америки страдают от ожирения.
  • 2008 год — 75% населения Америки страдают от ожирения.

Отмечаем точки на графике и формируем линейную регрессию. Прямая линия пересекает уровень 100% в 2048 году.

Но как найти ошибку в рассуждениях?

Если мы предполагаем, что текущая тенденция сохраняется без изменения, то к 2060 году мы получаем уже 109%. А это, как вы понимаете, невозможно.

Но что делать, если вам нужно построить прогноз? Не стоит забывать, что методов прогнозирования существует достаточно много. Даже на хабре есть несколько статей на эту тему с интересными обсуждениями в комментариях (например, вот эта статья). Так что под каждую задачу стоит искать свое решение, к сожалению, универсальной «пилюли» на все случаи жизни тут нет.

Задача №3: «Кто лучше всех подбросит монеты?»

Давайте сыграем в игру. Вы и еще несколько участников подбрасывают монеты. Побеждает тот, у кого большее всего монет упадет орлом вверх. Учитывается относительный показатель.

Чтобы несколько разнообразить игру, представим, будто не у всех участников одинаковое количество монет. У Малой команды всего 10 монет у каждого участника и всего 100 участников у Малой команды, а у Большой команды — 100 монет и 100 участников.
Кто с большей вероятностью выиграет?

Ответ
Если подсчитывать только абсолютное количество монет, упавших орлом вверх, то у участников Большой команды количество монет будет стремиться к 50. Такое количество орлов не сможет достигнуть ни один из участников Малой команды.

Кажется, что судить по относительным результатам — правильное решение.

Однако, если в Малой команде сто игроков, минимум один из них может выбить хотя бы восемь-девять орлов. Следовательно, в результате он получит минимум 80% монет, выпавших лицевой стороной вверх. А как насчет Большой команды? Ни один из ее игроков не получит 80% орлов. Безусловно, физически такое возможно. Но на самом деле вам понадобилось бы около двух миллиардов игроков в составе Большой команды, чтобы появилась довольно высокая вероятность получения результата, свидетельствующего о серьезном перевесе.

Понимание, что результаты эксперимента стремятся к фиксированной средней величине, когда этот эксперимент повторяется многократно, — факт далеко не новый. Этот принцип сформулировал в XVI столетии Джироламо Кардано — правда, без всяких формальностей; и только в начале XIX столетия Симеон Дени Пуассон придумал для него выразительное название — «закон больших чисел».

Но вернемся к самой книге...


В целом, первая часть книги практически полностью состоит из подобного рода задач. Автор вводит базовые математические понятия и даже приводит логику доказательства некоторых теорем.

Плавно подбираясь ко второй части, сложность понятий увеличивается вместе со сложностью задач, которые предлагает автор. Но все также просто и понятно даже человеку, который не прослушал 100500 часов лекций по высшей математике.

Вы постепенно перемещаетесь от систематической ошибки выжившего к регрессии, к среднему значению. Прочитали еще пару глав, и вот вы уже знаете об ошибке Берксона. Осиливаете еще несколько разделов, и вот вы уже подбираетесь к проблемам Гильберта. Так вы путешествуете по миру математики и статистики и знакомитесь с фундаментальными понятия и теоремами. Например, с нулевой гипотезой, с теоремой Геделя о неполноте, с задачей Бюффона о бросании иглы, с теоремой о распределении простых чисел.

Так что если вы вдруг почувствовали, что у вас немного барахлит прибор, отвечающий за критическое мышление, или вы начали забывать программу математической статистики, то книга подойдет как вечернее чтиво под винишко.

Что еще почитать?


Если вам в целом интересны подобные книги, в которых простым языком объясняются сложные вещи из статистики, аналитики и окружающем мире, то обратите внимание на такую подборку:

1. Статистика и котики. Автор: Владимир Савельев.

Неожиданно, но книга о статистике на примере котиков. На котиках вводятся общеизвестные понятия, такие как мода, среднее, медиана. На котиках же рассказывают про дисперсию и среднеквадратическое отклонение. На котиках разбираются стат.критерии. В общем, все на котиках и все супер-просто (да еще и с картинками).

Пример иллюстрации из книги


Недавно наша команда провела в компании воркшоп по A/B-тестам. В процессе подготовки часто обращались к этой книге, чтобы подсмотреть простой способ что-то объяснить.

2. Фрикономика: Экономист-хулиган и журналист-сорвиголова исследуют скрытые причины всего на свете. Авторы: Стивен Левитт, Стивен Дабнер.

Что опаснее — огнестрельное оружие или плавательный бассейн? Почему торговцы наркотиками продолжают жить со своими родителями? Как много на самом деле значат родители и выбор имени для ребенка?

Это не странные вопросы, это названия глав из книги. Именно эти вопросы разбираются в книге, причем все это подкрепляется отсылками на серьезные научные исследования.

В целом, книга учит критически относиться к любой поступающей информации, мыслить логически и замечать незначительные детали.

А если хочется большего?


Если вам хочется более системно подойти к изучению статистики или глубже залезть в аналитику, то ловите несколько курсов и подборок лекций.

1. Курс по основам статистики на stepik. Курс бесплатный. Подойдет даже новичкам, так как лекции начинаются с самых основ.


2. GoPractice — курс про управление продуктом на основе аналитики и данных. Платный.
Весь процесс обучения построен на том, что вы «проживаете» профессиональную историю.

Процесс обучения идет по схеме:

  • Есть задача, которую нужно решить (и с которой вполне можно столкнуться в реальной жизни);
  • Несколько задач в этой тематике;
  • Теория;
  • Несколько задач на отработку этой теории.

3. Неожиданно, но институтские лекции — Статистика, прикладной поток, МФТИ. Хардово, не для новичков, но зато основательно.

Ссылка на YouTube.

А какие книги/курсы вы бы порекомендовали к прочтению?