Книга отлично подойдет , как для тех, кто давно "в теме", так и для тех людей, чья профессиональная деятельность никак не связана со статистикой.

Публикую обзор книги с моего телеграмм-канала IT-старт https://t.me/it_begin на книгу "Как лгать при помощи статистики". Автор книги Дарелл Хафф.

Ссылку на бесплатную версию книги оставлю в конце поста.

Стоит читать? Да! Почему? Опишу в статье.

Статистика - то, что окружает каждого из нас, данная книга поможет разобраться с тем, как грамотно можно "подтасовывать" данные в статистике.

Для кого эта книга?

Книга рассчитана на широкую аудиторию, так как её тематика и материал будут полезны, как для опытных и компетентных людей, так и для тех, кто крайне далёк от статистики.

Рис.1. Начальная страница
Рис.1. Начальная страница

Что в самой книге?

Сама книга достаточно компактная, можно даже сказать небольшая, по соотношению к обычной канцелярской ручке на фотографиях это видно.

Состоит из 163 страниц. Но в этом и плюс данной книги, формат её компактный, а информация достойная.

Рис.1.1. Размер книги
Рис.1.1. Размер книги

Сама по себе главная иллюстрация, что изображена на обложке книги, достаточно символична)

Рис.1.2. Размер книги
Рис.1.2. Размер книги

Далее, для предметного понимания того, какие главы рассматриваются в книге, предлагаю ознакомиться с её оглавлением.

Рис 1.3. Оглавление
Рис 1.3. Оглавление

Книга состоит из 10 глав.

Так как каждая глава имеет большое количество интересных и практичных примеров, постараюсь выделить самые интересные из них для вас и рассказать о том, что нового и познавательного можно узнать в этой книге.

Книга состоит из 10 глав. Далее кратко и главное предметно постараюсь рассказать о том, что есть интересного и “полезного” в книге.

Глава 1. Выборка изначально необъективна

Рис. 2. Глава 1
Рис. 2. Глава 1

В самой первой главе автор начинает с раскрытия того аспекта, насколько важна первоначальная выборка данных.

Обычно, выборки , что используются в статистических исследованиях, имеют много искажений. Для предметного понимания:

Если вам надо опросить днем людей с интересующим вас вопросом и для этого вы выходите на улицу, то идет первое искажение вашей выборки, ведь в ней не будут задействованы те люди, что в данный момент находятся у себя дома.

Если вы пойдете по квартирам и будете стучаться в дверь, общаться с теми, кто дома, появляется следующее искажение выборки, вы не застаёте тех, кто сейчас на работе.

Хорошо, вам приходит идея опрашивать людей по вечерам, когда многие люди идут домой с работы или же уже находятся дома, но и тут искажение, вы не учитываете в своей выборке тех людей, что любят посещать кино или же посетить увеселительное заведение.

Всё это отлично рассмотрено в первой главе. Так что, теперь мы с вами понимаем , что в разное время и в разных условиях мы постоянно получаем разную выборку, объективность и точность которой также будет изменчива, в зависимости от первоначальных условий.

Что хотелось бы также отметить, книга полна забавных иллюстраций)

Рис. 2.1 Глава 1
Рис. 2.1 Глава 1

Глава 2. Грамотно выбранное среднее

Рис.3. Глава 2
Рис.3. Глава 2

В этой главе автором удачнее всего рассмотрен знакомый многим жизненный пример – средний зарплатный показатель.

Когда мы встречаем такое понятие, как средняя зарплату, автор предлагает первым делом задать самим себе вопрос:

Кого включает в свою выборку данная средняя зарплата. В пример приводится случай из истории, когда одна сталелитейная компания из Америки заявляла, что средняя зарплата их сотрудников выросла на 107% за промежуток 1940-1948 гг., но было одно но, этот показатель включал значительно большее число частично занятых сотрудников.

Для понимания, если в 1941 году сотрудник работа полнедели, а в 1942 он уже работал полную рабочую неделю, то зарплата такого сотрудника возрастает в два раза. Таких вариаций изменений условий и времени труда много, что крайне показательно для того, как можно манипулировать понятием “среднее”.

Глава 3. Нюансы, о которых скромно умалчивают

Рис.4. Глава 3, страница 64
Рис.4. Глава 3, страница 64

В этой главе автор знакомит нас с следующими понятиями:

Критерий значимости – та штука, что показывает, какая вероятность того, что полученная в ходе испытаний (исследования) цифра отражает реальный результат, а не случайное значение.

Размах исследуемого признака – если простыми словами, то это разность между наибольшим и наименьшим значениями результатов наблюдений.

Краткий вывод по всей главе сводится к следующему: не доверяйте тем исследованиям, где не уточнены

  • Критерий значимости

  • Размах исследуемого признака

  • Отсутствуют какие-либо пояснения и формулы расчетов

  • Нет подписей данных на осях графиков

Глава 4. Много шума практически из ничего ( насколько объективен IQ тест)

Рис. 5. Глава 4 , страница 68
Рис. 5. Глава 4 , страница 68

Автор рассматривает ситуацию, когда нам необходимо самостоятельно измерить размеры огромного числа полей, причем измерять нужно без рулетки и иного рода измерителей, а шагами.

Так как мы живем в России, буду писать метр, а не ярд, для легкости восприятия.

В среднем погрешность подобной деятельности составить 3 м на каждые 100 м. Грубо говоря, на каждые 100 м погрешность +- 3 м.

Далее автор рассматривает IQ тест, что имеет погрешность 3%.

К примеру, если у Алексея IQ 88 +-3, а у Анастасии IQ 91 +-3, получается в одном из случаев, Алексей может иметь IQ 88 + 3 = 91 против 91 – 3 = 88 у Анастасии и оказаться умнее.

В целом, автор ведёт к тому, что не совсем верно оценивать IQ человека по абсолютному значению, а куда корректнее делать это диапазоном, в нашем случае это диапазон IQ у Алексея 85-91 и у Анастасии 88 – 94.

Не сказать, что я согласен с автором в этом моменте, большая это тема для споров, но теория интересная)

Идём далее.

Глава 5. График – лучше не бывает

Рис.6. Глава 6, страница 78
Рис.6. Глава 6, страница 78

Вся суть данной главы сводится к тому, как незначительную числовую разницу в графике можно представить, как что-то грандиозное и великое.

Предлагаю обратить внимание на верхний рисунок. Фонд зарплаты госслужащих США в 1937 г. вырос с 19 500 000 $ до 20 000 000$. Если исходить из числовых значений, то рост в период с июня по ноябрь 1937 года составляет всего 2.56 %, но на графике же рост выглядит куда значительнее, согласитесь?

Считаю это крайне интересным и показательным примером того, как можно исказить график с той целью, чтобы зрительного всё выглядело куда иначе, нежели есть на самом деле.

Глава 6. Схематичная картинка

Рис.7. Глава 6, страница 84
Рис.7. Глава 6, страница 84

Сама по себе глава достаточно объемная и интересная, но чтобы кратко передать её суть, предлагаю рассмотреть следующий пример из книги.

Мощность производства сталелитейной промышленности США в 1930-е годы составляла 10 млн тонн чугуна.

В 1940-е же мощность сталелитейной промышленности выросла на 42.5% и уже составляла 14.25 млн тонн чугуна.

Но, если бегло взглянуть на схематичную картинку, что образно должна нам показать изменение объема мощности выпускаемой продукции, может быть создано впечатление, что рост не 42.5%, а все 300%.

Этот пример отлично показывает, как зрительно искаженный образ может менять восприятие числовых значений. Подобное, к сожалению, нередко встречается и в наши дни.

Глава 7. Псевдообразная цифра

Рис.8. Глава 7, страница 88
Рис.8. Глава 7, страница 88

В данной главе автор пытается раскрыть нам следующее:

Если у вас не получается доказать то, что вы хотите доказать, то продемонстрируйте нечто иное и настаивайте на том, что это то же самое.

Из всех примеров, что были рассмотрены в книге, более всего мне запомнился пример с лекарством.

Его краткая суть в следующем:

Если вы не имеете возможности доказать того, что ваше лекарство лечит от простуды, то никто не мешает вам напечатать результаты лабораторного исследования: полкапли лекарства помещенные в пробирку через 11 секунд может уничтожить 31 108 бактерий.

Вы, в свою очередь отражаете действительную информацию, но насколько это близко к тому, что ваше лекарство реально лечит от простуды – вопрос открытый. Так это и работает)

Глава 8. И снова “после – значит вследствие”

Рис.9. Глава 8, страница 102
Рис.9. Глава 8, страница 102

Идея данной главы в том, что заблуждения всегда обнаруживаются в статистических данных, замаскированные в гуще внушительных цифр.

Автор предлагает не поддаваться заблуждению “после – значит вследствие” и подвергать любое утверждение тщательному анализу.

В главе рассмотрены также типы ложной корреляции. Больше всего мне хотелось бы рассмотреть следующий рассмотренный в книге тип корреляции.

Фиктивная корреляция – когда ни одна из переменных не оказывает никакого влияния на другую, но при этом корреляция между переменными подтверждается расчетами.

Понравилось в данной главе также рассуждение автора о производителе зубной пасты.

Если вы производите зубную пасту, что должна защищать от кариеса, ваша задача это отбрасывать неугодные вам результаты и делать акцентах на тех, что подходят для ваших целей.

Глава 9. Как производить стастикуляции

Статикуляция – это статистические манипуляции.

Автор предлагает рассмотреть следующие манипуляции с данными:

  1. Подбор подходящих средних величин ( как в главе 2 “Грамотно выбранное среднее”)

  2. Искажение диаграмм ( как в главе 5 “Трюки с графиками”)

  3. Сложение неслагаемого

  4. Манипуляция индексами

  5. Манипуляция с процентами

Больше всего понравилось рассмотрение примера манипуляции с процентами.

Лучшим и показательным считаю привести пример следующих изображений из книги

Рис10. Глава 9, страница 126
Рис10. Глава 9, страница 126
Рис 10. Глава 9, страница 127
Рис 10. Глава 9, страница 127

Глава 10. Как поставить статистика на место

Рис 11. Глава 10, страница 140
Рис 11. Глава 10, страница 140

В заключительной главе автор предлагает всегда задавать 5 критических вопросов к тем, кто производил то или иное статистическое исследование:

  1. Кто это говорит? Первое, на что советует обращать внимание автор, на предвзятость статистических данных, о том, кто производит исследования, насколько он заинтересован в том или ином исходе.

  2. Откуда ему это известно? Не смещенная ли выборка, достаточно ли велика выборка, достаточно ли рассмотренно случаев, чтобы выявленная корреляция была значима.

  3. Чего не хватает? Указывается ли степень достоверности и есть ли другие цифры, что могут помочь оценить значение данных?

  4. Не подменен ли объект исследования? Будьте внимательны к тому, не производилась ли подмена при переходе от исходных значений к выводам?

  5. Есть ли в этом смысл? Пожалуй, самый важный вопрос, ведь далеко нередко статистические исследования не имеют никакой практической пользы. Автор рассматривает пример, что в период с 1947 по 1952 г. число телевизоров в домах жителей США возросло на 10.000%. Но, также автор предлагает экстраполировать это на следующие 5 лет, что привело бы к тому, что количество телевизоров будет стремиться к двум миллиардам. Тут есть над чем подумать)

Теперь, тезисно о плюсах и минусах книги

Плюсы книги:

1.Цена

Книга имеет более чем доступный ценник и цена новой книги не превышает 600 руб. на популярных маркетплейсах.

Рис.12. Цена книги на Ozon
Рис.12. Цена книги на Ozon
Рис.12.1 Цена книги на Wildberries
Рис.12.1 Цена книги на Wildberries

Мне книга досталась еще дешевле, покупал в мае за 282 руб., так как находилась в отделе книжного магазина, где только литература с некондицией.

Рис.12.2 Ценник моей книги
Рис.12.2 Ценник моей книги

Внешне никаких видимых повреждений у книги не было. Только если приглядеться и правильно подать свет, видно, что обложка книги имеет царапины.

Рис. 12.3. Царапины на книге
Рис. 12.3. Царапины на книге

Сама же книга выглядит более чем презентабельно, тем более , мне она нужна была не на подарок, а для собственного чтения.

Рис.12.4 Фото книги
Рис.12.4 Фото книги

Что же, переходим к следующему достоинству книги.

2. Качество изготовления, вес и размер книги.

Книга произведена качественно, страницы не расклеиваются, текст напечатан четко. По идее, данные плюсы должны быть обыденными и не выделяться как-то отдельно, но исходя из некоторых последних книг, что были прочитаны мною, уже и такие простые вещи приходится ценить.

Сама по себе книга достаточно небольшая, по соотношению книги к моей руке это видно, её удобно брать с собой , положив в сумку или небольшой рюкзак, вес её также позволяет без проблем долго держать в руках в транспорте , никакого дискомфорта.

3.Книга написана простым языком.

Это сугубо индивидуальное суждение, но по мне, книга написано крайне понятно, не кишит математическими терминами и адаптирована под любого уровня читателя, от профессионала до обывателя, тем самым, делая полезную информацию доступной, независимо от компетенций читателя.

Минусы книги:

1.Очень плотное сплетение книги

Так как книга в целом мне понравилось, сложно выделить какие-либо минусы.

Могу выделить пожалуй один минус, это плотное сплетение книги. Банально открыть книгу, положить её на стол и приступить к её прочтению не получится, книга постоянно будет пытаться захлопнуться. Приходится или придерживать руками или ставить на неё предметы, что в последнем случае не совсем удобно, учитывая, что книга небольшая, читается быстро и перелистывать страницы приходится часто.

Подведение итогов по книге:

Могу посоветовать к прочтению данную книгу. Имеет много полезной информации, что позволит критически и более обдуманно относиться к той публичной информации , что окружает каждого человека.

Статистическим методам и т.п. эта книга не научит, но расширить кругозор, дать полезные знания – эта книга может. Советую.

Мой канал в телеграмм

Если обзор показался вам интересным, то буду благодарен за подписку на мой

канал IT-старт t.me/it_begin

где я также публикую обзоры технической литературы и полезную информацию как для действующих, так и для начинающих программистов

Ссылка на бесплатную электронную версию книги https://t.me/it_begin/398

Комментарии (17)


  1. mentin
    09.11.2022 03:59
    +3

    Про автора книги стоит заметить, что он использовал примеры и анекдоты из этой книги во время свидетельства в конгрессе США (за которое ему заплатили табачные компании) "доказывая" что курение не вызывает рак. И почти опубликовал книгу «Как лгать при помощи статистики курения», получил за неё оплату от производителей табака, но в последний момент кто-то из них решил не публиковать. Не будьте как Дарелл Хафф.


    1. Didimus
      10.11.2022 18:20

      Было кино на эту тему, thank you for smoking, кажется


  1. ElenaSotnikova
    09.11.2022 04:52
    +1

    Благодарю за обзор книги. Видела такую у коллеги на столе, но постеснялась спросить, для чего он такое читает


    1. Didimus
      10.11.2022 18:23

      После прочтения этой книги я стал умнее на 150 базисных единиц (с), ответил бы коллега


  1. bitronom
    09.11.2022 04:52

    Не презентабельная выборка основной грех.?


    1. ksbes
      09.11.2022 09:54

      Один из, но, пожалуй, не самый основной.
      Самый основной — подмена или (чаще) просто не понимание вопроса на который отвечает тот или иной статистический результат. А от этого идёт всё остальное.

      Т.е. если цифры «честные», а не нарисованные — то какая бы выборка не была, какую-то информацию мы получили. Но какую?
      И это встречается не только в политических играх. Даже в серьёзной науке такое сплошь и рядом.

      Или, недавний пример, в ИТ-бизнессе: результаты «опроса» нашего продукта показали 78% положительных отзывов. И пришлось долго объяснять начальству и про нерепрезентативность выборки (у кого не работают наши сервисы — те физически не могли участвовать) и про то что вообще-то мы работаем на десяток «китов» — остальным можно вообще бесплатно сервис предоставлять и как раз-то «киты» и недовольны (не равный вес слагаемых)


  1. Rad_66
    09.11.2022 08:35
    -3

    Чтобы понять как устроена статистика просто надо заглянуть в кошелек)))

    Даже книгу не надо покупать)

    Хотел скачать так и не понял, как без телеги, можно было бы выложить на любой диск)

    ну не ставить же этот хлам ради книги)


  1. Gor40
    09.11.2022 09:32

    Кто-нибудь может книгу перезалить в другое место?


    1. Rad_66
      09.11.2022 20:55

      минусонут))) )))


  1. hel1n
    09.11.2022 11:52
    +1

    Интересно, а правообладатель знает о распространение книги бесплатно в сомнительном ТГ канале?


    1. Didimus
      10.11.2022 18:50

      Давайте ещё упущенную выгоду посчитаем


  1. TularemY
    09.11.2022 21:02

    Спасибо за обзор!
    Впрочем, кто не обманывает при помощи статистики?... :)


    1. Didimus
      10.11.2022 18:52

      90% не обманывают


      1. Rad_66
        11.11.2022 08:11

        Вы сейчас кого имели ввиду? можно пример?


  1. EugeneYakovev
    09.11.2022 21:02

    Пособие о том - как спекулировать неграмотными людьми) В целом любопытный материал, но не думаю что подобные маневры с цифрами, обманом зрения и тд. останутся бесследно. Если б я такого хитрого человека встретил и понял бы его схемы - вряд ли осталось бы доверие ИМХО


  1. Mike-M
    11.11.2022 15:32

    Так привык к шрифту Sans Serif на ПК, что Serif в книге воспринимается как-то напряжно )

    Теперь по сути. Странно, что не указан один из основополагающих факторов статистики: при каком количестве респондентов выборка может считаться репрезентативной.


    1. ksbes
      11.11.2022 15:54

      На этот вопрос нет однозначного ответа. Зависит от методики и предмета исследования. Очень сильно.
      В сравнительно однородной среде и десятков человек будет достаточно (в клинических исследованиях люди более-менее одинаково реагирут на мышьяк, например). А, например, для рейтинга телепередач нужна минимум пара тысяч.