Посмотрите, вот гистограмма с накоплением, иллюстрирующая распределение пассажиров «Титаника» — очень популярный в визуализации данных пример — в зависимости от их пола:

Что не так с подобным представлением данных? Главные недостатки именно этой гистограммы в том, что, во-первых, накопление здесь легко перепутать с наложением: при взгляде на график неясно, начинается ли отсчет числа женщин с нуля по оси Y или с окончанием синего столбца. Во-вторых, визуально достаточно затруднительно сравнить данные только по женщинам и понять, какая возрастная категория среди них преобладает. 

Есть более удобные варианты представления таких данных на графике, например, накладывающиеся графики плотности: 

Или представление в виде двух расходящихся гистограмм:

Это лишь один из множества примеров того, как лучше визуализировать данные, приведенный в книге Клауса Уилке про искусство создания графиков «Основы визуализации данных». Перед нами отнюдь не такая специализированная тема, как может показаться на первый взгляд: удобное и понятное представление статистики на графиках важно для отчетов и презентаций в большинстве сфер деятельности, для курсовых и дипломов в большинстве дисциплин. Уилке — профессор вычислительной и эволюционной биологии в Техасском университете, а также программист и автор нескольких популярных пакетов на языке R, созданном для статистического анализа данных. В своей книге он дает ссылки на нужную литературу по программированию данных и собственные архивы с кодом, но сам текст посвящает именно аналитике визуального представления различных графиков, независимо от используемого ПО. Эта книга — сборник важных уроков взаимопонимания для настоящих статистиков. 

Комментарии (0)