- гистограмма
- ящик с усами

Рассмотрим произвольную выборку вещественных чисел
Гистограмма
Скорее всего все поменять этот тип графика из школьной или университетской программы, который выглядит приблизительно так как на картинке.

Прежде всего необходимо помнить, что значения входной выборки располагаются по оси x, а по оси y располагается число раз, которое данное значение встретилось (назовем их отсчеты). Гистограмма позволяет огрубить и сделать набор данных более компактным, при этом не умаляя его специфичность.
Важными характеристиками гистограммы являются следующие:
- число столбцов (которые называются bins или bars)
- абсолютные или плотностные отсчеты по оси y
- как сгруппированы данные
Столбцы
В подавляющем большинстве случаев гистограмма определена на отрезке
Так же обычно гистограммы делят отрезок I на подотрезки равной длины и, вот, выбор числа отрезков является искусством, хотя можно привести несколько формул:
- Правило Стёрджеса (Не фотограф).
- Правило Скотта.
- Правило Фридмана-Дьякониса.
где
Так же можно отметить несколько правил здравого смысла:
- хорошо чтобы в большинстве столбцов было больше одного исходного значения
- каждый столбец гистограммы требует хотя бы одного пикселя по ширине, и в целом ограничение “не более 200” столбцов достаточно распространено
В противном случае, если число столбцов избыточно, а исходных данных мало, гистограмма будет напоминать штрих-код, как например на рисунке ниже.

Ось Y
Гистограммы бывают в абсолютных значениях, когда по оси y откладывается количество элементов исходной выборки попавших в каждый из интервалов, и в относительных, когда сумма столбцов нормируются на единицу, в этом случае гистограмма является оценкой плотности распределения и с точки зрения графика меняется лишь масштаб.
Так как обычная гистограмма является оценкой плотности, то мы можем суммировать столбцы и получить оценку функции вероятности следующим образом:


Группировка данных
До сих пор был рассмотрен случай, когда у нас есть характеристика, на которую мы просто хотим взглянуть, обычно намного более интересно сравнивать поведение одной и той же характеристики для различных подгрупп. В таком случае гистограмма будет иметь следующий вид.

В данном случае, ширина каждого столбца для каждой группы уменьшается пропорционально числу групп и слегка сдвигаются друг относительно друга, в качестве альтернативы можно рассмотреть полупрозрачное перекрытие, которое будет выглядеть следующим образом для тех же данных.

В сухом остатке
Для отрисовки гистограммы необходимо определить
- Число столбцов
- Нужна ли нормализация и аккумулирование данных
- Способ отображения различных групп
Для отрисовки гистограммы для каждой группы требуется хранить следующие значения:
значение границ столбцов, где самое первое значение
-координата левой границы самого левого столбца, а последнее —
-координата правой границы самого правого столбца
значений — количество элементов попавших в каждый из столбцов.
Диаграмма размаха
“Ящик с усами” не имеет официально устоявшегося названия, а называть его “ящиком с усами“ у меня язык не поворачивается, тем более когда ящиков несколько, а диаграмма размаха хоть и не очень частотное, но более благозвучное название. Приведем пример трех ящиков слева отображены соответствующие значения исходных данных (не являются частью диаграммы размаха). Прежде всего необходимо отметить, что в случае диаграмм размаха, исходная характеристика откладывается по оси Y, а ось X условна и представляет собой группирующую переменную.

Чтобы нарисовать ящик для одной группы про исходные данные необходимо знать всего три характеристики:
- Первый квартиль
- Медиану
- Третий квартиль
Иногда к “обязательному” набору добавляют следующие дополнительные:
- Минимум
- Максимум
- Пятипроцентный персентиль
- Девяностопятипроцентный персентиль
- Множество экстремальных значений
,
Таким образом, ящик с усами в разрезе будет выглядеть следующим образом.

Некоторые моменты требуют пояснения. Ящик, то есть объект между
Отметки минимума и максимума часто опускаются, экстремальные точки, то есть выходящие за пределы усов тоже опускаются либо рисуются точками или звездочками. В зависимости от структуры данных желание отрисовывать экстремальные значения может значительно увеличить объем данных для отрисовки диаграммы размаха.
Магическое число
Есть предположение, что
Иногда в качестве концов усов предлагается интервал
В сухом остатке
Для отрисовки “диаграммы размаха” необходимо определить:
- способ группировки данных
- длину усов
- нужно ли отмечать экстремальные значения
Для отрисовки “ящика с усами” для одной группы требуется всего 3 числа.
Комментарии (8)
KoGor
22.09.2015 17:14+1На гистограмме не может быть искусственных пропусков, так что первый вариант вашей так называемой группировки — это уже столбчатая диаграмма.
Сгруппированная квазигистограммаkokorins
23.09.2015 00:50Насчет «первого варианта группировки», я в целом с вами согласен, но когда писал было несколько аргументов за и против. С точки зрения структуры данных, это именно гистограмма без пропусков и воспринимать ее нужно именно как что-то без пропусков. Также ggplot2, plot.ly, matplotlib считают это вариантом представления гистограммы, хотя согласен, что не ахти какие источники, но лишь ради упоминания вводить дополнительный термин мне показалалось излишним.
Аббревиатура исключительно одна, при первом же упоминании дается ее определение и расшифровывается название без лишних английских слов. Мне очень совестно, что вам удалось увидеть статью до исправления.KoGor
23.09.2015 12:42+1Очень многие люди не различают обычную столбчатую диаграмму и гистограмму в принципе, а те кто в курсе, что это разные вещи, всё равно иногда путают их. Так что это важный нюанс.
Под расшифровкой я имел ввиду использования соответствующих тегов IQR, MAD.
VtD
s/IRQ/IQR/g
kokorins
Блин, и ни как иначе =(