У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.
Даже работая с некоторой числовой информацией, не относящейся к повседневным вещам, нам часто нужно найти в данных какие-то последовательности и закономерности, чтобы проанализировать их. Если мы увидим картинку, мы сможем сделать это быстрее. Таким образом, основная цель визуализации — создать визуальную форму для лучшего и более эффективного понимания закономерностей, скрытых в данных.
В качестве бонуса: визуализация может иллюстрировать написанные отчеты или статьи для облегчения донесения некоторых идей до читателей.
Тем не менее, данная статья посвящена топу простых видов визуализации. Поэтому с удовольствием поделюсь краткой подборкой вариантов визуализации, которыми пользуюсь почти каждый день:
1. Box Plot
Box Plot, или Ящик с усами, показывает основную статистику. Он эффективен для наблюдения за одной переменной. Мы можем разделить его на несколько диаграмм с помощью категориальной переменной. В этом случае мы можем вычислить ANOVA или хи-квадрат, и упорядочить переменные по тому, насколько хорошо они разделяют категории.
2. Curve
Curve, или Кривая, визуализирует распределения, но к этому инструменту следует относиться внимательно, так как он отображает несколько сглаженный результат. Соответственно,этот тип диаграммы скрывает некоторые параметры. Иногда их трудно установить и/или интерпретировать. Иногда Кривые возникают в результате подгонки параметров к форме, и мы должны решить, как она должна выглядеть. В этом случае у нас не может быть веских аргументов в пользу видения конкретной формы.
3. Histogram
Histogram, или Гистограмма. Этот инструмент также эффективен для распределений. Здесь мы также можем разделить данные по категориальной переменной. Примечание: самая значительная проблема, которая может возникнуть здесь, — это выбор количества столбцов. Этот момент может сильно повлиять на окончательную форму визуализации. Однако гистограммы лучше кривых в основном потому, что они ничего не скрывают. Если не манипулировать критериями количества ячеек или границ, этот инструмент работает весьма эффективно.
4. Mosaic Display
Mosaic Display, или Мозаичная Диаграмма, полезна для выявления отношений между категориальными признаками таким же образом, как и точечная диаграмма для числовых переменных. Он разбивает данные по 1-4 переменным на более мелкие подгруппы. Mosaic Display визуализирует размер области, соответствующий размеру группы. Эту область можно разделить, чтобы показать распределение целевых переменных внутри группы.
5. Scatter Plot
Как было сказано в предыдущем пункте, точечный график (Scatter Plot, или Диаграмма Рассеяния) показывает взаимосвязь между двумя числовыми переменными. Здесь мы можем использовать размеры, цвета, формы или даже углы, чтобы показать другие величины на том же графике. Цвета — это атрибут, который работает более эффективно из первых трех упомянутых. В большинстве случаев легко увидеть конкретные области с преобладанием цвета. Это также позволяет обнаруживать закономерности там, где их нет. Примечание: использование цветов является наиболее эффективным способом отображения числовых величин. Смысл в том, чтобы использовать дискретную шкалу с небольшим количеством цветов. Было бы сложно сравнить цвет в легенде с цветом пятна на графике, если шкала цветов непрерывна.
6. Sieve Diagram
Этот инструмент показывает фактические частоты двух переменных в сравнении с их ожидаемыми частотами. Он работает как визуализация хи-квадрата с использованием цветов и сетки. Область разделяется независимо по каждой оси, в отличие от мозаичного отображения. Следовательно, если предположить, что переменные независимы, размеры соответствуют ожидаемому количеству экземпляров. Этот тип диаграммы также показывает нарушения независимости. Другими словами, он открывает нам комбинации значений, которые являются более редкими или распространенными, чем ожидалось.
Таким образом, я постаралась максимально кратко изложить топ-6 простых и эффективных типов визуализации. Каждый из них подходит для разных случаев. Важным моментом здесь является необходимость и цель определения анализа данных. В соответствии с этим и следует делать выбор наиболее подходящего типа визуализации.
Спасибо за чтение! Если вы хотите поделиться своим мнением или идеями, вы можете свободно писать в разделе комментариев.
Комментарии (12)
savostin
05.05.2022 11:39+1Как-то мало и однобоко получилось, имхо. Где Heat Map, например... А уж сколько вариантов предлагает тот же D3...
Margarut Автор
05.05.2022 19:44Если описывать все возможные варианты, это уже будет книга, а не статья )
savostin
05.05.2022 19:53Чем тогда обоснован выбор именно этих типов?
Margarut Автор
06.05.2022 09:51В названии статьи я указала слово "Коротко" не просто так. Моя идея заключалась в том, чтобы привести по одному примеру подходящих типов визуализации для разных случаев кратко. Возможно, даже наиболее вероятно, что можно найти и более продвинутые варианты. Если вы готовы рассказать об этом более доступно, с удовольствием почитаю вашу статью.
aaabramenko
05.05.2022 17:57+1Mosaic Display (не нашла эквивалент на русском языке, если вы знаете, поделитесь в комментариях к этой статье, пожалуйста)
Мозаичная диаграмма?
Jury_78
Я что то не понял - это варианты использования Matplotlib?
Margarut Автор
Просто обзор типов визуализации данных для конечного пользователя, без ухода в конкретику