Фото от Carlos Muza на Unsplash
Фото от Carlos Muza на Unsplash

У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.

Даже работая с некоторой числовой информацией, не относящейся к повседневным вещам, нам часто нужно найти в данных какие-то последовательности и закономерности, чтобы проанализировать их. Если мы увидим картинку, мы сможем сделать это быстрее. Таким образом, основная цель визуализации — создать визуальную форму для лучшего и более эффективного понимания закономерностей, скрытых в данных.

В качестве бонуса: визуализация может иллюстрировать написанные отчеты или статьи для облегчения донесения некоторых идей до читателей.

Тем не менее, данная статья посвящена топу простых видов визуализации. Поэтому с удовольствием поделюсь краткой подборкой вариантов визуализации, которыми пользуюсь почти каждый день:

1. Box Plot

Фото от автора
Фото от автора

Box Plot, или Ящик с усами, показывает основную статистику. Он эффективен для наблюдения за одной переменной. Мы можем разделить его на несколько диаграмм с помощью категориальной переменной. В этом случае мы можем вычислить ANOVA или хи-квадрат, и упорядочить переменные по тому, насколько хорошо они разделяют категории.

2. Curve

Фото от автора
Фото от автора

Curve, или Кривая, визуализирует распределения, но к этому инструменту следует относиться внимательно, так как он отображает несколько сглаженный результат. Соответственно,этот тип диаграммы скрывает некоторые параметры. Иногда их трудно установить и/или интерпретировать. Иногда Кривые возникают в результате подгонки параметров к форме, и мы должны решить, как она должна выглядеть. В этом случае у нас не может быть веских аргументов в пользу видения конкретной формы.

3. Histogram

Фото от автора
Фото от автора

Histogram, или Гистограмма. Этот инструмент также эффективен для распределений. Здесь мы также можем разделить данные по категориальной переменной. Примечание: самая значительная проблема, которая может возникнуть здесь, — это выбор количества столбцов. Этот момент может сильно повлиять на окончательную форму визуализации. Однако гистограммы лучше кривых в основном потому, что они ничего не скрывают. Если не манипулировать критериями количества ячеек или границ, этот инструмент работает весьма эффективно.

4. Mosaic Display

Фото от автора
Фото от автора

Mosaic Display, или Мозаичная Диаграмма, полезна для выявления отношений между категориальными признаками таким же образом, как и точечная диаграмма для числовых переменных. Он разбивает данные по 1-4 переменным на более мелкие подгруппы. Mosaic Display визуализирует размер области, соответствующий размеру группы. Эту область можно разделить, чтобы показать распределение целевых переменных внутри группы.

5. Scatter Plot

Фото от автора
Фото от автора

Как было сказано в предыдущем пункте, точечный график (Scatter Plot, или Диаграмма Рассеяния) показывает взаимосвязь между двумя числовыми переменными. Здесь мы можем использовать размеры, цвета, формы или даже углы, чтобы показать другие величины на том же графике. Цвета — это атрибут, который работает более эффективно из первых трех упомянутых. В большинстве случаев легко увидеть конкретные области с преобладанием цвета. Это также позволяет обнаруживать закономерности там, где их нет. Примечание: использование цветов является наиболее эффективным способом отображения числовых величин. Смысл в том, чтобы использовать дискретную шкалу с небольшим количеством цветов. Было бы сложно сравнить цвет в легенде с цветом пятна на графике, если шкала цветов непрерывна.

6. Sieve Diagram

Фото от автора
Фото от автора

Этот инструмент показывает фактические частоты двух переменных в сравнении с их ожидаемыми частотами. Он работает как визуализация хи-квадрата с использованием цветов и сетки. Область разделяется независимо по каждой оси, в отличие от мозаичного отображения. Следовательно, если предположить, что переменные независимы, размеры соответствуют ожидаемому количеству экземпляров. Этот тип диаграммы также показывает нарушения независимости. Другими словами, он открывает нам комбинации значений, которые являются более редкими или распространенными, чем ожидалось.

Таким образом, я постаралась максимально кратко изложить топ-6 простых и эффективных типов визуализации. Каждый из них подходит для разных случаев. Важным моментом здесь является необходимость и цель определения анализа данных. В соответствии с этим и следует делать выбор наиболее подходящего типа визуализации.

Спасибо за чтение! Если вы хотите поделиться своим мнением или идеями, вы можете свободно писать в разделе комментариев.

Комментарии (12)


  1. Jury_78
    04.05.2022 20:11
    +1

    Я что то не понял - это варианты использования Matplotlib?


    1. Margarut Автор
      05.05.2022 10:14

      Просто обзор типов визуализации данных для конечного пользователя, без ухода в конкретику


  1. savostin
    05.05.2022 11:39
    +1

    Как-то мало и однобоко получилось, имхо. Где Heat Map, например... А уж сколько вариантов предлагает тот же D3...


    1. Margarut Автор
      05.05.2022 19:44

      Если описывать все возможные варианты, это уже будет книга, а не статья )


      1. savostin
        05.05.2022 19:53

        Чем тогда обоснован выбор именно этих типов?


        1. Margarut Автор
          06.05.2022 09:51

          В названии статьи я указала слово "Коротко" не просто так. Моя идея заключалась в том, чтобы привести по одному примеру подходящих типов визуализации для разных случаев кратко. Возможно, даже наиболее вероятно, что можно найти и более продвинутые варианты. Если вы готовы рассказать об этом более доступно, с удовольствием почитаю вашу статью.


  1. aaabramenko
    05.05.2022 17:57
    +1

    Mosaic Display (не нашла эквивалент на русском языке, если вы знаете, поделитесь в комментариях к этой статье, пожалуйста)

    Мозаичная диаграмма?


    1. Margarut Автор
      05.05.2022 19:45

      Точно, спасибо!


  1. ewrokirill
    05.05.2022 19:47
    +2

    Это точно Хабр?


    1. Margarut Автор
      05.05.2022 19:48

      Наверху написано, что да


      1. fdsvptr
        06.05.2022 11:51
        +1

        Хорошая статья, ждём продолжения


        1. Margarut Автор
          07.05.2022 09:39

          Спасибо! Рада, что старалась не зря