Графики, которые работают: выбор лучшей визуализации / forpes.ru

Главная
Графики, которые работают: выбор лучшей визуализации

Графики, которые работают: выбор лучшей визуализации +1

05.11.2024 11:49

kasyanenko 12 7700 Источник

Всем привет!

Я — Дарья Касьяненко, эксперт Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ. Недавно моя коллега, Дарья Огнева, аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных», провела вебинар для тех, кто только начинает погружаться в бизнес-аналитику и хочет разобраться в визуализации данных.

Дарья Огнева

Аналитик в Okko в группе по Bl-отчетности и преподаватель курса «Аналитик данных»

Two hundred twenty participants (88%) ranked sight as their most valuable sense. ©

Как было бы классно, если бы за доли секунды, мельком скользнув по графику, вы уже видели ответ на вопрос. А не сидели с линейкой и уровнем в попытке попасть в нужную ячейку на пересечении столбца и строки или сравнить высоту соседних колонок.

Особенно, если это презентация — экран далеко, а вместо линейки стакан кофе. Идеальный недостижимый мир с розовыми единорогами или все в наших руках?

График — многопараметрический объект, рассматривать и оптимизировать который можно часами. Для простоты эксперимента давайте остановимся хотя бы на одном параметре — визуальная кодировка. Еще проще — ограничимся пятью самыми популярными: барчарт, линейный, скаттерплот, пайчарт и таблица.

Уровень: без предварительной подготовки.

Эксперименты не грабли — по ним продуктивнее пройтись самим.

Вдохновившись статьей «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp» и взяв несколько неслучайных датасетов со случайным распределением по типам (визуальной кодировки) графиков, за вебинар мы попробовали решить 3 задачи: упрощенное ранжирование (выберите 6-ой по убыванию метрики ХХХ), наличие аномалий и корреляций.

Выборка: активные слушатели вебинара: https://cs.hse.ru/dpo/announcements/973735262.html

Инструмент: https://etc.ch/ *

*для множественного выбора очень странно считаются проценты (сумма нормируется в 100%) -> постфактум отдельный расчет по абсолютам, которые инструмент позволяет выгрузить.

Упрощенное ранжирование: шестой по убыванию затрат номер

Тестовые картинки:

Упрощенное ранжирование / Результаты:

тип графика	точность (доля верных ответов)	популярность
таблица	64%	top1
скаттерплот	50%	top1
барчарт	31%	top1
линейный	29.2%	top1
пайчарт	18.5%	top4, минимальный из ненулевых

Выводы: таблица — лидер. Для близких по величине значений окружающий контекст (барчат vs скаттерплот) существенно влияет на точность ответа. В таблице влияние контекста снижено. Пайчарт — впечатляюще низкий результат.

Что еще интересно посмотреть:

Провести эксперименты с разным распределением значений в датасете.
Посмотреть динамику точности в зависимости от величины выборки.

Из-за низкой точности и для меньшей травматизации опрашиваемых пайчарт исключен из гонки.

Наличие аномалий

тип графика	точность (доля верных ответов)	корректный ответ
скаттерплот	95,5%	да
линейный	86,4%	нет
барчарт	50,0%	нет
таблица	22,7%	да

Выводы: таблица — не лидер. Аномалии или их отсутствие хорошо показаны на линейном и скаттерплоте. Не все опрашиваемые всецело понимают суть аномалий.

Что еще интересно посмотреть:

Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.
Рассмотреть свободно владеющих понятием аномалия и приближенно понимающих термин.
Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.

Наличие корреляций

тип графика	точность (доля верных ответов)	корректный ответ
скаттерплот	92%	да
линейный	52%	да
таблица	16%	да
таблица	12%	да

Выводы: Специфичность данных барчата существенно исказило результаты. Примеры понятия корреляций было дано на скаттерплотах — на них опрашиваемые достаточно точно ответили на вопрос, для всех остальных типов не хватило примера наличия/отсутствия корреляции. Хочется повторить эксперимент, поменяв методологию.

Что еще интересно посмотреть: как и для аномалий

Проверить наличие байеса на ответ (да) / может, у людей в целом есть склонность видеть аномалии, где их нет.
Рассмотреть свободно владеющих понятием корреляция и приближенно понимающих термин.
Увеличить число экспериментов, чтобы исключить влияние специфичности распределения.

По итогам экспериментов — хочется еще больше экспериментов. Для проверки уже полученных результатах на больших выборках, для нивелирования точечных артефактов. Более того, мы исследовали только точность ответа. Было бы классно, обращаясь к оригиналу, рассмотреть и время выполнения задания, и субъективное предпочтение пользователя (как ему удобнее/привычнее работать). Более того, было бы классно рассмотреть разные типы задач, дополнив текущие три.

Результаты статьи «Task-Based Effectiveness of Basic Visualizations» Saket, Endert, Demiralp / статзначимое превосходство одних типов графиков над другими по метрикам точность-скорость-удобство в разбивке по типу задач

Тем не менее, даже с учетом специфичности данных и ЦА наше небольшое исследование подтвердило выводы статьи и здравый смысл:

Таблица хороша в задачах:

Получение точных значений
Вычисление точных значений
min, max
Фильтрация

Барчарт хорош в задачах:

Покомпонентное сравнение
min, max
Выявление аномалий
Распределение

Линейный график хорош в задачах

Динамика
Корреляция

Скаттерплот хорош в задачах

Выявление аномалий
Распределение
min, max
Разброс

Пайчарт хорош в задачах:

Часть целого
«Пицца — круговая диаграмма, показывающая сколько у тебя осталось пиццы»

Однако типов графиков существенно больше 5 (например, https://datavizproject.com/), и выбор того самого — нетривиальная задача и для новичка, и для опытного пользователя, постоянно скатывающегося в барчарты.

Благо, есть блок-схемы, помогающие заблудшим аналитикам выйти на нужный график: чарт-чузеры. Какая ты палка - ~~только лучше~~ на уровне.

Чарт-чузеры

По задачам: https://public.tableau.com/app/profile/andy.kriebel/viz/VisualVocabulary/VisualVocabulary
Интерактивный: https://public.tableau.com/profile/glowbyte.consulting#!/vizhome/ChartChooser_15550897459460/ChartChooser
Деревцем по задачам и типу переменных**: https://www.data-to-viz.com

** Обратите внимание, что в последнем проекте есть и статьи с самыми популярными дилеммами, и плюсы-нюансы использования каждого типа графиков. Более того, inspiration. И практика английского языка.

Заключение

В статье мы посмотрели на 5 популярных типов визуальной кодировки из десятков, которые представляют один из атрибутов графиков, которые часть волшебной мира визуализации данных, дрейфующего в безумной вселенной BI-аналитики

Комментарии (12)

CrazyElf
05.11.2024 12:46
#27515712
Не очень понятно, зачем вручную высчитывать позиции в несортированном графике. Если кому-то что-то такое нужно, то можно отсортированный по нужному параметру график нарисовать, по идее. И сгруппировать, выделить цветом какие-то по счёту места.
1. kasyanenko Автор
  05.11.2024 12:46
  #27517446
  Добрый вечер! Вы абсолютно правы. К сожалению, некоторым не совсем очевидны такие вещи, у них нет вашего опыта насмотренности — это видно по первым работам, которые делают студенты. Ну и без этого не было бы канала https://t.me/awfulcharts, на который ни в коем случае нельзя подписываться, чтобы не переобучить свою нейронку.
  
  Мы не сортировали именно для понимания, что хорошо и что плохо работает в графиках. С сортировкой наш эксперимент был бы бессмысленен. Кстати, вы заметили, что эксперимент подтверждает гипотезу, что мы корректнее воспринимаем длины, чем углы?
  1. Alexandr_Zaytcev
    05.11.2024 12:46
    #27517730
    Получается, что вместо статьи, можно было написать "примени сортировку, и будет тебе счастье"?))
    
    Ну и конечно количество англицизмов, моё почтение. С каких пор круговая диаграмма стала пайчартом?
    
    VMAtm
    05.11.2024 12:46
    #27525190
    Пайчарт короче, и чаще встречается. Термин круговая диаграмма, возможно, популярен в русскоязычном пространстве, но я его слышу первый раз за последние 10 лет.
  1. CrazyElf
    05.11.2024 12:46
    #27518758
    Эксперимент интересный, но результаты странные. Про то, что углы в круговой диаграмме плохо воспринимаются все и так знают. А вот что в рассеянной диаграмме проще на глаз ранжирование сделать, чем в барчарте (как это будет по-русски?) - это для меня странно. Мне в последнем проще полоску провести по его верху и сравнить две позиции, чем по одной точке в рассеянной диаграмме такую же полоску проводить. Странно это.

Imaginarium
05.11.2024 12:46
#27517508
В русском языке нет многих слов, которые используются в этой "статье", но Саммари просто добило.

Безграмотный и бесполезный текст.

Asterris
05.11.2024 12:46
#27517580
Для кого эта статья? Кто ЦА? Какой у неё сценарий использования этих графиков?

Меня всегда расстраивает в подобных статьях от рядовых аналитиков, непонимание того, что данные нужны для принятия решения, а не для красивой визуализации. То есть по этим данным надо выявить проблему и принять решение по ее исправлению.

А тому, кто принимает это решение, совершенно до лампочки, как вы нашли эту проблему - визуализацией, кластеризацией или интуицией. Ему важно, чтобы эта проблема была надежно подтверждена и чтобы другие проблемы тоже не было упущены. А значит использовать только одну модель визуализации или анализа попросту нельзя - надо смотреть на данные под разными углами. И значит тут по умолчанию не будет более лучшего варианта представления данных - надо использовать сразу все.
1. CrazyElf
  05.11.2024 12:46
  #27518778
  Ну, сразу тучу графиков если показывать, то человек тоже перегрузится информацией. Поэтому нужно всё-таки знать, какие графики лучше воспринимаются, а какие хуже. Но статья затрагивает только один аспект, а там вообще тонкостей миллион.
1. kasyanenko Автор
  05.11.2024 12:46
  #27521086
  Добрый день!
  
  Статья направлена на тех, кто интересуется аналитикой и хочет сделать первые шаги в этой сфере, а также на начинающих специалистов, которые хотят освоить визуализацию как один из инструментов анализа данных.
  
  Конечно, для комплексного анализа требуются другие методы, статья не претендует на публикацию в Скопус :)
  
  К сожалению, некорректная визуализация может искажать восприятие и выводы, сделанные на ее основе. Уверена, как опытный аналитик, вы с этим сталкивались.
  1. Imaginarium
    05.11.2024 12:46
    #27526060
    статья не претендует на публикацию в Скопус :)
    
    Сразу видно, насколько высоко Вы цените Хабр как платформу.
    
    Эта статья претендует на публикацию на серьезном профильном ресурсе инженеров и технических специалистов, где публикуются (изначально) серьезные оригинальные вещи, являющиеся результатом труда и описанием нетривиального опыта, например. А ещё здесь есть живое обсуждение в комментариях, что даже лучше рецензирования в журналах, в некоторых случаях. А Вы опубликовали банальную отписку, которая не годится даже для отчёта по лабораторной работе.

VMAtm
05.11.2024 12:46
#27525208
Почему у вас разные данные для графиков в первой задаче? Первый и последний график дают разные ответы