Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.
Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.
Накопительный график
Может показаться, что искаженное представление данных встречается в небольших компаниях или локальных презентациях. На самом деле — нет, это вполне распространённые кейсы, но я научу, как себя не запутать.
Первый пример – накопительный график. На изображении Тим Кук на очередной презентации iPhone вдохновенно рассказывает о том, как растут продажи, и всё это представлено накопительным итогом. Накопительный итог всегда или чаще всего – неудачный способ визуализировать, поскольку понятно, что он всегда будет расти. Если тот же график представить в квартальных продажах, то увидим, что динамика не такая уж и последовательно возрастающая. Есть кварталы, когда происходит снижение продаж, и, в принципе, рост не такой впечатляющий.
Вывод: если видите накопительный график — насторожитесь, не хотят ли вас обмануть?
Обрезка данных
Говорят, что если подстричь секущиеся концы, то волосы будут выглядеть более здоровыми. То же самое можно сказать и о графиках. Например, если темпы продаж замедляются, вы можете опустить последние 1-2 месяца. А если кто-то спросит, всегда можно сказать, что у вас не было времени обновить данные.
Обрезка «лишних» неудобных данных — ещё один способ манипуляции. Это может быть сезонность или периоды с неудачной динамикой, как, например, на графике ниже с февраля по апрель или после ноября. Эти неудачные лишние данные часто обрезают, чтобы показать только восходящие — например, с апреля по ноябрь. Говорят, что обновленных данных — нет, поэтому мы показываем данные только до ноября. И менеджмент сделает выводы, что всё хорошо, хотя на самом деле нет.
Изменение детализации
Случайные пики вредны для линии тренда. Если график демонстрирует неустойчивые пики — изменение временного интервала может сгладить волатильность и создать более последовательную линию тренда. Например, если на продукт периодически обрушивается рекламная шумиха, но вы не в состоянии поддерживать показатели на постоянном уровне в остальное время — можно сгладить график, увеличив временной интервал и вместо кварталов указав годы.
Например, у нас есть квартальные данные, и в этих квартальных данных наблюдаются неустойчивые пики, странная динамика, в которой, по-хорошему, надо, конечно, разобраться. При этом, если мы построим те же цифры по годам, то вроде бы всё хорошо, всё растёт и проблем нет.
Поэтому слишком крупная годовая детализация тоже должна вызывать подозрения, а по-хорошему, конечно, нужно разбираться в том, почему возникают скачки и аномалии, в более мелкой гранулярности.
Выбор «лучшей» метрики
Допустим, у нас есть когорты клиентов. Когорты – это клиенты, которые к нам пришли. Мы отличаем клиентов, которые пришли в январе, от клиентов, которые пришли в феврале, марте и так далее. И обычно, если происходит какие-то изменения, А/В-тесты и так далее, то каждую когорту анализируют отдельно. Январские клиенты – не то же самое, что мартовские или апрельские, потому что в тот период могли быть промо-акции, скидки и так далее, что повлияло на динамику.
Но если хочется показать хорошую динамику, то можно найти итоговое количество пользователей – 90, 120, 140, а оно всё время растет. И растёт за счет январской когорты, которая устойчиво себя ведёт. Во-первых, она начинается с большой цифры 90 и не снижается. Тогда как остальные когорты, во-первых, начинаются с более низкого количества пользователей, во-вторых, имеют тенденцию к снижению. То есть явно есть какие-то проблемы, но на таком общем количестве клиентов или заказов мы этого не видим. Кажется, что всё хорошо.
Посмотрим на график, основанный на когортах, чтобы они начинались с «0 месяца». И сразу становится понятно, что каждая когорта начинается с более низкого уровня. На этом графике видны все тревожные сигналы.
Этика обращения с данными — широкое понятие, которое включает также подходы к защите и обработке персональных данных. В этой статье я попытался сфокусироваться на аспектах, связанных с визуализацией. Подробнее об этике обращения с данными можно почитать в книге DAMA — DMBOK.
CrazyElf
Ещё довольно типичный приём - рисовать шкалу графика не от нуля по вертикали, тогда вместо практически плато можно изобразить бурный рост, которого нет )