Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.

Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.

Накопительный график

Может показаться, что искаженное представление данных встречается в небольших компаниях или локальных презентациях. На самом деле — нет, это вполне распространённые кейсы, но я научу, как себя не запутать. 

Первый пример – накопительный график. На изображении Тим Кук на очередной презентации iPhone вдохновенно рассказывает о том, как растут продажи, и всё это представлено накопительным итогом. Накопительный итог всегда или чаще всего – неудачный способ визуализировать, поскольку понятно, что он всегда будет расти. Если тот же график представить в квартальных продажах, то увидим, что динамика не такая уж и последовательно возрастающая. Есть кварталы, когда происходит снижение продаж, и, в принципе, рост не такой впечатляющий.

Вывод: если видите накопительный график — насторожитесь, не хотят ли вас обмануть?

Обрезка данных 

Говорят, что если подстричь секущиеся концы, то волосы будут выглядеть более здоровыми. То же самое можно сказать и о графиках. Например, если темпы продаж замедляются, вы можете опустить последние 1-2 месяца. А если кто-то спросит, всегда можно сказать, что у вас не было времени обновить данные.

Обрезка «лишних» неудобных данных — ещё один способ манипуляции. Это может быть сезонность или периоды с неудачной динамикой, как, например, на графике ниже с февраля по апрель или после ноября. Эти неудачные лишние данные часто обрезают, чтобы показать только восходящие — например, с апреля по ноябрь. Говорят, что обновленных данных — нет, поэтому мы показываем данные только до ноября. И менеджмент сделает выводы, что всё хорошо, хотя на самом деле нет. 

Изменение детализации

Случайные пики вредны для линии тренда. Если график демонстрирует неустойчивые пики — изменение временного интервала может сгладить волатильность и создать более последовательную линию тренда. Например, если на продукт периодически обрушивается рекламная шумиха, но вы не в состоянии поддерживать показатели на постоянном уровне в остальное время — можно сгладить график, увеличив временной интервал и вместо кварталов указав годы.

Например, у нас есть квартальные данные, и в этих квартальных данных наблюдаются неустойчивые пики, странная динамика, в которой, по-хорошему, надо, конечно, разобраться. При этом, если мы построим те же цифры по годам, то вроде бы всё хорошо, всё растёт и проблем нет.

Поэтому слишком крупная годовая детализация тоже должна вызывать подозрения, а по-хорошему, конечно, нужно разбираться в том, почему возникают скачки и аномалии, в более мелкой гранулярности. 

Выбор «лучшей» метрики

Допустим, у нас есть когорты клиентов. Когорты – это клиенты, которые к нам пришли. Мы отличаем клиентов, которые пришли в январе, от клиентов, которые пришли в феврале, марте и так далее. И обычно, если происходит какие-то изменения, А/В-тесты и так далее, то каждую когорту анализируют отдельно. Январские клиенты – не то же самое, что мартовские или апрельские, потому что в тот период могли быть промо-акции, скидки и так далее, что повлияло на динамику. 

mobilespoon

Но если хочется показать хорошую динамику, то можно найти итоговое количество пользователей – 90, 120, 140, а оно всё время растет. И растёт за счет январской когорты, которая устойчиво себя ведёт. Во-первых, она начинается с большой цифры 90 и не снижается. Тогда как остальные когорты, во-первых, начинаются с более низкого количества пользователей, во-вторых, имеют тенденцию к снижению. То есть явно есть какие-то проблемы, но на таком общем количестве клиентов или заказов мы этого не видим. Кажется, что всё хорошо. 

Посмотрим на график, основанный на когортах, чтобы они начинались с «0 месяца». И сразу становится понятно, что каждая когорта начинается с более низкого уровня. На этом графике видны все тревожные сигналы.

Этика обращения с данными — широкое понятие, которое включает также подходы к защите и обработке персональных данных. В этой статье я попытался сфокусироваться на аспектах, связанных с визуализацией. Подробнее об этике обращения с данными можно почитать в книге DAMA — DMBOK.

Комментарии (3)


  1. CrazyElf
    20.01.2025 19:03

    Ещё довольно типичный приём - рисовать шкалу графика не от нуля по вертикали, тогда вместо практически плато можно изобразить бурный рост, которого нет )


    1. rPman
      20.01.2025 19:03

      Скорее это манипуляция выбранным интервалом, типичный пример, показывают рост курса, подобрав начальную дата такой, что ты было видно локальный рост, но если выбрать больший интервал по времени окажется что все совсем наоборот


      1. CrazyElf
        20.01.2025 19:03

        Это похоже по сути, да, но всё-таки выбор интервала показа по горизонтали и по вертикали - это разное. Чисто выбором интервала по горизонтали вы такого эффекта, который я описываю, не сможете добиться. )

        То, о чём говорите вы, есть как пример в статье, а я говорю как бы про зуммирование по вертикальной шкале, про это в статье нет.