Привет! Меня зовут Ольга Татаринова, я руковожу отделом аналитики в Agima.ai. Один из самых частых запросов, с которым к нам приходят клиенты, такой: «Сделайте нам дашборд c бизнес-KPI. Мы хотим найти какие-то инсайты в наших данных, чтобы понять точки роста». Проблема с такой постановкой задачи в том, что дашборды хорошо помогают следить за бизнес-kpi. Но напрямую мешают находить инсайты в данных.

Есть такой старый анекдот.

Полицейский подходит на улице к человеку, который ползает под фонарём.

— Что вы тут делаете? — спрашивает полицейский.
— Ключи ищу, — отвечает человек.

Они вдвоём какое-то время безуспешно ищут ключи, и наконец полицейский спрашивает:

— А вы уверены, что вы их именно тут потеряли?
— Нет, — говорит человек. — Я их в парке потерял!
— А почему же здесь ищете?
— А здесь светлее!

Феномен поиска под фонарем того, что потеряно в другом месте, известен как «эффект уличного освещения» (или эффект поиска пьяницы), и он на удивление распространён. Люди склонны искать ответы там, где информация легкодоступна, а не там, где на самом деле есть ответы.

В случае с анализом данных этот эффект работает так: бизнес-пользователи смотрят на дашборд и видят, что, например, средний чек заказа на прошлой неделе упал. И задают совершенно правильный вопрос: «А почему средний чек упал?»

Но, скорее всего, нет ни одного дашборда, который мог бы ответить на вопрос «почему упал средний чек?». Ответ на него можно найти только исследуя полный набор доступных данных, не ограниченный дашбордами.

Но из-за «эффекта уличного освещения» бизнес-пользователи зачастую:

  • просматривают все доступные дашборды в поисках ответа, почему (и не получают его);

  • ставят задачу аналитикам «добавить ещё фильтры на дашборд», ждут задачу неделю, перебирают все фильтры и не получают ответа;

  • собирают менеджмент-митинг и поручают аналитикам «сделать уже дашборд, на котором будет всё понятно», и кончено, никогда его не получают (но получают дашборд на 17 экранов графиков, который запутывает окончательно).

В итоге настоящие причины того, почему упал средний чек заказа, ускользают, а решение, что же делать с упавшим средним чеком, принимаются интуитивно.

Поэтому я не очень люблю проектировать дашборды, зато очень люблю проектировать наборы данных, которые могут самостоятельно исследовать бизнес-пользователи. Такой подход называется аналитикой самообслуживания (или Self-service аналитикой).

На всех проектах для заказчиков мы обязательно готовим данные для использования в режиме самообслуживания. За пять лет практики мы поняли, как сделать Self-service-подход проще для бизнес-пользователей.

Типичные проблемы данных при Self-service-подходе

1. В Self-service-режиме доступны только данные веб-аналитики.

Самый частый пример данных, доступных для самостоятельного изучения бизнес-пользователями, это данные веб-аналитики. Зачастую продакт-менеджеры и другие бизнес-пользователи умеют следить за метриками в Google Analytics или Amplitude. Но если смотреть только в события веб-аналитики, то можно пропустить важные вещи, которые нельзя залогировать в качестве веб-событий.

Например, продакт-менеджер может оптимизировать конверсию в заказ на сайте, но упускать тот факт, что каждый заказ с сайта в конечном итоге приносит компании убыток из-за плохих процессов в логистике и на складах.

2. В Self-service доступны только самые очевидные данные.

Зачастую ответ на вопрос о том, почему упал средний чек, лежит в маргинальных датасетах, которые относятся, например, к складам, работе логистики и даже погодным условиям. Этих данных часто не оказывается в Self-service-слое, и истинные причины явлений пропускают при анализе.

При проектировании Self-service-слоя мы стараемся найти все известные датасеты, в том числе маргинальные, и подготовить их для самостоятельной работы пользователей. При таком подходе пользователи как минимум знают, что определенные данные доступны и находятся от них в одном клике.

3. Много точек входа в Self-service, непонятно, с чего начинать исследование данных

При проектировании аналитических витрин первое, что хочется сделать, это собрать отдельную таблицу под каждое понятие предметной области (например, USERS, ORDERS, SUBSCRIPTIONS и т. п.). Отношения между этими таблицами довольно быстро становятся сложными, и приходится возвращаться к SQL или обращаться за помощью к аналитикам.

Сейчас мы стараемся свести весь Self-service к одной витрине, которую мы называем таймлайн, за который «зацеплены» все остальные таблицы (пользователи, заказы, подписки и т. п.). Это обеспечивает бизнес-пользователям одну точку входа во все данные, что сильно упрощает начало работы.

4. «Технический шум» в данных.

В любом наборе данных всегда много частичного дублирования информации и технических колонок, например, ключи партицирования, метаинформация. Часть атрибутов дублируется в нескольких таблицах.

Такой «технический шум» отвлекает внимание и мешает исследовать данные.

В Self-service-слое должны оставаться только понятные и значимые атрибуты данных.

5. Отсутствие документации.

Чтобы бизнес-пользователи могли работать с Self-service-слоем, каждый атрибут, вынесенный в Self-service, должен быть:

  • уникально поименован;

  • задокументирован и описан в терминах, понятных бизнес-пользователям.

Поскольку на документацию никогда не остается времени, мы перешли к Document-first-подходу. То есть сначала моделируем и документируем те атрибуты, которые должны оказаться в Self-service-слое, а только затем приступаем к их реализации. Мы описывали этот подход в предыдущей публикации.

Выводы

Подводя итог всему вышесказанному, хочу сформулировать несколько тезисов:

  1. В компаниях сейчас много данных, но зачастую мало инсайтов. Отсутствие инсайтов во многом обусловлено «эффектом уличного освещения»: все ищут инсайты там, где светлее (на дашбордах), а не там, где они на самом деле есть (в полном наборе данных).

  2. Полные наборы данных в BI-системах сейчас доступны только «элите»: аналитикам и Data-scientist’ам. И недоступны людям, которые должны принимать бизнес-решения на основе данных: продакт-менеджерам, маркетологам, финансистам. Зачастую люди, принимающие конкретные проектные решения, не знают, какие данные доступны в принципе и поэтому принимают бизнес-решения интуитивно.

  3. Основной задачей аналитиков должна стать не «подготовка отчетов по запросу бизнеса», а подготовка такой среды, в которой бизнес самостоятельно мог бы получать ответы на свои вопросы.

  4. Инсайт нельзя сгенерировать по заказу, но возможно сделать такую среду, которая приводит к возникновению инсайтов. Если вложиться в то, чтобы сделать данные доступными бизнес-пользователям, то качество инсайтов из данных, а следовательно и качество решений, которые принимаются в компании, ощутимо вырастет.

Комментарии (10)


  1. E_BEREZIN
    04.08.2022 20:35

    И задают совершенно правильный вопрос: «А почему средний чек упал?»

    Откуда у вас эти данные? Вы связались с каждым купившим на прошлой неделе, и доподлинно выяснили, почему он не купил на этой?

    Правильный вопрос:

    На чем мы больше заработали на прошлой неделе? ????


    1. Epoch8 Автор
      04.08.2022 20:41
      -2

      Ну как откуда данные! На дашборд посмотрели, там график "средний чек заказа по дням" – и вон, видно же, что упал! :)


      1. E_BEREZIN
        04.08.2022 20:48
        +1

        На прошлой неделе были ливни, пришло меньше посетителей, упал средний чек.

        Анализируя, вы учитываете погоду, чтобы получить полный набор данных?

        А мысли тех, кто хотел купить, но передумал - вы учитываете в полном наборе данных?

        Если нет, то при ответе на вопрос "почему на прошлой неделе упал средний чек" вы находитесь пол влиянием феномена "эффект уличного освещения", а данные, которые вы исследуете, лежат на поверхности.????


        1. Epoch8 Автор
          04.08.2022 21:18
          -1

          Да ну ой, это тезис про качественные и количественные данные что ли?


          1. E_BEREZIN
            04.08.2022 21:28
            +1

            Попытка найти ответ в вашей публикации, где взять данные для инсайтов, или инсайты из данных?

            Возможно, стоит доработать статью, чтобы раскрыть тему полностью.✌️

            Сейчас это общие фразы, универсальные, без конкретики или примера.


            1. Z_Valery
              05.08.2022 10:08

              Хорошая статья, импонирует более широкий взгляд на роль аналитики. Я думаю, как и в массе случаев в жизни, результатам сопутствуют как внешние так и внутренние факторы. Думаю данные для прозрений и аналитики лучше всего взять из BI, о которых сказано, т.е. прописать сначала процессы, автоматизировать их и начать все таки самостоятельно данные собирать, а не только лишь из внешних сервисов, тогда можно рассчитывать на что-то. Вот вам пример из практики, на рынке региона с ёмкостью в группе товара 90 млн. Руб. Компания, занимавшая 80% доли, с развитием территории и приходом конкурентов, стада занимать 5%. У компании есть имя, склады, транспорт, доставка, финансовые ресурсы, а доля ушла. Не было в компании только бизнес-процессов, практически никаких. В общем при детальном допросе клиентов, сотрудников компании и конкурентов выяснилось, что в пику сезона срок формирования заказа и доставки выросли до 14 дней при норме в кругу клиентов 24 часа. И да, дальше анализ ушёл в настройку процесса, исключение лишних коммуникаций, автоматизацию элементарную и процесс получил точки контроля на уровне собственника, в результате доля стала возвращаться, теперь задача выжимать конкурентов, но это уже другая история и другие процессы ))


    1. economist75
      05.08.2022 10:08
      +1

      Аналитики, увы, тоже "ищут под (своим) фонарем", поскольку невозможно успеть собрать, имхо, и половину всех доступных данных. Погода, новостной фон, курс USD на Али, индекс числа распродаж конкурентов к их общему числу, единовременные массовые выплаты итд - все просто не успеть объять. А если речь не о ритейле, а о заводе, то вопрос "на чем больше заработали на прошлой неделе" - получит точный ответ 25/10/2022 г., после сдачи квартальной декларации по налогу на прибыль. Т.е. "посмертно".

      Поэтому простые и понятные метрики типа среднего чека пока что "рулят" и будут рулить вечно. И даже их можно улучшить простыми методами. Например поделить на число сейлзов, вышедших на работу, чем резко улучшить объективность этого показателя.


  1. Aver91
    05.08.2022 10:08
    +1

    А как визуально вы отображаете этот "набор данных" если не в дашборды?


  1. sleeper141
    05.08.2022 11:13
    +1

    Так, где брать инсайты ?


    1. Ludens3
      05.08.2022 21:42
      +1

      В совместном обсуждении в кросс функциональной группе, где есть специалист в бизнесе и аналитик данных. Бизнесмен описывает процесс и фантазирует на тему влияющих факторов, аналитик в это время оценивает услышанное на предмет наличия данных, формулирует гипотезы, которые можно проверить на данных.