В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.

Собирайте всё


Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.



Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.

Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее — вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.

Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.

Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».

Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:

Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с  увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.

Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали — разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.

Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США — благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.

Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными — ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.

Приоритеты и выбор источников данных


При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?

Главная цель работы аналитиков — давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.

У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга — история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.

Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных — ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:

Список параметров для расстановки приоритетов
Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.

Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.

Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.

Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.

Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.

Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.

Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто — вперед.

Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.

Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.

Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.

Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.

Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы!

Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.

Взаимосвязь данных


Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.

Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла — поисковая выдача.

Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.

Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.

Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.

Предложение скидок за приглашение друга из соцсети даст нам доступ к  ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.

Сбор и покупка данных


Сегодня существует множество способов сбора данных, один из самых распространенных — API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.

Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.

Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка», но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.

Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.

Но если есть возможность собирать сырые данные, то лучше выбрать их — они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.

Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:

Цена
Все любят бесплатные данные — и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.

Качество
Данные чисты, им можно доверять?

Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?

Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?

Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?

Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?

Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.

Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?

Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?

Документация
Если вам предоставляют документацию — хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.

Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.

Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?

Это далеко не все, но основные и несомненно важные вопросы, которыми стоит  задаться перед приобретением данных у поставщиков.

На этом я закончу статью по сбору данных.
Если информация была для вас полезна, то я буду рад обратной связи.
Возможно, вы с чем-то не согласны или хотите поделиться своими методами и наработками — приглашаю в комментарии, и надеюсь на увлекательное и полезное обсуждение.
Всем спасибо за внимание и хорошего дня!

Источник информации
Автор: Карл Андерсон
Аналитическая культура. От сбора данных до бизнес-результатов
Creating a Data-Driven Organization
ISBN: 978-5-00100-781-4
Издательство: Манн, Иванов и Фербер

Комментарии (16)


  1. sirri
    06.11.2017 09:28

    Автор, исправьте, пожалуйста, «корованы» на «караваны». Поглядывайте иногда в словарик.


    1. ragequit
      06.11.2017 09:32
      +1

      А вы, я посмотрю, не знаете интернет-классику. Небось и за стражу играть не хотите.


      1. sirri
        06.11.2017 09:36

        Не знаю классику :) И за стражу не играю. Ты написание слова имеет некий особый смысл и происхождение? Просветите. Правда, интересно :)


        1. ragequit
          06.11.2017 09:41

          Ответы тут.


          1. sirri
            06.11.2017 09:44

            Спасибо, дружище! Буду теперь знать.


          1. huankun
            10.11.2017 14:00

            Новости дня:
            — Эпловский персональный помощник учится грабить корованы!
            — Неизвестный ограбил…
            — Найден виновный в обучении эпловского персонального помощника грабить корованы!


      1. sirri
        06.11.2017 09:40

        Ох уж эти мобильные «клавы»! Хотел написать «ТАКОЕ написание».


  1. vassabi
    06.11.2017 11:04

    Двойственное ощущение: и вроде бы понимаю максиму "Собирайте все данные, до которых дотягиваетесь."(С), но в то же время — рекомендую своим родителям адблок, носкрипт, режим инкогнито и т.д.


  1. sic
    06.11.2017 11:10
    -1

    Не верю в такой подход. Если у вас есть хорошая гипотеза-другая, собирайте данные для ее проверки. А если нет, то надеяться, что вы наберете уйму данных и гипотезы сами родятся — то это как-то наивно. Просто потратите больше времени и вложений, чтобы эти данные упорядочить, сохранить, не потерять. А те люди, которые выбрали гипотезы верно и раньше — уже поимеют свой сектор в бизнесе.


  1. KEugene
    06.11.2017 13:25
    +1

    Мне показалось, что данная статья носит слишком обзорный характер. Я бы сказал, это анонс статьи. В конце непрашивается текст «А теперь рассмотрим более детально».
    Очень не хватает реальных примеров с числами.


  1. vikarti
    06.11.2017 13:26

    Если у вас есть данные — вы можете придумать гипотезы потом и быстро проверить. Если же нет то нет.
    А ведь достаточно часто непосредственное решение какие данные собирать принимает не аналитик (а разработчик соответствующей части приложения (ну или менеджер но если это все заранее обсудили).
    С точки зрения бизнес-задач наверно все же лучше когда данные есть чем наоборот, места что-ли жалко? -:) (вот с точки зрения конкретного пользователя — все может быть по другому, конкретно ему аналитика может не давать ничего а проблемы от 100500 js-скриптов в веб-приложении — может быть, а последнее время еще и законодатели в эту сферу лезут в России и Европе)


  1. Introducer
    06.11.2017 14:26

    Никто не знает как будут использованы большие данные.
    Пример про «беременную» четырнадцатилетнюю девочку в США, устами президента РФ:


    1. Introducer
      06.11.2017 14:33

      1. a5b
        06.11.2017 15:58

        В первоисточнике "How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did" — FEB 16, 2012 https://www.forbes.com/sites/kashmirhill/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/
        (http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html, http://www.businessinsider.com/the-incredible-story-of-how-target-exposed-a-teen-girls-pregnancy-2012-2)
        не было ни 14, ни 12 лет (только "She’s still in high school" — approximately 14 to 18 years old), и о беременности не знал только отец "школьницы":


        On the phone, though, the father was somewhat abashed. “I had a talk with my daughter,” he said. “It turns out there’s been some activities in my house I haven’t been completely aware of. She’s due in August. I owe you an apology.”


        1. Introducer
          07.11.2017 04:03

          Президент рассказал историю не верно, что печально, но суть в контексте темы Big Data не очень изменилась.


          1. vassabi
            08.11.2017 00:09

            А если прочитать оригинальную статью (на которую есть ссылка в статье БизнесИнсайдера), то можно еще прочитать продолжение истории:
            после эксперимента со скидками на товары для беременных, они стали разбавлять скидки на целевые товары (про которые они точно знают, что вы их планируете купить) несколькими левыми предложениями, чтобы вы думали, что за вами не следят :)