Проект The Art Of Analytics от компании Teradata выглядит достаточно необычно. Идея проекта — объяснить исследования на основе больших данных в виде художественных образов широкой аудитории. Хотите узнать как выглядит обнаружение мошенничества в банках и террористических угроз или сравнение односолодовых виски? Под катом некоторые из 20 исследований изображенные в виде картин.



Экспертам Teradata в области анализа big data удалось объяснить сложные вещи простым языком, выразив сложнейшие математические связи языком искусства. Вместо графиков и цифр каждый случай работы с bid data представлен абстрактной картиной, напоминающей ассоциативную графику. Проект «Искусство Аналитики» состоит из 20 картин. Как бы просто они не выглядели, это результат действительно кропотливой работы мировых ученых в области big data.

Эпицентр шторма(Eye of The Storm)




На мой взгляд самый интересный проект, визуализация которого при этом похожа на глаз. Это аналитика больших данных во время twitter-шторма (на какой-то твит сразу же появляется огромное количество твитов и ретвитов) по поводу кончины Маргарет Тэтчер.
  • Красные точки: пользователи-хейтеры.
  • Белые точки: сторонники политики железной леди.
  • Желтые: оппозиция.
  • Все линии между ними — информационная связь (кто кому и что ответил).


Юзер публикует твит – на картине появляется новая точка. Таким образом, можно узнать, кто являлся «отправной точкой» того или иного поста, понять причины и установить виновных. Такие механизмы могут, как минимум найти зачинщиков террористических акций, а то и предотвратить их. Такой анализ активности в соцсетях был бы очень полезен, например, для арабских правительств, сотрясаемых революциями "арабской весны" 2010 года – ведь основные акции протеста оппозиция готовила и координировала в Facebook и Twitter.
Данные были скачены с помощью пакета twitterR и собирались на протяжении одной недели, потом были загружены в Teradata Aster для дальнейшей обработки. Затем использовался Aster Lens, с помощью которого создавался граф.

Финансовые фонтаны(Funding Fountains)




Этот милый букет из ленкоранской акации – все перемещения денег между разными компаниями, которые отмечены разными цветами.
  • Точки: компании.
  • Линии: количество транзакций: чем больше линий, тем компания успешнее.

Большая компания будет смотреть на большие цветки и сотрудничать с ними, уберегая себя от рисков, а хилые цветочки – рискованные предприятия – будут привлекать внимание различных фондов поддержки, не затрагивая весь рынок и не подвергая риску экономику в целом. Одно из применений — налоговая полиция может воспользоваться такой аналитикой, чтобы инициировать проверку компании на предмет незаконных финансовых операций.
Данные о сделках, загруженные для обработки: более 60 млн. записей о 670 тыс. компаний. В графе насчитывается 3883 точек и 3943 линий.

Звездные врата(Stargate)




Анонимизированная визуализация является частью аналитического проекта, проведенного в Тайване для одного мобильного оператора, стремящегося прекратить вредоносные интернет-атаки в свой адрес.
«Звездные врата» нацелены на идентификацию и остановку – APT-атак (Advanced Persistent Threat), представляющих собой скрытые и продолжительные процессы взлома компьютеров и систем, нацеленных на конкретную организацию или целую страну по политическим или бизнес-мотивам.
  • Точки: веб-страницы, открытые пользователем.
  • Ребра: пути по направлению к другим страницам.
  • Ширина линии: характеризует промежуток времени пребывания на сайте, а размер узлов представляет показатель, рассчитанный на основе 128 характеристик веб-страницы(категория, оценка репутации, частота посещений, контент, TTL- предписанного времени жизни пересылаемого пакета).
  • Более крупные узлы в центре картины: представляют собой сайты высокой степени риска, которые приводят к вредоносному поведению, на которых имеет смысл увеличить политику безопасности, как пример WAL(Web application firewall).

Анализ охватывает данные логов 2300 сотрудников за период эксплуатации системы в течении одного года. В этом анализе используется nPath, кластерная и текстовая аналитика.

Односолодовый пробник(Single Salt Sampler)




Способна ли аналитика радикально упростить все тонкости и нюансы, накопленные за 700-летнюю историю шотландского виски?
Этот тип аналитики используется в науке о продуктах питания. Его можно сочетать с данными о доле рынка и профиле сегмента для создания новых разновидностей вкуса или для перепозиционирования уже существующих брендов в новых сегментах.
Для поклонников виски он также предлагает увлекательный способ исследовать эту чрезвычайно сложную предметную область. Если вам нравится вкусовой профиль одного бренда, вы можете попробовать другие, похожие на него, или же открыть для себя совершенно другие типы вкусовых сочетаний.

  • Точки: бренды односолодового виски.
  • Ребра: степень похожести между виски – чем толще и темнее линия, тем более схожи вкусовые характеристики.

Визуализация состоит из 86 односолодовых брендов, сгруппированных по 12 вкусовым характеристикам(сладость, медовые нотки, ореховый привкус и т.д.)

Круги звонков(Calling Circles)




Куда попадает информация о том, кому вы звоните, когда, как долго разговариваете, кто получает ваши SMS и MMS? Эти данные попадают в базу данных сотового оператора, или любой организации, которая имеет к ним доступ. Эта информация – классический пример «больших данных»: ее объем – колоссальный.
  • Точки: номера телефонов.
  • Ребра: звонки, где длинные – долгие звонки, короткие – непродолжительные.

Линия соединяет 2 точки, то есть тот, у кого есть доступ к такой информации, знает не только то, что у вас есть мобильный телефон, но и то, как часто вы им пользуетесь, кому вы звоните и кто звонит вам. Зачем надо? Такая аналитика очень полезна для сотовых операторов, которые таким образом могут подстраивать тарифы и программы под нужды абонентов и отслеживать привычки и предпочтения пользователей.

Основные инструменты анализа:



Ссылки о проекте:


  1. Официальная страница проекта Art of Analytics, здесь будут опубликованы исследования.
  2. Еще одна страница проекта.
Интересен ли проект?

Проголосовал 151 человек. Воздержалось 18 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Комментарии (4)


  1. Sirion
    18.11.2015 15:32
    +6

    Арт-искусство — это что-то вроде CD-диска?


    1. VioletGiraffe
      18.11.2015 16:14
      +2

      Или PIN-кода :)


  1. ComodoHacker
    18.11.2015 21:52
    +4

    Большие big data данные типа как арт-искусство.


  1. deNULL
    19.11.2015 07:28
    +1

    Думаю, уместным будет упомянуть тут сабреддит /r/DataIsBeautiful (4,5 миллиона подписчиков). Там собирают подобные визуализации данных.