Это моя первая публикация на Хабре. Я интересуюсь и отчасти практикую дата-журналистику и хотел бы поделится с вами инфографикой, иллюстрирующую расчеты по банковским картам в торговле. А также расшарить открытый датасет в Data.World, и рассказать о создании этого проекта.

Итак, итоговая инфографика:



> Ссылка на тот же отчет в гораздо более интересном интерактивном виде
> Ссылка на открытый датасет (требуется регистрация на Data.World).

Кстати, к сожалению, не удалось встроить отчет в публикацию на Хабре ни через iframe, ни через тег oembed.

Предыстория проекта

В силу своих профессиональных интересов в платежной индустрии я периодически мониторю статистику Банка России, связанную с расчетами по банковским картам. Так, недавно я обращался к теме расчетов по картам в статье «Больше эквайринга!», где уже оперировал некоторыми данными из этого проекта.

Качество статистики Центробанка весьма посредственное. При желании там можно найти некоторые инсайты, но характер данных и особенно формат представления оставляет желать лучшее.

Вкратце недостатки следующие:

  • Выборочный, фрагментарный набор данных.
  • Данные представлены только в xlsx. Нормальные датасеты не появились и на новом сайте.
  • Структура Excel-таблиц плохая, намешаны разные показатели, периоды.

В итоге каждый раз, когда мне нужно было подготовить аналитические материалы, приходилось вручную переформатировать xlsx-файлы ЦБ, и приводить их в удобоваримый вид — например, для тех же графиков.

Запросы на аналитику бывают разные: иногда смотришь эквайринговую часть, в другой раз больше эмиссионную составляющую, статистику в региональном разрезе и т.д.

Практически каждый раз приходилось статистику ЦБ перелопачивать вручную, в том числе чтобы сводить ее с данными из других источников (часто из Росстата).

В голове периодически возникала мысль, что надо сделать какой-то удобный датасет, поддерживать его в актуальном состоянии, и использовать. Общение с Иваном Бегтиным ibegtin, лидером «Инфокультуры» и евангелистом Open Data, оставило в голове идею, что открытые данные — это благо. Поэтому размещать такой датасет, видимо, есть смысл в каком-то специализированном публичном хранилище.

История проекта

Итак, отправная точка: создание инфографики, иллюстрирующей состояние безналичных платежей в России.

Зачем?

  • Использование в аналитической работе.
  • Использование как интерактивного материала на встречах-переговорах, на профильных мероприятиях.
  • Прокачка скиллов в работе с данными и инфографике.

Темой дата-журналистики и инфографики, сервисами для ее создания, и даже курсами я интересовался и ранее. В Сети достаточно много обзоров на эту тему, например этот).

Потратив какое-то время на изучение некоторых из них, у меня осталось впечатление, что без идеи и набора данных эти инструменты хоть и привлекательны, но вряд ли могут быть полезны.

В этот раз в результате довольно сумбурного серфинга я наткнулся на сервис Google Data Studio (GDS).

Сервис мне понравился, хотя первое впечатление было, что он заточен под агрегацию и аналитику данных разных сервисов Google для вебмастеров.

Что понравилось:

  • Гибкая и понятная работа с источниками данных.
  • Большой набор диаграмм, которые как правило автоматически отрисовываются корректно и эстетично.
  • Интерактивный формат отчетов (водишь мышкой, и контекстно отображается информация).
  • Все юзабильно, расшаривается, встраивается и т.п.

В принципе, сервис устроен довольно понятно, но быстро освоить GDS мне помогла очень толковая статья от Texterra.ru.

Идея параллельно использовать другие продукты Google — в том числе для хранения данных, тоже мне импонировала.

Для начала я начал экспериментировать с самым простым вариантом хранилища — Google Таблицами. На удивление, эта связка работала кривовато. В таблицах слетали форматы данных, Data Studio порой вовсе их не распознавала.

Плюс в голове была же идея сделать данными открытыми, посредством Google Таблиц это как-то не совсем идеологически правильно.

Другие продукты Google, с которыми поддерживается связь в Data Studio, тоже показались мне не совсем подходящими или сложными.

В поисках полноценного хранилища открытых данных я обратил внимание на Data.World — собственно, этот сервис один из первых указан в списке сторонних коннектов GDS.

Регистрация, создание первого проекта, и закачка данных из xls-файла не вызвали никаких затруднений. Русский текст автоматически транслитеровался, формат данных не пострадал.
Коннект с GDS и дальнейшее использование данных (в отличие от Гугл Таблиц) также прошло безупречно.



На создании диаграмм в GDS я не буду останавливаться подробно. Во первых, я использовал довольно типовые и потому малоинтересные шаблоны. Во-вторых, сам процесс создания диаграмм хотя и отличается от Excel, но интуитивно понятен.

Что дальше?

Планирую дополнить датасет другими данными, имеющими отношение к платежам по банковским картам: количество POS-терминалов, оборот розничной торговли, платежи в региональном разрезе и т.д.

Предполагаю, что на выходе получится 3-4 страницы отчетов GDS, которые позволят составить достаточно полное впечатление о развитии безналичных платежей в России.