На днях произошло, в какой-то степени, знаменательное событие и одна из крупнейших компаний России заявила о том что теперь публикует открытые данные на своем сайте. Этой компанией является Сбербанк и соответствующий раздел на их сайте. Открытие раздела удостоилось пресс-релиза на их сайте и о нем, как о важном событии, написали десятки финансовых и не финансовых СМИ.
Действительно ли Сбербанк совершил нечто невероятное? Рядовое ли это явление и является ли то что сделал Сбербанк сейчас открытыми данными? Вот о чем далее пойдет речь.
В качестве вступления
Прежде чем продолжить о Сбербанке, давайте вернемся к термину открытые данные.
1-е официальное определение из закона 112-ФЗ (это поправки к 8-ФЗ)
Информация, размещаемая ее обладателями в сети "Интернет" в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных.
2-е определение из Википедии
Открытые данные (англ. open data) — концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Освободить данные от ограничений авторского права можно с помощью свободных лицензий, таких как лицензий Creative Commons. Если какой-либо набор данных не является общественным достоянием, либо не связан лицензией, дающей права на свободное повторное использование, то такой набор данных не считается открытым, даже если он выложен в машиночитаемом виде в Интернет.
3-е из хартии открытых данных
Open data is digital data that is made available with the technical and legal characteristics necessary for it to be freely used, reused, and redistributed by anyone, anytime, anywhere.
Или на сумбурном русском:
Открытые данные — это цифровые данные сделанные общедоступными с техническими и юридическими характеристиками обязательными для того чтобы они свободно использовались, использовались повторно и распространялись кем угодно, когда угодно и где угодно
Также, у открытых данных есть четко сформулированные принципы их публикации, отраженные как раз в хартии открытых данных.
Эти принципы:
- Открытость по умолчанию
- Своевременно и полно
- Доступно и удобно
- Сравнимо и интегрируемо
- Для улучшения управления и вовлечения граждан
- Для развития и инноваций
За те 7 лет что я лично занимаюсь темой открытых данных в России я слышал и видел как открытыми данными называли очень и очень многое что ими не является. Самый выдающийся по глупости вопрос был в том что, когда определение дается через описание "свободно доступных машиночитаемых данных", то вопрос "А машиночитаемые данные — это те которые я могу в машине прочитать?".
Но во всех определениях важно помнить одно — открытые данные ориентированны на технологически квалифицированного потребителя. Государство не производит само новых информационных продуктов, оно дает возможность это делать стартапам, ИТ компаниям и общественникам.
Почему публикуют открытые данные?
Чтобы разобрать этот конкретный случай важно знать зачем вообще владельцы данных их публикуют? Особенно компании и госорганы — иногда это может показаться совершенно странным.
Пиар. Обязательства или Выгода
Это три главные причины почему кто-либо данные публикует (вопросы фана и тщеславия я сознательно оставляю за скобками).
И если Вы видите активность какой-либо организации в открытых данных, да и в вообще в вопросах открытости и прозрачности, то ищите ответ в одной из этих трех причин.
Пиар
Например, как устроен пиар на открытых данных. Главная его отличительная способность ориентация на массового потребителя, массового избирателя, массового гражданина.
Вопросы технологий и данных остаются в стороне. Вопросы посещаемости, медийного охвата, число статей с упоминанием — выходят на первое место.
Живой пример — это портал открытых данных Москвы — власти города распространяют новости о публикациях даже если там размещен какой-нибудь бессмысленный набор данных из 28 строк.
Обязательства
Обязательства или принуждение — это когда открытые данные публикуются потому что закон требует их публикации. Владелец данных не всегда может быть заинтересован в открытости, но он соблюдает требования закона и их публикует.
Например, Центробанк собирает с банков формы отчетности и раскрывает в специальном разделе на сайте — это нормативно закрепленные обязательство банков и ЦБ.
Другой пример — упоминавшийся выше 112-ФЗ и 8-ФЗ. Органы власти обязаны раскрывать базовые наборы данных и публикуют их именно как их обязательства за неисполнение которых они несут ответственность перед законом.
Обязательство — это фундамент открытости. Именно по этой причине многие из тех кто обязаны раскрывать данные не предпринимают дополнительные действия по их доступности. Они только соблюдают обязательные требования, но не пишет об этом рекламных пресс-релизов.
Например, если Правительство Москвы публикует набор данных с адресами 28 военторгов и распространяет это по новостным сайтам, то совершенно не факт что, например, декларации о доходах чиновников города они опубликуют как открытые данные и также распространят по СМИ.
Иначе говоря — обязательство исполняются тихо и незаметно, настолько, насколько это возможно
Выгода
Зачем кому-то может быть выгодна публикация собственных данных? Казалось бы — владей и молчи, кому-то еще знать совершенно необязательно.
Тем не менее есть причины почему открытые данные публикуются государственными и коммерческими структурами. Например, раздел Datasets в Kaggle заполняется в поисках новых находок, решений и инсайтов для которых нужны тысячи data scientist'ов.
Или почему Федеральное Казначейство распространяет вот уже много лет данные с портала госзакупок через FTP сервер (еще до историй с открытыми данными) — потому что это проще и дешевле при распространении базы данных необходимой сотням контрагентов в субъектах федерации.
Какие-то компании организуют хакатоны и ищут себе сотрудников. Другие публикуют открытые данные для поддержания репутации в сообществе, как это делает Google в их Transparency Report
Так что же Сбербанк?
Если Вы снова посмотрите на раздел открытых данных Сбербанка, то обнаружите следующие особенности:
Нет свободных лицензий
Вместо свободы использования и распространения там только отказ от ответственности звучащий как
Представленная информация — результат анализа данных ПАО Сбербанк, 4 квартал, 2016 год. Данные не являются управленческой, бухгалтерской, финансовой отчетностью. При использовании ссылок на указанную информацию упоминание ПАО Сбербанк обязательно. Не является рекламой.
Что не имеет даже близкого отношения к свободным лицензиям
Нет наборов данных
Чтобы скачать данные нужно на графике найти специальную кнопку и там в меню еще найти раздел выгрузки в XLSX, CSV или JSON. Особенность в том что все эти выгрузки — это выгрузки из Javascript файлов выполняемые на стороне клиентов.
Все данные, по факту, хранятся в 13 Javascript файлах начиная с http://www.rdatascience.ru/opendata/data1.js и до http://www.rdatascience.ru/opendata/data13.js
А выгрузка в CSV и тд делается с помощью Javascript кода. И выкачать какой либо набор данных напрямую невозможно. Акцент сделан на визуализацию, а не на работу с данными аналитиками.
Отсутствует описание наборов
Несмотря на то что на сайте даже используют термин "Паспорт датасета" который активно используется в реальных паспортах наборов данных на государственных порталах, конечно же ничего такого там нет. Ни информации об ответственных, ни описания структуры наборов — ничего нет
Продажа услуг и смешение с большими данными
Раздел заканчивается продажей исследований Сбербанка и тем что все это сделано на больших данных. А сам формат подачи больше похож на лонгрид какого-то инфобизнеса, а не раздел открытых данных.
Выводы
Из всего этого можно сделать лишь один вывод — целью Сбербанка для этого раздела был только пиар и ничего более. Хочется только надеяться что когда-нибудь Сбербанк найдет форму работы с открытыми данными которая приносила бы выгоду и им и сообществу. Потому как пока это более похоже на попытку воспользоваться популярным термином для раскрутки своих коммерческих услуг
Комментарии (18)
Danov
27.11.2016 10:00+2Даже не смог оценить весь объем «Доступных данных». В списке «Доступные данные» перечислено значительно больше источников данных, чем далее доступно в визуализации «Открытые данные».
lolikandr
28.11.2016 15:55Самый главный пункт — «Своевременно и полно». Ещё бы кто указал, что такое «полно» для банка.
Venchikvrn
28.11.2016 15:55+1«lineThickness»: 2, // настраиваем вид базовой линии *как настроить цвет — хз*
Забавный комментарий в data13.js
vjjvr
28.11.2016 15:55+2Вместо свободы использования и распространения там только отказ от ответственности звучащий как
«Представленная информация — результат анализа данных ПАО Сбербанк, 4 квартал, 2016 год. Данные не являются управленческой, бухгалтерской, финансовой отчетностью. При использовании ссылок на указанную информацию упоминание ПАО Сбербанк обязательно. Не является рекламой.»
Что не имеет даже близкого отношения к свободным лицензиям
Является сильно упрощенным вариантом лицензии BSD
Вы забываете, что классические лицензии возникли на земле США, юристы вьют веревки из любого.
А для российского законодательства же не требуется то изящное юридическое словоблудие.
Vjatcheslav3345
А почему при обсуждении открытых данных маловато уделяется внимание вопросу единообразия и стандартизации используемых данных по форматам данных (таких как CDF или ASDF (кстати, было бы наверное интересно видеть статьи по астрономии с кодом на R и открытыми данными или, например, туториалы по работе с данными с примерами из астрономии а не набившими оскомину неинтересными продажами чего либо кому либо))?
VolCh
Пускай хоть как-нибудь выкладывают, чем годами будут форматы согласовывать.
grossws
Ага, а потом там набор из 10 таблиц в одном вордовом docx с форматированием табами и пробелами. И работать с этим — никак ,)
EvilFox
grossws
XML вообще регулярками лучше не обрабатывать, не говоря уже о том, как эти "таблицы" будут представлены в самом OOXML.
VolCh
Если «никак», то это не открытые данные как минимум из-за несоблюдения требований к машинной читаемости.
grossws
Обычно отбиваются: "xml же машиночитаемый", а OOXML — фактически xml в zip.
ibegtin
Над этим давно и активно работа идет, но, безусловно, приоритет в том чтобы данные вообще были доступны.
ru7701
Поддержу. Много и хорошо csv-шками все равно не раскроешь, а RDF — вообще ужас. Так что отношение к ОpenData у банка, конечно хамское, но и сама «тема» к тому, увы, располагает. Понятно, что «работают над этим», но лучше от того не становится.