Привет! Меня зовут Андрей Шмиг, я основатель и разработчик платформы DataHub - Crowd Data Sourcing at Hand, своего рода GitHub для данных. В этой статье речь пойдёт о том, как создать FREE и SPONSORED репозитории данных, а так же в чем их отличия.

Что такое структурированные данные?
Я неоднократно буду упоминать в статьях про структурированные и неструктурированные данные, поэтому предлагаю договориться о том, что мы будем под этими терминами подразумевать.
Структурированные данные - у данных есть четкая структура, которую можно описать, например, сущность "Пользователь" с полями "Имя", "Фамилия", "Номер телефона", "Адрес" можно отнести к такого рода данным - структурированным.
Неструктурированные данные - у данных может быть, на первый взгляд, некая структура, но её затруднительно описать для всех объектов одного множества. К неструктурированным данным я чаще всего буду относить NoSQL-форматы, которые позволяют не описывать четкую структуру и связи между сущностями.
Регистрация
Работа в DataHub начинается с регистрации на сервисе - только авторизованные пользователи могут создавать репозитории с данными, заявки на сбор и парсинг данных, а так же приобретать наборы данных в коммерческих репозиториях предварительно пополнив баланс в личном кабинете.
Регистрация доступна по ссылке и требует лишь наличия email и пароля.
Типы репозиториев данных
Создание нового репозитория доступно по этой ссылке и находится в левой части меню - кнопка "+" пункта меню "My Repositories".
FREE;
SPONSORED;
COMMERCIAL;
В этой статье мы рассматриваем только первые два - FREE и SPONSORED. COMMERCIAL тип репозитория данных потребует отдельной статьи и внимания.
Основное и единственное отличие репозиториев данных типа FREE и SPONSORED в возможности получать донаты за поддержку и развитие репозитория.
COMMERCIAL тип отличается несколькими деталями:
Отсутствует возможно делать data fork репозитория;
Доступ к данным в любом виде платный;
Visual Query Builder поддерживает формат оплаты;
Платные predefined queries;
Различные условия формирования стоимости;
Создаём репозиторий данных
Открываем страницу создания нового репозитория данных:

Заполняем поля - описываем наш репозиторий с данными так, как если бы мы писали в README.md файле на GitHub. Я буду создавать демо-репозиторий со списком стран, поэтому моё описание выглядит следующим образом:

После - нажимаем кнопку публикации (Publish).

Наш репозиторий данных создан, но он ещё пуст. В том, что он создан можно убедиться перейдя в раздел "My Repositories":

А сам публичный репозиторий будет иметь следующий вид:

Ссылка на демо репозиторий с данными.
Вернёмся к редактированию репозитория с данными и в правом блоке меню переключимся на вкладку Storages (Хранилища):

В созданном репозитории никакие хранилища не создаются по-умолчанию, а на момент написания заметки доступен один тип хранилища - MySQL 8.0
Создадим его:

После создания хранилища экран обновится и мы увидим следующее:

У нас в репозитории появилось новое хранилище типа MySQL 8.0 и пока оно пустое - не содержит таблиц и данных. Давайте это исправим!
Чтобы перейти в режим работы с хранилищем MySQL можно воспользоваться кнопкой с шестеренкой и пунктом меню Wizard:

... либо просто кликнуть на название хранилища - откроется Wizard (помощник по работе с типом хранилища MySQL, который похож на MySQL Workbench).

Подробно о возможностях MySQL Wizard я расскажу в другой статье, а сейчас остановимся на том, что мы хотели - создании соответствующей таблицы для списка наших стран.

Я создам 4 поля в таблице countries, a затем добавлю в таблицу несколько тестовых значений с которыми мы будем в дальнейшем экспериментировать:

Нажимаю кнопку выполнения запросов и получаю результат выполнения каждого запроса в отдельной таблице:

Наша таблица countries успешно создана и в неё добавлены данные, чтобы в этом убедиться - закройте MySQL Wizard и обновите страницу:

Поздравляю, вместе с вами создали первый репозиторий с данными, которые стали уже доступны через визуальный редактор запросов:

Обратите внимание, что вкладки Builder, Raw Query и Share стали активными, а это значит, что мы с вами, как и другие пользвоатели, теперь можем работать с этими данными - получать, связывать, фильтровать, скачивать.

Отдельная статья будет про то, как работать с визуальным конструктором запросов, какие возможности он предоставляет и какие есть ограничения.
SPONSORED репозиторий - как?
Теперь, когда наш первый репозиторий с данными создан и мы можем делиться структурированными данными с другими разработчиками, настала пора посмотреть, как же работает SPONSORED репозиторий данных.
Для изменения типа репозитория данных необходимо вернуться в режим редактирования репозитория и изменить его тип на SPONSORED, а затем сохранить.

Перейдём на главную страницу репозитория, чтобы посмотреть на произошедшие изменения:

Под блоком с автором появилась кнопка SPONSOR, по клику на которую у авторизованного пользователя будет возможность сделать донат - указать сумму и комментарий:

Деньги будут перечислены на баланс автора репозитория, а вывести он их сможет по клику на баланс под блоком с профилем в левой части экрана.
На этом завершим с вами работы с FREE и SPONSORED репозиториями данных.
Если вам понравилась статья - ставьте лайк и оставляйте комментарий. Подписывайтесь на мой блог про DataHub на Хабре, а так же на Телеграм канал поддержки сервиса.
Мой публичный профиль на DataHub - @aashmig.
Буду рад ответить на ваши вопросы и дополнить статью.