Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata:Main_Page.

Источник: https://upload.wikimedia.org/wikipedia/commons/d/d9/Wikidata_IO_at_Repository_Fringe_2017_-_Session_1-_Adding_data_to_Wikidata.pdf

Пример айтема - прекрасная компьютерная игра Armies of Exigo https://www.wikidata.org/wiki/Q686963, как видите справа - статьи на разных языках (и пустые блоки с другими продуктами Wikimedia) - одной из первых задач Викиданных было связывание статей:

Ключ-значение с уточняющими свойствами, многие значения это не текст а ссылка на соответствующий айтем - например для игры - кто издатель, кто разработчик, также можно посмотреть кто ссылается на этот айтем (Alt-Shift-J) - слева есть кнопка. Как и в Википедии - есть история, страница обсуждений каждого айтема, можно по почте получать уведомления когда кто-то что-то изменил. Меняете язык сайта - айтемы тоже будут на этом же языке - у каждого айтема есть label на разных языках. Редактировать может каждый, как и Википедию. Из статьи в Википедии можно перейти на соответствующий айтем - слева есть кнопка, или Alt-Shift-G. Редактировать можно не только руками в браузере - есть разные инструменты, некоторые скриптами создают миллионы айтемов, распаршивая другие сайты (осторожно с лицензией).

Вот например так выглядят Викиданные
Вот например так выглядят Викиданные

Викиданные это координирующий узел других сайтов и баз данных. Например игра ссылается на страницы обзоров, где ее скачать, музыкальный трек среди прочего может ссылаться на https://musicbrainz.org - другая большая база данных, но только о музыке. Если у вас есть любимая тема, но значимости по ней не хватает для статьи для Википедии (или уже удалили администраторы) - можно создать айтем в Викиданных. Тоже можно вставлять источники. Айтемы бывают большими - и без чтения соответствующей статьи в Википедии уже можно многое узнать. Бывают с картинками, видео, аудио. Вот айтем Хабра.

Как и в Википедии, вокруг Викиданных суетятся боты - например вставили вы линк на Гитхаб - придет бот и проставит все версии, с датами:

Вставлять версии - работа для машины
Вставлять версии - работа для машины

Инфобоксы в Википедии справа - часто берут данные из Викиданных. Как и поисковые машины. Еще один пример интеграции - одна строка генерирует братьев-побратим любого города:

Разные языковые разделы Википедии одной и той же статьи могут содержать разные цифры - в идеале цифры хранятся в Викиданных и уже оттуда вставляются в Википедию, вот примеры

Eсть встроенный инструмент для создания запросов - вот сегодня написал квери (язык SPARQL) чтобы получить все freeware игры для Windows, отсортированные по годам, с линками на Steam и сайт:

Вот большая страница примеров - можно взять готовый, поменять айди - и увидеть новые результаты.

Вот еще интересный для меня запрос - показывает свободные програмные проекты написанные на Go.

Есть разные встроенные визуализации данных, например люди рожденные в Минске - два нажатия мыши - и мы видим уже не список а фотографии:

Еще одна встроенная визуализация - график, например население Минска:

всплеск потому что какой-то айтем содержит некорректную цифру
всплеск потому что какой-то айтем содержит некорректную цифру

Визуализация шарами - например популярные цвета глаз:

Связанный список - например метро Минска:

Еще одна визуализация - Timeline:

Карта - у айтемов могут быть координаты - места или события:

Есть API. access-control-allow-origin: * - то есть можно делать запросы даже из браузера:

Есть экосистема программ для загрузки, анализа, чтения, визуализации данных из Викиданных, вот несколько примеров:

Визуализация битв - где и когда:

Похожий пример - где и когда построили церковь:

Где и когда ближайшие выборы:

Связи людей - тут Симпсоны:

Род Никиты Михалкова:

Тут список инструментов для запросов.

Тут список инструментов для визуализации данных.

Всю базу можно скачать - 110 гигабайт. Програмное обеспечение такое же открытое как и Википедия - можно установить себе.

Одна из причин для меня написать этот текст - реклама сервиса, чтобы больше людей вкладывалось. Например у вас есть любимые игры, фильмы, книги, города - можете проверить как они присутствуют на Викиданных и возможно улучшить или добавить если их там нет - находите пример (другая популярная игра, фильм, книга) - и нажимайте Create a new item. Документация и комьюнити вам помогут, в том числе Дискорд. Викиданные - это полезный инструмент для анализа, быть может вам пригодится.

Комментарии (8)


  1. itGuevara
    30.03.2024 07:30
    +1

    список инструментов для запросов.

    список инструментов для визуализации данных.

    Может быть есть интеграция с Excel или Гугл таблицами? Например, из excel ушел SPARQL и обратно в Excel вернул результат. Далее в Excel (гугл-таб) обрабатывать ответ и визуализировать. Вроде бы не сложно, поэтому может кто-то делал уже под конкретную тематику (родословная и т.п.).
    Какой либо из указанных инструментов имеет экспорт в excel? Несмотря на массу инструментов анализа данных, excel пока остается таковым "номер 1".

    Полагаю, что привязка к Excel лучше поспособствует приобщению ширнармасс к Wikidata \ Linked Data.

    Второе. Повторю Вопрос (про скудность визуализации инструментов Linked Data):

    Какие инструменты Linked Data (Semantic Web, RDF и т.п.) позволяют визуализировать триплеты вместо обычного графа через сложную настраиваемую нотацию отображения объектов, например, через настройку отображения в «Linked Data – инструменте» получать что-то похожее на VAD или EPC диаграммы? При этом, система фильтров должна позволять отображение только объекты заданных типов, связей, иерархий.


    1. putnik
      30.03.2024 07:30

      Может быть есть интеграция с Excel или Гугл таблицами?

      Если инструмент в целом поддерживает загрузку данных по URL в формате JSON или CSV/TSV, то он может загружать их и с https://query.wikidata.org/.



  1. Cels
    30.03.2024 07:30
    +1

    Айтем, айтема, айтемы мне одному глаза режет? Неужели русский язык настолько беден, что нечем заменить? (Сам в коде, про себя называю итем, чтоб писать удобней, но читать, ну нафиг)


    1. i360u
      30.03.2024 07:30
      +4

      Русский язык хорош тем, что он гостеприимно и радушно принимает в себя новые слова из других языков.


      1. Cels
        30.03.2024 07:30
        +4

        Да, если это общедоступно, проще или сложно заменить переводом. Здесь вполне можно использовать "элемент", "пункт" и т.д. А так получается коверканье русского языка.


    1. s-a-u-r-o-n
      30.03.2024 07:30
      +3

      Устоявшимся русскоязычным термином для сущности, описанной в Викиданных, является «элемент».


  1. s-a-u-r-o-n
    30.03.2024 07:30
    +4

    Интересный факт: в Википедии есть несколько экспериментальных статей, составленных скриптом автоматически на основании одной лишь информации в Викиданных. Пример.