image

Paperscape – проект по визуальному отображению базы научных работ, размещённых на бесплатном архиве научных работ и их препринтов arXiv (название произносится как «архив»). При формировании интерактивного изображения используются алгоритмы, описывающие формирование галактик – только место звёзд в этой научной вселенной занимают научные работы.

Появился архив в августе 1991 года – тогда его создание стало возможным благодаря компьютерному формату для записи научных текстов и формул TeX, который позволял хорошо сжимать передаваемые данные, а красивые картинки рендерить на стороне клиента. К октябрю 2008 года архив перевалил за полмиллиона публикаций, а к концу 2014 года – за миллион. Сегодня arXiv каждый месяц пополняется в среднем на 8000 научных работ.

Строго говоря, работы, попавшие в этот архив, не считаются научными публикациями, поскольку не проходят процедуру научного рецензирования. В рамках борьбы с уменьшением количества псевдонаучных публикаций, создатели ресурса около десяти лет назад ввели систему «поручителей». Согласно этой системе, работа может попасть в архив либо от автора со статусом поручителя, либо должна быть рекомендована другим поручителем. Статус поручителя авторы из признанных академических учреждений получают автоматически.

Висящее в чёрной пустоте непознанного облако из тысяч научных работ действительно напоминает снимки газопылевых облаков, готовящихся сформировать космические объекты. Все эти работы поделены на разные научные области, соответствующим образом сгруппированы и раскрашены.

Сначала на карте работ видны наиболее крупные из них – по количеству цитат, которых работа удостоилась. Увеличивая карту, можно наблюдать появление более мелких работ. В какой-то момент карта начинает напоминать сильно загруженное игровое поле agar.io

Работы, ссылающиеся друг на друга, группируются поближе, будто бы увлекаемые силой притяжения. Клик на кружочке, обозначающем работу, позволяет вам узнать подробную информацию о ней — включая название, имена авторов и ссылку на PDF.

Интересно, что после автоматического построения карты согласно связям между работами, центральное её место заняла физика высоких энергий. Кроме того видно, что хотя на карте и появляются вкрапления одного цвета среди других (смешение разделов физики), в целом одинаковые цвета имеют тенденцию кучковаться. Это говорит о том, что при работе над статьями учёные обычно ссылаются на статьи из той же области.

Карта предлагает альтернативную раскраску работ для поиска недавних публикаций. Их взаимное расположение остаётся неизменным, а цвет меняется на все оттенки красного. При этом наиболее свежие работы подсвечиваются наиболее ярким оттенком красного, и они выделяются на общем фоне, как тлеющие угольки.

Также карта обеспечивает поиск по названиям работ, а также фильтрацию по отраслям науки и по времени появления работы в архиве.

Комментарии (9)


  1. Aloneal
    26.11.2015 00:26

    великолепный дизайн :)


    1. Xazzzi
      26.11.2015 03:43

      Сразу вспомнил о «карте интернета», возможно те же люди делали.


      1. irriss
        26.11.2015 16:15
        +2

        Да, очень похоже, но делали разные люди. (точно знаю т.к. карту Интернета делал я)


        1. qbertych
          26.11.2015 16:28

          А расскажите по какому именно принципу группируются сайты на карте интернета? Потому что по своей области я вижу, что paperscape группирует явно не по цитируемости (или, скорее, не только по цитируемости).


          1. irriss
            27.11.2015 09:11
            +1

            По принципу — чем больше трафик между сайтами тем ближе сайты «стараются» расположиться на карте. У них не всегда получается т.к. измерений всего два. Если интересно, то можно почитать здесь — habrahabr.ru/users/irriss/topics


  1. Xazzzi
    26.11.2015 03:49
    +1

    Спасибо за статью.
    Очень интересная визуализация, было бы интересно узнать, как и на чём можно сделать подобное (навскидку, скорее всего — язык D).
    Залипнуть просматривая карту можно не хуже чем на вики. В какой-то момент обнаружил себя открывшим статью «Experimental characterization of railgun-driven supersonic plasma jets motivated by high energy density physics applications» и смотрящим на графики.


  1. dionix
    26.11.2015 13:35
    +1

    компьютерному формату для записи научных текстов и формул TeX, который позволял хорошо сжимать передаваемые данные, а красивые картинки рендерить на стороне клиента.

    Это, простите, что за чушь? TeX – язык разметки текстов, не более. И сжимается он не лучше, чем plain text. Да и картинки рендерятся на сервере…


    1. sielover
      26.11.2015 14:55
      +1

      Это перевод копипасты из англоВики.


      1. dionix
        26.11.2015 19:20
        +1

        The arXiv was made possible by Donald Knuth's low-bandwidth TeX file format, which allowed scientific papers to be easily transmitted over the Internet and rendered client-side.

        Это не перевод, а болтовня на тему! И такие ляпы допускает редактор технического сайта! :)