Исследование обнаружило, что фразы из статей Википедии, касающихся активно развивающихся научных областей, попадают в научные работы




Википедия решает застольные споры и спасает тех, кто пытается схитрить на вечере эрудиции. Быстро: в какой стране берёт начало Нил? В каком году Гершвин написал "Рапсодию в стиле блюз"? В Википедии можно найти ответы на все подобные вопросы – включая и научные.

В Википедии содержатся сотни тысяч научных статей, и она предоставляет способ быстро сослаться на молекулярную формулу "Золофта", изобретателя 3D-принтера и то, что теории тектонических плит всего около 100 лет. Этот сайт – золотая жила для любителей науки, научных блогеров и самих учёных. Но хотя учёные и используют Вики, они не спешат в этом признаваться. Сайт редко попадает в список цитат, как источник, допустим, истории изучения оси мозг-кишечник или химической формулы поливинилхлорида.

Но учёные роются в Вики точно так же, как и все остальные люди. Недавний анализ обнаружил, что актуальность Вики не отстаёт от новейших исследований – и что слова из её статей попадают в научные работы. Эти результаты не только указывают на привычку использовать Вики, укоренившуюся в башне из слоновой кости. Они также говорят о том, что свободный и доступный всем источник информации играет свою роль в прогрессе исследований, особенно в более бедных странах.

Учителя в средней школе, старших классах и колледжах наставляют учеников: Вики – недостоверный источник. Её может редактировать каждый, и статьи меняются день ото дня – иногда на одну запятую, а иногда полностью переписываются за одну ночь. «У Вики репутация ненадёжного источника», — говорит Томас Шафи, биохимик из Университета Ла Троуб в Мельбурне.

Но те же самые учителя – даже преподаватели колледжа – предостерегая студентов от использования Вики, сами её используют. «Учёные постоянно используют Вики, потому что они тоже люди. Это то, что делают все», — говорит Даг Хэнли, специалист по макроэкономике из Питтсбургского университета.

И, возможно, репутация сайта как ненадёжного неоправданна. Вики не менее непротиворечива, чем Британская Энциклопедия – так показало исследование 2005 года, опубликованное в Nature (сама энциклопедия яростно возражала против такого заключения). Но цитировать её в качестве источника никто не решается. «Её не уважают так, как академические источники», — отмечает Шафи.

Академическая наука может не уважать Вики, но сама Вики однозначно любит науку. Из порядка 5,5 млн статей от полумиллиона до миллиона касается научных тем. И постоянное дополнение материала сотнями и тысячами редакторов гарантирует актуальность статей вровень с самыми последними научными работами.

Легко отследить, как новейшие публикации влияют на Вики. Их ведь упоминают в энциклопедии. Но работает ли эта связь в другую сторону? Просачиваются ли научные статьи из Вики в академическую литературу, пусть их даже и не цитируют? Хэнли с коллегой Нилом Томпсоном, изучающим в MIT инновации, решили подойти к этому вопросу с двух фронтов.

Сначала они определили 1,1 млн самых распространённых научных слов в опубликованных в научном гиганте Elsevier статьях. Затем Хэнли и Томпсон изучили, насколько часто эти слова добавляются или удаляются из Вики со временем, и цитируются в исследовательской литературе. Они сфокусировались на двух областях, химии и эконометрике – новой области, разрабатывающей статистические проверки для экономики.

Между языком научных работ и языком Вики прослеживалась чёткая связь. «Если появляется какая-то новая захватывающая тема, она приводит к созданию новой страницы в Вики», — отмечает Томпсон. Затем язык этой страницы связывается с более поздней научной работой. Хэнли и Томпсон продемонстрировали, что после появления новой статьи в Вики более поздние научные работы содержат больше языка, схожего с Вики, чем с языком научных работ в этой области, опубликованных до появления статьи в Вики. Существовала определённая связь между языком статьи в Вики и последующими научными работами.

Но была ли сама Вики источником этого языка? На этот вопрос исследование не отвечало. Оно только наблюдало, как увеличивается частота появлений слов в различных текстах. Оно не могло доказать, что учёные читали Вики и использовали прочитанное в работе.

Поэтому исследователи создали в Вики новых статей с нуля, чтобы выяснить, повлияет ли их язык на научную литературу. Хэнли и Томпсон поручили аспирантам по химии и эконометрике написать новых статей в Вики по темам, которых на сайте ещё не было. Студенты написали 43 статьи по химии и 45 статей по эконометрике. Затем по половине этих статей из каждой области опубликовали в Вики в январе 2015, а другую половину придержали как контрольную. Исследователи дали статьям три месяца на проникновение в интернет. Затем они изучили опубликованные научные статьи за последовавшие шесть месяцев в двух этих областях на предмет поиска определённых слов, использовавшихся в Вики, и сравнили их с языком статей, которые не были опубликованы.

По крайней мере, в химии новые статьи оказались популярными. Опубликованные в Вики и контрольные статьи были написаны на темы, до того не освещённые на сайте. Туда входили записи по синтезу гидрастина (прекурсору гидрастинина – препарата, останавливающего кровотечение). Люди заинтересовались статьями достаточно для того, чтобы просматривать их по 4400 раз в месяц.

Слова из статей просочились в научную литературу. За шесть месяцев после публикации статьи из Вики повлияли примерно на одно слово из 300 в новых научных работах по химии. А научные работы по темам, описанным в Вики, со временем стали больше походить на статьи в Вики. К примеру, если химики писали о синтезе гидрастина – на тему одной из новых статей в Вики – в опубликованных научных работах всё чаще встречалась фраза «реакция Пассарини», термин, использовавшийся в статье в Вики. Но если статью в Вики не публиковали, то научные работы не становились похожими на такую статью (а это могло бы произойти просто потому, что эта тема набирала популярность). Хэнли и Томпсон опубликовали препринт своей работы в журнале Social Science Research Network 26 сентября.

К сожалению, статьи по эконометрике в Вики не запустили реакцию. «Мы хотели выбрать что-то на грани науки», — говорит Томпсон. Но грань получилась слишком тонкой. Новые статьи по эконометрике в Вики просматривали в тридцать раз меньше, чем статьи по химии. Томпсон и Хэнли не смогли набрать достаточно данных из статей, чтобы сделать обоснованные выводы. Ну что ж, пожелаем эконометрике удачи в следующий раз.

Связь статей в Вики и научной литературы отличалась в разных регионах. Когда Хэнли и Томпсон отсортировали опубликованные научные статьи по ВВП стран, из которых они происходили, они обнаружили, что статьи в Вики сильнее влияли на язык научных работ учёных из стран с более слабой экономикой. «Если задуматься, то в относительно богатой стране у человека должен быть доступ к большому количеству журналов и научной литературы», — отмечает Хэнли. А организации в бедных странах не могут позволить себе дорогие подписки на научные журналы, поэтому учёным из этих стран приходится больше полагаться на публично доступные источники, такие, как Вики.

Это исследование Вики отличает «отлично разработанная схема работы и надёжный анализ», — говорит Хезер Форд, изучающая цифровые политики в Лидском университете Англии. «Насколько мне известно, это первая работа, указывающая на прочную связь статей из Вики и развития науки». Но, как она отмечает, всё это касается только химии. В разных областях и влияние может отличаться.

«Она обращается к вопросу, давно интересующему людей, который достаточно сложно доказать», — говорит Шэфи. Связь явно есть, но, по его словам, отслеживать язык – это не то же самое, что отслеживать, как новые идеи и концепции мигрируют с Вики в башню из слоновой кости. «Говорить, что по этой теме требуется больше исследований, конечно, будет клише, но на самом деле так оно и есть».

Хэнли и Томпсон согласились бы первыми. «Я считаю, что это первый шаг, — говорит Хэнли. – Показано, что Вики – не просто пассивный ресурс, она влияет на передовой край знаний».

Это отличная причина для того, чтобы учёные подключались к работе и редактировали статьи, — отмечает Томпсон. «Это крупный научный ресурс, и мне кажется, что мы должны признать это, — говорит Томпсон. – Есть польза в том, чтобы убедиться, что наука в Вики хорошо и достаточно полно описана». Хорошие научные статьи в Вики могут не только решать застольные споры. Они могут помочь продвигать науку. Ведь, в конце концов, учёные следят за ней, пусть даже и не признаваясь в этом.

Комментарии (18)


  1. Tatooine
    12.03.2018 11:05

    Лично меня очень раздражает вот какой момент:
    Гуглишь какую-нибудь тему, в 99% случаев первой ссылкой будет ссылка на Википедию. Почитаешь и решаешь поискать ещё инфы, так вот. Очень часто встречаю то что на других сайтах по теме копипаст статьи с Википедии. Какого???? Причем частенько люди даже ее утруждают себя хоть что-то изменить, просто тупо ctrl+c, ctrl+v…


    1. dartraiden
      12.03.2018 11:28

      И даже не утруждают себя соблюдением лицензии, которая требует, хотя бы, указать авторов текста.


    1. amarao
      12.03.2018 15:46

      Всё ещё хуже, если в статью в Википедии было притащена чья-то скопированная статья. Их легко заметить по суровому нарушению стиля (художественные образы, риторические вопросы и т.д.), но найти оригинал потом почти невозможно именно потому, что раздёргивают Википедию на цитаты, копирайтинг и прочие «лёгкие модификации» только так.


    1. Art3
      12.03.2018 22:38

      Меня лично раздражает, что русскоязычную Википедию, ее главную страницу, редакторы напрямую используют для создания общественного мнения, то есть пропаганды. В разделе "Текущие события" просто кладут болт на правила самой Вики, не быть СМИ, транслируя нам государственную повестку дня. Но самое интересное это раздел "В этот день". Вчера было 11 марта, день когда:


      105 — Цай Лунь получает бумагу из волокон бамбука в Китае.
      1564 год — выход первой точно датированной русской печатной книги — «Апостола» Ивана Фёдорова — в Москве.
      1811 — В Ноттингеме начинается восстание луддитов — противников машин.
      1985 — на внеочередном Пленуме ЦК КПСС Михаил Сергеевич Горбачёв был избран Генеральным секретарём ЦК КПСС (1985—1991).


      И что вы думаете было на главной 11 марта? А вот что:
      1918 — начало похода Первой Отдельной бригады Русских добровольцев из Румынии на Дон, известного как «Дроздовский поход».
      И три (!) даты времён ВОВ, которых даже нет в полном списке событий за этот день, настолько они не представляют никакого интереса. Ни слова о книгопечатании (и это в энциклопедии), зато:
      2004 — в результате терактов в мадридских пригородных поездах погиб 191 человек.


      И это не случайность, а целеноправленная кампания по информированию населения о войне, терроре, православии и футболе (последние две темы подаются на Вики так часто, что это не может быть очередной случайность, только если костяк редакторов не попы гоняющие мяч).


      Прошу прощения, если оффтопик, но многие гики слишком слепо любят Вики.


      1. putnik
        13.03.2018 05:26

        Всегда очень интересно наблюдать, какие выводы делают читатели, владея неполной информацией о происходящих процессах. Вот так, видимо, и возникают теории заговоров ;)

        Текущие события — тут всё очень просто, проблема действительно есть, и это та же проблема, что и с источниками в статьях:
        — русскую Википедию, в большинстве, пишут участники, хорошо владеющие только русским языком,
        — в качестве источников о текущих событиях они используют русскоязычные СМИ (потому что другие не могут),
        — русскоязычные СМИ издаются, в основном, в России,
        — большинство российских СМИ транслируют государственную повестку.

        Вывод тут настолько очевиден, что его даже писать нет смысла. И логично, что значительно лучше ситуация с этим в английской Википедии, потому что её пишут участники из различных стран. Значительно хуже ситуация в национальных разделах, где практически все участники из одного государства (без примеров, чтобы не разводить флуд, но практически во всех).

        В этот день — если коротко, то nobody cares. Если чуть длиннее, то этот список событий был составлен больше десяти лет назад. Какие-то активные правки в нём происходили в течение только последующих нескольких лет, в основном зачистка дней рождения (если посмотреть первую версию блока за 11 марта — там вообще адская смесь). Так что этот блок на заглавной (да и сами статьи про даты) почти никого не волнует, но никому и не мешает. Зато на заглавной есть динамический контент, не требующих усилий по своей поддержке (а усилий на поддержку обновляющегося контента в волонтёрском проекте всегда жалко). Если вас его содержание заботит, и есть желание улучшить — присоединяйтесь!


    1. Alcpp
      13.03.2018 03:12

      Это в основном проблема кириллического сегмента интернета.
      Когда-то проверял — в английском такое почти не встречается.


  1. Krapiv
    12.03.2018 11:16

    Секрет Полишинеля.


  1. MatveyK
    12.03.2018 11:16

    А может быть всё наоборот? На вики то опубликоваться проще и быстрее, чем в каком нибудь научном журнале


    1. mayorovp
      12.03.2018 11:22

      Такое называется «орисс» (оригинальное исследование) и вычищается по мере обнаружения.


    1. dartraiden
      12.03.2018 11:30

      Википедия лишь пересказывает уже опубликованное. Даже, если бы Эйнштейн пожелал разместить теорию относительности в Википедии, его бы попросили сначала опубликоваться в каком-то авторитетном издании.


      1. edwardspec
        12.03.2018 12:32
        +1

        Если бы Эйнштейн написал в Википедии, что относительная скорость двух объектов, движущихся параллельно друг другу в одном направлении, может не равняться разности их скоростей, его бы забанили за вандализм.
        Если бы, конечно, он не нашёл консенсус с другими участниками, пишущими статью «Скорость», включая тех, которые знают только кинематику или не знают её вовсе. А этого бы он сделать не смог.


        1. mayorovp
          13.03.2018 10:04

          И правильно бы сделали. Потому что публиковать такие вещи нужно в рецензируемых журналах, а не в Википедии. Вот после того как публикацию примут и оценят — можно уже дописать правку в статью, в форме «такого-то числа Эйнштейн открыл что», не забыв про упомянуть и про критику.


  1. Tachyon
    12.03.2018 14:09

    Для меня Википедия это скорее быстрый справочник, что-бы что-то узнать не значащее, а Главное узнать в каком направлении искать информацию дальше. Те кто использует Википедию как первоисточник и абсолютно верный источник фактов в итоге получают то же что и в ''Мистер Робот'' (не помню точно серию) — сторонний человек вводит в статью недостоверную информацию (Что главный герой большая шишка и миллиардер), а другой (охранник дата-центра) опираясь только на Википедию — обманывается.


    1. usblexus
      12.03.2018 19:49

      Бывает и наоборот, как-то пытались добавить достоверную информацию в одну из статей, но какой-то особо упоротый редактор каждый раз откатывал наши правки, что ему не нравилось выяснить так и не удалось, в итоге отказались от этой идеи.


      1. Tachyon
        13.03.2018 06:18

        Правки и статьи бывают разными. Если не ошибаюсь, в правилах никак не запрещено написание справочной статьи о какой нибудь конторе. А то что эта справка может быть с ''желтушным'' оттенком это уже на усмотрение модератора. Но статья о том что контора ''Рога и копыта'' существует с такого то года без проблем, занимается тем-то и тем-то, и вообще продаёт самые прочные рога и самые красивые копыта — вроде бы и справочная, но и рекламная одновременно.

        Пример
        ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%B7%D0%BF%D1%80%D0%BE%D0%BC
        Вы думаете что модератор полез проверять сколько процентов рынка занимает эта шарага сбывающая мечты? Да даже если и полез, то только чтобы его собственная мечта была исполнена, а статья не забракована.


  1. Wizard_of_light
    12.03.2018 22:37

    Эм, это несколько не так происходит. Википедия не является авторитетным источником (в том числе и для самой себя). Поэтому учёный находит тематическую статью в Википедии, смотрит список источников, находит источники и, если с ними, с точки зрения учёного, всё в порядке, ссылается уже на них. Поэтому-то Википедия из ссылок и выпадает — так же, как и телефонный справочник, по которому учёный обзванивает коллег, и десятки прочих вспомогательных вещей. А если учёный всё нужное нашёл прямо в телефонном справочнике статьях из Википедии… Ну, обычно это повод серьёзно подумать как минимум о смене направления исследований. А то и рода деятельности. Если только мы изначально не какое-нибудь статистическое распределение слов в телефонном справочнике Википедии изучаем :)


  1. putnik
    13.03.2018 07:04

    Оказывается, Ализар полгода назад уже публиковал эту новость. У него там намного понятнее и меньше воды: geektimes.ru/post/293233


  1. StjarnornasFred
    14.03.2018 13:03

    Снова около статьи о Википедии трётся википедийная братия и толкует о своём. Поэтому присоединюсь :)
    1)ВП — достаточно авторитетный источник для использования его в школьных и студенческих работах. Ошибки и неточности встречаются довольно редко.
    2) Любую ошибку можно исправить. Вот прямо сейчас. Открыл статью, увидел, что написана ахинея — нажал кнопку «править» и исправил. Не забыв приложить ссылку на источник.
    3) Критика Википедии как сайта «для пропаганды» необоснована — читаем правила ВП: НЕТРИБУНА и ВП: НТЗ. Отдельные отклонения в ту или иную сторону могут быть, но если они явные, то довольно быстро нейтрализуются. Кроме того, статей на такие темы в ВП меньшинство. Даже укрВП, которая «славится» оголтелой пропагандой в нескольких статьях на «актуальную тему», в целом вполне хороша — конфликтных и политизированных статей там от силы пару десятков из общих сотен тысяч. В РВП всё гораздо лучше, поскольку сообщество разнородно и одни других банят компенсируют.
    4) В любом случае все статьи ВП опирается на АИ. Можете сходить по ссылкам и проверить информацию или использовать их напрямую. Если в статье нет АИ, её лучше не воспринимать, а ещё лучше снабдить шаблоном {{нет источников}}.