Предлагаю Вашему вниманию обзорную статью научных работ, в которых я являюсь непосредственным участником и автором, на тему оценки качества Википедии на разных языках. Свои научные публикации на эту тему я пишу в основном на английском и польском языках. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории, и выбрал Хабрахабр для первой такой статьи. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии.
Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей, охватывающих различные темы.
С каждым днём количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.
Несмотря на это в Википедии можно иногда встретить ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существует возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).
Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии — английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др.
С момента основания и с ростом популярности Википедии появляется всё больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень «зрелости» статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий).
Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи.
Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом — получают специальный «значoк». В русской Википедии такие статьи называются "Избранные статьи" (ИС), в английский Википедии — «Featured Articles». Есть ещё другой «значок» для статей, которые немного не «дотягивают» до избранных — "Хорошие статьи" (ХС) (в английской версии — это «Good Articles»). В некоторых языковых версиях существует и другие оценки для более «слабых» статей. Например, в русской Википедии есть ещё: Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить ещё: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версий, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки — аналоги ИС и ХС.
Поэтому часто оценки в научных работах объединяют по двум группам:[1][2][3][4][5][6][7]
Назовем этот метод «бинарным» (1 — Полные статьи, 0 — Неполные статьи). Такое разделение естественно «размывает» границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.
Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространённых и эффективных алгоритмов — Random Forest[1][2][3][4][5][6][7] («Случайный лес»). Имеются даже исследования[4], которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессию[13].
Результаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии[1][2][3][4]. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста.
Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп — Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов[6], посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров[5][7], которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели. Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно[14] — то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.
Источников несколько — это может быть резервные копии Википедии, сервис API, специальные инструменты и другие[12].
Для получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).
Да. В недавних исследованиях[8][9] предлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк, который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематик[9].
Конечно. Например одним из важных элементов статьи является так называемая «карточка» (infobox). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию — достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования[2][11]. Существуют также проекты, такие как Infoboxes, которые позволяют автоматически сравнивать карточки в разных языковых версиях.
Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий[11]. Также это позволит повысить качество других семантических баз данных, для которых Википедия является основным источником информации. Прежде всего, это — DBpedia, Wikidata (Викиданные), YAGO2 и другие.
Источник иллюстраций — [8]
Несмотря на то, что Википедия часто критикуется за ее низкое качество, она по-прежнему остается одной из самых популярных баз знаний в мире. В настоящее время эта интернет энциклопедия находится на 5 месте среди наиболее посещаемых сайтов в мире (после Google, Youtube, Facebook, Baidu). Статьи в данной энциклопедии создаются и редактируются на около 300 разных языках. В настоящее время Википедия содержит более 46 миллионов статей, охватывающих различные темы.
С каждым днём количество статей в Википедии растет. Они могут создаваться и редактироваться даже анонимными пользователями. Авторам не нужно формально демонстрировать свои навыки, образование и опыт в определенных областях. В Википедии нет центральной редакции или группы рецензентов, которые могли бы комплексно проверять все новые и существующие тексты. По этим и другим причинам люди часто критикуют концепцию Википедии, в частности, указывая на низкое качество информации.
Несмотря на это в Википедии можно иногда встретить ценную информацию — в зависимости от языковой версии и тематики. Практически в каждой языковой версии существует система наград для наилучших статей. Однако, таких статей очень мало (меньше одного процента). В некоторых языковых версиях существует возможность выставлять также другие оценки качества. Однако, подавляющая доля статей не имеет оценок (в некоторых языках более 99%).
Автоматическая оценка качества статей Википедии
Итак, в Википедии много статей не имеют оценок качества, поэтому каждый читатель должен самостоятельно анализировать их содержимое. Тема автоматической оценки качества статей Википедии в научном мире не нова. В основном, научные работы касаются самой развитой языковой версии Википедии — английской, которая уже содержит более 5.5 миллионов статей. Мною исследуются разные языковые версии Википедии: английская, русская, польская, белорусская, украинская, немецкая, французская и др.
С момента основания и с ростом популярности Википедии появляется всё больше и больше научных публикаций на эту тему. Одно из первых исследований показало, что измерение объема содержимого может помочь определить степень «зрелости» статьи. Работа в этом направлении показывает, что в целом более качественные статьи являются длинными, используют ссылки согласованным образом, редактируются сотнями авторов и имеют тысячи редакций (версий).
Как приходят к подобным заключениям? Проще говоря: сравнивают между собой хорошие и плохие статьи.
Как уже вспоминалось ранее, практически в каждой языковой версии Википедии существует система оценок качества статей. Самые лучшие статьи награждаются особым способом — получают специальный «значoк». В русской Википедии такие статьи называются "Избранные статьи" (ИС), в английский Википедии — «Featured Articles». Есть ещё другой «значок» для статей, которые немного не «дотягивают» до избранных — "Хорошие статьи" (ХС) (в английской версии — это «Good Articles»). В некоторых языковых версиях существует и другие оценки для более «слабых» статей. Например, в русской Википедии есть ещё: Добротная, Полная, Развитая, В развитии, Заготовка. В английской версии можно встретить ещё: A-class, B-class, C-class, Start, Stub. Уже на примере английской и русской версий, можно сделать вывод, что стандарты к градации оценок различны в зависимости от языка. Более того, далеко не все языковые версии Википедии имеют такую развитую систему оценок качества статей. Например, немецкая Википедия, которая содержит более 2 млн статей, использует только две оценки — аналоги ИС и ХС.
Поэтому часто оценки в научных работах объединяют по двум группам:[1][2][3][4][5][6][7]
- «Полные» — оценки ИС и ХС,
- «Неполные» — все остальные оценки.
Назовем этот метод «бинарным» (1 — Полные статьи, 0 — Неполные статьи). Такое разделение естественно «размывает» границы между отдельными классами, однако позволяет строить и сравнивать модели качества для разных языковых версий Википедии.
Data Mining
Для построения таких моделей можно использовать различные алгоритмы, в особенности Data Mining. В своих работах, я часто использую один из наиболее распространённых и эффективных алгоритмов — Random Forest[1][2][3][4][5][6][7] («Случайный лес»). Имеются даже исследования[4], которые сравнивают его с другими алгоритмами (CART, SMO, Multilayer Perceptron, LMT, C4.5, C5.0 и др.). Случайный лес позволяет строить модели даже с использованием независимых переменных, которые коррелируют друг с другом. Дополнительно, данный алгоритм может показать, какие именно переменные являются более значимые для определения качества статей. Если нам необходимо получить другую информацию о важности переменных, можно использовать другие алгоритмы, в том числе логистическую регрессию[13].
Результаты показывают, что существуют различия между моделями качества статей в разных языковых версиях Википедии[1][2][3][4]. Таким образом, если в одной языковой версии одним из наиболее важных параметров является количество примечаний (источников), в другом языке более важным будет количество изображений и длина текста.
Таким образом, качество моделируется, как вероятность отнесения статьи к одной из двух групп — Полные или Неполные. Вывод делается на основании анализа различных параметров: длина текста, количество примечаний, изображений, разделов, ссылок на статью, количество фактов[6], посещение, количество редакций и многих других. Имеется также ряд лингвистических параметров[5][7], которые зависят от рассматриваемого языка. В настоящее время суммарно в исследованиях используется более 300 параметров, в зависимости от языковой версии Википедии и сложности построенной модели. Некоторые параметры, такие как примечания (источники), могут оцениваться дополнительно[14] — то есть не только считать количество, а также оценивать насколько известные и надежные источники используются в статье Википедии.
Откуда взять эти параметры?
Источников несколько — это может быть резервные копии Википедии, сервис API, специальные инструменты и другие[12].
Для получения некоторых параметров необходимо просто отправить запрос в соотвествующий API, для других параметров (особенно лингвистических) необходимо использовать специальные библиотеки и парсеры. Значительная часть времени, однако, уходит на написание своих инструментов (на этом остановимся в отдельных статьях).
Существуют ли другие способы оценки качества статей кроме бинарного?
Да. В недавних исследованиях[8][9] предлагается способ оценки статей по шкале от 0 до 100 (как непрерывная оценка). Таким образом, статья может может получить, например, оценку 45.78. Этот способ протестирован на 55 языковых версиях. Результаты доступны в сервисе ВикиРанк, который позволяет оценивать и сравнивать качество и популярность статьи Википедии на разных языках. Способ, конечно, не идеален, но работает для локально известных тематик[9].
Есть ли способы оценивания качества не всей статьи Википедии, а ее части?
Конечно. Например одним из важных элементов статьи является так называемая «карточка» (infobox). Это отдельная рамка (таблица), которая расположена часто справа вверху статьи и показывает наиболее важные факты о субъекте. Таким образом, нет необходимости искать в тексте эту информацию — достаточно взглянуть на эту карточку. Оценке качества этих карточек посвящены отдельные исследования[2][11]. Существуют также проекты, такие как Infoboxes, которые позволяют автоматически сравнивать карточки в разных языковых версиях.
Зачем это всё?
Википедией пользуются часто, но не всегда проверяют качество информации. Предложенные методы могут упростить эту задачу: если статья является плохой, тогда пользователь, зная это, будет более осторожным в использовании ее материалов для принятия решений. С другой стороны, пользователь также может видеть, на каком языке интересующая его тема описана лучше. И самое важное, современные методики позволяют переносить информацию между различными языковыми версиями. Это означает, что можно автоматически обогатить слабые версии Википедии информацией высокого качества из других языковых версий[11]. Также это позволит повысить качество других семантических баз данных, для которых Википедия является основным источником информации. Прежде всего, это — DBpedia, Wikidata (Викиданные), YAGO2 и другие.
Источник иллюстраций — [8]
Литература
- [1] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2016). Quality and Importance of Wikipedia Articles in Different Languages. In International Conference on Information and Software Technologies (pp. 613-624). Springer International Publishing. DOI: 10.1007/978-3-319-46254-7_50
- [2] Wecel, K., & Lewoniewski, W. (2015). Modelling the quality of attributes in Wikipedia infoboxes. In International Conference on Business Information Systems (pp. 308-320). Springer International Publishing. DOI: 10.1007/978-3-319-26762-3_27
- [3] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2015). Analiza porownawcza modeli jakosci informacji w narodowych wersjach Wikipedii. Prace Naukowe/Uniwersytet Ekonomiczny w Katowicach, 133-154.
- [4] Lewoniewski, W., Wecel, K., Abramowicz, W. (2017), Analiza porownawcza modeli klasyfikacyjnych w kontekscie oceny jakosci artykulow Wikipedii, Matematyka i informatyka na uslugach ekonomii, Wydawnictwo UEP Poznan, ISBN 9788374179386
- [5] Khairova, N., Lewoniewski, W., & Wecel, K. (2017). Estimating the quality of articles in Russian Wikipedia using the logical-linguistic model of fact extraction. In International Conference on Business Information Systems (pp. 28-40). Springer, Cham. DOI: 10.1007/978-3-319-59336-4_3
- [6] Lewoniewski, W., Khairova, N., Wecel, K., Stratiienko, N., & Abramowicz, W. (2017). Using Morphological and Semantic Features for the Quality Assessment of Russian Wikipedia. In International Conference on Information and Software Technologies (pp. 550-560). Springer, Cham. DOI: 10.1007/978-3-319-67642-5_46
- [7] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2017). Determining Quality of Articles in Polish Wikipedia Based on Linguistic Features. DOI: 10.20944/preprints201801.0017.v1
- [8] Lewoniewski, W., Wecel, K., & Abramowicz, W. (2017). Relative Quality and Popularity Evaluation of Multilingual Wikipedia Articles. In Informatics (Vol. 4, No. 4, p. 43). Multidisciplinary Digital Publishing Institute. DOI: 10.3390/informatics4040043
- [9] Lewoniewski, W., & Wecel, K. (2017). Relative quality assessment of Wikipedia articles in different languages using synthetic measure. In International Conference on Business Information Systems (pp. 282-292). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_24
- [10] Lewoniewski, W. (2017). Enrichment of Information in Multilingual Wikipedia Based on Quality Analysis. In International Conference on Business Information Systems (pp. 216-227). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_19
- [11] Lewoniewski, W. (2017). Completeness and Reliability of Wikipedia Infoboxes in Various Languages. In International Conference on Business Information Systems (pp. 295-305). Springer, Cham. DOI: 10.1007/978-3-319-69023-0_25
- [12] Lewoniewski, W., Wecel, K., (2017), Cechy artykulow oraz metody ich ekstrakcji na potrzeby oceny jakosci informacji w Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.7
- [13] Lamek, A., Lewoniewski, W. (2017), Zastosowanie regresji logistycznej w ocenie jakosci informacji na przykladzie Wikipedii. Studia Oeconomica Posnaniensia 12/2017. DOI: 10.18559/SOEP.2017.12.3
- [14] Lewoniewski, W., Wecel, K., Abramowicz, W., (2017), Analysis of References across Wikipedia Languages. Information and Software Technologies. ICIST 2017. DOI: 10.1007/978-3-319-67642-5_47
Комментарии (4)
EndUser
24.01.2018 13:48323 иллюстрации в статье?! 680 внешних ссылок?! Это как?
В фильме «Википедия» википедия критиковалась за:
1. необоснованность
2. войну правок
3. меритократию
Как я понял — неконтролируемая необоснованность формирует плохие и ложные статьи.
Война правок — политизированные статьи.
Меритократия — потолок качества, не пропускающий верные правки через самолюбивых властных редакторов.
То есть это системные глюки, которые в принципе искажают ценность информации в ней.
Тем не менее, я рад, что википедия признана Unesco культурным сокровищем человечества. Она привнесла непревзойдённую доступность как на чтение, в отличие от редакторских экциклопедий; так и на запись, позволяя невиданный ранее охват тематик. Это стоит отметить.putnik
24.01.2018 20:53323 иллюстрации в статье?!
Вероятно, учитываются иллюстрации, используемые для оформления. Иконок флагов вполне могут быть сотни.
680 внешних ссылок?! Это как?
«Клуб Винкс» — предпоследняя избранная статья в русской Википедии. 220 сносок, 13 публикаций, 4 ссылки на сайты. Почти каждая ссылка дублируется ссылкой на веб-архив. Итого получаем порядка 500 ссылок.
sfocusov
Всё это сильно напоминает мне систему ранжирования, используемую поисковыми машинами.
Такие: www.searchmetrics.com/wp-content/uploads/Searchmetrics-Ranking-Factors-Infographic-EN-Print.pdf, включая коммерческие факторы (актуально для Яндекса) siteclinic.ru/blog/internal-optimization/kommercheskie-faktory-ranzhirovaniya