В Польше разработали методы определения значимых интернет-источников для Википедии

30 октября 2022
просмотров 1246
комментариев 2

В научном журнале Procedia computer science вышла в свет статья «Определение значимых веб-источников информации для Википедии по различной тематике и языковым разделам» (Identification of important web sources of information on Wikipedia across various topics and languages) [1]¹, которая была приурочена к 26-й международной конференции по интеллектным и интеллектуальным информационным и инженерным системам (7-9 сентября 2022 года, Верона, Италия) [2]².

Одно из основных правил Википедии гласит, что статьи должны основываться на надёжных источниках, а читатели — иметь возможность проверять конкретные факты, пишет Влодзимеж Левоневский (Włodzimierz Lewoniewski) из Познанского университета экономики и бизнеса (польск. Uniwersytet Ekonomiczny w Poznaniu; англ. Poznań University of Economics and Business, PUEB). Однако надёжность — это «субъективная концепция», и один и тот же источник может по-разному восприниматься (иметь разную репутацию) в зависимости от человека (группы лиц), языкового раздела и тематики. Таким образом, каждая версия Вики может иметь собственные правила или критерии оценки веб-сайта, прежде чем кто-либо начнёт его использовать в качестве источника. В настоящее время в Сети насчитывается более 1 млрд веб-ресурсов, и лишь некоторые языковые разделы Свободной энциклопедии оперируют списками из менее 1000 популярных сайтов с приведённой оценкой надёжности, которые нуждаются в постоянном пополнении. Более того, с течением времени репутация источника может меняться, то есть такие реестры должны регулярно обновляться. Цель статьи — показать, как можно автоматизировать процесс формирования и обновления подобных списков.

В исследовании была предпринята попытка идентифицировать значимые веб-источники на основе анализа более 230 млн ссылок, которые были извлечены из более 40 млн статей 42 наиболее наполняемых языковых версий Википедии. Использовались различные научные подходы. В итоге была подсчитана общая статистика использования ссылок в рамках каждого языкового раздела, включая среднее количество ссылок, количество уникальных ссылок, научную оценку, количество веб-сайтов в ссылках. Затем статьи были отнесены к различной тематике, в рамках языковых разделов. По мнению автора, описанная методика позволяет видеть различия с точки зрения надёжности и популярности одних и тех же источников для разных языков, а также определять значимые веб-источники для конкретных областей знаний.

Извлечение ссылок

Для извлечения ссылок использовались дампы Википедии в формате HTML, из свободного доступа. После извлечения URL-адресов был определён основной адрес каждого веб-сайта, на основании каталога публичных суффиксов доменов Public Suffix List (проект Mozilla Foundation) [3]³.

Пример URL-адреса в домене четвёртого уровня с определением основного веб-сайта организации по Public Suffix List.

В итоге было высчитано среднее количество ссылок на статью (Reference per Article, RpA). Лидерами оказались французская (fr), греческая (el), японская (ja) и русская (ru) Википедии. При этом с точки зрения научной оценки источников (scientific score, Sci Score) список был уже другой: самая высокая доля научных публикаций обнаружена в сербскохорватском разделе (sh); высокие — в арабском (ar), английском (en) и корейском (ko). В качестве формального признака учитывалось наличие в ссылке цифрового идентификатора объекта (digital object identifier, DOI, ДОИ): только такой источник считался академическим.

Статистика по извлечённым ссылкам.
Источник: собственные расчеты на основе дампов Википедии за апрель 2022 года

Пояснения к колонкам таблицы

Abbr. — код языкового раздела;
Language — название языка;
Articles — кол-во статей;
References — кол-во ссылок;
Uniq. refs — кол-во уникальных ссылок;
RpA — среднее количество ссылок на статью;
DOI refs — количество ссылок на академические источники (с DOI);
Sci Score — доля ссылок на научные/академические источники (в %);
Websites — кол-во основных адресов сайтов.

Классификация по категориям

Для таксономии использовался сервис ORES, с 4 базовыми разделами: «Культура» (Culture), «География» (Geography), «История и общество» (History and Society) и STEM (естественные науки, технология, инженерия и математика; Science, Technology, Engineering and Mathematics) [4]⁴.

Были высчитаны значения RpA для 42 языков по 70 темам. Как ранее упоминалось, англоязычная Википедия имеет самое высокое значение RpA. Действительно, для отдельных тем данного языкового раздела характерна относительно высокая проверяемость информации: видеоигры, интернет-культура, комиксы и аниме, развлечения, софт, история. Как правило, множество ссылок по видеоиграм содержат вьетнамская (vi) и русская Википедии. Высоким показателем RpA по медицине и здоровью отличается армянская Википедия (hy), по музыке и интернет-культуре — вьетнамская, по библиотекам и информацим — японская.

В среднем, в рамках всех анализируемых языковых версий был сделан вывод, что самые высокие показатели RpA отемечены в темах: видеоигры, интернет-культура, комиксы и аниме, политика и правительство, медицина и здоровье.

Модели для оценки источников

На основе предыдущего исследования автор применил модели/формулы для оценки источников:

F-модель — как часто (F) рассматриваемый источник появляется в ссылках.
PR-модель — насколько популярны (P) статьи Википедии, в которых фигурирует рассматриваемый источник, делённые на количество ссылок (R) в таких статьях.
AR-модель — сколько авторов (A) отредактировали статьи, в которых фигурирует рассматриваемый источник, делённых на количество ссылок (R) в таких статьях.

Языковые разделы по категориям

В статье приводится часть результатов, которые были получены на основе описанных моделей: 10 лучших веб-источников по базовым ORES-категориям из 15 наиболее развивающихся языковых разделов Википедии.

«Культура»: imdb.com, nytimes.com, boxofficemojo.com, deadline.com, variety.com, worldcat.org, theguardian.com, hollywoodreporter.com, bbc.com, uefa.com.
«География»: youtube.com, worldcat.org, bbc.co.uk, census.gov, cia.gov, bbc.com, imf.org, un.org, wikisource.org, unesco.org.
«История и общество»: worldcat.org, nih.gov, youtube.com, wikisource.org, bbc.com, theguardian.com, britannica.com, cnn.com, reuters.com, un.org.
STEM: nih.gov, nasa.gov, harvard.edu, youtube.com, nytimes.com, who.int, bbc.co.uk, iucnredlist.org, microsoft.com, arxiv.org.

Более глубокий анализ показал, что некоторые веб-сайты одинаково важны в контексте различных вопросов (например, «Нью-Йорк таймс», «Би-би-си», «Гардиан»). Иные востребованней для отдельных тем. Например, ресурс Box Office Mojo — важный источник для «Культуры» из-за частого использования в публикациях Википедии о фильмах. Другой пример — категория STEM, которая включает такие важные источники, как Национальные институты здравоохранения США (National Institutes of Health, NIH), Национальное управление по аэронавтике и исследованию космического пространства (National Aeronautics and Space Administration, NASA, НАСА), Гарвардский университет (Гарвард; Harvard University).

Выводы и дальнейшие планы

На основании 230 млн ссылок Википедии в ходе работы был составлен список из 2 млн уникальных сайтов. Статьи сгруппировали по категориям. Затем на основании новых и существующих моделей был продемострирован процесс автоматического определения значимых источников на разных языках и по разным темам. Были приведены научные оценки каждой языковой версии. Проводились расчёты для конкретных тем.

В дальнейших планах — совершенствование моделей определения качества источников, с учётом новых методов классификации. Одно из важных направлений — разработка способов оценки веса ссылки на основе её размещения в статье Википедии. Планируется использовать показатели на основе репутации редакторов Википедии, факта защиты статей от правок, сходстве тем и другие идеи.

Инициаторы и финансирование

Исследование проводилось в рамках проекта «Экономикс перед лицом новой экономики» по программе Региональной инициативы по повышению квалификации от министра науки и высшего образования Польши, в 2019—2022 гг., грант № 004/RID/2018/19 с финансированием 3 млн польских злотых (свыше ₽ 42 млн).

Литература

Lewoniewski W. Identification of important web sources of information on Wikipedia across various topics and languages/ Włodzimierz Lewoniewski. — Текст: электронный// Procedia computer science. — 2022. — Vol. 207. — P. 3284-3293. — URL: https://www.sciencedirect.com/science/article/pii/S1877050922012777 (дата обращения: 05.12.2022).
26th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems: [сайт]. — URL: http://kes2022.kesinternational.org/ (дата обращения: 05.12.2022).
Public Suffix List: [сайт]/ Mozilla Foundation. — URL: https://publicsuffix.org/ (дата обращения: 05.12.2022).
ORES/Articletopic. — Текст: электронный// MediaWiki. — URL: https://www.mediawiki.org/wiki/ORES/Articletopic (дата обращения: 05.12.2022).

Персоны

Упомянутые персоны, псевдонимы и персонажи

Левоневский Влодзимеж

Теги
PUEB
Wikipedia
Википедия
достоверные источники
значимые веб-источники
исследование
источники Википедии
модели оценки
надёжные источники
оценка источников
статьи Википедии
формулы

(Голосов: 1, Рейтинг: 3.3)

Лилия Тумина 23 декабря 2022Ссылка на комментарий
Все-таки надежность и значимость того или иного интернет-источника — понятие очень условное. Ведь все тексты пишут люди со своими взглядами и позициями по конкретным вопросам. Вот представьте: есть два авторитетных литературоведа, один из которых, например, любит Бродского, а второй относится к нему прохладно. Каждый написал по статье о Бродском, обе статьи появились на авторитетных интернет-порталах. Ну и какому из двух мнений доверять в этом случае? Вопрос
- 0 /0
Павел Волошин 7 января 2023Ссылка на комментарий
Любопытное и весьма двойственное начинание. С одной стороны, задача ранжирования достоверности онлайн-источников информации — тема очень актуальная. Особенно для Википедии, которая уже стала на Западе полуофициальным источником, на который ориентируется общество при принятии самых разнообразных решений. С одной стороны, хорошо, если будет рейтинг достоверности информации в энциклопедиях. Но с другой стороны, мы таким образом можем очень быстро прийти к новому типу цензуры — «коллективному тоталитаризму мнений», когда все, что противоречит мнению официальной академической среды или узкому кругу людей, старательно вымывается из информационной среды, а потом — даже из словарей и справочников. Решить задачу может, например, введение неравномерных рейтингов у источников и голосований, однако опять же это всё будет работать только в ситуации конкретной информационной среды.
- 0 /0
На форуме

Мир энциклопедий