Э

Мир энциклопедий

encyclopedia.ru

Авторитетность авторов и долговечность их правок позволят оценивать качество статей Википедии

Логотип английской Википедии
  • 1 ноября 2013
  • просмотров 3622
  • комментариев 5
Сянюй Цинь (Xiangju Qin) и Падрег Каннигем (Pádraig Cunningham) из Дублинского университетского колледжа (University College Dublin, UCD) разработали алгоритм для оценки статей английской Википедии (Wikipedia) на основании авторитетности авторов и долговечности их правок, сообщает MIT Technology Review со ссылкой на публикацию исследования на сайте Библиотеки Корнелльского университета (Cornell University Library).

Учёные исходят из предположения, что страницы, в редактирование которых был внесён значимый вклад от авторитетных авторов, должны быть относительно хорошего качества. В итоге, зная об этом, читатели смогут объективнее оценивать качество статей. Но как это вычислить? — Поначалу стандартно.

Дело в том, что Цинь и Каннингем — не первые, кто взялись разрабатывать инструмент для анализа качества статей Википедии. И начинают они с известного способа — измерения продолжительности «жизни» (longevity) правок. Идея проста: чем выше качество редактирования, тем больше у текста шансов «выжить» при следующей редакции.

Однако значимой проблемой Википедии по-прежнему является является вандализм. Чтобы уменьшить этот «шум», который мог повлиять на качество исследования, Цинь и Каннингем игнорировали все анонимные правки.

Затем были разработаны правила измерения авторитетности каждого редактора. Данный показатель учёные определяют как по продолжительности пребывания автора в сообществе википедистов, так и по количеству его связей с коллегами через совместное редактирование статей. Соответственно, чем опытнее редактор, тем больше у него связей. Применялся и алгоритм Google Pagerank (веб-страница считается тем «важнее», чем больше на неё ссылаются другие «важные» страницы).

В результате «долговечность» правок и авторитетность авторов позволяют вычислить качество статьи.

Эффективность разработанного алгоритма была проверена на примере 9000 статей, качество которых ранее оценили редакторы Википедии.

При этом у данного подхода имеются некоторые ограничения. К примеру, такой тип редактирования, как отмена правки (revert), возвращает страницу к предыдущей версии, полностью удаляя соответствующий текст. Этот метод часто используется при борьбе с вандализмом. Что же будет, если учитывать «откаты»? — Долговечность такого изменения может оказаться высокой. Между тем автор не добавил новый контент, а всего лишь отменил чужую правку. Цинь и Каннингем считают, что эта задача для их дальнейших исследований.

В любом случае, учёные полагают, что новый подход может стать полезным инструментом в арсенале редактора Википедии. Разработанный алгоритм поможет определять статьи как относительно хорошего качества, так и низкого, а значит своевременно обращать на них внимание редакторов.

Упомянутые персоны, псевдонимы и персонажи


  • Теги
  • algorithm
  • assessment
  • data mining
  • en.wikipedia.org
  • Pádraig Cunningham
  • paper
  • quality of articles
  • UCD
  • Wikipedia
  • Xiangju Qin
  • Википедия
  • алгоритм
  • английская Википедия
  • английский язык
  • исследование
  • качество статей
  • оценка качества статей

(Голосов: 2, Рейтинг: 3.44)

Комментарии

Предупреждение Для добавления комментариев требуется авторизация
  • Ссылка на комментарий
    Оказывается, КАК всё просто...  Скептически  
    Особенно по части определения степени "авторитетности" авторов, которые могут не только заниматься "вандализмом", но и откровенно флудить.  Со злостью  И хотелось бы верить, что при ТАКОМ мощном объеме вики-статей изобретенные "методы контроля качества" оказались бы сильны.
    Впрочем, практика и опыт покажут.  Идея
    • 0/0
  • Ссылка на комментарий
    Жаль, но не понял, насчет долговечности в случае, когда идет просто отмена. Мне казалось, что тут вообще нет проблемы. Ведь при откате нет добавления новых байт информации. Но все равно идея автоматизировать проверку качества — очень хорошая. Она, по крайней мере, облегчит труд редакторов Википедии.
    • 0/0
  • Ссылка на комментарий
    Хорошо что в данной общественной теме есть хоть какие-то подвижки... Википедия — довольно полезная и нужная сфера человеческих знания и то, что она сейчас начинает изменяться, не может меня не радовать.
    Хорошая задумка, побольше бы таких рациональных решений в данном ресурсе.
    • 0/0
  • Ссылка на комментарий
    YA_HELEN пишет:
    Оказывается, КАК всё просто...
    Особенно по части определения степени "авторитетности" авторов, которые могут не только заниматься "вандализмом", но и откровенно флудить. И хотелось бы верить, что при ТАКОМ мощном объеме вики-статей изобретенные "методы контроля качества" оказались бы сильны.
    Впрочем, практика и опыт покажут.
    Совершенных механизмов не бывает, иначе был бы уже готов вечный двигатель. Самое забавное, что ничего кардинально нового в этом алгоритме нет, есть во многом экстраполяция того, как выставляют свои рейтинги мировые поисковые системы относительно того, какой сайт "запендюрить" на первое место, а какой задвинуть на 100-ю страницу поиска. При этом далеко не всегда важно, где лучше контент.
    • 0/0
  • Ссылка на комментарий
    Человек, который начал редактировать и писать статьи для Википедии больше 3-5 лет назад, безусловно, опытнее человека, который зарегистрировался только вчера и уже начал активно "хозяйничать". Что же касается измерения продолжительности "жизни" правок, то тут не все однозначно. К примеру, я однажды зашел на страницу с одной интересной для меня статьей. Стал смотреть примечания и зашел по одной из ссылок. Оказалось, что ссылка ведет на абсолютно бесполезный ресурс, забитый рекламой. Владелец этого ресурса, судя по всему, просто таким способом рекламировал свой проект. Я удалил эту ссылку. А через пару месяцев вновь зашел в эту сетевую энциклопедию на данную страницу и был удивлен, поскольку посмотрел историю правок и обнаружил, что та ссылка восстановлена. Получается, что спам тоже может долго "жить".
    • 1/0