Э

Мир энциклопедий

encyclopedia.ru

Проблемы достоверности Википедии как интернет-энциклопедии

Научная статья

  • 28 февраля 2023
  • просмотров 3109
  • комментариев 7
В статье рассматривается проблематика достоверности Википедии как Интернет-ресурса, предпринимается попытка провести анализ нейтральности статей, присутствующих и опубликованных в энциклопедии. В статье исследован процесс редакции статей в энциклопедии, каким образом статьи попадают и кто отвечает за качество выложенной информации, а также как статьи классифицируются по качеству изложенной информации.
Что такое Википедия? Это цифровая энциклопедия, доступная по сети Интернет, имеющая открытый доступ и содержащая более 15 млн статей, написанных добровольцами на более чем 200 языках. Википедия, управляемая некоммерческой организацией Фонд Викимедиа, была создана американцами Джимми Уэйлсом (Jimmy Wales) и Ларри Сэнгером (Larry Sanger) в 2001 г. Ее название является сокращением слов wiki («быстрый» на гавайском языке) и encyclopedia («энциклопедия» на английском языке).

Именно эти особенности сделали Википедию сегодня информационным инструментом доступным для всех. Википедия настолько важна в нашей повседневной жизни, что на данный момент входит в «десятку» самых посещаемых мест в Интернете. И она действительно полезна, потому что состоит из более чем 37 млн статей, которые можно найти в общей сложности на 284 различных языках. На русском языке написано свыше 1,5 млн статей. Культура, искусство, история, география, здоровье, математика, технология или философия — некоторые из областей, которые рассматриваются в этой энциклопедии через тысячи статей, которые полезны для всех и которые обычно сопровождаются соответствующим графическим материалом. Главное новшество Википедии заключается в том, что любой пользователь может вносить и редактировать материалы. Это демократизирует процесс создания и распространения информации, хотя существует также риск распространения ложных или необъективных данных.

В каждом из региональных разделов Википедии может быть определена своя собственная система оценки качества статей. Обычно в любом из региональных вариантов есть специальная метка для статей, которые считаются лучшими — они называются «Избранными статьями». Также существует специальная оценка для качественных статей, которые не отвечают критериям «Избранных статей» — так называемые хорошие статьи1.

В ряде языковых версий Википедии имеются и другие оценки качества, которые могут отражать уровень «зрелости» статьи. В английской Википедии, помимо высших оценок «FA» и «GA», существуют также «A-grade», «B-grade», «C-grade», «Start» и «Spoilsport». В русской Википедии, помимо двух высших оценок, есть также «Хорошая статья», «Уровень I», «Уровень II», «Уровень III» и «Уровень IV»2.

Рис. 1. Классификация качества в разных языковых разделах Википедии

Рис. 1. Классификация качества в разных языковых разделах Википедии
Чтобы выявить необходимые для оценки качества Википедии показатели, рассмотрим ее сходство с классическими энциклопедиями и сайтами Web 2.0. С одной стороны, содержание Википедии создано как справочник в энциклопедическом стиле. С другой стороны, Википедия построена так, чтобы пользователи имели возможность взаимодействовать и разрабатывать контент вместе. Таким образом, она опирается на технологии Web 2.0.

На картинке изображен диапазон критериев качества сайтов Web 2.0, традиционных энциклопедий и Википедии. Исходя из тех критериев качества, которые были приняты сообществом Википедии, мы можем определить следующие критерии качества для статей Википедии: актуальность, достоверность, объективность, полнота, релевантность, стиль и читабельность [Lewoniewski 2019][4]3.

Рис. 2. Критерии качества

Рис. 2. Критерии качества
В опубликованной в газете The Guardian статье «Можно ли верить Википедии?»4 экспертную комиссию пригласили проанализировать семь статей из своей экспертной сферы.

Было обнаружено, что в одной из статей «каждое оценочное суждение... неверно», а остальные были оценены в диапазоне от 5 до 8 баллов из десяти. В отношении остальных шести рассмотренных и оцененных статей наиболее частой критикой были:
  • некачественный язык или трудный для чтения (3 замечания);
  • упущения или погрешности, обычно несущественные, но в ряде статей значительные (3 замечания);
  • недостаточный уровень сбалансированности, менее значимым моментам уделяется больше внимания, и наоборот (1 замечание).
Наиболее частыми хвалебными отзывами были:
  • качественный и корректный с фактологической точки зрения текст, отсутствуют заметные недостоверности (4 замечания);
  • очень ценная и удобная информация, в том числе хорошо подобранные ссылки, обеспечивающие «быстрый доступ к значительной части информации» (3 замечания).
Википедия постулирует свой ресурс как универсальное хранилище знаний, но объективным и квалифицированным это знание трудно было бы назвать: ее субъективность связана с анонимностью подбора информации и фактическим отсутствием лица или организации, несущей ответственность за составление статьи, а характерная для статей Википедии обезличенность точки зрения способствует тому, что происходит деградация таких категорий, как достоверность и ответственность за знание. Процесс внесения статей в энциклопедию не предполагает обязательной процедуры регистрации в информационной системе; законченная работа мгновенно отображается в виде страницы на Википедии, минуя контроль грамотности, достоверности и актуальности предоставляемой информации. Каждый пользователь может запросто отредактировать содержимое какой-либо статьи, и эти правки будут моментально отображаться у всех посетителей. Это открывает широкие возможности для проявления вандализма и использования статей для продвижения крайне субъективной точки зрения. Отсутствие первичной проверки статей приводит к обилию недостоверной информации на страницах энциклопедий. Как это может выглядеть?

Бизнес-аналитик, сотрудник американского банка Питер Леппик (Peter Leppik) провел эксперимент, цель которого заключалась в том, чтобы попытаться получить некоторое представление о следующем вопросе: «В какой степени можно доверять информации в Википедии?»5 Что он сделал? С 30 августа по 3 сентября он внес три изменения в статьи на Википедии. Изменения были следующими:
  • Магни (из норвежской мифологии). Леппик отредактировал статью, написав, что его обычно изображают с топором или копьем. На самом деле Магни был единственным человеком, кроме самого Тора, который мог поднять молот Тора, и Магни обычно ассоциируется с этим оружием;
  • Эмпурьес, средиземноморский город в Испании. Леппик сделал его местом печально утраченных греческих руин. Греческие руины — это правда, но они не утрачены, а сохранились и на сегодняшний день;
  • Филипсбург, Город в штате Пенсильвания, Леппик расположил его на пересечении шоссе США № 233 и государственной трассы № 503, а не шоссе США № 322 и трассы штата № 504, как указано на большинстве карт.
Ни одно из изменений не было удалено к 4 сентября, когда автор сам их отменил. Каждое изменение находилось в Википедии не менее 20 часов, а самое долгое — 5 дней.

Учёные Адам М. Уилсон (Adam M. Wilson) и Джин Е. Лайкенс (Gene E. Likens) решили исследовать, как осуществляется процесс редактирования статей в Википедии на основе семи тем. Для исследования были отобраны три наиболее противоречивые темы: кислотные дожди, эволюция и проблема глобального потепления. Все эти вопросы вызывают интерес у множества несогласных с научной точкой зрения оппонентов. В качестве сравнения они выбрали четыре обыкновенные темы: стандартная модель в физике, гелиоцентризм, общая теория относительности и дрейф континентов. В результате изучения статистических данных за последние десять лет, ученые определили среднее число редактирований в день, средний уровень произведенных изменений и среднее число посещений страниц в день. Как выяснилось, дискуссионные статьи привлекали значительно более пристальное внимание как со стороны редакторов Википедии, так и со стороны ее пользователей. В частности, например, в статье о глобальном потеплении редакция происходит два-три раза в день со средним объёмом изменений в несколько сотен слов. При этом статья о стандартной модели в физике редактируется каждые несколько дней, в среднем по десять новых слов в день [Wilson, Likens 2015][5]6.

Рис. 3. Корреляция правок в статьях

Рис. 3. Корреляция правок в статьях
Каким образом столь значительное число редакций и присутствие в работе тысяч людей с различными точками зрения сказывается на нейтральности статей? Именно таким образом поставили перед собой вопрос исследователи из Гарвардского университета Шейн Гринштейн (Shane Greenstein) и Фэн Жу (Feng Zhu). В своей статье «Кто более пристрастен, специалисты или коллективный разум?» они провели сравнительный анализ нейтральности текстов статей Википедии и энциклопедии «Британника», воспользовавшись для этой цели определенной исследовательской методикой, которая была предложена экономистами Мэтью Генцковым (Matthew Gentzkow) и Джесси М. Шапиро (Jesse M. Shapiro) [Gentzkow, Shapiro 2010][3]7. Они применили семантический анализ выступлений членов американского конгресса, для того чтобы выявить определенные выражения и фразы, которые распространены в лексиконе одних и при этом практически не используются в лексиконе других (например, «безопасность границ» для республиканцев и «бедные люди» для демократов). На основе обнаруженных характерных идиом гарвардские ученые сумели в ходе исследования проанализировать, в какой степени «правыми» или «левыми» являются статьи политического характера в энциклопедии и каким образом изменялась ситуация с течением времени.

В результате оказалось, что Википедия в настоящее время стала более нейтральной, нежели когда-либо за всю свою более чем 15-летнюю историю. Если в прошлом статьи имели сильный уклон в левую сторону, то с течением времени наметилось отчетливое смещение к центру, иными словами, к нейтральной политике. Из статей постепенно пропадают фразы характерного содержания (так называемые кодовые слова), отражающие политическую субъективность. Общее количество кодовых слов составило 3918 [Greenstein, Zhu 2016][1]8.

В качестве показательного примера может служить статья под названием «Афганистан», которая постепенно и уверенно освобождалась от употребления левой лексики и в результате многих тысяч правок приобрела полностью нейтральный характер.

Рис. 4. Динамика изменений статьи «Афганистан»

Рис. 4. Динамика изменений статьи «Афганистан»
Джим Джайлс (Jim Giles) в своей работе «Интернет-энциклопедии идут голова к голове», провел экспертную оценку 42 статей из Википедии и Британской энциклопедии. В ходе этого исследования статьи из широкого круга научных дисциплин были отобраны с сайтов Википедии и энциклопедии «Британника» и отправлены соответствующему эксперту для рецензирования. Каждый эксперт рецензировал статью по одной теме из двух энциклопедий; им не сообщали, какая статья взята из какой энциклопедии. Всего из 50 разосланных рецензий было получено 42 пригодных для использования рецензии, которые затем были рассмотрены новостной группой журнала Nature. Полученные таким образом данные позволили получить следующие цифры: всего лишь восемь существенных ошибок, например, неправильная трактовка основных терминов, были выявлены в нескольких статьях, по четыре из каждой энциклопедии. Кроме того, эксперты также обнаружили множество фактологических неточностей, упущений или заведомо недостоверных утверждений: 162 в Википедии и 123 в Британнике [Giles 2005][2]9.

Подводя итог, Википедия не является надежным источником информации, а лишь одним из многих полезных справочных пособий, которые можно использовать для получения полной картины и как отправную точку для изучения материала. Из-за огромного количества информации некоторые плохо написанные статьи зачастую остаются на ресурсе, по крайней мере, на некоторое время. Именно по этой причине многие статьи Википедии являются некачественными или даже вводящими в заблуждение. Порядка 85% статей на русском языке являются непроверенными и неверифицированными в должной мере, и по возможности следует отдавать предпочтение «избранным» и «хорошим» статьям. Однако, с развитием технологий и усовершенствованием механизма модерации ресурса, с каждым годом можно наблюдать отчетливое улучшение качества Википедии и все больше возможностей использования ее в качестве достоверной интернет-энциклопедии.

Примечания

  1. Википедия:Избранные статьи. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Википедия:Избранные_статьи (дата обращения: 28.02.2023).
  2. ВикиРанк - оценка качества и популярности Википедии: [сайт]. — URL: https://ru.wikirank.net/ (дата обращения: 28.02.2023).
  3. Barnes M. Can you trust Wikipedia?/ Mike Barnes. — Текст: электронный// The Guardian. — 2005. — 24 октября. — URL: https://www.theguardian.com/technology/2005/oct/24/comment.newmedia (дата обращения: 28.02.2023).
  4. Leppik P. How authoritative is Wikipedia?/ Peter Leppik. — Текст: электронный// Dispatches from the Frozen North. — 2004. — 4 сентября. — URL: https://peterleppik.com/articles/61kmfw2g8zr9hcwpl1s7zvyvtm80y6 (дата обращения: 28.02.2023). — Дата обновления: 12.01.2005.

Литература

  1. Greenstein Sh., Zhu F. Do experts or collective intelligence write with more bias? Evidence from Encyclopædia Britannica and Wikipedia/ Shane Greenstein, Feng Zhu. — Текст: электронный// Harvard Business School Working Paper. — 2016. — № 15-023. — 39 р. — URL: https://www.hbs.edu/ris/Publication Files/15-023_e044cf50-f621-4759-a827-e9a3bf8920c0.pdf (дата обращения: 28.02.2023).
  2. Giles J. Internet encyclopedias go head to head/ Jim Giles. — Текст: электронный// Nature. — 2005. — № 438. — Р. 900-901. — URL: https://www.nature.com/articles/438900a (дата обращения: 28.02.2023).
  3. Gentzkow M., Shapiro J. M. What drives media slant?/ Matthew Gentzkow, Jesse M. Shapiro. — Текст: электронный// Econometrica. — 2010. — Vol. 78, № 1. — Р. 35-71. — URL: https://www.socsci.uci.edu/~lpearl/courses/readings/GentzkowShapiro2007_MediaBias.pdf (дата обращения: 28.02.2023).
  4. Lewoniewski W. Measures for quality assessment of articles and infoboxes in multilingual Wikipedia/ Włodzimierz Lewoniewski. — Текст: электронный// Lecture Notes in Business Information Processing. — 2019. — Vol. 339. — Р. 619-633. — URL: https://www.researchgate.net/publication/330087836_Measures_for_Quality_Assessment_of_Articles_and_Infoboxes_in_Multilingual_Wikipedia (дата обращения: 28.02.2023).
  5. Wilson A. M., Likens G. E. Content volatility of scientific topics in Wikipedia: a cautionary tale/ Adam M. Wilson, Gene E. Likens. — Текст: электронный// PLOS ONE. — 2015. — 14 августа. — 5 р. — URL: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0134454 (дата обращения: 28.02.2023).

  • Теги
  • Wikipedia
  • Википедия
  • веб 2.0
  • достоверность
  • информационное общество
  • Библиографическое описание ссылки Гиоргадзе Г. Н. Проблемы достоверности Википедии как интернет-энциклопедии/ Георгий Н. Гиоргадзе// Источниковедение и культура: человек и окружающая среда: Сб. ст. по материалам студенческих науч. конф. 2021–2022 гг. — М., 2022. — С. 47-54.

(Голосов: 3, Рейтинг: 3.56)

Комментарии

Предупреждение Для добавления комментариев требуется авторизация
  • Ссылка на комментарий
    С выводами автора исследования согласна, однако, если рассуждать о нейтральности статей в этой сетевой энциклопедии, то до идеала ей еще очень и очень далеко. Да и упоминаемый эксперимент Питера Леппика очень показателен. Порой ошибочная или искаженная информация в статьях может висеть там даже не несколько часов или дней, а несколько месяцев, а то и лет.
    • 0/0
  • Ссылка на комментарий
    Википедия совершенствуется — и это главное. Исследователи из Гарвардского университета, на мой взгляд, провели наиболее полезное исследование, которое выявило «выпадение» кодовых слов из сетевой энциклопедии с течением времени, то есть «нейтрализацию» в целом. Это означает, что та «массовость» редакции ресурса, которая порождает ошибки и субъективизм, со временем приходит во что-то вроде «термодинамического равновесия» и свои же ошибки начинает исправлять. И поговорка «время всех рассудит», думаю, тут как нельзя кстати. Напротив, в Британнике, где тоже выявлено немало неточностей, они так и останутся на своих местах.
    • 0/0
  • Ссылка на комментарий
    Лилия Тумина написала:
    С выводами автора исследования согласна, однако, если рассуждать о нейтральности статей в этой сетевой энциклопедии, то до идеала ей еще очень и очень далеко.
    Позволю себе не согласиться на тему, что до нейтральности статей в Википедии очень и очень далеко. Это вовсе не так. Нейтральности нет в статьях, в массе своей описывающих тот или иной исторический факт, который находится на «острие» событий, происходящих в реальности. Так же нейтральности не много в статьях социокультурных, которые так же соприкасаются с этими событиями, но согласитесь, что например, в статьях о «Бозоне Хиггса» или о «графене» этой нейтральности более чем достаточно. А такого формата статей в Википедии подавляющее большинство.
    • 0/0
  • Ссылка на комментарий
    lisss написал:
    Позволю себе не согласиться на тему, что до нейтральности статей в Википедии очень и очень далеко. Это вовсе не так. Нейтральности нет в статьях, в массе своей описывающих тот или иной исторический факт, который находится на «острие» событий, происходящих в реальности. Так же нейтральности не много в статьях социокультурных, которые так же соприкасаются с этими событиями, но согласитесь, что например, в статьях о «Бозоне Хиггса» или о «графене» этой нейтральности более чем достаточно. А такого формата статей в Википедии подавляющее большинство.
    Это верно: споры в сетевой энциклопедии, как правило, вызывают лишь статьи на злобу дня и связанные с тем, что так или иначе напрямую соприкасается с проблемными темами. Таких статей действительно меньшинство, но ведь именно они сегодня оказываются очень посещаемыми. Написанные в нейтральном стиле статьи, например, о писателях второго ряда позапрошлого века могут по нескольку дней или недель никто не открывать. Скандальные же статьи, где нейтральности нет, привлекают повышенное внимание. И что-то с этим делать все-таки нужно, иначе споры так и будут продолжаться.
    • 1/0
  • Ссылка на комментарий
    Лилия Тумина написала:
    Написанные в нейтральном стиле статьи, например, о писателях второго ряда позапрошлого века могут по нескольку дней или недель никто не открывать. Скандальные же статьи, где нейтральности нет, привлекают повышенное внимание.
    Это совершенно нормально. Во всем мире «желтая пресса» имеет куда большие тиражи, чем издания, которые выверяют достоверность информации по крупицам (хотя и они могут ошибаться). Это природа человечества. Скандальность и бесчинства народонаселению куда интереснее прочих знаний. С улыбкой
    Лилия Тумина написала:
    И что-то с этим делать все-таки нужно, иначе споры так и будут продолжаться.
    Да ничего не надо делать. В качестве аргумента снова сошлюсь на природу человечества. С улыбкой Извините, но споров не бывает только на кладбище. И самое интересное, что максима «в спорах рождается истина» не теряет своей актуальности со времен Сократа, который, собственно говоря, ее и изрек. С улыбкой
    • 0/0
  • Ссылка на комментарий
    Глупо считать Википедию полноценной энциклопедией. Проблема в том, что все банально привыкли искать информацию именно там, а не на более научных ресурсах.
    • 0/0
  • Ссылка на комментарий
    Само понятие «качества информации» (вместе с критерием «достоверности») является субъективным. Это как выбирать обувь или одежду в магазине на свой вкус — у каждого могут быть свои критерия качества (цвет, материал, производитель и т. д.). Аналогично, одна и также информация будет иметь разное качество для отдельных людей со своими «информационными потребностями», образованием и предпочтениями. Учитывая эту субъективность, автоматизация процесса оценки качества информации данной энциклопедии не является тривиальной задачей.   Шутливо  
    Согласна с тем, что существуют определённые темы, в которых люди могут долго спорить и приводить свои «правильные» аргументы. Однако основная часть информации не вызывает серъезных споров. Например: дата и место рождения/смерти человека, рентабельность конкретного предприятия/фирмы (прибыль, рыночная стоимость, количество сотрудников),  характеристики определённого продукта (авто, софт, фильмы, видеоигры и т. п.), курсы валют или акций, различные статистические данные (население определённого города, страны, площадь территорий, учебные заведения с количеством студентов), картографические данные и многое другое. Конечно, и для этих данных могут возникнуть «спорные», но их соотношение с общей «массой» фактов — незначительная. И с ними можно и нужно отдельно работать.
    • 0/0