В Университете Айовы разработана программа для определения злонамеренных вики-правок

25 сентября 2010
просмотров 8515
комментариев 3

Группа исследователей из Университета Айовы (University of Iowa, UI), США, разработала инструмент для проверки статей Википедии (Wikipedia) на вандализм, сообщается в новостях учебного заведения. Суть алгоритма проста: программа сравнивает слова из новых правок со всей записью, указывая на подозрительные места.

Как сказано в документе группы «Определение вандализма в Википедии при помощи активного обучения и статистических языковых моделей» (Detecting Wikipedia Vandalism with Active Learning and Statistical Language Models), программа ищет слова или образцы лексики по всех редакциях статьи, начиная с момента написания, определяя вероятность появления в ней тех или иных слов. Например, фраза «Пит любит блины» в статье о 16-м президенте США Аврааме Линкольне будет оценена как вероятный вандализм.

Новый алгоритм уже проверен на статьях об Аврааме Линкольне и Microsoft — двух страницах английской Википедии, которые чаще всего подвергаются злонамеренным правкам. В результате анализа нескольких тысяч правок была успешно определена большая часть незначительных умышленных искажений текста.

Однако разработка была бессильна в противодействии ссылочному спаму или замене изображений. Так, алгоритм не смог определить замену изображения Линкольна на фотографию красного дерева, изменение, которое продержалось около двух лет и выдержало 4000 правок. Но это неудивительно: новый инструмент не способен распознавать изображения, а уместность той или иной ссылки можно определить как правило только после клика по ней.

Главное, что новый алгоритм способен противостоять будущим, еще даже не придуманным формам вандализма, так как при создании инструмента использовались принципы разработки искусственного интеллекта.

Участник исследовательской группы Ник Стрит (Nick Street), профессор науки управления бизнес-колледжа Типпи (Tippie College of Business) отметил, что их программа похожа на антивирус: «Она учится распознавать изменения, то есть опережает вандалов на один шаг».

Стоит отметить, что Вики уже включает инструменты для определения непристойностей или злонамеренных правок, например, удаления целых разделов. Однако нецензурные слова вносятся в стоплист вручную, то есть являются преградой, которую можно обойти. Более того, применяемая система противодействия вандализму плохо определяет небольшие умышленные повреждения вики-статей.

Теги
accuracy сhecking
en.wikipedia.org
soft
University of Iowa
vandalism detection
Wikipedia
Wikipedia wars
Википедия
Википедия-войны
Университет Айовы
английская Википедия
валидатор статей
проверка на вандализм
проверка на точность
программа

(Голосов: 1, Рейтинг: 3.3)

Иван Некайский 29 сентября 2010Ссылка на комментарий
Такая программа, конечно, хороша, но, увы, несовершенна, а это может свести на нет все старания. В целом, хотя сетевая энциклопедия и станет защищеннее, но нет гарантии, что вандалы, наоборот, не начнут соревноваться в поиске слов, которые смогут вписаться в текст, хотя будут искажать смысл.
Ведь ложную фразу, например, о том, что, условно говоря, Линкольн стал президентом уже в детстве, программа может запросто пропустить, поскольку сами по себе слова "Линкольн", "президент" и "детство" в статье вполне уместны. Идея
- 0 /0
Андрей Барабанов 30 сентября 2010Ссылка на комментарий
их программа похожа на антивирус: «Она учится распознавать изменения, то есть опережает вандалов на один шаг».

По мне, так определять надо не текст, который не соответствует действительности или просто шутка... Дело в том, что у каждого человека есть своеобразие в выражении мыслей, а программа может неправильно понять и выдать ошибку. Определять нужно самого вандала через специальную тестирующую программу. Идея Ведь человек служит источником различного вранья, которое он собирается вставить в энциклопедическую статью.
Например, пытается человек править статью о Линкольне, а ему дается часть текста из уже существующей статьи с просьбой найти в ней ошибки — любые (а там их, допустим, и нет) или написать этот отрывок своими словами. Любой "шутник" начнет править — это его кредо, Широкая улыбка ну а дальше — дело техники.
Это я к тому, что нужно ограничить доступ "шутников" хоть каким-то образом...
- 0 /0
skivskiv 1 октября 2010Ссылка на комментарий
Программа, как ясно из текста, "заточена" под новоанглийский язык, почти чисто аналитический английский, и в этом её слабая сторона.
Например, с русским языком такая фишка не прокатит: русский язык синтетический, образный, и допускает весьма широкий спектр толкований одного и того же слова.
Да и порядок слов в русском языке не фиксированный.

Что пишут в новостях:
Pete loves PANCAKES

It determines the probability of each word appearing, and because the word ‘pancakes’ didn’t turn up anywhere else in the history of Lincoln’s entry, the algorithm saw it as something new and possible graffiti,” Chin said.

А если использовать слова из исходной статьи и заново их комбинировать, программа "заткнется", и ничего не сможет сделать! Восклицание
- 0 /0
На форуме

Мир энциклопедий

В Университете Айовы разработана программа для определения злонамеренных вики-правок

Комментарии