В США разработали систему искусственного интеллекта для обновления фактических данных в Википедии

12 февраля 2020
выбор редакции
просмотров 4938
комментариев 11

Специалисты Массачусетского технологического института (МТИ; Massachusetts Institute of Technology, MIT) создали автоматизированную систему на основе искусственного интеллекта (ИИ; artificial intelligence, AI) для обновления устаревших фактических данных в статьях Википедии (Wikipedia) — цифр, дат, имён, местоположений и тому подобной информации, сообщается в новостях вуза.

Суть такова: человек вводит в интерфейс неструктурированное предложение с обновлённой информацией, то есть не обращает внимание на форму изложения, а система выполняет поиск в Википедии, находит страницу и устаревшее предложение и обновляет его, в грамматически и стилистически корректном варианте.

Допустим, в Википедии имеется предложение: «Фонд A считает, что 28 из 42 их миноритарных пакетов акций в действующих компаниях имеют особое значение для группы». На замену предложен текст: «Фонд A считает 23 из 43 миноритарных пакетов акций существенными». В итоге система найдёт в Википедии соответствующее предложение для «Фонда A», а затем автоматически удалит устаревшие числа (28 и 42) и заменит их новыми (23 и 43), оставив остальной текст прежним.

Результат был достигнут машинным обучением (machine learning) — группой методов ИИ, когда имеет место не «лобовое» решение задачи, а процесс обучения системы во время её применения. Так, система была обучена на наборе данных, содержащем пары предложений, в которых одно является утверждением (заявкой на обновление), а другое — предложением из Википедии. Каждая пара обозначается одним из 3 способов: «согласен», то есть предложения содержат совпадающую фактическую информацию; «не согласен», то есть их данные взаимно противоречат; «нейтрально», когда информации недостаточно для любых других вариантов. Система должна заставить «согласиться» все «несогласные» пары — обновить устаревшие предложения. При этом если программа видит какие-либо различия между исходным и предлагаемым текстом, то использует «маску нейтральности», чтобы определить, что удалить, а что оставить. Затем логика кодера-декодера определяет, как переработать материал.

О результатах своего труда исследователи рассказали в статье, опубликованной к очередной конференции Ассоциации содействия развитию искусственного интеллекта (Association for the Advancement of Artificial Intelligence, AAAI). Википедия постоянно нуждается в массе обновлений. Было бы благом автоматизировать изменения определённых частей статей, практически без вмешательства человека.

Дарш Дж. Шах (Darsh J. Shah), аспирант лаборатории информатики и искусственного интеллекта МТИ (MIT's Computer Science and Artificial Intelligence Laboratory, MIT CSAIL)

Шах признаёт, что с Вики уже взаимодействует множество других ботов, которые тоже вносят автоматические правки. Однако как правило их цель — борьба с вандализмом либо исключение информации, которая не соответствует заранее предопределённым шаблонам. Наша задача — нахождение противоречий в двух разных предложениях и формирование связного текста.

Дарш Дж. Шах

Система может быть использована и для других приложений-генераторов текста, отмечает соавтор и аспирант MIT CSAIL Тал Шустер (Tal Schuster).

При этом для формирования предложений использовался популярный набор данных для проверки фактов. Таким образом повышается производительность моделей для автоматической верификации фактов, которые тренируются на наборе данных для, скажем, обнаружения фальшивых новостей.

Тал Шустер

Научным руководителем учёных выступила профессор электротехники и информатики компании Delta Electronics, а также профессор MIT CSAIL, исследователь в области информатики и ИИ Регина Барзилай (Regina Barzilay).

Работа над технологией пока не завершена. Так, по оценке добровольцев-тестеров результатов исследования, модель получила в среднем 4 балла из 5 за корректность в обновлении фактов и 3,85 из 5 — за точность в грамматике.

Как утверждают исследователи, имеется потенциал для создания полностью автоматизированной системы, когда сама программа будет идентифицировать устаревшую информацию и обновлять её.

Стоит напомнить, что разработка MIT CSAIL — не первый пример применения ИИ для Википедии и справочно-энциклопедических статей в целом. Например, в 2015 году Фонд Викимедиа (Wikimedia Foundation) объявил о запуске Сервиса объективной оценки исправлений (Objective Revision Evaluation Service, ORES). В 2018 году специалисты Google Brain и Salesforce экспериментировали с ИИ для написания энциклопедических статей. В том же году в американской компании Primer создали интеллектуальную систему Quicksilver для сбора в Сети данных об учёных и генерирования кратких биографических статей в рамках английской Википедии.

Персоны

Упомянутые персоны, псевдонимы и персонажи

Теги
AAAI
AI
artificial intelligence
fact-checking
machine learning
MIT
MIT CSAIL
text-generating applications
updating facts
Wikipedia
Википедия
ИИ
МТИ
верификация
генераторы текста
искусственный интеллект
машинное обучение
обновление фактов

(Голосов: 2, Рейтинг: 3.44)

Лилия Тумина 17 марта 2020Ссылка на комментарий
Вот это, кстати, очень здорово придумано. Просто я сама недавно столкнулась с проблемой такого рода. Мне нужно было узнать современный тираж одного регионального литературного журнала. В Википедии был указан тираж 3500 экземпляров. Но я не поверила сетевой энциклопедии и полезла на официальный сайт этого журнала. Там оказалась иная цифра — всего 850 экземпляров. В итоге я провела свое маленькое расследование и выяснила, что в Википедии данные о тираже давно устарели. Их никто не обновлял больше семи лет. А за эти годы тираж значительно сократился. Если бы искусственный интеллект автоматически это отслеживал, было бы чудесно.
- 1 /0
Галина Филь 20 марта 2020Ссылка на комментарий
Только я что-то не поняла... Какой смысл в этом ИИ, если все равно человек должен предложить текст на замену? Вопрос Все равно же он вручную пишет эту информацию. Или просто раньше второй человек должен был опубликовать это, а сейчас вместо этого публикует робот? Так тоже — не самый лучший вариант, ибо любую информацию нужно проверять. Так что лучше бы в этой Википедии ничего не трогали. Как оно работает, так и должно дальше работать, ибо от добра добра не ищут. Идея
- 0 /0
Сергей Волков 20 марта 2020Ссылка на комментарий
Галина Филь пишет:
Только я что-то не поняла... Какой смысл в этом ИИ, если все равно человек должен предложить текст на замену?
Человек пишет текст, но уже может ошибаться в чём угодно, кроме фактических данных.
В любом случае это сокращение времени на рутину.
Галина Филь пишет:
а сейчас вместо этого публикует робот? Так тоже — не самый лучший вариант, ибо любую информацию нужно проверять.
Человек должен одобрить предложенный вариант.
- 0 /0
Татьяна Тульчинская 20 марта 2020Ссылка на комментарий
Википедия развивается и требует всё больших ресурсов для обслуживания. ИИ для обновления данных — это только первый шаг к делегированию пока что однотипных задач машине. Я думаю, со временем исследователи создадут новые алгоритмы, способные на более широкие функции. Ведь Википедия — самая богатая и обширная энциклопедия всех времен, и применение ИИ — самый логичный и оправданный шаг для поддержания такого объема информации. Было бы странно, если бы создатели пытались до сих пор вытянуть все правки в ручном режиме.
- 0 /0
Татьяна Светличная 22 марта 2020Ссылка на комментарий
Я думаю, это хорошая идея — автоматизировать процесс обновления данных в Википедии. Особенно если учесть, что людям, которые редактируют статьи, свойственно ошибаться. Тут главное, чтобы эту систему хорошо протестировать на возможность грубых ошибок.
- 0 /0
lisss 23 марта 2020Ссылка на комментарий
Галина Филь пишет:
Только я что-то не поняла... Какой смысл в этом ИИ, если все равно человек должен предложить текст на замену? Все равно же он вручную пишет эту информацию. Или просто раньше второй человек должен был опубликовать это, а сейчас вместо этого публикует робот?
В статье есть четкое описание для чего это делается:
Суть такова: человек вводит в интерфейс неструктурированное предложение с обновлённой информацией, то есть не обращает внимание на форму изложения
Просто написание статей для Википедии имеет определенное количество алгоритмов, форм и стилистики заполнения, на которое надо тратить время и немалое. И это может останавливать некоторых авторов от исправления, как минимум по причине того, что надо тратить время. А вот ИИ сводит все временные траты к минимуму.
- 1 /0
YA_HELEN 24 марта 2020Ссылка на комментарий
Допустим, в Википедии имеется предложение: «Фонд A считает, что 28 из 42 их миноритарных пакетов акций в действующих компаниях имеют особое значение для группы». На замену предложен текст: «Фонд A считает 23 из 43 миноритарных пакетов акций существенными». В итоге система найдёт в Википедии соответствующее предложение для «Фонда A», а затем автоматически удалит устаревшие числа (28 и 42) и заменит их новыми (23 и 43), оставив остальной текст прежним.
Я не уверена, что это — самый удачный пример. По большому счету, ВСЕ приведенные здесь цифры — это своего рода «жертвы уточнений», полученных посредством обращения (человека или машины) к разным источникам. Странно, что в приоритете у разработчиков программы не было уточнения более жизненно важных цифр — таких, как, например, дат жизни человека (особенно, если речь идет как раз об оперативной информации — даты недавней смерти). Просто такого рода даты «оперативно» корректируются в Вики лишь применительно к очень известным и знаменитым... Печально
- 0 /0
Лилия Тумина 24 марта 2020Ссылка на комментарий
YA_HELEN пишет:
Странно, что в приоритете у разработчиков программы не было уточнения более жизненно важных цифр — таких, как, например, дат жизни человека (особенно, если речь идет как раз об оперативной информации — даты недавней смерти). Просто такого рода даты «оперативно» корректируются в Вики лишь применительно к очень известным и знаменитым...
Просто тут многое зависит от значимости источников. Например, недавно умер писатель Иван Зорин, с которым у меня были общие знакомые. О его смерти буквально через пару часов знакомые написали на своих страницах в социальных сетях. Но личная страница обычного человека в социальной сети не может быть авторитетным источником для Википедии. А в СМИ о смерти Зорина написали далеко не сразу. Вот и получилось, что в сетевой энциклопедии дату смерти добавили не оперативно, а лишь на следующий день.
- 1 /0
Галина Филь 26 марта 2020Ссылка на комментарий
YA_HELEN пишет:
Допустим, в Википедии имеется предложение: «Фонд A считает, что 28 из 42 их миноритарных пакетов акций в действующих компаниях имеют особое значение для группы». На замену предложен текст: «Фонд A считает 23 из 43 миноритарных пакетов акций существенными». В итоге система найдёт в Википедии соответствующее предложение для «Фонда A», а затем автоматически удалит устаревшие числа (28 и 42) и заменит их новыми (23 и 43), оставив остальной текст прежним.
Странно, что в приоритете у разработчиков программы не было уточнения более жизненно важных цифр — таких, как, например, дат жизни человека (особенно, если речь идет как раз об оперативной информации — даты недавней смерти). Просто такого рода даты «оперативно» корректируются в Вики лишь применительно к очень известным и знаменитым...
Ну так и люди у энциклопедии, в первую очередь, будут интересоваться кем-то более известным и знаменитым, поэтому те новости более шустро обновляются. Расстановка приоритетов всего лишь. Тем более, что остальную информацию тоже потом обновят в Википедии. Пусть даже на день позже. Как по мне, это совершенно не критично.
- 1 /0
arthy 30 марта 2020Ссылка на комментарий
Как по мне, эта область ещё пока сложна для существующих систем ИИ, которые по-существу построены на одних и тех же принципах и хороши пока что только в узкоспециализированных областях вроде систем распознавания изображений. Построение же полноценной системы ИИ для редактирования статей в Википедии граничит с системами машинного перевода, которые, как известно, не особо сильно приблизились к аналогичной работе человека.
- 0 /0
Сергей Волков 30 марта 2020Ссылка на комментарий
arthy пишет:
Построение же полноценной системы ИИ для редактирования статей в Википедии граничит с системами машинного перевода, которые, как известно, не особо сильно приблизились к аналогичной работе человека.
Пока авторы не ставят задачу создать полноценную систему ИИ для редактирования статей Википедии: речь лишь об обновления устаревших фактических данных — цифр, дат, имён, местоположений и т. п. Не стоит приписывать им большее.

По поводу систем машинного перевода... А вот и не скажите. Положительная динамика всё же есть. Да, неоднородная, но весьма существенная.
Конечно, результативность напрямую зависит от поставленной задачи.
Например, по моему последнему, конечно же, субъективному опыту сравнения — Google Translate vs «Яндекс.Переводчик», — сложилось впечатление, что первый чаще способен передавать общий смысл больших объёмов текста (предложений, абзацев) да и вообще синтаксически корректнее, однако нередко допускает ошибки в переводе некоторых слов и словосочетаний, второй же может быть точнее в отдельных формулировках.
- 0 /0
На форуме

Мир энциклопедий

В США разработали систему искусственного интеллекта для обновления фактических данных в Википедии

Упомянутые персоны, псевдонимы и персонажи

Комментарии