Э

Мир энциклопедий

encyclopedia.ru

Omnipedia преодолела языковой барьер Википедии

  • 22 мая 2012
  • просмотров 3119
  • комментариев 9
Проект «Омнипедия» (Omnipedia), который позволяет ознакомиться с информацией сразу из 25 языковых версий Википедии (Wikipedia), включая русскую, был представлен 8 мая на конференции CHI (Сomputer-Human Interaction), организованной одной из групп Ассоциации вычислительной техники (Association for Computing Machinery, ACM). Ежегодное мероприятие, посвящённое взаимодействию компьютера и человека, роли  человеческого фактора в компьютерных системах, проходило в техасском городе Остин.

Префикс «omni» в названии проекта является латинским словом, которое означает «всё», «целиком», что подчёркивает главную цель «Омнипедии» — обеспечить полный доступ к разным, а в итоге — ко всем языковым версиям Википедии.

Как известно, Википедия — это около 280 языковых версий, каждая из которых порой включает статьи об одних и тех предметах. Чём же различаются такие публикации, только ли языком? — Далеко не всегда. Некоторые статьи содержат не только больше информации, но и отражают особые культурные точки зрения, которые присущи публикации только в одной конкретной языковой версии Вики, отмечается в материалах авторов «Омнипедии», подготовленных для конференции.

Как же преодолеть языковые барьеры? — Для этого в рамках проекта «Омнипедия» была разработана специальная программа, которая позволяет получать информацию сразу из 25 языковых версий Википедии, но это не переводчик, хотя без перевода, конечно, не обошлось. Новая разработка анализирует ссылки с боковой панели статьи Википедии на аналогичные публикации в других языковых версиях (в русской версии — блок «На других языках»), затем проходит по ним, определяет «основной язык» для всех статей заданной тематики, одновременно отмечая различия, и формирует обобщенную информацию. Разумеется, учитываются и ссылки на другие статьи в рамках одной и той же языковой версии.
Блок «На других языках» на странице «Теория заговора» в русской Википедии
Блок «На других языках» на странице «Теория заговора» в русской Википедии
В любом случае сервис способен разобраться, какая тема является универсальной, то есть встречается в разных языковых версиях, а какая специфична для отдельного языка или страны. Разница может быть, например, в исторических событиях, праздниках, культурном наследии или национальных различиях.

Однако данный метод анализа пока нельзя признать надёжным. Например, во многих языковых версиях статья «Теория заговора» связана со публикацией об НЛО, но в испанской статье такая ссылка отсутствует, однако статья об НЛО по-прежнему есть. Вот почему разработчикам приходится применять дополнительные алгоритмы, которые отлавливают «недостающие звенья».

Каждую тему «Омнипедия» формирует в виде круговой диаграммы, которая разделена на цветные сегменты. Каждый цвет представляет собой определённый язык, и щелчок по сегменту открывает определённый фрагмент статьи. Текст переводится автоматически с помощью сервиса Bing Translator от Microsoft.

Отображение темы «Теория заговора» (Conspiracy theory) в «Омнипедии»

Отображение темы «Теория заговора» (Conspiracy theory) в «Омнипедии»
Система была опробована фокус-группой, состоявшей из 27 добровольцев-лингвистов. В итоге большинство заявило, что они и не предполагали, как много информации по одной и той же статье может быть в Википедии. Например, оказалось, что японская статья о регги содержит даже больше информации, чем версия на английском. Более того, благодаря данной системе читатель получает возможность взглянуть на одну и ту же проблему под разным углом.

Авторами «Омнипедии» стали учёные из Северо-Западного университета (Northwestern University), расположенного в американском штате Иллинойс.

Стоит отметить, что пока разработка недоступна для публичного использования: сайт «Омнипедии» содержит лишь скриншоты с примерами работы сервиса.
  • Теги
  • ACM
  • ACM SIGCHI
  • CHI
  • Northwestern University
  • Omnipedia
  • Wikipedia
  • Википедия
  • Омнипедия
  • Северо-Западный университет

(Голосов: 2, Рейтинг: 3.35)

Комментарии

Предупреждение Для добавления комментариев требуется авторизация
  • Ссылка на комментарий
    Возможность интересная, хотя, честно говоря, не вполне поняла ни как это выглядит на практике, ни как это осуществимо технически. Но зато возникла занятная идея: подобной процедуре можно было бы подвергнуть обычный словарь. Какая-то часть слов (а значит и понятий) оказалась бы универсальной для всех или почти всех языков, а часть — культуроспецифической, так сказать. Шутливо  Результат, думаю, был бы интересный.
    • 0/0
  • Ссылка на комментарий
    Разумеется, у разных народов мнения и информация об одном и том же предмете могут быть разными. Проект интересный и полезный. Надеюсь, у программистов все получится. Главное, чтобы его не постигла участь Вавилонской башни из библейского предания.
    • 0/0
  • Ссылка на комментарий
    Салим Сарваров пишет:
    Разумеется, у разных народов мнения и информация об одном и том же предмете могут быть разными. Проект интересный и полезный. Надеюсь, у программистов все получится. Главное, чтобы его не постигла участь Вавилонской башни из библейского предания.

    При чем здесь "Вавилонская башня"? Речь идет о дополнительной возможности сервиса получать больший объем информации по теме, благодаря привлечению большего количества источников, в том числе — зарубежных. Вопрос же действительно в том, не будут ли противоречить друг другу одноименные статьи из разных национальных Вики? Вопрос
    • 0/0
  • Ссылка на комментарий
    Да, новость приятная, особенно для постоянных пользователей Вики, буду ждать с нетерпением, когда программисты сработают проект, хотя трудно представить механизм работы, но результатом будет удвоение, утроение,.. увеличение информации в Вики. Думаю, что радостная весть, но задаюсь вопросом,.. а не получится ли энциклопедия перегруженной, не будет ли много мусорного на страничке... Хотелось бы верить, что нет.
    • 0/0
  • Ссылка на комментарий
    Михаил Павлодарский пишет:
    результатом будет удвоение, утроение,.. увеличение информации в Вики.

    Увеличения информации, как такового, не произойдёт. Просто она в полном объёме станет доступна разноязычному населению. От этого энциклопедия только выиграет.
    • 0/0
  • Ссылка на комментарий
    Мне кажется, что это пойдет на пользу энциклопедии. Статьи разных стран и культур будут только дополнять общую картину. А различные взгляды разных культур на какие-либо исторические процессы дают возможность увидеть картину с разных точек зрения  и вырабатывать свое собственное мнение.
    • 0/0
  • Ссылка на комментарий
    Пока не увижу своими глазами, не поверю! То, что пока получается на выходе из компьютерного переводчика, — это ж смех и слезы! Это даже если брать обмусоленный со всех сторон английский. А что говорить о малых языках. Плюс к тому, как можно себе представить компьютерный перевод Гете, например? А это колоссальная составляющая немецкой и мировой культуры. В общем, пока — НЕ ВЕРЮ. Скептически
    • 0/0
  • Ссылка на комментарий
    Анна Иванова пишет:
    Пока не увижу своими глазами, не поверю! То, что пока получается на выходе из компьютерного переводчика, — это ж смех и слезы! Это даже если брать обмусоленный со всех сторон английский. А что говорить о малых языках. Плюс к тому, как можно себе представить компьютерный перевод Гете, например? А это колоссальная составляющая немецкой и мировой культуры. В общем, пока — НЕ ВЕРЮ. Скептически

    Вообще-то, речь идет вовсе не о художественных произведениях, а о сухих энциклопедических статьях, создаваемых во всех национальных вариантах примерно по одной модели и фактуре, а потому — куда более поддающихся программированному переводу. Восклицание  Проблема может тут быть, наверное, только в написании самого детерминированного понятия — собственно термина, о чем идет речь в энциклопедической статье: если термин новый (неизвестный), то обычно пишут транслитерацию, что не всегда верно... Печально
    • 0/0
  • Ссылка на комментарий
    Сначала новость меня испугала своей монументальностью, а слова о том, что фокус-группа состоит из лингвистов, вообще повергла в ужас и заставила задаться вопросом: «как простому пользователю разобраться?».  Но затем, рассмотрев скриншот диаграммы, поняла, что нечего боятся. Информация очень легко и понятно располагается и чем-то напоминает графический словарь по основным понятия из темы, то есть не нужно будет читать всю информацию, если нужна информация об каком-то отдельном факте. Скорей бы уже ввели!
    • 0/0