Э

Мир энциклопедий

encyclopedia.ru

Фонд Викимедиа выпустил набор данных для обучения моделей искусственного интеллекта

Пока загружены материалы английской и французской Википедий

  • 21 апреля 2025
  • просмотров 620
  • комментариев 5
Логотипы Kaggle и Wikimedia EnterpriseWikimedia Enterprise — дочерняя компания Фонда Викимедиа (англ. Wikimedia Foundation) для использования её информационных массивов сторонними структурами и разработчиками — выпустила бета-версию набора данных [1]1 специально для обучения моделей искусственного интеллекта (ИИ; англ. artificial intelligence, AI) [2]2, сообщают Wikimedia Enterprise [3]3, блог Google [4]4 и другие ресурсы.

На момент публикации дата-сайентистам (англ. data scientist) — специалистам науки о данных (англ. data science) — в формате JSON [5]5 доступен структурированный контент Википедии (англ. Wikipedia) на английском [6]6 и французском языках [7]7, который можно сразу же использовать для моделирования, сравнительного анализа и прочих направлений исследования.

По состоянию на 15 апреля 2025 года загрузка набора данных включала такие элементы, как аннотации, краткие описания, данные в формате «ключ-значение» в стиле инфобокса, ссылки на изображения и чётко сегментированные разделы статей.

Новости предшествовало заключение партнёрского соглашения Фонда Викимедиа с Kaggle [8]8 — принадлежащей Google платформой сообщества науки о данных, где размещаются материалы для машинного обучения (англ. machine learning, ML) [9]9. Там же — среди свыше 461 тыс. свободно распространяемых наборов данных — теперь публикуются материалы из Википедии.Как ресурс, куда специалисты по машинному обучению обращаются за инструментами и тестами, Kaggle очень рад стать местом для размещения данных Фонда Викимедиа. Kaggle уже является популярной площадкой, куда обращаются за наборами данных, причём есть несколько, которые заметно популярнее представленных Фондом Викимедиа. Платформа Kaggle рада внести свой вклад в обеспечение доступа и использование данных Викимедии.
Бренда Флинн (англ. Brenda Flynn), руководитель по взаимоотношениям с партнёрами в Kaggle
Публикация готового набора данных для ИИ — отчасти вынужденное решение для Фонда Викимедиа. Как ранее информировала организация, боты с ИИ создают значительную нагрузку на серверы: 65% самого дорогого трафика (с точки зрения потребления ресурсов) приходится на «автоматизированных посетителей» [10]10.

Стоит напомнить, что проект Wikimedia Enterprise стартовал в 2021 году. C 2022 года Wikimedia Enterprise предоставляет доступ к данным Викимедии в реальном времени для Google и некоммерческой организации «Архив Интернета» (АИ; англ. Internet Archive).

Литература

  1. Wikipedia structured contents. — Текст: электронный// Kaggle: Your machine learning and data science community. — URL: https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents (дата обращения: 21.04.2025).
  2. Искусственный интеллект. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Искусственный_интеллект (дата обращения: 21.04.2025).
  3. Wikipedia Kaggle dataset using structured contents snapshot/ Wikimedia Enterprise team. — Текст: электронный// Wikimedia Enterprise — APIs for AI, search & knowledge graphs. — 2025. — 16 апреля. — URL: https://enterprise.wikimedia.com/blog/kaggle-dataset/ (дата обращения: 21.04.2025).
  4. Flynn B. Kaggle and the Wikimedia Foundation are partnering on open data/ Brenda Flynn. — Текст: электронный// The Keyword: Google product and technology news and stories. — 2025. — 16 апреля. — URL: https://blog.google/technology/developers/kaggle-wikimedia/ (дата обращения: 21.04.2025).
  5. JSON. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/JSON (дата обращения: 21.04.2025).
  6. Английская Википедия. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Английская_Википедия (дата обращения: 21.04.2025).
  7. Французская Википедия. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Французская_Википедия (дата обращения: 21.04.2025).
  8. Kaggle: Your machine learning and data science community: [сайт]. — URL: https://www.kaggle.com/ (дата обращения: 21.04.2025).
  9. Машинное обучение. — Текст: электронный// Википедия — свободная энциклопедия. — URL: https://ru.wikipedia.org/wiki/Машинное_обучение (дата обращения: 21.04.2025).
  10. Mueller B., Danis C., Lavagetto G. How crawlers impact the operations of the Wikimedia projects/ Birgit Mueller, Chris Danis, Giuseppe Lavagetto. — Текст: электронный// Diff — News from the Wikimedia movement. — 2025. — 1 апреля. — URL: https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/ (дата обращения: 22.04.2025).

Упомянутые персоны, псевдонимы и персонажи


  • Теги
  • AI
  • datasets
  • en.wikipedia.org
  • fr.wikipedia.org
  • Kaggle
  • ML
  • Wikimedia Enterprise
  • Wikimedia Foundation
  • Wikipedia
  • ИИ
  • Фонд Викимедиа
  • английская Википедия
  • английский язык
  • машинное обучение
  • наборы данных
  • французская Википедия
  • французский язык

(Голосов: 4, Рейтинг: 3.52)

Комментарии

Предупреждение Для добавления комментариев требуется авторизация
  • Ссылка на комментарий
    А вот это интересно, сейчас объясню почему. Kaggle на фоне ЧатДПТ и ДипСиком не так на слуху среди тех, кто интересуется ИИ, а меж тем это не просто компания, а целая соцсеть специалистов и интересантов, которые занимаются машинными моделями. Количество членов сети более миллиона. И думаю, что она выстрелит куда эффективнее в перспективе. Для Вики подобное сотрудничество может быть полезным с точки зрения создания адекватного контента, а также правок уже созданного — для исправления явных ошибок, которых немало.
    • 1/0
  • Ссылка на комментарий
    Теперь, значит, не только школьники будут делать домашку с Википедии — ИИ туда тоже подтянули. Осталось научить модель не просто копировать, а спорить в комментариях, кидаться ссылками и доказывать, что она точно права, потому что «так в энциклопедическом справочнике написано».

    Сама идея — мощная: контент структурированный, в JSON, бери и пиши свою нейросеть. Правда, пока только английский с французским — остальные языки, похоже, ещё стоят в очереди за доступом, как студенты к микроволновке в общаге.

    Интересно, доживём ли до момента, когда ИИ начнёт не только обучаться на Википедии, но и сам туда статьи заливать. Типа: «написал сам, проверил сам, процитировал сам». Чистый self-made интеллект.
    • 0/0
  • Ссылка на комментарий
    Диана Ткачук написала:
    Интересно, доживём ли до момента, когда ИИ начнёт не только обучаться на Википедии, но и сам туда статьи заливать. Типа: «написал сам, проверил сам, процитировал сам». Чистый self-made интеллект.
    Не знаю, удивлю я вас или нет, но подобное в Википедии уже было, когда появлялись статьи, полностью сгенерированные ИИ, причем с ложными данными. Самое громкое из подобного — это статья в Вики о турецкой крепости «Амберлисихар», которой на самом деле никогда не было. И именно для борьбы с такими статьями в Вики создали аж целый отдел добровольцев WikiProject AI Cleanup, который борется с такими проявлениями.
    • 2/0
  • Ссылка на комментарий
    Не стоит забывать, что так называемый ИИ ни разу не интеллект в настоящем его понимании. Структурируется массив информации с постоянным обновлением, и затем по определенным алгоритмам выполняются определенные же задачи. Но в любом случае всë зависит от человека, который эти задачи выставляет. Это как станок с ЧПУ версии 3.0. 😁
    Но многие уже верят в восстание машин.
    Не пистолет убивает, а человек, который его направляет.
    • 0/0
  • Ссылка на комментарий
    Максим Евгеньевич написал:
    Не стоит забывать, что так называемый ИИ ни разу не интеллект в настоящем его понимании. Структурируется массив информации с постоянным обновлением, и затем по определенным алгоритмам выполняются определенные же задачи.
    Я вас очень сильно разочарую. Массив информации — это и есть продукт человеческой мысли, то бишь — интеллект. Он есть массив, а вот посыл на исследование может быть как негативным, так и позитивным. Все зависит от задачи. Если у обычного человека задача убить, он убьет, если подарить цветы — подарит.
    Максим Евгеньевич написал:
    Но в любом случае всë зависит от человека, который эти задачи выставляет. Это как станок с ЧПУ версии 3.0.
    Вот-вот, а количество дураков прогрессирует год от года в геометрической прогрессии. Людей, не видевших Второй мировой... Бессмертными себя многие почувствовали. Карибский кризис был преодолен во многом потому, что те люди видели страх войны... У нынешних вафли в голове — «можем повторить»...
    • 0/0