Э

Мир энциклопедий

encyclopedia.ru

Фонд Викимедиа заключил сделки для обучения ИИ-моделей технологических компаний

RSS
Фонд Викимедиа заключил сделки для обучения ИИ-моделей технологических компаний, Комментарии к новости
 
Дело правильное: подобные крупные корпорации с многомиллиардными бюджетами вполне могут позволить себе выделить несколько миллионов на поддержку самой популярной сетевой энциклопедии мира. Главное теперь, чтобы это была не разовая акция, а постоянная.
 
Важно, чтобы коммерческий контур не начал диктовать редакционную политику или приоритеты развития. Но сам факт того, что Википедия не стала просить, а выставила счет за системную зависимость, на мой взгляд, признак зрелости, а не отхода от идеалов.
 
Цитата
Лилия Тумина написала:
Дело правильное: подобные крупные корпорации с многомиллиардными бюджетами вполне могут позволить себе выделить несколько миллионов на поддержку самой популярной сетевой энциклопедии мира. Главное теперь, чтобы это была не разовая акция, а постоянная.
Тут еще посмотреть надо, кому данная коллаборация будет более выгодной. Для гигантов на самом деле несколько десятков миллионов — вообще не деньги, но они получают огромнейший массив данных от Википедии, на основе которых можно не только обучать ИИ, но и модернизировать системы и модели его поведения.
 
Я бы хотел видеть, чтобы часть средств целевым образом возвращалась в сообщества малых языков: именно там «65 млн статей на 300 языках» превращаются в реальный вклад, а не в красивую цифру.
 
Цитата
Роман Изосимов написал:
Я бы хотел видеть, чтобы часть средств целевым образом возвращалась в сообщества малых языков: именно там «65 млн статей на 300 языках» превращаются в реальный вклад, а не в красивую цифру.
Зачем? Чтобы что? :?:
 
Цитата
lisss написал:
Зачем? Чтобы что?
Чтобы данные на этих языках были качественными, а не сгенерированными ботами. Если Фонд Викимедиа продает контент как «высококачественный и достоверный» (как сказано в новости), то нужно инвестировать в людей, которые обеспечивают эту достоверность на местах, а не только в сервера.
 
Цитата
Роман Изосимов написал:
Я бы хотел видеть, чтобы часть средств целевым образом возвращалась в сообщества малых языков: именно там «65 млн статей на 300 языках» превращаются в реальный вклад, а не в красивую цифру.
А почему вы делаете акцент именно на малых языках? Ведь корпорациям интересен контент сетевой энциклопедии прежде всего на английском языке и других популярных языках мира. Соответственно, вкладываться надо в качество и достоверность статей в первую очередь именно на популярных языках, а не на адыгейском, самоанском, гагаузском и других малых языках. Это всё равно, что если бы городские власти при выборе того, где в первую очередь чистить снег — вокруг одноэтажного барака или вокруг 24-этажки, выбрали барак.
 
Цитата
Лилия Тумина написала:
А почему вы делаете акцент именно на малых языках? Ведь корпорациям интересен контент сетевой энциклопедии прежде всего на английском языке и других популярных языках мира. Соответственно, вкладываться надо в качество и достоверность статей в первую очередь именно на популярных языках, а не на адыгейском, самоанском, гагаузском и других малых языках. Это всё равно, что если бы городские власти при выборе того, где в первую очередь чистить снег — вокруг одноэтажного барака или вокруг 24-этажки, выбрали барак.
Вы глубоко заблуждаетесь насчет интересов корпораций. Английский язык в сети и так представлен в избытке, на нём ИИ уже обучились прекрасно. Сейчас главная битва техногигантов (той же Meta с их проектом No Language Left Behind) идет как раз за «малые» и «средние» языки, чтобы охватить рынки развивающихся стран. Данные на гагаузском или самоанском для обучения моделей сейчас стоят дороже, потому что они дефицитные (low-resource languages). А «24-этажка» английского языка и так обслуживается тысячами волонтеров бесплатно. Деньги нужны там, где есть риск исчезновения данных, а не там, где и так всё хорошо.
 
Цитата
Роман Изосимов написал:
Если Фонд Викимедиа продает контент как «высококачественный и достоверный» (как сказано в новости),
Он его не продает. :) Публикует бесплатно. :)
Цитата
Роман Изосимов написал:
то нужно инвестировать в людей, которые обеспечивают эту достоверность на местах, а не только в сервера.
Методику отбора предоставите? Вот, например, в России. Сегодня один депутат предлагает затмить «Диснейленд» и сделать «Чебурляндию». Почему не «Чебурземье», потому как «лэнд» скрепам не соответствует, но это не важно. А вот пару дней назад аж целый глава кафедры МГУ Дугин кричал, что Чебурашка — гибель России. И как отбирать будете? Рацио уже покинуло этот мир. :)
Цитата
Роман Изосимов написал:
Данные на гагаузском или самоанском для обучения моделей сейчас стоят дороже, потому что они дефицитные (low-resource languages).
Данные за блок знаний вы забыли упомянуть. Ну да, в испанском блок стоит условно 10 млрд за 100 млн символов, а в гагаузском 100 тысяч за сто тысяч. Дороже. Но и емкость рынка никакая. И идут на отработку копейки. Но в униках звучит «дорого».
Читают тему (гостей: 3)