Список клиентов пополнили Microsoft, Meta*, Amazon, Perplexity, Mistral AI и другие
Представитель Фонда Викимедиа (англ. Wikimedia Foundation) — оператора Википедии (англ. Wikipedia) и других проектов — сообщил Reuters [1]1 и прочим СМИ о заключении сделок по обучению искусственного интеллекта (ИИ; англ. artificial intelligence, AI) с несколькими крупными технологическими компаниями, включая Microsoft, Meta2 и Amazon. Википедия — важнейший элемент для работы технологических компаний, и им необходимо определиться, как ей оказывать финансовую поддержку. Нам потребовалось время, чтобы понять, какой набор функций следует предоставить, если мы собираемся перевести компанию с бесплатной платформы на коммерческую,.. однако все наши крупные технологические партнёры уже считают необходимым взять на себя обязательства по поддержке работы Википедии.Лейн Беккер, президент Wikimedia Enterprise
Доступ к высококачественной и достоверной информации лежит в основе представлений Microsoft о будущем ИИ... [Совместно с Викимедией] мы помогаем формированию устойчивой экосистемы контента для ИИ-Интернета, в которой ценные участники получают по заслугам.В преддверии заключения соглашений (месяцем ранее) ситуацию прокомментировал сооснователь Википедии Джимми Уэйлс (англ. Jimmy Wales) [3]6.Тим Фрэнк, корпоративный вице-президент Microsoft
Википедия спонсируется волонтёрами. Люди жертвуют деньги на поддержку Википедии, а не на субсидирование OpenAI, которое обходится нам в кучу денег. Мне кажется, это несправедливо.Википедист № 1 добавил, что скорее постарается пристыдить технологические компании, нежели будет подавать на них в суд.Джимми Уэйлс, сооснователь Википедии, председатель Фонда Викимедиа (2003—2006), почётный председатель Фонда Викимедиа (с 2006)
(Голосов: 2, Рейтинг: 3.35) |
Лилия Тумина написала:Тут еще посмотреть надо, кому данная коллаборация будет более выгодной. Для гигантов на самом деле несколько десятков миллионов — вообще не деньги, но они получают огромнейший массив данных от Википедии, на основе которых можно не только обучать ИИ, но и модернизировать системы и модели его поведения.
Дело правильное: подобные крупные корпорации с многомиллиардными бюджетами вполне могут позволить себе выделить несколько миллионов на поддержку самой популярной сетевой энциклопедии мира. Главное теперь, чтобы это была не разовая акция, а постоянная.
Роман Изосимов написал:Зачем? Чтобы что? Вопрос
Я бы хотел видеть, чтобы часть средств целевым образом возвращалась в сообщества малых языков: именно там «65 млн статей на 300 языках» превращаются в реальный вклад, а не в красивую цифру.
lisss написал:Чтобы данные на этих языках были качественными, а не сгенерированными ботами. Если Фонд Викимедиа продает контент как «высококачественный и достоверный» (как сказано в новости), то нужно инвестировать в людей, которые обеспечивают эту достоверность на местах, а не только в сервера.
Зачем? Чтобы что?
Роман Изосимов написал:А почему вы делаете акцент именно на малых языках? Ведь корпорациям интересен контент сетевой энциклопедии прежде всего на английском языке и других популярных языках мира. Соответственно, вкладываться надо в качество и достоверность статей в первую очередь именно на популярных языках, а не на адыгейском, самоанском, гагаузском и других малых языках. Это всё равно, что если бы городские власти при выборе того, где в первую очередь чистить снег — вокруг одноэтажного барака или вокруг 24-этажки, выбрали барак.
Я бы хотел видеть, чтобы часть средств целевым образом возвращалась в сообщества малых языков: именно там «65 млн статей на 300 языках» превращаются в реальный вклад, а не в красивую цифру.
Лилия Тумина написала:Вы глубоко заблуждаетесь насчет интересов корпораций. Английский язык в сети и так представлен в избытке, на нём ИИ уже обучились прекрасно. Сейчас главная битва техногигантов (той же Meta с их проектом No Language Left Behind) идет как раз за «малые» и «средние» языки, чтобы охватить рынки развивающихся стран. Данные на гагаузском или самоанском для обучения моделей сейчас стоят дороже, потому что они дефицитные (low-resource languages). А «24-этажка» английского языка и так обслуживается тысячами волонтеров бесплатно. Деньги нужны там, где есть риск исчезновения данных, а не там, где и так всё хорошо.
А почему вы делаете акцент именно на малых языках? Ведь корпорациям интересен контент сетевой энциклопедии прежде всего на английском языке и других популярных языках мира. Соответственно, вкладываться надо в качество и достоверность статей в первую очередь именно на популярных языках, а не на адыгейском, самоанском, гагаузском и других малых языках. Это всё равно, что если бы городские власти при выборе того, где в первую очередь чистить снег — вокруг одноэтажного барака или вокруг 24-этажки, выбрали барак.
Роман Изосимов написал:Он его не продает. С улыбкой Публикует бесплатно. С улыбкой
Если Фонд Викимедиа продает контент как «высококачественный и достоверный» (как сказано в новости),
Роман Изосимов написал:Методику отбора предоставите? Вот, например, в России. Сегодня один депутат предлагает затмить «Диснейленд» и сделать «Чебурляндию». Почему не «Чебурземье», потому как «лэнд» скрепам не соответствует, но это не важно. А вот пару дней назад аж целый глава кафедры МГУ Дугин кричал, что Чебурашка — гибель России. И как отбирать будете? Рацио уже покинуло этот мир. С улыбкой
то нужно инвестировать в людей, которые обеспечивают эту достоверность на местах, а не только в сервера.
Роман Изосимов написал:Данные за блок знаний вы забыли упомянуть. Ну да, в испанском блок стоит условно 10 млрд за 100 млн символов, а в гагаузском 100 тысяч за сто тысяч. Дороже. Но и емкость рынка никакая. И идут на отработку копейки. Но в униках звучит «дорого».
Данные на гагаузском или самоанском для обучения моделей сейчас стоят дороже, потому что они дефицитные (low-resource languages).