4 月 3 日消息,維基百科運(yùn)營(yíng)方維基媒體基金會(huì)在當(dāng)?shù)貢r(shí)間 4 月 1 日的一份博文中表示,為 AI 訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲正對(duì)這家非營(yíng)利性組織帶來運(yùn)營(yíng)開支上的壓力。

維基百科的姊妹項(xiàng)目維基共享資源(Wiki Commons)存儲(chǔ)著大量可用于 AI 模型訓(xùn)練的多媒體資料集。根據(jù)統(tǒng)計(jì)數(shù)據(jù),自 2024 年 1 月以來從維基共享資源下載多媒體內(nèi)容的帶寬增長(zhǎng)了 50%,而這一變化趨勢(shì)主要由自動(dòng)化程序而非人類操作導(dǎo)致。
維基媒體基金會(huì)此前有能力應(yīng)對(duì)突發(fā)事件導(dǎo)致的人類用戶的流量激增,但 AI 時(shí)代自動(dòng)爬蟲活動(dòng)的日益頻繁正不斷侵蝕該組織現(xiàn)有的冗余度,讓基金會(huì)將大量時(shí)間和資源用于響應(yīng)非真人流量。
維基媒體基金會(huì)的數(shù)據(jù)存儲(chǔ)的模式是低使用頻率內(nèi)容僅存放在核心數(shù)據(jù)中心,而高頻請(qǐng)求的數(shù)據(jù)則將在更鄰近的數(shù)據(jù)中心提供備份。
自動(dòng)爬蟲的“遍歷式”查詢方式意味著其有更多的流量發(fā)送到核心數(shù)據(jù)中心,這帶來了更高的流量成本。根據(jù)維基媒體基金會(huì)的統(tǒng)計(jì),機(jī)器人以 35% 的總體瀏覽量消耗了 65% 的核心數(shù)據(jù)中心流量資源。
此外,自動(dòng)爬蟲甚至還去訪問了維基媒體基金會(huì)開發(fā)環(huán)境關(guān)鍵系統(tǒng)(如代碼審查平臺(tái)、錯(cuò)誤跟蹤器)的 URL。
維基媒體基金會(huì)表示雖然該組織是非營(yíng)利的,各項(xiàng)目的內(nèi)容是免費(fèi)提供的,但其基礎(chǔ)設(shè)施卻不是免費(fèi)獲得的,應(yīng)建立一個(gè)負(fù)責(zé)任、可持續(xù)的基礎(chǔ)設(shè)施使用規(guī)范,勿重演“公地悲劇”。