午夜福利院在线观看免费,天堂最新版在线,色噜噜精品一区二区三区,无码一区二区三区中文字幕,丝袜美腿一区二区三区

百度也怕別人偷他的內(nèi)容,百度百科屏蔽谷歌/必應(yīng)等搜索引擎抓取

8月22日消息,據(jù)報(bào)道,近日百度百科開始屏蔽谷歌和必應(yīng)等大多數(shù)搜索引擎,預(yù)計(jì)是為了阻止這些搜索引擎和其他爬蟲,未經(jīng)授權(quán)抓取百度百科的內(nèi)容用于訓(xùn)練AI。

百度百科的robots.txt文件(https://baike.baidu.com/robots.txt)顯示,目前僅有百度搜索、搜狗搜索、中國搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少數(shù)幾個(gè)搜索引擎被允許抓取其內(nèi)容。

百度也怕別人偷他的內(nèi)容,百度百科屏蔽谷歌/必應(yīng)等搜索引擎抓取插圖

谷歌搜索、必應(yīng)搜索、微軟MSN、UC瀏覽器的Yisouspider以及其他一切搜索引擎爬蟲均被明確禁止抓取百度百科的內(nèi)容。

雖然360搜索沒有在封禁列表中單獨(dú)列出,但百度百科的策略是禁止一切非白名單爬蟲抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

robots.txt文件是一種公開的說明文件,只能防君子,不能防小人,因?yàn)橐恍┡老x是不遵守robots協(xié)議的。

目前AI時(shí)代,幾乎所有的AI都在大量抓取互聯(lián)網(wǎng)公開內(nèi)容來訓(xùn)練自己,主機(jī)幫博客發(fā)現(xiàn)這兩年服務(wù)器配置明顯吃不消,其原因就是網(wǎng)站時(shí)不時(shí)會(huì)有大量的爬蟲在抓取網(wǎng)站的內(nèi)容,為此,主機(jī)幫還特地購買了百度云防護(hù)來攔截特定UA的爬蟲,不過顯然效果不大,因?yàn)閷?shí)在太多爬蟲了,防不勝防。

總之這個(gè)時(shí)代,做網(wǎng)站太煩了,網(wǎng)站沒什么流量不說,還在被一堆爬蟲爬,有時(shí)候還要被DDOS,簡直太慘了。

給TA打賞
共{{data.count}}人
人已打賞
QQ客服
  • QQ176363189 點(diǎn)擊這里給我發(fā)消息
旺旺客服
  • 速度網(wǎng)絡(luò)服務(wù)商 點(diǎn)這里給我發(fā)消息
電子郵箱
  • sudu@yunjiasu.cc
微信客服
  • suduwangluo