爬蟲占總PV(PV是指頁面的訪問次數(shù),每打開或刷新一次頁面,就算做一個pv)比例較高,服務(wù)器的壓力上升,能力下降。
2018年2月24日晚,卓見云某客戶網(wǎng)站公網(wǎng)出流量突然爆發(fā)性增長,導(dǎo)致帶寬被占滿,事故發(fā)現(xiàn)后緊急提升了SLB的帶寬,但提升后的帶寬仍然被流量占滿(原帶寬15M,提升至35M)。由于事故發(fā)生在非黃金訪問時(shí)段,正常流量不會這么大,加上其他現(xiàn)象,懷疑是遭到了網(wǎng)絡(luò)攻擊。
再比如某節(jié)某動為了快速發(fā)展搜索業(yè)務(wù)派出爬蟲四處暴力抓取網(wǎng)站內(nèi)容,部分配置較低的網(wǎng)站已經(jīng)直接癱瘓,給中小網(wǎng)站主們造成了很大的損失和困擾,嚴(yán)重影響了網(wǎng)站正常的用戶訪問。
某中小網(wǎng)站今年7月份,他突然發(fā)現(xiàn)公司的網(wǎng)站經(jīng)常性打不開,網(wǎng)頁加載極其緩慢,有時(shí)甚至直接癱瘓。經(jīng)過一系列排查后,在服務(wù)器日志上發(fā)現(xiàn)了bytespider爬蟲的痕跡。該爬蟲抓取的頻率每天達(dá)幾百萬次,高則上千萬次,服務(wù)器帶寬負(fù)載飆至100%,而且該爬蟲在抓取時(shí)完全不遵守網(wǎng)站的robots協(xié)議。
有小網(wǎng)站主抱怨表示:某節(jié)某動的爬蟲“一上午對網(wǎng)站發(fā)出46萬次請求”,網(wǎng)站都癱瘓了,度娘也沒有這么折騰的!
可能原因分析:
1、商業(yè)對手,出于競爭需要,采用爬蟲獲取信息。
2、搜素引擎抽風(fēng)。
3、“三月份爬蟲”,應(yīng)屆畢業(yè)生為交論文常在這個時(shí)間點(diǎn)在網(wǎng)上爬取數(shù)據(jù),此類爬蟲通常簡單粗暴,不管服務(wù)器壓力。
4、近期做的推廣活動帶來訪問壓力增加。
公司可免費(fèi)查詢的資源被批量抓走,喪失競爭力。
數(shù)據(jù)可以在非登錄狀態(tài)下直接被查詢,比如下方的招聘信息
數(shù)據(jù)分析搜索
也有網(wǎng)站想獲取信息必須強(qiáng)制登陸,如果沒有登陸是看不到任何信息的。但是如果不強(qiáng)制對方登錄,爭對手可以輕松批量抓到更多的信息,企業(yè)的競爭力就會大大減少。
智聯(lián)搜索
狀告爬蟲成功的幾率小
爬蟲在國內(nèi)還是個擦邊球,就是有可能可以起訴成功,也可能完全無效。近期引發(fā)關(guān)注的是淘寶被非法爬取案件,這是成功的案例,還有很多沒有成功的案例。
爬取淘寶
所以還是需要用技術(shù)手段來做最后的保障。