近年來(lái),Python的發(fā)展越來(lái)越迅速。由于其易用性高、門檻低、入門簡(jiǎn)單、使用方便等特點(diǎn),被廣大開發(fā)者視為首選的編程語(yǔ)言。編程語(yǔ)言的選擇非常重要,它直接影響著我們學(xué)習(xí)的動(dòng)力和信心。本期主要講Python中的爬蟲是什么以及它們的用途。如果你不懂,那么就請(qǐng)閱讀以下內(nèi)容:
什么是爬蟲?
爬蟲也叫網(wǎng)絡(luò)蜘蛛,是按照一定的規(guī)則自動(dòng)抓取網(wǎng)絡(luò)信息的程序或腳本。他們可以在網(wǎng)頁(yè)中獲取我們需要的信息。此外,還有一些不常用的名稱,例如自動(dòng)索引和模擬程序等等。
爬蟲分類:
1、通用網(wǎng)絡(luò)爬蟲:又稱全網(wǎng)爬蟲,爬取對(duì)象從一些種子網(wǎng)址擴(kuò)展到整個(gè)網(wǎng)絡(luò),主要供門戶搜索引擎和大型網(wǎng)絡(luò)服務(wù)商采集數(shù)據(jù)使用。
2、聚焦網(wǎng)絡(luò)爬蟲:也稱為主題網(wǎng)絡(luò)爬蟲,是指有選擇地抓取那些與預(yù)定義主題相關(guān)的頁(yè)面的網(wǎng)絡(luò)爬蟲。與前者相比,只需要爬取與主題相關(guān)的頁(yè)面,體積龐大,既節(jié)省了硬件和網(wǎng)絡(luò)資源,又可以滿足特定人群對(duì)特定領(lǐng)域信息的需求。
3、增量式網(wǎng)絡(luò)爬蟲:指對(duì)下載的網(wǎng)頁(yè)進(jìn)行增量更新,只抓取新生成或變化的網(wǎng)頁(yè)的爬蟲,可以在一定程度上保證被爬取的頁(yè)面盡可能是新的頁(yè)面。
4、DeepWeb爬蟲:DeepWeb是一種大部分內(nèi)容無(wú)法通過(guò)靜態(tài)鏈接獲取而隱藏在搜索表單后面的網(wǎng)頁(yè)。只有用戶提交一些關(guān)鍵字才能獲得網(wǎng)頁(yè)。例如,那些內(nèi)容只有在用戶注冊(cè)后才能看到的網(wǎng)頁(yè)就屬于DeepWeb。