爬蟲(chóng)中通過(guò)什么模擬瀏覽器工作?重點(diǎn)來(lái)啦!那就是requests模塊。

　　requests模塊

　　requests文檔http://docs.python-requests.org/zh_CN/latest/index.html

　　requests模塊的作用：

　　• 發(fā)送http請(qǐng)求，獲取響應(yīng)數(shù)據(jù)

　　requests模塊是一個(gè)第三方模塊，需要在你的python(虛擬)環(huán)境中額外安裝

　　• pip/pip3 install requests

　　安裝完成之后我們就可以模擬瀏覽器向外發(fā)出請(qǐng)求了。

　　如何實(shí)現(xiàn)呢?首先看一下發(fā)出get請(qǐng)求的代碼實(shí)現(xiàn)：

　　# 需求：通過(guò)requests向百度首頁(yè)發(fā)送請(qǐng)求，獲取該頁(yè)面的源碼

　　# 步驟1: 導(dǎo)入requests模塊

　　import requests

　　# 步驟2: 確定訪問(wèn)目標(biāo)url

　　url = 'https://www.baidu.com'

　　# 步驟3. 向目標(biāo)url發(fā)送get請(qǐng)求

　　response = requests.get(url)

　　# 步驟4: 打印響應(yīng)內(nèi)容

　　print(response.text)

　　就這樣輕松的我們通過(guò)requests模塊跟百度打了一個(gè)“招呼”，但是說(shuō)真的，挺假的!!!因?yàn)榧傺b的不像唄!

　　所有瀏覽器在訪問(wèn)百度的時(shí)候都是該帶都帶著，比如上面提到的請(qǐng)求行，請(qǐng)求頭或者請(qǐng)求體的內(nèi)容。

　　我們這個(gè)是赤裸裸的訪問(wèn)哪，人家百度也挺好脾氣的，沒(méi)有說(shuō)你是爬蟲(chóng)我就不給你東西了。但是怎樣才能偽裝的更像一些呢。

　　最基本的就是添加請(qǐng)求頭了，大家可以通過(guò)開(kāi)發(fā)者工具中的Network自行觀察。

　　我們這里怎么添加呢?

　　大家運(yùn)行代碼可以發(fā)現(xiàn)，會(huì)打印出很多的內(nèi)容，那這個(gè)內(nèi)容是什么呢?這就是服務(wù)器收到了你的請(qǐng)求，把你想要的東西給你了。

　　我們打印出來(lái)看起來(lái)很亂，但是瀏覽器可是這些標(biāo)簽的翻譯專(zhuān)家，所以瀏覽器上你看到的是一個(gè)百度的首頁(yè)面，但是我們通過(guò)程序看到的是像下面一樣的代碼。

　　而通過(guò)瀏覽器的開(kāi)發(fā)者工具Network看就整齊很多，因?yàn)闉g覽器就是干這個(gè)沒(méi)辦法。

　　但是上面大家看到的只是響應(yīng)體的內(nèi)容，因?yàn)樵贖TTP協(xié)議中，響應(yīng)也是分成了三部分：就是響應(yīng)行，響應(yīng)頭和響應(yīng)體。我們?cè)跒g覽器中看到的都是響應(yīng)體的內(nèi)容顯示。

久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

requests模塊