在web測試,對網(wǎng)頁中的超鏈接進(jìn)行測試是最基本的工作,最簡便的方法當(dāng)然是使用像xenu之類的工具。但它具體是怎么實(shí)現(xiàn)的呢?我想也無外乎是通過http協(xié)議,根據(jù)超鏈接地址,向服務(wù)端發(fā)送請求,然后根據(jù)返回的信息進(jìn)行判斷連接的狀態(tài)。下面是根據(jù)這種思路,用python編寫的檢測網(wǎng)頁鏈接連通性的程序。
首先,建立一個(gè)示例網(wǎng)頁,其中l(wèi)ink1,lin3是不連通的,link2,link4是有效鏈接
使用python進(jìn)行鏈接檢測,要使用到4個(gè)重要模塊,過程就是通過urllib抓取目標(biāo)網(wǎng)頁的html代碼,然后通過sgmllib模塊解析html,獲取超鏈接的列表。然后使用urlparse解析超鏈接的url,供httplib使用。然后由httplib模塊進(jìn)行最后的請求及驗(yàn)證回復(fù)的過程。
sgmllib:用于HTML解析,解析出網(wǎng)頁中包含的超鏈接
httplib:用于Http協(xié)議的操作
urllib:用于獲取網(wǎng)頁的html代碼
urlparse:解析url地址,把url地址解析成幾個(gè)部分。
具體實(shí)現(xiàn)代碼如下:
#-×-coding:gb2312-*-
importhttplib,urllib,urlparse
fromsgmllibimportSGMLParser
#解析指定的網(wǎng)頁的html,得到該頁面的超鏈接列表
classURLLister(SGMLParser):
defreset(self):
SGMLParser.reset(self)
self.urls=[]
defstart_a(self,attrs):
href=[vfork,vinattrsifk=='href']
ifhref:
self.urls.extend(href)
#遍歷超鏈接列表,并逐個(gè)的發(fā)送請求,判斷接收后的代碼,200為正常,其他為不正常
deffetch(host):
usock=urllib.urlopen(host)
parser=URLLister()
parser.feed(usock.read())
uhost=urlparse.urlparse(host)
forurlinparser.urls:
up=urlparse.urlparse(url)
#因?yàn)槌溄佑袃煞N方式:一種是直接的http://......一種是相對路徑,/.../sample.html
#所以要分別處理
ifup.netloc=="":
http=httplib.HTTP(uhost.netloc)
http.putrequest("GET","/"+up.path+"?"+up.params+up.query+up.fragment)
http.putheader("Accept","*/*")
http.endheaders()
else:
http=httplib.HTTP(up.netloc)
http.putrequest("GET",up.path+"?"+up.params+up.query+up.fragment)
http.putheader("Accept","*/*")
http.endheaders()
errcode,errmsg,headers=http.getreply()
iferrcode==200:
printurl,":ok"
else:
printurl,":",errcode
#測試
fetch("http://m.2667701.com/")
代碼運(yùn)行的結(jié)果:
http://m.2667701.com/erwerwe.html:404
/sample/lik.html:ok
/sample/lik2.html:404
http://m.2667701.com/:ok
以上內(nèi)容為大家介紹了使用python測試網(wǎng)頁中超鏈接的連通性,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://m.2667701.com/