當(dāng)你學(xué)會(huì)使用Python爬蟲之后就會(huì)發(fā)現(xiàn)想要得到某些數(shù)據(jù)再也不用自己費(fèi)力的去尋找,今天小千就給大家介紹一個(gè)很實(shí)用的爬蟲案例,獲取Boss直聘上面的招聘信息,同學(xué)們一起來(lái)學(xué)習(xí)一下了。
Boss直聘爬蟲案例
這次我們以北京地區(qū)的銷售崗位為案例,打開Boss直聘搜索【銷售】,但是很遺憾boss直聘的反爬措施不能直接使用requests庫(kù)獲取信息,所以采用webdriver自動(dòng)化方式獲取網(wǎng)頁(yè)源代碼。
webdriver的使用需要:pip3 install selenium、配置chrome瀏覽器的chrome driver。
點(diǎn)擊了多頁(yè)之后,發(fā)現(xiàn)地址欄的地址變化如下:
所以我們就發(fā)現(xiàn)了地址的規(guī)律變化,因此代碼如下:
此時(shí)執(zhí)行代碼,發(fā)現(xiàn)htmls_list中有好多的數(shù)據(jù)。這下也就放心了,說(shuō)明我們獲取到了網(wǎng)頁(yè)的數(shù)據(jù)。有了數(shù)據(jù)我們就開始遍歷htmls_list,因?yàn)閔tmls_list存放著多頁(yè)的數(shù)據(jù),我們要一頁(yè)一頁(yè)的獲取并提取里面的職位、薪資等信息。提取的過(guò)程我們使用的是BeautifulSoup,具體的使用說(shuō)明這里不在贅述。
使用BeautifulSoup提取的數(shù)據(jù)我們都存放在job_list=[]這個(gè)列表中。頁(yè)面分析如下:
以此類推,我們都可以找到對(duì)應(yīng)的標(biāo)簽。
以上就是Python獲取boss直聘上面的崗位信息過(guò)程的介紹了,最后歡迎對(duì)Python開發(fā)感興趣的小伙伴來(lái)到千鋒Python培訓(xùn)班參加我們的培訓(xùn)課程的學(xué)習(xí),現(xiàn)在咨詢更有免費(fèi)學(xué)習(xí)資料可以領(lǐng)取,先到先得。