網(wǎng)絡爬蟲,英文名為Spider,又稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,在數(shù)據(jù)分析應用中,更多的將爬蟲稱為數(shù)據(jù)采集程序,是一種按照一定的規(guī)則,自動地抓取網(wǎng)絡信息的程序或者腳本。
• 原則上,只要是客戶端(瀏覽器)能做的事情,爬蟲都能夠做
• 爬蟲也只能獲取客戶端(瀏覽器)所展示出來的數(shù)據(jù)
網(wǎng)絡中的數(shù)據(jù)可以是由web服務器【Nginx/Apache】,數(shù)據(jù)庫服務【MySQL/Redis/MongoDB】,索引庫,大數(shù)據(jù),視頻/圖片庫,云存儲【阿里云的OSS】等提供的,最主要的來源是Web服務器
不過,大家一定要注意哦,可爬取的數(shù)據(jù)必須是公開的,非盈利的,如:如果侵入人家非公開的網(wǎng)絡,人家會通過ip定位到你,屬于違法行為的哦,再或者,一些理財?shù)木W(wǎng)站,如果爬取數(shù)據(jù),肯定是不可以的,如果小伙伴們不聽話,非要去爬取,那任何人都是保護不了你的哦,狗頭保命~~~
有名的爬蟲案件:簡歷大數(shù)據(jù)公司“巧達科技”被一鍋端、“車來了”涉嫌偷數(shù)據(jù)被警方立案等