當(dāng)源網(wǎng)頁(yè)編碼和爬取下來(lái)后的編碼轉(zhuǎn)換不一致時(shí)，如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流，而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中，這必然會(huì)引起亂碼，即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)后程序直接使用處理編碼一致時(shí)，則不會(huì)出現(xiàn)亂碼，此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁(yè)無(wú)論何種編碼格式，都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。

注意：區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。

在此，我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系，大概如下：

最早的編碼是iso8859-1，和ascii編碼相似。但為了方便表示各種各樣的語(yǔ)言，逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼，最多能表示的字符范圍是0-255，應(yīng)用于英文系列。很明顯，iso8859-1編碼表示的字符范圍很窄，無(wú)法表示中文字符。

1981年中國(guó)人民通過(guò)對(duì)ASCII編碼的中文擴(kuò)充改造，產(chǎn)生了GB2312編碼，可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了，包括繁體和各種字符，于是產(chǎn)生了GBK編碼，它包括了GB2312中的編碼，同時(shí)擴(kuò)充了很多。中國(guó)又是個(gè)多民族國(guó)家，各個(gè)民族幾乎都有自己獨(dú)立的語(yǔ)言系統(tǒng)，為了表示那些字符，繼續(xù)把GBK編碼擴(kuò)充為GB18030編碼。每個(gè)國(guó)家都像中國(guó)一樣，把自己的語(yǔ)言編碼，于是出現(xiàn)了各種各樣的編碼，如果你不安裝相應(yīng)的編碼，就無(wú)法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于，有個(gè)叫ISO的組織看不下去了。他們一起創(chuàng)造了一種編碼UNICODE，這種編碼非常大，大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有UNICODE這種編碼系統(tǒng)，無(wú)論是全球哪種文字，只需要保存文件的時(shí)候，保存成UNICODE編碼就可以被其他電腦正常解釋。UNICODE在網(wǎng)絡(luò)傳輸中，出現(xiàn)了兩個(gè)標(biāo)準(zhǔn)UTF-8和UTF-16，分別每次傳輸8個(gè)位和16個(gè)位。于是就會(huì)有人產(chǎn)生疑問(wèn)，UTF-8既然能保存那么多文字、符號(hào)，為什么國(guó)內(nèi)還有這么多使用GBK等編碼的人?因?yàn)閁TF-8等編碼體積比較大，占電腦空間比較多，如果面向的使用人群絕大部分都是中國(guó)人，用GBK等編碼也可以。

也可以這樣來(lái)理解：字符串是由字符構(gòu)成，字符在計(jì)算機(jī)硬件中通過(guò)二進(jìn)制形式存儲(chǔ)，這種二進(jìn)制形式就是編碼。如果直接使用“字符串??字符??二進(jìn)制表示(編碼)”，會(huì)增加不同類(lèi)型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層，“字符串??字符??與存儲(chǔ)無(wú)關(guān)的表示??二進(jìn)制表示(編碼)”，這樣，可以用一種與存儲(chǔ)無(wú)關(guān)的形式表示字符，不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層，然后再轉(zhuǎn)換為其他編碼形式。在這里，unicode就是“與存儲(chǔ)無(wú)關(guān)的表示”，utf—8就是“二進(jìn)制表示”。

以上內(nèi)容為大家介紹了python亂碼背后的淵源，希望對(duì)大家有所幫助，如果想要了解更多Python相關(guān)知識(shí)，請(qǐng)關(guān)注 IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://m.2667701.com/

久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

python亂碼背后的淵源