如果不聲明編碼，則中文會(huì)報(bào)錯(cuò)，即使是注釋也會(huì)報(bào)錯(cuò)。只要寫中文，必須加一句：#--coding:utf-8--。

文檔編碼是一種告訴程序——無論是計(jì)算機(jī)的操作系統(tǒng)還是Python代碼——讀取文檔的規(guī)則。正確讀取一個(gè)文檔，往往需要先知道文件的擴(kuò)展名，因?yàn)榫幋a方式往往與擴(kuò)展名有很大的關(guān)系。

(1)純文本文檔的獲取與處理：直接用urlopen讀取后，用read()函數(shù)獲取文本內(nèi)容即可。純文本頁面不要轉(zhuǎn)換成BeautifulSoup對(duì)象，因?yàn)闊o法解析，會(huì)被認(rèn)為是一堆字符串，只能用字符串的操作方法來解析。

(2)CSV文檔、PDF文檔等非純文本文檔的讀取方式：直接通過文檔獲取鏈接以字符串的方式讀取文檔——通過io庫的StringIO函數(shù)將字符串轉(zhuǎn)換為StringIO對(duì)象——通過CSV庫或PDF庫將StringIO對(duì)象讀取為相應(yīng)格式的文檔，

編碼類型：

(1)UTF-8：統(tǒng)一字符集-轉(zhuǎn)換格式8位。它的開頭有標(biāo)記指示字符占了用了多少個(gè)字節(jié)來表示，一個(gè)字符最多有四個(gè)字節(jié)。

(2)ASCII：每個(gè)字符7位，用來表示中文會(huì)不夠用，但是英文夠用了。

(3)UtF-8和ASCII的結(jié)合：首位為0，即只包含一個(gè)字節(jié)的UTF-8字符和ASCII通用，因?yàn)橄喈?dāng)于只用到了7位。但首位為1的兩字節(jié)UTF-8字符不通用。

(4)ISO編碼：解決非英文非中文語言文檔太大的問題，比如土耳其語沒有那么多字符，又不能用單純的ASCII。因此使用ASCII的首位來做特殊化，可以針對(duì)不同的語言生成不同的規(guī)則。

在用Python讀網(wǎng)頁或文檔時(shí)，最好統(tǒng)一將獲取的內(nèi)容統(tǒng)一轉(zhuǎn)換成UTF-8編碼。獲取國際站的內(nèi)容時(shí)，最好先看看網(wǎng)站metasharset信息中所指示的編碼方式后再確定選擇哪種編碼方式。

Encode和Decode：

字符串在Python內(nèi)部的表示是unicode編碼，因此，在做編碼轉(zhuǎn)換時(shí)，通常需要以u(píng)nicode作為中間編碼，即先將其他編碼的字符串解碼(decode)成unicode，再從unicode編碼(encode)成另一種編碼。

decode的作用是將其他編碼的字符串轉(zhuǎn)換成unicode編碼，如str1.decode(‘gb2312’)，表示將gb2312編碼的字符串str1轉(zhuǎn)換成unicode編碼。

encode的作用是將unicode編碼轉(zhuǎn)換成其他編碼的字符串，如str2.encode(‘gb2312’)，表示將unicode編碼的字符串str2轉(zhuǎn)換成gb2312編碼。

因此，轉(zhuǎn)碼的時(shí)候一定要先搞明白，字符串str是什么編碼，然后decode成unicode，然后再encode成其他編碼

以上內(nèi)容為大家介紹了Python中的編碼問題，中文亂碼問題，希望對(duì)大家有所幫助，如果想要了解更多Python相關(guān)知識(shí)，請(qǐng)關(guān)注 IT培訓(xùn)機(jī)構(gòu):千鋒教育。

久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

Python中的編碼問題，中文亂碼問題