從python2.0開(kāi)始,就有一種新的數(shù)據(jù)類(lèi)型UnicodeStrings,但是在python3的到來(lái),這個(gè)概念已經(jīng)被弱化了。python2.*的默認(rèn)編碼格式是ASCII碼,而python3.*的默認(rèn)編碼格式已經(jīng)換成了Unicode,所以2.*還是有必要提一下。在python2系列中,如果要操作非ASCII碼的字符,就可以用這個(gè)對(duì)象進(jìn)行操作。它可以跟strings進(jìn)行任意的轉(zhuǎn)換。比如,現(xiàn)在有一個(gè)字符串變量s,保存中文字符"測(cè)試",現(xiàn)在直接打印是會(huì)報(bào)錯(cuò)的,因?yàn)榇嬖谝粋€(gè)非ASCII碼的字符,python2.*是無(wú)法進(jìn)行解析的,如果在上面加個(gè)u,就能正常顯示(在集成開(kāi)發(fā)工具內(nèi),設(shè)置集成工具和工程的默認(rèn)編碼為utf-8)
#-*-coding:gbk-*-if__name__=="__main__":
s1='測(cè)試'
#s1=s1.decode('gbk')
s1=unicode(s1,'gbk')
prints1
如上代碼段在JetBrainsPyCharm2016.1.2內(nèi),使用2.7.11做解釋器,做了一個(gè)小測(cè)試~~
1.不設(shè)置源文件編碼格式,輸入中文,后直接打印,會(huì)提示存在‘non-ascii’,編譯不通過(guò)
2.設(shè)置源文件編碼格式為gbk,輸入中文后,打印亂碼
3.設(shè)置源文件編碼格式為gbk,輸入中文s1=u'測(cè)試'后,打印正常
4.設(shè)置源文件編碼格式為gbk,輸入中文后,先將字符串解碼decode或者unicode方法,后打印正常
5.設(shè)置源文件編碼格式為utf-8,輸入中文后直接輸出正常
6.設(shè)置工具和工程的默認(rèn)編碼為gbk,輸入中文后,打印正常。
然后有點(diǎn)明白了~~在python2系列的IDE中聲明一個(gè)非ASCII碼的字符串,不聲明源文件的編碼格式,編譯是不通過(guò)的,因?yàn)樵次募ython2的解析器嘗試使用默認(rèn)的ASCII碼去編譯,卻發(fā)現(xiàn)存在非ASCII碼的字符串;如果在此基礎(chǔ)上設(shè)置源文件的編碼格式為gbk,編譯是可以通過(guò)了,但是打印出來(lái)的字符串是亂碼的,為啥亂碼呢?因?yàn)镮DE是采用utf-8的編碼格式,而源文件是采用gbk格式,所以會(huì)出現(xiàn)中文亂碼現(xiàn)象,單純的解決亂碼有3種可行方式,一個(gè)方法是:將源文件里需要打印的字符串解碼成utf-8(或者unicode)再打印;另一個(gè)方法是:修改源文件的編碼格式直接為utf-8,最后一種是:修改IDE編碼格式為gbk;顯然第二種方法是最佳方法。
以上內(nèi)容為大家介紹了python2中的UnicodeStrings,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。