久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

當(dāng)前位置:首頁  >  技術(shù)干貨  > Python中的編碼問題,中文亂碼問題

Python中的編碼問題,中文亂碼問題

來源:千鋒教育
發(fā)布人:xqq
時間: 2023-11-08 00:50:48 1699375848

如果不聲明編碼,則中文會報錯,即使是注釋也會報錯。只要寫中文,必須加一句:#--coding:utf-8--。

文檔編碼是一種告訴程序——無論是計算機的操作系統(tǒng)還是Python代碼——讀取文檔的規(guī)則。正確讀取一個文檔,往往需要先知道文件的擴展名,因為編碼方式往往與擴展名有很大的關(guān)系。

(1)純文本文檔的獲取與處理:直接用urlopen讀取后,用read()函數(shù)獲取文本內(nèi)容即可。純文本頁面不要轉(zhuǎn)換成BeautifulSoup對象,因為無法解析,會被認(rèn)為是一堆字符串,只能用字符串的操作方法來解析。

(2)CSV文檔、PDF文檔等非純文本文檔的讀取方式:直接通過文檔獲取鏈接以字符串的方式讀取文檔——通過io庫的StringIO函數(shù)將字符串轉(zhuǎn)換為StringIO對象——通過CSV庫或PDF庫將StringIO對象讀取為相應(yīng)格式的文檔,

編碼類型:

(1)UTF-8:統(tǒng)一字符集-轉(zhuǎn)換格式8位。它的開頭有標(biāo)記指示字符占了用了多少個字節(jié)來表示,一個字符最多有四個字節(jié)。

(2)ASCII:每個字符7位,用來表示中文會不夠用,但是英文夠用了。

(3)UtF-8和ASCII的結(jié)合:首位為0,即只包含一個字節(jié)的UTF-8字符和ASCII通用,因為相當(dāng)于只用到了7位。但首位為1的兩字節(jié)UTF-8字符不通用。

(4)ISO編碼:解決非英文非中文語言文檔太大的問題,比如土耳其語沒有那么多字符,又不能用單純的ASCII。因此使用ASCII的首位來做特殊化,可以針對不同的語言生成不同的規(guī)則。

在用Python讀網(wǎng)頁或文檔時,最好統(tǒng)一將獲取的內(nèi)容統(tǒng)一轉(zhuǎn)換成UTF-8編碼。獲取國際站的內(nèi)容時,最好先看看網(wǎng)站metasharset信息中所指示的編碼方式后再確定選擇哪種編碼方式。

Encode和Decode:

字符串在Python內(nèi)部的表示是unicode編碼,因此,在做編碼轉(zhuǎn)換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。

decode的作用是將其他編碼的字符串轉(zhuǎn)換成unicode編碼,如str1.decode(‘gb2312’),表示將gb2312編碼的字符串str1轉(zhuǎn)換成unicode編碼。

encode的作用是將unicode編碼轉(zhuǎn)換成其他編碼的字符串,如str2.encode(‘gb2312’),表示將unicode編碼的字符串str2轉(zhuǎn)換成gb2312編碼。

因此,轉(zhuǎn)碼的時候一定要先搞明白,字符串str是什么編碼,然后decode成unicode,然后再encode成其他編碼

以上內(nèi)容為大家介紹了Python中的編碼問題,中文亂碼問題,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機構(gòu):千鋒教育。

聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
免費領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT