久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進入千鋒手機站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

當(dāng)前位置:首頁  >  技術(shù)干貨  > python怎么處理字符編碼問題

python怎么處理字符編碼問題

來源:千鋒教育
發(fā)布人:xqq
時間: 2023-11-11 17:57:07 1699696627

python中可以使用base64來處理字符編碼問題,Base64是一種用64個字符來表示任意二進制數(shù)據(jù)的方法。

用記事本打開exe、jpg、pdf這些文件時,我們都會看到一大堆亂碼,因為二進制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進制數(shù)據(jù),就需要一個二進制到字符串的轉(zhuǎn)換方法。Base64是一種最常見的二進制編碼方法。

Base64的原理很簡單,首先,準(zhǔn)備一個包含64個字符的數(shù)組:

['A','B','C',...'a','b','c',...'0','1',...'+','/']

然后,對二進制數(shù)據(jù)進行處理,每3個字節(jié)一組,一共是3x8=24bit,劃為4組,每組正好6個bit

這樣我們得到4個數(shù)字作為索引,然后查表,獲得相應(yīng)的4個字符,就是編碼后的字符串。

所以,Base64編碼會把3字節(jié)的二進制數(shù)據(jù)編碼為4字節(jié)的文本數(shù)據(jù),長度增加33%,好處是編碼后的文本數(shù)據(jù)可以在郵件正文、網(wǎng)頁等直接顯示。

如果要編碼的二進制數(shù)據(jù)不是3的倍數(shù),最后會剩下1個或2個字節(jié)怎么辦?Base64用\x00字節(jié)在末尾補足后,再在編碼的末尾加上1個或2個=號,表示補了多少字節(jié),解碼的時候,會自動去掉。

Python內(nèi)置的base64可以直接進行base64的編解碼:

>>>importbase64

>>>base64.b64encode('binary\x00string')

'YmluYXJ5AHN0cmluZw=='

>>>base64.b64decode('YmluYXJ5AHN0cmluZw==')

'binary\x00string'

由于標(biāo)準(zhǔn)的Base64編碼后可能出現(xiàn)字符+和/,在URL中就不能直接作為參數(shù),所以又有一種"urlsafe"的base64編碼,其實就是把字符+和/分別變成-和_:

>>>base64.b64encode('i\xb7\x1d\xfb\xef\xff')

'abcd++/'

>>>base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')

'abcd--__'

>>>base64.urlsafe_b64decode('abcd--__')

'i\xb7\x1d\xfb\xef\xff'

還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。

Base64是一種通過查表的編碼方法,不能用于加密,即使使用自定義的編碼表也不行。

Base64適用于小段內(nèi)容的編碼,比如數(shù)字證書簽名、Cookie的內(nèi)容等。

由于=字符也可能出現(xiàn)在Base64編碼中,但=用在URL、Cookie里面會造成歧義,所以,很多Base64編碼后會把=去掉:

#標(biāo)準(zhǔn)Base64:

'abcd'->'YWJjZA=='

#自動去掉=:

'abcd'->'YWJjZA'

去掉=后怎么解碼呢?因為Base64是把3個字節(jié)變?yōu)?個字節(jié),所以,Base64編碼的長度永遠是4的倍數(shù),因此,需要加上=把Base64字符串的長度變?yōu)?的倍數(shù),就可以正常解碼了。

請寫一個能處理去掉=的base64解碼函數(shù):

>>>base64.b64decode('YWJjZA==')

'abcd'

>>>base64.b64decode('YWJjZA')

Traceback(mostrecentcalllast):

...

TypeError:Incorrectpadding

>>>safe_b64decode('YWJjZA')

'abcd'

小結(jié)

Base64是一種任意二進制到文本字符串的編碼方法,常用于在URL、Cookie、網(wǎng)頁中傳輸少量二進制數(shù)據(jù)。

以上內(nèi)容為大家介紹了Python培訓(xùn)之怎么處理字符編碼問題,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機構(gòu):千鋒教育。

聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
免費領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT