久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

手機(jī)站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

當(dāng)前位置:首頁(yè)  >  技術(shù)干貨  > 用Python實(shí)現(xiàn)GB與BIG5碼的轉(zhuǎn)換

用Python實(shí)現(xiàn)GB與BIG5碼的轉(zhuǎn)換

來(lái)源:千鋒教育
發(fā)布人:xqq
時(shí)間: 2023-11-08 04:19:37 1699388377

GB碼與BIG5是中國(guó)人常用的兩種編碼集。GB碼為大陸使用,BIG5為香港與臺(tái)灣使用。每個(gè)編碼都由2個(gè)字符構(gòu)成,高字節(jié)在前,低字節(jié)在后。下面我將使用Python實(shí)現(xiàn)的編碼轉(zhuǎn)換的程序向大家作一個(gè)介紹。關(guān)于編碼的一些知識(shí)大家可以去網(wǎng)上查找,本人不再贅述。

GB碼是大陸使用的編碼集。以前使用的為GB-2312編程,它只有常用字,字?jǐn)?shù)有限。后國(guó)家制定了新的GBK編碼,漢字已經(jīng)達(dá)到了2萬(wàn)多。GBK完全兼容原GB-2312編碼,也就是說(shuō)一個(gè)GB2312的編碼在GBK上是一模一樣的。這里所介紹的轉(zhuǎn)換是以GBK為基礎(chǔ)的,因此適用性很廣。GBK編碼中不僅包括了原GB-2312編碼,同時(shí)也包括了許多簡(jiǎn)碼的繁體碼,同時(shí)還有許多的符號(hào)與不常用漢字。GBK編碼的范圍是:高字節(jié)從0x81到0xFE,低字節(jié)從0x40到0xFE,同時(shí)不包括0x7F。這樣如果我們將其排成一個(gè)矩形,看上去就少了xx7F一根線。

編碼的定位

那么如何定位一個(gè)GBK碼呢?當(dāng)我們拿到一個(gè)編碼時(shí),如何判斷是不是一個(gè)GBK碼,如果是GBK碼如何定位它的位置呢?

判斷一個(gè)GBK碼應(yīng)該比較簡(jiǎn)單,我們只要根據(jù)它的有效范圍進(jìn)行判定即可。如:

if0x81<=ch1<=0xFEand(0x40<=ch2<=0x7Eor0x7E<=ch2<=0xFE):#isgbchar

這里ch1和ch2分別是一個(gè)字符的高字節(jié)和低字節(jié)。

如何定位(為什么要定位我們?cè)诤竺嬷v)?首先介紹一下碼表。碼表是所有編碼放在一起形成的,你可以將其放在文件中(這里講述的是將編碼放在文件中)。我們?cè)诖娣啪幋a時(shí)是將有實(shí)際意義的編碼放在了一起(因?yàn)橛幸恍┙M合是不存在的),而且是按字節(jié)大小的順序放的。

根據(jù)GBK的編碼范圍,我們可以設(shè)想一個(gè)二維坐標(biāo),縱坐標(biāo)是高字節(jié),橫坐標(biāo)是低字節(jié),每一個(gè)交叉點(diǎn)上是一個(gè)漢字,占兩個(gè)字節(jié)。這樣一行上的漢字個(gè)數(shù)應(yīng)該為0xFE-0x40+1-1=190(加1是因?yàn)橐?x40也算進(jìn)去。減1是因?yàn)橐?F去掉)。定位時(shí),我們先用高字節(jié)減去0x81,得到縱坐標(biāo)偏移量。用低字節(jié)減去0x40得到橫坐標(biāo)偏移量。用縱坐標(biāo)偏移量乘以每個(gè)漢字個(gè)數(shù),加上橫坐標(biāo)偏移量就得到漢字的偏移量。再乘以2得到字節(jié)的偏移量。那么定位算法為:

index=((ch1-0x81)*190+(ch2-0x40)-(ch2/128))*2

上面的算法中有-(ch2/128)。這是因?yàn)镚BK中沒(méi)有7F碼,因此當(dāng)ch2小于7F時(shí),ch2/128=0,則表示7F沒(méi)有計(jì)算在內(nèi)。而當(dāng)ch2大于7F時(shí),ch2/128=1,則表示多算了7F一值,因此要去掉。由于一個(gè)漢字有兩個(gè)字節(jié),故要乘以2。這樣我們就得到一個(gè)GBK漢字在碼表中的字節(jié)位置了。

BIG5是香港和臺(tái)灣地區(qū)使用的編碼集。它的范圍為:高字節(jié)從0xA0到0xFE,低字節(jié)從0x40到0x7E,和0xA1到0xFE兩部分。判斷一個(gè)漢字是否是BIG5編碼,可以如上對(duì)字符的編碼范圍判斷即可。如何定位呢?那么也想象所有編碼排列為一個(gè)二維坐標(biāo),縱坐標(biāo)是高字節(jié),橫坐標(biāo)是低字節(jié)。這樣一行上的漢字個(gè)數(shù):(0x7E-0x40+1)+(0xFE-0xA1+1)=157。那么定位算法分兩塊,為:

if0x40<=ch2<=0x7E:#isbig5char

index=((ch1-0xA1)*157+(ch2-0x40))*2

elif0xA1<=ch2<=0xFE:#isbig5char

index=((ch1-0xA1)*157+(ch2-0xA1+63))*2

對(duì)于第二塊,計(jì)算偏移量時(shí)因?yàn)橛袃蓧K數(shù)值,所以在計(jì)算后面一段值時(shí),不要忘了前面還有一段值。0x7E-0x40+1=63。

編碼轉(zhuǎn)換

上面,我們已經(jīng)可以得到GBK漢字和BIG5的字節(jié)位置。那么就可以開(kāi)始進(jìn)行轉(zhuǎn)換了。對(duì)于轉(zhuǎn)換我原以為有一個(gè)特別的算法,能夠按照兩種編碼的不同,簡(jiǎn)單地通過(guò)計(jì)算就可以得出結(jié)果來(lái),其實(shí)是不存在這種算法的。真正的做法是通過(guò)建立轉(zhuǎn)換碼表文件實(shí)現(xiàn)的。即對(duì)于GBK碼表,將原位置上的GBK漢字改成相應(yīng)的BIG5漢字。對(duì)于BIG5碼表,將原位置上的BIG5漢字改成相應(yīng)的GBK漢字。

這樣,由于原來(lái)漢字的位置沒(méi)有變,但編碼已經(jīng)變成了想要轉(zhuǎn)換的編碼。通過(guò)計(jì)算出原漢字的位置,將轉(zhuǎn)換碼表中對(duì)應(yīng)漢字位置的字符取出來(lái),這樣就完成了轉(zhuǎn)換(這就是為什么要進(jìn)行編碼定位的原因)。的確,程序是簡(jiǎn)單的,但真正細(xì)致的工作是在建立轉(zhuǎn)換碼表上。我們需要從GBK轉(zhuǎn)BIG5的碼表文件,和BIG5轉(zhuǎn)GBK的碼表文件。好在這一工作已經(jīng)有人完成了,在網(wǎng)上可以找到這種信息。本人就是在網(wǎng)上找到了這種對(duì)應(yīng)的轉(zhuǎn)換碼表,于是完成了一個(gè)用Python做的編碼轉(zhuǎn)換程序。(想要此程序的可以點(diǎn)擊此處下載pygb2big.zip)

一個(gè)用于編碼轉(zhuǎn)換的Python模塊的使用介紹程序文件名為pygb2big.py。命令行:

pythonpygb2big.py[-u][-b-g]inputfileoutputfile。

它主要的命令行參數(shù)為:-b,表示將GBK轉(zhuǎn)化為BIG5;-g,表示將BIG5轉(zhuǎn)成GBK;-u,顯示程序的用法。inputfile為輸入的待處理的文件;而ouputfile為結(jié)果文件。它帶有三個(gè)轉(zhuǎn)換碼表文件,其中g(shù)bk2big.txt為GBK轉(zhuǎn)big5對(duì)照表;big2gbk.txt為BIG轉(zhuǎn)GBKcf對(duì)照表。另一個(gè)為big2gbk-f.txt,只是提供但并未使用,它是將BIG5轉(zhuǎn)換為繁體GBK碼。

有了這個(gè)轉(zhuǎn)換模塊,我們就可以應(yīng)用于任何需要進(jìn)行碼制轉(zhuǎn)換的地方了。當(dāng)然,這里只是GBK到BIG5的轉(zhuǎn)換,如果有其它的轉(zhuǎn)換碼表文件,我們也可以實(shí)現(xiàn)其它的轉(zhuǎn)換功能。

以上內(nèi)容為大家介紹了用Python實(shí)現(xiàn)GB與BIG5碼的轉(zhuǎn)換,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://m.2667701.com/

聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
請(qǐng)您保持通訊暢通,專屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
免費(fèi)領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT
python 序列化與反序列化如何使用?

根據(jù)某些規(guī)則,將內(nèi)存數(shù)據(jù)保存到文件中時(shí),文件是字節(jié)序列,因此必須將內(nèi)存數(shù)據(jù)轉(zhuǎn)換為字節(jié)序列,然后輸出到文件,這就是序列化;反之,從文件的...詳情>>

2023-11-08 07:01:37
Python企業(yè)應(yīng)用的優(yōu)缺點(diǎn)

Python是軟件開(kāi)發(fā)領(lǐng)域一朵誘人的奇葩:人們經(jīng)常把Python看作是一種起到縫合作用的嚴(yán)格腳本語(yǔ)言,不過(guò)卻很少有人意識(shí)到Python已經(jīng)足夠強(qiáng)大到應(yīng)用...詳情>>

2023-11-08 06:25:37
python 關(guān)鍵字參數(shù)

可變參數(shù)允許你傳入0個(gè)或任意個(gè)參數(shù),這些可變參數(shù)在函數(shù)調(diào)用時(shí)自動(dòng)組裝為一個(gè)tuple。而關(guān)鍵字參數(shù)允許你傳入0個(gè)或任意個(gè)含參數(shù)名的參數(shù),這些...詳情>>

2023-11-08 04:59:13
python 列表元素的刪除

使用del命令刪除列表中的指定位置上的元素。>>>a_list=[3,5,7,9,11]>>>dela_list[1]>>>a_list[3,7,9,11]使用列表的pop()方法刪除并返回指定位置...詳情>>

2023-11-08 03:58:01
python 插入排序

原理插入排序(InsertionSort)是一種簡(jiǎn)單直觀的排序算法。它的工作原理是通過(guò)構(gòu)建有序序列,對(duì)于未排序數(shù)據(jù),在已排序序列中從后向前掃描,找到...詳情>>

2023-11-08 02:56:48
快速通道