pythonchardet檢測(cè)編碼
1、當(dāng)我們拿到一個(gè)bytes時(shí),就可以對(duì)其檢測(cè)編碼。用chardet檢測(cè)編碼,只需要一行代碼:
>>>chardet.detect(b'Hello,world!')
{'encoding':'ascii','confidence':1.0,'language':''}
檢測(cè)出的編碼是ascii,注意到還有個(gè)confidence字段,表示檢測(cè)的概率是1.0(即100%)。
2、檢測(cè)GBK編碼的中文
>>>data='離離原上草,一歲一枯榮'.encode('gbk')
>>>chardet.detect(data)
{'encoding':'GB2312','confidence':0.7407407407407407,'language':'Chinese'}
檢測(cè)的編碼是GB2312,注意到GBK是GB2312的超集,兩者是同一種編碼,檢測(cè)正確的概率是74%,language字段指出的語言是'Chinese'。
以上就是pythonchardet檢測(cè)編碼的方法,希望對(duì)大家有所幫助。更多Python學(xué)習(xí)教程請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。