久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

    1. <style id="76ofp"></style>

      <style id="76ofp"></style>
      <rt id="76ofp"></rt>
      <form id="76ofp"><optgroup id="76ofp"></optgroup></form>
      1. 千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

        手機(jī)站
        千鋒教育

        千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

        千鋒教育

        掃一掃進(jìn)入千鋒手機(jī)站

        領(lǐng)取全套視頻
        千鋒教育

        關(guān)注千鋒學(xué)習(xí)站小程序
        隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

        當(dāng)前位置:首頁(yè)  >  技術(shù)干貨  > python亂碼背后的淵源

        python亂碼背后的淵源

        來(lái)源:千鋒教育
        發(fā)布人:xqq
        時(shí)間: 2023-11-07 07:48:20 1699314500

        當(dāng)源網(wǎng)頁(yè)編碼和爬取下來(lái)后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁(yè)無(wú)論何種編碼格式,都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。

        注意:區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。

        在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系,大概如下:

        最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語(yǔ)言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無(wú)法表示中文字符。

        1981年中國(guó)人民通過(guò)對(duì)ASCII編碼的中文擴(kuò)充改造,產(chǎn)生了GB2312編碼,可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了GBK編碼,它包括了GB2312中的編碼,同時(shí)擴(kuò)充了很多。中國(guó)又是個(gè)多民族國(guó)家,各個(gè)民族幾乎都有自己獨(dú)立的語(yǔ)言系統(tǒng),為了表示那些字符,繼續(xù)把GBK編碼擴(kuò)充為GB18030編碼。每個(gè)國(guó)家都像中國(guó)一樣,把自己的語(yǔ)言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無(wú)法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個(gè)叫ISO的組織看不下去了。他們一起創(chuàng)造了一種編碼UNICODE,這種編碼非常大,大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有UNICODE這種編碼系統(tǒng),無(wú)論是全球哪種文字,只需要保存文件的時(shí)候,保存成UNICODE編碼就可以被其他電腦正常解釋。UNICODE在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個(gè)標(biāo)準(zhǔn)UTF-8和UTF-16,分別每次傳輸8個(gè)位和16個(gè)位。于是就會(huì)有人產(chǎn)生疑問(wèn),UTF-8既然能保存那么多文字、符號(hào),為什么國(guó)內(nèi)還有這么多使用GBK等編碼的人?因?yàn)閁TF-8等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國(guó)人,用GBK等編碼也可以。

        也可以這樣來(lái)理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過(guò)二進(jìn)制形式存儲(chǔ),這種二進(jìn)制形式就是編碼。如果直接使用“字符串??字符??二進(jìn)制表示(編碼)”,會(huì)增加不同類(lèi)型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層,“字符串??字符??與存儲(chǔ)無(wú)關(guān)的表示??二進(jìn)制表示(編碼)”,這樣,可以用一種與存儲(chǔ)無(wú)關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,unicode就是“與存儲(chǔ)無(wú)關(guān)的表示”,utf—8就是“二進(jìn)制表示”。

        以上內(nèi)容為大家介紹了python亂碼背后的淵源,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://m.2667701.com/

        聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
        10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
        請(qǐng)您保持通訊暢通,專(zhuān)屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
        免費(fèi)領(lǐng)取
        今日已有369人領(lǐng)取成功
        劉同學(xué) 138****2860 剛剛成功領(lǐng)取
        王同學(xué) 131****2015 剛剛成功領(lǐng)取
        張同學(xué) 133****4652 剛剛成功領(lǐng)取
        李同學(xué) 135****8607 剛剛成功領(lǐng)取
        楊同學(xué) 132****5667 剛剛成功領(lǐng)取
        岳同學(xué) 134****6652 剛剛成功領(lǐng)取
        梁同學(xué) 157****2950 剛剛成功領(lǐng)取
        劉同學(xué) 189****1015 剛剛成功領(lǐng)取
        張同學(xué) 155****4678 剛剛成功領(lǐng)取
        鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
        董同學(xué) 138****2867 剛剛成功領(lǐng)取
        周同學(xué) 136****3602 剛剛成功領(lǐng)取
        相關(guān)推薦HOT
        Python2.x中的編碼問(wèn)題

        1.str和unicodestr和unicode都是basestring的子類(lèi)。嚴(yán)格意義上說(shuō),str其實(shí)是字節(jié)串,它是unicode經(jīng)過(guò)編碼后的字節(jié)組成的序列。對(duì)UTF-8編碼的str...詳情>>

        2023-11-07 10:44:45
        Python對(duì)象的創(chuàng)建

        python會(huì)用兩種方法創(chuàng)建對(duì)象,一種是泛型API(AOL:AbstractObjectLayer),可以應(yīng)用在任何Python對(duì)象上,API內(nèi)不會(huì)有機(jī)制確定最終調(diào)用哪個(gè)具體函...詳情>>

        2023-11-07 10:33:57
        Python的元組

        什么是python元組?java中可沒(méi)有聽(tīng)過(guò)內(nèi)置元組這樣的數(shù)據(jù)結(jié)構(gòu)。在前面已經(jīng)講了列表,知道一個(gè)列表可以存儲(chǔ)多個(gè)數(shù)據(jù)結(jié)構(gòu)。元組和列表很像,但要記...詳情>>

        2023-11-07 10:26:45
        python單元測(cè)試框架unittest

        unittest是python單元測(cè)試框架,又叫做PyUnit。之所以稱(chēng)為框架是它代替開(kāi)發(fā)人員完成了一些調(diào)用、IO等與單元測(cè)試無(wú)直接關(guān)系的支撐代碼,讓開(kāi)發(fā)人...詳情>>

        2023-11-07 09:57:57
        了解Python語(yǔ)言中的時(shí)間處理

        Python語(yǔ)言對(duì)于時(shí)間的處理繼承了C語(yǔ)言的傳統(tǒng),時(shí)間值是以秒為單位的浮點(diǎn)數(shù),記錄的是從1970年1月1日零點(diǎn)到現(xiàn)在的秒數(shù),這個(gè)秒數(shù)可以轉(zhuǎn)換成我們...詳情>>

        2023-11-07 09:21:57
        隆安县| 新昌县| 文登市| 宁陵县| 隆德县| 从江县| 全州县| 玉树县| 肃南| 顺义区| 朔州市| 大庆市| 瓦房店市| 富裕县| 团风县| 芦山县| 乐安县| 达拉特旗| 三门峡市| 清镇市| 靖江市| 启东市| 桐乡市| 石渠县| 岚皋县| 铅山县| 微山县| 台山市| 千阳县| 淮南市| 金堂县| 沐川县| 耒阳市| 五华县| 股票| 简阳市| 鄂托克旗| 威海市| 天津市| 泸西县| 武夷山市|