使用python寫(xiě)字符串常量時(shí),rawstring是個(gè)很好用的東東,比如在C里我要寫(xiě)一個(gè)Windows下的路徑,得這么
寫(xiě):
char*path="C:\\mydir\\myfile.txt";
用"\\"來(lái)轉(zhuǎn)義成一個(gè)反斜杠字符。而在python下用rawstring就不用這么麻煩了:
path=r"C:\mydir\myfile.txt"
一個(gè)r搞定,是不是很簡(jiǎn)單?
真的這么簡(jiǎn)單嗎?未必。試試如果要指定一個(gè)目錄名呢?
>>>path=r"C:\mydir\mysubdir\"
File"",line1
path=r"C:\mydir\mysubdir\"
^
SyntaxError:EOLwhilescanningsingle-quotedstring
出錯(cuò)了吧。
這是一個(gè)常見(jiàn)的陷阱,在使用rawstring時(shí),反斜杠雖然不再做轉(zhuǎn)義用,但它仍然保留了一部分“魔力”——保護(hù)字符串。如>>>printr"abc\"xyz"abc\"xyz
在反斜杠之后的那個(gè)引號(hào)由于反斜杠的魔力,不被視為字符串終結(jié)。那么對(duì)應(yīng)到開(kāi)頭那個(gè)路徑r"C:\mydir\mysubdir\",最后那個(gè)引號(hào)也是由于反斜杠的魔力,不被視為終結(jié),python認(rèn)為其后應(yīng)該還有東西,結(jié)果沒(méi)有,就報(bào)錯(cuò)了。
那豈不是用rawstring寫(xiě)Windows路徑就很不方便了嗎?
答案是:rawstring本來(lái)就不是為了方便寫(xiě)Windows路徑而設(shè)計(jì)的,而是為了方便寫(xiě)正則表達(dá)式設(shè)計(jì)的。在正則表達(dá)式中,反斜杠是轉(zhuǎn)義字符,因此不可能出現(xiàn)以反斜杠結(jié)尾的正則表達(dá)式。
Windows路徑的“正統(tǒng)”寫(xiě)法應(yīng)該是:
path=os.path.normcase("c:/mydir/mysubdir/")
os.path.normcase在Windows平臺(tái)下會(huì)自動(dòng)把正斜杠轉(zhuǎn)換成反斜杠。
由于正則表達(dá)式使用反斜杠來(lái)轉(zhuǎn)義特殊字符,而python自身處理字符串時(shí),反斜杠也是用于轉(zhuǎn)義字符,這樣就產(chǎn)生了一個(gè)雙重轉(zhuǎn)換的問(wèn)題,要匹配字符串中1個(gè)反斜杠應(yīng)該怎么寫(xiě)正則表達(dá)式?"\\",這樣行嗎?試試就知道了,re模塊拋異常了,因?yàn)?\\"就是一個(gè)反斜杠,對(duì)于正則表達(dá)式解析器來(lái)說(shuō),是一個(gè)轉(zhuǎn)義字符,但是后面啥也沒(méi)有,自然就報(bào)錯(cuò)了,"\\\"三個(gè)肯定是不行的,試試四個(gè)"\\\\",完美匹配。
viewplaincopytoclipboardprint?
importre
re_str_patt="\\\\"
reObj=re.compile(re_str_patt)
str_test="abc\\cd\\hh"
printreObj.findall(str_test)
importre
re_str_patt="\\\\"
reObj=re.compile(re_str_patt)
str_test="abc\\cd\\hh"
printreObj.findall(str_test)
輸出:['\\','\\']
這里要這么理解,首先第一重轉(zhuǎn)換是字符串自身的轉(zhuǎn)義,那么"\\\\",實(shí)際上就是表示兩個(gè)反斜杠(兩個(gè)字符),然后傳入正則表達(dá)式解析器,因?yàn)榉葱备芤廊皇寝D(zhuǎn)義字符,那么進(jìn)行第二重轉(zhuǎn)換,兩個(gè)反斜杠就代表一個(gè)反斜杠,所以就能和一個(gè)反斜杠進(jìn)行匹配了,那么匹配連續(xù)的兩個(gè)反斜杠,寫(xiě)正則表達(dá)式時(shí)就要寫(xiě)8次"\"了,相當(dāng)壯觀,要匹配/d+(這個(gè)在正則表達(dá)式里面表示連續(xù)1一個(gè)以上的數(shù)字字符)這個(gè)字符串怎么寫(xiě)呢?
viewplaincopytoclipboardprint?
importre
re_str_patt="\\\\d\\+"
printre_str_patt
reObj=re.compile(re_str_patt)
printreObj.findall("\\d+")
importre
re_str_patt="\\\\d\\+"
printre_str_patt
reObj=re.compile(re_str_patt)
printreObj.findall("\\d+")
寫(xiě)成re_str_patt="\\\\d\+"也行,因?yàn)閈+對(duì)于字符串來(lái)說(shuō),沒(méi)有轉(zhuǎn)義意義,所以就當(dāng)成一個(gè)反斜杠了。
在python中寫(xiě)正則表達(dá)式時(shí)用得最多的是raw字符串,原生字符串,什么意思?就是只有一重轉(zhuǎn)換了,沒(méi)有字符串轉(zhuǎn)換了,只在正則表達(dá)式內(nèi)部進(jìn)行轉(zhuǎn)換了,這樣匹配一個(gè)反斜杠的正則表達(dá)式可以這樣寫(xiě),re_str_patt=r"\\",有人會(huì)想,以后寫(xiě)windows的文件路徑什么的方便了,呵呵直接path=r"c:\myforder\xx"搞定,是的,這句沒(méi)有問(wèn)題,但是如果你寫(xiě)成path=r"c:\myforder\xx\",直接報(bào)錯(cuò)了,為什么?因?yàn)榉葱备茈m然不作為轉(zhuǎn)義字符了,但是還是對(duì)它后面的引號(hào)(包括單引號(hào))有影響,使這個(gè)引號(hào)不被視為字符串的終止,以為它后面還有字符,但是實(shí)際沒(méi)有,因此會(huì)報(bào)錯(cuò)。其實(shí)可以反過(guò)來(lái)想raw字符串里面要表示引號(hào)怎么辦呢?,可以發(fā)現(xiàn)path=r"\\123\"xxx"是可以的,那用raw字符串豈不是有局限性?不過(guò)raw在設(shè)計(jì)之初就是用來(lái)支持正則表達(dá)式的,而在正則里面反斜杠是轉(zhuǎn)義字符,所以不可能出現(xiàn)在字符串的末尾的,所以建議不要圖方便在其他的地方使用raw。
以上內(nèi)容為大家介紹了python中的反斜杠,希望對(duì)大家有所幫助,如果想要了解更多Python相關(guān)知識(shí),請(qǐng)關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。http://m.2667701.com/