一、re.match簡介
re是Python正則表達(dá)式模塊,它提供了一種方便的方式來使用正則表達(dá)式。
re模塊中的match()方法是最常用的方法。re.match()方法只匹配字符串的開始部分,如果字符串開始部分不匹配,則整個(gè)匹配失敗,函數(shù)返回None。
match()方法的語法如下:
re.match(pattern, string, flags=0)
其中,pattern表示要匹配的正則表達(dá)式,string表示要匹配的字符串,flags是一個(gè)可選參數(shù),用于控制正則表達(dá)式的匹配方式。
二、re.match方法的返回值
當(dāng)re.match()方法匹配成功,返回一個(gè)匹配對象;如果匹配失敗,則返回None。
匹配對象有許多屬性和方法,可以幫助我們進(jìn)一步處理匹配結(jié)果。
當(dāng)使用match()方法匹配成功后,可以通過group()方法獲取匹配的結(jié)果。例如:
import re text = "hello, world" pattern = "hello" result = re.match(pattern, text) print(result.group()) # 輸出:hello
此處,首先定義了一個(gè)字符串text和一個(gè)正則表達(dá)式pattern,然后使用match()方法對text字符串進(jìn)行匹配。由于text字符串的開始部分包含了正則表達(dá)式pattern的內(nèi)容,所以返回了一個(gè)匹配對象result。最后,使用group()方法獲取匹配到的結(jié)果“hello”。
需要注意的是,如果正則表達(dá)式中使用了分組,可以通過group()方法獲取分組匹配到的結(jié)果。例如:
import re text = "hello, world" pattern = "(he)(lo)" result = re.match(pattern, text) print(result.group()) # 輸出:hello print(result.group(1)) # 輸出:he print(result.group(2)) # 輸出:lo
三、re.match方法的用法示例
1、使用re.match()方法驗(yàn)證身份證號碼格式是否正確
身份證號碼一般由18位數(shù)字組成,其中最后一位可以是數(shù)字或者X。下面是一個(gè)驗(yàn)證身份證號碼格式是否正確的示例:
import re def check_id(id_num): pattern = r"^\d{17}(\d|X)$" result = re.match(pattern, id_num) if result: return True else: return False id_num1 = "370781199912011234" id_num2 = "37078119991201123X" id_num3 = "37078119991201123Y" print(check_id(id_num1)) # 輸出:True print(check_id(id_num2)) # 輸出:True print(check_id(id_num3)) # 輸出:False
該示例中,使用了正則表達(dá)式“^\d{17}(\d|X)$”來匹配身份證號碼。其中,^表示字符串開頭,\d表示數(shù)字,{17}表示匹配前面的\d重復(fù)17次,(\d|X)表示匹配一個(gè)數(shù)字或者X,$表示字符串結(jié)尾。如果匹配成功,返回True;否則,返回False。
2、使用re.match()方法獲取HTML頁面中的所有鏈接
下面是一個(gè)示例,用于從HTML頁面中獲取所有鏈接:
import re import urllib.request def extract_links(url): # 讀取網(wǎng)頁內(nèi)容 with urllib.request.urlopen(url) as f: content = f.read().decode('utf-8') # 提取所有鏈接 pattern = r'href=[\'"](.*?)[\'"]' links = re.findall(pattern, content) return links url = "http://www.baidu.com/" links = extract_links(url) for link in links: print(link)
該示例中,首先使用urllib庫訪問URL,然后使用正則表達(dá)式提取鏈接地址。正則表達(dá)式“href=[\'"](.*?)[\'"]”用于匹配HTML頁面中的鏈接地址。其中,.*?表示匹配任意字符(不包括換行符)任意次,?表示盡可能少地匹配。輸出所有獲取到的鏈接地址。
3、使用re.match()方法替換字符串中的數(shù)字為星號
下面是一個(gè)示例,用于將字符串中的數(shù)字替換為星號:
import re def replace_number(text): pattern = r'\d' result = re.sub(pattern, "*", text) return result text = "123abc456def789ghi" result = replace_number(text) print(result) # 輸出:“***abc***def***ghi”
該示例中,首先定義了一個(gè)字符串text,然后使用正則表達(dá)式“\d”匹配數(shù)字。使用re.sub()方法將匹配到的數(shù)字替換為星號,最后返回替換后的字符串。