1. 程式人生 > 程式設計 >一篇文章帶你入門Python正則表示式

一篇文章帶你入門Python正則表示式

目錄
  • 3 正則表示式
    • 1.match函式
    • 2.search函式
    • search和match的區別
    • 3. sub函式
    • 4.compile函式
  • 5.findall
    • 6.finditer
    • 7.split
  • 總結

    Python3 正則表示式

    正則表示式是一個特殊的字元序列,它能幫助你方便的檢查一個字串是否與某種模式匹配。本文主要闡述re包中的主要函式。

    在闡述re包中的函式之前,我們首先看議案正則表示式的模式,即使用特殊的語法來表示一個正則表示式。

    Image Name

    Image Name

    1.match函式

    • re.match 嘗試從字串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。
    • 函式用法:re.match(pattern,string,flags=0)
    • pattern: 所要匹配的正則表示式string: 要匹配izzYwz的字串flags: 標誌位,用於控制正則表示式的匹配方式,如:是否區分大小寫,多行匹配等等。
      • re.I 忽略大小寫
      • re.L 表示特殊字符集 \w,\W,\b,\B,\s,\S 依賴於當前環境
      • re.M 多行模式re.S 即為' . ‘並且包括換行符在內的任意字元(' . '不包括換行符)
      • re.U 表示特殊字符集 \w,\d,\D,\S 依賴於 Unicode 字元屬性
      • re.X 為了增加可讀性,忽略空格和' # '後面的註釋

    匹配物件方法:

    • group(num=0): 匹配的整個表示式的字串,group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。
    • groups(): 返回一個包含所有小組字串的元組,從 1 到 所含的小組號。
    import re
    print(re.match("xixi","xixi_haha_heihei").group())
    
    xixi
    
    line = 'Cats are smarter than dogs'
    b = re.match(r'(.*) are (.*?) .*',line,re.M|re.I)
    
    print(b.group()) # 返回所有
    print(b.group(1)) # 返回第一組,即(.*)對應的
    print(b.group(2)) # 返回第二組,即(.*?)對應的
    
    Cats are smarter than dogs
    Cats
    http://www.cppcns.comsmarter
    

    2.search函式

    re.search 掃描整個字串並返回第一個成功的匹配。

    函式用法:re.search(pattern,flags=0)

    print(re.match('heihei','xixi_haha_heihei'))
    print(re.search('heihei','xixi_haha_heihei').group())
    
    None
    heihei
    
    line = 'Cats are smarter than dogs'
    b = re.search(r'(.*) are (.*?) .*',re.M|re.I)
    
    print(b.group()) # 返回所有
    print(b.group(1)) # 返回第一組,即(.*)對應的
    print(b.group(2)) # 返回第二組,即(.*?)對應的
    
    Cats are smarter than dogs
    Cats
    smarter
    

    search和match的區別

    match只匹配字串的開始,如果字串開始不符合正則表示式,則匹配失敗,函式返回None;而search匹配整個字串,直到找到一個匹配。

    3. sub函式

    re提供了re.sub來替換字串中的匹配項。
    函式用法:re.sub(pattern,repl,count=0,flags=0)

    • pattern : 正則中的模式字串。
    • repl : 替換的字串,也可為一個函式。
    • string : 要被查詢替換的原始字串。
    • count : 模式匹配後替換的最大次數,預設 0 表示替換所有的匹配。
    • flags : 編譯時用的匹配模式,數字形式。
    phone = '133-3333-3333  # this is a phone number'
    
    num = re.sub(r'#.*$','',phone)
    print('phone num',num)
    # 移除註釋,找到以#開頭的。
    
    num = re.sub(r'\D',num)
    # 移除非數字內容
    
    phone num 133-3333-3333  
    phone num 13333333333
    

    repl是函式的情況

    def double(matched):
        value = int(matched.group('value'))
        return str(value * 2)
    
    s = 'A233Sfd34'
    print(re.sub('(?P<value>\d+)',double,s))
    
    A466Sfd68
    

    4.compile函式

    compile 函式用於編譯正則表示式,生成一個正則表示式( Pattern )物件,供 match() 和 search() 這兩個函式使用。
    函式使用:http://www.cppcns.comre.compile(pattern,flags)

    pattern = re.compile(r'/d+')
    m = pattern.match('ones123412')
    print(m)
    
    None
    

    5.findall

    在字串中找到正則表示式所匹配的所有子串,並返回一個列表,如果沒有找到匹配的,則返回空列表。
    注意:match和search是匹配一次,但是findall是匹配所有。

    函式使用:findall(string,pos,endpos)

    • string 待匹配的字串。
    • pos 可選引數,指定字串的起始位置,預設為 0。
    • endpos 可選引數,指定字串的結束位置,預設為字串的長度。
    pattern = re.compile(r'\d+')
    result1 = pattern.findall('xixixix 123 heihiehei 456')
    result2 = pattern.findall('xixixix 123 heihiehei 456',15)
    
    print(result1)
    print(result2)
    
    ['123','456']
    ['123']
    

    6.finditer

    和 findall 類似,在字串中找到正則表示式所匹配的所有子串,並把它們作為一個迭代器返回。

    ittt = re.finditer(r'\d+','12dsfasdf123asdf534')
    for ttt in ittt:
        print(ttt.group())
    
    12
    123
    534
    

    7.split

    split 方法按照能夠匹配的子串將字串分割後返回列表。

    函式使用:

    re.split(pattern,maxsplit=0,flags=0)

    • pattern: 匹配的正則表示式
    • string: 要匹配的字串。
    • maxsplit: 分隔次數,maxsplit=1 分隔一次,預設為 0,不限制次數。
    • flags: 標誌位,用於控制正則表示式的匹配方式,
    print(re.split('\W+','xxixix,xixixi,hehiehei'))
    print(re.split('(\W+)',' xxixix,hehiehei'))
    
    ['xxixix','xixixi','hehiehei']
    ['',' ','xxixix',','hehiehei']
    

    總結

    本篇文章就到這裡了,希望能夠給你帶來幫助,也希望您能夠多多關注我們的更多內容!