python re.match（）用法相關正則表示式

阿新 • • 發佈：2020-09-12

學習python爬蟲時遇到了一個問題，書上有示例如下：

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?).*',line)

if matchObj:
    print('matchObj.group():',matchObj.group())
    print('matchObj.group(1):', matchObj.group(1))
    print('matchObj.group(2):', matchObj.group(2))
else:
    print('No match!\n 
')

書上的期望輸出是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):smarter

但是我在電腦上跑了一遍得到的輸出卻是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):

於是開始想辦法徹底搞清楚這個差別的原因所在。

首先要讀懂這幾行程式碼，而這一行程式碼的關鍵在於這一句：

matchObj=re.match(r'(.*)are(.*?).* 
',line)

匹配的正則表示式是

(.*)are(.*?).*
前面的r表示的是匹配的字元不進行轉義，而要匹配的字串是line，也就是

Cats are smarter than dogs
後面使用group（num），個人理解是，按照正則表示式中的括號數可以捕獲得到對應數量的捕獲組，而呼叫group（num）就可以得到對應捕獲組的內容，
其中group（0）表示的是匹配的整個表示式的字串，在本例中就是‘Cats are smarter than dogs’。
參照網上可以搜到的符號的作用：
.匹配除換行符以外的任意字元
*重複之前的字元零次或更多次
？重複之前的字元零次或一次
那麼第一個括號的內容，應當就是匹配要匹配的字串中are之前的所有字元（除換行符），
而第二個括號的內容應當是匹配are之後的內容，但具體想指代什麼卻顯得有些不明確。
不明確的點就在於*和？這兩個符號的連用，根據優先順序這兩個符號是同一優先順序的，那麼應當按照順序生效，那麼如此翻譯的話，這一語句匹配的就是長度為0到無限大的任意字串，為了探清此時
程式判斷的具體內容，我們給匹配字串末尾的.*也加上括號以提取其內容，而後在輸出部分加上對應語句：

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?)(.*)',line)

if matchObj:
    print("matchObj.group():",matchObj.group())
    print("matchObj.group(1):", matchObj.group(1))
    print("matchObj.group(2):", matchObj.group(2))
    print("matchObj.group(3):", matchObj.group(3))
else:
    print('No match!\n')

得到的結果是：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2): 
matchObj.group(3):  smarter than dogs

可見第二個括號裡的內容被預設為空了，然後刪去那個？，可以看到結果變成：

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats 
matchObj.group(2):  smarter than dogs
matchObj.group(3):

那麼這是否就意味著？的預設值很可能是0次，那？這個符號到底有什麼用呢

今天歇了，明天再研究

python re.match（）用法相關正則表示式

學習python爬蟲時遇到了一個問題，書上有示例如下： import re line=\'Cats are smarter than dogs\'

正則匹配問號_學Python一定要過的神奇坎---正則表示式（超詳細）

技術標籤：正則匹配問號用正則表示式查詢電話號碼(d在正則中表示0-9中任一數字)

RegExp正則表示式（三）–js中正則表示式的定義

在js中，RegExp正則表示式的定義有兩種方式：一種是普通方式，另一種是建構函式方式。無論是那種定義正則表示式的方式，它們都會返回RegExp物件。

PowerShell命令與指令碼（12）——文字和正則表示式

PowerShell定義文字使用引號可以定義字串，如果想讓自己定義的字串原樣輸出，可以使用單引號。

Python程式設計快速上手——strip()函式的正則表示式實現方法分析

本文例項講述了Python strip()函式的正則表示式實現方法。分享給大家供大家參考，具體如下：

python學習-第十二週：正則表示式

python學習-第十二週：正則表示式簡介 Re 正則表示式正則表示式，就是使用字元，轉義字元和特殊字元組成一個規則，

python之軟體開發目錄規範、正則表示式

目錄一、軟體開發目錄規範二、正則表示式簡介三、正則表示式之字元組四、正則表示式之特殊符號

python正則表示式（re使用）

python正則表示式（re模組）　　跟之前在js中所見到的正則表示式是類似的一：re的常用操作符：

Python的正則表示式（re包）

1.正則表示式的模式 1）單個字元: .任意的一個字元 a|b字元a或字元b [afg]a或者f或者g的一個字元

python的re（正則表示式）

python re import re s = \'\'\'bottle\\nbag\\nbig\\napple\'\'\' for i,c in enumerate(s, 1): print((i-1, c), end=\"\\n\" if i%8==0 else \' \')

Python re正則表示式元字元分組()用法分享

分組小括號() 有直接分組和命名分組直接分組:()分組只顯示小括號括起來的內容

Python基礎最難知識點：正則表示式（使用步驟）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

正則表示式re模組的高階用法——Python

search findall sub 將匹配到的資料進行替換需求：匹配出文章閱讀的次數 #coding=utf-8

python-re模組（compile，findall：查詢結果是列表，sub：替換所有符合條件的元素，serach：查詢結果是一個元素 #字串以空格為分割元素）

# ①：單獨使用findall import re v3 = re.findall(r\"html$\", \"https://docs.python.org/3/whatsnew/3.6.html\")v2 = re.findall(r\"^http\", \"https://docs.python.org/3/whatsnew/3.6.html\")v1 = re.findall(

python中的正則表示式（三）

1.randint（20,30）在20到30中生成隨機數，其中包含20,30 2. dtint = randint(1000000000,1200000000) #生成時間戳在1000000000,1200000000中間隨機生成一串數字dtstr = ctime(dtint)#將時間戳轉化為特定時間格式