Python3 正則表示式中group()方法獲得匹配結果

阿新 • • 發佈：2018-12-22

正則表示式中用match()方法可以獲得匹配的字串內容。

如果想從字串中提取出一部分內容，可以用括號將提取目標括起來。

括號()實際上標記了一個子表示式的開始和結束的位置，被標記的每個子表示式會依次對應每個分組，呼叫group()方法傳入分組的索引即可獲得提取的結果。

注意：group()方法的分組索引從1開始；預設索引為0，表示匹配到的結果。

groups()方法則是所有分組（索引從1開始）組成的元組。

匹配物件方法	描述
group(num=0)	匹配的整個表示式的字串，group() 可以一次輸入多個組號，在這種情況下它將返回一個包含那些組所對應值的元組。
groups()	返回一個包含所有小組字串的元組，從 1 到所含的小組號。

例1：

import re


content = 'Hello 123456789 Word_This is just a test 666 Test'
result = re.match('^Hello\s(\d+).*?Test', content)  # 注意(\d+) 有括號，+號表示匹配一次或多次

print(result)
print(result.group())    # print(result.group(0)) 同樣效果
print(result.groups())

print(result.span())     
print(result.group(1))

結果：

<_sre.SRE_Match object; span=(0, 49), match='Hello 123456789 Word_This is just a test 666 Test>
Hello 123456789 Word_This is just a test 666 Test
('123456789',)
(0, 49)
123456789

Process finished with exit code 0

可以看到group()是匹配到的結果，group(1)就是 (\d+) 匹配到的數字 123456789，groups()是只有group(1)的元組。

如果正則表示式中還有（），則結果還會有group(2)等，groups()中就是group(1)、group(2)、...group(n)等組成的元組。

例2：

import re


content = 'Hello 123456789 Word_This is just a test 666 Test'
result = re.match('^Hello\s(\d+).*?(\d+)\sTest', content)  # 注意第2個(\d+)前面是非貪婪模式

print(result)
print(result.group())    # print(result.group(0)) 同樣效果
print(result.groups())

print(result.span())
print(result.group(1))
print(result.group(2))

結果：

<_sre.SRE_Match object; span=(0, 49), match='Hello 123456789 Word_This is just a test 666 Test>
Hello 123456789 Word_This is just a test 666 Test
('123456789', '666')
(0, 49)
123456789
666

Process finished with exit code 0

可以看到第2個 (\d+) 匹配到的是 666，也就是group(2)中的內容，groups()中是有group(1)和group(2)的元組。

例3：貪婪模式下的匹配，將例2中的 .*? 改為 .*

import re


content = 'Hello 123456789 Word_This is just a test 666 Test'
result = re.match('^Hello\s(\d+).*(\d+)\sTest', content)  # 注意第2個(\d+)前面是貪婪模式

print(result)
print(result.group())    # print(result.group(0)) 同樣效果
print(result.groups())

print(result.span())
print(result.group(1))
print(result.group(2))

結果：

<_sre.SRE_Match object; span=(0, 49), match='Hello 123456789 Word_This is just a test 666 Test>
Hello 123456789 Word_This is just a test 666 Test
('123456789', '6')
(0, 49)
123456789
6

Process finished with exit code 0

可以看到貪婪模式下 group(2)中的 666 變為了6，前面的2個6被“貪婪”了，僅匹配 (\d+)中的最低要求，即匹配一個數字。

在做匹配時，字串中間儘量使用非貪婪模式。

例4：非貪婪模式.*? 的位置

(1)在字串末尾就有可能匹配不到任何內容：

import re


content = 'Hello 123456789 Word_This is just a test 666 Test'
result = re.match('^Hello\s(\d+).*?(\d+).*?', content)  # 注意正則表示式末尾處的非貪婪模式.*?

print(result)
print(result.group())

結果：

<_sre.SRE_Match object; span=(0, 44), match='Hello 123456789 Word_This is just a test 666'>
Hello 123456789 Word_This is just a test 666

Process finished with exit code 0

(2) 當貪婪模式.*在末尾時：

import re


content = 'Hello 123456789 Word_This is just a test 666 Test'
result = re.match('^Hello\s(\d+).*?(\d+).*', content)  # 注意正則表示式末尾處的貪婪模式.*

print(result)
print(result.group())

結果：

<_sre.SRE_Match object; span=(0, 49), match='Hello 123456789 Word_This is just a test 666 Test>
Hello 123456789 Word_This is just a test 666 Test

Process finished with exit code 0

通過對比，可以發現貪婪模式在正則表示式的末尾時匹配到了666後面的內容，而非貪婪模式則沒有匹配666後面的內容。

參考：

《Python3網路爬蟲開發實戰》，崔慶才著，3.3，p139-145.

Python3 正則表示式中group()方法獲得匹配結果

正則表示式中用match()方法可以獲得匹配的字串內容。如果想從字串中提取出一部分內容，可以用括號將提取目標括起來。括號()實際上標記了一個子表示式的開始和結束的位置，被標記的每個子表示式會依次對應每個分組，呼叫group()方法傳入分組的索引即可獲得提取的結果。

正則表示式中group和groups的區別

第一點，搞清楚它們用在什麼地方？正則表示式中，group（）用來提取分組截獲的字串，（）用來分組。組是通過 "(" 和 ")" 元字元來標識的。 "(" 和 ")" 有很多在數學表示式中相同的意思；它們一起把在它們裡面的表示式組成一組。舉個例子，你可以用重複限制符

正則表示式中的的向前匹配、向後匹配、負向前匹配、負向後匹配寫法

比如我們要匹配下面這個語句中的“<”後面不是“br>”的“<”： <div>line1</div> <br> 這個正則表示式這麼寫： /<(?!br>)/ 如果我們只匹配後面為“br>”的“<”

正則表示式中常用字串方法

1，search()用於檢索字串中指定的子字串，或檢索與正則表示式相匹配的子字串，並返回子串的起始位置。search()方法不支援全域性搜尋，因為會忽略正則表示式引數的標識g，並且也忽略了regexp的lastIndex屬性，總是從字串的開始位置進行檢索，所以它會總是返回str的第一個匹配的位置。 &n

正則表示式中Pattern類、Matcher類和matches()方法簡析

1.簡介： java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。它包括兩個類：Pattern和Matcher 。 Pattern：一個Pattern是一個正則表示式經編譯後的表現模式。 Matcher：一個Matcher物件

JS正則表示式中常用的方法

正則常用的符號知識點限定符 * 表示前面的表示式出現0次到多次{0,} + 表示前面的表示式出現一次到多次{1,} ？最少0次，最多一次（可以阻止貪婪模式）{0,1} {} 更加明確的表示前面的表示式出現的次數其它 . 表示的是除

C# 中使用正則表示式 Regex.Matches方法的幾個應用

用於正則表示式的 Regex.Matches靜態方法的幾種用法： //①正則表示式 = > 匹配字串 string Text = @"This is a book , this is my book , Is not I

qt中的正則表示式QRegExp使用大全以及匹配中括號[]方法大全

Qt的SDK裡包含一個很幫的GUI工具，可以方便我們進行這類轉換並測試你的表示式。可以按照如下的方式開啟：“開始”->“程式”->“Qt SDK by Nokia v2010.02.1 (open source)”->“QtDemo”->“To

python3 正則表示式(更新中）

1、特殊符號(先解釋，後面會有例子）表示描述 re1|re2 或的關係 . 匹配任何字元（\n除外），要顯示的匹配.號，需要加\| ^ 匹配字串

python正則表示式中的分組 group

組是通過 "(" 和 ")" 元字元來標識的。 "(" 和 ")" 有很多在數學表示式中相同的意思；它們一起把在它們裡面的表示式組成一組。舉個例子，你可以用重複限制符，象 *, +, ?, 和 {m,n}，來重複組裡的內容，比如說(ab)* 將匹配零或更多個重複的 "ab

2018年最新電話號碼正則表示式校驗方法

正則表示式 ^1(3[0-9]|4[57]|5[^4]|6[6]|7[0-8]|8[0-9]|9[8-9])\\d{8}$ iOS使用方法 + (BOOL)checkPhoneNumber:(NSString *)phoneNumber{ /* ** 電訊號

js正則表示式中關於零寬斷言的奇異現象

碰到一個特別的需求，就是有一段Sql Server 的 SQL片段，內容大概就是所有JOIN表的集合，要求把這個SQL片段分割成陣列，每個元素就是包含單個表的字串。例如： SQL = INNER JOIN Sale b ON 1=1 LEFT JOIN OutStock c

爬蟲第一課：正則表示式符號與方法

第一課：正則表示式符號與方法１． . :匹配任意字元，換行符除外： >>> import re >>> a='xy123' >>> b=re.findall('x',a) >>> b ['x'] >

正則表示式matcher.group用法--轉自winter8

正則表示式matcher.group用法部落格分類：演算法本貼來自 http://hi.baidu.com/cnjsp/blog/item/f5449d824c5102

php 正則表示式中的 .*? 表示什麼意思

我們知道我 .* 是任意字元，有的時候比較困惑在加個?什麼意思。 ?是非貪婪模式.*會匹配後面的一切字元，就是到結束的意思加？後就是不貪婪模式，這時要看？後邊的字元是什麼了，如.*?"的意思是遇到雙引號則匹配結束例如：現在我要匹配出圖片中的src，圖片格式為："圖片01<img src='ht

Python3 正則表示式語法整理

^ ：匹配輸入字串的開始位置（或在多行模式下行的開頭，即緊隨一換行符之後） . ：匹配除了換行符 \n 外的任意一個字元：匹配0次、1次或多次其前的原子 $ ：匹配輸入字串的結束位置（或在多行模式下

關於python正則表示式中匹配分組的問題

在爬取網頁資訊時，我們不妨會用到Python正則表示式。之前一直沒有太明白關於正則表示式匹配分組的問題，今天終於搞清楚了，所以特意寫一下讓自己印象深刻。 myPage = requests.get(url).content.decode("gbk") 通過requests我們在網頁得到了這樣

正則表示式中如何新增變數

如果給義一個字串或是陣列加入變數，是非常簡單的事情，但是我們不能用這種常規思維來給正則表示式加入變數，比如 var param = 3; var reg = "/^[0-9]+"+param+"[a-z]+$/"; ✘ var reg = /^[0-9]+"+param+"[a-z]+$

python3正則表示式疑點記錄

python正則表示式的以下幾個表示式比較疑惑，想清楚之後記錄如下： 1、pythopn正則常用的搜尋模組主要是re.findall()和re.search()，通常情況下有兩種使用方式。通過建立正則類:re.complie()來進行匹配，或者直接使用re.findall()和re.search

正則表示式中的模式，函式，及使用規則

一、正則表示式轉義正則中的特殊符號： . * ? $ [] {} () | \ 正則表示式匹配特殊字元如果需要加 \ 表達轉義，比如： pattern

Python3 正則表示式中group()方法獲得匹配結果

相關推薦