1. 程式人生 > >爬蟲:Re庫的match物件

爬蟲:Re庫的match物件

                                                              Match物件的屬性

屬性 說明
.string 待匹配的文字
.re 匹配時使用的pattern物件(正則表示式)
.pos 正則表示式搜尋文字的開始位置(第幾個位置,一般為0)
.endpos 正則表示式搜尋文字的結束位置(最後一個位置,即所處的第幾個字元)
>>> import re
>>> ls=re.search(r'[1-9]\d{5}','12345678')
>>> if ls:
	print(ls.group(0))

123456
>>> ls.pos
0          //開始位置為第0個字元開始,這裡的1為0
>>> ls.endpos
8        //數字8後面一個位置就是結束位置,因為從0開始數,8後面一個位置的角標為8
>>> ls.re
re.compile('[1-9]\\d{5}')
>>> ls.string
'12345678'

                                                                Match 物件的方法

方法 說明
.group(0) 獲得匹配後的字串
.start() 匹配字串在原始字串的開始位置
.end() 匹配字串在原始字串的結束位置
.span() 返回(.start(),.end())
>>> import re
>>> m=re.search(r'[1-9]\d{5}','BIT100081 tus100084')
>>> m.string
'BIT100081 tus100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
19
>>> m.group(0)
'100081'
>>> m.start()
3
>>> m.end()
9
>>> m.span()
(3, 9)