1. 程式人生 > >【spider03】正則表示式

【spider03】正則表示式

什麼是正則表示式

正則表示式是對字串操作的一種邏輯公式,就是用實現定義好的一些特定字元、及這些特定字元的組合,組成一個“規則字串”,這個“規則字串”用來表達對字串的一種過濾邏輯。

非Python獨有,re模組實現

常見匹配模式

^ 匹配字串的開頭

$ 匹配字串的末尾。

. 匹配任意字元,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字元。

[…] 用來表示一組字元,單獨列出:[amk] 匹配 ‘a’,‘m’或’k’

[^…] 不在[]中的字元:[^abc] 匹配除了a,b,c之外的字元。

re* 匹配0個或多個的表示式。

re+ 匹配1個或多個的表示式。

re? 匹配0個或1個由前面的正則表示式定義的片段,非貪婪方式

re{ n} 精確匹配 n 個前面表示式。例如, o{2} 不能匹配 “Bob” 中的 “o”,但是能匹配"food" 中的兩個 o。

re{ n,} 匹配 n 個前面表示式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配"foooood"中的所有 o。“o{1,}” 等價於 “o+”。“o{0,}” 則等價於 “o*”。

re{ n, m} 匹配 n 到 m 次由前面的正則表示式定義的片段,貪婪方式

a| b 匹配a或b

(re) 匹配括號內的表示式,也表示一個組

(?imx) 正則表示式包含三種可選標誌:i, m, 或 x 。隻影響括號中的區域。

(?-imx) 正則表示式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。

(?: re) 類似 (…), 但是不表示一個組

(?imx: re) 在括號中使用i, m, 或 x 可選標誌

(?-imx: re) 在括號中不使用i, m, 或 x 可選標誌

(?#…) 註釋.

(?= re) 前向肯定界定符。如果所含正則表示式,以 … 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表示式已經嘗試,匹配引擎根本沒有提高;模式的剩餘部分還要嘗試界定符的右邊。

(?! re) 前向否定界定符。與肯定界定符相反;當所含表示式不能在字串當前位置匹配時成功

(?> re) 匹配的獨立模式,省去回溯。

\w 匹配字母數字及下劃線

\W 匹配非字母數字及下劃線

\s 匹配任意空白字元,等價於 [\t\n\r\f].

\S 匹配任意非空字元

\d 匹配任意數字,等價於 [0-9].

\D 匹配任意非數字

\A 匹配字串開始

\Z 匹配字串結束,如果是存在換行,只匹配到換行前的結束字串。

\z 匹配字串結束

\G 匹配最後匹配完成的位置。

\b 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, ‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。

\B 匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。

\n, \t, 等. 匹配一個換行符。匹配一個製表符。等

\1…\9 匹配第n個分組的內容。

\10 匹配第n個分組的內容,如果它經匹配。否則指的是八進位制字元碼的表示式。

re.I 使匹配對大小寫不敏感

re.L 做本地化識別(locale-aware)匹配

re.M 多行匹配,影響 ^ 和 $

re.S 使 . 匹配包括換行在內的所有字元

re.U 根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B.

re.X 該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解。

re.match

re.match 嘗試從字串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none

re.match(pattern,string,flags=0)

最常規的匹配

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d{3}\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group())
print(result.span())
41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

泛匹配

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())
41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

匹配目標

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\s(\d+)\s\w{10}.*Demo$',content)
print(result)
print(result.group(1))
print(result.group(2))
print(result.span())
41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
123
4567
(0, 41)

貪婪匹配

import re

content = ‘Hello 1234567 World_This is a Regex Demo’ result = re.match(’^He.*(\d+).*Demo$’,content) print(result) print(result.group(1))#.*會盡可能匹配多的字元

非貪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))#.*會盡可能匹配少的字元
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

匹配模式

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group(1))
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
1234567

轉義

import re

content = "price is $5.00"
result = re.match("price is $5.00",content)
print(result)#特殊字元
result_ = re.match("price is \$5\.00",content)
print(result_)
None
<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>

總結:儘量使用泛匹配,使用括號得到匹配目標,儘量使用非貪婪模式,有換行符就用re.$

re.search

re.search 掃描整個字串並返回第一個成功的匹配。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('He.*?(\d+).*Demo',content)
print(result)#re.match 必須限定頭部
None
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('He.*?(\d+).*Demo',content)
print(result)
print(result.group(1))

總結:為匹配方便,能用search就不用match

匹配演練

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
if result:
    print(result.group(1),result.group(2))
齊秦 往事隨風
import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
if result:
    print(result.group(1),result.group(2))#把re.S去掉後無法識別換行符
beyond 光輝歲月

re.findall

搜尋字串,以列表形式返回全部能匹配的字串

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])
[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但願人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風')
/3.mp3 齊秦 往事隨風
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但願人長久')
/6.mp3 鄧麗君 但願人長久
import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
for result in results:
    print(result[1])
[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任賢齊">', '滄海一聲笑', '</a>'), ('<a href="/3.mp3" singer="齊秦">', '往事隨風', '</a>'), ('<a href="/4.mp3" singer="beyond">', '光輝歲月', '</a>'), ('<a href="/5.mp3" singer="陳慧琳">', '記事本', '</a>'), ('<a href="/6.mp3" singer="鄧麗君">', '但願人長久', '</a>')]
一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
但願人長久

re.sub

替換字串每一個匹配的子串後返回替換後的字串。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+','',content)
print(content)
Extra stings Hello  World_This is a Regex Demo Extra stings
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)','Replacement',content)
print(content)
Extra stings Hello Replacement World_This is a Regex Demo Extra stings
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)',r'\1 8910',content)
print(content)
Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings
import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
html = re.sub('<a.*?>|</a>','',html)
print(html)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
print(results)
for result in results:
    print(result.strip())

re.compile

將正則字串編譯成正則表示式物件

將一個正則表示式串編譯成正則物件,以便於複用該匹配模式

import re

content = "Hello 1234567 World_This is a Regex Demo"
pattern = re.compile('Hello.*Demo',re.S)
result = re.match(pattern,content)
#result = re.match('Hello.*Demo',content,re.S)
print(result)
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>

實戰練習

import requests
import re
content = requests.get('https://book.douban.com').text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results = re.findall(pattern,content)
for result in results:
    url,name,author,data = result
    author = re.sub('\s','',author)
    date = re.sub('\s','',date)
    print(url,name,author,date)