【spider03】正則表示式

阿新 • • 發佈：2018-12-11

什麼是正則表示式

正則表示式是對字串操作的一種邏輯公式，就是用實現定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。

非Python獨有，re模組實現

常見匹配模式

^ 匹配字串的開頭

$ 匹配字串的末尾。

. 匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。

[…] 用來表示一組字元,單獨列出：[amk] 匹配 ‘a’，‘m’或’k’

[^…] 不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。

re* 匹配0個或多個的表示式。

re+ 匹配1個或多個的表示式。

re? 匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式

re{ n} 精確匹配 n 個前面表示式。例如， o{2} 不能匹配 “Bob” 中的 “o”，但是能匹配"food" 中的兩個 o。

re{ n,} 匹配 n 個前面表示式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有 o。“o{1,}” 等價於 “o+”。“o{0,}” 則等價於 “o*”。

re{ n, m} 匹配 n 到 m 次由前面的正則表示式定義的片段，貪婪方式

a| b 匹配a或b

(re) 匹配括號內的表示式，也表示一個組

(?imx) 正則表示式包含三種可選標誌：i, m, 或 x 。隻影響括號中的區域。

(?-imx) 正則表示式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。

(?: re) 類似 (…), 但是不表示一個組

(?imx: re) 在括號中使用i, m, 或 x 可選標誌

(?-imx: re) 在括號中不使用i, m, 或 x 可選標誌

(?#…) 註釋.

(?= re) 前向肯定界定符。如果所含正則表示式，以 … 表示，在當前位置成功匹配時成功，否則失敗。但一旦所含表示式已經嘗試，匹配引擎根本沒有提高；模式的剩餘部分還要嘗試界定符的右邊。

(?! re) 前向否定界定符。與肯定界定符相反；當所含表示式不能在字串當前位置匹配時成功

(?> re) 匹配的獨立模式，省去回溯。

\w 匹配字母數字及下劃線

\W 匹配非字母數字及下劃線

\s 匹配任意空白字元，等價於 [\t\n\r\f].

\S 匹配任意非空字元

\d 匹配任意數字，等價於 [0-9].

\D 匹配任意非數字

\A 匹配字串開始

\Z 匹配字串結束，如果是存在換行，只匹配到換行前的結束字串。

\z 匹配字串結束

\G 匹配最後匹配完成的位置。

\b 匹配一個單詞邊界，也就是指單詞和空格間的位置。例如， ‘er\b’ 可以匹配"never" 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。

\B 匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。

\n, \t, 等. 匹配一個換行符。匹配一個製表符。等

\1…\9 匹配第n個分組的內容。

\10 匹配第n個分組的內容，如果它經匹配。否則指的是八進位制字元碼的表示式。

re.I 使匹配對大小寫不敏感

re.L 做本地化識別（locale-aware）匹配

re.M 多行匹配，影響 ^ 和 $

re.S 使 . 匹配包括換行在內的所有字元

re.U 根據Unicode字符集解析字元。這個標誌影響 \w, \W, \b, \B.

re.X 該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解。

re.match

re.match 嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none

re.match(pattern,string,flags=0)

最常規的匹配

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d{3}\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group())
print(result.span())

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

泛匹配

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

匹配目標

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s(\d+)\s(\d+)\s\w{10}.*Demo$',content)
print(result)
print(result.group(1))
print(result.group(2))
print(result.span())

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
123
4567
(0, 41)

貪婪匹配

import re

content = ‘Hello 1234567 World_This is a Regex Demo’ result = re.match(’^He.*(\d+).*Demo$’,content) print(result) print(result.group(1))#.*會盡可能匹配多的字元

非貪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))#.*會盡可能匹配少的字元

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

匹配模式

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
1234567

轉義

import re

content = "price is $5.00"
result = re.match("price is $5.00",content)
print(result)#特殊字元
result_ = re.match("price is \$5\.00",content)
print(result_)

None
<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>

總結：儘量使用泛匹配，使用括號得到匹配目標，儘量使用非貪婪模式，有換行符就用re.$

re.search

re.search 掃描整個字串並返回第一個成功的匹配。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('He.*?(\d+).*Demo',content)
print(result)#re.match 必須限定頭部

None

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('He.*?(\d+).*Demo',content)
print(result)
print(result.group(1))

總結：為匹配方便，能用search就不用match

匹配演練

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
if result:
    print(result.group(1),result.group(2))

齊秦 往事隨風

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
if result:
    print(result.group(1),result.group(2))#把re.S去掉後無法識別換行符

beyond 光輝歲月

re.findall

搜尋字串，以列表形式返回全部能匹配的字串

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但願人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風')
/3.mp3 齊秦 往事隨風
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但願人長久')
/6.mp3 鄧麗君 但願人長久

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
for result in results:
    print(result[1])

[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任賢齊">', '滄海一聲笑', '</a>'), ('<a href="/3.mp3" singer="齊秦">', '往事隨風', '</a>'), ('<a href="/4.mp3" singer="beyond">', '光輝歲月', '</a>'), ('<a href="/5.mp3" singer="陳慧琳">', '記事本', '</a>'), ('<a href="/6.mp3" singer="鄧麗君">', '但願人長久', '</a>')]
一路上有你
滄海一聲笑
往事隨風
光輝歲月
記事本
但願人長久

re.sub

替換字串每一個匹配的子串後返回替換後的字串。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('\d+','',content)
print(content)

Extra stings Hello  World_This is a Regex Demo Extra stings

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)','Replacement',content)
print(content)

Extra stings Hello Replacement World_This is a Regex Demo Extra stings

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content = re.sub('(\d+)',r'\1 8910',content)
print(content)

Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings

import re
html = """ <div id="songs-list">
           <h2 class="title">經典老歌</h2>
           <p class="introduction">
            經典老歌列表
           </p>
           <ul id="list" class="list-group">
            <li data-view="2">一路上有你</li>
            <li data-view="7">
              <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
            </li> 
            <li data-view="4" class="active"> 
                <a href="/3.mp3" singer="齊秦">往事隨風</a> 
            </li> 
            <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> 
            <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> 
            <li data-view="5"> 
               <a href="/6.mp3" singer="鄧麗君">但願人長久</a> 
            </li> 
            </ul> 
            </div> """
html = re.sub('<a.*?>|</a>','',html)
print(html)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
print(results)
for result in results:
    print(result.strip())

re.compile

將正則字串編譯成正則表示式物件

將一個正則表示式串編譯成正則物件，以便於複用該匹配模式

import re

content = "Hello 1234567 World_This is a Regex Demo"
pattern = re.compile('Hello.*Demo',re.S)
result = re.match(pattern,content)
#result = re.match('Hello.*Demo',content,re.S)
print(result)

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>

實戰練習

import requests
import re
content = requests.get('https://book.douban.com').text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results = re.findall(pattern,content)
for result in results:
    url,name,author,data = result
    author = re.sub('\s','',author)
    date = re.sub('\s','',date)
    print(url,name,author,date)

【spider03】正則表示式

什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用實現定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。非Python獨有，re模組實現常見匹配模式 ^ 匹配字串的開頭 $ 匹配字串

【PHP】正則表示式判斷網址是否帶http://或https://

// 匹配http(s)的表示式 $preg = "/^http(s)?:\\/\\/.+/"; 示例： $url = "https://www.baidu.com/"; $preg = "/^http(s)?:\\/\\/.+/"; if(preg_match($preg,$

【PHP】正則表示式匹配標籤

// 匹配<img>標籤的表示式 $preg = "/<img.*?src=[\'|\"](.*?(?:[\.gif|\.jpg|\.png]))[\'|\"].*?[\/]?>/i"; 示例： $img='<div class="div">

【PHP】正則表示式匹配最後一張圖片並替換

// 要搜尋的內容 $content = '<div class="div"><img class="img" width="200" height="100" src="./../images/img1.jpg" /> <img class="img" w

【轉】正則表示式–零寬斷言詳解

零寬斷言的意思是（匹配寬度為零，滿足一定的條件/斷言）我也不知道這個詞語是那個王八蛋發明的，簡直是太拗口了。零寬斷言用於查詢在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們像\b,^,$那樣用於指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它

【Python】正則表示式-簡單示例

最近使用Python正則表示式處理資料較多，先將Python使用正則表示式匹配文字的示例程式整理一下。基本語法基本語法與變數使用參考一下兩個網站：示例程式從檔案中

【轉載】正則表示式的數字例項

驗證數字的正則表示式集驗證數字：^[0-9]*$ 驗證n位的數字：^\d{n}$ 驗證至少n位數字：^\d{n,}$ 驗證m-n位的數字：^\d{m,n}$ 驗證零和非零開頭的數字：^(0|[1-9][0-9]*)$ 驗證有兩位小數的正實數：^[0-9]+

【php】正則表示式提取img的src

先上程式碼： <?php $pattern='/<img((?!src).)*src[\s]*=[\s]*[\'"](?<src>[^\'"]*)[\'"]/i'; $st

【C#】正則表示式

【定義】　　正則表示式是一個字串，以某種句法規則來描述、匹配、檢索一般字串。簡單來說，我們可以通過正則表示式來約束使用者輸入的文字（字串）、對某一字串按照我們的期望進行校正或者對某一字串提取出符合我們要求的子字串。　　舉幾個簡單的例子，比如我們登陸QQ，

【JavaScript】正則表示式--非貪婪模式擷取任意字串的筆記

場景要將下面的字串擷取兩個{title:***,url:***}來。12345<script>{title:'RegExp 物件參考手冊',url:'http://sodino.com/regexp.asp'},{title:'w3cSchool script', url:'http://www.

【PHP篇】正則表示式

$rex=”/gg*d/i”表示匹配到g（G）開始d(D)結束且中間只能有G(D)出現任意次,不區分大小寫 1、定界符號：（1）/ 內容 / （2）|| （3）{ } （4）等除字母、數字、“\”以外的字元//必須成對出現 2、內容裡

【速記表格】正則表示式

正則表示式由一些普通字元和一些元字元（metacharacters）組成。普通字元包括大小寫的字母和數字，而元字元則具有特殊的含義，我們下面會給予解釋。在最簡單的情況下，一個正則表示式看上去就是一個普通的查詢串。例如，正則表示式"testing"中沒有包含任何元字元，它可以匹配"testi

【JS學習筆記】正則表示式

1，符號標記組一 ^：位於字串開頭，表示非 $：位於字串結束，正則分組（），$1 var myString1 = "2012,2013,2014"; var theRegExp = /(\d{4})/g; //()分組標記$1 var myStri

【PHP基礎】正則表示式

<?php //功能：將文字中的連結地址轉成HTML //輸入：字串 //輸出：字串 function url2html($text) { //匹配一個URL，直到出現空白為止 preg_match_all("/http:\/\/?[^\s]+/i", $text, $links

【程式語言學習——python】正則表示式小作業

參考資料 https://www.cnblogs.com/tina-python/p/5508402.html 原資料目標將如上混雜在一列的資料按特徵分隔開。程式碼 import xlrd import xlwt xlsfile=r'C:\Users\Ad

【Linux學習四】正則表示式

環境　　虛擬機器：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4 一、grep：顯示匹配行v：反顯示e：使用擴充套件正則表示式E：不使用正則表示式匹配操作符 \ 轉義字元 . 匹配任意單個字元 [1249a]，[^12],[a

【選擇器小結】正則表示式、XPath選擇器、CSS選擇器小結和使用場景

$               &

【十分鐘學會】正則表示式字元匹配攻略

閱讀建議：看一下正則表示式基礎，有一定的基本概念，效果最佳。正則表示式是匹配模式，要麼匹配字元，要麼匹配位置。請記住這句話。然而關於正則如何匹配字元的學習，大部分人都覺得這塊比較雜亂。畢竟元字元太多了，看起來沒有系統性，不好記。本

【過濾敏感詞】正則表示式

最近做了一個遊戲聊天功能，其中有個過濾敏感字型的需求，其實這個功能很簡單，完全前端去控制，傳送前把文字過濾一次，後端只轉發就好。一.重要性正則表示式在程式設計中經常會用到如Web前端的合法輸入檢測【郵箱檢測等】如遊戲聊天中的遮蔽字型等二.學習正則表示式規則，掌握

【正則表示式教程】正則表示式入門

很可能你使用過Windows/Dos下用於檔案查詢的萬用字元(wildcard)，也就是*和?。如果你想查詢某個目錄下的所有的Word文件的話，你會搜尋*.doc。在這裡，*會被解釋成任意的字串。和萬用字元類似，正則表示式也是用來進行文字匹配的工具，只不過比起萬用字元，它能更精確地描述你的需求——當然，代價就

【spider03】正則表示式

什麼是正則表示式

常見匹配模式

re.match

最常規的匹配

泛匹配

匹配目標

貪婪匹配

非貪婪匹配

匹配模式

轉義

re.search

匹配演練

re.findall

re.sub

re.compile

實戰練習

相關推薦