一篇文章徹底搞懂python正則表示式

阿新 • • 發佈：2021-09-03

前言

有時候字串匹配解決不了問題，這HGvANThma個時候就需要正則表示式來處理。因為每一次匹配（比如找以什麼開頭的，以什麼結尾的字串要寫好多個函式）都要單獨完成，我們可以給它制定一個規則。

主要應用：爬蟲的時候需要爬取各種資訊，使用正則表示式可以很方便的處理需要的資料。

1. 正則表示式的基本概念

使用單個字串來描述匹配一系列符合某個語法規則的字串。
是對字串操作的一種邏輯公式。
應用場景：處理文字和資料。

正則表示式過程：依次拿出表示式和文字中的字元比較，如果每一個字元都能匹配，則匹配成功，否則失敗。

2. python的正則表示式re模組http://www.cppcns.com

import re

匹配過程：r'imooc'是原字串，先生成Pattern物件，從頭開始找，得到一個Match（或Search等）例項，最後有一個匹配結果。

一篇文章徹底搞懂python正則表示式

# 用find和startswith找字串
str1 = 'imooc python'
print(str1.find('11'))
-1
print(str1.find('imooc'))
0
print(str1.startswith('imooc'))
True

使用正則表示式：

import re
pa = re.compile(r'imooc')   #  compile生成一個pattern物件，r'imooc'讀原字串，否則需要轉義
ma = pa.match(str1)  # 匹配不到返回為None，返回一個物件
print(ma)

<re.Match object; span=(0,5),match='imooc'>

print(ma.group())  # 返回一個字串或字串組成的元組ma.groups()
imooc

print(ma.span())  # 返回所在字串的位置
print(ma.string)  # 返回原字串
print(ma.re)     # 返回例項

(0,5)
imooc python
re.compile('imooc')

# 匹配大小寫，後面加上大寫
pa = re.compile(r'imooc',re.I)
print(pa)

re.compile('imooc',re.IGNORECASE)

ma = pa.match('imooc python')
print(ma.group())

imooc
ma = pa.match('Imooc python')
print(ma.group())

Imooc

# 如果只有一個，可以直接生成一個match物件，也可以達到同樣的效果
ma = re.match(r'imooc',str1)
print(ma)
print(ma.group())

<re.Match object; span=(0,match='imooc'>
imooc

3. 正則表示式語法

基本語法：適用於多種語言。

（1）匹配單個字元

一篇文章徹底搞懂python正則表示式

1）'.' 的匹配，可以匹配除了\n外所有字元

ma = re.match(r'a','a')
print(ma.group())

ma = re.match(r'a','b')
print(type(ma))  # 再調ma.group()則報錯

a
<class 'NoneType'>

# 用.匹配字元
ma = re.match(r'.','b')
print(ma.group())

ma = re.match(r'.','0')
print(ma.group())

b
0

# 匹配{}中的字元
ma = re.match(r'{.}','{0}')
print(ma.group())
ma = re.match(r'{..}','{01}')
print(ma.group())

{0}
{01}

2）[…]匹配字符集

# []匹配字符集
ma = re.match(r'{[abc]}','{a}')
print(ma.group())
ma = re.match(r'{[abc]]}','{d}')  # 匹配不到，則報錯
print(ma.group())
ma = re.match(r'{[a-z]]}','{d}')
print(ma.group()) # 匹配a-z中任意一個字元

{a}
{d}

ma = re.match(r'{[a-zA-Z]}','{A}')
print(ma.group())

{A}

ma = re.match(r'{[a-zA-Z0-9]}','{0}')
print(ma.group())

{0}

3） \w 匹配a-zA-Z0-9， \W匹配非單詞字元

ma = re.match(r'{[\w]}','{A}')
print(ma.group())

ma = re.match(r'{[\w]}','{ }')
print(ma.group())  # 匹配不到

ma = re.match(r'{[\W]}','{ }')
print(ma.group())

{A}
{ }

4）字符集[]匹配

ma = re.match(r'[[\w]]','[a]')
print(ma.group())  # 匹配不到

# 匹配[]需要加轉義\
ma = re.match(r'\[[\w]\]','[a]')
print(ma.group())
[a]

（2）匹配多個字元

一篇文章徹底搞懂python正則表示式

1） *匹配

ma = re.match(r'[A-Z][a-z]','Aa')
print(ma.group())

ma = re.match(r'[A-Z][a-z]','A')
print(ma.group()) # 匹配不到

ma = re.match(r'[A-Z][a-z]*','Aa')
print(ma.group())

ma = re.match(r'[A-Z][a-z]*','Aagfagsagaha')
print(ma.group())

ma = re.match(r'[A-Z][a-z]*','Aa123')
print(ma.group())

Aa
A
Aagfagsagaha
Aa

2）+匹配

# 匹配下劃線或字元開頭的無限次
ma = re.match(r'[_a-zA-Z]+[_\w]*','10')
print(ma.group())   # 匹配不到
ma = re.match(r'[_a-zA-Z]+[_\w]*','_hte10')
print(ma.group())

_hte10

3）？匹配

# 匹配0-99，01則不對
 ma = re.match(r'[1-9]?[0-9]','90')
print(ma.group())

ma = re.match(r'[1-9]?[0-9]','9')
print(ma.group())

ma = re.match(r'[1-9]?[0-9]','09')
print(ma.group())  # 只匹配到0

90
9
0

4）{m} / {mn}匹配

# 匹配郵箱，匹配6次
ma = re.match(r'[a-zA-Z0-9]{6}','abc123')
print(ma.group())

abc123
ma = re.match(r'[a-zA-Z0-9]{6}','abc12')
print(ma.www.cppcns.comgroup()) # 少一個則匹配不到

ma = re.match(r'[a-zA-Z0-9]{6}','abc1234')
print(ma.group()) # 多則匹配前6個

abc123

ma = re.match(r'[a-zA-Z0-9]{6}@163.com','[email protected]')
print(ma.group())

[email protected]

# 匹配6-10位的郵箱
ma = re.match(r'[a-zA-Z0-9]{6,10}@163.com','[email protected]')
print(ma.group())

4）*？ /+？ /??匹配 (儘可能少匹配)

ma = re.match(r'[0-9][a-z]*','1abc')
print(ma.group())

ma = re.match(r'[0-9][a-z]*?','1abc')
print(ma.group())  # 只匹配1

1abc
1

ma = re.match(r'[0-9][a-z]+?','1abc')
print(ma.group()) # 只匹配一次

1a

（3）邊界匹配

一篇文章徹底搞懂python正則表示式

ma = re.match(r'[\w]{4,'[email protected]')
print(ma.group())

[email protected]

ma = re.match(r'[\w]{4,'[email protected]')  # 後面加上abc,match從頭開始匹配，則可以找到
print(ma.group())

[email protected]

ma = re.match(r'[\w]{4,10}@163.com&','[email protected]')
print(ma.group())  # 匹配不到
ma = re.match(r'^[\w]{4,'[email protected]')
print(ma.group())  # 加上^和$,限制開頭結尾

[email protected]

# 指定開頭結尾
ma = re.match(r'\Aimooc[\w]*','imoocpython')
print(ma.group())
ma = re.match(r'\Aimooc[\w]*','iimoocpython')
print(ma.group())  # 匹配不到

imoocpython

（4）分組匹配

一篇文章徹底搞懂python正則表示式

這裡不再舉例。

4. re模組相關方法使用

以上舉例都是match，從頭到尾匹配，查詢子串就不合適了

# 在一個字串中查詢匹配
1:search(pattern,string,flags=0)

# 找到匹配，返回所有匹配部分的列表
2:findall(pattern,flags=0)

# 將字串中匹配正則表示式得部分替換為其它,repl可以替換函式
3:sub(pattern,repl,count=0,flags=0)

# 根據匹配分割字串，返回分割字串組成的列表
4:split(pattern,maxsplit=0,flags=0)

# search
import re
str1 = 'imooc videonum = 1000'
print(str1.find('1000'))  # 數字改變則失效

17

info = re.search(r'\d+',str1)
print(info.group())

1000

str1 = 'imooc videonum = 10000'
info = re.search(r'\d+',str1)
print(info.group())

10000

# findall
# 當有多個數字時

str2 = 'a=100,b=200,c=300'
info = re.search(r'\d+',str2)
print(info.group())

100

info = re.findall(r'\d+',str2)
print(info.group())

[100,200,300]

# sub 替換
str3 = 'imooc videonum = 1000'
info = re.sub(r'\d+','1001',str3)
print(info)

imooc videonum = 1001

# split
# 分割
str3 = 'imooc：C C++ '
print(re.split(r':| ',str4))

[imooc,C,Java]

以上即為python中的正則表示式的一些知識總結。

總結

到此這篇關於python正則表示式的文章就介紹到這了,更多相關python正則表示式內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

一篇文章徹底搞懂python正則表示式

目錄前言1. 正則表示式的基本概念2. 的正則表示式re模組3. 正則表示式語法（1）匹配單個字元（2）匹配多個字元（3）邊界匹配（4）分組匹配4. re模組相關方法使用總結前言

一篇文章帶你瞭解python正則表示式的正確用法

目錄正則表示式的介紹re模組匹配單個字元1.匹配任意一個字元2.匹配[ ]中列舉的字元3.\\d匹配數字，即0-94.\\D匹配非數字，即不是數字5.\\s匹配空白，即空格，tab鍵6.\\S匹配非空白7.\\w匹配非特殊字元，即a-z、A-Z、

一篇文章帶你入門Python正則表示式

目錄3 正則表示式1.match函式2.search函式search和match的區別3. sub函式4.compile函式5.findall6.finditer7.split總結Python3 正則表示式

一篇文章徹底搞懂Java的大Class到底是什麼

作者在之前工作中，面試過很多求職者，發現有很多面試者對Java的 Class 搞不明白，理解的不到位，一知半解，一到用的時候，就不太會用。

如何瞭解Qt檔案讀寫操作？一篇文章快速搞懂

Qt當中使用QFile類對檔案進行讀寫操作，對文字檔案也可以與QTextStream一起使用，這樣讀寫操作會更加簡便。QFileInfo可以用來獲取檔案的資訊。QDir可以用於對資料夾進行操作。

一篇文章快速搞懂 Apache SkyWalking 的 OAL

OAL簡介在流模式(Streaming mode)下，SkyWalking 提供了觀測分析語言(Observability Analysis Language，OAL) 來分析流入的資料。

一篇文章快速搞懂String、StringBuffer和StringBuild的區別！

String、StringBuffer和StringBuild到底有哪些的區別？總結：可變性： String是字串常量，是不可變的，StringBuild、StringBuffer是可變字元序列

一文秒懂python正則表示式常用函式

導讀：正則表示式是處理字串型別的\"核武器\"，不僅速度快，而且功能強大。本文不過多展開正則表示式相關語法，僅簡要介紹 python中正則表示式常用函式及其使用方法，以作快速查詢瀏覽。

一文搞定Python正則表示式

本文對正則表示式和Python中的re模組進行詳細講解很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那

你說要你想玩爬蟲，但你說你不懂Python正則表示式，我信你個鬼，那你還不來看看？

前言正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

B樹？這篇文章徹底看懂了！

作者：安靜的boy 前言索引，相信大多數人已經相當熟悉了，很多人都知道 MySQL 的索引主要以 B+ 樹為主，但是要問到為什麼用 B+ 樹，恐怕很少有人能把前因後果講述完整。本文就來從頭到尾介紹下資料庫的索引。

一篇文章徹底瞭解Java垃圾收集(GC)機制

垃圾收集（Garbage Collection,GC），是一個長久以來就被思考的問題，當考慮GC的時候，我們必須思考3件事情：

帶你徹底搞懂python操作mysql資料庫(cursor遊標講解)

1、什麼是遊標？一張圖講述遊標的功能：圖示說明： 2、使用遊標的好處？如果不使用遊標功能，直接使用select查詢，會一次性將結果集列印到螢幕上，你無法針對結果集做第二次程式設計。使用遊標功能後，我們可

徹底搞懂 python 中文亂碼問題(深入分析)

前言曾幾何時 Python 中文亂碼的問題困擾了我很多很多年，每次出現中文亂碼都要去網上搜索答案，雖然解決了當時遇到的問題但下次出現亂碼的時候又會懵逼，究其原因還是知其然不知其所以然。現在有的小夥伴為了躲避中

一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面

【一、專案背景】有道翻譯作為國內最大的翻譯軟體之一，使用者量巨大。在學習時遇到不會的英語詞彙，會第一時間找翻譯，有道翻譯就是首選。今天教大家如何去獲取有道翻譯手機版的翻譯介面。

一篇文章教會你用Python多執行緒獲取小米應用商店App

【一、專案背景】小米應用商店給使用者發現最好的安卓應用和遊戲,安全可靠，可是要下載東西要一個一個的搜尋太麻煩了。而已速度不是很快。

一篇文章教會你利用Python網路爬蟲獲取素材圖片

【一、專案背景】在素材網想找到合適圖片需要一頁一頁往下翻，現在學會python就可以用程式把所有圖片儲存下來，慢慢挑選合適的圖片。

一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

【一、專案背景】窮遊網提供原創實用的出境遊旅行指南、攻略，旅行社群和問答交流平臺，以及智慧的旅行規劃解決方案，同時提供簽證、保險、機票、酒店預訂、租車等線上增值服務。窮遊“鼓勵和幫助中國旅行者以自己的

徹底搞懂python 迭代器和生成器

迭代器跟生成器，與上篇文章講的裝飾器一樣，都是屬於我的一個老大難問題。

一篇文章徹底理解SpringIOC、DI

前言你可能會有如下問題： 1、想看Spring原始碼，但是不知道應當如何入手去看，對整個Bean的流程沒有概念，碰到相關問題也沒有頭緒如何下手

一篇文章徹底搞懂python正則表示式

目錄

前言

1. 正則表示式的基本概念

2. python的正則表示式re模組http://www.cppcns.com

3. 正則表示式語法

（1）匹配單個字元

（2）匹配多個字元

（3）邊界匹配

（4）分組匹配

4. re模組相關方法使用

總結

相關推薦