python 模塊之路 re模塊運用

阿新 • • 發佈：2018-08-17

計算器 pan douban odin 函數源碼除法 main back

re模塊正則混合使用　　　　　　

永遠不要起一個py文件的名字這個名字和你已知的模塊同名而且沒有意義文件名字要有意義

查找:

findall : 匹配所有 每一項都是列表中的一個元素
 ret = re.findall(‘\d+‘,‘sjkhk172按實際花費928‘) # 正則表達式,帶匹配的字符串,flag
 ret = re.findall(‘\d‘,‘sjkhk172按實際花費928‘) # 正則表達式,帶匹配的字符串,flag
 print(ret)

 search : 只匹配從左到右的第一個,得到的不是直接的結果,而是一個變量,通過這個變量的group方法來獲取結果
 
# 如果沒有匹配到,會返回None,使用group會報錯
 ret = re.search(‘\d+‘,‘sjkhk172按實際花費928‘)
 print(ret)  # 內存地址,這是一個正則匹配的結果
 print(ret.group()) # 通過ret.group()獲取真正的結果

 ret = re.search(‘\d‘,‘owghabDJLBNdgv‘)
 print(ret)
 print(ret.group())

 ret = re.search(‘\d+‘,‘sjkhk172按實際花費928‘)
 if ret :   # 內存地址,這是一個正則匹配的結果
     print 
(ret.group()) # 通過ret.group()獲取真正的結果

match 從頭開始匹配,相當於search中的正則表達式加上一個^
ret = re.match(‘\d+$‘,‘172sjkhk按實際花費928‘)
print(ret)

# 字符串處理的擴展 : 替換 切割
# split
s = ‘alex|taibai|egon|‘
print(s.split(‘|‘))
s = ‘alex83taibai40egon25‘
ret = re.split(‘\d+‘,s)
print(ret)

# sub # 誰 舊的 新的 替換次數
ret = re.sub(‘\d+‘ 
,‘H‘,‘alex83taibai40egon25‘)
print(ret)

ret = re.sub(‘\d+‘,‘H‘,‘alex83taibai40egon25‘,1)
print(ret)

# subn 返回一個元組,第二個元素是替換的次數
ret = re.subn(‘\d+‘,‘H‘,‘alex83taibai40egon25‘)
print(ret)

re模塊的進階 : 時間 / 空間

compile 節省使用正則表達式解決問題的時間

編譯正則表達式編譯成字節碼

在多次使用的過程中不會多次編譯

ret = re.compile(‘\d+‘)   # 已經完成編譯了
print(ret)
res = ret.findall(‘alex83taibai40egon25‘)
print(res)
res = ret.search(‘sjkhk172按實際花費928‘)
print(res.group())

finditer 節省你使用正則表達式解決問題的空間/內存
ret = re.finditer(‘\d+‘,‘alex83taibai40egon25‘)
for i in ret:
    print(i.group())

findall 返回列表找所有的匹配項

search 匹配就返回一個變量, 通過group取到匹配到的第一個值, 不匹配就返回None , group會報錯

match 相當於search 的正則表達式中加了一個‘ ^‘

spilt 返回列表, 按照正則規則切割, 默認匹配的內容會被切掉

sub / subn 替換, 按照正則規則去尋找要被替換的內容,subn返回元祖, 第二個值是替換的次數

compile 編譯一個正則表達式, 用這個結果去search match findall finditer 能夠節省時間

finditer 返回一個叠代器所有的結果都在這個叠代器中,需要通過循壞+ group 的形式取值能夠節省內存

分組在re模塊中的使用

import re

 s = ‘<a>wahaha</a>‘  # 標簽語言 html 網頁
 ret = re.search(‘<(\w+)>(\w+)</(\w+)>‘,s)
 print(ret.group())  # 所有的結果
 print(ret.group(1)) # 數字參數代表的是取對應分組中的內容
 print(ret.group(2))
 print(ret.group(3))

# 為了findall也可以順利取到分組中的內容,有一個特殊的語法,就是優先顯示分組中的內容
 ret = re.findall(‘(\w+)‘,s)
 print(ret)
 ret = re.findall(‘>(\w+)<‘,s)
 print(ret)

# 取消分組優先(?:正則表達式)
 ret = re.findall(‘\d+(\.\d+)?‘,‘1.234*4‘)
 print(ret)

# 關於分組
# 對於正則表達式來說 有些時候我們需要進行分組,來整體約束某一組字符出現的次數
 (\.[\w]+)?

# 對於python語言來說 分組可以幫助你更好更精準的找到你真正需要的內容
 <(\w+)>(\w+)</(\w+)>

 split
 ret = re.split(‘\d+‘,‘alex83taibai40egon25‘)
 print(ret)
 ret = re.split(‘(\d+)‘,‘alex83taibai40egon25aa‘)
 print(ret)

# python 和 正則表達式 之間的特殊的約定

# 分組命名 (?P<這個組的名字>正則表達式)
 s = ‘<a>wahaha</a>‘
 ret = re.search(‘>(?P<con>\w+)<‘,s)
 print(ret.group(1))
 print(ret.group(‘con‘))

 s = ‘<a>wahaha</a>‘
 pattern = ‘<(\w+)>(\w+)</(\w+)>‘
 ret = re.search(pattern,s)
 print(ret.group(1) == ret.group(3))

# 使用前面的分組 要求使用這個名字的分組和前面同名分組中的內容匹配的必須一致
 pattern = ‘<(?P<tab>\w+)>(\w+)</(?P=tab)>‘
 ret = re.search(pattern,s)
 print(ret)

 2018-12-06
 2018.12.6
 2018 12 06
 12:30:30

使用正則表達式的技巧

import re

ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
# 從"1-2*(60+(-40.35/5)-(-4*3))"中取整數
 [‘1‘, ‘2‘, ‘60‘, ‘40‘, ‘35‘, ‘5‘, ‘4‘, ‘3‘]
 print(ret)

# 你要匹配的內容太沒有特點了 容易和你不想匹配的內容混在一起
# 精準的取到整數 過濾掉小數

ret=re.findall(r"\d+\.\d+|\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret)
ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
ret.remove(‘‘)
print(ret)

正則表達式如果寫的足夠好的話能夠最大限度的簡化我們的操作

正則表達式重要到什麽程度

　　掌握平時作業

　　能夠看懂常用的正則表達式

　　並且能夠做出一些公司特異性要求的修改

簡單爬蟲實列

import re

def getPage(url):   # 獲取網頁的字符串
    response = urlopen(url)
    return response.read().decode(‘utf-8‘)

def parsePage(s):
    ret = com.finditer(s)  # 從s這個網頁源碼中 找到所有符合com正則表達式規則的內容 並且以叠代器的形式返回
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }

def main(num):  # 0  25 50  # 這個函數執行10次,每次爬取一頁的內容
    url = ‘https://movie.douban.com/top250?start=%s&filter=‘ % num
    response_html = getPage(url)   # response_html就是這個url對應的html代碼 就是 str
    ret = parsePage(response_html) # ret是一個生成器
    print(ret)
    f = open("move_info7", "a", encoding="utf8")
    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
    f.close()

com = re.compile(
        ‘<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>‘
        ‘.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>‘, re.S)

count = 0
for i in range(10):
    main(count)
    count += 25

計算器作業經典題目

# ret = 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )
# print(ret)　　#偷雞做法   答案直接輸出

# s = ‘1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )‘
# print(eval(s))  # 第二種偷雞   答案直接輸出

思路如下:

s = ‘1 - 2 * 12‘
# 正則表達式 函數 循環

# 匹配內層不再有括號的子表達式
# 計算
    # 先計算乘除法
    # 再計算加減法
# 一個括號計算完畢
# 將結果和括號進行替換
# 如何處理符號

# 1.先把所有的空格去掉
    # 匹配 內層不再有括號的子表達式
    # 匹配乘除法
    # 匹配加減法
# 2.遠離遞歸,如果要用遞歸,請考慮返回值的問題

拼搏努力

python 模塊之路 re模塊運用

計算器 pan douban odin 函數源碼除法 main back re模塊正則混合使用　　　　　　永遠不要起一個py文件的名字這個名字和你已知的模塊同名而且沒有意義文件名字要有意義查找

Python的學習之旅———re 模塊正則表達式

正則表達 fin 個數 logs find 1-1 bank clas col #重復匹配：. [] ? * + {} ?:左邊那個字符出現0次或1次 print(re.findall(‘ab?‘,‘a ab abb abbb abbbbbb‘)) print(re.fi

Python之路-隨機模塊

順序 amp shu 浮點 () 洗牌 tr1 之路模塊隨機整數：randint(a,b)>>>返回一個大於等於a，小於等於b的整數隨機選取0到100間的偶數：randrange(a,b)>>>返回一個大於等於a,小於b的隨機數

2018.8.20 Python之路---常用模塊

分鐘 import 問題 lena alt read 工作目錄 dir 文件夾一、re模塊查找： re.findall（‘正則表達式’,‘字符串’）匹配所有符合正則表達式的內容，形成一個列表，每一項都是列表中的一個元素。 ret = re.f

python之路《模塊》

hello 之路 from 詳細信息默認工作目錄 fse size ria fir 1.time模塊 FUNCTIONS asctime(...) asctime([tuple]) -> string Con

python基礎學習日誌day5--re模塊

基礎學習多行 nor 反斜杠 ... re.search () bbc 匹配常用正則表達式符號 ‘.‘ 默認匹配除\n之外的任意一個字符，若指定flag DOTALL,則匹配任意字符，包括換行 ‘^‘ 匹配字符開頭，若指定flags MULTILINE

python模塊之序列化模塊

style sep 必須 ack 完成 ont 參數打開 indent 　　序列化 """ 序列--字符串序列化--其他數據類型轉化為字符串數據類型反序列化--字符串轉化為其他數據類型 """ 　　json模塊 """ jso

python錯誤和異常，re模塊，多線程，paramiko模塊

pin 循環列表 use 可能一起 down get mman tom 文件操作x=open(‘/etc/hosts‘) ###默認讀的方式打開x.readline()x.read()x.seek(0)y=open(‘/root/new.txt‘,‘w‘)y.writ

python 學習二十五天(python內置模塊之序列化模塊)

nan close 分行 name 寫入打開文件 rip ide 傳遞今日主要內容 1.python內置模塊-序列化模塊 python中的序列化模塊 json 所有的編程語言都通用的序列化格式....它支持的數據類型非常有限數字字符串列表字典 pickle 只能

python爬蟲模塊之HTML下載模塊

com cond 判斷 session eth mock 表示 += HA HTML下載模塊該模塊主要是根據提供的url進行下載對應url的網頁內容。使用模塊requets-HTML，加入重試邏輯以及設定最大重試次數，同時限制訪問時間，防止長時間未響應造成程序假死現象。

python爬蟲模塊之HTML解析模塊

str 修改 ini lxml 轉換 def imp dom對象 list 這個就比較簡單了沒有什麽好強調的，如果返回的json 就是直接按照鍵值取，如果是網頁就是用lxml模塊的html進行xpath解析。 from lxml import html import js

saltstack模塊之pkg相關模塊

saltstack 模塊 pkg 軟件 pkgs pkg.install 1、pkg.available_version模塊pkg.available_version: 返回所查詢軟件包可供安裝或更新的最新版本。如果指定多個軟件包，則以字典的形式輸出返回結果。[[email

saltstack模塊之file相關模塊

saltstack file 模塊文件操作 1、file.access模塊file.access：測試salt進程是否有對指定文件的對應訪問權限。[[email protected]/* */ ~]# salt ‘*‘ file.access /etc/passwd f s

Java之路：程式碼塊

程式碼塊程式碼塊是一種常見的程式碼形式。它用大括號“{ }”將多行程式碼封裝在一起，形成一個獨立的程式碼區域，這就構成了程式碼塊。程式碼塊的格式如下： { //程式碼塊 } 程式碼塊有四種: （1）普通程式碼塊。（2）構造程式碼塊。（3）靜態程式碼塊。（4）同步程

開啟PHP&PYTHON編程之路

php python N久沒更新的blog 了，最近一直在搞世界上最好的編程語言PHP，原因嘛，自然是公司內部一直是主流的語言。所以近豬者成豬了。通過對同行的了解，發現PYTHON才是王道啊，幡然醒悟！好吧，從今開始，會有不定期的相關的PHP&PYTHON的學習經驗和遇到

python學習day4之路文件的序列化和反序列化

data 多次文件交互由於 mps logs json tro 之路 json和pickle序列化和反序列化　　json是用來實現不同程序之間的文件交互，由於不同程序之間需要進行文件信息交互，由於用python寫的代碼可能要與其他語言寫的代碼進行數據傳輸，json支持

python爬蟲學習之路-遇錯筆記-1

sig packages ror caused 技術 bsp img exception mage 當在編寫爬蟲時同時開啟了Fidder解析工具時，訪問目標站點會遇到以下錯誤： File "C:\Users\litao\AppData\Local\Programs\P

python基礎學習之路No.2 數據類型

orb vra print br0 基礎學習 sga ova eww set python中常見的數據類型有：整數、浮點數、字符串、列表、元組、字典 python相較其他語言，可以省略了聲明，可以直接定義賦值使用。例如： a=12 就相當於其他語言中的 int a=1

Python全棧之路Day1(補)

pla div 但是指令集 display 負責基礎進制所有 2017年9月18日 0:20:28 摘要一.計算機硬件介紹二.計算機啟動流程作業今日總結摘要引用:東方越遷blog 因前期筆記整理較差，故重新開始整理筆記並且每日上傳至blog. 一.計算機

Python全棧之路Day2 (補)

切換方法 eight 提示進程和線程 2017年開啟應用層普通打開初次編輯 2017年9月19日 0:03:16 摘要一.操作系統基礎二.網絡基礎三.Linux系統基礎作業今日總結摘要引用:海峰老師復習昨日計算機基礎課程，並且對照重點知識進行記憶整理

python 模塊之路 re模塊運用

相關推薦