python html抓取，並用re正則表示式解析（一）

阿新 • • 發佈：2018-11-19

html抓取，並用re進行解析

#coding=utf-8

import urllib.request
import re

'''
url :"http://money.163.com/special/pinglun/"
抓取第一頁的新聞資訊，並按照以下規格輸出。

[
  {'title':'生鮮電商為何難盈利？','created_at':'2013-05-03 08:43','url':'http://money.163.com/13/0503/08/8TUHSEEI00254ITK.html'}

  {'title':'生鮮電商為何難盈利？','created_at':'2013-05-03 08:43','url':'http://money.163.com/13/0503/08/8TUHSEEI00254ITK.html'}
]
''' 


url = 'http://money.163.com/special/pinglun/'

result = []

f = urllib.request.urlopen(url)

#<meta http-equiv="Content-Type" content="text/html; charset=gbk">
#因為網頁的編碼格式是gbk，所以在解碼的時候也需要用gbk解碼
content = f.read().decode('gbk')
# content = str(f.read(),'utf-8','ignore')


#獲取所需內容的模式物件，按此模式從url從獲取對應符合的內容 

pattern = re.compile(r'<div class="list_item clearfix">.*?</span>',re.S)
#過濾html，得到滿足上面模式的內容
basic_content = re.finditer(pattern,content)

#對初步內容進行加工，得到自己想要的title、created_at、url三個內容
for i in basic_content:
	init_dict = {}
	d = re.match(r'<div class="list_item clearfix">.*?<h2><a href="(.*?)">(.*?)</a></h2>.*?<span class="time">(.*?)</span>' 
,i.group(),re.S)
	init_dict['title'] = d.group(2)
	init_dict['created_at'] = d.group(3)
	init_dict['url'] = d.group(1)
	result.append(init_dict)
print (result)

輸出內容

[
{'title': '賈躍亭的成功意味著實體失敗?', 'created_at': '2016-04-25 14:28:18', 'url': 'http://money.163.com/16/0425/14/BLGM1PH5002551G6.html'}, 
{'title': '海爾模式為何在西方叫好不叫座', 'created_at': '2016-04-22 15:00:23', 'url': 'http://money.163.com/16/0422/15/BL90MCB400253G87.html'}, 
{'title': '有前科就不能開網約車？', 'created_at': '2016-04-12 15:30:49', 'url': 'http://money.163.com/16/0412/15/BKFAETGB002552IJ.html'}, 
{'title': '影業公司能助網路視訊擡身價嗎', 'created_at': '2016-03-31 13:43:27', 'url': 'http://money.163.com/16/0331/13/BJG7HME600253G87.html'}, 
{'title': '美的收購東芝究竟值不值？', 'created_at': '2016-03-31 08:48:45', 'url': 'http://money.163.com/16/0331/08/BJFMM2AB00253G87.html'}, 
{'title': '日本家電企業真的不行了嗎？', 'created_at': '2016-03-18 16:40:02', 'url': 'http://money.163.com/16/0318/16/BIF2FM7A002551G6.html'}, 
{'title': '淘寶只是中國製造亂象的鏡子', 'created_at': '2016-03-16 09:56:58', 'url': 'http://money.163.com/16/0316/09/BI96K6L000253G87.html'}, 
{'title': 'iPhone 6s太失敗? 蘋果需創新', 'created_at': '2016-01-26 14:45:14', 'url': 'http://money.163.com/16/0126/14/BE8V83A500253G87.html'}, 
{'title': '從貼吧事件看大公司如何擔責', 'created_at': '2016-01-18 16:02:05', 'url': 'http://money.163.com/16/0118/16/BDKGF2C000253G87.html'},
{'title': '銷量不佳股價跌 蘋果錯在哪裡', 'created_at': '2016-01-11 14:49:43', 'url': 'http://money.163.com/16/0111/14/BD2BHH85002551G6.html'},
{'title': '視訊網站為何對快播痛下殺手?', 'created_at': '2016-01-11 14:30:31', 'url': 'http://money.163.com/16/0111/14/BD2AEC0E002551G6.html'},
{'title': '黎萬強重振小米是個偽命題？', 'created_at': '2016-01-05 13:51:55', 'url': 'http://money.163.com/16/0105/13/BCIPRCDP002551G6.html'},
{'title': '手機廠商頻死亡 將大洗牌？', 'created_at': '2015-12-31 12:14:33', 'url': 'http://money.163.com/15/1231/12/BC5O9GEI002551G6.html'}, 
{'title': '2015三星與蘋果暗戰勝負幾何？', 'created_at': '2015-12-29 14:55:41', 'url': 'http://money.163.com/15/1229/14/BC0SN3OC002551G6.html'},
{'title': '寶能作為門口野蠻人是壞人嗎', 'created_at': '2015-12-19 12:31:57', 'url': 'http://money.163.com/15/1219/12/BB6SGNBI002551G6.html'}
]

如果解碼的時候用的是utf-8，則輸出會是亂碼。且此時若不加ignore，會報錯。

content = f.read().decode('utf-8','ignore')

[
{'title': 'Ծͤĳɹζʵʧ?', 'created_at': '2016-04-25 14:28:18', 'url': 'http://money.163.com/16/0425/14/BLGM1PH5002551G6.html'}, {'title': 'ģʽΪкò', 'created_at': '2016-04-22 15:00:23', 'url': 'http://money.163.com/16/0422/15/BL90MCB400253G87.html'},
{'title': 'ǰƾͲܿԼ', 'created_at': '2016-04-12 15:30:49', 'url': 'http://money.163.com/16/0412/15/BKFAETGB002552IJ.html'}, {'title': 'Ӱҵ˾Ƶ̧', 'created_at': '2016-03-31 13:43:27', 'url': 'http://money.163.com/16/0331/13/BJG7HME600253G87.html'}, 
{'title': 'չֵֵ֥', 'created_at': '2016-03-31 08:48:45', 'url': 'http://money.163.com/16/0331/08/BJFMM2AB00253G87.html'}, {'title': 'ձҵҵĲ', 'created_at': '2016-03-18 16:40:02', 'url': 'http://money.163.com/16/0318/16/BIF2FM7A002551G6.html'}, 
{'title': 'Աֻйľ', 'created_at': '2016-03-16 09:56:58', 'url': 'http://money.163.com/16/0316/09/BI96K6L000253G87.html'}, 
{'title': 'iPhone 6s̫ʧ? ƻ貼', 'created_at': '2016-01-26 14:45:14', 'url': 'http://money.163.com/16/0126/14/BE8V83A500253G87.html'}, 
{'title': '¼˾ε', 'created_at': '2016-01-18 16:02:05', 'url': 'http://money.163.com/16/0118/16/BDKGF2C000253G87.html'}, 
{'title': 'ѹɼ۵ ƻ', 'created_at': '2016-01-11 14:49:43', 'url': 'http://money.163.com/16/0111/14/BD2BHH85002551G6.html'}, 
{'title': 'ƵվΪζԿ첥ʹɱ?', 'created_at': '2016-01-11 14:30:31', 'url': 'http://money.163.com/16/0111/14/BD2AEC0E002551G6.html'}, 
{'title': 'ǿСǸα⣿', 'created_at': '2016-01-05 13:51:55', 'url': 'http://money.163.com/16/0105/13/BCIPRCDP002551G6.html'}, 
{'title': 'ֻƵ ϴƣ', 'created_at': '2015-12-31 12:14:33', 'url': 'http://money.163.com/15/1231/12/BC5O9GEI002551G6.html'}, 
{'title': '2015ƻսʤΣ', 'created_at': '2015-12-29 14:55:41', 'url': 'http://money.163.com/15/1229/14/BC0SN3OC002551G6.html'}, 
{'title': 'ΪſҰǻ', 'created_at': '2015-12-19 12:31:57', 'url': 'http://money.163.com/15/1219/12/BB6SGNBI002551G6.html'}
]

Traceback (most recent call last):
  File "test.py", line 21, in <module>
    content = f.read().decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 167: invalid continuation byte

上面程式多了一些沒必要的處理邏輯，可以進行簡寫，如下：

#coding=utf-8

import urllib.request
import re

url = 'http://money.163.com/special/pinglun/'

result = []

f = urllib.request.urlopen(url)

#<meta http-equiv="Content-Type" content="text/html; charset=gbk">
#因為網頁的編碼格式是gbk，所以在解碼的時候也需要用gbk解碼
content = f.read().decode('gbk')
# content = str(f.read(),'utf-8','ignore')


#獲取所需內容的模式物件，按此模式從url從獲取對應符合的內容
pattern = re.compile(r'<div class="list_item clearfix">.*?<h2><a href="(.*?)">(.*?)</a></h2>.*?<span class="time">(.*?)</span>',re.S)
#過濾html，得到滿足上面模式的內容
basic_content = re.finditer(pattern,content)

print (basic_content)
#對初步內容進行加工，得到自己想要的title、created_at、url三個內容
for i in basic_content:
	result.append({'title':i.group(2),'created_at':i.group(3),'url':i.group(1)})
print (result)

python html抓取，並用re正則表示式解析（一）

html抓取，並用re進行解析 #coding=utf-8 import urllib.request import re ''' url :"http://money.163.com/special/pinglun/" 抓取第一頁的新聞資訊，並按照以下規格輸出。 [ {'ti

python html抓取，並用re正則表示式解析（二）

需求： url: “http://search.jd.com/Search?keyword=幼貓貓糧&enc=utf-8#filter” 給出一個jd_search(keyword)方法，keyword為你要查詢的東西，比如：貓糧、手機，替換上面url中的keyword，得到一個新網

RE正則表示式總結（一）

一、概念正則表示式，又稱規則表示式。（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表示式是對字元串（包括普通字元（例如，a 到 z 之間的字母）和特殊字元（稱為“

Python正則表示式初識（一）

首先跟大家簡單嘮叨兩句為什麼要學習正則表示式，為什麼在網路爬蟲的時候離不開正則表示式。正則表示式在處理字串的時候扮演著非常重要的角色，在網路爬蟲的時候也十分常用，大家可以把它學的簡單一些，但是不能不學。儘管網路爬蟲相關庫給我們提供了豐富的庫如css、bs4、l

jmeter 正則表示式學習（一）--使用詳解

jmeter自帶後置處理器：正則表示式提取器，可以用來提取介面響應裡的資訊，給予後續介面傳參用。例如要提取響應結果裡的token欄位及sex欄位（響應內容為： "token":"83EEAA887F1D2F1AA1CDA9E197810992","sex":0

python 66：re正則表示式8（全- tcy）

目錄： 1.re-概述 https://mp.csdn.net/postedit/851568392.re-函式 https://mp.csdn.net/postedit/851569933.re-Pattern https://mp.csdn.net/postedit/85157

Python正則表示式學習（1）——re.sub()基礎

re.sub（pattern，repl，string，count = 0，flags = 0） re.sub用於替換字串中的匹配項個人理解：返回將string中的pattern部分替換為repl的

Python 正則表示式學習（4）：查詢以“one”結尾，前面包含0個或多個英文字母（不能是數字或其它字元）的字串。

需求是：查詢以“one”結尾，包含0個或多個英文字母（不能是數字或其它字元）的字串。 import re str='bacdone1cdonone345dhdfgkone' p=re.compile(r'[a-zA-Z]*one') #只搜尋一次 m=re.match

Python正則表達式（一）

成功 fin 全部 dal 出現元組叠代器所有函數 match(pattern,string,flag=0) 匹配成功就返回匹配對象，匹配失敗就返回None。 search(pattern,string,flag=0) 在字符串中搜索第一次出現的正則表達式

python爬蟲（4）——正則表達式（一）

做了 cati 二手房表達發展他能 query nta package 　　　　在前幾篇文章中我們使用了python的urllib模塊，做了一些訪問網頁的工作。現在介紹一個非常強大的工具——正則表達式。在講述正則的時候，我參考了《精通正則表達式（第三版） --

Python正則表示式初識（九）

繼續分享Python正則表示式的基礎知識，今天給大家分享的特殊字元是[\u4E00-\u9FA5]，這個特殊字元最好能夠記下來，如果記不得的話通過百度也是可以一下子查到的。該特殊字元是固定的寫法，其代表的意思是漢字。換句話說，只要字元中是漢字，就可以通過該字元進行匹配，該特殊字元也是用中括號括起來的。

Python正則表示式初識（二）

前幾天給大家分享了Python正則表示式初識（一），介紹了正則表示式中的三個特殊字元“^”、“.”和“*”，感興趣的夥伴可以戳進去看看，今天小編繼續給大家分享Python正則表示式相關特殊字元知識點。 1、特殊字元“$”代表的意思是結尾字元。舉個栗子，正則表示式“3$

Python正則表示式初識（四）

今天繼續給大家分享Python正則表示式基礎知識，主要給大家介紹一下特殊字元“{}”的用法，具體的教程如下。特殊字元“{}”實質上也是一個限定詞的用法，其限定前面字元所出現的次數，其常用的模式有三種，分別是“{數字}”、“{數字,}”和“{數字1, 數字2}”

Python正則表示式初識（八）

繼續分享Python正則表示式的基礎知識，今天給大家分享的特殊字元是“\w”和“\W”，具體的教程如下。 1、“\w”代表的意思是該字元為任意字元，但是和特殊字元“.”的意思不同。“\w”代表的字元主要包括26個大寫字母A到Z，即[A-Z]、26個小寫字母a到z

劍指Offer 52. 正則表示式匹配（字串）

題目描述請實現一個函式用來匹配包括'.'和'*'的正則表示式。模式中的字元'.'表示任意一個字元，而'*'表示它前面的字元可以出現任意次（包含0次）。在本題中，匹配是指字串的所有字元匹配整個模式。例如，字串"aaa"與模式"a.a"和"ab*ac*a"匹配，但是與"aa.a"和"ab*a"均不匹配題目地

C#正則表示式入門（下）

一、匹配郵政編碼，郵政編碼為6位數字組成。 string code; code = Console.ReadLine(); Regex reg = new Regex(@"^\d{6}$",RegexOptions.None); Console.WriteLine(reg.IsMat

C#正則表示式入門（中）

一、忽略匹配優先模式 *? 重複任意次，但儘可能少重複 +? 重複1次或更多次，但儘可能少重複 ?? 重複0次或1次，但儘可能少重複 {n,m}? 重複n到m次，但儘可能少重複 {n,}? 重複n次以上，但儘可能少重複【例二】在滿足匹配時

C#正則表示式入門（上）

一、說明使用正則表示式需要包含名字空間using System.Text.RegularExpressions; .Net使用的是傳統型NFA引擎，.NET正則表示式流派概述分類舉例字元縮略表示法

LeetCode：10 正則表示式匹配（Java）

LeetCode：10 正則表示式匹配給定一個字串 (s) 和一個字元模式 §。實現支援 ‘.’ 和 ‘*’ 的正則表示式匹配。 '.' 匹配任意單個字元。 '*' 匹配零個或多個前面的元素。匹

常用正則表示式—郵箱（Email）

要驗證一個字串是否為郵箱的話，首先要了解郵箱賬號的格式。我嘗試過在網上找出一個標準的格式，但是很遺憾我沒有找到。我也嘗試使用RFC標準來判斷郵箱的格式，但是也沒有結果。網上些部落格說不應該使用RFC標準來驗證郵箱是否合法，有興趣的可以看看“is this ema

python html抓取，並用re正則表示式解析（一）

相關推薦