【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

阿新 • • 發佈：2018-11-11

CSS選擇器

Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。
使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下：

html = '''
<div class="panel">
<div class="panel-heading">
<h4>Hello</h4>
<div class="panel-body">
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
</ul>
</div>
</div>
''' 

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.select('.panel .panel-heading'))
print(soup.select('ul li'))
print(soup.select('#list-2 .element'))
print(type(soup.select('ul')[0]))

執行結果如下：

[<div class="panel-heading">
<h4>Hello</h4>
<div class="panel-body" 
>
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
< 
/ul>
</div>
</div>]
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]
<class 'bs4.element.Tag'>

這裡我們用了3次CSS選擇器，返回的結果均是符合CSS選擇器的節點組成的列表。例如，select(‘ul li’)則是選擇所有ul節點下面的所有裡節點，結果便是所有的li節點組成的列表。
最後一句列印輸出了列表中元素的型別。可以看到，型別依然是Tag型別。

巢狀選擇

select()方法同樣支援巢狀選擇。例如，先選擇所有ul節點，再裡邊每個ul節點，選擇其li節點，樣例如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
	print(ul.select('li'))

執行結果如下：

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]

可以看到，這裡正常輸出了所有ul節點下所有裡節點組成的列表。

獲取屬性

我們知道節點型別是Tag型別，所以獲取屬性還可以用原來的方法。仍然是上面的HTML文字，這裡嘗試獲取每個ul節點的id屬性：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
	print(ul['id'])
	print(ul.attrs['id'])

執行結果如下：

list-1
list-1
list-2
list-2

可以看到，直接傳入中括號和屬性名，以及通過attrs屬性獲取屬性值，都可以成功。

獲取文字

要獲取文字，當然也可以用前面所提的string屬性。此外，還有一個方法，那就是get_text()，例項如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for li in soup.select('li'):
	print('Get Text:', li.get_text())
	print('String:', li.string)

執行結果如下：

Get Text: Foo
String: Foo
Get Text: Bar
String: Bar
Get Text: Jay
String: Jay
Get Text: Foo
String: Foo
Get Text: Bar
String: Bar

可以看到，二者效果完全一致。

Beautiful Soup的基本用法總結

推薦使用lxml解析庫，必要時使用html.parser。
節點選擇篩選功能弱但是速度快。
建議使用find()或者find_all()查詢匹配單個結果或者多個結果。
如果對CSS選擇器熟悉的話，可以使用select()方法選擇。

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

Beautiful Soup可以藉助網頁的結構和屬性等特性來解析網頁。有了Beautiful Soup，我們不用再去寫一些複雜的正則表示式，只需要簡單的幾條語句，就可以完成網頁中某個元素的提取。 Beautiful Soup是Python的一個HTML或XML的解析庫，可以用它來方便地從

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

XPath，全稱XML Path Language，即XML路徑語言，它是一門在XML文件中查詢資訊的於洋。它最初是用來搜尋XML文件的，但它同樣適用於HTML文件的搜尋。 1. XPath概覽 XPath的選擇功能十分強大，它提供了非常簡潔明瞭的路徑選擇表示式。另外，它還提供了超過

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器 Beautiful Soup還提供了另外一個選擇器，那就是CSS選擇器。使用CSS選擇器時，只需要呼叫select()方法，傳入相應的CSS選擇器即可，示例如下： html = ''' <div class="panel"> <div class="

【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3

提取資訊要獲取關聯元素節點的資訊，比如文字、屬性等，如下： html = """ <html> <body> <p class="story"> Once upon a time there were three little sisters

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

節點操作 pyquery提供了一系列方法來對節點進行動態修改，比如為某個節點新增一個class，移除某個節點等，這些操作有時候會為提取資訊帶來極大地便利。 addClass和removeClass html = ''' <div class="wrap"> <d

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

【Python3 爬蟲學習筆記】解析庫的使用 8 —— 使用pyquery 1

先看示例： html = ''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">secon

【Python3 爬蟲學習筆記】解析庫的使用 11 —— 使用pyquery 4

偽類選擇器 CSS選擇器之所以強大，還有一個很重要的原因，那就是它支援多種多樣的偽類選擇器，例如選擇第一個節點、最後一個節點、奇偶數節點、包含某一文字的節點等。示例如下： html = ''' <div class="wrap"> <div id="containe

【Python3 爬蟲學習筆記】解析庫的安裝

抓取網頁程式碼之後，下一步就是從頁面中提取資訊。提取資訊的方式多種多樣，可以使用正則來提取，但是寫起來相對比較繁瑣。還有許多強大的解析庫，如lxml、Beautiful Soup、pyquery等。此外還提供了非常強大的解析方法，如XPath解析和CSS選擇器解

【Python3 爬蟲學習筆記】解析庫的使用 6 —— Beautiful Soup 4

text text引數可用來匹配節點的文字，傳入的形式可以是字串，可以是正則表示式，可以是正則表示式物件，示例如下： import re html = ''' <div class="panel"> <div class="panel-body

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

三、正則表示式 1.例項引入開啟開源中國提供的正則表示式測試工具 http://tool.oschina.net/regex/ ，輸入待匹配的文字，然後選擇常用的正則表示式，就可以得出相應的匹配結果。對於URL來說，可以用下面的正則表示式匹配： [a-zA-z]+://[^\

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

6. compile() compile()方法可以將正則字串編譯成正則表示式物件，以便在後面的匹配中複用。示例程式碼如下： import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

4. findall() search()方法可以返回匹配正則表示式的第一個內容，但是如果想要獲取匹配正則表示式的所有內容，就要藉助findall()方法了。該方法會搜尋整個字串，然後返回匹配正則表示式的所有內容。上一節中的HTML文字中，如果想要獲得所有a節點的超連結、歌手和歌名，就

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

3.search() mathch()方法是從字串的開頭開始匹配的，一旦開頭不匹配，那麼整個匹配就失敗了。因為match()方法在使用時需要考慮到開頭的內容，這在匹配時並不方便。它更適合用來檢測某個字串是否符合某個正則表示式的規則。 search()方法在匹配時會掃描整個字串，然後返回第

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

四、抓取貓眼電影排行 4.1 抓取分析需要抓取的目標站點為http://maoyan.com/board/4 ,開啟之後便可以檢視到榜單資訊，如下圖所示：排名第一的電影是霸王別姬，頁面中顯示的有效資訊有影片名稱、主演、上映時間、上映地區、評分、圖片等資訊。將網頁滾動到最下方，

【Python3 爬蟲學習筆記】Web庫的安裝

我們主要使用Flask、Django等Web服務程式來搭建一些API介面，供我們的爬蟲使用。例如維護一個代理池，代理儲存在Redis資料庫中，我們要將代理池作為一個公共的元件使用，那麼如何構建一個方便的平臺來供我們獲取這些代理呢？最適合不過就是通過Web服務提供

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

CSS選擇器

巢狀選擇

獲取屬性

獲取文字

Beautiful Soup的基本用法總結

相關推薦