Python3 BeautifulSoup和Pyquery解析庫隨筆
阿新 • • 發佈:2018-07-02
val doc https beautiful bs4 from In tps 初始
BeautifuSoup和Pyquery解析庫方法比較
1.對象初始化:
- BeautifySoup庫:
1 from bs4 import BeautifulSoup 2 3 html = ‘html string......‘ 4 soup = BeautifulSoup(html, ‘lxml‘)
- Pyquery庫:
1 from pyquery import PyQuery as pq 2 3 # 以字符串初始化 4 html = ‘html string...‘ 5 doc = pq(html) 6 # 以url初始化 7 doc = pq(url=‘https://....
2. 節點屬性獲取:
- BeautifuSoup庫:
1 # 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)後,兩種方法獲取屬性值 2 value = li[‘attr_name‘] 3 value = li.attrs[‘attr_name‘]
- Pyquery庫:
1 # 在根據CSS選擇器定位到節點(例如li)後,兩種方法獲取屬性值 2 value = li.attr.attr_name 3 value = li.attr(‘attr_name‘)
3. 文本內容獲取:
- BeautifulSoup庫:
# 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)後,兩種方法獲取屬性值 text = li.string text = li.get_text()
- Pyquery庫:
1 # 在根據CSS選擇器定位到節點(例如li)後 2 text = li.text()
Python3 BeautifulSoup和Pyquery解析庫隨筆