1. 程式人生 > >Python3 BeautifulSoup和Pyquery解析庫隨筆

Python3 BeautifulSoup和Pyquery解析庫隨筆

val doc https beautiful bs4 from In tps 初始

BeautifuSoup和Pyquery解析庫方法比較

1.對象初始化:

  • BeautifySoup庫:
    1 from bs4 import BeautifulSoup
    2 
    3 html = html string......
    4 soup = BeautifulSoup(html, lxml)
  • Pyquery庫:
    1 from pyquery import PyQuery as pq
    2 
    3 # 以字符串初始化
    4 html = html string...
    5 doc = pq(html)
    6 # 以url初始化
    7 doc = pq(url=https://....
    ) 8 # 以文件初始化 9 doc = pq(filename=XXX.html)

2. 節點屬性獲取:

  • BeautifuSoup庫:
    1 # 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)後,兩種方法獲取屬性值
    2 value = li[attr_name]
    3 value = li.attrs[attr_name]
  • Pyquery庫:
    1 # 在根據CSS選擇器定位到節點(例如li)後,兩種方法獲取屬性值
    2 value = li.attr.attr_name
    3 value = li.attr(attr_name)

3. 文本內容獲取

  • BeautifulSoup庫:
    # 在根據節點選擇器、方法選擇器或者CSS選擇器,選擇出節點(例如:li)後,兩種方法獲取屬性值
    text = li.string
    text = li.get_text()
  • Pyquery庫:
    1 # 在根據CSS選擇器定位到節點(例如li)後
    2 text = li.text()

Python3 BeautifulSoup和Pyquery解析庫隨筆