python爬蟲學習(六):xpath解析
阿新 • • 發佈:2022-03-20
- xpath解析原理:
- 1.例項化一個etree的物件,且需要將被解析的頁面原始碼資料載入到該物件中。
- 2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。- 環境的安裝:
- pip install lxml
- 如何例項化一個etree物件:from lxml import etree
- 1.將本地的html文件中的原始碼資料載入到etree物件中:
etree.parse(filePath) - 2.可以將從網際網路上獲取的原始碼資料載入到該物件中
etree.HTML('page_text') - xpath('xpath表示式')
- 1.將本地的html文件中的原始碼資料載入到etree物件中:
- xpath表示式:
- /:表示的是從根節點開始定位。表示的是一個層級。
- //:表示的是多個層級。可以表示從任意位置開始定位。
- 屬性定位://div[@class='song'] tag[@attrName="attrValue"]
- 索引定位://div[@class="song"]/p[3] 索引是從1開始的。
- 取文字:
- /text() 獲取的是標籤中直系的文字內容
- //text() 標籤中非直系的文字內容(所有的文字內容)
- 取屬性:
/@attrName ==>img/src
- 環境的安裝: