1. 程式人生 > 其它 >python爬蟲學習(六):xpath解析

python爬蟲學習(六):xpath解析

  • xpath解析原理:
    - 1.例項化一個etree的物件,且需要將被解析的頁面原始碼資料載入到該物件中。
    - 2.呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲。
    • 環境的安裝:
      • pip install lxml
    • 如何例項化一個etree物件:from lxml import etree
      • 1.將本地的html文件中的原始碼資料載入到etree物件中:
        etree.parse(filePath)
      • 2.可以將從網際網路上獲取的原始碼資料載入到該物件中
        etree.HTML('page_text')
      • xpath('xpath表示式')
    • xpath表示式:
      • /:表示的是從根節點開始定位。表示的是一個層級。
      • //:表示的是多個層級。可以表示從任意位置開始定位。
      • 屬性定位://div[@class='song'] tag[@attrName="attrValue"]
      • 索引定位://div[@class="song"]/p[3] 索引是從1開始的。
      • 取文字:
        • /text() 獲取的是標籤中直系的文字內容
        • //text() 標籤中非直系的文字內容(所有的文字內容)
      • 取屬性:
        /@attrName ==>img/src