python爬蟲系列(3.2-lxml庫的使用)

阿新 • • 發佈：2018-11-09

一、基本介紹

1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。

2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可以利用之前學習的XPath語法，來快速的定位特定元素以及節點資訊。lxml python官方文件:

3、安裝庫

pip3 install lxml

二、基本使用

1、直接解析HTML程式碼,並且在解析HTML程式碼的時候，如果HTML程式碼不規範，他會自動的進行補全程式碼

from lxml import etree

text = '''

<div>

<ul>

<li class="item-0"><a href="link1.html">第一個item</a></li>

<li class="item-1"><a href="link2.html">第二個item</a></li>

<li class="item-inactive"><a href="link3.html">第三個item</a></li>

<li class="item-1"><a href="link4.html">第四個item</a></li>

<li class="item-0"><a href="link5.html">第五個item</a> # 注意，此處缺少一個 </li> 閉合標籤

</ul>

</div>

'''

html = etree.HTML(text)

print(type(html)) # 資料型別 <class 'lxml.etree._Element'>

result = etree.tostring(html, encoding="utf8") # 使用utf8編碼轉換

print(result.decode("utf8"))

2、使用tostring()方法即輸出修正後的HTML程式碼

三、讀取本地檔案

1、直接使用etree.parse(檔案路徑)

from lxml import etree

html = etree.parse('./demo.html')

result = etree.tostring(html, encoding='utf8')

print(result.decode('utf8'))

四、指定解析器

1、當代碼不規範的時候就需要指定解析器

from lxml import etree

parser = etree.HTMLParser(encoding='utf8')

html = etree.parse('./demo.html', parser=parser)

result = etree.tostring(html, encoding='utf8')

print(result.decode('utf8'))

python爬蟲系列(3.2-lxml庫的使用)

一、基本介紹 1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

python爬蟲系列(1.2-urllib模組中request 常用方法)

一、request.Request方法的使用上一章節中介紹了request.urlopen()的使用,僅僅的很簡單的使用,不能設定請求頭及cookie的東西,request.Request()方法就是進一步的包裝請求. 1、原始碼檢視引數 class Request: &nb

python爬蟲系列(4.2-python操作csv檔案)

一、關於csv檔案的介紹 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel開啟檢視。由於是純文字，任何編輯器也都可開啟。與Excel檔案不同,CSV檔案中：值沒有型別，所有值都是字串不能指定字型顏色等樣式不能指定單元格的寬高，不能合併單元格

python爬蟲系列(3.8-正則的使用)

一、需要系統的學習正則表示式二、在python爬蟲中需要掌握的正則有 1、元字元 1..:除了\n以外的任意字元 2.*:出現0到多次 3.?:出現0或者1次 4.+:表示出現1到多次 2、常用的方法 1.compile:表示生成正則表示式參

python爬蟲系列(3.6-css選擇器)

章節是繼上一小節的知識點,只是本人把它拆分了,如果你對css比較熟悉的話,可以直接使用這一章節的選擇器一、關於select選擇器的使用 1、直接獲取元素節點 print(soup.select('a')) 2、根據類名查詢,比如要查詢class=sister的標籤 print(

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

python爬蟲系列(3.5-Beautiful Soup的使用)

一、使用步驟 1、安裝包 pip3 install beautifulsoup4 2、簡單的使用 html_doc = """ <html> <head> &

python--爬蟲51job(3.2)

這裡是做另一個任務----也就是將正則表示式的內容細化，使提取的內容更精細。下面是核心程式碼： def get(html): items=(0,0,0,0,0,0,0) reg = re.compile(r'class="t1 ">.*?<a

Python爬蟲入門——3.2 動態網頁爬蟲

當你搜索百度圖片時（百度圖片），你會發現，當你向下滑動滑鼠，就會自動載入下一頁的圖片資料，但是網頁的URL卻沒有改變。從而你就無法通過一般的構造URL的方法來抓取網頁資料。這是由於網頁使用了非同步載入技術。非同步載入技術傳統的網頁如果需要更新網頁資訊就需要重新載入整個

Python爬蟲之Xpath與lxml庫的用法

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。在學習之前應該具備的知識：在您繼續學習之前，應該對下面的知識有基本的瞭解： HTML / XHTML XML / XML 名稱空間

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

python爬蟲系列(2.2-requests庫的高階使用)

一、設定代理ip 1、直接在請求的時候加上proxies就可以,注意我們一般會寫上http和https的,這樣當遇到http請求就會走http字典對應的代理 2、具體程式碼 import requests if __name__ == "__main__":

python爬蟲系列(2.1-requests庫的基本的使用)

一、基本認識 1、傳送一個get請求 import requests if __name__ == "__main__": # 獲取一個get請求 response = requests.get('http://htt

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

python爬蟲系列(1.3-關於cookie的認識)

一、關於http無狀態的認識在網站中,http請求是無狀態的,也就是說第一次與伺服器連線後並且接收到伺服器的返回值的時候,就斷開連線,等第二次連線的時候,又是一個新的連線,伺服器並不知道之前連線過。cookie的出現就是解決這個問題.主要原理: 使用者第一次登陸後,伺服器給瀏覽器返回coo

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

python爬蟲系列(3.2-lxml庫的使用)

相關推薦