Python爬蟲包 BeautifulSoup 學習（十）各種html解析器的比較及使用

阿新 • • 發佈：2019-02-05

BeautifulSoup號稱Python中最受歡迎的HTML解析庫之一，但是這並不是唯一的選擇。

解析庫

lxml

這個庫可以用來解析HTML和XML文件，以非常底層的實現而聞名，大部分原始碼都是C語言寫的，雖然學習這東西要花一定的時間，但是它的處理速度非常快。

HTML parser

這是python自帶的解析庫，所以很方便。

解析器

其實上面提到的那些庫，都可以作為BeautifulSoup的解析庫，下面對各種html解析器的優缺點做一下對比：

Python’s html.parser

使用語法

BeautifulSoup(markup,"html.parser" 
)

優點

python自身帶有
速度比較快
能較好相容 (as of Python 2.7.3 and 3.2.)

缺點

不能很好地相容(before Python 2.7.3 or 3.2.2)

lxml’s HTML parser

使用語法

BeautifulSoup(markup,"lxml")

優點

速度很快
相容性好

缺點

需要額外的C語言支援

lxml’s XML parser

使用語法

BeautifulSoup(markup, "lxml-xml") BeautifulSoup(markup,"xml" 
)

優點

速度很快

缺點

現在只支援xml解析
需要額外的C語言支援

html5lib

使用語法

BeautifulSoup(markup, "html5lib")

優點

相容性很好
可以像web瀏覽器一樣解析html頁面
Creates valid HTML5

缺點

速度很慢
需要額外的python支援

Python爬蟲包 BeautifulSoup 學習（十）各種html解析器的比較及使用

BeautifulSoup號稱Python中最受歡迎的HTML解析庫之一，但是這並不是唯一的選擇。解析庫 lxml 這個庫可以用來解析HTML和XML文件，以非常底層的實現而聞名，大部分原始碼都是C語言寫的，雖然學習這東西要花一定的時間，但是它的處理

Python爬蟲包 BeautifulSoup 學習（十一） CSS 選擇器

BeautifulSoup支援最常用的CSS選擇器，在 Tag 或 BeautifulSoup 物件的 .select() 方法中傳入字串引數，即可使用CSS選擇器的語法找到tag。 CSS選擇器 CSS選擇器是一種單獨的文件搜尋語法。詳情請見此連結

Python爬蟲包 BeautifulSoup 學習（四） bs基本物件與函式

四大物件種類 BeautifulSoup將複雜HTML文件轉換成一個複雜的樹形結構。如圖所示每個節點都是Python物件，我們只用根據節點進行查詢就可以了，因為解析工作交給了框架本身。所有物件可以歸納為4種: Tag NavigableString

Python爬蟲包 BeautifulSoup 學習（七） children等應用

所使用的html為： html_doc = """ <html> <head><title>The Dormouse's story</title></head> <p class="t

Python爬蟲包 BeautifulSoup 學習（二）異常處理

面對網路不穩定，頁面更新等問題，很可能出現程式異常的問題，所以我們要對程式進行一些異常處理。大家可能覺得處理異常是一個比較麻煩的活，但在面對複雜網頁和任務的時候，無疑成為一個很好的程式碼習慣。網頁‘404’、‘500’等問題 try:

Python爬蟲包 BeautifulSoup 學習（八） parent等應用

繼續使用上篇的html頁面內容： html_doc = """ <html> <head><title>The Dormouse's story</title></head> <p cl

鳥哥的linux私房菜學習-（十）vim程序編輯器

常常分享最後一行編碼取代行為 edi 檔案 img 1.vi和vim 在 Linux 的世界中，絕大部分的配置文件都是以 ASCII 的純文本形態存在，因此利用簡單的文字編輯軟件就能夠修改設定了！常常聽到的就有： emacs, pico, nano, joe

SSH學習（十）Hibernate常用API詳解及原始碼分析

學習Java的同學注意了！！！學習過程中遇到什麼問題或者想獲取學習資源的話，歡迎掃描左欄的二維碼加入微信公眾號（codehzm）我們一起學java！新接觸一個框架的目的就是想利用這個框架來為我們做一些工作，或者是讓他來簡化我們的工作，利用這個框架

瀏覽器工作原理（四）：HTML解析器 HTML Parser

HTML解析器的工作是將html標識解析為解析樹。 HTML文法定義（The HTML grammar definition） W3C組織制定規範定義了HTML的詞彙表和語法。非上下文無關文法（Not a context free grammar）正如在解析簡介中提

Python學習（十） —— 模塊和包

python 一個後綴 python解釋器文件名學習模塊 imp 鏈接一、模塊　　一個模塊就是一個包含了python定義和聲名的文件，文件名就是模塊名加上.py後綴。　　import加載的模塊分為四個通用類別：　　　　1.使用python編寫的代碼（.py文

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

爬蟲庫之BeautifulSoup學習（三）

子節點 rom lac repr 文檔 strong 爬蟲 time contents 遍歷文檔樹：　　1、查找子節點　　.contents　　　　tag的.content屬性可以將tag的子節點以列表的方式輸出。　　print soup.body.cont

爬蟲庫之BeautifulSoup學習（四）

所有字符串判斷 href gin int 過濾器 amp link 探索文檔樹： find_all(name,attrs,recursive,text,**kwargs) 方法搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件 1、name參數，可

python基礎學習（十）字串

字串的定義字串就是一串字元，是程式語言中表示文字的資料型別在 Python 中可以使用一對雙引號 " 或者一對單引號 ' 定義一個字串雖然可以使用 \" 或者 \' 做字串的轉義，但是在實際開發中：

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

爬蟲技術 -- 進階學習（十）網易新聞頁面資訊抓取（htmlagilitypack搭配scrapysharp）

最近在弄網頁爬蟲這方面的，上網看到關於htmlagilitypack搭配scrapysharp的文章，於是決定試一試~ 於是到https://www.nuget.org/packages/ScrapySharp去看看，看到這句下載提示：To install ScrapySharp, run the fo

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

Python學習（十）

10-1 Python學習筆記：在文字編輯器中新建一個檔案，寫幾句話來總結一下你至此學到的Python知識，其中每一行都以“In Python you can”打頭。將這個檔案命名為learning_python.txt，並將其儲存到為完成本章練習而編寫的程式所在的目錄中。

算法學習（十）

last 發現 != 交換 algo 例子答案數據集 earch 1.Binary Search（二分法）說明：二分法搜索是編程一項常見的任務，因為它是用於搜索排序數組(這就是我們學習排序的原因)和解決數學方程的方法。我們的目標是解出如下形式的方程： A * x

Python爬蟲包 BeautifulSoup 學習（十） 各種html解析器的比較及使用

解析庫

lxml

HTML parser

解析器

Python’s html.parser

使用語法

優點

缺點

lxml’s HTML parser

使用語法

優點

缺點

lxml’s XML parser

使用語法

優點

缺點

html5lib

使用語法

優點

缺點

相關推薦

Python爬蟲包 BeautifulSoup 學習（十）各種html解析器的比較及使用