Java開源Html解析類庫(轉載)
阿新 • • 發佈:2018-11-21
NekoHTML NekoHTML是一個簡單地HTML掃描器和標籤補償器(tag balancer) ,使得程式能解析HTML文件並用標準的XML介面來訪問其中的資訊。這個解析器能投掃描HTML檔案並“修正”許多作者(人或機器)在編寫HTML文件過程中常犯的錯誤。NekoHTML能增補缺失的父元素、自動用結束標籤關閉相應的元素,以及不匹配的內嵌元素標籤。NekoHTML的開發使用了Xerces Native Interface (XNI),後者是Xerces2的實現基礎。
HotSAX HotSAX是一個快速,小型的footprint, 用於HTML/XML/XHTML的非確認的SAX2解析。它可以在簡單的Web代理、頁面抓取器和爬蟲程式中使用。它類似於Apache Xerces分析器。
Jericho HTML Parser Jericho HTML Parser是一個簡單而功能強大的Java HTML解析器庫,可以分析和處理HTML文件的一部分,包括一些通用的伺服器端標籤,同時也可以重新生成無法識別的或無效的HTML。它也提供了一個有用的HTML表單分析器。
HTML Parser HTML Parser實現即時HTML語法分析程式。
Java HTML Parser HTML Parser提供了一組Tag物件,這些物件可以深入解析一棵可搜尋的結構樹。
TagSoup TagSoup是一個Java開發符合SAX的HTML解析器.
HtmlRipper HtmlRipper是一個Java包能夠按照預先定義好的規則設定來從Web頁中抽取動態資料.
Cobra Cobra是一個HTML工具包。它包含一個純Java HTML DOM 分析器和一個頁面表現引擎。Cobra支援HTML4,Javascript 和CSS2。
HtmlCleaner HtmlCleaner是一個開源的Html文件解析器。HtmlCleaner能夠重新排序每個元素然後生成結構良好(Well-Formed)的XML文件。預設它遵循的規則是類似於大部份web瀏覽器為創文件物件模型所使用的規則。然而,使用者可以提供自定義tag和規則組來進行過濾和匹配。
Java Mozilla Html Parser Java Mozilla Html Parser能夠將html解析成Java Document物件。它是一個基於Mozilla Html解析器封裝的Html解析類庫。因此能夠為開發人員提供一個瀏覽器質量的HTML解析器。
VietSpider HTMLParser VietSpider HTMLParser是一個純Java實現的HTML DOM解析器,支援HTML4.0.1。它是一個快速的語法檢查器,利用相對應的結束標籤自動關閉元素,能夠處理匹配錯誤的內聯元素標籤。
jsoup jsoup是一個Java HTML Parser。能夠從URL、檔案或字串解析HTML。利用DOM遍歷或CSS選擇器查詢和抽取資料。能夠操作HTML元素,屬性和文字。能夠依據一個白名單過濾使用者提交的內容。
rendersnake rendersnake是一個用於生成HTML頁面的Java開源類庫,能夠與標準JSP和Spring MVC整合。利用其編寫的Java程式碼具有可維護、易於複用、型別校驗、可測試和簡單的特點。
收錄時間:2011-02-20 11:16:34
jsoup Cookbook中文版 jsoup是一個基於Java的HTML 解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常便利的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作資料。而且還支援HTML5。是一個非常不錯的Java開源專案,為了讓更多人使用和了解這個專案。本人發了點時間將其網站提供的Cookbook翻譯/整理成中文版。
地址: http://www.open-open.com/jsoup
HTML4J HTML4J 是一個用於操作HTML文件的Java開源類庫。使用幫助文件: http://informatica.info/projects/html4j/doc/overview.html 收錄時間:2011-10-08 23:37:00
出處 http://www.open-open.com/30.htm