Jsoup代碼示例、解析網頁+提取文本

阿新 • • 發佈：2017-10-07

執行 jar包 .text set tex ons 分享使用登陸

使用Jsoup解析HTML

那麽我們就必須用到HttpClient先獲取到html

同樣我們引入HttpClient相關jar包

以及commonIO的jar包

技術分享

我們把httpClient的基本代碼寫上，然後解析網頁得到文檔對象

我們獲取title和制定id的文檔對象

技術分享

代碼實例：

package com.zhi.jsoup1;


import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo {
	public static void main(String[] args) throws Exception {
		CloseableHttpClient httpClient=HttpClients.createDefault(); //1、創建實例
		HttpGet httpGet=new HttpGet("https://home.cnblogs.com/u/mengxinrenyu/"); //2、創建實例
	
		httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0");
		
		CloseableHttpResponse httpResponse=httpClient.execute(httpGet); //3、執行
		HttpEntity entity=httpResponse.getEntity(); //4、獲取實體
		String content=EntityUtils.toString(entity, "utf-8"); //5、獲取網頁內容
		httpResponse.close();
		httpClient.close();
		
		Document doc=Jsoup.parse(content); // 解析網頁 得到文檔對象
        Elements elements=doc.getElementsByTag("title"); // 獲取tag是title的所有DOM元素
        Element element=elements.get(0); // 獲取第1個元素
        String title=element.text(); // 返回元素的文本
        System.out.println("標題："+title);
        
        element=doc.getElementById("top_left"); // 獲取id=top_left的DOM元素
        String menu=element.text(); // 返回元素的文本
        System.out.println("導航："+menu);
	}
}

　　由於網頁我是登陸以後的，所以會出現以下錯誤

技術分享

因為請求的是某個登陸賬戶下的網頁，所以網頁會提示登錄。從沒沒有相應id的元素，返回NPE。

我們換一個新聞頁面試一下

技術分享

代碼示例：

public class Demo {
	public static void main(String[] args) throws Exception {
		CloseableHttpClient httpClient=HttpClients.createDefault(); //1、創建實例
		HttpGet httpGet=new HttpGet("https://news.cnblogs.com/"); //2、創建實例
	
		httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0");
		
		CloseableHttpResponse httpResponse=httpClient.execute(httpGet); //3、執行
		HttpEntity entity=httpResponse.getEntity(); //4、獲取實體
		String content=EntityUtils.toString(entity, "utf-8"); //5、獲取網頁內容
		httpResponse.close();
		httpClient.close();
		
		Document doc=Jsoup.parse(content); // 解析網頁 得到文檔對象
        Elements elements=doc.getElementsByTag("title"); // 獲取tag是title的所有DOM元素
        Element element=elements.get(0); // 獲取第1個元素
        String title=element.text(); // 返回元素的文本
        System.out.println("標題："+title);
        
        element=doc.getElementById("top_mini_nav_block"); // 獲取id=top_left的DOM元素
        String menu=element.text(); // 返回元素的文本
        System.out.println("導航："+menu);
	}
}

　　運行如圖：

技術分享

Jsoup代碼示例、解析網頁+提取文本

執行 jar包 .text set tex ons 分享使用登陸使用Jsoup解析HTML 那麽我們就必須用到HttpClient先獲取到html 同樣我們引入HttpClient相關jar包以及commonIO的jar包我們把httpClient的基本代碼

影視娛樂類API調用的代碼示例合集：NBA賽事、電視節目等

utf8 post 語言 spa ted alibaba reat httpurl div 以下示例代碼適用於 www.apishop.net 網站下的API，使用本文提及的接口調用代碼示例前，您需要先申請相應的API服務。 NBA賽事：NBA籃球賽事賽程相關信息電視節

知識類API調用的代碼示例合集：駕考題庫、ISBN書號查詢、萬年歷查詢等

system 之間 HP sts efault text set verify base 以下示例代碼適用於 www.apishop.net 網站下的API，使用本文提及的接口調用代碼示例前，您需要先申請相應的API服務。駕考題庫：獲取駕考題目與答案 ISBN書號查詢：

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Golang中的channel代碼示例----無緩沖、有緩沖、range、close

數量 nbu -- 協程 channel 運行 package break dead // code_043_channel_unbuffered project main.go package main import ( "fmt" "time" )

h5網頁水印SDK的實現代碼示例

etc tab nts ont 網站 can comment 支持 tex 在網站瀏覽中，常常需要網頁水印，以便防止用戶截圖或錄屏暴露敏感信息後，追蹤用戶來源。如我們常用的釘釘軟件，聊天背景就會有你的名字。那麽如何實現網頁水印效果呢？網頁水印SDK，實現思路 1.能更

spring 發送郵件代碼示例(帶附件和不帶附件的)

cat subject exception type except 郵件 auto help utf import javax.mail.MessagingException; import javax.mail.internet.MimeMessage; im

NumPy常用函數(一)——構造數組函數及代碼示例

unp tom 形狀 top instance produce base dom 新的　　NumPy是Python的一個科學計算的基本模塊。它是一個Python庫，提供了一個多維數組對象，各種衍生對象（如屏蔽數組和矩陣），以及用於數組，數學，邏輯，形狀操縱，排序，選擇，I

final、static、代碼塊、靜態代碼塊、內部類、代碼執行順序

調用 logs 構造代碼塊 tro 而且 classes phi println tina final final域使得確保初始化安全性（initialization safety）成為可能，初始化安全性讓不可變形對象不需要同步就能自由地被訪問和共享作用在類上

《Android源代碼設計模式解析與實戰》讀書筆記（八）

code androi nal clas 函數轉發類和對象 cti comment 第八章、狀態模式 1.定義狀態模式中的行為是由狀態來決定，不同的狀態下有不同的行為。當一個對象的內在狀態改變時同意改變其行為，這個對象看起來像是改變了其類。

ECMAScript 6 中的快捷語法匯總及代碼示例

nim 基本上 slice cci ren return evaluate set tput 對於每個 JavaScript 開發人員，快捷語法都是必備技能之一，下面就集中介紹這些快捷語法。三元運算符傳統寫法 const x = 20; let answer; if

RabbitMQ基礎學習筆記（C#代碼示例）

esp 輸出出隊 csharp 實例代碼為什麽 mode 規則無需一、定義： MQ是MessageQueue，消息隊列的簡稱（是流行的開源消息隊列系統，利用erlang語言開發）。MQ是一種應用程序對應用程序的通信方法。應用程序通過讀寫入隊和出隊的消息來通信

《從零開始學Swift》學習筆記（Day 57）——Swift編碼規範之凝視規範：文件凝視、文檔凝視、代碼凝視、使用地標凝視

精品 -type mil 顯示 clas ber ansi tex text 原創文章。歡迎轉載。轉載請註明：關東升的博客前面說到Swift凝視的語法有兩種：單行凝視（//）和多行凝視（/*...*/）。這裏來介紹一下他們的使用規範。 1、文件凝視文件凝視就在每個文

PCA, SVD以及代碼示例

swe erro ict ef7 計算 component pict 需要 wikipedia 本文是對PCA和SVD學習的整理筆記，為了避免很多重復內容的工作，我會在介紹概念的時候引用其他童鞋的工作和內容，具體來源我會標記在參考資料中。一.PCA (Princi

《Android源代碼設計模式解析與實戰》讀書筆記（二十）

apt 通過 rip idv ber list adaptee 無法技術分享第二十章、適配器模式適配器模式是結構型設計模式之中的一個，它在我們的開發中使用率極高，比方ListView、GridView以及RecyclerView都須要使用A

《Android源代碼設計模式解析與實戰》讀書筆記（十）

.net main 簡單的給定 ron charat 新增 ack parse 第十章、解釋器模式解釋器模式是一種用的比較少的行為型模式。其提供了一種解釋語言的語法或表達式的方式。可是它的使用場景確實非常廣泛，僅僅是由於我們自己非常少回去構造

Java中普通代碼塊，構造代碼塊，靜態代碼塊區別及代碼示例

alt ica 兩個定義賦值 dem 重寫般的 tle Java中普通代碼塊，構造代碼塊，靜態代碼塊區別及代碼示例對靜態代碼塊以及構造函數的執行先後順序，一直很迷惑，看了孫偉琴老師的《java面向對象編程》又結合畢老師的java基礎視頻中的講解，現用下面的這段小

服務器常見錯誤代碼500、501、502、503、504、505

語言而後 -c 編程設置需要 web 依據常見 ------------------------------------------------------------------------------------------------------------

Qt學習: QTimerEvent定時器事件的處理程序代碼示例

軟件 window 編程重要函數: 1.int startTimer(int); //設置定時器，返回一個ld. 2.int event->timerld(); //返回當前的ld. 3.void killTimer(int); //停止定時器.首先從Qt設計師中拖拽出三個按鈕，由於只是演

Qt學習: QCloseEvent關閉事件的使用及代碼示例

window 軟件編程計算機 qt QCloseEvent事件是指，當你鼠標點擊窗口右上角的關閉按鈕時，所觸發的函數.如果你沒有重寫virtual closeEvent(QCloseEvent*event);這個虛函數的話，系統是默認接受關閉事件的，所以就會關閉窗體，但有的時候，比如在

Jsoup代碼示例、解析網頁+提取文本

相關推薦