Java爬蟲技術之HttpClient學習筆記

阿新 • • 發佈：2018-04-20

結果小爬蟲如果依賴包很多 tac world 官方靈活

第一節、HttpClient

一、HttpClient 簡介

超文本傳輸協議【The Hyper-Text Transfer Protocol (HTTP)】是當今互聯網上使用的最重要（significant）的協議，

越來越多的 Java 應用程序需要直接通過 HTTP 協議來訪問網絡資源。

雖然在 JDK 的 java net包中已經提供了訪問 HTTP 協議的基本功能，但是對於大部分應用程序來說，JDK 庫本身提供的功能還不夠豐富和靈活。

HttpClient 是 Apache Jakarta Common 下的子項目，用來提供高效的、最新的、功能豐富的支持 HTTP 協議的客戶端編程工具包，並且它支持 HTTP 協議最新的版本和建議。

官方站點：http://hc.apache.org/

最新版本：http://hc.apache.org/httpcomponents-client-4.5.x/

官方文檔：http://hc.apache.org/httpcomponents-client-4.5.x/tutorial/html/index.html

二、Maven依賴包

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpclient</artifactId>

</dependency>

三、HttpClient的 HelloWorld 實現

package com.guo.httpclient;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import 
 org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class HelloWorld {
    public static void main(String args[]){
        // 創建httpClient實例
        CloseableHttpClient httpClient=HttpClients.createDefault();
        //創建httpGet實例
        HttpGet httpGet=new HttpGet("https://www.cnblogs.com/");
        CloseableHttpResponse response=null; //定義個返回信息
        try {
             response=httpClient.execute(httpGet);
        } catch (ClientProtocolException e) {//http協議異常
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) { //io異常
            // TODO Auto-generated catch block
            e.printStackTrace();
        }//執行http get請求
        // 獲取返回信息 實體
        HttpEntity entity=response.getEntity();
        
        try {
            System.out.println("獲取網頁內容"+EntityUtils.toString(entity, "utf-8"));//獲取網頁內容
        } catch (ParseException e) { //解析異常
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        try {
            response.close();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        try {
            httpClient.close();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}

這節講的是直接請求的沒有模擬瀏覽器有些網站爬不了

下節將解決這個問題

如果爬國內網站將上述代碼的try catch去掉，拋出異常就行了

第二節、模擬瀏覽器抓取（以火狐瀏覽器為例）

有的網站設置反扒，上節的直接請求會出現如下問題

技術分享圖片

這就需要模擬瀏覽器來查詢

一：設置請求頭消息 User-Agent 模擬瀏覽器

1.請求頭消息

打開一個網站，這裏以www.tuicool.com 為例按F12點網絡

看請求頭信息，是瀏覽器發送給目標服務器看的，目標服務器進行識別，如下圖

技術分享圖片

怎麽模擬瀏覽器？

用HttpGet實例調用 setHeader方法設置頭信息給目標服務器看的，代碼如下

技術分享圖片

二：獲取響應內容類型 Content-Type

技術分享圖片

獲取用HttpEntity 的實體調用getContent-Type方法，響應內容是鍵值對，這裏我們getValue獲取value值，代碼如下

技術分享圖片

這裏將獲取網頁內容註釋掉，只輸出響應內容信息

運行結果如下

技術分享圖片

這個帶編碼的utf-8，有的是不帶編碼的，這是根據服務器設置的

為什麽要獲取響應內容的類型呢？

因為我們在采集的時候，會有很多鏈接，要過濾掉一些無關緊要的信息

三：獲取響應狀態 Status

200 正常 403 拒絕 500 服務器報錯 404 未找到頁面

前面響應的都很順利，響應狀態為200 如下

技術分享圖片

要獲取響應狀態，用CloseableHttpResponse 實例調用getStatusLine方法，代碼如下

技術分享圖片

這裏我們只要狀態200 就行了，所以加個getStatusCode方法，只獲取狀態碼

技術分享圖片

第三節、HttpClient 抓取圖片

先用上章講的ContentType 獲取下類型，代碼如下

技術分享圖片

顯示結果為image/jpeg 圖片類型，如下

技術分享圖片

現在將這個圖片放到本地，（也可以放到服務器上）

這裏HttpEntity實體調用個getContent方法這個方法是InputStream 輸入流類型的，所以返回InputStream，先判斷entity不為空

獲取到了InputStream 輸入流實例，要怎麽將圖片復制到本地

用傳統的方法

略

簡單點的話，用阿帕奇封裝好的commons.io

首先maven引入jar包，然後編寫代碼如下

技術分享圖片

但實際開發你怎麽知道是.jpg的後綴呢？開發時將地址http：//xxx.com/xxx.xx 點後面的xx獲取到，再拼接到保存文件。

第四節代理IP

用髙匿代理

百度搜索代理IP，

用HttpGet實例調用 setConfig方法。

技術分享圖片

具體項目中寫個小爬蟲爬代理ip的網站，只需爬前十個代理ip，放到隊列中。

第五節鏈接及讀取超時

一、HttpClient連接時間

是HttpClient發送請求的地方開始到連接上目標url主機地址的時間，理論上是距離越短越快。

HttpClient的默認連接時間是1分鐘，假如超過1分鐘過一會繼續嘗試連接。

如果一個url總是連不上，會影響其他線程的線程進去，所以我們有必要進行設置。

比如設置10秒鐘假如10秒鐘沒有連接上我們就報錯。用log4j日誌記錄相關信息。

二、HttpClient讀取時間

是HttpClient已經連接到了目標服務器，然後進行內容數據的獲取，一般情況讀取數據都是很快速的，

如果讀取的數據量大，或是目標服務器本身的問題（比如讀取數據庫速度慢，並發量大等等）會影響讀取時間。

還是需要設置，比如設置10秒鐘假如10秒鐘還沒讀取完，就報錯

技術分享圖片

Java爬蟲技術之HttpClient學習筆記

結果小爬蟲如果依賴包很多 tac world 官方靈活第一節、HttpClient 一、HttpClient 簡介超文本傳輸協議【The Hyper-Text Transfer Protocol (HTTP)】是當今互聯網上使用的最重要（significan

Java核心技術36講 - 學習筆記

第9講對比Hashtable、HashMap、TreeMap有什麼不同？一、主要不同點資料結構底層實現執行緒安全效能支援null鍵值 HashTabl

Java爬蟲技術之繞過百度雲防護抓取網站內容

大家好，我是Coody最近做文章採集，碰到一個有經過百度雲加速的網站，由於開啟瀏覽器需要安全檢查，所以針對相關機制做了一下研究，故此封裝了一個HTTP工具。本文已釋出之開源中國，由於csdn使用者量巨大且易於搜尋引擎收錄，故此分享出來希望對特定的友友有所幫助。直接貼

Java接口自動化測試之HTTPClient學習(四)

ring org pom.xml artifact 14.3 code win string TBase pom.xml 文件中dependency 1 <dependencies> 2 <dependency> 3

Java基礎之數組隊列及Java堆外內存學習筆記[圖]

may memory 首地址連續 obj object 取數組隊維數 Java基礎之數組隊列及Java堆外內存學習筆記[圖]1.數組1.1 數組基本概念：數組是一個容器，可以存儲同一數據類型的N個數據；數組是一個數據結構，是數據結構中訪問速度最快的；數組是直接通過下標

《Java程式效能優化》學習筆記之HashMap和LinkedHashMap

1.HashMap沒啥可說的 2.LinkedHashMap是HashMap的子類，在HashMap的基礎上加了一個連結串列，每次put元素都會往連結串列上加節點。 public LinkedHashMap(int initialCapacity, float loadFa

java之jvm學習筆記四(安全管理器)

前面已經簡述了java的安全模型的兩個組成部分(類裝載器，class檔案校驗器)，接下來學習的是java安全模型的另外一個重要組成部分安全管理器。安全管理器是一個單獨的物件，在java虛擬機器中，它在訪問控

java之jvm學習筆記九(策略檔案)

什麼是java的策略，什麼又是策略檔案。今天我換一下筆記的方式，不是直接講概念，而是先來做一個小例子，相信你做完這個例子之後再看我對例子的講解，你對策略，策略檔案，會豁然開朗的感覺

java之jvm學習筆記十(策略和保護域)

前面一節，我們做了一個簡單的實驗，來說明什麼是策略檔案，在文章的最後，也順帶的講了一下什麼是策略，還有策略的作用。為了引出另外一個很重要的概念ProtectionDomain(保

JAVA之 Redis 學習筆記（二） Redis的連線IP、埠號、連線密碼的修改以及與JAVA簡單互動

一、專案中引入Redis包根據上一篇文章中給的jar包路徑，將jar包下載，匯入自己的專案。（jedis-2.7.2.jar）二、與Redis連線（1）連線IP和埠

java之jvm學習筆記三(Class檔案檢驗器)

前面的學習我們知道了class檔案被類裝載器所裝載，但是在裝載class檔案之前或之後，class檔案實際上還需要被校驗，這就是今天的學習主題，class檔案校驗器。 class檔案校驗器，保證class檔案內容有

java之jvm學習筆記十一(訪問控制器)

這一節，我們要學習的是訪問控制器，在閱讀本節之前，如果沒有前面幾節的基礎，對你來說可能會比較困難！知識回顧：我們先來回顧一下前幾節的內容，在筆記三的時候我們學了類裝載器，它主

《Java併發程式設計實戰》學習筆記之第3章物件的共享

1.記憶體可見性 synchronized關鍵字同步有兩方面的作用：（1）實現原子性或者確定臨界區（2）確保記憶體可見性所謂記憶體可見性，即當一個執行緒修改了物件狀態後，其他執行緒能夠看到修改後的狀態。多執行緒程式在沒有同步的情況下，編譯

Java程序猿的JavaScript學習筆記（12——jQuery-擴展選擇器）

type write number article mat 我們 content ace val 計劃按例如以下順序完畢這篇筆記： Java程序猿的JavaScript學習筆記（1——理念） Java程序猿的JavaScript學習筆記（2——屬性復制和繼承） Jav

構建之法學習筆記04

部分使用用戶 != 工作應該覆蓋率錯誤處理必須關於軟件工程的一些基本概念和技術單元測試絕大部分軟件都是由多人合作完成的，大家的工作互相有依賴關系。最典型的的例子就是，某人負責的模板的功能被其他人調用。軟件的額很多錯誤都是來源於程序員對模塊功能的誤解、疏忽或

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

爬蟲庫之BeautifulSoup學習（三）

子節點 rom lac repr 文檔 strong 爬蟲 time contents 遍歷文檔樹：　　1、查找子節點　　.contents　　　　tag的.content屬性可以將tag的子節點以列表的方式輸出。　　print soup.body.cont

爬蟲庫之BeautifulSoup學習（四）

所有字符串判斷 href gin int 過濾器 amp link 探索文檔樹： find_all(name,attrs,recursive,text,**kwargs) 方法搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件 1、name參數，可

Java核心技術之基本數據類型

又能 art 資料 string 1.4 get bool 讀取大數這篇文章。我們討論一些java的最主要的東西。這些東西我們一般剛剛學java的時候就學過，可是不一定真正明確。正好，我在做一個讀取內存的值，涉及到bit位的值的讀取和寫。那就能夠討論一個

Java爬蟲技術之HttpClient學習筆記

相關推薦