處理scrapy爬蟲,返回狀態碼,ip超時返回請求重新爬取

阿新 • • 發佈：2018-12-18

簡單粗暴些,利用scrapy 框架原理自定義middleware 處理狀態碼異常,ip 超時的異常,重現傳送請求,

這裡需要重寫scrapy 內建的中介軟體 RetryMiddleware,

middlewares.py


class Process_Proxies(RetryMiddleware):
    logger = logging.getLogger(__name__)

    def dele_proxy(self,proxy,res=None):
        print('刪除代理')
        if proxy:
            gp = GetProxy()
            gp.removeproxy(proxy)
    def process_response(self, request, response, spider):
        # if request.meta.get('dont_retry',False):
        #     return response
        # if response.status in self.retry_http_codes:
        if response.status != 200:
            print('狀態碼異常')
            reason = response_status_message(response.status)
            self.dele_proxy(request.meta['proxy'],False)
            time.sleep(random.randint(3,5))
            return self._retry(request,reason,spider) or response
        return response

    def process_exception(self, request, exception, spider):
        if isinstance(exception,self.EXCEPTIONS_TO_RETRY) and not request.meta.get('dont_retry',False):
            self.dele_proxy(request.meta.get('proxy',False))
            time.sleep(random.randint(3,5))
            self.logger.warning('連線異常,進行重試......')

            return self._retry(request,exception,spider)

setting.py

DOWNLOADER_MIDDLEWARES = {
   'BaiduSpider.middlewares.UserAgentMiddleware': 100,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
   "scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware": None,
   'BaiduSpider.middlewares.Process_Proxies': 120,
   'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware':500
}


RETRY_TIMES = 10
RETRY_ENABLED: True

處理scrapy爬蟲,返回狀態碼,ip超時返回請求重新爬取

簡單粗暴些,利用scrapy 框架原理自定義middleware 處理狀態碼異常,ip 超時的異常,重現傳送請求, 這裡需要重寫scrapy 內建的中介軟體 RetryMiddleware, middlewares.py class Process_Proxies(R

android retrofit 單獨處理返回狀態碼204以及統一處理特殊返回碼比如401

返回狀態碼比如401，一般表示身份無效，比如token失效之類的，這個時候就需要呼叫介面重新整理token，肯定不能在每個介面請求回撥那裡去重新整理，要是一個APP有幾百個介面不是很麻煩嗎，那麼retrofit怎麼攔截這個 401做統一處理呢，直接上程式碼： Inte

http web返回狀態碼

inpu for lose 驗證 uil buffer 內部刪除成功 Java發送Http請求並獲取狀態碼轉發自：http://www.cnblogs.com/renhui/p/6197526.html 毛毛通過Java發送url請求，查看該url是否有效，這

手動修改PHP頁面返回狀態碼

pre nbsp clas spa http style sta div code <?php //比如當前頁面要返回404狀態碼 header("HTTP/1.1 404 Not Found"); header("Status: 404 Not Found

網頁返回狀態碼

python arppinging 狀態碼 100：繼續客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩余部分，或者如果請求已經完成，忽略這個響應。 101：轉換協議在發送完這個響應最後的空行後，服務器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候

第四篇 HTTP請求返回狀態碼收集及解釋

實現代理服務器 ora 超出輸入 protoc 定期 method gateway 【轉載】https://blog.csdn.net/wangsen2235068/article/details/8081274 當用戶試圖通過 HTTP 訪問一臺正在運行 Intern

三十、python之Flask框架(二)檢視：返回狀態碼、重定向、狀態保持、請求鉤子

一、返回狀態碼和abort函式 1.return直接返回狀態碼: return可以返回自定義的不符合http協議的狀態碼。作用：實現前後端的資料互動。程式碼： from flask import Flask app = Flask(__name__) @app.rou

HTTP請求返回狀態碼詳解

intern 數字 clas 地址 set 失敗 oba 清除指定位置當用戶試圖通過 HTTP 訪問一臺正在運行 Internet 信息服務 (IIS) 的服務器上的內容時，IIS 返回一個表示該請求的狀態的數字代碼。狀態代碼可以指明具體請求是否已成功，還可以揭示請求失

常見http返回狀態碼

200：表示從客戶端發來的請求在伺服器端被正常處理了。 302：臨時重定向，該狀態碼錶示請求的資源已經被分配了新的URI，希望使用者本次能夠通過新的UIRI訪問。 304：未修改，服務端資源未改變，可直接使用客戶端未過期的快取。 404：伺服器端不存在客戶端請求的資源，也可用在伺服器端拒絕請求並不想說明

RESTFUL框架伺服器常見返回狀態碼和提示資訊

RESTFUL框架伺服器常見返回狀態碼和提示資訊，常見的有以下（方括號中是該狀態碼對應的HTTP動詞）. 200 OK - [GET]：伺服器成功返回使用者請求的資料，該操作是冪等的（Idempotent）。 201 CREATED -

HTTP請求返回狀態碼整理

狀態碼的類別一、2XX成功 1. 200 OK 表示從客戶端發來的請求在伺服器被正常處理了。 2. 204 no content 表示從客戶端發來的請求在伺服器被正常處理了，但在返回的響應報文中不含實體的主體部分。 3. 206 partial content 表

業務返回狀態碼規範

#業務返回碼設計說明返回碼：定義在Api請求的時候使用是否錯誤的提示；規則：統一錯誤碼：-1 請求成功：200 欄位請求相關，24001起。如：欄位驗證錯誤碼：24001 遠端服務，等其他公共錯誤碼：30001起公共錯誤碼-系統設定-使用者授權管理：使用者、授權：4000

PHP最全的Header給瀏覽器返回狀態碼函式

function httpStatus($num){//網頁返回碼 static $http = array ( 100 => "HTTP/1.1 100 Continue", 101 => "HTT

HTTP請求返回狀態碼

1xx - 資訊提示這些狀態程式碼表示臨時的響應。客戶端在收到常規響應之前，應準備接收一個或多個 1xx 響應。· 100 - Continue 初始的請求已經接受，客戶應當繼續傳送請求的其餘部分。（HTTP 1.1新）· 101 - Switching Protocols

Enumeration of HTTP status codes 返回狀態碼

/** * Enumeration of HTTP status codes. * * <p>The HTTP status code series can be retrieved via {@link #series()}. * * @author Arjen Po

伺服器返回狀態碼大全

伺服器返回的各種狀態碼到底表示什麼意思呢，哪些說明沒有問題，哪些返回狀態是出問題了，這個返回狀態碼錶示的是什麼意思，下面是伺服器各種返回狀態碼的意義： 100（繼續）請求者應當繼續提出請求。伺服器返回此程式碼則意味著，伺服器已收到了請求的第一部分，現正在等待接收其餘部分。

HTTP請求返回狀態碼和提示資訊

整理概括如下： 1xx - 資訊提示這些狀態程式碼表示臨時的響應。客戶端在收到常規響應之前，應準備接收一個或多個 1xx 響應。 2xx - 成功這類狀態程式碼表明伺服器成功地接受了客戶端請求。 3xx - 重定向客戶端瀏覽器必須採取更多操作來實現請求。

後臺返回狀態碼，js驗證跳轉登入

你應該知道的HTTP請求返回狀態碼和提示資訊

整理概括如下： 1xx – 資訊提示這些狀態程式碼表示臨時的響應。客戶端在收到常規響應之前，應準備接收一個或多個 1xx 響應。 2xx – 成功這類狀態程式碼表明伺服器成功地接受了客戶端請求。 3xx – 重定向客戶端瀏覽器必須採取更多操作來實現請求。例如，瀏覽器

HTTP返回狀態碼詳解

伺服器已經成功處理了部分 GET 請求。類似於 FlashGet 或者迅雷這類的 HTTP 下載工具都是使用此類響應實現斷點續傳或者將一個大文件分解為多個下載段同時下載。　　該請求必須包含 Range 頭資訊來指示客戶端希望得到的內容範圍，並且可能包含 If-Range 來作為請求條件。　　響應必須包

處理scrapy爬蟲,返回狀態碼,ip超時返回請求重新爬取

相關推薦