第十七節：Scrapy爬蟲框架之Middleware文件詳解

阿新 • • 發佈：2019-03-28

cookies yield 啟動 urn 響應 HERE 返回 === one

# -*- coding: utf-8 -*-

# 在這裏定義蜘蛛中間件的模型
# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

# ===========================Spider Middleware============================
# 定義：介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。 

# Spider Middleware功能：處理爬蟲的請求輸入和響應輸出
# scrapy已經提供了一些直接使用的中間件，他被SPIDER_MIDDLEWARES_BASE定義：
# {
#     ‘scrapy.spidermiddlewares.httperror.HttpErrorMiddleware‘: 50,
#     ‘scrapy.spidermiddlewares.offsite.OffsiteMiddleware‘: 500,
#     ‘scrapy.spidermiddlewares.referer.RefererMiddleware‘: 700,
#     ‘scrapy.spidermiddlewares.urllength.UrlLengthMiddleware‘: 800, 

#     ‘scrapy.spidermiddlewares.depth.DepthMiddleware‘: 900,
# }

# =================SpiderMiddleware類==================
class MaoyanSpiderMiddleware(object):
    @classmethod

    # 類方法，參數crawler，可以通過crawler調用settings裏的全局參數
    def from_crawler(cls, crawler):
        """
        :param crawler: 獲取settings裏的全局參數，如crawler.settings.get(參數) 

        """
        s = cls()
        # 調用spider_opened函數進行爬取數據並對該函數發送該信號。該信號一般用來分配spider的資源
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

        # 調用spider_closed函數進行關閉爬蟲並對該函數發送該信號。該信號用來釋放spider在spider_opened時占用的資源。
        # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    # 當返回來的response被Spider Middleware處理時，該方法被調用
    def process_spider_input(self, response, spider):
        """
        :param response: 被Spider Middleware處理的response對象
        :param spider: 返回response對應的spider對象
        """
        return None

    # 當spider處理response對象的結果後，該方法被調用
    def process_spider_output(self, response, result, spider):
        """
        :param response: 被spider處理後得到結果的response對象
        :param result: result包含Item或request對象的可叠代對象，即spider返回的response結果
        :param spider: 返回response對象的spider對象
        """
        # 遍歷返回的可叠代對象
        for i in result:
            yield i

    # 當spider的process_spider_input和process_spider_output發生異常時調用該方法
    def process_spider_exception(self, response, exception, spider):
        """
        :param response: 異常被拋出時被處理的response對象
        :param exception: 拋出的異常
        :param spider: 拋出該異常的spider對象
        """
        pass

    # 以spider啟動的request為參數調用該方法,返回一個request可叠代對象
    def process_start_requests(self, start_requests, spider):
        """
        :param start_requests: 開始請求的可叠代對象
        :param spider: 開始請求所對應的spider對象
        """
        # 遍歷可叠代對象
        for r in start_requests:
            yield r


    # 當spider開啟時調用該函數，說明開始爬取數據並分配spider的資源
    def spider_opened(self, spider):
        """
        :param spider: 開始爬取的spider對象
        """
        spider.logger.info(‘Spider opened: %s‘ % spider.name)


    # # 當某個spider被關閉時，說明關閉該爬蟲並釋放spider在spider_opened時占用的資源。
    # def spider_closed(self, spider):
    #     """
    #     :param spider: 開始爬取的spider對象
    #     """
    #     spider.logger.info(‘Spider opened:%s‘%spider.name)




# ======================Downloader Middleware========================
# 定義：位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。見scrapy框架圖
# Downloader Middleware功能：可以修改User-Agent、處理重定向、設置代理、失敗重試、設置Cookies等
# scrapy已經提供了一些直接使用的中間件，他被DOWNLOADER_MIDDLEWARES_BASE定義：
# {
#     ‘scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware‘: 100,
#     ‘scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware‘: 300,
#     ‘scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware‘: 350,
#     ‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware‘: 400,
#     ‘scrapy.contrib.downloadermiddleware.retry.RetryMiddleware‘: 500,
#     ‘scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware‘: 550,
#     ‘scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware‘: 580,
#     ‘scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware‘: 590,
#     ‘scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware‘: 600,
#     ‘scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware‘: 700,
#     ‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware‘: 750,
#     ‘scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware‘: 830,
#     ‘scrapy.contrib.downloadermiddleware.stats.DownloaderStats‘: 850,
#     ‘scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware‘: 900,
# }


# ===============DownloaderMiddleware類=================
class MaoyanDownloaderMiddleware(object):
    @classmethod

    # 類方法，參數crawler，可以通過crawler調用settings裏的全局參數
    def from_crawler(cls, crawler):
        """
        :param crawler: 獲取settings裏的全局參數，如crawler.settings.get(參數)
        """
        s = cls()
        # 調用spider_opened函數進行爬取數據並對該函數發送該信號。該信號一般用來分配spider的資源
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)

        # 調用spider_closed函數進行關閉爬蟲並對該函數發送該信號。該信號用來釋放spider在spider_opened時占用的資源。
        # crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

    # request被scrapy從調度器調度給Downloader Middleware之前調用該方法對request對象進行處理
    def process_request(self, request, spider):
        """
        :param request: 就是scrapy從調度器調度出來的request對象
        :param spider: 就是scrapy調度出來的request對象的spider對象
        """
        return None

    # request對象被Downloader Middleware執行後返回response是才調用該方法對response對象進行處理
    def process_response(self, request, response, spider):
        """
        :param request: 調度出來被Downloader Middleware處理的request對象
        :param response: Downloader Middleware處理request對象返回後的response對象
        :param spider: response返回來的spider對象
        """
        return response

    # 當process_request和process_response發生異常時調用
    def process_exception(self, request, exception, spider):
        """
        :param request:  產生異常的request對象
        :param exception:  拋出的異常對象
        :param spider: 產生異常的request對象的spider對象
        """
        pass

    # 當spider開啟時調用該函數，說明開始爬取數據並分配spider的資源
    def spider_opened(self, spider):
        """
        :param spider: 開始爬取的spider對象
        """
        spider.logger.info(‘Spider opened: %s‘ % spider.name)


    # # 當某個spider被關閉時，說明關閉該爬蟲並釋放spider在spider_opened時占用的資源。
    # def spider_closed(self, spider):
    #     """
    #     :param spider: 開始爬取的spider對象
    #     """
    #     spider.logger.info(‘Spider opened: %s‘ % spider.name)

cookies yield 啟動 urn 響應 HERE 返回 === one # -*- coding: utf-8 -*-# 在這裏定義蜘蛛中間件的模型# Define here the models for your spider middleware## See d

第十八節：Scrapy爬蟲框架之settings文件詳解

system tle 下載 cati 項目 spi 設置 com 服務器 # -*- coding: utf-8 -*-# Scrapy settings for maoyan project## For simplicity, this file contains onl

第十七節：易混淆的概念(靜態和非靜態、拆箱和裝箱)

博客學生 margin tex OS 地址 add logs text 一. 靜態和非靜態二. 拆箱和裝箱 1 ! 作者 :

學習筆記第十七節：斜率優化Dp，四邊形不等式證明決策單調

正題我就以這一題：玩具裝箱裝玩具來引入我們今天的話題。我們先設f[i]表示前i個玩具裝的最小費用是多少。那麼，很明顯就有我們列舉一個j，使得j+1到i裝

ABP module-zero +AdminLTE+Bootstrap Table+jQuery許可權管理系統第十七節--Quartz與ABP框架Abp.Quartz及擴充套件

Quartz簡介 Quartz.NET是一個開源的作業排程框架，是 OpenSymphony 的 Quartz API 的.NET移植，它用C#寫成，可用於winform和asp.net應用中。它提供了巨大的靈活性而不犧牲簡單性。你能夠用它來為執行一個作業而建立簡單的或複雜的排程。它有很多特徵，如：資料庫支

SpringBoot | 第十七章：web 應用開發之檔案上傳

前言上一章節，我們講解了利用模版引擎實現前端頁面渲染，從而實現動態網頁的功能，同時也提出了相容jsp專案的解決方案。既然開始講解web開發了，我們就接著繼續往web這個方向繼續吧。通常，我們在做web開發時，碰見諸如附件上傳、圖片頭像上傳等檔案的上傳需求也是再正常不過的。

【跟我學oracle18c】第十七天：Multitenant Architecture多租戶框架：2.2 Overview of Commonality in the CDB（藍色感悟）

在CDB中，每個使用者、角色或物件都是通用的或本地的。類似地，通常或區域性授予特權. This section contains the following topics: About Commonality in a CDB A common phenomenon defined i

第七節：web爬蟲之urllib（四）

處理 info ima bsp 一個合並 span 分享圖片 img 第三個模塊parse ：　　是一個工具模塊，提供了許多 URL 處理方法，比如拆分、解析、合並等等的方法。第七節：web爬蟲之urllib（四）

Ng第十七課：大規模機器學習(Large Scale Machine Learning)

在線 src 化簡 ima 機器學習 learning 大型數據集 machine cnblogs 17.1 大型數據集的學習 17.2 隨機梯度下降法 17.3 微型批量梯度下降 17.4 隨機梯度下降收斂 17.5 在線學習 17.6 映射化簡和數據並行

OpenGL第十一節：拉伸和過濾

bind wap fromfile 坐標 .cpp mfile identity get ott LTexture.hvoid render( GLfloat x, GLfloat y, LFRect* clip = NULL, LFRect* stretch = NULL

第十一節：Bundles壓縮合並js和css及原理分析

string數組 tab 速度操作 spn sof 參考 reader 調試一. 簡介 1.背景：瀏覽器默認一次性請求的網絡數是有上限的,如果你得js和css文件太多，就會導致瀏覽器需要多次加載，影響頁面的加載速度, MVC中提供Bundles的方式壓縮合並js和cs

學習筆記第十七節課

作業進入編輯模式。編輯模式就是進入一個可以編輯文本文檔的模式。 i是進入編輯模式，同樣shift+i也可以，而且shift+i可以直接把光標定位到行首進去編輯模式。 o也可以進去編輯模式，是在所在行的下一行進去編輯模式。也就是相當於直接按了回車。 shift+o是所在行的上一行進入編輯模式。 a也可以進

第十七篇：csv拆分、csv轉excel方法

首先對微軟的office功能表示敬佩！可能是這些辦公軟體太過平常化，所以體會不到他有多牛！csv格式資料以前沒接觸過，百度百科定義，Comma-Separated Values，CSV，逗號分隔值，或者符號分隔值分隔符號一般是逗號，檔案以純文字形式儲存表格資料，因此能儲存非常大資料量的

學習筆記第二十七節：AC自動機

正題聽說NOIP要考，所以臨時補了一下，多了一種思考方式。 AC自動機是基於KMP和字典樹的，要想透徹瞭解AC自動機，最好先學KMP和字典樹。那麼，AC自

SEO自學網體系教程第十二節：網站改版與SEO

拿我本站(https://www.seo-wangzhan.com/) 舉例子，最近我對我這個站做了一點小小的改版第一.確定目標關鍵詞並在首頁佈局一般首頁確定2~3個目標關鍵詞，太多了反而會造成每個關鍵詞都做不上去比如，我確定我網站的目標關鍵詞就是：SEO自學網和 SEO

SEO自學網體系教程第十一節：網站日誌與SEO

首先，說說怎麼檢視網站日誌。以IIS中介軟體為例。選擇一個網站 --> 高階設定，記住這裡的ID 然後到系統盤(日誌檔案一般在系統盤)，一般在C:inetpublogsLogFiles

“全棧2019”Java第十七章：賦值運算子和算術運算子

難度初級學習時間 10分鐘適合人群零基礎開發語言 Java 開發環境 JDK v11 IntelliJ IDEA v2018.3 文章原文連結 “全棧2019”Java第十七章：賦值運算子和算術運算子下一章 “全棧2019”Java第十八章：一元運算子學

“全棧2019”Java第十七章：賦值運算符和算術運算符

技術 intel 難度允許更多 https 同步 com 運算符難度初級學習時間 10分鐘適合人群零基礎開發語言 Java 開發環境 JDK v11 IntelliJ IDEA v2018.3 文章原文鏈接 “全棧2019”Java第十七章：賦值運算符和

學習筆記第十六節：第一類，第二類斯特林數和Bell數（坑）

正題百度：“ 在組合數學，Stirling數可指兩類數，第一類Stirling數和第二類Stirling數，都是由18世紀數學家James Stirling提出的。

第十五節：深入理解async和await的作用及各種適用場景和用法

一. 同步VS非同步 1. 同步 VS 非同步 VS 多執行緒同步方法：呼叫時需要等待返回結果，才可以繼續往下執行業務非同步方法：呼叫時無須等待返回結果，可以繼續往下執行業務開啟新執行緒：在主執行緒之外開啟一個新的執行緒去執行業務同步方法和非

第十七節：Scrapy爬蟲框架之Middleware文件詳解

相關推薦