python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

阿新 • • 發佈：2020-07-21

1. 介紹

Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

這條管道，被稱作圖片管道，在 ImagesPipeline 類中實現，提供了一個方便並具有額外特性的方法，來下載並本地儲存圖片:

將所有下載的圖片轉換成通用的格式（JPG）和模式（RGB）
避免重新下載最近已經下載過的圖片
縮圖生成
檢測影象的寬/高，確保它們滿足最小限制

這個管道也會為那些當前安排好要下載的圖片保留一個內部佇列，並將那些到達的包含相同圖片的專案連線到那個佇列中。這可以避免多次下載幾個專案共享的同一個圖片

2. 使用圖片管道

當使用 ImagesPipeline ，典型的工作流程如下所示:

在一個爬蟲裡，你抓取一個專案，把其中圖片的URL放入 image_urls 組內
專案從爬蟲內返回，進入專案管道
當專案進入 ImagesPipeline，image_urls 組內的URLs將被Scrapy的排程器和下載器（這意味著排程器和下載器的中介軟體可以複用）安排下載，當優先順序更高，會在其他頁面被抓取前處理。專案會在這個特定的管道階段保持“locker”的狀態，直到完成圖片的下載（或者由於某些原因未完成下載）。
當圖片下載完，另一個組(images)將被更新到結構中。這個組將包含一個字典列表，其中包括下載圖片的資訊，比如下載路徑、源抓取地址（從 image_urls 組獲得）和圖片的校驗碼。 images 列表中的圖片順序將和源 image_urls 組保持一致。如果某個圖片下載失敗，將會記錄下錯誤資訊，圖片也不會出現在 images 組中

3. 具體流程(此處以zol網站為例)

定義item

import scrapy


class ImagedownloadItem(scrapy.Item):
    # define the fields for your item here like:
    img_name = scrapy.Field()
    img_urls =scrapy.Field()

編寫spider

思路：獲取檔案地址-->獲取圖片名稱-->推送地址

此處是一張一張的推送

class ZolSpiderSpider(scrapy.Spider):
    name = 'zol'
    allowed_domains = ['zol.com.cn']
    url ='http://desk.zol.com.cn'
    start_urls = [url+'/bizhi/7106_88025_2.html']

    def parse(self, response):
        image_url = response.xpath('//img[@id="bigImg"]/@src').extract_first()
        image_name = response.xpath('//h3')[0].xpath('string(.)').extract_first().strip().replace('\r\n\t\t', '')
        next_image = response.xpath('//a[@id="pageNext"]/@href').extract_first()
        item = ImagedownloadItem()
        item["img_name"] = image_name
        item["img_urls"] = image_url
        yield item

        yield scrapy.Request(self.url+next_image,callback=self.parse,)

編寫pipline

以下如果不想改檔名，meta屬性可以忽略不寫

    def get_media_requests(self, item, info):
        '''
        #如果item[urls]裡裡面是列表，用下面
        urls= item['urls']
        for url in urls:
            yield scrapy.Request(url,meta={"item",item})
        '''
        # 如果item[urls]裡裡面是一個圖片地址，用這下面的
        yield scrapy.Request(item['img_urls'], meta={"item": item})

因為scrapy裡是使用它們URL的 SHA1 hash 作為檔名，所以如果想重新命名：

  def file_path(self, request, response=None, info=None):
        item = request.meta["item"]
        #去掉檔案裡的/,避免建立圖片檔案時出錯
        filename = item["img_name"].replace("/","-")+".jpg"

        return filename

定義圖片儲存在哪？
在settings中增加一句

IMAGES_STORE = "e:/pics"

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

學習筆記二十四：盲注的快速獲取資料之DNSlog注入

用DNS的log功能來突破盲注速度慢的限制。技術說明： DNSlog注⼊屬於帶外通訊的⼀種，英⽂：Out of Band，簡稱：OOB。我們之前的注⼊都是在同⼀個通道上⾯的，⽐如我們之前的聯合查詢注⼊，都是做HTTP請求，然後得

Python學習筆記（十四）

高階變數（資料）型別目標：資料型別列表元組字典字串公共方法變數高階所有非數字型變數都支援以下特點

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

設計模式學習筆記（十四）：享元模式

1 概述 1.1 引言當一個系統中執行時的產生的物件太多，會帶來效能下降等問題，比如一個文字字串存在大量重複字元，如果每一個字元都用一個單獨的物件表示，將會佔用較多記憶體空間。

python介面自動化（二十四）引數關聯和JSESSIONID（上個介面返回資料作為下個介面請求引數）

前言引數關聯是介面測試和效能測試最為重要的一個步驟，很多介面的請求引數是動態的，並且需要從上一個介面的返回值裡面取出來，一般只能用一次就失敗了。

python爬蟲學習筆記（更新中）

requests庫簡單介紹 import requests r = requests.get("url") /* r=requests.get(url,params=Node,**kwargs)

HDL/FPGA學習筆記二十一：verilog 中的可綜合與不可綜合

一、什麼是綜合? Verilog HDL或VHDL都只是一種硬體的描述語言，並且允許在不同的抽象層次上對電路進行建模。VerilogHDL側重於電路級，可以在門級和暫存器傳輸級（RTL）描述硬體，也可以在演算法級對硬體加以

SpringCloud學習筆記【十四】：Spring Cloud Stream訊息驅動

目錄本篇要點Spring Cloud Stream概述設計思想標準的MQSpring Cloud StreamAPI及常用註解Spring Cloud Stream演示前置條件訊息驅動之生產者引入pom依賴配置yml主啟動類定義訊息的推送管道定義介面測試訊息驅動之消費

Pytest 學習（二十四）- @allure.severity 標記用例級別的使用

前言使用@allure.severity註解，可以在 allure 報告中清晰的看到不同級別用例情況

學習筆記二十：Mssql手注之延時型盲注

延時函式WAITFOR DELAY WAITFOR是SQL Server中Transact-SQL提供的一個流程控制語句。它的作用就是等待特定時間，然後繼續執行後續的語句。它包含一個引數DELAY，用來指定等待的時間。如果將該語句成功注入後，會造成

高效能MySql學習筆記-第十四章：應用層優化

1. 常見問題有一些經常會碰到的問題清單：什麼東西在消耗系統中每臺主機的 CPU、磁碟、網路以及記憶體資源？這些值是否合理？

學習筆記二十七：SQLMap注入MySQL

在拿到一個網站後若是想知道它是否存在注入漏洞，那麼我們就可以拿出Vega掃描器對該網站進行漏洞掃描，通過工具掃描和手工注入來確定它是否存在注入漏洞。

學習筆記二十八：SQLMap使用手冊

當sqlmap拿到這樣一串url http://192.168.136.131/sqlmap/mysql/get_int.php?id=1 時，它會做以下幾步：

python爬蟲學習筆記(二十四)-Scrapy框架 圖片管道的使用

1. 介紹

2. 使用圖片管道

3. 具體流程(此處以zol網站為例)

相關推薦

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用