Python爬蟲教程-30-Scrapy 爬蟲框架介紹

阿新 • • 發佈：2018-09-07

start pre 出錯名稱 erp pro rtp ise 結構性

從本篇開始學習 Scrapy 爬蟲框架

Python爬蟲教程-30-Scrapy 爬蟲框架介紹

框架：框架就是對於相同的相似的部分，代碼做到不出錯，而我們就可以將註意力放到我們自己的部分了
常見爬蟲框架：
- scrapy
- pyspider
- crawley
Scrapy 是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中
Scrapy 官方文檔
- https://doc.scrapy.org/en/latest/
- http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

Scrapy 的安裝

可以直接在 Pycharm 進行安裝
- 【PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【scrapy】>【install】
- 具體操作截圖：
點擊左下角 install 靜靜等待

測試 Scrapy 是否安裝成功

進入當前所在的環境
輸入 scrapy 命令
截圖：
這裏就說明安裝成功l

Scrapy 概述

包含各個部件
- ScrapyEngine：神經中樞，大腦，核心
- Scheduler 調度器：負責處理請求，引擎發來的 request 請求，調度器需要處理，然後交換引擎
- Downloader 下載器：把引擎發來的 requests 發出請求，得到 response
- Spider 爬蟲：負責把下載器得到的網頁/結果進行分解，分解成數據 + 鏈接
- ItemPipeline 管道：詳細處理 Item
- DownloaderMiddleware 下載中間件：自定義下載的功能擴展組件
- SpiderMiddleware 爬蟲中間件：對 spider 進行功能擴展
數據流圖：
綠色箭頭是數據的流向
由 Spider 開始 Requests, Requests, Responses, Items

爬蟲項目大致流程

1.新建項目：scrapy startproject xxx項目名
2.明確需要爬取的目標/產品：編寫 item.py
3.制作爬蟲：地址 spider/xxspider.py 負責分解，提取下載的數據

4.存儲內容：pipelines.py

模塊介紹

ItemPipeline
- 對應 pipelines 文件
- 爬蟲提取出數據存入 item 後，item 中保存的數據需要進一步處理，比如清洗，去蟲，存儲等
- Pipeline 需要處理 process_item 函數
- process_item
  - spider 提取出來的 item 作為參數傳入，同時傳入的還有 spider
  - 此方法必須實現
  - 必須返回一個 Item 對象，被丟棄的 item 不會被之後的 pipeline
_ init _：構造函數
- 進行一些必要的參數初始化
open_spider(spider)：
- spider 對象對開啟的時候調用
close_spider(spider)：
- 當 spider 對象被關閉的時候調用
Spider
- 對應的是文件夾 spider 下的文件
- _ init _：初始化爬蟲名稱，start _urls 列表
- start_requests：生成 Requests 對象交給 Scrapy 下載並返回 response
- parse：根據返回的 response 解析出相應的 item，item 自動進入 pipeline：如果需要，解析 url，url自動交給 requests 模塊，一直循環下去
- start_requests：此方法盡能被調用一次，讀取 start _urls 內容並啟動循環過程
- name：設置爬蟲名稱
- start_urls：設置開始第一批爬取的 url
- allow_domains：spider 允許去爬的域名列表
- start_request(self)：只被調用一次
- parse：檢測編碼
- log：日誌記錄

中間件（DownloaderMiddlewares）

什麽是中間件？
中間件是處於引擎和下載器中間的一層組件，可以有多個
參照上面的流程圖，我們把中間件理解成成一個通道，簡單說，就是在請求/響應等傳輸的時候，在過程中設一個檢查哨，例如：
- 1.身份的偽裝： UserAgent，我們偽裝身份，不是在開始請求的時候就設置好，而是在請求的過程中，設置中間件，當檢測到發送請求的時候，攔下請求頭，修改 UserAgent 值
- 2.篩選響應數據：我們最開始得到的數據，是整個頁面，假設某個操作，需要我們過濾掉所有圖片，我們就可以在響應的過程中，設置一個中間件
- 比較抽象，可能不是很好理解，但是過程是其實很簡單的
在 middlewares 文件中
需要在 settings 中設置以是生效
一般一個中間件完成一項功能
必須實現以下一個或者多個方法
- process_request (self, request, spider)
  - 在請求的過程中被調用
  - 必須返回 None 或 Response 或 Request 或 raise IgnoreRequest
    - 如果返回 None：scrapy 將繼續處理 request
    - 如果返回 Request：scrapy 會停止調用 process_request 並沖洗調度返回的 request
    - 如果返回 Response：scrapy 將不會調用其他的 process_request 或者 process _exception，直接將該 response 作為結果返回，同時會調用 process _response
- process_response (self, request, spider)
- 每次返回結果的時候自動調用
下一篇鏈接：Python爬蟲教程-31-創建 Scrapy 爬蟲框架項目
拜拜

本筆記不允許任何個人和組織轉載

Python爬蟲教程-30-Scrapy 爬蟲框架介紹

start pre 出錯名稱 erp pro rtp ise 結構性從本篇開始學習 Scrapy 爬蟲框架 Python爬蟲教程-30-Scrapy 爬蟲框架介紹框架：框架就是對於相同的相似的部分，代碼做到不出錯，而我們就可以將註意力放到我們自己的部分了常見爬蟲框

Python3網路爬蟲：初識Scrapy爬蟲框架

Python版本：python3.+ 執行環境：Mac OS IDE：pycharm 一前言二初識Scrapy 1 什麼是Scrapy 2 我能用S

python爬蟲入門(六) Scrapy框架之原理介紹

Scrapy框架 Scrapy簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用了 Twi

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接是把 ror sdn 成功 repl 問題1.使用scrapy框架，使用命令提示符pip命令下載scrapy後，卻無法使用scrapy命令，出現scrapy不是內部或外部命令。也不是可運行的程序解決：一開始，我是把python安裝在

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

Python爬蟲教程-08-post介紹(百度翻譯)（下）

enc 需求爬蟲 https 構造單純滿足 keyword st2 Python爬蟲教程-08-post介紹（下）為了更多的設置請求信息，單純的通過urlopen已經不太能滿足需求，此時需要使用request.Request類構造Request 實例 req =

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

python爬蟲之scrapy中介軟體介紹

一、概述　　1.中介軟體的作用在scrapy執行的整個過程中,對scrapy框架執行的某些步驟做一些適配自己專案的動作. 　　例如scrapy內建的HttpErrorMiddleware,可以在ht

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

Scrapy爬蟲框架使用流程、框架、儲存模式介紹

Scrapy特色建議使用 xpath 進行解析 (因為Scrapy集成了xpath介面) 高效能爬蟲、多執行緒、資料解析、持久化儲存自動攜帶cookie無需單獨操作安裝 mac下 pip install scrapy 使用流程終

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

零基礎寫python爬蟲之使用Scrapy框架編寫爬蟲

https://www.jb51.net/article/57183.htm 前面的文章我們介紹了Python爬蟲框架Scrapy的安裝與配置等基本資料，本文我們就來看看如何使用Scrapy框架方便快捷的抓取一個網站的內容，隨便選個小站（dmoz.org）來示例吧網

記錄我的爬蟲之路1--爬蟲起步的urlib.request Python寫一個不用Scrapy框架的裸奔小幼兒爬爬

這幾天得知保研失敗了….剛好卡在保研名額外一名…雖然最近寫什麼東西都忍不住碎碎唸叨這一句話 =。=，但是好像也覺得能找到喜歡的東西了~比如現在打算認真學的爬蟲了~今天剛把小甲魚入門python的爬蟲部分學完，利用scrapy框架能順利地爬出dmoztools的

怎樣解決安裝scrapy爬蟲框架失敗的問題（圖文教程）？

下面是我安裝scrapy成功的經歷，分享給大家：安裝scrapy一般使用：pip install scrapy 是安裝不成功的，在安裝的過程中會報錯，本人的安裝過程中報錯的資訊如下： 1.第一個錯誤提示：錯誤的原因：沒有安裝Twisted Failed

scrapy入門教程()Gerapy分散式爬蟲管理框架

一、介紹： Gerapy 是一款分散式爬蟲管理框架，支援 Python 3，基於 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

Python爬蟲 --- 2.3 Scrapy 框架的簡單使用

原文連結：www.fkomm.cn/article/201… 網路爬蟲，是在網上進行資料抓取的程式，使用它能夠抓取特定網頁的HTML資料。 Scrapy框架的簡單使用：雖然我們利用一些庫開發一個爬蟲程式，但是使用框架可以大大提高效率，縮短開發時間。Scrapy是一個使用Python編寫的，輕

Python爬蟲教程-30-Scrapy 爬蟲框架介紹

Python爬蟲教程-30-Scrapy 爬蟲框架介紹

Scrapy 的安裝

測試 Scrapy 是否安裝成功

Scrapy 概述

爬蟲項目大致流程

模塊介紹

中間件（DownloaderMiddlewares）

相關推薦