Python爬蟲框架Scrapy學習一記——認識Scrapy

阿新 • • 發佈：2019-02-02

Preface

（Preface不知道啥意思？！總認識裡面那張臉吧，前+臉，恩，沒錯，前臉的意思）

同志既然你能找到這裡說明你起碼知道Python，知道Python的Scrapy框架,但是你是否瞭解，並且知道用法呢？如果不瞭解，我帶著你咱們走！

申明：本系列部落格成份包含官網重要且常用部分的翻譯、本人的實踐示例與戳圖、還有就是李白的唐詩三百首。好了，我們真的要走了！

這裡寫圖片描述

1. Scrapy簡介（Scrapy at a glance）

相關可參考文件

  Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的開源應用框架。 其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的， 也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。

  Scrapy吸引人的地方在於它是一個框架，任何人都可以根據需求方便的修改。它也提供了多種型別爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支援。

這裡寫圖片描述

2.Scrapy主要元件：

引擎(Scrapy): 用來處理整個系統的資料流處理, 觸發事務(框架核心)
排程器(Scheduler): 用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是連結）的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面
專案管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。
下載器中介軟體(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請求及響應。
爬蟲中介軟體(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應輸入和請求輸出。
排程中介軟體(Scheduler Middewares): 介於Scrapy引擎和排程之間的中介軟體，從Scrapy引擎傳送到排程的請求和響應。

3.Scrapy執行流程大概如下：

首先，引擎從排程器中取出一個連結(URL)用於接下來的抓取
引擎把URL封裝成一個請求(Request)傳給下載器，下載器把資源下載下來，並封裝成應答包(Response)
然後，爬蟲解析Response
若是解析出實體（Item）,則交給實體管道進行進一步的處理。
若是解析出的是連結（URL）,則把URL交給Scheduler等待抓取

4. Scrapy提供的特性

HTML, XML源資料選擇及提取的內建支援
提供了一系列在spider之間共享的可複用的過濾器(即 Item Loaders)，對智慧處理爬取資料提供了內建支援。
通過 feed匯出提供了多格式(JSON、CSV、XML)，多儲存後端(FTP、S3、本地檔案系統)的內建支援
提供了media pipeline，可以自動下載爬取到的資料中的圖片(或者其他資源)。
高擴充套件性。您可以通過使用 signals ，設計好的API(中介軟體, extensions, pipelines)來定製實現您的功能。
內建的中介軟體及擴充套件為下列功能提供了支援:
- cookies and session 處理
- HTTP 壓縮
- HTTP 認證
- HTTP 快取
- user-agent模擬
- robots.txt
- 爬取深度限制
  。。。
針對非英語語系中不標準或者錯誤的編碼宣告, 提供了自動檢測以及健壯的編碼支援。
支援根據模板生成爬蟲。在加速爬蟲建立的同時，保持在大型專案中的程式碼更為一致。詳細內容請參閱 genspider 命令。
針對多爬蟲下效能評估、失敗檢測，提供了可擴充套件的狀態收集工具。
提供互動式shell終端 , 為您測試XPath表示式，編寫和除錯爬蟲提供了極大的方便
提供 System service, 簡化在生產環境的部署及執行
內建 Web service, 使您可以監視及控制您的機器
內建 Telnet終端，通過在Scrapy程序中鉤入Python終端，使您可以檢視並且除錯爬蟲
Logging 為您在爬取過程中捕捉錯誤提供了方便
支援 Sitemaps 爬取

具有快取的DNS解析器

               the end

什麼？這就完了？！
要想和我沒完那你先回答4個問題

1.Scrapy是什麼？
2.Scrapy主要元件包含哪些，各自有什麼功能？
3.Scrapy執行流程是什麼樣的？
4.Scrapy提供了哪些特性？

好好思考一下我們進入下一節的環境安裝配置

注：本文內容不完全為原創，如有雷同，算我抄你的

Python爬蟲框架Scrapy學習一記——認識Scrapy

Preface （Preface不知道啥意思？！總認識裡面那張臉吧，前+臉，恩，沒錯，前臉的意思）同志既然你能找到這裡說明你起碼知道Python，知道Python的Scrapy框架,但是你是否瞭解，並且知道用法呢？如果不瞭解，我帶著你咱們走！申明：

Python爬蟲框架Scrapy學習三記—讓蟲子爬

本文將假設我們的scrapy環境已經OK了，然後我們來開始進行第一次爬行體驗。本文將實現以下操作: 建立一個Scrapy專案定義提取的Item 編寫爬取網站的 spider 並提取 Item 編寫 Item Pipeline 來儲存提取到的Item(即

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

Python爬蟲框架scrapy的用途及元件認識

Python爬蟲框架scrapy的用途及元件認識今天簡述一下Scrapy框架的大致處理流程，以方便大家更好的理解Scrapy的執行過程. Scrapy是一個快速、高層次螢幕抓取和web抓取python爬蟲框架，主要用於抓取特定web站點的資訊並從頁面中提取結構化的資料。由於Scr

Python 3網路爬蟲開發實戰+精通Python爬蟲框架Scrapy學習資料

《Python 3網路爬蟲開發實戰》介紹瞭如何利用Python 3開發網路爬蟲，首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取，後介

Python 3網絡爬蟲開發實戰+精通Python爬蟲框架Scrapy學習資料

分布式過多博客開發實戰 pyquery 閱讀表達式故障 hub 《Python 3網絡爬蟲開發實戰》介紹了如何利用Python 3開發網絡爬蟲，首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表達式、Beautiful Soup、XPa

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

Python爬蟲框架Scrapy學習筆記

開發十年，就只剩下這套架構體系了！ >>>

python+unittest框架整理（一點點學習前輩們的封裝思路，一點點成長。。。）

spa star 世界 ner bytes odi splay 好玩 etime 預期框架整理目標： 1.單個用例維護在單個.py文件中可單個執行，也可批量生成組件批量執行 2.對定位參數，定位方法，業務功能腳本，用例腳本，用例批量執行腳本，常用常量進行分層獨立，各自維護在

Python爬蟲框架Scrapy實例（二）

head sports spi 工作目錄 http 鏈接進入效果 tex 目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裏的子鏈接、以及子鏈接頁面的新聞內容，最後保存到本地。大類小類如下圖所示：點擊國內這個小類，進入頁面後效果如下圖（部分截圖）

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

精通Python爬蟲框架Scrapy PDF下載

Scrapy是一個開源的Python爬蟲框架，可以用來輕鬆提取從頁面資料。Scrapy帶有豐富的特性，可通過簡單的編碼或配置來訪問，從而可以節省開發人員數週的開發時間，並高效地提取所需資料。Scrapy有一個高度活躍且迅速增長的社群，而且已經成為黑客、創業者和Web爬取專家的首*框架。&nbs

python 爬蟲框架 scrapy 的目錄結構

First: scrapy 框架的專案目錄結構： Second:scrapy.cfg檔案：主要是爬蟲專案的配置檔案 hexunpjt/hexunpjt/__init__.py 檔案：專案的初始化檔案，主要寫的是一些專案初始化資訊。 hexunpjt/hexunpjt/items

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝和配置

環境： Windows10 系統、python3.4.3 版本安裝 Scrapy ：使用 pip 安裝 Scrapy,在命令列視窗中輸入命令 “pip install Scrapy”,若不報錯即可安裝成功。注意：可在命令列視窗中輸入命令“pip -h”測試 pip 模組是否已安

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB任務目標：爬取豆瓣電影top250，將資料儲存到MongoDB中。 items.py檔案複製程式碼# -*- coding: utf-8 -*-import scrapy class DoubanItem(scrapy.Item): # d

11月7日python爬蟲框架Scrapy基礎知識

爬蟲最好的方式：下載一頁匹配一頁，以後可以使用多執行緒讓抓取頁面和儲存到資料庫分開進行爬取動態網頁的兩種方式， 1.selenium模擬瀏覽器 2. 在F12的Network中抓包，使用json字串執行爬蟲需要安裝win23 ： pip install pypiwin32

分享《精通Python爬蟲框架Scrapy》中文PDF+英文PDF+原始碼

下載：https://pan.baidu.com/s/13tFIFOhDM8PG9pFUuA8M2g 更多資料：http://blog.51cto.com/3215120 《精通Python爬蟲框架Scrapy》中文PDF+英文PDF+原始碼中文版PDF，364頁，帶目錄和書籤，文字可以複製貼上，彩色

分享《精通Python爬蟲框架Scrapy》中文PDF+英文PDF+源代碼

其中 rap size href 代碼 mar ref png nag 下載：https://pan.baidu.com/s/13tFIFOhDM8PG9pFUuA8M2g 更多資料：http://blog.51cto.com/3215120 《精通Python爬蟲框架Sc

在linux和windows下安裝python爬蟲框架scrapy

一、在linux下安裝 1）先下python，2.7版本的； 2）再下pip.py檔案，然後執行：sudopythonget-pip.py 3）執行命令： pip install scrapy 二、在windows下安裝非常的麻煩... 1）先下python，2.7版本

分享《精通Python爬蟲框架Scrapy》+PDF+源碼+迪米特裏奧斯+李斌

迪米特 pytho aid 源代碼下載 51cto baidu mark roc 下載：https://pan.baidu.com/s/1-ruuQebCnyLVt5L8RATT-g 更多資料：http://blog.51cto.com/14087171 《精通Pytho

Python爬蟲框架Scrapy學習一記——認識Scrapy

Preface

（Preface不知道啥意思？！總認識裡面那張臉吧，前+臉，恩，沒錯，前臉的意思）

1. Scrapy簡介（Scrapy at a glance）

2.Scrapy主要元件：

3.Scrapy執行流程大概如下：

4. Scrapy提供的特性

相關推薦