python之爬蟲的入門06------scrapy框架

阿新 • • 發佈：2018-11-13

1、安裝scrapy框架：
pip install scrapy

2、scrapy原理圖：
在這裡插入圖片描述

3、介紹：

Scrapy Engine引擎
引擎負責控制資料流在系統中所有元件中流動，並在相應動作發生時觸發事件。

排程器(Scheduler)
排程器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引擎。

下載器(Downloader)
下載器負責獲取頁面資料並提供給引擎，而後提供給spider。

Spiders（爬蟲）
Spider是Scrapy使用者編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每個spider負責處理一個特定(或一些)網站。

Item Pipeline
Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到資料庫中)。

下載器中介軟體(Downloader middlewares)
下載器中介軟體是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response（也包括引擎傳遞給下載器的Request）。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。
一句話總結就是：處理下載請求部分

Spider中介軟體(Spider middlewares)
Spider中介軟體是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。
一句話總結就是：處理解析部分

4、資料量過程：

1.引擎開啟一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。

2.引擎從Spider中獲取到第一個要爬取的URL並在排程器(Scheduler)以Request排程。

3.引擎向排程器請求下一個要爬取的URL。

4.排程器返回下一個要爬取的URL給引擎，引擎將URL通過下載中介軟體(請求(request)方向)轉發給下載器(Downloader)。

5.一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中介軟體(返回(response)方向)傳送給引擎。

6.引擎從下載器中接收到Response並通過Spider中介軟體(輸入方向)傳送給Spider處理。

7.Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。

8.引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給排程器。

9.(從第二步)重複直到排程器中沒有更多地request，引擎關閉該網站。

5、建立一個scrapy專案：
scrapy startproject mySpider
#mySpider是爬蟲專案名字

6、進入專案，建立爬蟲：
scrapy genspider xxx url
#xxx是爬蟲的名字，不能重複。url是你需要爬取的網頁的url地址

7、用pycharm開啟專案檔案，配置setting：
ROBOTSTXT_OBEY = False
USER_AGENT = ‘你的瀏覽器核心型號’

8、開啟爬蟲開始第一次爬取HTML頁面：
scrapy crawl xxx
#xxx是爬蟲名字

看到200的狀態碼：
(200) <GET https://hr.tencent.com/position.php> (referer: None)
就是爬取已經成功了！！！

class Tx01Spider(scrapy.Spider):
    name = "tx01"
    allowed_domains = ["https://hr.tencent.com"]
    start_urls = (
        'https://hr.tencent.com/position.php',
    )

    def parse(self, response):
        print('爬取成功')

在spider的tx01.py 的 parse裡面對取到的response進行資料提取

python之爬蟲的入門06------scrapy框架

python之爬蟲的入門06------scrapy框架

python爬蟲入門(六) Scrapy框架之原理介紹

python爬蟲學習筆記-scrapy框架之start_url

Python爬蟲（入門+進階）學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

運維學python之爬蟲高級篇（六）scrapy模擬登陸

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

python之爬蟲的入門04------爬蟲代理ip、儲存為CSV表格

python之爬蟲的入門03------post請求偽造、程式猿是怎麼玩有道翻譯

python之爬蟲的入門02------爬取圖片、異常處理

python之爬蟲的入門01------爬蟲原理、爬蟲偽裝

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Python爬蟲 --- 2.3 Scrapy 框架的簡單使用

python爬蟲(16)使用scrapy框架爬取頂點小說網

自學Python之路--入門菜鳥的菜鳥篇：爬蟲

爬蟲開發11.scrapy框架之CrawlSpider操作

爬蟲開發9.scrapy框架之遞歸解析和post請求

爬蟲開發8.scrapy框架之持久化操作

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

自學python之爬蟲3股票數據爬蟲

python之爬蟲的入門06------scrapy框架

相關推薦