1. 程式人生 > >【Python3 爬蟲學習筆記】部署相關庫的安裝

【Python3 爬蟲學習筆記】部署相關庫的安裝

如果想要大規模抓取資料,那麼一定會用到分散式爬蟲。對於分散式爬蟲來說,我們需要多臺主機,每臺主機有多個爬蟲任務,但是原始碼其實只有一份。
對於Scrapy來說,它有一個擴充套件元件,叫作Scrapyd,我們只需要安裝該擴充套件元件,即可遠端管理Scrapy任務,包括部署原始碼、啟動任務、監聽任務等。另外,還有Scrapyd-Client和Scrapyd API來幫助我們更方便地完成部署和監聽操作。
另外,還有一種部署方式,那就是Docker叢集部署。我們只需要將爬蟲作為Docker映象,只要主機安裝了Docker,就可以直接執行爬蟲,而無需再擔心環境配置、版本問題。

一、Docker的安裝

Docker是一種容器技術,可以將應用和環境等進行打包,形成一個獨立的、類似於iOS的App形式的“應用”。這個應用可以直接被分發到任意一個支援Docker的環境中,通過簡單的命令即可啟動執行。Docker是一種最流行的容器化實現方案,和虛擬化技術類似,它極大地方便了應用服務的部署;又與虛擬化技術不同,它以一種更輕量的方式實現了應用服務的打包。使用Docker,可以讓每個應用彼此相互隔離,在同一臺機器上同時執行多個應用,不過它們彼此之間共享一個作業系統。Docker的優勢在於,它可以在更細的粒度上進行資源管理,也比虛擬化技術更加節約資源。
64位Windows 10,推薦使用Docker for Windows,下載地址:

https://docs.docker.com/docker-for-windows/install/

二、Scrapyd的安裝

安裝

pip3 install scrapyd

三、Scrapyd-Client的安裝

安裝

pip3 install scrapyd-client

四、Scrapyd API的安裝

安裝好了Scrapyd之後,我們可以直接請求它提供的API來獲取當前主機的Scrapy任務執行情況。
安裝

pip3 install python-scrapyd-api

五、Scrapyrt的安裝

Scrapyrt為Scrapy提供了一個排程的HTTP介面,有了它,我們就不需要再執行Scrapy命令而是通過請求一個HTTP介面來排程Scrapy任務,Scrapyrt比Scrapyd更輕量,如果不需要分散式多工的話,可以簡單使用Scrapyrt實現遠端Scrapy任務的排程。
安裝

pip3 install scrapyrt

六、Gerapy的安裝

Gerapy是一個Scrapy分散式管理模組。
安裝

pip3 install gerapy