【Python3 爬蟲學習筆記】部署相關庫的安裝

阿新 • • 發佈：2018-12-09

如果想要大規模抓取資料，那麼一定會用到分散式爬蟲。對於分散式爬蟲來說，我們需要多臺主機，每臺主機有多個爬蟲任務，但是原始碼其實只有一份。
對於Scrapy來說，它有一個擴充套件元件，叫作Scrapyd，我們只需要安裝該擴充套件元件，即可遠端管理Scrapy任務，包括部署原始碼、啟動任務、監聽任務等。另外，還有Scrapyd-Client和Scrapyd API來幫助我們更方便地完成部署和監聽操作。
另外，還有一種部署方式，那就是Docker叢集部署。我們只需要將爬蟲作為Docker映象，只要主機安裝了Docker，就可以直接執行爬蟲，而無需再擔心環境配置、版本問題。

一、Docker的安裝

Docker是一種容器技術，可以將應用和環境等進行打包，形成一個獨立的、類似於iOS的App形式的“應用”。這個應用可以直接被分發到任意一個支援Docker的環境中，通過簡單的命令即可啟動執行。Docker是一種最流行的容器化實現方案，和虛擬化技術類似，它極大地方便了應用服務的部署；又與虛擬化技術不同，它以一種更輕量的方式實現了應用服務的打包。使用Docker，可以讓每個應用彼此相互隔離，在同一臺機器上同時執行多個應用，不過它們彼此之間共享一個作業系統。Docker的優勢在於，它可以在更細的粒度上進行資源管理，也比虛擬化技術更加節約資源。
64位Windows 10，推薦使用Docker for Windows，下載地址：

https://docs.docker.com/docker-for-windows/install/。

二、Scrapyd的安裝

安裝

pip3 install scrapyd

三、Scrapyd-Client的安裝

安裝

pip3 install scrapyd-client

四、Scrapyd API的安裝

安裝好了Scrapyd之後，我們可以直接請求它提供的API來獲取當前主機的Scrapy任務執行情況。
安裝

pip3 install python-scrapyd-api

五、Scrapyrt的安裝

Scrapyrt為Scrapy提供了一個排程的HTTP介面，有了它，我們就不需要再執行Scrapy命令而是通過請求一個HTTP介面來排程Scrapy任務，Scrapyrt比Scrapyd更輕量，如果不需要分散式多工的話，可以簡單使用Scrapyrt實現遠端Scrapy任務的排程。
安裝

pip3 install scrapyrt

六、Gerapy的安裝

Gerapy是一個Scrapy分散式管理模組。
安裝

pip3 install gerapy

【Python3 爬蟲學習筆記】部署相關庫的安裝

一、Docker的安裝

二、Scrapyd的安裝

三、Scrapyd-Client的安裝

四、Scrapyd API的安裝

五、Scrapyrt的安裝

六、Gerapy的安裝

【Python3 爬蟲學習筆記】部署相關庫的安裝

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

【Python3 爬蟲學習筆記】基本庫的使用 8—— 正則表示式 1

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

【Python3 爬蟲學習筆記】基本庫的使用 12—— 正則表示式 5

【Python3 爬蟲學習筆記】基本庫的使用 11—— 正則表示式 4

【Python3 爬蟲學習筆記】基本庫的使用 10—— 正則表示式 3

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

【Python3 爬蟲學習筆記】解析庫的使用 3 —— Beautiful Soup 1

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

【Python3 爬蟲學習筆記】解析庫的使用 1 —— 使用XPath 1

【Python3 爬蟲學習筆記】基本庫的使用 13 —— 抓取貓眼電影排行

【Python3 爬蟲學習筆記】解析庫的使用 7 —— Beautiful Soup 5

【Python3 爬蟲學習筆記】解析庫的使用 5 —— Beautiful Soup 3

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

【Python3 爬蟲學習筆記】解析庫的使用 10 —— 使用pyquery 3

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

【Python3 爬蟲學習筆記】解析庫的使用 8 —— 使用pyquery 1

【Python3 爬蟲學習筆記】解析庫的使用 11 —— 使用pyquery 4

【Python3 爬蟲學習筆記】資料儲存 1 -- TXT文字儲存

【Python3 爬蟲學習筆記】部署相關庫的安裝

一、Docker的安裝

二、Scrapyd的安裝

三、Scrapyd-Client的安裝

四、Scrapyd API的安裝

五、Scrapyrt的安裝

六、Gerapy的安裝

相關推薦