1. 程式人生 > >python學習筆記,一起學習的加QQ2737499951

python學習筆記,一起學習的加QQ2737499951

win10如何使用scrapyd部署爬蟲

scrapy爬蟲寫好後,一般需要用命令列執行。scrapyd部署能夠在網頁端檢視正在執行的任務,也能新建爬蟲任務,和終止爬蟲任務。優點:在網頁端管理爬蟲,可以控制多個爬蟲任務。

1.安裝

pip install scrapydpip install scrapyd-client

2.基本使用

2.1 執行scrapyd

首先切換命令列路徑到Scrapy專案的根目錄下, 開啟scrapyd服務,輸入scrapyd,將scrapyd執行起來

然後新開一個終端切換路徑至scrapy工程根目錄,釋出scrapyd專案,執行命令:scrapd-deploy -p projectName

驗證是否釋出成功:scrapyd-deploy -l

2.2 釋出工程到scrapyd

上述命令已經開啟服務,並建立了爬蟲專案

2.3 建立爬蟲任務

命令列輸入

curl http://localhost:6800/schedule.json -d project=projectName -d spider=spiderName

3. 檢視爬蟲任務

4.修改scrapyd的配置

scrapyd預設保留5條日誌。 預設繫結地址為127.0.0.1。如果是在伺服器部署爬蟲需要在其他主機訪問則修改地址為0.0.0.0pip show scrapyd找到scrapyd的位置

一些常用命令:

重啟scrapyd的方法

(1)ps aux|grep scrapyd:找到scrapyd的pid

(2) kill -9 pid 或者kill pid

(3)screen -S scrapyd 新建一個程序

(4) 在程序裡啟動scrapyd

/usr/bin/python /usr/local/bin/scrapyd

(5)ctrl+A+D退出程序

(6)改工程的scrapy.cfg檔案,如果url有#號,把url前的#去掉

(7)可以scrapyd-deploy工程了

殺死screen會話 screen -X -S pid quit 其中pid為screen程序號 screen -ls 列出現有screen會話列表 screen -r pid 恢復到某個screen會話 Ctrl+a +d 保留會話離開當前視窗