spider----scrapy框架

阿新 • • 發佈：2018-11-07

scrapy初認識
   scrapy是什麼？是一個非常強大的python爬蟲框架，底層語言使用python實現。既然是框架，肯定已經實現了很多其他的功能，使用者只需要將自己的精力放到自己的業務邏輯中即可。多程序、多執行緒、佇列、去重
   安裝：pip install scrapy
   scrapy的工作原理
       引擎（engine）、爬蟲（spiders）、排程器（scheduler）、下載器（downloader）、管道（pipeline）

scrapy圖解

這裡用到生成器的使用,不懂得可以先去看看

（1）建立工程
scrapy startproject xxx

生成爬蟲檔案
cd firstbloodpro
scrapy genspider 爬蟲名字網站域名

認識response物件
		執行scrapy
		cd firstblood/firstblood/spiders
		scrapy crawl 爬蟲名字
		response.text    字串格式內容
		response.body    位元組格式內容
		response.url     對應請求url
		response.headers 響應頭
		response.status  狀態碼

匯出為指定格式檔案

scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

scrapy shell
   是什麼？scrapy的一個除錯工具，用來除錯你的css、xpath、或者連結提取器，在scrapy shell中是正確的，到程式碼中肯定沒問題
   依賴 ipython 是一個更加智慧的python互動環境
       pip install ipython
   一般情況下，在任何終端頁碼直接輸入 scrapy shell url 就可以直接進入除錯頁面，如果進不去，新建一個工程，做一些簡單的配置，然後再工程終端下再執行 scrapy shell <url>

在配置檔案setting中
   LOG_LEVEL = 'ERROR'
   和你的print沒有，只要你print就會打印出來
   LOG_FILE = 'log.txt'

傳送post請求
   如何傳送
   啟動就傳送
       重寫一個方法 start_requests(self)

spider----scrapy框架

spider----scrapy框架

scrapy框架系列 (5) Spider類

scrapy框架中Spider原始碼解析

scrapy框架爬取微博之spider檔案

scrapy框架中多個spider同時執行：scrapyd的部署及使用

Python爬蟲：scrapy框架Spider類引數設定

Scrapy框架-Spider和CrawlSpider的區別

scrapy框架設置代理

初次接觸scrapy框架

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

爬蟲——Scrapy框架案例一：手機APP抓包

爬蟲——Scrapy框架案例二：陽光問政平臺

mac os安裝scrapy框架

安裝scrapy框架

用scrapy框架爬取映客直播用戶頭像

Python3.6下scrapy框架的安裝

初識 scrapy 框架 - 安裝

scrapy框架系列 (2) 一個簡單案例

spider----scrapy框架

相關推薦