Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

阿新 • • 發佈：2020-04-13

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

步驟01: 建立爬蟲專案

scrapy startproject quotes

步驟02: 建立爬蟲模版

scrapy genspider -t quotes quotes.toscrape.com

步驟03: 配置爬蟲檔案quotes.py

import scrapy
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor

class Quotes(CrawlSpider):
 # 爬蟲名稱
  name = "get_quotes"
  allow_domain = ['quotes.toscrape.com']
  start_urls = ['http://quotes.toscrape.com/']

# 設定規則
  rules = (
    # 對於quotes內容頁URL，呼叫parse_quotes處理，
    # 並以此規則跟進獲取的連結
    Rule(LinkExtractor(allow=r'/page/\d+'),callback='parse_quotes',follow=True),# 對於author內容頁URL，呼叫parse_author處理，提取資料
    Rule(LinkExtractor(allow=r'/author/\w+'),callback='parse_author')
  )

# 提取內容頁資料方法
  def parse_quotes(self,response):
    for quote in response.css(".quote"):
      yield {'content': quote.css('.text::text').extract_first(),'author': quote.css('.author::text').extract_first(),'tags': quote.css('.tag::text').extract()
          }
 # 獲取作者資料方法

  def parse_author(self,response):
    name = response.css('.author-title::text').extract_first()
    author_born_date = response.css('.author-born-date::text').extract_first()
    author_bron_location = response.css('.author-born-location::text').extract_first()
    author_description = response.css('.author-description::text').extract_first()

    return ({'name': name,'author_bron_date': author_born_date,'author_bron_location': author_bron_location,'author_description': author_description
         })

步驟04: 執行爬蟲

scrapy crawl quotes

更多相關內容可檢視本站專題：《Python Socket程式設計技巧總結》、《Python正則表示式用法總結》、《Python資料結構與演算法教程》、《Python函式使用技巧總結》、《Python字串操作技巧彙總》、《Python入門與進階經典教程》及《Python檔案與目錄操作技巧彙總》

希望本文所述對大家基於Scrapy框架的Python程式設計有所幫助。

Python Scrapy框架：通用爬蟲之CrawlSpider用法簡單示例

本文例項講述了Python Scrapy框架：通用爬蟲之CrawlSpider用法。分享給大家供大家參考，具體如下：

Python Scrapy框架第一個入門程式示例

本文例項講述了python Scrapy框架第一個入門程式。分享給大家供大家參考，具體如下：

簡述python Scrapy框架

一、Scrapy框架簡介 Scrapy是用純Python實現一個為了爬取網站資料，提取結構性資料而編寫的應用框架，用途非常廣泛。利用框架，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片

Python資料清洗：提取爬蟲文字中的電話號碼

步驟索引效果展示注意事項程式碼很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對

python-scrapy框架初探

內建支援 selecting and extracting 使用擴充套件的CSS選擇器和XPath表示式從HTML/XML源中獲取資料，並使用正則表示式提取助手方法。

Python測試框架：pytest學習筆記

python通用測試框架大多數人用的是unittest+HTMLTestRunner，這段時間看到了pytest文件，發現這個框架和豐富的plugins很好用，所以來學習下pytest.

python Scrapy框架原理解析

Python 爬蟲包含兩個重要的部分：正則表示式和Scrapy框架的運用，正則表示式對於所有語言都是通用的，網路上可以找到各種資源。

Python Scrapy框架

1.安裝Scrapy框架在目錄下進入命令列，輸入以下安裝Scrapy框架命令 pip install Scrapy

全功能Python測試框架：pytest

python通用測試框架大多數人用的是unittest+HTMLTestRunner，這段時間看到了pytest文件，發現這個框架和豐富的plugins很好用，所以來學習下pytest.

Python學習筆記：行列轉換之pandas.melt函式

一、介紹資料分析中經常需要進行“行列轉化”。 pandas.melt() 函式可以實現將 “寬資料” → “長資料”的一種列轉行變換。

scrapy框架增量式爬蟲

增量式爬蟲概念：監測網站資料更新的情況，只會爬取網站最新更新出來的資料。

python基礎教程：startswith()和endswith()的用法

startswith()方法 Python startswith() 方法用於檢查字串是否是以指定子字串開頭如果是則返回 True，否則返回 False。如果引數 beg 和 end 指定值，則在指定範圍內檢查。

redis資料庫及與python互動用法簡單示例

本文例項講述了redis資料庫及與python互動用法。分享給大家供大家參考，具體如下：

python多繼承(鑽石繼承)問題和解決方法簡單示例

本文例項講述了python多繼承(鑽石繼承)問題和解決方法。分享給大家供大家參考，具體如下：

Python 日誌logging模組用法簡單示例

本文例項講述了Python 日誌logging模組用法。分享給大家供大家參考，具體如下：

python生成器推導式用法簡單示例

本文例項講述了python生成器推導式用法。分享給大家供大家參考，具體如下：

Python 執行緒池用法簡單示例

本文例項講述了Python 執行緒池用法。分享給大家供大家參考，具體如下： # -*- coding:utf-8 -*-

Python 函式用法簡單示例【定義、引數、返回值、函式巢狀】

本文例項講述了Python 函式用法。分享給大家供大家參考，具體如下： demo.py（函式定義）：

持續整合工具之Jenkins pipline簡單示例

　　前文我們主要聊了下jenkins的外掛安裝、使用者及許可權管理、郵件傳送、配置憑證到gitlab上拉取專案和建立普通job；回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13810648.html；今天我們來了解下jenkins的

16.Python網路爬蟲之Scrapy框架（CrawlSpider）

16.Python網路爬蟲之Scrapy框架（CrawlSpider）引入提問：如果想要通過爬蟲程式去爬取”糗百“全站資料新聞資料的話，有幾種實現方法？