Python Scrapy 爬蟲框架例項（一）

阿新 • • 發佈：2018-11-13

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。

注：後續不強調python 版本，預設即為python3.x。

爬取目標

這裡簡單找一個圖片網站，獲取圖片的先關資訊。

該網站網址： http://www.58pic.com/c/

建立專案

終端命令列執行以下命令

scrapy  startproject AdilCrawler

命令執行後，會生成如下結構的專案。

執行結果如下

如上圖提示，cd 到專案下，可以執行 scrapy genspider example example.com 命令，建立名為example,域名為example.com 的爬蟲檔案。

編寫items.py

這裡先簡單抓取圖片的作者名稱、圖片主題等資訊。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class AdilcrawlerItem(scrapy.Item):
    # define the fields for your item here like: 

    # name = scrapy.Field()

    author = scrapy.Field()   # 作者

    theme = scrapy.Field()    # 主題

編寫spider檔案

進入AdilCrawler目錄，使用命令建立一個基礎爬蟲類：

 scrapy genspider  thousandPic www.58pic.com

#  thousandPic為爬蟲名，www.58pic.com為爬蟲作用範圍

執行命令後會在spiders資料夾中建立一個thousandPic.py的檔案，現在開始對其編寫：

# -*- coding: utf-8 -*-
import scrapy
# 爬蟲 小試

class ThousandpicSpider(scrapy.Spider):
    name = 'thousandPic'
    allowed_domains = ['www.58pic.com']
    start_urls = ['http://www.58pic.com/c/']

    def parse(self, response):

        '''
        檢視頁面元素
         /html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()
          因為頁面中 有多張圖，而圖是以 /html/body/div[4]/div[3]/div[i]  其中i  為變數 作為區分的 ，所以為了獲取當前頁面所有的圖
          這裡 不寫 i 程式會遍歷 該 路徑下的所有 圖片。
        '''# author 作者
        # theme  主題
        author = response.xpath('/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()').extract()
        theme = response.xpath('/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()').extract()
        # 使用 爬蟲的log 方法在控制檯輸出爬取的內容。
        self.log(author)
        self.log(theme)
        # 使用遍歷的方式 打印出 爬取的內容，因為當前一頁有20張圖片。
        for i in range(1, 21):
            print(i,' **** ',theme[i - 1], ': ',author[i - 1] )

執行命令,檢視列印結果

scrapy crawl thousandPic

結果如下，其中DEBUG為 log 輸出。

程式碼優化

引入 item AdilcrawlerItem

# -*- coding: utf-8 -*-
import scrapy
# 這裡使用 import 或是 下面from 的方式都行，關鍵要看 當前專案在pycharm的開啟方式，是否是作為一個專案開啟的，建議使用這一種方式。
import AdilCrawler.items as items

# 使用from 這種方式，AdilCrawler 需要作為一個專案開啟。
# from AdilCrawler.items import AdilcrawlerItem


class ThousandpicSpider(scrapy.Spider):
    name = 'thousandPic'
    allowed_domains = ['www.58pic.com']
    start_urls = ['http://www.58pic.com/c/']

    def parse(self, response):

        '''
        檢視頁面元素
         /html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()
          因為頁面中 有多張圖，而圖是以 /html/body/div[4]/div[3]/div[i]  其中i  為變數 作為區分的 ，所以為了獲取當前頁面所有的圖
          這裡 不寫 i 程式會遍歷 該 路徑下的所有 圖片。
        '''

        item = items.AdilcrawlerItem()

        # author 作者
        # theme  主題

        author = response.xpath('/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()').extract()

        theme = response.xpath('/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()').extract()

        item['author'] = author
        item['theme']  = theme

        return item

再次運營爬蟲，執行結果如下

儲存結果到檔案

執行命令如下

scrapy crawl thousandPic -o items.json

會生成如圖的檔案

再次優化，使用 ItemLoader 功能類

使用itemLoader ，以取代雜亂的extract()和xpath()。

程式碼如下：

# -*- coding: utf-8 -*-
import scrapy
from AdilCrawler.items import AdilcrawlerItem

# 匯入 ItemLoader 功能類
from scrapy.loader import ItemLoader

# optimize  優化
# 爬蟲專案優化

class ThousandpicoptimizeSpider(scrapy.Spider):
    name = 'thousandPicOptimize'
    allowed_domains = ['www.58pic.com']
    start_urls = ['http://www.58pic.com/c/']

    def parse(self, response):

        '''
        檢視頁面元素
         /html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()
          因為頁面中 有多張圖，而圖是以 /html/body/div[4]/div[3]/div[i]  其中i  為變數 作為區分的 ，所以為了獲取當前頁面所有的圖
          這裡 不寫 i 程式會遍歷 該 路徑下的所有 圖片。
        '''

        # 使用功能類 itemLoader,以取代 看起來雜亂的 extract() 和 xpath() ，優化如下
        i = ItemLoader(item = AdilcrawlerItem(),response = response )
        # author 作者
        # theme  主題
        i.add_xpath('author','/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()')
        i.add_xpath('theme','/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()')
        return i.load_item()

編寫pipelines檔案

預設pipelines.py 檔案

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html


class Adilcrawler1Pipeline(object):
    def process_item(self, item, spider):
        return item

優化後代碼如下

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class AdilcrawlerPipeline(object):
    '''
        儲存item資料
    '''

    def __init__(self):
        self.filename = open('thousandPic.json','w')

    def process_item(self, item, spider):

        #  ensure_ascii=False 可以解決 json 檔案中 亂碼的問題。
        text = json.dumps(dict(item), ensure_ascii=False) + ',\n'   #  這裡是一個字典一個字典儲存的，後面加個 ',\n' 以便分隔和換行。
        self.filename.write(text)

        return item

    def close_spider(self,spider):
        self.filename.close()

settings檔案設定

修改settings.py配置檔案

找到pipelines 配置進行修改

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
# ITEM_PIPELINES = {
#    'AdilCrawler.pipelines.AdilcrawlerPipeline': 300,
# }

# 啟動pipeline 必須將其加入到“ITEM_PIPLINES”的配置中
# 其中根目錄是tutorial，pipelines是我的pipeline檔名，TutorialPipeline是類名
ITEM_PIPELINES = {
    'AdilCrawler.pipelines.AdilcrawlerPipeline': 300,
}

# 加入後，相當於開啟pipeline，此時在執行爬蟲，會執行對應的pipelines下的類，並執行該類相關的方法，比如這裡上面的儲存資料功能。

執行命令

scrapy crawl thousandPicOptimize

執行後生成如下圖檔案及儲存的資料

使用CrawlSpider類進行翻頁抓取

使用crawl 模板建立一個 CrawlSpider 
執行命令如下

scrapy genspider -t crawl thousandPicPaging www.58pic.com

items.py 檔案不變，檢視爬蟲 thousandPicPaging.py 檔案

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class ThousandpicpagingSpider(CrawlSpider):
    name = 'thousandPicPaging'
    allowed_domains = ['www.58pic.com']
    start_urls = ['http://www.58pic.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i

修改後如下

# -*- coding: utf-8 -*-
import scrapy
# 匯入連結規則匹配類，用來提取符合規則的連線
from scrapy.linkextractors import LinkExtractor
# 匯入CrawlSpider類和Rule
from scrapy.spiders import CrawlSpider, Rule
import AdilCrawler.items as items

class ThousandpicpagingSpider(CrawlSpider):
    name = 'thousandPicPaging'
    allowed_domains = ['www.58pic.com']
    # 修改起始頁地址
    start_urls = ['http://www.58pic.com/c/']

    # Response裡連結的提取規則，返回的符合匹配規則的連結匹配物件的列表
    # http://www.58pic.com/c/1-0-0-03.html  根據翻頁連線地址，找到 相應的 正則表示式   1-0-0-03  -> \S-\S-\S-\S\S  而且 這裡使用 allow
    # 不能使用 restrict_xpaths ，使用 他的話，正則將失效
    page_link = LinkExtractor(allow='http://www.58pic.com/c/\S-\S-\S-\S\S.html', allow_domains='www.58pic.com')

    rules = (
        # 獲取這個列表裡的連結，依次傳送請求，並且繼續跟進，呼叫指定回撥函式處理
        Rule(page_link, callback='parse_item', follow=True),  # 注意這裡的 ',' 要不會報錯
    )


    # 加上這個 方法是為了 解決 parse_item() 不能抓取第一頁資料的問題 parse_start_url 是 CrawlSpider() 類下的方法，這裡重寫一下即可
    def parse_start_url(self, response):
        i = items.AdilcrawlerItem()
        author = response.xpath('/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()').extract()
        theme = response.xpath('/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()').extract()
        i['author'] = author
        i['theme'] = theme

        yield i

    # 指定的回撥函式
    def parse_item(self, response):
        i = items.AdilcrawlerItem()
        author = response.xpath('/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()').extract()
        theme = response.xpath('/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()').extract()
        i['author'] = author
        i['theme'] = theme
        yield i

再次執行

scrapy crawl thousandPicPaging

檢視執行結果，可以看到是有4頁的內容

再次優化引入 ItemLoader 類

# -*- coding: utf-8 -*-
import scrapy
# 匯入連結規則匹配類，用來提取符合規則的連線
from scrapy.linkextractors import LinkExtractor
# 匯入CrawlSpider類和Rule
from scrapy.loader import ItemLoader
from scrapy.spiders import CrawlSpider, Rule
import AdilCrawler.items as items

class ThousandpicpagingopSpider(CrawlSpider):
    name = 'thousandPicPagingOp'
    allowed_domains = ['www.58pic.com']
    # 修改起始頁地址
    start_urls = ['http://www.58pic.com/c/']

    # Response裡連結的提取規則，返回的符合匹配規則的連結匹配物件的列表
    # http://www.58pic.com/c/1-0-0-03.html  根據翻頁連線地址，找到 相應的 正則表示式   1-0-0-03  -> \S-\S-\S-\S\S  而且 這裡使用 allow
    # 不能使用 restrict_xpaths ，使用 他的話，正則將失效
    page_link = LinkExtractor(allow='http://www.58pic.com/c/\S-\S-\S-\S\S.html', allow_domains='www.58pic.com')

    rules = (
        # 獲取這個列表裡的連結，依次傳送請求，並且繼續跟進，呼叫指定回撥函式處理
        Rule(page_link, callback='parse_item', follow=True),  # 注意這裡的 ',' 要不會報錯
    )

    # 加上這個 方法是為了 解決 parse_item() 不能抓取第一頁資料的問題 parse_start_url 是 CrawlSpider() 類下的方法，這裡重寫一下即可
    def parse_start_url(self, response):

        i = ItemLoader(item = items.AdilcrawlerItem(),response = response )
        i.add_xpath('author','/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()')
        i.add_xpath('theme','/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()')

        yield  i.load_item()

    # 指定的回撥函式
    def parse_item(self, response):
        i = ItemLoader(item = items.AdilcrawlerItem(),response = response )
        i.add_xpath('author','/html/body/div[4]/div[3]/div/a/p[2]/span/span[2]/text()')
        i.add_xpath('theme','/html/body/div[4]/div[3]/div/a/p[1]/span[1]/text()')

        yield  i.load_item()

執行結果是一樣的。

最後插播一條線上正則表示式測試工具的廣告，地址： http://tool.oschina.net/regex/

應用如下

至此，簡單完成了一個網站的簡單資訊的爬取。後面還會有其他內容的介紹~

如果你要覺得對你有用的話，請不要吝惜你打賞，這將是我無盡的動力，謝謝！

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

開發一款開源爬蟲框架系列（一）：分析nutch，scrapy的爬蟲設計

1、Scrapy Engine（Scrapy引擎） Scrapy引擎是用來控制整個系統的資料處理流程，並進行事務處理的觸發。更多的詳細內容可以看下面的資料處理流程。 2、Scheduler（排程）排程程式從Scrapy引擎接受請求並排序列入佇列，並在Scrapy引擎發出請求後返還給他們。 3、D

Python學習初級程式設計例項（一）

題目：有1、2、3、4四個數字，能組成多少個互不相同且無重複數字的三位數？都是多少？程式分析：可填在百位、十位、個位的數字都是1、2、3、4。組成所有的排列後再去掉不滿足條件的排列。程式原始碼

五、學習爬蟲框架WebMagic（一）---入門案例

一、WebMagic簡介參見網上其他介紹。二、新增依賴  <dependency> <groupId>us.codecraft</groupId> <artif

scrapy爬蟲框架簡單入門例項（一）

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：主要包括了以下元件：引擎(Scrapy) 用來處理整個系統的資料流, 觸發事務(框架核心) 排程器(

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

Scrapy網路爬蟲系列教程（一） | Scrapy爬蟲框架的開發環境搭建

本文主要介紹一下Scrapy爬蟲框架的開發環境搭建。主要有： Python的安裝，IDE的選擇，MySQL及Navicat的安裝，開發環境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安裝。 Pytho

python - scrapy 爬蟲框架（創建, 持久化, 去重, 深度, cookie）

阻塞持久 xxx dep get site process ide 使用 ## scrapy 依賴 twisted - twisted 是一個基於事件循環的異步非阻塞框架/模塊 ## 項目的創建 1. 創建 project scrapy

selenium + python自動化測試unittest框架學習（一）selenium原理及應用

自動化網上下載安裝 src .cn 基礎 client cnblogs pytho unittest框架的學習得益於蟲師的《selenium+python自動化實踐》這一書，該書講得很詳細，大家可以去看下，我也只學到一點點用於工作中，閑暇時記錄下自己所學才能更加印象深刻

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

python+Django框架運用（一）

version 基礎 nag 推薦 sgi nload lan set 技術分享 Django 介紹：　　django是一個采用Python語言開發的開源框架，2005年發布。早期是做新聞以及內容管理的網站的，提供了非常強大的後管理系統。　　django官網：https

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

如何自己實現一個scrapy框架——框架雛形（一）

#一、瞭解框架 ##1、首先明確一下，什麼是框架：框架是為了為解決一類問題而開發的程式，框架兩個字可以分開理解，框：表示指定解決問題的邊界，明確要解決的問題；架：表達的是能夠提供一定的支撐性和可擴充套件性；從而實現解決這類問題達到快速開發的目的。 ##2、實現

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

既然是構建分散式爬蟲架構，分散式說明爬蟲能在多臺機器同時執行，所以一定是多客戶端的，客戶端主要用於下載網頁，內容會放入佇列，多客戶端就有可能執行在不同的作業系統不同的語言環境，所以我們讓它暫時支援java和scala兩種依賴jvm的語言，不用區分平臺。提到客戶端也一定意味著有服務端的存在，服務端主要用於解

【利用python進行資料分析】準備與例項（一）

我已經分享了本書的ipynb，所以跟著我一起來實驗吧。如果你不懂怎麼開啟ipynb格式的檔案，那也沒關係，anaconda3讓一切變得更簡單（我像是打廣告的）。安裝玩anaconda之後，我們在開始裡就可以找到它的資料夾，裡面有一個Jupyter Notebook，就是它了。

python爬蟲基礎知識（一）--Urllib.request

explain：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest aut

asp webForm 三層框架的簡單例項（一）未完待續--

Note：本文主要通過簡單的例項引導初學者對webForm 三層框架的一個入門，其中也是個自學獲得的理解，難免與大神有出入，敬請批評指導。一、引言 webForm是asp.net 其中的一種web開發方式，其三層框架是經驗獲得最有效的軟體開發模式架構。大體上可分為三層，就

Python Scrapy 爬蟲框架例項（一）

爬取目標

建立專案

編寫items.py

編寫spider檔案

程式碼優化

儲存結果到檔案

再次優化，使用 ItemLoader 功能類

編寫pipelines檔案

settings檔案設定

相關推薦