基於python，scrapy，redis實現主從式（分散式的一種）master-slave爬蟲

阿新 • • 發佈：2019-02-01

前言

這是本人的第一篇部落格，感觸還是很多的，最近在幫朋友做一個分散式爬蟲的論文，遇到很多坑，不過已經一一填平，廢話不多說啦。

分類

(1)主從分散式爬蟲:
由一臺master伺服器, 來提供url的分發, 維護待抓取url的list。由多臺slave伺服器執行網頁抓取功能， slave所抽取的新url，一律由master來處理解析，而slave之間不需要做任何通訊。
(2)對等分散式爬蟲:
由多臺相同的伺服器整合，每臺伺服器可單獨運作，完成爬蟲工作，每臺伺服器之間的分工有一定的運算邏輯(ex: hash)，由運算(配置)的結果，來決定由那臺伺服器做抓取網頁的工作。

本文講解第一種-主從式，只是簡單的闡明，所以master端只負責爬取url儲存到redis資料庫，slave端取出redis裡url佇列進行爬取網頁內容，解析並儲存到mongodb資料庫。

準備

python3（本人使用的是3.6版本）
scrapy
redis

mongodb

安裝教程自行百度，使用到的python模組（這裡是需要使用pip安裝，最好是pip新版本）：

scrapy-redis
pymongo

python連結mongodb例子：

import pymongo as pm

host = 'localhost'
port = 27017

# 連結資料庫
client = pm.MongoClient(host,port)
# 選擇db
db = client.demo
# 選擇集合test
# 注意這裡的集合可以直接使用，如果沒有mongodb會自動建立
db.test.insert({"name":"hello"})

client.close()

實現

我們以58同城為例，爬取二手房，爬取中間有些錯誤但不影響，由於網站整改302重定向了。

1. master端

spider檔案

from scrapy.spider import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from master.items import MasterItem

class myspider(CrawlSpider):

    name = 'master'
    allowed_domains = ['58.com']
    item = MasterItem()
    start_urls = ['http://cd.58.com/ershoufang/']
    rules = (
        Rule(LinkExtractor(allow=('http://cd.58.com/ershoufang/\d{14}x.shtml.*?',)), callback='parse_item',
             follow=True),
    )

    def parse_item(self,response):
        item = self.item
        item['url'] = response.url
        return item

繼承CrawlSpider可以遍歷整個網站，Rule和LinkExtractor限制遍歷那些網頁，allow為允許的網址（正則表示式），callback回撥函式，注意一定不能寫預設的parse函式。

item檔案

import scrapy

class MasterItem(scrapy.Item):
    # define the fields for your item here like:
    url = scrapy.Field()
    pass

只儲存url

middleware檔案

import random
from .useragent import agents

class UserAgentMiddleware(object):

    def process_request(self, request, spider):
        agent = random.choice(agents)
        referer = request.meta.get('referer', None)
        request.headers["User-Agent"] = agent
        request.headers["Referer"] = referer

這裡對預設的middleware檔案進行修改，useragent是自建的檔案，裡面agents=['內容略']陣列，欄位程式碼表示為每次請求隨機一個User-Agent（瀏覽器身份），一定程度避免認為是爬蟲。

pipeline檔案

import redis

class MasterPipeline(object):

    def __init__(self):
        self.redis_url = 'redis://123456:@localhost:6379/'
        self.r = redis.Redis.from_url(self.redis_url,decode_responses=True)

    def process_item(self, item, spider):
        self.r.lpush('myredis:start_urls', item['url'])

儲存url到redis資料庫，redis_url中123456為資料庫密碼，你的redis沒有密碼就不用寫，第二種連結方式：

redis.Redis(host="localhost",port=6379)

預設使用db0，一定要使用db0，否則slave端取不到資料（可能由於本人才疏學淺沒有找到連結其他db供slave端使用的方式）

setting檔案

ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
   'master.middlewares.UserAgentMiddleware': 543,
}
ITEM_PIPELINES = {
   'master.pipelines.MasterPipeline': 300,
}

注意這裡只是部分程式碼不要覆蓋上去，替換相同的地方即可。爬蟲一開始會取得網站的robot.txt檔案（也叫君子協議檔案），得知那些網址可爬，我們設定ROBOTSTXT_OBEY=False不遵循他的協議。

2. slave端

spider檔案

import re
from scrapy_redis.spiders import RedisSpider
from scrapy.http import Request
from slave.items import SlaveItem

class myspider(RedisSpider):
    name = 'slave'
    item = SlaveItem()
    redis_key = 'myredis:start_urls'

    def parse(self, response):
        item = self.item
        item['title'] = response.xpath('//div[@class="house-title"]/h1/text()').extract()[0]
        item['price'] = response.xpath('//div[@id="generalSituation"]//li[1]/span[2]/text()').extract()[0]
        item['type'] = response.xpath("//div[@id='generalSituation']//li[2]/span[2]/text()").extract()[0]
        item['area'] = response.xpath("//div[@id='generalSituation']//li[3]/span[2]/text()").extract()[0]
        item['direct'] = response.xpath("//div[@id='generalSituation']//li[4]/span[2]/text()").extract()[0]
        item['floor'] = response.xpath(
            "//div[@id='generalSituation']//ul[@class='general-item-right']/li[1]/span[2]/text()").extract()[0]
        item['decorat'] = response.xpath(
            "//div[@id='generalSituation']//ul[@class='general-item-right']/li[2]/span[2]/text()").extract()[0]
        item['start'] = response.xpath(
            "//div[@id='generalSituation']//ul[@class='general-item-right']/li[4]/span[2]/text()").extract()[0]
        item['village'] = response.xpath("string(/html/body/div[4]/div[2]/div[2]/ul/li[1]/span[2])").extract()[0]
        item['position'] = response.xpath("string(/html/body/div[4]/div[2]/div[2]/ul/li[2]/span[2])").extract()[0]
        item['phone'] = response.xpath("//div[@id='houseChatEntry']//p[@class='phone-num']/text()").extract()[0]
        txt = response.xpath("/html/head/script[1]/text()").extract()[0]
        pattern = re.compile(".*?____json4fe.brokerUrl = '(.*?)';.*?", re.S)
        result = re.findall(pattern, txt)
        yield Request("http://" + result[0], callback=self.get_user)

    def get_user(self, response):
        item = self.item
        item['user'] = response.xpath("/html/body/div[2]/div[2]/div[1]/div[1]/div/div[1]/text()").extract()[0]
        return item

這裡不在講解xpath的用法，告訴你們一個好方法，瀏覽器F12選中一個元素，右鍵->複製->xpath。用redis_key代替start_urls，‘myredis:start_urls’為redis資料庫db0的鍵，就是我們master端儲存的，直接使用預設回撥函式parse。

item檔案

import scrapy

class SlaveItem(scrapy.Item):
    title = scrapy.Field()
    price = scrapy.Field()
    type = scrapy.Field()
    area = scrapy.Field()
    direct = scrapy.Field()
    floor = scrapy.Field()
    decorat = scrapy.Field()
    start = scrapy.Field()
    village = scrapy.Field()
    position = scrapy.Field()
    user = scrapy.Field()
    phone = scrapy.Field()
    pass

middleware檔案（同master端）

pipeline檔案

import pymongo as pm

host = 'localhost'
port = 27017
client = pm.MongoClient(host,port)
db = client.demo.tongcheng

class SlavePipeline(object):
    def process_item(self, item, spider):
        db.insert(dict(item))

儲存到mongodb資料庫

setting檔案

# 啟用Redis排程儲存請求佇列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
#不清除Redis佇列、這樣可以暫停/恢復 爬取
# SCHEDULER_PERSIST = True
# 確保所有的爬蟲通過Redis去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#指定用於連線redis的URL（可選）
#如果設定此項，則此項優先順序高於設定的REDIS_HOST 和 REDIS_PORT
REDIS_URL = 'redis://[email protected]:6379/'

BOT_NAME = 'slave'

SPIDER_MODULES = ['slave.spiders']
NEWSPIDER_MODULE = 'slave.spiders'

ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
   'slave.middlewares.UserAgentMiddleware': 543,
}
ITEM_PIPELINES = {
   'slave.pipelines.SlavePipeline': 300,
}

加入和替換配置

結果

redis資料庫

mongodb資料庫

最後

本人也是小白，寫的粗糙，有不懂或見解的地方一起交流。

基於python，scrapy，redis實現主從式（分散式的一種）master-slave爬蟲

前言

分類

準備

實現

1. master端

2. slave端

結果

最後

基於python，scrapy，redis實現主從式（分散式的一種）master-slave爬蟲

Python基於皮爾遜系數實現股票預測（多線程）

Redis實現主從複製（Master&Slave）

(Flask Web開發:基於Python的Web應用開發實戰)------學習筆記（第2章）

linux上一鍵安裝redis以及主從配置（指令碼自動安裝）

python版：單機redis實現秒殺，防止超限

Python識別圖形驗證碼，實現自動登陸（附視訊教程）

Nginx+Tomcat搭建叢集，Spring Session+Redis實現Session共享

15.7，哨兵叢集 redis-sentinel主從複製高可用

容器雲環境下，Nginx+tomcat+redis實現web專案叢集

企業實戰-KeepAlived+Redis實現主從熱備、秒級切換

Nginx+keepalived做雙機熱備，實現負載均衡（主主模式）

淺談基於Python的Scrapy爬蟲入門

腳本一鍵安裝redis實現主從復制

Redis實現主從復制（Master&Slave）

基於python+whoosh的全文檢索實現

實現客戶端寫入字串，在服務端翻轉後返回（多執行緒）

mysql5.7 yum安裝及主從配置（從庫只讀），不重啟主庫新增從庫配置

使用思事標籤，實現包含GTD模式的一種方法

關於將aop功能封裝成jar包後，被其他模組依賴後，aop功能無法實現的問題（包掃描）

基於python，scrapy，redis實現主從式（分散式的一種）master-slave爬蟲

前言

分類

準備

實現

1. master端

2. slave端

結果

最後

相關推薦