Zookeeper面試題（未完待續...）

阿新 • • 發佈：2022-03-10

一介紹

原來scrapy的Scheduler維護的是本機的任務佇列（存放Request物件及其回撥函式等資訊）+本機的去重佇列（存放訪問過的url地址）

所以實現分散式爬取的關鍵就是，找一臺專門的主機上執行一個共享的佇列比如Redis，
然後重寫Scrapy的Scheduler，讓新的Scheduler到共享佇列存取Request，並且去除重複的Request請求，所以總結下來，實現分散式的關鍵就是三點：

#1、共享佇列
#2、重寫Scheduler，讓其無論是去重還是任務都去訪問共享佇列
#3、為Scheduler定製去重規則（利用redis的集合型別）

以上三點便是scrapy-redis元件的核心功能

#安裝：
pip3 install scrapy-redis

#原始碼：
D:\python3.6\Lib\site-packages\scrapy_redis

二、scrapy-redis元件

1、只使用scrapy-redis的去重功能

#一、原始碼：D:\python3.6\Lib\site-packages\scrapy_redis\dupefilter.py



#二、配置scrapy使用redis提供的共享去重佇列

#2.1 在settings.py中配置連結Redis
REDIS_HOST = 'localhost'                            # 主機名
REDIS_PORT = 6379                                   # 埠
REDIS_URL = 'redis://user:pass@hostname:9001'       # 連線URL（優先於以上配置）
REDIS_PARAMS  = {}                                  # Redis連線引數
REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定連線Redis的Python模組
REDIS_ENCODING = "utf-8"                            # redis編碼型別  
# 預設配置：D:\python3.6\Lib\site-packages\scrapy_redis\defaults.py

#2.2 讓scrapy使用共享的去重佇列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#使用scrapy-redis提供的去重功能，檢視原始碼會發現是基於Redis的集合實現的

#2.3、需要指定Redis中集合的key名，key=存放不重複Request字串的集合
DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'
#原始碼：dupefilter.py內一行程式碼key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

#2.4、去重規則原始碼分析dupefilter.py
def request_seen(self, request):
    """Returns True if request was already seen.

```
Parameters
----------
request : scrapy.http.Request

Returns
-------
bool

"""
fp = self.request_fingerprint(request) 
# This returns the number of values added, zero if already exists.
added = self.server.sadd(self.key, fp)
return added == 0
```

#2.5、將request請求轉成一串字元後再存入集合

from scrapy.http import Request
from scrapy.utils.request import request_fingerprint

req = Request(url='http://www.baidu.com')
result=request_fingerprint(req)
print(result) #75d6587d87b3f4f3aa574b33dbd69ceeb9eafe7b

#2.6、注意：
    - URL引數位置不同時，計算結果一致；
    - 預設請求頭不在計算範圍，include_headers可以設定指定請求頭
    - 示範：
    from scrapy.utils import request
    from scrapy.http import Request
     

```
req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})
result1 = request.request_fingerprint(req,include_headers=['cookies',])
 
print(result)
 
req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})
 
result2 = request.request_fingerprint(req,include_headers=['cookies',])
 
print(result1 == result2) #True

2、使用scrapy-redis的去重+排程實現分散式爬取

#1、原始碼：D:\python3.6\Lib\site-packages\scrapy_redis\scheduler.py



#2、settings.py配置

# Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"       

# 排程器將不重複的任務用pickle序列化後放入共享任務佇列，預設使用優先順序佇列（預設），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）               
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          

# 對儲存到redis中的request物件進行序列化，預設使用pickle
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"   

# 排程器中請求任務序列化後存放在redis中的key               
SCHEDULER_QUEUE_KEY = '%(spider)s:requests'    

# 是否在關閉時候保留原來的排程器和去重記錄，True=保留，False=清空                     
SCHEDULER_PERSIST = True       

# 是否在開始之前清空 排程器和去重記錄，True=清空，False=不清空                                     
SCHEDULER_FLUSH_ON_START = False    

# 去排程器中獲取資料時，如果為空，最多等待時間（最後沒資料，未獲取到）。如果沒有則立刻返回會造成空迴圈次數過多，cpu佔用率飆升                                
SCHEDULER_IDLE_BEFORE_CLOSE = 10           

# 去重規則，在redis中儲存時對應的key                         
SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'      

# 去重規則對應處理的類，將任務request_fingerprint(request)得到的字串放入去重佇列            
SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

3、持久化

#從目標站點獲取並解析出資料後儲存成item物件，會由引擎交給pipeline進行持久化/儲存到資料庫,scrapy-redis提供了一個pipeline元件，可以幫我們把item存到redis中

#1、將item持久化到redis時，指定key和序列化函式 
REDIS_ITEMS_KEY = '%(spider)s:items'
REDIS_ITEMS_SERIALIZER = 'json.dumps'

#2、使用列表儲存item資料

4、從Redis中獲取起始URL

scrapy程式爬取目標站點，一旦爬取完畢後就結束了，如果目標站點更新內容了，我們想重新爬取，那麼只能再重新啟動scrapy，非常麻煩
scrapy-redis提供了一種供，讓scrapy從redis中獲取起始url，如果沒有scrapy則過一段時間再來取而不會關閉
這樣我們就只需要寫一個簡單的指令碼程式，定期往redis佇列裡放入一個起始url。

#具體配置如下

#1、編寫爬蟲時，起始URL從redis的Key中獲取
REDIS_START_URLS_KEY = '%(name)s:start_urls'
    
#2、獲取起始URL時，去集合中獲取還是去列表中獲取？True，集合；False，列表
REDIS_START_URLS_AS_SET = False    # 獲取起始URL時，如果為True，則使用self.server.spop；如果為False，則使用self.server.lpop

Zookeeper面試題（未完待續...）

什麼是Zookeeper Zookeeper從設計模式角度來理解，是一個基於觀察者模式設計的分散式服務管理框架，它負責儲存和管理大家都關心的資料，然後接受觀察者的註冊，一旦這些資料的狀態發生了變化，Zookeeper就負責通知

Hive面試題（未完待續...）

Hive架構 1. 使用者介面：Client CLI（command-line interface）、JDBC/ODBC(jdbc訪問hive)

Flume面試題（未完待續...）

什麼是Flume Flume 是 Cloudera 提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統。Flume 基於流式架構，靈活簡單。

Kafka面試題（未完待續...）

什麼是Kafka 傳統定義：Kafka是一種高吞吐量的分散式釋出訂閱訊息系統，它可以處理消費者在網站中的所有動作流資料。

C++ 面試考點總結（未完待續）

C++ 面試準備 C++語言基礎知識 sizeof作用： sizeof空型別，返回值為1。原因：宣告空型別時，必須在記憶體中佔一定的空間，否則無法使用這些例項。佔用多少記憶體，由編譯器決定，Visual Studio中，空型別的例項

《網路流24題》（未完待續）

主要是想把這些題幹掉很多都還沒寫，慢慢來某些題目可以不需要網路流的emm就再說吧

關於FastJson漏洞的一切（未完待續）

前言不知道怎麼入的坑，看到了FastJson的反序列漏洞，然後就想復現，復現的過程中我有諸多疑惑，不清楚POC的原理，不知道如何使用intellij IDEA動態的跟蹤除錯，對Java程式碼的極度不熟悉，再加上第一次接觸FastJso

重學flutter第三天下-StatefulWidget的使用（未完待續）

上篇文章介紹了StatelessWidget的使用，這篇文章介紹一下StatefulWidget的使用，類似React的有狀態的元件，使用StatefulWidget元件分為兩步：

每天一點點之資料結構與演算法 - 線性排序：計數排序（Counting sort）（未完待續）

個人覺得，記數排序其實是桶排序的一直特殊情況。當要排序當資料是n，所處的資料範圍不大的時候，最大值為k，我們就可以把資料劃分為k個桶。每個桶內大資料都相同，省去了桶內快排的時間。

React Native iOS 自動打包+釋出歷險記（未完待續）

一、配置環境iOS在環境這塊比安卓的要簡單一些，不用配置環境變數，只需要準備一臺mac（原先想用linux來搞，被勸退）。安裝或升級到xcode最新版。測試下使用xcode工具打離線包，專案先初始化好，然後按標準流程打包即

可惡的BMI指數顯示的作業（未完待續）

技術標籤：無愛之作業python 可惡的BMI指數顯示的作業（未完待續） class BMI: def __init__(self,name,age,weight,height):

gRPC和Protobuf的筆記（未完待續）

通過gRPC和Protobuf實現簡單分散式應用技術簡介 gRPC框架 gRPC框架是一個新式的中立的高效能通訊框架。gRPC框架中的客戶端就像呼叫本地服務一樣呼叫遠端服務。

sql注入學習總結（未完待續）

什麼是SQL注入SQL注入（Sql Injection ）是一種將SQL語句插入或新增到應用(使用者)的輸入引數中的攻擊這些引數傳遞給後臺的SQL資料庫伺服器加以解析並執行哪裡存在SQL注入？

Suricata新增POP3協議解析（未完待續）

1. 生成新協議的解析模板例：建立pop3協議的解析模板 scripts資料夾下 setup-app-layer_原版.py 檔案適用於python3，setup-app-layer.py 適用於python2

2020年最新ZooKeeper面試題（附答案）

2020年最新ZooKeeper面試題 1. ZooKeeper 是什麼？ ZooKeeper 是一個開源的分散式協調服務。它是一個為分散式應用提供一致性服務的軟體，分散式應用程式可以基於 Zookeeper 實現諸如資料釋出/訂閱、負載均衡、命名服

Java 最常見的 208 道面試題（第一模組答案）

目前市面上的面試題存在兩大問題：第一，題目太舊好久沒有更新了，還都停留在 2010 年之前的狀態；第二，近幾年 JDK 更新和釋出都很快，Java 的用法也變了不少，加上 Java 技術棧也加入了很多新的框架，比如 Spring

Java常見的一些經典面試題（附答案解析）

前言：我想每個程式設計師比較頭疼的事情都是：工作擰螺絲，面試造火箭吧。但是又必須經歷這個過程，尤其是弄不清面試官問的問題，如果你準備的不是很充分，會導致面試的時候手足無措。今天這篇文章是從已工作5年的

vue自定義元件遞迴實現樹狀_一道價值25k的騰訊遞迴元件面試題（Vue3 + TS 實現）...

技術標籤：vue自定義元件遞迴實現樹狀前言小夥伴們好久不見，最近剛入職新公司，需求排的很滿，平常是實在沒時間寫文章了，更新頻率會變得比較慢。

【秋招必備】Mybatis面試題（2021最新版）

前言 MyBatis 是一款優秀的持久層框架，它支援定製化 SQL、儲存過程以及高階對映。MyBatis 避免了幾乎所有的 JDBC 程式碼和手動設定引數以及獲取結果集。

【秋招必備】java異常面試題（2021最新版）

前言又是一年跳槽面試季，最近抽時間整理了一份 Java 異常面試題。或許這份面試題還不足以囊括所有 Java 問題，但有了它，我相信足以應對目前市面上絕大部分的 Java 面試了，因為這篇文章不論是從深度還是廣度上來

Zookeeper面試題（未完待續...）

一 介紹

二、scrapy-redis元件

相關推薦

一介紹