Spark任務執行流程解析

阿新 • • 發佈：2019-01-14

Spark任務流程如下圖所示：

下面會根據該圖對每個步驟做詳細介紹：

1、RDD Objects

RDD（ResilientDistributed Dataset）叫做分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作集快取在記憶體中，後續的查詢能夠重用工作集，這極大地提升了查詢速度。

>>其中spark Rdd運算元可分為兩類：

1）transformation （轉換）延遲載入，只會記錄元資料資訊

2） action (動作) 當計算任務真正出發action時才會開始計算 >>檢視spark原始碼可知RDD的主要特徵如下： 1) A List of partitions （每個partition在一臺機器上，但一臺機器可以有多個partition） 2) A function for computing each split 3) A list of dependencies on other RDDs 4.) Optionally, a Partitioner for key-value RDDs >>建立RDD有兩種方式 1) 通過HDFS支援的檔案系統建立RDD,RDD裡面沒有真正要計算的資料，只記錄了一些元資料

2) 通過Scala集合或者陣列並行化的方式建立RDD

其中當RDD進行一系列transformation操作後最終遇到Action方法時，DAG圖即確定了邊界，DAG圖形成。

DAG(Directed Acyclic Graph)叫做有向無環圖，原始的RDD通過一系列的轉換就就形成了DAG，根據RDD之間的依賴關係的不同將DAG劃分成不同的Stage，對於窄依賴，partition的轉換處理在Stage中完成計算。對於寬依賴，由於有Shuffle的存在，只能在parent RDD處理完成後，才能開始接下來的計算，因此寬依賴是劃分Stage的依據。

隨後會將DAG提交給DAGScheduler.

2、DAGScheduler會將DAG切分成多個stage,切分依據(寬依賴—shuffledRDD—即資料需要網路傳遞)

>>RDD和它依賴的父RDD的關係有兩種不同的型別，即窄依賴和寬依賴 >>窄依賴指的是每一個父RDD的partition最多被子RDD的一個Partition使用。(獨生子女) >>寬依賴指的是多個子RDD的partition會依賴同一個父RDD的Partition。(超生)

3、將多個stage封裝到TaskSet後提交給TaskScheduler 。 4、隨後TaskScheduler把任務提交給worker執行。注：其中DAGScheduler 和TaskScheduler都在Driver端（開啟spark-shell的那一端），main函式建立SparkContext時會使得driver和Master節點建立連線，Master會根據任務所需資源在叢集中找符合條件的worker. 隨後Master對worker進行RPC通訊，通知worker啟動Executor ，Executor會和Driver 建立連線，隨後的工作worker和Master不再有關係。隨後Driver會向Executor提交Task。

Spark任務執行流程解析

Spark任務執行流程解析

spark的任務執行流程解析

Spark任務執行流程

Spark-任務執行流程

Spark修煉之道（進階篇）——Spark入門到精通：第九節 Spark SQL執行流程解析

死磕 java執行緒系列之執行緒池深入解析——普通任務執行流程

死磕 java執行緒系列之執行緒池深入解析——未來任務執行流程

死磕 java執行緒系列之執行緒池深入解析——定時任務執行流程

Spark Streaming執行流程及原始碼解析（一）

Spark作業執行流程原始碼解析

通過Spark Rest 服務監控Spark任務執行情況

Scrapy框架的執行流程解析

spark筆記2之spark粗略執行流程

一篇讓你看懂Spark任務執行各物件建立時機！

Spark任務執行過程簡介

Spark WordCount 執行流程

spark任務提交流程與管依賴和窄依賴

Quartz任務排程框架--任務執行流程（二）

Spark運算元執行流程詳解之六

Spark應用執行流程

Spark任務執行流程解析

相關推薦