Spark任務提交執行全流程詳解

阿新 • • 發佈：2018-11-24

Spark任務提交執行流程

Spark任務的本質是對我們編寫的RDD的依賴關係切分成一個個Stage，將Stage按照分割槽分批次的生成TaskSet傳送到Executor進行任務的執行

Spark任務分兩種：

1、shuffleMapTask：shuffle之後的task

2、resultTask：shuffle之前的task

Spark任務分配有兩種方式：

1，儘量打撒方式（系統預設）

2，儘量集中方式

首先把App打包上傳到叢集上，並開始分配資源及呼叫包中的主類

然後

在Driver端，呼叫SparkSubmit類，內部執行submit–>doRunMain–>通過反射獲取應用程式的主類物件（遠端代理物件）–>執行主類的main方法，這是提交，

Driver端構建SparkConf和SparkContext物件，在SparkContext入口類做了三件事，建立了SparkEnv物件（建立了ActorSystem物件）、TaskScheduler（用來生成併發送task給Executor）、DAGScheduler（用來劃分Stage）
ClientActor將任務資訊封裝到ApplicationDescription物件裡並且提交給Master
Master收到ClientActor提交的任務資訊後，把任務資訊存到記憶體中，然後又將任務資訊放到佇列中（waitingApps）
當開始執行這個任務資訊時，呼叫scheduler方法，進行資源排程。

將排程好的資源封裝到LaunchExecutor併發送給對應的Worker
Worker接收到Master傳送過來的排程資訊（LaunchExecutor）後，將資訊封裝成一個ExecutorRunner物件
封裝成ExecutorRunner後，呼叫ExecutorRunner的Start方法，開始啟動CoarseGrainedExecutorBackend物件（啟動Executor）
Executor啟動後向DriverActor進行反向註冊
與DriverActor註冊成功後，建立一個執行緒池（ThreadPool），用來執行任務
當所有Executor註冊完成後，意味著作業環境準備好了，Driver端會結束與SparkContext物件的初始化

當Driver初始化完成後（建立了一個sc示例），會持續執行我們自己提交的App的程式碼，當觸發了Action的RDD運算元時，就觸發了一個job，這時會呼叫DAGScheduler物件進行Stage劃分
DAGScheduler開始進行Stage劃分
將劃分好的Stage按照分割槽生成一個一個的task，並且封裝到TaskSet物件，然後TaskSet提交到TaskScheduler
TaskScheduler接收到提交過來的TaskSet，拿到一個序列化器對TaskSet序列化，將序列化好的TaskSet封裝到LaunchExecutor並提交到DriverActor
DriverActor把LaunchExecutor傳送到Executor上
Executor接收到DriverActor傳送過來的任務（LaunchExecutor），會將其封裝成TaskRunner，然後從執行緒池中獲取執行緒來執行TaskRunner
TaskRunner拿到反序列化器，反序列化TaskSet，然後執行App程式碼，也就是對RDD分割槽上執行的運算元和自定義函式

Spark任務提交執行全流程詳解

** Spark任務提交執行流程 ** Spark任務的本質是對我們編寫的RDD的依賴關係切分成一個個Stage，將Stage按照分割槽分批次的生成TaskSet傳送到Executor進行任務的執行 Spark任務分兩種： 1、shuffleMapTask：shuffle

擁有 GitHub 開源專案的小夥伴，免費申請 JetBrains 全家桶的全流程詳解

工欲善其事，必先利其器。如果您想要學習 Java、PHP、Ruby、Python、JavaScript、Objective-C、.NET 中的任何一種開發技術，國際知名且屢獲殊榮的 JetBrains 專業開發工具都能助您一臂之力，更棒的是：您可以完全免費使用！ JetBrains 為了表示對開源社群的支

Spark（六）Spark任務提交方式和執行流程

sla handles 解析 nod 就會 clust 它的管理機 nag 一、Spark中的基本概念（1）Application：表示你的應用程序（2）Driver：表示main()函數，創建SparkContext。由SparkContext負責與Cluste

Spark運算元執行流程詳解之六

coalesce顧名思義為合併，就是把多個分割槽的RDD合併成少量分割槽的RDD，這樣可以減少任務排程的時間，但是請記住：合併之後不能保證結果RDD中的每個分割槽的記錄數量是均衡的，因為合併的時候並沒有考慮合併前每個分割槽的記錄數，合併只會減少RDD的分割槽個數，因此並不能利用它來解決資料傾斜的問題。 d

Spark運算元執行流程詳解之八

針對rdd的每個元素利用f進行處理 /** * Applies a function f to all elements of this RDD. */ def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean

Spark運算元執行流程詳解之四

針對RDD的每個分割槽進行處理，返回一個新的RDD /** * Return a new RDD by applying a function to each partition of this RDD. * * `preservesPartitioning` indicates whether t

MapReduce之reducer任務執行流程詳解

第一階段是 Reducer 任務會主動從 Mapper 任務複製其輸出的鍵值對。Mapper 任務可能會有很多，因此 Reducer 會複製多個 Mapper 的輸出。第二階段是把複製到 Reducer 本地資料，全部進行合併，即把分散的資料合併成一個大的資料。再對合並後的資

Spark任務提交方式和執行流程

ref www. ack app cnblogs driver tex src tor 轉自：http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark中的基本概念（1）Application：表示你的應用程序（

PHP實現執行定時任務的幾種思路詳解

編輯 exists sched ebs conn 多系統環境提高效率 pac HP本身是沒有定時功能的，PHP也不能多線程。PHP的定時任務功能必須通過和其他工具結合才能實現，例如WordPress內置了wp-

Struts2框架執行流程詳解

Struts2框架執行流程詳解1． Struts2源碼導入對於struts2框架它的源代碼我們主要使用三部分 struts2核心部分源代碼 org.apache.struts2xxsrc\core\src\main\java struts2的xwork核心部分源代碼src\xwork-core\src\m

PHP定時執行任務的3種方法詳解

round 利用淮北執行多線程 href 等待無限 exec 轉載 https://www.jb51.net/article/76720.htm 更新時間：2015年12月21日 10:38:56 作者：PHP淮北我要評論PHP不支持多線程，有時候處理問

spark任務提交流程與管依賴和窄依賴

spark核心執行流程圖代表4個階段 1構建RDD,進行join,groupBy,filter操作,形成DAG有向無環圖(有方向,沒有閉環),在最後一個action時完成DAG圖,代表著資料流向 2提交DAG為DAGScheduler,DAG排程器,主要是將

Spark ：Master、Worker、Driver、Executor工作流程詳解

1、Spark的部署圖：在基於standalone的Spark叢集，Cluster Manger就是Master。 Master負責分配資源，在叢集啟動時，Driver向Master申請資源，Worker負責監控自己節點的記憶體和CPU等狀況，並向Master彙

MapReduce執行流程詳解

文章轉載自：https://www.cnblogs.com/sunfie/p/4651609.html 一、MapReduce執行過程 MapReduce執行時，首先通過Map讀取HDFS中的資料，然後經過拆分，將每個檔案中的每行資料分拆成鍵值對，最後輸出作為Reduce的輸入，大體執行

【資源排程總綱】Yarn原始碼剖析（零） --- spark任務提交到yarn的流程

前言本系列的目的在於試圖剖析spark任務提交至hadoop yarn上的整個過程，從yarn的啟動，以及spark-submit提交任務到yarn上，和在yarn中啟動任務包括yarn元件之間的通訊，用以提升自身知識儲備，記錄學習的過程為目的，由於個人能力有限文章中或許

springmvc的執行流程詳解

1.什麼是MVC MVC是Model View Controller的縮寫，它是一個設計模式 2.springmvc執行流程詳細介紹第一步：發起請求到前端控制器(DispatcherServlet) 第二步：前端控制器請求HandlerMapping查詢 Handler 可以

MR執行流程詳解

一、在我們提交完MR程式之後，MR程式會先後經歷map，reduce階段，下面我們詳細的來解析一下各個階段 1、map階段，在這個階段主要分如下的幾個步驟read，map,collect，溢寫，combine階段 (1)、在read階段，maptask會呼

.net/c#中棧和堆的區別及程式碼在棧和堆中的執行流程詳解

在.NET framework環境下，當我們的程式碼執行時，記憶體中有兩個地方用來儲存這些程式碼。假如你不曾瞭解，那就讓我來給你介紹棧(Stack)和堆(Heap)。棧和堆都用來幫助我們執行程式碼的，它們駐留在機器記憶體中，且包含所有程式碼執行所需要的資訊。棧負責儲存我們的程式碼執行（或呼叫）路徑,而

spark core原始碼分析15 Shuffle詳解－寫流程

Shuffle是一個比較複雜的過程，有必要詳細剖析一下內部寫的邏輯 ShuffleManager分為SortShuffleManager和HashShuffleManager 一、SortShu

spark任務提交流程(standalone)

spark程式使用spark-submit方式提交，如果是standalone叢集的話，會在提交任務的節點啟動一個driver程序； dirver程序啟動以後，首先是構建sparkcontext，sparkcontext主要包含兩部分：DAGScheduler

Spark任務提交執行全流程詳解

Spark任務提交執行流程

相關推薦