spark on yarn作業執行流程

阿新 • • 發佈：2018-12-22

Spark是一個分散式資料快速分析專案。它的核心技術是彈性分散式資料集（Resilient Distributed Datasets），提供了比MapReduce豐富的模型，可以快速在記憶體中對資料集進行多次迭代，來支援複雜的資料探勘演算法和圖形計算演算法。

Spark 的計算排程方式，從Mesos到Standalone，即自建Spark計算叢集。雖然Standalone方式效能與穩定性都得到了提升，但自建叢集畢竟資源較少，並需要從雲梯叢集複製資料，不能滿足資料探勘與計算團隊業務需求。而Spark on YARN能讓Spark計算模型在雲梯YARN叢集上執行，直接讀取雲梯上的資料，並充分享受雲梯YARN叢集豐富的計算資源。

Spark on YARN功能理論上從Spark 0.6.0版本開始支援，但實際上還遠未成熟，經過資料探勘與計算團隊長時間的壓力測試，修復了一些相對關鍵的Bug，保證Spark on YARN的穩定性和正確性。

圖3展示了Spark on YARN的作業執行機制。

圖3 Spark on YARN框架

基於YARN的Spark作業首先由客戶端生成作業資訊，提交給ResourceManager，ResourceManager在某一 NodeManager彙報時把AppMaster分配給NodeManager，NodeManager啟動 SparkAppMaster，SparkAppMaster啟動後初始化作業，然後向ResourceManager申請資源，申請到相應資源後 SparkAppMaster通過RPC讓NodeManager啟動相應的SparkExecutor，SparkExecutor向 SparkAppMaster彙報並完成相應的任務。此外，SparkClient會通過AppMaster獲取作業執行狀態。

目前，資料探勘與計算團隊通過Spark on YARN已實現MLR、PageRank和JMeans演算法，其中MLR已作為生產作業執行。

spark on yarn作業執行流程

spark on yarn作業執行流程

spark on yarn作業執行的jar包快取優化

Spark on Yarn作業運行架構原理解析

spark-on-yarn作業提交緩慢優化

Spark on Yarn任務執行的日誌收集

Spark On Yarn 詳細配置流程

Mark ：Hive使用Spark on Yarn作為執行引擎

Spark面試：Spark on yarn 執行流程

Spark on YARN cluster & client 模式作業執行全過程分析

Spark on YARN client模式作業執行全過程分析

Spark on Yarn解密及執行流程

Spark原理框架和作業執行流程

Spark的分散式執行模式 Local，Standalone, Spark on Mesos, Spark on Yarn, Kubernetes

spark學習-執行spark on yarn 例子和檢視日誌.

一 spark on yarn cluster模式提交作業，一直處於ACCEPTED狀態，改了Client模式後就正常了

spark on yarn圖形化任務監控利器：History-server幫你理解spark的任務執行過程

記2018最後一次問題診斷-Spark on Yarn所有任務執行失敗

spark on yarn執行產生缺jar包錯誤及解決辦法

Spark on YARN簡介與執行wordcount（master、slave1和slave2）（博主推薦）

spark on yarn執行產生jar包衝突問題

spark on yarn作業執行流程

相關推薦