hadoop yarn 獲取日誌_大資料Spark執行模式:?Yarn模式與配置詳解
技術標籤:hadoop yarn 獲取日誌
大資料Spark執行模式: Yarn模式與配置詳解
在強大的Yarn環境下Spark是如何工作的?(在國內公司中,Yarn使用的非常多)。
1 解壓縮檔案
將spark-3.0.0-bin-hadoop3.2.tgz檔案上傳到linux並解壓縮,放置在指定位置。
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn
2 修改配置檔案
1) 修改hadoop配置檔案/opt/module/hadoop/etc/hadoop/yarn-site.xml, 並分發
yarn.nodemanager.pmem-check-enabledfalseyarn.nodemanager.vmem-check-enabledfalse
2) 修改conf/spark-env.sh,新增JAVA_HOME和YARN_CONF_DIR配置
mv spark-env.sh.template spark-env.sh。。。export JAVA_HOME=/opt/module/jdk1.8.0_212YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop
3 啟動HDFS以及YARN叢集
4 提交應用
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.0.jar 10
檢視http://hadoop103:8088頁面,點選History,檢視歷史頁面
5 配置歷史伺服器
1) 修改spark-defaults.conf.template檔名為spark-defaults.conf
mv spark-defaults.conf.template spark-defaults.conf
2) 修改spark-default.conf檔案,配置日誌儲存路徑
spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop102:8020/directory
注意:需要啟動hadoop叢集,HDFS上的目錄需要提前存在。
[[email protected] hadoop]# sbin/start-dfs.sh[[email protected] hadoop]# hadoop fs -mkdir /directory
3) 修改spark-env.sh檔案, 新增日誌配置
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory-Dspark.history.retainedApplications=30"
注:寫成一行!!空格隔開!!!
l 引數1含義:WEB UI訪問的埠號為18080
l 引數2含義:指定歷史伺服器日誌儲存路徑
l 引數3含義:指定儲存Application歷史記錄的個數,如果超過這個值,舊的應用程式資訊將被刪除,這個是記憶體中的應用數,而不是頁面上顯示的應用數。
4) 修改spark-defaults.conf
spark.yarn.historyServer.address=hadoop102:18080spark.history.ui.port=18080
5) 啟動歷史服務
sbin/start-history-server.sh
6) 重新提交應用
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.0.0.jar 10
7) Web頁面檢視日誌:http://hadoop103:8088
你的贊,我都當成喜歡。
專注分享大資料技術&智慧技術&基礎&實戰,乾貨,資料。
關注本號,讓更多人瞭解技術,讓技術造福更多人。歡迎轉發傳播,感謝您的關注,謝謝。