hadoop yarn 獲取日誌_大資料Spark執行模式：?Yarn模式與配置詳解

阿新 • • 發佈：2020-12-26

大資料Spark執行模式： Yarn模式與配置詳解

在強大的Yarn環境下Spark是如何工作的？(在國內公司中，Yarn使用的非常多)。

1 解壓縮檔案

將spark-3.0.0-bin-hadoop3.2.tgz檔案上傳到linux並解壓縮，放置在指定位置。

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn

2 修改配置檔案

1) 修改hadoop配置檔案/opt/module/hadoop/etc/hadoop/yarn-site.xml, 並分發

yarn.nodemanager.pmem-check-enabledfalseyarn.nodemanager.vmem-check-enabledfalse

2) 修改conf/spark-env.sh，新增JAVA_HOME和YARN_CONF_DIR配置

mv spark-env.sh.template spark-env.sh。。。export JAVA_HOME=/opt/module/jdk1.8.0_212YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

3 啟動HDFS以及YARN叢集

4 提交應用

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.0.0.jar 10

檢視http://hadoop103:8088頁面，點選History，檢視歷史頁面

5 配置歷史伺服器

1) 修改spark-defaults.conf.template檔名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2) 修改spark-default.conf檔案，配置日誌儲存路徑

spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop102:8020/directory

注意：需要啟動hadoop叢集，HDFS上的目錄需要提前存在。

[[email protected] 
 hadoop]# sbin/start-dfs.sh[[email protected] hadoop]# hadoop fs -mkdir /directory

3) 修改spark-env.sh檔案, 新增日誌配置

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory-Dspark.history.retainedApplications=30"

注：寫成一行！！空格隔開！！！

l 引數1含義：WEB UI訪問的埠號為18080

l 引數2含義：指定歷史伺服器日誌儲存路徑

l 引數3含義：指定儲存Application歷史記錄的個數，如果超過這個值，舊的應用程式資訊將被刪除，這個是記憶體中的應用數，而不是頁面上顯示的應用數。

4) 修改spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080spark.history.ui.port=18080

5) 啟動歷史服務

sbin/start-history-server.sh

6) 重新提交應用

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.0.0.jar 10

7) Web頁面檢視日誌：http://hadoop103:8088

你的贊，我都當成喜歡。

專注分享大資料技術&智慧技術&基礎&實戰，乾貨，資料。

關注本號，讓更多人瞭解技術，讓技術造福更多人。歡迎轉發傳播，感謝您的關注，謝謝。

hadoop yarn 獲取日誌_大資料Spark執行模式：?Yarn模式與配置詳解

技術標籤：hadoop yarn 獲取日誌大資料Spark執行模式： Yarn模式與配置詳解在強大的Yarn環境下Spark是如何工作的？(在國內公司中，Yarn使用的非常多)。

nginx伺服器中access_log日誌分析與配置詳解

前言 nginx的log日誌分為：access log 和 error log 其中access log 記錄了哪些使用者，哪些頁面以及使用者瀏覽器、ip和其他的訪問資訊

mysql資料型別和欄位屬性原理與用法詳解

本文例項講述了mysql資料型別和欄位屬性。分享給大家供大家參考，具體如下：

2020阿里最新大資料面試題集合：Spark+Zookeeper+Hadoop+HBase

Hadoop面試題講述HDFS上傳檔案和讀檔案的流程？HDFS在上傳檔案的時候，如果其中一個塊突然損壞了怎麼辦？NameNode的作用？4.NameNode在啟動的時候會做哪些操作？NameNode的HA？Hadoop的作業提交流程？Hado

餘老師帶你學習大資料-Spark快速大資料處理第三章第十一節YARN排程器和實戰編寫

YARN編寫實戰 Yarn排程器配置理想情況下，我們應用對Yarn資源的請求應該立刻得到滿足，但現實情況資源往往是有限的，特別是在一個很繁忙的叢集，一個應用資源的請求經常需要等待一段時間才能的到相應的

大資料Spark實時處理--資料採集（構建日誌伺服器）

資料產生和上報流程 1）客戶端定時採集----->資料加密----->資料傳至日誌伺服器上----->資料解密----->日誌落地磁碟

大資料 Spark 架構

大資料 Spark 架構一．Spark的產生背景起源 1.spark特點 1.1輕量級快速處理 Saprk允許傳統的hadoop叢集中的應用程式在記憶體中已100倍的速度執行即使在磁碟上也比傳統的hadoop快10倍，Spark通過減少對

餘老師帶你學習大資料-Spark快速大資料處理第四章第二節Tez環境搭建

Tez環境搭建編譯Tez 由於在Tez-Yarn的官網上並沒有關於hadoop3.1.2對應的Tez-Yarn安裝包，所以我們進行鍼對性的編譯。先檢測Maven是否安裝了。

餘老師帶你學習大資料-Spark快速大資料處理第四章第一節Tez總體介紹

為什麼選擇Tez 為什麼要用Tez 在分散式系統中要儲存海量的資料，因為構建了一個非商務的機器上能夠執行的hdfs分散式儲存空間，而且這個儲存空間是低成本的並且具有良好的擴充套件性。那麼，很多企業都會將海

餘老師帶你學習大資料-Spark快速大資料處理第三章第十節RM HA配置

RM HA配置檔案詳解 1、啟動resourcemanager的ha。 2、對叢集進行命名。 3、配置resourcemanager的ids，可以定義多個，在本地就定義了兩個rm1和rm2。

筆記：尚矽谷大資料Spark-2019

使用IntelliJ Idea編寫WordCount程式在Spark上執行 import org.apache.spark.SparkContext import org.apache.spark.SparkConf

grouplens上的movielens資料集_大資料基礎【Task7】實踐

技術標籤：grouplens上的movielens資料集計算每個content的CTR。資料集下載：連結：https://pan.baidu.com/s/1YDvBWp35xKLg5zsysEjDGA 提取碼：rpgs

超乾貨！Hadoop帶你深入學習大資料分析~

身處於大資料時代，我們的日常生活離不開大資料。大資料即大量的資料，在一定時間內，沒有辦法用普通常規的工具或是軟體對它所捕獲、儲存、管理和處理的資料集合。

大資料Spark實時處理--實時資料交換1（Kafka）

Kafka概述官網Apache Kafka 傳統上的認知，Kafka是一個訊息佇列這樣的工具。隨著發展，Kafka可以作為流處理平臺。

大資料Spark實時處理--實時流處理1（Spark Streaming API）

正式開始：基於spark流處理框架的學習使用Flume+Kafka+SparkStreaming進行實時日誌分析：如何實時地（準實時，每分鐘分析一次）收集日誌，處理日誌，把處理後的記錄存入Hive中。

圖解大資料 | Spark Dataframe/SQL大資料處理分析

大資料Spark實時處理--實時流處理3（Spark Streaming API）

常用Output操作 1）目前程式碼經過一系列複雜的操作後，結果是輸出在控制檯上的，僅測試使用。我們的結果是要寫到一個地方去的。

大資料Spark實時處理--結構化流1（Structured Streaming）

Spark Streaming的不足 1）基於ProcessingTime 在資料處理過程中，是有幾個時間的： ProcessingTime vs EventTime

大資料Spark實時處理--結構化流2（Structured Streaming）

基於EventTime的視窗統計原理詳解 10分鐘一個視窗，5分鐘更新一次從12:00開始計算，隱藏之前的視窗

大資料Spark實時處理--Echarts資料展示

一、Spring Data 官網：https://spring.io/projects/spring-data 一種資料訪問技術、可訪問關係資料庫和非關係資料庫、map-reduce框架以及基於雲的資料服務。

hadoop yarn 獲取日誌_大資料Spark執行模式：?Yarn模式與配置詳解

大資料Spark執行模式： Yarn模式與配置詳解

1 解壓縮檔案

2 修改配置檔案

3 啟動HDFS以及YARN叢集

4 提交應用

5 配置歷史伺服器

相關推薦