Hadoop異常解決：Yarn Failed to launch container

阿新 • • 發佈：2020-11-03

問題

在伺服器上起了HDFS+Yarn，然後提交了一個作業：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2

但是執行的時候報錯，Console的log如下：

2020-11-03 14:31:44,840 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: 
Failed to launch container.

java.io.FileNotFoundException: 

File /home/hadoop/app/tmp/nm-local-dir/usercache/root/appcache/application_1604385076312_0001/container_1604385076312_0001_02_000001 
does not exist
	at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:606)
	at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:819)
	at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:596)
	at org.apache.hadoop.fs.FileSystem.primitiveMkdir(FileSystem.java:1052)
	at org.apache.hadoop.fs.DelegateToFileSystem.mkdir(DelegateToFileSystem.java:161)
	at org.apache.hadoop.fs.FilterFs.mkdir(FilterFs.java:197)
	at org.apache.hadoop.fs.FileContext$4.next(FileContext.java:730)
	at org.apache.hadoop.fs.FileContext$4.next(FileContext.java:726)
	at org.apache.hadoop.fs.FSLinkResolver.resolve(FSLinkResolver.java:90)
	at org.apache.hadoop.fs.FileContext.mkdir(FileContext.java:726)
	at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.createDir(DefaultContainerExecutor.java:562)
	at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:161)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

檢視NodeManager的log，也是類似的資訊：

WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Failed to launch container.

簡單分析可知：（參考Yarn的作業流程圖，）程式在比較早期就掛了，即 RM 在 NM 上啟動 Container，但是起不來。

分析1

看了一會log，發現有的地方寫到關於Container記憶體大小的，動輒就是1G多。（好像，預設分配給Container的記憶體大小是1024MB）

我的伺服器的配置是： 1 core + 2GB memory。算上已經執行的程式，剩下的也就600MB的記憶體。

所以，我的第一個思路是：會不會Container因為記憶體不足起不來？

搗鼓了一陣，把記憶體使用改小了。

yarn-site.xml

<property>
      <name>yarn.nodemanager.resource.memory-mb</name>
      <value>512</value>
</property>
	
<property>
      <name>yarn.scheduler.minimum-allocation-mb</name>
      <value>256</value>
</property>
	
<property>
      <name>yarn.scheduler.maximum-allocation-mb</name>
      <value>256</value>
</property>
	
<property>
      <name>yarn.app.mapreduce.am.resource.mb</name>
      <value>128</value>
</property>

mapr-site.xml

<property>
      <name>mapreduce.map.memory.mb</name>
      <value>128</value>
</property>
	
<property>
      <name>mapreduce.reduce.memory.mb</name>
      <value>128</value>
</property>
	
<property>
      <name>mapreduce.map.java.opts</name>
      <value>-Xmx128m</value>
</property>
	
<property>
      <name>mapreduce.reduce.java.opts</name>
      <value>-Xmx128m</value>
</property>

重啟再試一遍，還是不行。看來不是因為這個原因。改回來。

（後來看log可以知道：Container的記憶體管理分為實際實體記憶體佔用和虛擬記憶體佔用。執行這個exmaple程式，實體記憶體可能只有十幾MB，虛擬記憶體佔用可達幾個GB）

分析2

還是回到log中來。

DefaultContainerExecutor想要launchContainer，但是 somehow 有個檔案路徑不存在，所以需要createDir。

但是為什麼建立資料夾的操作最終會報檔案不存在的Error呢？繼續分析。

一路呼叫Hadoop自帶的工具類建立資料夾，最終，到了FileSystem.primitiveMkdir中，會做一個判斷，parent dir存不存在，原始碼如下：

protected void primitiveMkdir(Path f, FsPermission absolutePermission, 
				boolean createParent)
throws IOException {

if (!createParent) { // parent must exist.
  // since the this.mkdirs makes parent dirs automatically
  // we must throw exception if parent does not exist.
  final FileStatus stat = getFileStatus(f.getParent());
  if (stat == null) {
	throw new FileNotFoundException("Missing parent:" + f);
  }
  if (!stat.isDirectory()) {
	throw new ParentNotDirectoryException("parent is not a dir");
  }
  // parent does exist - go ahead with mkdir of leaf
}
// Default impl is to assume that permissions do not matter and hence
// calling the regular mkdirs is good enough.
// FSs that implement permissions should override this.
if (!this.mkdirs(f, absolutePermission)) {
  throw new IOException("mkdir of "+ f + " failed");
}
}

也就是在這個時候，getFileStatus(f.getParent());這裡報錯了。

報錯的路徑是這個：

/home/hadoop/app/tmp/nm-local-dir/usercache/root/appcache/application_1604385076312_0001/container_1604385076312_0001_02_000001

在系統搜了一下確實沒有。除此之外，我們還知道，這個是一個parent dir，裡面還有東西的。

這個container_1604385076312_0001_02_000001到底在哪裡呢？

搜了一圈，發現在這個路徑下：

/home/hadoop/app/tmp/nm-local-dir/nmPrivate/application_1604385076312_0001/container_1604385076312_0001_02_000001

注意：一個是nm-local-dir/usercache，一個是nm-local-dir/nmPrivate。

並且，在container_1604385076312_0001_02_000001路徑下，我們可以發現兩個檔案：

container_1604385076312_0001_02_000001.tokens
launch_container.sh

所以，我們大概能猜想到背後發生的事：Yarn想要呼叫launch_container.sh這個檔案啟動一個Contianer。但是somehow由於路徑不對，沒有找到這個檔案。

關於這個default路徑，我看了DefaultContainerExecutor.launchContainer的原始碼，猜想是使用的DEFAULT_CONTAINER_TEMP_DIR。

 Path tmpDir = new Path(containerWorkDir,
   YarnConfiguration.DEFAULT_CONTAINER_TEMP_DIR);
 createDir(tmpDir, dirPerm, false, user);

具體是怎麼找的我就沒有深究了，反正這裡把它換了試一下先。

修改

這裡，我所作的修改是：換一個路徑，手動指定 Yarn 的local dir。

yarn-site.xml

<property>
      <name>yarn.nodemanager.local-dirs</name>
      <value>/home/hadoop/yarn/nm/localdir</value>
</property>

重啟再試，成功!

觀察 NM 的log，能看到如下語句，顯示地指定了執行bash命令的路徑。

INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: 
launchContainer: 
[bash, /home/hadoop/yarn/nm/localdir/usercache/root/appcache/application_1604388443689_0001/container_1604388443689_0001_01_000005/default_container_executor.sh]

參考

Yarn簡單介紹及記憶體配置 https://www.cnblogs.com/oumiga/articles/4174502.html
Hadoop YARN – 如何限制requestedMemory https://www.qedev.com/bigdata/231265.html
yarn-site.xml 配置說明 https://www.jianshu.com/p/35374384a1aa
DefaultContainerExecutor 與 LinuxContainerExecutor https://blog.csdn.net/zhanglong_4444/article/details/89380307

Hadoop異常解決：Yarn Failed to launch container

問題在伺服器上起了HDFS+Yarn，然後提交了一個作業： hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 1 2

puppeteer外掛啟動chrome失敗： Error: Failed to launch the browser process!

最近使用puppeteer外掛啟動chrome失敗，有的系統無法啟動喚起chrome 自己膝上型電腦安裝有360會提示被阻止，允許執行即可呼叫成功，公司電腦，沒有任何提示直接無法啟動（公司防毒軟體無法配置關閉）

prerender-spa-plugin出現Failed to launch chrome 解決方案

在Linux （CentOS）系統下，打包帶prerender-spa-plugin這個預渲染外掛的內容，出現如下報錯

kafka 異常：ERROR Failed to clean up log for __consumer_offsets-30 in dir /tmp/kafka-logs due to IOExce

技術標籤：kafka 問題概述 kafka程序不定期掛掉。ERROR Failed to clean up log for __consumer_offsets-30 in dir /tmp/kafka-logs due to IOException (kafka.server.LogDirFailureChannel)，報錯如下

執行程式報錯：SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".解決方案

報錯內容： SLF4J: Failed to load class \"org.slf4j.impl.StaticLoggerBinder\". SLF4J: Defaulting to no-operation (NOP) logger implementation

Centos8報錯：Error: Failed to download metadata for repo 'base' 的解決辦法

Centos8報錯：Error: Failed to download metadata for repo \'base\' 檢視阿里雲官網上的說明：https://developer.aliyun.com/mirror/centos?spm=a2c6h.13651102.0.0.66c71b11q4E0g4

錯誤1：APPLICATION FAILED TO START

原因：因為之前的專案配置了druid，所以之後的專案建立後執行是@SpringBootApplication會自動裝配autoconfig，他就需要配置資料來源也就是druid。

解決 SpringBoot 中 Failed to load ApplicationContext 報錯

技術標籤：問題解決spring boot 解決 SpringBoot 中 Failed to load ApplicationContext 報錯 1. 原因2. 基本解決方法

異常解決：swagger2.9.2 報java.lang.NumberFormatException: For input string: ““...

swagger2.9.2 報java.lang.NumberFormatException: For input string: ““... springfox-swagger 2.9.2 內建的swagger-models1.5.20 會引起Long型別格式轉換異常，報錯如下java.lang.NumberFormatException: For in

homebrew 安裝提示： (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused

技術標籤：brewhomebrewmac brew 安裝失敗問題描述：在curl 的時候就會報超時問題，報錯如下

本地專案push到GitHub出錯：error: failed to push some refs to ‘github.com:xxxxi/supermall.git‘

技術標籤：前端軟體github 本地專案push到GitHub出錯：出錯提示如下：（1）我在命令列執行這句話時，git remote add origin [email protected]:你的github名/supermall.git ，出錯提示：error: failed t

kafka群起指令碼啟動不了：nohup: failed to run command `java‘: No such file or directory

技術標籤：kafkashell kafka群起指令碼啟動不了：nohup: failed to run command `java’: No such file or directory

k8s 建立pod後，pod日誌報錯：network: failed to set bridge addr: "cni0" already has an IP address

一、現象 [root@master69 nginx-demo]# kubectl get pods NAMEREADYSTATUSRESTARTSAGE nginx-demo-deployment-59fbc48594-fq5kr0/1ContainerCreating026s

解決Tensorflow ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray)

問題描述在將一個數組送入tensorflow訓練時，報錯如下： ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray)

hadoop入門(15)：YARN

簡介 apache hadoop yarn（yet another Resource Negotiator）是一種新的hadoop資源管理器。

virsh list報錯： error: failed to connect to the hypervisor

檢視本地kvm虛機時，發現無法檢視，出現報錯 # virsh list error: failed to connect to the hypervisor

kubelet failed to get container info for "/system.slice/docker.service": unknown container "/system.slice/docker.service"錯誤

kubernetes版本1.18.6 描述：在檢視kubelet狀態或是在檢視日誌時有以下錯誤 Jun 28 14:05:08 cwztapp131 kubelet[775]: E0628 14:05:08.185793 775 summary_sys_containers.go:47] Failed to get system container

kubernetes：關於建立pod中結點始終處於creating狀態的問題解決（Error syncing pod, skipping: failed to "StartContainer" for "POD" with ErrImagePull: "image pull failed for registry.access.redhat.com

通過以下程式碼獲得certificates，注意，必須對於master結點和兩個node結點機器上都需要獲取

原創: druid配置及解決：Failed to bind properties under 'spring.datasource' to javax.sql.DataSource

如何沒有新增依賴log4依賴包會報錯：Failed to bind properties under \'spring.datasource\' to javax.sql.DataSource

jenkins:配置金鑰時報錯的解決：Failed to add SSH key. Message invalid privatekey(Jenkins 2.257)

一，報錯的現象: 1,提示資訊: jenkins.plugins.publish_over.BapPublisherException: Failed to add SSH key. Message [invalid privatekey: [B@60373f7]

Hadoop異常解決：Yarn Failed to launch container

問題

分析1

分析2

修改

參考

相關推薦