Hadoop中maptask數量的決定因素

阿新 • • 發佈：2018-05-13

post for PE wordcount 用戶 submitjob IT 子目錄 val

剛開始接觸hadoop平臺的時候部分初學者對於mapreduce中的maptask的數量是怎麽確定的可能有點迷惑，如果看了jobclient裏面的maptask初始化的那段源碼，那麽就比較清楚了，MapTask的數量是由InputFormat來指定的，InputFormat生成多少個InputSpilt就會有多少個task。

因此，如果剩余Map slot的數量大於InputSpilt的數量，那麽就啟動的Map數量就是InputSplit的數量。如果剩余Map slot的數量小於InputSpilt的數量，那麽就啟動的Map數量就是剩余的Map slot數量。下面來看看常用的InputFormat都是怎麽生成InputSplit的。 FileInputFormat（平時常用的TextInputFormat和KeyValueTextInputFormat都繼承自它）會設置一個hiddenFileFilter把以_和.開頭的文件過濾掉，遍歷input裏面的文件及其子目錄中的所有文件，然後對於每個文件，默認是一個block生成一個InputSplit。因此Map的數量>=文件數量，跟block size有關系，會盡量按block來切分。當我們利用mapreduce來對hbase進行查詢的時候，會采用hbase自帶的TableInputFormat格式，TableInputFormat是默認使用的HBase的InputStream，繼承自TableInputFormatBase。一個InputSplit正好對應了一個Region，因此Map的數量取決於table有多少個region。

轉載來自：http://www.cnblogs www.ysgj1688.com www.feifanyule.cn/ com/xiangyangzhu/

1、MapReduce作業中Map Task數目的確定：

1）MapReduce從HDFS中分割讀取Split文件，通過Inputformat交給Mapper來處理。Split是MapReduce中最小的計算單元，一個Split文件對應一個Map Task
2）默認情況下HDFS種的一個block，對應一個Split。
3）當執行Wordcount時：
（1）一個輸入文件小雨64MB，默認情況下則保存在hdfs上的一個block中，對應一個Split文件，所以將產生一個Map Task。
（2）如果輸入一個文件為150MB，默認情況下保存在HDFS上的三個block中，對應三個Split文件，所以將產生三個Map Task。
（3）如果有輸入三個文件都小於64MB，默認情況下會保存在三個不同的block中，也將產生三個Map Task。
4）用戶可自行指定block與split的關系，HDSF中的一個block，一個Split也可以對應多個block。Split與block的關系都是一對多的關系。
5）總結MapReduce作業中的Map Task數目是由：
（1）輸入文件的個數與大小
（2）hadoop設置split與block的關系來決定。

2、MapReduce作業中Reduce Task數目的指定：

1）JobClient類中submitJobInternal方法中指定：int reduces=jobCopy.getNumReduceTasks();

2）而JobConf類中，public int getNumReduceTasks(www.thd178.com){return geInt("mapred.reduce.tasks",1)}
因此，Reduce Task數目是由mapred.reduce.tasks指定，如果不指定則默認為1.
這就很好解釋了wordcount程序中的reduce數量為1的問題，這時候map階段的partition（分區）就為1了。

Hadoop中maptask數量的決定因素

post for PE wordcount 用戶 submitjob IT 子目錄 val 剛開始接觸hadoop平臺的時候部分初學者對於mapreduce中的maptask的數量是怎麽確定的可能有點迷惑，如果看了jobclient裏面的maptask初始化的那段源碼，

Hadoop中maptask數量的決定因素

1、MapReduce作業中Map Task數目的確定：

2、MapReduce作業中Reduce Task數目的指定：

Hadoop中maptask數量的決定因素

Hadoop中MapTask的並行度的決定機制

Hadoop中split數量和reader讀取原則

Hadoop中split數量計演算法則（原始碼跟蹤）

hadoop中map數量的確定及host的選擇

Hadoop進階之MR中MapTask並行度決定機制及切片機制

hadoop中map和reduce的數量設定問題

徹底明白Hadoop map和reduce的個數決定因素

hadoop 中map、reduce數量對mapreduce執行速度的影響

深度分析如何在Hadoop中控制Map的數量

hadoop中map和reduce的數量設定

Hadoop中Hbase的體系結構

error：hadoop 中沒有etc目錄

介紹hadoop中的hadoop和hdfs命令

Hadoop中的CRC數據校驗文件

Hadoop 中的 (side data) 邊數據

Hadoop介紹-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker

maprduce 中reduce數量

hadoop中unhealthynodes的問題解決

淺談六類布線施工過程中要考慮的因素-深圳蘇山偉達

Hadoop中maptask數量的決定因素

1、MapReduce作業中Map Task數目的確定：

2、MapReduce作業中Reduce Task數目的指定：

相關推薦