1. 程式人生 > >【圖文解析 】MapReduce 全域性計數器

【圖文解析 】MapReduce 全域性計數器

MapReduce 全域性計數器 


1、介紹 
計數器是用來記錄 job 的執行進度和狀態的。它的作用可以理解為日誌。我們可以在程式的 某個位置插入計數器,記錄資料或者進度的變化情況。 
 
MapReduce 計數器(Counter)為我們提供一個視窗,用於觀察 MapReduce Job 執行期的 各種細節資料。對 MapReduce 效能調優很有幫助,MapReduce 效能優化的評估大部分都是 基於這些 Counter 的數值表現出來的。 
 
MapReduce 自帶了許多預設 Counter,現在我們來分析這些預設 Counter 的含義,方便大 家觀察 Job 結果,如輸入的位元組數、輸出的位元組數、Map 端輸入/輸出的位元組數和條數、 Reduce 端的輸入/輸出的位元組數和條數等 
2、需求 


在實際生產程式碼中,常常需要將資料處理過程中遇到的不合規資料行進行全域性計數,類似這 種需求可以藉助 MapReduce 框架中提供的全域性計數器來實現 
3、例項 
以下是一個利用全域性計數器來統計一個目錄下所有檔案出現的單詞總數和總行數