快速瞭解HDFS、NameNode和DataNode

阿新 • • 發佈：2018-11-12

概覽

HDFS特點：

① 儲存多個副本，且提供容錯機制，副本丟失或宕機自動恢復。預設存3份。

② 執行在廉價的機器上。

③ 適合大資料的處理。因為小檔案也佔用一個塊，小檔案越多（1000個1k檔案）塊越多，NameNode壓力越大。

如：將一個大檔案分成三塊A、B、C的儲存方式

PS：資料複製原則：

除了最後一個塊之外的檔案中的所有塊都是相同的大小。

HDFS的放置策略：

是將一個副本放在本地機架中的一個節點上，另一個位於不同（遠端）機架中的節點上，而最後一個位於不同節點上遠端機架。

涉及到的屬性：

塊大小：Hadoop1版本里預設為64M，Hadoop2版本里預設為128M

複製因子：每個檔案加上其檔案副本的份數

HDFS的基本結構

如上圖所示，HDFS基本結構分NameNode、SecondaryNameNode、DataNode這幾個。

NameNode：是Master節點，有點類似Linux裡的根目錄。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間；

SecondaryNameNode：儲存著NameNode的部分資訊（不是全部資訊NameNode宕掉之後恢復資料用），是NameNode的冷備份；合併fsimage和edits然後再發給namenode。（防止edits過大的一種解決方案）

DataNode

：負責儲存client發來的資料塊block；執行資料塊的讀寫操作。是NameNode的小弟。

熱備份：b是a的熱備份，如果a壞掉。那麼b馬上執行代替a的工作。

冷備份：b是a的冷備份，如果a壞掉。那麼b不能馬上代替a工作。但是b上儲存a的一些資訊，減少a壞掉之後的損失。

fsimage:元資料映象檔案（檔案系統的目錄樹。）

edits：元資料的操作日誌（針對檔案系統做的修改操作記錄）

namenode記憶體中儲存的是=fsimage+edits。

NameNode詳解

作用：

Namenode起一個統領的作用，使用者通過namenode來實現對其他資料的訪問和操作，類似於root根目錄的感覺。

Namenode包含：目錄與資料塊之間的關係（靠fsimage和edits來實現），資料塊和節點之間的關係

fsimage檔案與edits檔案是Namenode結點上的核心檔案。

Namenode中僅僅儲存目錄樹資訊，而關於BLOCK的位置資訊則是從各個Datanode上傳到Namenode上的。

Namenode的目錄樹資訊就是物理的儲存在fsimage這個檔案中的，當Namenode啟動的時候會首先讀取fsimage這個檔案，將目錄樹資訊裝載到記憶體中。

而edits儲存的是日誌資訊，在Namenode啟動後所有對目錄結構的增加，刪除，修改等操作都會記錄到edits檔案中，並不會同步的記錄在fsimage中。

而當Namenode結點關閉的時候，也不會將fsimage與edits檔案進行合併，這個合併的過程實際上是發生在Namenode啟動的過程中。

也就是說，當Namenode啟動的時候，首先裝載fsimage檔案，然後在應用edits檔案，最後還會將最新的目錄樹資訊更新到新的fsimage檔案中，然後啟用新的edits檔案。

整個流程是沒有問題的，但是有個小瑕疵，就是如果Namenode在啟動後發生的改變過多，會導致edits檔案變得非常大，大得程度與Namenode的更新頻率有關係。

那麼在下一次Namenode啟動的過程中，讀取了fsimage檔案後，會應用這個無比大的edits檔案，導致啟動時間變長，並且不可控，可能需要啟動幾個小時也說不定。

Namenode的edits檔案過大的問題，也就是SecondeNamenode要解決的主要問題。

SecondNamenode會按照一定規則被喚醒，然後進行fsimage檔案與edits檔案的合併，防止edits檔案過大，導致Namenode啟動時間過長。

DataNode詳解

DataNode在HDFS中真正儲存資料。

首先解釋塊（block）的概念：

DataNode在儲存資料的時候是按照block為單位讀寫資料的。block是hdfs讀寫資料的基本單位。
假設檔案大小是100GB，從位元組位置0開始，每128MB位元組劃分為一個block，依此類推，可以劃分出很多的block。每個block就是128MB大小。
block本質上是一個邏輯概念，意味著block裡面不會真正的儲存資料，只是劃分檔案的。
block裡也會存副本，副本優點是安全，缺點是佔空間

SecondaryNode

執行過程：從NameNode上下載元資料資訊（fsimage,edits），然後把二者合併，生成新的fsimage，在本地儲存，並將其推送到NameNode，同時重置NameNode的edits.

工作原理（轉自“大牛筆記”的部落格，由於實現是清晰，受益很大，在此不做改動）

寫操作：

有一個檔案FileA，100M大小。Client將FileA寫入到HDFS上。

HDFS按預設配置。

HDFS分佈在三個機架上Rack1，Rack2，Rack3。

a. Client將FileA按64M分塊。分成兩塊，block1和Block2;

b. Client向nameNode傳送寫資料請求，如圖藍色虛線①------>。

c. NameNode節點，記錄block資訊。並返回可用的DataNode，如粉色虛線②--------->。

Block1: host2,host1,host3

Block2: host7,host8,host4

原理：

NameNode具有RackAware機架感知功能，這個可以配置。

若client為DataNode節點，那儲存block時，規則為：副本1，同client的節點上；副本2，不同機架節點上；副本3，同第二個副本機架的另一個節點上；其他副本隨機挑選。

若client不為DataNode節點，那儲存block時，規則為：副本1，隨機選擇一個節點上；副本2，不同副本1，機架上；副本3，同副本2相同的另一個節點上；其他副本隨機挑選。

d. client向DataNode傳送block1；傳送過程是以流式寫入。

流式寫入過程，

1>將64M的block1按64k的package劃分;

2>然後將第一個package傳送給host2;

3>host2接收完後，將第一個package傳送給host1，同時client想host2傳送第二個package；

4>host1接收完第一個package後，傳送給host3，同時接收host2發來的第二個package。

5>以此類推，如圖紅線實線所示，直到將block1傳送完畢。

6>host2,host1,host3向NameNode，host2向Client傳送通知，說“訊息傳送完了”。如圖粉紅顏色實線所示。

7>client收到host2發來的訊息後，向namenode傳送訊息，說我寫完了。這樣就真完成了。如圖黃色粗實線

8>傳送完block1後，再向host7，host8，host4傳送block2，如圖藍色實線所示。

9>傳送完block2後，host7,host8,host4向NameNode，host7向Client傳送通知，如圖淺綠色實線所示。

10>client向NameNode傳送訊息，說我寫完了，如圖黃色粗實線。。。這樣就完畢了。

分析，通過寫過程，我們可以瞭解到：

①寫1T檔案，我們需要3T的儲存，3T的網路流量貸款。

②在執行讀或寫的過程中，NameNode和DataNode通過HeartBeat進行儲存通訊，確定DataNode活著。如果發現DataNode死掉了，就將死掉的DataNode上的資料，放到其他節點去。讀取時，要讀其他節點去。

③掛掉一個節點，沒關係，還有其他節點可以備份；甚至，掛掉某一個機架，也沒關係；其他機架上，也有備份。

讀操作：

讀操作就簡單一些了，如圖所示，client要從datanode上，讀取FileA。而FileA由block1和block2組成。

那麼，讀操作流程為：

a. client向namenode傳送讀請求。

b. namenode檢視Metadata資訊，返回fileA的block的位置。

block1:host2,host1,host3

block2:host7,host8,host4

c. block的位置是有先後順序的，先讀block1，再讀block2。而且block1去host2上讀取；然後block2，去host7上讀取；

上面例子中，client位於機架外，那麼如果client位於機架內某個DataNode上，例如,client是host6。那麼讀取的時候，遵循的規律是：

優選讀取本機架上的資料。

運算和儲存在同一個伺服器中，每一個伺服器都可以是本地伺服器

補充

元資料

元資料被定義為：描述資料的資料，對資料及資訊資源的描述性資訊。（類似於Linux中的i節點）

以 “blk_”開頭的檔案就是儲存資料的block。這裡的命名是有規律的，除了block檔案外，還有後綴是“meta”的檔案，這是block的源資料檔案，存放一些元資料資訊。

資料複製

NameNode做出關於塊複製的所有決定。它週期性地從叢集中的每個DataNode接收到一個心跳和一個阻塞報告。收到心跳意味著DataNode正常執行。Blockreport包含DataNode上所有塊的列表。

快速瞭解HDFS、NameNode和DataNode

概覽 HDFS特點： ① 儲存多個副本，且提供容錯機制，副本丟失或宕機自動恢復。預設存3份。 ② 執行在廉價的機器上。 ③ 適合大資料的處理。因為小檔案也佔用一個塊，小檔案越多（1000個1k檔案）塊越多，NameNode壓力越大。如：將一個大檔案分成三塊A、B、C的儲存方式 PS：資料複製

namenode和datanode機制

一次默認分享圖片大小鏡像文件 mage err dao eight 轉自：https://www.cnblogs.com/DarrenChan/p/6416043.html?utm_source=itdadao&utm_medium=referral 首先我

C++快速入門---聯合、列舉和類型別名（7）

C++快速入門---聯合、列舉和類型別名（7）聯合可以容納多種不同型別的值，但是它每次只能儲存這些值中的某一個。 #include <iostream> union mima { unsigned long birthday; unsigned shor

瞭解SparkSQL、DataFrames和資料集

對於資料集和DataFrameAPI存在很多混淆，因此在本文中，我們將瞭解SparkSQL、DataFrames和DataSet。火花SQL 它是一個用於結構化資料處理的SparkModule，它允許您編寫更少的程式碼來完成任務，並且在幕後，它可以智慧地執行優化。SparkSQL模組由兩個主要部分組

HDFS中NameNode和Secondary NameNode

NameNode（管理者）：管理檔案系統的名稱空間，維護元資料映象檔案fsimage（磁碟）和操作日誌檔案edit logs。問題： edits檔案在叢集執行過程中不斷增加，佔用更過記憶體； NameNode重啟會進行edits檔案的合併，namenode重啟時間過長； namen

hdfs中namenode及DataNode，源資料資訊，讀寫檔案的流程等

客戶端呼叫create()來建立檔案 DistributedFileSystem用RPC呼叫元資料節點，在檔案系統的名稱空間中建立一個新的檔案。元資料節點首先確定檔案原來不存在，並且客戶端有建立檔案的許可權，然後建立新檔案。 DistributedFileSystem返回DFSOutputStream

HDFS、YARN和MapReduce簡介

Hadoop Hadoop是一個Apache旗下的分散式系統基礎架構。 Hadoop1由HDFS和MapReduce構成；Hadoop2框架核心設計有HDFS、MapReduce、YARN。 Hadoop2主要改進了以下四部分：YARN、NameNode HA、HDFS f

針對初學者瞭解JVM、JRE和JDK三者間的區別和聯絡

首先說Java程式語言，它是一門高階程式語言，具體由誰何時建立的，讀者可以到網上查詢相關資料，這裡就不再贅述。那麼，談到Java就不得不談談JVM、JRE和JDK三者間的區別和聯絡。 JVM：英文全稱Java Virtual Machine，字面意思

彷徨 | [Hadoop異常處理] Namenode和Datanode都正常啟動,但是web頁面不顯示

異常 namenode和data都正常啟動但是web頁面卻不顯示,都為零解決辦法一: 在hdfs-site.xml配置檔案中,加入 <property> <name>dfs.namenode.datanode.regist

Hadoop的HDFS中namenode和datenode內容分析

NameNode：是Master節點，是大領導。管理資料塊對映；處理客戶端的讀寫請求；配置副本策略；管理HDFS的名稱空間； SecondaryNameNode：是一個小弟，分擔大哥namenode的工作量；是NameNode的冷備份；合併fsimage和fsedits

Android提醒微技巧，你真的瞭解Dialog、Toast和Snackbar嗎？

本文同步發表於我的微信公眾號，掃一掃文章底部的二維碼或在微信搜尋郭霖即可關注，每天都有文章更新。今天給大家帶來一篇簡單易懂的微技巧文章，並沒有什麼高深的技術點，但重點仍然是在細節，相信還是可以給不少朋友帶來幫助的。 Dialog和Toast

Hadoop獲得叢集NameNode和DataNode狀態

軟體版本：hadoop2.2，JDK1.7，Intellij idea140. 配置Configuration如果需要使用java程式來獲得某個叢集的NameNode或DataNode的相關資訊，那麼Configuration需要如下配置：/** * 獲得配置的Confi

Python專題——五分鐘帶你瞭解map、reduce和filter

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天是Python專題第6篇文章，給大家介紹的是Python當中三個非常神奇的方法：map、reduce和filter。不知道大家看到map和reduce的時候有沒有什麼感覺，如果看過之前我們大資料系列介紹MapReduce文章的同學

快速瞭解同步和非同步、阻塞和非阻塞

這篇文章純屬自己的理解,如有錯誤請您指出同步和非同步: 同步和非同步是針對應用程式和核心互動而言一、應用程式和核心同步互動有兩種情況: 1.應用程式等待一個操作執行完成 2.應用程式可以去做其他事,大需要時不時的過來檢視操作是否完成二、應用程

快速瞭解會話管理三劍客cookie、session和JWT

更多內容，歡迎關注微信公眾號：全菜工程師小輝。公眾號回覆關鍵詞，領取免費學習資料。儲存位置三者都是應用在web中對http無狀

簡單兩步快速實現shiro的配置和使用，包含登錄驗證、角色驗證、權限驗證以及shiro登錄註銷流程（基於spring的方式，使用maven構建）

protect login uid sim isa 當前 sub efi inf 前言： shiro因為其簡單、可靠、實現方便而成為現在最常用的安全框架，那麽這篇文章除了會用簡潔明了的方式講一下基於spring的shiro詳細配置和登錄註銷功能使用之外，也會根據慣例在文章最

Hadoop介紹-4.Hadoop中NameNode、DataNode、Secondary、NameNode、JobTracker TaskTracker

參數最大的分布式文件配置參數 alt https 編輯進程通信技術 Hadoop是一個能夠對大量數據進行分布式處理的軟體框架，實現了Google的MapReduce編程模型和框架，能夠把應用程式分割成許多的小的工作單元，並把這些單元放到任何集群節點上執行。在Ma

hadoop的NAMENODE的管理機制，工作機制和DATANODE的工作原理

占用最大狀態 inux 自動 conda 文件大小 open() 格式 1：分布式文件系統（Distributed File System）：（1）：數據量越來越多，在一個操作系統管轄的範圍存不下了，那麽就分配到更多的操作系統管理的磁盤中，但是不方便管理和維護

第3節、時間和空間的均衡——快速排序

算法快速排序 1、引入第一節講的計數排序有很好的運行時間表現，但因為占用空間的問題，只適用於數字非常有限的情況；第二節講的冒泡排序解決了計數排序空間的問題，但時間復雜度卻變成了O(n^2)。對冒泡排序的過程進行分析，我們可以發現，在每一輪的排序過程中，需要對所有相鄰的數字進行比較（當然，除了

全網最詳細的再次或多次格式化導致namenode的ClusterID和datanode的ClusterID之間不一致的問題解決辦法（圖文詳解）

rwx log bsp 挖掘 fail tro listener 大數 www. 　　　　不多說，直接上幹貨！　　java.io.IOException: Incompatible clusterIDs in /opt/modules/ha