Hadoop和HA
阿新 • • 發佈:2018-12-12
目錄
1、HDFS概述
定義:Hadoop分散式檔案系統(Hadoop Distributed Filesystem),以流式資料訪問模式來儲存超大檔案。
2、HDFS基本結構
- Client:客戶端
- NameNode:記錄元資料,主要功能是對記憶體及IO進行集中管理。
- DataNode:檔案系統的工作節點,根據需要儲存和檢索資料塊,並且定期向namenode傳送他們所儲存的塊的列表。
- Secondary NameNode:定期儲存HDFS元資料的快照。
3、Block的副本放置策略
- 第一個副本:放置在上傳檔案的DN;如果是叢集外提交,則隨機挑選一臺磁碟不太滿,CPU不太忙的節點。
- 第二個副本:放置在於第一個副本不同的機架的節點上。
- 第三個副本:與第二個副本相同叢集的節點。
- 更多副本:隨機節點。
4、主要元件及其功能
NameNode | DataNode |
儲存元資料 | 儲存檔案內容 |
元資料儲存在記憶體中 | 檔案內容儲存在磁碟 |
儲存檔案,block,datanode之間的對映關係 | 維護了block id到datanode本地檔案的對映關係 |
5、資料損壞(corruption)處理
6、HDFS網路拓撲結構
案例說明:
7、例項分析
- 寫檔案到HDFS中
- Hadoop的Rack Aeareness
- 寫HDFS的準備過程
- 管道寫方式
- 多個塊的複製
- 重新複製丟失的副本