1. 程式人生 > >Hadoop和HA

Hadoop和HA

目錄

1、HDFS概述

定義:Hadoop分散式檔案系統(Hadoop Distributed Filesystem),以流式資料訪問模式來儲存超大檔案。

2、HDFS基本結構

  1. Client:客戶端
  2. NameNode:記錄元資料,主要功能是對記憶體及IO進行集中管理。
  3. DataNode:檔案系統的工作節點,根據需要儲存和檢索資料塊,並且定期向namenode傳送他們所儲存的塊的列表。
  4. Secondary NameNode:定期儲存HDFS元資料的快照。

3、Block的副本放置策略

  • 第一個副本:放置在上傳檔案的DN;如果是叢集外提交,則隨機挑選一臺磁碟不太滿,CPU不太忙的節點。
  • 第二個副本:放置在於第一個副本不同的機架的節點上。
  • 第三個副本:與第二個副本相同叢集的節點。
  • 更多副本:隨機節點。

4、主要元件及其功能

NameNode DataNode
儲存元資料 儲存檔案內容
元資料儲存在記憶體 檔案內容儲存在磁碟
儲存檔案,block,datanode之間的對映關係 維護了block id到datanode本地檔案的對映關係

5、資料損壞(corruption)處理

6、HDFS網路拓撲結構

案例說明:

7、例項分析

  • 寫檔案到HDFS中

  • Hadoop的Rack Aeareness

  • 寫HDFS的準備過程

  • 管道寫方式

  • 多個塊的複製

  • 重新複製丟失的副本