大資料教程（7.4）HDFS的java客戶端API（流處理方式）

阿新 • • 發佈：2018-11-25

博主上一篇部落格分享了namenode和datanode的工作原理，本章節將繼前面的HDFS的java客戶端簡單API後深度講述HDFS流處理API。

場景：博主前面的文章介紹過HDFS上存的大檔案會成不同的塊儲存在不同的datanode節點上，對外提供統一的訪問檢視。但是，如果這個需要處理的檔案整體特別大，我們在mapreduce程式中如果每次都全部下載到本地在執行那會非常耗時耗空間；那麼，有沒有一種好的方式，可以實現當前這個mapreduce任務處理的那個分片資料，就下載分片這一段的資料到本地進行處理。答案：HDFS流客戶端API

package com.empire.hadoop.hadoop_demo;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Before;
import org.junit.Test;


/**
 * 用流的方式來操作hdfs上的檔案
 * 可以實現讀取指定偏移量範圍的資料
 * @author
 *
 */
public class HdfsStreamAccess {
	
	FileSystem fs = null;
	Configuration conf = null;
	
	@Before
	public void init() throws Exception{
		conf = new Configuration();
		conf.set("fs.defaultFS", "hdfs://master:9000");
		//客戶端去操作hdfs時，是有一個使用者身份的
		//預設情況下，hdfs客戶端api會從jvm中獲取一個引數來作為自己的使用者身份：-DHADOOP_USER_NAME=hadoop
		//拿到一個檔案系統操作的客戶端例項物件
		/*fs = FileSystem.get(conf);*/
		System.setProperty("hadoop.home.dir", "E:\\\\hadoop-2.9.1");
		//可以直接傳入 uri和使用者身份
		//centos-aaron-h1為namenode的主機名或者域名
		fs = FileSystem.get(new URI("hdfs://centos-aaron-h1:9000"),conf,"hadoop"); //最後一個引數為使用者名稱
	}
	/**
	 * 通過流的方式上傳檔案到hdfs
	 * @throws Exception
	 */
	@Test
	public void testUpload() throws Exception {
		
		FSDataOutputStream outputStream = fs.create(new Path("/angelababy.love"), true);
		FileInputStream inputStream = new FileInputStream("c:/angelababy.love");
		
		IOUtils.copy(inputStream, outputStream);
		
	}
	/**
	 * 通過流的方式獲取hdfs上資料
	 * @throws Exception
	 */
	@Test
	public void testDownLoad() throws Exception {
		
		FSDataInputStream inputStream = fs.open(new Path("/angelababy.love"));		
		
		FileOutputStream outputStream = new FileOutputStream("d:/angelababy.love");
		
		IOUtils.copy(inputStream, outputStream);
		
	}
	@Test
	public void testRandomAccess() throws Exception{
		
		FSDataInputStream inputStream = fs.open(new Path("/angelababy.love"));
	
		inputStream.seek(12);
		
		FileOutputStream outputStream = new FileOutputStream("d:/angelababy.love.part2");
		
		IOUtils.copy(inputStream, outputStream);
		
	}
	/**
	 * 顯示hdfs上檔案的內容
	 * @throws IOException 
	 * @throws IllegalArgumentException 
	 */
	@Test
	public void testCat() throws IllegalArgumentException, IOException{
		
		FSDataInputStream in = fs.open(new Path("/angelababy.love"));
		
		IOUtils.copy(in, System.out);
		//hadoop的IOUtils更容易實現檔案偏移分片處理
//		IOUtils.copyBytes(in, System.out, 1024);
	}
}

前面的一些疑問總結：

hdfs dfsadmin -report 列印叢集的狀態，看到的內容相當準確
start-dfs.sh 如果namenode沒關，也沒關係

HDFS listFiles()為何不直接反回List而是返回一個迭代器？因為如果listFiles引數傳遞的目錄中包含幾十億個檔案，那List直接放客戶端記憶體，可能會讓客戶端吃不消；迭代器為何就行呢，迭代器其實不是個集合，它只是取資料的一種方式，它並不存資料，只是提供給一個方法，讓你可以通過next(),nexthas()方法獲取資料。

mapreduce相對於HDFS來說，其實是一個HDFS客戶端的角色。

最後寄語，以上是博主本次文章的全部內容，如果大家覺得博主的文章還不錯，請點贊；如果您對博主其它伺服器大資料技術或者博主本人感興趣，請關注博主部落格，並且歡迎隨時跟博主溝通交流。

大資料教程（7.4）HDFS的java客戶端API（流處理方式）

大資料教程（7.4）HDFS的java客戶端API（流處理方式）

數據庫字符集（AL32UTF8）和客戶端字符集（2%）是不同的

資料庫字符集（AL32UTF8）和客戶端字符集（2%）不同

大資料之五 hadoop HDFS HA叢集客戶端+eclipse配置

plsql 登入後，提示資料庫字符集（AL32UTF8）和客戶端字符集（ZHS16GBK）不一致

一個簡單的IOCP（IO完成埠）伺服器/客戶端類（英文版）

Linux----網路程式設計（TCP網路通訊伺服器客戶端程式設計流程與其迴圈實現）

一個簡單的IOCP（IO完成埠）伺服器/客戶端類（中文版）

plsql資料庫異常---plsql 登入後，提示資料庫字符集（AL32UTF8）和客戶端字符集（ZHS16GBK）不一致

大資料教程（8.4）移動流量分析案例

大資料教程（7.3）namenode管理元資料的機制&datanode工作機制介紹

大資料教程（7.5）hadoop中內建rpc框架的使用教程

大資料教程（8.7）流量彙總排序的mr實現

大資料教程（9.4）用java -jar的方式執行mr程式

大資料教程（13.4）azkaban例項演示

大資料入門（7）RPC客戶端和RPC服務端通訊

大資料教程（8.3）wordcount程式執行過程的解析

大資料教程（8.2）wordcount程式原理及程式碼實現/執行

大資料教程（8.1）mapreduce核心思想

大資料教程（8.5）mapreduce原理之並行度

大資料教程（7.4）HDFS的java客戶端API（流處理方式）

相關推薦