Java nio 學習筆記（四）淘寶2012校招技術筆試題

阿新 • • 發佈：2019-01-07

實現五：統計一個單詞可重複的英文檔案（假設4G）中每個單詞出現的次數，把結果按照英文排序放入一個檔案中。並能夠檢索特定單詞的出現次數。由於檔案過大，不重複單詞總數有限，需要考慮到執行速度和記憶體使用情況。（淘寶筆試技術題）

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.ByteBuffer;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;
import java.nio.channels.FileLock;
import java.nio.charset.Charset;
import java.util.HashMap;
import java.util.Map;
import java.util.StringTokenizer;
import java.util.TreeMap;

public class TestCountWords {
	public static void main(String[] args) {
		File wf = new File("words.txt");
		final CountWords cw1 = new CountWords(wf, 0, wf.length()/2);
		final CountWords cw2 = new CountWords(wf, wf.length()/2, wf.length());
		final Thread t1 = new Thread(cw1);
		final Thread t2 = new Thread(cw2);
		//開闢兩個執行緒分別處理檔案的不同片段
		t1.start();
		t2.start();
		Thread t = new Thread() {
			public void run() {
				while(true) {
					//兩個執行緒均執行結束
					if(Thread.State.TERMINATED==t1.getState() && Thread.State.TERMINATED==t2.getState()) {
						//獲取各自處理的結果
						HashMap<String, Integer> hMap1 = cw1.getResult();
						HashMap<String, Integer> hMap2 = cw2.getResult();
						//使用TreeMap保證結果有序
						TreeMap<String, Integer> tMap = new TreeMap<String, Integer>();
						//對不同執行緒處理的結果進行整合
						tMap.putAll(hMap1);
						tMap.putAll(hMap2);
						//列印輸出，檢視結果
					    for(Map.Entry<String,Integer> entry : tMap.entrySet()) {
					        String key = entry.getKey();  
					        int value = entry.getValue();  
					        System.out.println(key+":\t"+value);  
					    }
					    //將結果儲存到檔案中
					    mapToFile(tMap, new File("result.txt"));
					}
					return;
				}
			}
		};
		t.start();
	}
	//將結果按照 "單詞：次數" 格式存在檔案中
	private static void mapToFile(Map<String, Integer> src, File dst) {
	    try {
	    	//對將要寫入的檔案建立通道
	    	FileChannel fcout = new FileOutputStream(dst).getChannel();
	    	//使用entrySet對結果集進行遍歷
			for(Map.Entry<String,Integer> entry : src.entrySet()) {
		        String key = entry.getKey();
		        int value = entry.getValue();
		        //將結果按照指定格式放到緩衝區中
		        ByteBuffer bBuf = ByteBuffer.wrap((key+":\t"+value).getBytes());
		        fcout.write(bBuf);
		        bBuf.clear();
		    }
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

class CountWords implements Runnable {
	
	private FileChannel fc;
	private FileLock fl;
	private MappedByteBuffer mbBuf;
	private HashMap<String, Integer> hm;
	
	public CountWords(File src, long start, long end) {
		try {
			//得到當前檔案的通道
			fc = new RandomAccessFile(src, "rw").getChannel();
			//鎖定當前檔案的部分
			fl = fc.lock(start, end, false);
			//對當前檔案片段建立記憶體對映，如果檔案過大需要切割成多個片段
			mbBuf = fc.map(FileChannel.MapMode.READ_ONLY, start, end);
			//建立HashMap例項存放處理結果
			hm = new HashMap<String,Integer>();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
	@Override
	public void run() {
		String str = Charset.forName("UTF-8").decode(mbBuf).toString();
		//使用StringTokenizer分析單詞
		StringTokenizer token = new StringTokenizer(str);
		String word;
		while(token.hasMoreTokens()) {
			//將處理結果放到一個HashMap中，考慮到儲存速度
			word = token.nextToken();
			if(null != hm.get(word)) {
				hm.put(word, hm.get(word)+1);
			} else {
				hm.put(word, 1);
			}
		}
		try {
			//釋放檔案鎖
			fl.release();
		} catch (IOException e) {
			e.printStackTrace();
		}
		return;
	}
	
	//獲取當前執行緒的執行結果
	public HashMap<String, Integer> getResult() {
		return hm;
	}
}

以上程式碼是我自己實現的，主要思想是：

1.使用具有鍵值對結構的HashMap來快速存取；

2.由於檔案過大，用一個執行緒處理可能結果較慢，使用到併發機制；

3.IO操作比較耗時，所以使用了nio的相關內容；

4.最終結果要有序的話，可以使用TreeMap。

望同行給予批評指導，相信有更好的解決辦法和思路，如果能幫著優化以上程式碼，請給予留言，或者發郵件至[email protected]，真誠歡迎各位程式設計愛好者與我討論相關技術問題。

Java nio 學習筆記（四）淘寶2012校招技術筆試題

實現五：統計一個單詞可重複的英文檔案（假設4G）中每個單詞出現的次數，把結果按照英文排序放入一個檔案中。並能夠檢索特定單詞的出現次數。由於檔案過大，不重複單詞總數有限，需要考慮到執行速度和記憶體使用情況。（淘寶筆試技術題） import java.io.File; imp

Java NIO 學習筆記（四）----檔案通道和網路通道

目錄： Java NIO 學習筆記（一）----概述，Channel/Buffer Java NIO 學習筆記（二）----聚集和分散，通道到通道 Java NIO 學習筆記（三）----Selector Java NIO 學習筆記（四）----檔案通道和網路通道 FileChannel 檔案通道 Fil

Java基礎學習筆記（四）

animal 自定義類型轉型通過 PC pri 法則 lse super() 21.構造方法（續）：分類：隱式構造方法：如果在一個類中，沒有手動編寫構造方法，則系統會提供一個默認的無參的構造方法顯式構造方法：如果在一個類中，手動編寫構造方法，則系統不會提供默認的

Java Web學習筆記（四）

ServletConfig 封裝了Servlet的配置資訊，並且可以獲取ServletContext物件 1.配置初始化引數； 2.獲取初始化引數： - getInitParameter(String name):獲取指定引數名的初始化引數 - getINitParameterN

Java NIO 學習筆記（一）----概述，Channel/Buffer

Java NIO （來自 Java 1.4）可以替代標準 IO 和 Java Networking API ，NIO 提供了與標準 IO 不同的使用方式。學習 NIO 之前建議先掌握標準 IO 和 Java 網路程式設計，推薦教程：系統學習 Java IO----目錄，概覽初步接觸 Java

Java NIO 學習筆記（二）----聚集和分散，通道到通道

目錄： Java NIO 學習筆記（一）----概述，Channel/Buffer Java NIO 學習筆記（二）----聚集和分散，通道到通道 Scatter / Gather 通道的聚集和分散操作 NIO 具有內建的 scatter/gather 支援，用於描述讀取和寫入通道的操作。分散（

Java NIO 學習筆記（三）----Selector

目錄： Java NIO 學習筆記（一）----概述，Channel/Buffer Java NIO 學習筆記（二）----聚集和分散，通道到通道 Java NIO 學習筆記（三）----Selector 選擇器是一個 NIO 元件，它可以檢測一個或多個 NIO 通道，並確定哪些通道可以用於讀或寫了。這樣

Java NIO 學習筆記（六）----非同步檔案通道 AsynchronousFileChannel

目錄： Java NIO 學習筆記（一）----概述，Channel/Buffer Java NIO 學習筆記（二）----聚集和分散，通道到通道 Java NIO 學習筆記（三）----Selector Java NIO 學習筆記（四）----檔案通道和網路通道 Java NIO 學習筆記（五）----路徑

Java NIO 學習筆記（五）----路徑、檔案和管道 Path/Files/Pipe

Java nio 學習筆記（三）

實現一：使用nio實現檔案複製 package study.nio; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.F

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

java學習筆記（四）：import語法

employee sign cnblogs java 調用變量賦值 temp 職位求職 Import 語法是給編譯器尋找特定類的適當位置的一種方法。創建一個Employee 類，包括四個實體變量姓名（name），年齡（age），職位（designation）和薪水（s

java 學習筆記（四） java連接ZooKeeper

事件 pre case 啟動 sync -m 服務 persist 刪除節點 public class Demo2 { public static void main(String[] args) { String connectString = "192.168.

《自己動手寫java虛擬機器》學習筆記（四）-----搜尋class檔案（java）

專案地址：https://github.com/gongxianshengjiadexiaohuihui 首先是定義一個抽象類，把四種路徑的格式抽象出來 Entry.java package classpath; import java.io.IOException;

《瘋狂Java講義》學習筆記（四）流程控制與陣列

Java語言有三種控制結構：順序結構、分支結構、迴圈結構 1、順序結構順序結構就是程式從上而下逐行地執行，中間沒有任何判斷和跳轉 2、分支結構 if…else… switch 控制表示式只允許byte、short、char、int、String和列舉型別 &nbs

Java多執行緒學習筆記（四）

1、原子性：操作不能被打斷，要麼成功要麼失敗。i++ 不是原子操作。 2、可見性：一個執行緒修改了資料，其他執行緒立刻可見。 3、順序性： 4、volatile 保證程式的可見性，和順序性。不能保證對複合操作（如i++)的原子性。 javap -v xxx.class

Java學習筆記（四）

JSP 1.JSP的作用 * servlet 缺點：不適合設定html響應體，需要大量的response.getWriter().print("<HTML>"); 優點：動態資源，可以程式設計 * html

JAVA程式設計思想學習筆記（四）初始化與清理

初始化與清理用構造器確保初始化 JAVA採用和C++相同的方案，即構造器採用與類相同的名稱，在建立物件時，將會為物件分配儲存空間，並呼叫同名的構造器，達到確保初始化的目的。構造器是一種特殊的方法，它是沒有返回值的，與返回值為空（void）不同。另外，如果自己沒有實現構造器，就會

THINKING IN JAVA 學習筆記（四）

ide none src 風格 make 相同使用但是 different 第五章初始化與清理 5.1 使用構造器確保初始化使用構造器在創建對象的時候完成初始化。構造器的名稱必須和類名完全相同，所以“每個方法首字母小寫”的編碼風格並

Java nio 學習筆記（四） 淘寶2012校招技術筆試題

相關推薦

Java nio 學習筆記（四）淘寶2012校招技術筆試題