1. 程式人生 > 其它 >位元組流和字元流的區別(一次弄懂)

位元組流和字元流的區別(一次弄懂)

1. 什麼是流

Java中的流是對位元組序列的抽象,我們可以想象有一個水管,只不過現在流動在水管中的不再是水,而是位元組序列。和水流一樣,Java中的流也具有一個“流動的方向”,通常可以從中讀入一個位元組序列的物件被稱為輸入流;能夠向其寫入一個位元組序列的物件被稱為輸出流。

2. 位元組流

Java中的位元組流處理的最基本單位為單個位元組,它通常用來處理二進位制資料。Java中最基本的兩個位元組流類是InputStream和OutputStream,它們分別代表了組基本的輸入位元組流和輸出位元組流。InputStream類與OutputStream類均為抽象類,我們在實際使用中通常使用Java類庫中提供的它們的一系列子類。下面我們以InputStream類為例,來介紹下Java中的位元組流。

InputStream類中定義了一個基本的用於從位元組流中讀取位元組的方法read,這個方法的定義如下:

public abstract int read() throws IOException;

這是一個抽象方法,也就是說任何派生自InputStream的輸入位元組流類都需要實現這一方法,這一方法的功能是從位元組流中讀取一個位元組,若到了末尾則返回-1,否則返回讀入的位元組。關於這個方法我們需要注意的是,它會一直阻塞知道返回一個讀取到的位元組或是-1。另外,位元組流在預設情況下是不支援快取的,這意味著每呼叫一次read方法都會請求作業系統來讀取一個位元組,這往往會伴隨著一次磁碟IO,因此效率會比較低。有的小夥伴可能認為InputStream類中read的以位元組陣列為引數的過載方法,能夠一次讀入多個位元組而不用頻繁的進行磁碟IO。那麼究竟是不是這樣呢?我們來看一下這個方法的原始碼:

public int read(byte b[]) throws IOException {
    return read(b, 0, b.length);
}

它呼叫了另一個版本的read過載方法,那我們就接著往下追:

     public int read(byte b[], int off, int len) throws IOException {
        if (b == null) {
            throw new NullPointerException();
        } else if (off < 0 || len < 0 || len > b.length - off) {
            throw new IndexOutOfBoundsException();
        } else if (len == 0) {
            return 0;
        }

        int c = read();
        if (c == -1) {
            return -1;
        }
        b[off] = (byte)c;

        int i = 1;
        try {
            for (; i < len ; i++) {
                c = read();
                if (c == -1) {
                    break;
                }
                b[off + i] = (byte)c;
            }
        } catch (IOException ee) {
        }
        return i;
    }

從以上的程式碼我們可以看到,實際上read(byte[])方法內部也是通過迴圈呼叫read()方法來實現“一次”讀入一個位元組陣列的,因此本質來說這個方法也未使用記憶體緩衝區。要使用記憶體緩衝區以提高讀取的效率,我們應該使用BufferedInputStream。

3. 字元流

Java中的字元流處理的最基本的單元是Unicode碼元(大小2位元組),它通常用來處理文字資料。所謂Unicode碼元,也就是一個Unicode程式碼單元,範圍是0x0000~0xFFFF。在以上範圍內的每個數字都與一個字元相對應,Java中的String型別預設就把字元以Unicode規則編碼而後儲存在記憶體中。然而與儲存在記憶體中不同,儲存在磁碟上的資料通常有著各種各樣的編碼方式。使用不同的編碼方式,相同的字元會有不同的二進位制表示。實際上字元流是這樣工作的:

  • 輸出字元流:把要寫入檔案的字元序列(實際上是Unicode碼元序列)轉為指定編碼方式下的位元組序列,然後再寫入到檔案中;
  • 輸入字元流:把要讀取的位元組序列按指定編碼方式解碼為相應字元序列(實際上是Unicode碼元序列從)從而可以存在記憶體中。

我們通過一個demo來加深對這一過程的理解,示例程式碼如下:

import java.io.FileWriter;
import java.io.IOException;


public class FileWriterDemo {
    public static void main(String[] args) {
        FileWriter fileWriter = null;
        try {
            try {
                fileWriter = new FileWriter("demo.txt");
                fileWriter.write("demo");
            } finally {
                fileWriter.close();
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

以上程式碼中,我們使用FileWriter向demo.txt中寫入了“demo”這四個字元,我們用十六進位制編輯器WinHex檢視下demo.txt的內容:

從上圖可以看出,我們寫入的“demo”被編碼為了“64 65 6D 6F”,但是我們並沒有在上面的程式碼中顯式指定編碼方式,實際上,在我們沒有指定時使用的是作業系統的預設字元編碼方式來對我們要寫入的字元進行編碼。

由於字元流在輸出前實際上是要完成Unicode碼元序列到相應編碼方式的位元組序列的轉換,所以它會使用記憶體緩衝區來存放轉換後得到的位元組序列,等待都轉換完畢再一同寫入磁碟檔案中。

4. 字元流與位元組流的區別

經過以上的描述,我們可以知道位元組流與字元流之間主要的區別體現在以下幾個方面:

  • 位元組流操作的基本單元為位元組;字元流操作的基本單元為Unicode碼元。
  • 位元組流預設不使用緩衝區;字元流使用緩衝區。
  • 位元組流通常用於處理二進位制資料,實際上它可以處理任意型別的資料,但它不支援直接寫入或讀取Unicode碼元;字元流通常處理文字資料,它支援寫入及讀取Unicode碼元。

以上是我對Java中字元流與位元組流的一些認識,如有敘述不清晰或是不準確的地方希望大家可以指正,謝謝大家:)

5. 參考資料

《Java核心技術 卷二》