1. 程式人生 > >中文字元編碼簡介 GB2312/GBK/GB18030/BIG5

中文字元編碼簡介 GB2312/GBK/GB18030/BIG5

2 GBK

GB2312-80僅收漢字6763個,這大大少於現有漢字,隨著時間推移及漢字文化的不斷延伸推廣,有些原來很少用的字,現在變成了常用字,例如:朱鎔基的“鎔”字,未收入GB2312-80,現在大陸的報業出刊只得使用(金+容)、(金容)、(左金右容)等來表示,形式不一而同,這使得表示、儲存、輸入、處理都非常不方便,對於搜尋引擎等軟體的構造來說也不是好訊息,而且這種表示沒有統一標準。從我們對人民日報98年資料的處理過程中,得出這樣的經驗:回填外字最困難的就是如何得到這種表示方法的集合。

為了解決這些問題,以及配合UNICODE的實施,全國資訊科技化技術委員會於1995年12月1日《漢字內碼擴充套件規範》。GBK向下與GB2312 完全相容,向上支援ISO 10646國際標準,在前者向後者過渡過程中起到的承上啟下的作用。GBK 亦採用雙位元組表示,總體編碼範圍為8140-FEFE之間,首位元組在81-FE之間,尾位元組在40-FE之間,剔除XX7F一條線。

GBK共收入21886個漢字和圖形符號,包括:

* GB2312中的全部漢字、非漢字元號。
* BIG5中的全部漢字。
* 與ISO 10646相應的國家標準GB13000中的其它CJK漢字,以上合計20902個漢字。
* 其它漢字、部首、符號,共計984個。

微軟公司自Windows 95 簡體中文版開始支援GBK程式碼,但目前的多數搜尋引擎都不能很好地支援GBK漢字。

GBK編碼區分三部分:

* 漢字區 包括
GBK/2:OXBOA1-F7FE, 收錄GB2312漢字6763個,按原序排列;
GBK/3:OX8140-AOFE,收錄CJK漢字6080個;
GBK/4:OXAA40-FEAO,收錄CJK漢字和增補的漢字8160個。
* 圖形符號區 包括
GBK/1:OXA1A1-A9FE,除GB2312的符號外,還增補了其它符號
GBK/5:OXA840-A9AO,擴除非漢字區。
* 使用者自定義區
即GBK區域中的空白區,使用者可以自己定義字元。