漢字編碼轉換原理及方法

阿新 • • 發佈：2018-11-05

一、基本概念
· GB碼
全稱是GB2312-80《資訊交換用漢字編碼字符集基本集》，1980年釋出，是中文資訊處理的國家標準，在大陸及海外使用簡體中文的地區（如新加坡等）是強制使用的唯一中文編碼。P-Windows3.2和蘋果OS就是以GB2312為基本漢字編碼， Windows 95/98則以GBK為基本漢字編碼、但相容支援GB2312。GB碼共收錄6763個簡體漢字、682個符號，其中漢字部分：一級字3755，以拼音排序，二級字3008，以偏旁排序。該標準的制定和應用為規範、推動中文資訊化程序起了很大作用。1990年又制定了繁體字的編碼標準GB12345-90《資訊交換用漢字編碼字符集

第一輔助集》，目的在於規範必須使用繁體字的各種場合，以及古籍整理等。該標準共收錄6866個漢字（比GB2312多103個字，其它廠商的字型檔大多不包括這些字），純繁體的字大概有2200餘個。（2312集與12345集不是相交的。一個是簡體，一個是繁體）
· BIG5編
是目前臺灣、香港地區普遍使用的一種繁體漢字的編碼標準，包括440個符號，一級漢字5401個、二級漢字7652個，共計13060個漢字。Big-5 是一個雙位元組編碼方案，其第一位元組的值在 16 進位制的 A0～FE 之間，第二位元組在 40～7E 和 A1～FE 之間。因此，其第一位元組的最高位是 1，第二位元組的最高位則可能是 1，也可能是 0。

· GBK編碼(Chinese Internal Code Specification)
GBK編碼（俗稱大字符集）是中國大陸制訂的、等同於UCS的新的中文編碼擴充套件國家標準。GBK工作小組於1995年10月，同年12月完成GBK規範。該編碼標準相容GB2312，共收錄漢字21003個、符號883個，並提供1894個造字碼位，簡、繁體字融於一庫。Windows95/98簡體中文版的字型檔表層編碼就採用的是GBK，通過GBK與UCS之間一一對應的碼錶與底層字型檔聯絡。其第一位元組的值在 16 進位制的 81～FE 之間，第二位元組在 40～FE，除去xx7F一線。
· Unicode編碼(Universal Multiple Octet Coded Character Set)

國際標準組織於1984年4月成立ISO/IEC JTC1/SC2/WG2工作組，針對各國文字、符號進行統一性編碼。1991年美國跨國公司成立Unicode Consortium，並於1991年10月與WG2達成協議，採用同一編碼字集。目前Unicode是採用16位編碼體系，其字符集內容與ISO10646的BMP（Basic Multilingual Plane）相同。Unicode於1992年6月通過DIS（Draf International Standard），目前版本V2.0於1996公佈，內容包含符號6811個，漢字20902個，韓文拼音11172個，造字區6400個，保留20249個，共計65534個。
二、一些註解
在此解釋一下我們常見的一些漢字內碼轉換工具：
1、最常見的是GB2Big5和Big52GB轉換工具。這裡的GB指是GB2312集。
2、 GBK簡體相容GB2312字符集及其編碼。不規範理解為GB就是GBK簡體。
3、繁體不等同於Big5，在GBK集中也有繁體，GB12345集也有繁體。但這三者的漢字編碼方式不同。Windows95/98/NT/2000（簡體中）中使用的都是GBK字符集；繁體版使用的是Big5字符集，在簡體版中無法正常顯示Big5字元，繁體版無法顯示GB字元。
4、在IE中，進入Big5碼網站（如：臺灣網站），如果安裝有Big5字符集支援，IE會將Big5網頁轉換成GBK繁體顯示，沒有則是亂碼。IE以GBK繁體顯示時，在網頁中輸入的漢字應當是GBK繁體，以Big5碼顯示時（亂碼），要輸入Big5碼字元（輸入亂碼？先輸入GBK簡體----GB碼，再使用小工具將其轉換成Big5，拷貝，貼上即可）。
5、常見的小工具中，可將Big5轉換成GBK繁體的不多，可將GBK簡體繁體相互轉換的也不多。其原因是，他們是將GB2312字符集與Big5字符集建立了對應關係。

三、內碼轉換原理及方法
內碼轉換：就是在不同字符集之間建立一種對應關係。
以GBK2Big5（簡繁體都可）
如：讓字，在GBK中編碼是C8C3。如果我們將GBK碼錶中的字元變成Big5碼格式，則C8C3位上的應該是” 讓”字的Big5碼字元”琵”（琵字不是GBK中的琵，而是”讓”字的Big5碼漢字在GBK環境中顯示結果）。這樣我們讀出要轉換的文字，在GBK（已經轉換成Big5格式）碼錶中找到它的位置，取出該位置上的字元，將原字元替換即可。

讀寫字元不是問題。關鍵是如何在碼錶檔案中對該漢字進行定位和如何將純GBK碼錶轉換成Big5格式表示的GBK碼錶。
問題一、對漢字進行定位。
GBK 程式碼表（按程式碼順序排列）
81-87 88-8F 90-97 98-9F A0-A7 A8-AF B0-B7 B8-BF
C0-C7 C8-CF D0-D7 D8-DF E0-E7 E8-EF F0-F7 F8-FE

81 0 1 2 3 4 5 6 7 8 9 A B C D E F
4 丂丄丅丆丏丒丗丟丠両丣並丩丮丯丱
5 丳丵丷丼乀乁乂乄乆乊乑乕乗乚乛乢
6 乣乤乥乧乨乪乫乬乭乮乯乲乴乵乶乷
7 乸乹乺乻乼乽乿亀亁亂亃亄亅亇亊　
8 亐亖亗亙亜亝亞亣亪亯亰亱亴亶亷嚲
9 亹亼亽亾仈仌仏仐仒仚仛仜仠仢仦仧
A 仩仭仮仯仱仴仸仹仺仼仾伀伂伃伄伅
B 伆伇伈伋伌伒伓伔伕伖伜伝俥俔伨伩
C 伬伭伮伱伳伵伷伹伻伾伿佀佁佂佄佅
D 佇佈佉佊佋佌佒佔佖佡佢佦佨佪佫佭
E 佮佱佲併佷佸佹佺佽侀侁侂侅來侇侊
F 侌侎侐侒侓侕侖侘侙侚侜侞侟価侢　

以上是按程式碼順序排列GBK碼錶，共126個區，每區190個漢字。漢字位置的計算如下：
posit = (ch1 - 129) * 190 + (ch2 - 64) - (ch2/128);（第n 個漢字）
posit = posit * 2; （第n個位元組）
第一個問題就算搞定。

問題二、將GBK碼錶用Big5來表示。
我們可以利用現有的工具，如東方快車3000，將GBK碼錶轉換成Big5的格式。但實際中有問題，因為GBK較Big5的漢字要多，那麼在GBK中有的字元，而Big5中沒有的字元在轉換中可能被刪除，那上面後碼錶定位就不能用了。而且實際上幾乎無法定位。不過我在網上找到了一個以Big5表示的GBK碼錶的文字（可能是官方的），字元一個不缺。
這個問題也搞定了。

同樣我們可以進行
Big52GBKT（繁體），Big52GBKS（簡體），GBKS2GBKT，GBKT2GBKS，GBK2BIG5的轉化。這裡給出Big5碼錶格式，和定位演算法：
BIG-5 程式碼表
A0-A7 A8-AF B0-B7 B8-BF C0-C7 C8-CF
D0-D7 D8-DF E0-E7 E8-EF F0-F7 F8-FE
（已被轉化成GBK）
B0 ０１２３４５６７８９ＡＢＣＤＥＦ
４虔蚊蚪蚓蚤蚩蚌蚣蚜衰衷袁袂衽衹記
５訐討訌訕訊託訓訖訏訑豈豺豹財貢起
６躬軒軔軏辱送逆迷退迺迴逃追逅迸邕
７郡郝郢酒配酌釘針釗釜釙閃院陣陡　
Ａ　陛陝除陘陞隻飢馬骨高鬥鬲鬼乾偺
Ｂ偽停假偃偌做偉健偶偎偕偵側偷偏倏
Ｃ偯偭兜冕凰剪副勒務勘動匐匏匙匿區
Ｄ匾參曼商啪啦啄啞啡啃啊唱啖問啕唯
Ｅ啤唸售啜唬啣唳啁啗圈國圉域堅堊堆
Ｆ埠埤基堂堵執培夠奢娶婁婉婦婪婀　

定位方法：
if ((ch2 >= 64)&&(ch2 <= 126))
{
posit = (ch1 - 160) * 157 + (ch2 - 64);
posit = posit * 2 - 1;
}
else if ((ch2 >= 161)&&(ch2 <= 254))
{
posit = (ch1 - 160) * 157 + 62 + (ch2 - 160);
posit = posit * 2 - 1;
}

在這裡給出GBK2Big5的C++Builder的程式：

fGBK2Big5 = fopen("pureGBK2Big5byOrder.txt", "rb");

unsigned long i,posit;//把gb碼轉換為gbkT
unsigned char ch1,ch2;
String sContext;
char chr;

sContext = Memo1->Lines->Text;
i=1;
while(i < sContext.Length())
{
ch1 = sContext[i];
ch2 = sContext[i+1];

if ((ch1 >= 129)&&(ch1 <= 254))
{
if (((ch2 >= 64)&&(ch2 < 127)) ||((ch2 > 127)&&(ch2 <= 254)))
{
posit = (ch1 - 129) * 190 + (ch2 - 64) - (ch2/128);
posit = posit * 2;
if ((posit > 23940*2) || (posit < 0))
{
i++;
continue;
}
fseek(fGBK2Big5, posit - ftell(fGBK2Big5), 1);
fread((void *)(&chr), sizeof(char), 1, fGBK2Big5);
sContext[i] = chr;
fread((void *)(&chr), sizeof(char), 1, fGBK2Big5);
sContext[i+1] = chr;
i +=2;
}
else
{
i++;
}
}
else
{
i++;
}
}

Memo1->Lines->Text=sContext;
以上很多資料來源於網路燈塔的參考資料（http://www.haiyan.com/steelk/navigator/ref/gbindex1.htm）。

漢字編碼轉換原理及方法

漢字編碼轉換原理及方法

LOADRUNNER之漢字編碼轉換及\X00問題

關於base64編碼的原理及實現

RSA加密、解密、簽名、驗籤的原理及方法

RSA加密、解密、簽名、驗簽的原理及方法

Loadrunner關聯原理及方法

影象超解析度重構（一）原理及方法總結

Android ROM分析(1)：刷機原理及方法

(unicode編碼後的漢字)JS轉換方法

【Spark 深入學習-08】說說Spark分區原理及優化方法

wepack的模塊化原理及配置方法

JS中sort()方法原理及使用

詳解iptables防火墻SNAT、DNAT地址轉換工作原理及使用

XSS 漏洞原理及防禦方法

Android異步框架RxJava 1.x系列(二) - 事件及事件序列轉換原理

分頁技術原理與實現之分頁的意義及方法（一）

ssh原理及管理機分發公鑰方法

（good）相位噪聲基礎及測試原理和方法

原生ajax原理及使用方法

蒙特.卡羅方法求解圓周率近似值原理及程式碼實現

漢字編碼轉換原理及方法

相關推薦