涉及多平臺版本的中英文字元檔案讀寫和轉換

阿新 • • 發佈：2019-01-25

參考文件：

1. 在多個編譯版本中，中英文在傳遞時，可能採用不同的格式

_UNICODE定義時，中英文字元都按unicode格式儲存（CString使用CStringW-wchar_t型儲存)

MBCS時，英文字元1個位元組，中文字元兩個位元組（CString使用CStringA-char型儲存）

參考下面來自msdn的說明：我們看到CString基於_UNICODE巨集，儲存資料char 或 w_char型別。

CString is based on the TCHAR data type. If the symbol _UNICODE is defined for your program, TCHAR is defined as type wchar_t, a 16-bit character type; otherwise, it is defined as char, the normal 8-bit character type. Under Unicode, then, CString objects are composed of 16-bit characters. Without Unicode, they are composed of 8-bit char type.

When not using _UNICODE, CString is enabled for multibyte character sets (MBCS, also known as double-byte character sets, DBCS).

再來看下：MBCS說明

最常見的 MBCS 實現是雙位元組字符集 (DBCS)。一般來說，Visual C++（尤其是 MFC）完全支援 DBCS
在 MBCS 下，字元被編碼為單位元組或雙位元組。在雙位元組字元中，第一個位元組（即前導位元組）表示它和下一個位元組將被解釋為一個字元。第一個位元組來自留作前導位元組的程式碼範圍。哪個範圍的位元組可以用作前導位元組取決於所使用的內碼表。例如，日文內碼表 932 使用 0x81 到 0x9F 範圍內的位元組作為前導位元組，而朝鮮語內碼表 949 則使用其他範圍的位元組。

2. 當我們涉及中英文儲存互動的時候，需要同時支援兩種情況（MBCS/UNICODE）

程式怎麼寫?

配置檔案怎麼寫?

關於我個人當前有這兩種思路

第一種：檔案格式固定

例如：檔案格式我們採用uncode儲存；

讀取時：程式本身在執行的時候，判斷當前是unicode，還是mbcs，採用

sizeof(TCHAR) == 1 則為 mbcs

sizeof(TCHAR) == 2 則為 unicode

當為unicode時，則直接從檔案中讀取字串即可，就能讀到正確的中英文字元，這些讀出的內容可以正確展現到介面中去

當程式以mbcs格式執行時，需要把unicode的字串內容，通過轉換，轉換成mbcs，然後再展現到介面中去

寫入時：我們一定要採用unicode寫入，當系統為mbcs時，我們把資料轉為unicode儲存到wchar_t*的buffer中，然後寫入。

第二種：記錄字串格式到檔案中

例如：程式寫入檔案的時候，判斷當前的環境，如果為mbcs，則記錄1，如果為unicode，則記錄0。

在讀取的時候，先判斷自身的執行環境mbcs/unicode，然後再讀入檔案中的資訊mbcs/unicode；如果兩者一致，則直接讀入即可。

如果兩者不一致，則需要轉換，轉換到對應的執行環境中的格式。

例如：環境為unicode，檔案儲存的是mbcs，則需要把檔案中的字串轉為unicode，然後再展示

環境為mbcs，檔案儲存為unicode，則需要把檔案中的字元床轉為mbcs，然後展示到介面中

3. MBCS/UNICODE轉換的方法

這裡介紹一個MFC中常用的方法

Unicode to ANSI：假如檔案儲存的型別是Unicode，環境的型別是MBCS

CString cstrName; // 環境為Unicode時，CString等同於CStringA，儲存的資料為char型別
BYTE *pBuffer = new BYTE[dwStrNameLength];
binFile.Read(pBuffer, dwStrNameLength); // 從檔案中讀取出Unicode格式來名稱
{    
	USER_CONVERSION;    
	cstrName = W2CT(LPCWSTR(pBuffer));
} 
delete pBuffer;

ANSI to Unicode：假如檔案儲存的型別是ASNI，環境的型別是Unicode

CString cstrName; // 環境為Unicode時，CString等同於CStringW，儲存的資料為wchar_t型別
BYTE *pBuffer = new BYTE[dwStrNameLength];
binFile.Read(pBuffer, dwStrNameLength);   // 從檔案中讀取出來ANSI格式儲存名稱
{    
	USER_CONVERSION;    
	cstrName = A2CT(LPCSTR(pBuffer));
} 
delete pBuffer;

W2CT,A2CT 參見MSDN中說明：

CSourceType2[C]DestinationType[EX]

where:

SourceType and DestinationType are described in the table below.
[C] is present when the destination type must be constant.

[EX] is present when the initial size of the buffer must be specified as a template argument.

SourceType/DestinationType	Description
A	ANSI character string.
W	Unicode character string.
T	Generic character string (equivalent to W when _UNICODE is defined, equivalent to A otherwise).
OLE	OLE character string (equivalent to W).

4. USER_CONVERSION/W2CT等使用注意事項

USES_CONVERSION的巨集定義參考如下：

		int _convert = 0; (_convert); 
		UINT _acp = ATL::_AtlGetConversionACP() /*CP_THREAD_ACP*/; (_acp); 
		LPCWSTR _lpw = NULL; (_lpw);
		LPCSTR _lpa = NULL; (_lpa)

A2W巨集定義形如：

	(_lpa = lpa) == NULL) ? NULL : _convert = (lstrlenA(_lpa)+1);
	(INT_MAX/2<_convert)? NULL : ATLA2WHELPER((LPWSTR) alloca(_convert*sizeof(WCHAR)), _lpa, _convert, _acp);

W2A巨集定義形如：

         ((_lpw = lpw) == NULL) ? NULL : (_convert = (lstrlenW(_lpw)+1), 
	(_convert>INT_MAX/2) ? NULL : ATLW2AHELPER((LPSTR) alloca(_convert*sizeof(WCHAR)), _lpw, _convert*sizeof(WCHAR), _acp)

其中其記憶體申請使用的是：alloca

alloca的話從stack申請空間，比較方便，不用我們釋放，函式結束，stack地址自然會回退。

不過我們知道stack空間通常是有限制的，例如2M，所以我們使用時，

1. 避免在一個函式中迴圈使用alloca---擔心溢位了

2. 如果確實需要，要麼使用別的，例如MultiByteToWideChar；也或者這樣把一次的處理放到函式中，然後迴圈再呼叫

    CString InnProc(i) { USER_CONVERSION; ... return A2CT(xxx); }

    void Proc()  {for (...) { xxx = InnProc(i)};

//這樣的話，每次執行完InnProc，stack地址就回歸一次，就不回越積越多的溢位了

3. alloca出的記憶體，要返回時，請copy一下再返回，這個和臨時變數道理一樣. 上面的例子使用的CString把字串copy了一份拿了出來。要不函式退出時，函式產生的stack資料原則上要清掉的。

涉及多平臺版本的中英文字元檔案讀寫和轉換

參考文件： 1. 在多個編譯版本中，中英文在傳遞時，可能採用不同的格式 _UNICODE定義時，中英文字元都按unicode格式儲存（CString使用CStringW-wchar_t型儲存) MBCS時，英文字元1個位元組，中文字元兩個位元組（CSt

VC INI檔案讀寫和 GetProfileString，WriteProfileString函式的使用

一、向ini檔案中寫入資訊的函式1. 把資訊寫入系統的win.ini檔案 BOOL WriteProfileString( LPCTSTR lpAppName, // 節的名字，是一個以0結束的字串 LPCTSTR lpKeyName, // 鍵的名字，是一個以0結束的字串。若為NUL

python檔案讀寫和整理

**在windows上面，路徑的書寫使用反斜槓作為資料夾之間的分隔符；在OS X或者Linux上則是是用正斜槓。 python上對檔案進行操作要使用到os這個模組。 1.os模組和os.path模組

實驗二影象檔案的讀寫和轉換(BMP轉YUV)

實驗二影象檔案的讀寫和轉換(BMP轉YUV) 一、實驗基本原理 1.BMP點陣圖檔案格式 BMP(全稱Bitmap)是Windows作業系統中的標準影象檔案格式，可以分成兩類：裝置相關點陣圖(DDB)和裝置無關點陣圖（DIB），採用位對映儲存格式，除了影象深度可選(1

檔案讀寫和檔案指標的移動

read 函式 -#include <unistd.h> -ssize_t read(int fd, void *buf, size_t count); 從fd 所指的檔案中讀取count 個位元組到buf 中。返回實際讀取到的位元

實驗6 檔案讀寫與多執行緒

1基礎知識檔案與檔案路徑檔案有兩個關鍵屬性：檔名和路徑。檔名中的最後一個句點之後的部分被稱為檔案的“副檔名”，它指明瞭檔案的型別。路徑指明瞭檔案在計算機上的位置。在Windows中，路徑書寫使用倒斜槓（\）作為資料夾之間的分隔符，而OS X和Linux中，則使用正

Unity3D-各平臺檔案讀寫操作路徑目錄

public string AssetCachesDir { get { string dir = ""; #if UNITY_E

[Unity基礎]移動平臺下的檔案讀寫

參考連結： http://www.cnblogs.com/murongxiaopifu/p/4199541.html?utm_source=tuicool#autoid-3-2-0 http://zhaolongchn.blog.163.com/blog/static/19

Android 平臺的檔案讀寫方式

C. 使用方式 1. 將資料寫入內部儲存體的檔案中 (1) 將檔案存放在 getFilesDir() 目錄 //**** 方法一 ****// //取得內部儲存體擺放檔案的目錄 //預設擺放路徑為 /data/data/[package.name]/files/ File dir = context.

C++檔案的讀寫和對多行多個字串的處理

C++讀寫檔案中的字串今天幫人做了個簡單的作業，沒想到花時間最多的不是演算法而是檔案的讀寫，還有對讀入字串的分割處理。晚上寫作業的時候又用到了對字串的處理，這裡記錄一下。小白第一次寫部落格，做的不好的請多多指正。題目如下： Retail.dat檔案中包含了某零售商店

Python模組、字元編碼、檔案讀寫

模組當我們用一種語言開始真正的軟體開發室，除了編寫程式碼外，還需要很多基本的已經寫好的現成的東西，高階語言通常都會為我們提供了一個比較完善的基礎程式碼庫，讓我們能直接呼叫，python也不例外，為我們提供了分成完善的基礎程式碼和第三方庫。在python中一個.py檔案就是一個模組。模組匯

Python多執行緒同步---檔案讀寫控制

1、實現檔案讀寫的檔案ltz_schedule_times.py #! /usr/bin/env python #coding=utf-8 import os def ReadTimes():

.NET平臺開源專案速覽(1)SharpConfig配置檔案讀寫元件

在.NET平臺日常開發中，讀取配置檔案是一個很常見的需求。以前都是使用System.Configuration.ConfigurationSettings來操作，這個說實話，搞起來比較費勁。不知道大家有沒有同感。所以更多時候我還是喜歡使用開源的東西，更加方便簡潔，也穩定。省去自己的麻煩。今天就介紹一個非常精緻