1. 程式人生 > >Python編解碼小結(一)—— Unicode的來龍去脈

Python編解碼小結(一)—— Unicode的來龍去脈

早期的計算機使用7位的ASCII編碼,但為了處理漢字,又設計出用於簡體中文的GB2312和用於繁體中文的big5。
GB2312:(1980年)一共收錄了7445個字元,包括6763個漢字和682個其它符號。漢字區的內碼範圍高位元組從B0-F7,低位元組從A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。另外在這套編碼裡,數學符號、羅馬希臘的字母、日文的假名們都編進去了,連在 ASCII 裡本來就有的數字、標點、字母都統統重新編了兩個位元組長的編碼,這就是常說的"全形"字元,而原來在127號以下的那些就叫"半形"字元了。
CJK:Unicode為了節省碼位,將中日韓三國語言中的文字統一編碼為CJK。GB13000.1就是ISO/IEC 10646-1的中文版,相當於Unicode 1.1。
GB13000
: 完全等同於ISO 10646-1/Unicode 2.1, 今後也將隨ISO 10646/Unicode的標準更改而同步更改.
GBK: 由於GB2312支援的漢字太少,1995年的漢字擴充套件規範GBK1.0收錄了21886個符號,它分為漢字區和圖形符號區,基本上採用了原來GB2312-80所有的漢字及碼位,並涵蓋了原Unicode中所有的漢字20902,總共收錄了883個符號, 21003個漢字及提供了1894個造字碼位。容納GB2312字符集範圍以外的Unicode 2.1的統一漢字部分, 並且增加了部分unicode中沒有的字元。由於GBK同時也涵蓋了Unicode所有CJK漢字,也可以認為是Unicode的一種編碼方式。
GB18030(即GB18030-2000)
:2000年的GB18030取代GBK1.0的正式國家標準。該標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。該編碼作為Unicode 3.0的GBK擴充套件版本, 覆蓋了所有unicode編碼, 地位等同於UTF-8, UTF-16, 也是一種unicode編碼形式。 GB18030向下相容GB2312/GBK.  現在的PC平臺必須支援GB18030,對嵌入式產品暫不作要求,所以手機、MP3一般只支援GB2312。從漢字字彙上說,GB18030在GB13000.1的20902個漢字的基礎上增加了CJK擴充套件A的6582個漢字(Unicode碼0x3400-0x4db5),一共收錄了27484個漢字。 GB18030的編碼採用單位元組、雙位元組和4位元組方案。其中單位元組、雙位元組和GBK是完全相容的。4位元組編碼的碼位就是收錄了CJK擴充套件A的6582個漢字。例如:UCS的0x3400在GB18030中的編碼應該是8139EF30,UCS的0x3401在GB18030中的編碼應該是8139EF31。

相關推薦

Python解碼小結—— Unicode來龍去脈

早期的計算機使用7位的ASCII編碼,但為了處理漢字,又設計出用於簡體中文的GB2312和用於繁體中文的big5。GB2312:(1980年)一共收錄了7445個字元,包括6763個漢字和682個其它符號。漢字區的內碼範圍高位元組從B0-F7,低位元組從A1-FE,佔用的碼位是72*94=6768。其中有5個

Python程入門

pythonPython編程入門(一)=========================================================================================概述:============================================

python 解碼解釋unicode與 uft-8

轉自:http://www.cnblogs.com/yyxayz/p/4044528.html 中文編碼問題是用中文的程式設計師經常頭大的問題,在python下也是如此,那麼應該怎麼理解和解決python的編碼問題呢? 我們要知道python內部使用的是unicode編碼,而外部卻要面對千奇

python進階學習--多線程

不用 才會 睡眠 關鍵字參數 war 信息 target 函數傳遞 消息隊列 1. 多線程 概念:簡單地說操作系統可以同時執行多個不用程序。例如:一邊用瀏覽器上網,一邊在聽音樂,一邊在用筆記軟件記筆記。 並發:指的是任務數多余cpu核數,通過操作系統的各種任務調度算

Python 接口測試

blog 系統環境變量 resp 環境變量 nbsp 們的 www nload uic 1. 概念: 接口測試是測試系統組件間接口的一種測試。接口測試主要用於檢測外部系統與系統之間以及內部各個子系統之間的交互點。測試的重點是要檢查數據的交換,傳遞和控制管理過程,以及系統間的

linux驅動開發之framebuffer應用程實踐

linux驅動開發之framebuffer驅動 1、framebuffer應用編程 (1)打開設備文件 (2)獲取設備信息 宏定義的命令在/linux/fb.h中 不可變信息FSCREENINFO,使用ioctl參數有FBIOGET_FSCREENINFO宏名,表示用ioctl從

python初步——基礎總結

python 自動化運維一. 第一個HelloWorld 1. 在linux 執行 (python2.7)[[email protected]/* */ ~]# vim test.py #!/usr/bin/env python

python全棧測試題

span hello sdi 執行 python腳本 pan 數字 ice 登錄 1、執行Python腳本的兩種方式 如果想要永久保存代碼,就要用文件的方式 如果想要調試代碼,就要用交互式的方式即終端命令下和python環境中 2、Pyhton單行註釋和多行註釋分別用什

Linux進程相關的內容及命令小結

進程 linux概念:進程,一個活動的程序實體的副本,擁有生命周期,一個進程可能包含一個或多個執行流; 進程的創建進程: 每個進程的組織結構是一致的; 內核在正常啟動並且全面接管硬件資源之後,會創建一個Init的進程;而這個名叫init的進程負責用戶空間的進程管理; CentOS5及以前:SysV In

linux命令小結

命令 linux 基礎 1)pwd:顯示工作目錄路徑語法: pwd [選項]選項: -L 目錄鏈接時,輸出鏈接路徑 -P 輸出物理路徑例子: [[email protected]/* */ ~]# pwd /root //顯示當前路徑2)

python進階學習

分享 target for buffer yun lena hello pri true 同樣是《python基礎教程(第二版)》的內容,只是後面內容學起來,相比前面會比較有趣,也更加實用,所以,將“基礎”改為“進階”。 python 電子書分享地址:http://yu

Python開發MapReduce系列WordCount Demo

logs 3-9 line counter ota python開發 home num brush  原創,轉發請註明出處。   MapReduce是hadoop這只大象的核心,Hadoop 中,數據處理核心就是 MapReduce 程序設計模型。一個Map/Reduc

Python爬蟲實例爬取百度貼吧帖子中的圖片

選擇 圖片查看 負責 targe mpat wid agent html headers 程序功能說明:爬取百度貼吧帖子中的圖片,用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。 思路分析: 一、指定貼吧url的獲取 例如我們進入秦時明月吧,提取並分析其有效url如下

Python操作rabbitmq系列

targe 紅色 入門 web 之間 cap ssa 隊列 技術 從本文開始,接下來的內容,我們將討論rabbitmq的相關功能。我的這些文章,最終是要實現一個項目(具體是什麽暫不透露)。前面每一篇,都是在為這個系統做準備。rabbitmq,是我們這個項目的關鍵部分之一。所

Python數據結構 字典

字典0x 01 字典簡介 子典和列表是python中最常用的兩種數據類型,字典是鍵值對(key-value)格式的數據類型,它和列表一樣也有索引,但不是列表中的下標,而是使用key來作為索引,key所對應的值就是value,所以字典是無序的,因此任何時候只要訪問字典的key,便可以得到對應的value,

Python學習之day5字符串常用操作命令簡介

堅持就是勝利 字符串常用操作命令簡介名字描述舉例.isdigit判斷是否是數字Name=demonlg,print name.isdigit,會打印出False,因為demonlg不是數字.inde

java程基礎

true 一行代碼 對象的引用 整型 es2017 tab鍵 轉義 int 定位 Java編程基礎(一) 1. java基本語法 1.1 Java基本格式 修飾符 class 類名 { 程序代碼 } Java嚴格區分大小寫,例如不能

JavaScript數據可視化程學習Flotr2,包含簡單的,柱狀圖,折線圖,餅圖,散點圖

基礎 沒有 cat 勝利 而是 5.4 最好的 表數據 聯系 一、基礎柱狀圖 二、基礎的折線圖 三、基礎的餅圖 四、基礎的散點圖 一、基礎柱狀圖 如果你還沒有想好你的數據用什麽類型的圖表來展示你的數據,你應該首先考慮是否可以做成柱狀圖。柱狀圖可以表示數據的

[讀書筆記] Python數據分析 準備工作

基礎 htm 環境 防止 功能 多維 處理工具 ati 增強 1. python中數據結構:矩陣,數組,數據框,通過關鍵列相互聯系的多個表(SQL主鍵,外鍵),時間序列 2. python 解釋型語言,程序員時間和CPU時間衡量,高頻交易系統 3. 全局解釋器鎖GIL,

jmeter使用小結

請求參數 配置 測試 width image 簡單介紹 保存 任務 wid jmeter是用來做接口壓力測試的工具。這裏只是簡單介紹一下使用,大家可以自行查看幫助文檔, 1.打開jmeter工具,創建線程組任務 2.添加配置元件,根據需要選擇設置 3.添加采樣器