PostgreSQL的中文拼音排序(轉載)
轉載地址: https://my.oschina.net/Kenyon/blog/183063
環境:
OS:CentOS 6.3
DB:PostgreSQL 9.2.4
TABLE: tbl_kenyon
場景:
postgres=# \d tbl_kenyon Table "public.tbl_kenyon" Column | Type | Modifiers --------+------+--------------- vname | text | --使用排序後的結果,不是很理想 postgres=# select vname from tbl_kenyon order by vname; vname ------- 上海 北京 杭州 浙江 (4 rows)
說明:
postgresql的排序除了受到資料庫的編碼影響外,還有一個初始化引數是locale也會影響(initdb),,通常我的選擇是C,這可以讓postgres資料庫通過strcmp()這個函式來比較字串,而不是strcoll()函式。這個引數可以在資料庫裡檢視,如
postgres=# \l List of databases Name | Owner | Encoding | Collate | Ctype | Access privileges -----------------+----------+----------+---------+-------+----------------------- dkenyon | u_kenyon | UTF8 | C | C | postgres | postgres | UTF8 | C | C | template0 | postgres | UTF8 | C | C | =c/postgres + | | | | | postgres=CTc/postgres template1 | postgres | UTF8 | C | C | =c/postgres + | | | | | postgres=CTc/postgres (6 rows) --簡體中文在系統表裡的支援 postgres=# select collname,collcollate,collctype,b.nspname,c.rolname as collowner postgres-# from pg_collation a,pg_namespace b,pg_authid c postgres-# where a.collnamespace = b.oid and a.collowner = c.oid and lower(collname) like '%zh_cn%'; collname | collcollate | collctype | nspname | collowner --------------+--------------+--------------+------------+----------- zh_CN | zh_CN | zh_CN | pg_catalog | postgres zh_CN | zh_CN.utf8 | zh_CN.utf8 | pg_catalog | postgres zh_CN.gb2312 | zh_CN.gb2312 | zh_CN.gb2312 | pg_catalog | postgres zh_CN.utf8 | zh_CN.utf8 | zh_CN.utf8 | pg_catalog | postgres (4 rows)
因為初始化時選擇的locale是C,所以資料庫的預設排序也是C,要想欄位內容按照中文拼音排序,需要將UTF8格式儲存的內容轉換為GBK方式。
解決辦法
1.轉換欄位的方式,加個convert_to字首函式
postgres=# select vname from tbl_kenyon order by convert_to(vname,'GBK'); vname ------- 北京 杭州 上海 浙江 (4 rows) --convert_to函式輸入引數是text形式,輸出編碼是bytea形式,是將字元轉換為目標編碼的函式,如 postgres=# select convert_to('浙江','UTF8'),('浙江','GBK'); convert_to | row ----------------+------------ \xe6b599e6b19f | (浙江,GBK) (1 row)
2.列指定zh_cn的方式儲存
postgres=# alter table tbl_kenyon add cname text collate "zh_CN";
ALTER TABLE
postgres=# \d tbl_kenyon
Table "public.tbl_kenyon"
Column | Type | Modifiers
--------+------+---------------
vname | text |
cname | text | collate zh_CN
postgres=# select * from tbl_kenyon;
vname | cname
-------+-------
浙江 | 浙江
杭州 | 杭州
上海 | 上海
北京 | 北京
(4 rows)
postgres=# select * from tbl_kenyon order by vname;
vname | cname
-------+-------
上海 | 上海
北京 | 北京
杭州 | 杭州
浙江 | 浙江
(4 rows)
postgres=# select * from tbl_kenyon order by cname;
vname | cname
-------+-------
北京 | 北京
杭州 | 杭州
上海 | 上海
浙江 | 浙江
(4 rows)
3.查詢時指定collate
postgres=# select * from tbl_kenyon order by vname collate "C";
vname | cname
-------+-------
上海 | 上海
北京 | 北京
杭州 | 杭州
浙江 | 浙江
(4 rows)
postgres=# select * from tbl_kenyon order by vname collate "zh_CN";
vname | cname
-------+-------
北京 | 北京
杭州 | 杭州
上海 | 上海
浙江 | 浙江
(4 rows)
其他問題:
1.在用了方法一的convert_to函式轉換一段時間後,開發告訴我說有異常,報錯 character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"
### Error querying database. Cause: org.postgresql.util.PSQLException: ERROR: character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"
排查了一下,發現數據庫裡存了一些比較奇怪的字元導致的,比如Mircle® city,niwhite®town。後對該表重建了一下,用方法二解決,所以convert_to函式使用對一些奇怪的字元轉換時需要注意。
2.對於多音字,仍然會產生一定的歧義,比如重慶,會按Z去排序
上述辦法能滿足大部分漢字的拼音排序,但仍有一些不足。比較理想的解決辦法是對這類基礎資料錄入時就指定拼音規則,或者資料庫裡存一份資料的拼音字典來關聯使用。
其他:
使用zh_cn儲存時測試欄位大小,未測試取值速度
postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',5000), repeat('浙江GDOOASASHOME愛你',5000) ;
INSERT 0 1
postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',50000), repeat('浙江GDOOASASHOME愛你',50000) ;
INSERT 0 1
postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',100000), repeat('浙江GDOOASASHOME愛你',100000) ;
INSERT 0 1
postgres=# select pg_column_size(cname),pg_column_size(vname) from tbl_kenyon ;
pg_column_size | pg_column_size
----------------+----------------
1410 | 1406
13769 | 13769
27506 | 27506
(3 rows)
儲存差異並不大