PostgreSQL的中文拼音排序(轉載)

阿新 • • 發佈：2019-01-01

轉載地址： https://my.oschina.net/Kenyon/blog/183063

環境：
OS：CentOS 6.3
DB：PostgreSQL 9.2.4
TABLE: tbl_kenyon

場景:

postgres=# \d tbl_kenyon 
   Table "public.tbl_kenyon"
 Column | Type |   Modifiers   
--------+------+---------------
 vname  | text |

--使用排序後的結果，不是很理想
postgres=# select vname from tbl_kenyon order by vname;
 vname 
-------
 上海
 北京
 杭州
 浙江
(4 rows)

說明：
postgresql的排序除了受到資料庫的編碼影響外，還有一個初始化引數是locale也會影響(initdb)，,通常我的選擇是C，這可以讓postgres資料庫通過strcmp()這個函式來比較字串，而不是strcoll()函式。這個引數可以在資料庫裡檢視，如

postgres=# \l
                                List of databases
      Name       |  Owner   | Encoding | Collate | Ctype |   Access privileges   
-----------------+----------+----------+---------+-------+-----------------------
 dkenyon         | u_kenyon | UTF8     | C       | C     | 
 postgres        | postgres | UTF8     | C       | C     | 
 template0       | postgres | UTF8     | C       | C     | =c/postgres          +
                 |          |          |         |       | postgres=CTc/postgres
 template1       | postgres | UTF8     | C       | C     | =c/postgres          +
                 |          |          |         |       | postgres=CTc/postgres
(6 rows)

--簡體中文在系統表裡的支援
postgres=# select collname,collcollate,collctype,b.nspname,c.rolname as collowner 
postgres-# from pg_collation a,pg_namespace b,pg_authid c 
postgres-# where a.collnamespace = b.oid and a.collowner = c.oid and lower(collname) like '%zh_cn%';
   collname   | collcollate  |  collctype   |  nspname   | collowner 
--------------+--------------+--------------+------------+-----------
 zh_CN        | zh_CN        | zh_CN        | pg_catalog | postgres
 zh_CN        | zh_CN.utf8   | zh_CN.utf8   | pg_catalog | postgres
 zh_CN.gb2312 | zh_CN.gb2312 | zh_CN.gb2312 | pg_catalog | postgres
 zh_CN.utf8   | zh_CN.utf8   | zh_CN.utf8   | pg_catalog | postgres
(4 rows)

因為初始化時選擇的locale是C，所以資料庫的預設排序也是C，要想欄位內容按照中文拼音排序，需要將UTF8格式儲存的內容轉換為GBK方式。

解決辦法
1.轉換欄位的方式,加個convert_to字首函式

postgres=# select vname from tbl_kenyon order by convert_to(vname,'GBK');
 vname 
-------
 北京
 杭州
 上海
 浙江
(4 rows)

--convert_to函式輸入引數是text形式,輸出編碼是bytea形式，是將字元轉換為目標編碼的函式,如
postgres=# select convert_to('浙江','UTF8'),('浙江','GBK');
   convert_to   |    row     
----------------+------------
 \xe6b599e6b19f | (浙江,GBK)
(1 row)

2.列指定zh_cn的方式儲存

postgres=# alter table tbl_kenyon add cname text collate "zh_CN";
ALTER TABLE
postgres=# \d tbl_kenyon 
   Table "public.tbl_kenyon"
 Column | Type |   Modifiers   
--------+------+---------------
 vname  | text | 
 cname  | text | collate zh_CN

postgres=# select * from tbl_kenyon;
 vname | cname 
-------+-------
 浙江  | 浙江
 杭州  | 杭州
 上海  | 上海
 北京  | 北京
(4 rows)

postgres=# select * from tbl_kenyon order by vname;
 vname | cname 
-------+-------
 上海  | 上海
 北京  | 北京
 杭州  | 杭州
 浙江  | 浙江
(4 rows)

postgres=# select * from tbl_kenyon order by cname;
 vname | cname 
-------+-------
 北京  | 北京
 杭州  | 杭州
 上海  | 上海
 浙江  | 浙江
(4 rows)

3.查詢時指定collate

postgres=# select * from tbl_kenyon order by vname collate "C";
 vname | cname 
-------+-------
 上海  | 上海
 北京  | 北京
 杭州  | 杭州
 浙江  | 浙江
(4 rows)

postgres=# select * from tbl_kenyon order by vname collate "zh_CN";
 vname | cname 
-------+-------
 北京  | 北京
 杭州  | 杭州
 上海  | 上海
 浙江  | 浙江
(4 rows)

其他問題：
1.在用了方法一的convert_to函式轉換一段時間後，開發告訴我說有異常,報錯 character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

### Error querying database.  Cause: org.postgresql.util.PSQLException: ERROR: character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

排查了一下，發現數據庫裡存了一些比較奇怪的字元導致的，比如Mircle® city,niwhite®town。後對該表重建了一下，用方法二解決,所以convert_to函式使用對一些奇怪的字元轉換時需要注意。

2.對於多音字，仍然會產生一定的歧義，比如重慶，會按Z去排序

上述辦法能滿足大部分漢字的拼音排序，但仍有一些不足。比較理想的解決辦法是對這類基礎資料錄入時就指定拼音規則，或者資料庫裡存一份資料的拼音字典來關聯使用。

其他：
使用zh_cn儲存時測試欄位大小，未測試取值速度

postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',5000), repeat('浙江GDOOASASHOME愛你',5000) ;
INSERT 0 1
postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',50000), repeat('浙江GDOOASASHOME愛你',50000) ;
INSERT 0 1
postgres=# insert into tbl_kenyon select repeat('浙江GDOOASASHOME愛你',100000), repeat('浙江GDOOASASHOME愛你',100000) ;
INSERT 0 1

postgres=# select pg_column_size(cname),pg_column_size(vname) from tbl_kenyon ;
 pg_column_size | pg_column_size 
----------------+----------------
           1410 |           1406
          13769 |          13769
          27506 |          27506
(3 rows)

儲存差異並不大

PostgreSQL的中文拼音排序(轉載)

PostgreSQL的中文拼音排序(轉載)

MySQL實現中文拼音排序

中文拼音排序(web前端實現)

Android 聯絡人按中文拼音排序

sql按照中文拼音排序

mysql中文排序（按照中文拼音順序排序）

list之按照中文拼音首字母排序

elasticsearch實戰---中文拼音A-Z排序（完美解決）

python中文按拼音排序

中文姓名按照拼音排序-python

對List中的map的key按中文拼音進行排序。

list集合中按照欄位的中文拼音進行排序

根據中文拼音首字母排序、取得中文拼音首字母函式 oracle 排序

Oracle中針對中文進行排序

oracle拼音排序

JavaScript非數字（中文）排序

PostgreSQL order by 排序問題

js 處理中文字元排序問題

JS獲取中文拼音首字母，並通過拼音首字母快速查詢頁面內的中文內容

漢字首字母拼音排序-Python

PostgreSQL的中文拼音排序(轉載)

相關推薦