R語言繪製中國地圖,並展示流行病學資料
本文作者:姜曉東,博士畢業於上海交通大學,目前任教於湖南師範大學醫學院,專業神經毒理學。
流行病學的資料講究“三間分佈”,即人群分佈、時間分佈和空間分佈。其中的“空間分佈”最好是在地圖上展示,才比較清楚。R軟體集統計分析與高階繪圖於大成,是最適合做這項工作了。關於地圖的繪製過程,謝益輝、邱怡軒和陳麗雲等人都早有文章講述,開R地圖中文教程之先河。由於目前指導畢業論文用到,因此研究了一下。本來因為網上教程很多,曾打消了寫些文字的計劃,但怡軒版主鼓勵說“教程者眾,整合者鮮”,所以才戰勝拖延症,提起拙筆綜述整合一下,並對DIY統計GIS地圖提出了一點自己的想法。
1 地圖GIS資料的來源與R繪製軟體包
中國地圖GIS資料的官方資料可以在國家基礎地理資訊中心的網站(http://nfgis.nsdi.gov.cn)裡面可以免費下載。官方公開的資料包括:地圖資料,及居住地、交通、河流等輔助資料。今年6月開始,官方正組織開始製作新版資料。老資料暫時無法下載,讀者要自行百度搜索,本文以舊版資料為例。舊版地圖資料中部分地名和地市區劃已經過時,使用時需注意。
地圖資料有4個壓縮檔案:bou1_4m.zip、bou2_4m.zip、bou3_4m.zip和bou4_4m.zip。bou代表邊界的意思,數字1~4代表國家、省、市、縣的4級行政劃分;4m代表比例是400萬分之一,這個比例的圖形是公開的。每個檔案解壓縮後含有兩類檔案:以字母p結尾的表示多邊形資料,用來繪製區域;以字母l結尾的檔案是線形資料,用來繪製邊界。但是老版資料中,市級資料中缺少繪製區域的多邊形資料,讓市級分佈圖的繪製稍麻煩一些,新版中也許會有改進。
用R繪製地圖比較簡單。比如畫一下全國範圍的區域,可以用如下程式碼:
library(maptools)
mydat = readShapePoly("maps/bou1/bou1_4p.shp")
plot(mydat)
但是,可以看出這樣繪製的地圖的形狀有些扁平。這是因為,在繪圖的過程中,預設把經度和緯度作為普通資料,均勻平等對待,繪製在笛卡爾座標系上造成的。其實,地球的球面圖形如何對映到平面圖上,在地理學上是有一系列不同的專業演算法的。地圖不應該畫在普通的笛卡爾座標系上,而是要畫在地理學專業的座標系上。在這一點上,R的ggplot2包提供了專門的coord_map()
library(ggplot2)
mymap = ggplot(data = fortify(mydat)) +
geom_polygon(aes(x = long, y = lat, group = id), colour = "black",
fill = NA) +
theme_grey()
print(mymap + coord_map())
這次中國地圖的形狀與百度地圖一樣了。
ggplot2包的coord_map
函式預設的對映型別是mercator。如果有其他需要,可以使用其他的對映型別來繪製地圖,如:
mymap + coord_map(projection = "azequidistant")
coord_map
函式的對映型別及其含義可以通過下列程式碼查詢幫助,一般我們用預設的就可以。
library(mapproj)
?mapproject
2 GIS地圖的資料結構及省市地圖的繪製
GIS地圖有很多種儲存格式,其中shapefile格式(.shp)可以通過R的maptools包開啟。其他格式可以去R官網查詢相應的軟體包。
地圖資料基本可以分為點、線、面三種資料,在maptools包內分別有對應的函式來讀取(readShapePoints
、readShapeLines
和readShapePoly
函式)。首先以面(poly)型資料介紹。先看程式碼,通過readShapePoly
函式讀入省級地圖:
library(maptools)
mydat = readShapePoly("maps/bou2/bou2_4p.shp")
此時,mydat
中儲存的是各個省/直轄市的多邊形面圖,資料型別是SpatialPolygonsDataFrame
。我們可以:
length(mydat)
## [1] 925
names(mydat)
## [1] "AREA" "PERIMETER" "BOU2_4M_" "BOU2_4M_ID" "ADCODE93"
## [6] "ADCODE99" "NAME"
可以發現mydat
中有925條記錄,每條記錄中含有面積(AREA)、周長(PERIMETER)、各種編號、中文名(NAME)等欄位。其中中文名(NAME)欄位是以GBK編碼的。
這個SpatialPolygonsDataFrame
型別並不是真正的data.frame
型別,而是一個sp包定義的類,只不過過載了 []
和 $
運算子,使得一些行為上與data.frame
相類似。
可以進一步統計一下,每個省/直轄市的多邊形數目。
table(iconv(mydat$NAME, from = "GBK"))
##
## 上海市 雲南省 內蒙古自治區 北京市
## 12 1 1 1
## 中國臺灣省 吉林省 四川省 天津市
## 57 1 1 1
## 寧夏回族自治區 安徽省 山東省 山西省
## 1 1 86 1
## 廣東省 廣西壯族自治區 新疆維吾爾自治區 江蘇省
## 154 6 1 5
## 江西省 河北省 河南省 浙江省
## 1 9 1 179
## 海南省 湖北省 湖南省 甘肅省
## 79 1 1 1
## 福建省 西藏自治區 貴州省 遼寧省
## 168 1 2 94
## 重慶市 陝西省 青海省 中國香港特別行政區
## 1 1 1 53
## 黑龍江省
## 1
我的環境是UTF-8,所以需要iconv
函式轉化一下才能正常顯示。
結果顯示多數省的地圖都是由一個多邊形構成,少數臨海省/直轄市由於有很多附屬島嶼,多邊形數目比較多。
利用與data.frame
相似的 []
和 $
運算子操作,我們可以迅速提取出一個省市的資料,比如上海及附屬崇明島:
Shanghai = mydat[mydat$ADCODE99 == 310000,]
plot(Shanghai)
其中ADCODE99是國家基礎地理資訊中心定義的區域程式碼,共有6位數字,由省、地市、縣各兩位程式碼組成。
為了進一步在ggplot2包中繪圖,需要把SpatialPolygonsDataFrame
資料型別轉化為真正的data.frame
型別才可以。ggplot2包專門針對地理資料提供了特化版本的fortify
函式來做這個工作:
head(fortify(Shanghai))
## long lat order hole piece group id
## 1 121.3 31.85 1 FALSE 1 208.1 208
## 2 121.3 31.85 2 FALSE 1 208.1 208
## 3 121.3 31.85 3 FALSE 1 208.1 208
## 4 121.3 31.85 4 FALSE 1 208.1 208
## 5 121.3 31.84 5 FALSE 1 208.1 208
## 6 121.4 31.83 6 FALSE 1 208.1 208
3 在地圖上展示流行病學資料
3.1 一地名對應一區域,長沙為例
首先把長沙所轄地區找到,這個可以根據ADCODE99編碼的前4位定位長沙,去查表就可以了。但是這個地名是99年的標準,新版正在制定過程中,隨時會變。我們權且以此為例。如果找不到表,可以通過程式碼在命令列下手工查詢:
mydat = readShapePoly("maps/bou4/BOUNT_poly.shp")
tmp = iconv(mydat$NAME99, from = "GBK")
grep("長沙", tmp, value = TRUE)
## [1] "長沙縣" "長沙市市轄區"
grep("長沙", tmp)
## [1] 2122 2183
mydat$ADCODE99[grep("長沙", tmp)]
## [1] 430121 430101
## 2368 Levels: 0 110100 110112 110113 110221 110224 110226 110227 ... 820000
這樣我們就知道了長沙ADCODE99編碼的前4位是4301,其中43代表湖南省,01就是長沙市。接著就可以篩選出長沙的地圖資料:
Changsha = mydat[substr(as.character(mydat$ADCODE99), 1, 4) == "4301",]
mysh = fortify(Changsha, region = 'NAME99')
mysh = transform(mysh, id = iconv(id, from = 'GBK'), group = iconv(group, from = 'GBK'))
head(mysh, n = 2)
## long lat order hole piece group id
## 1 113.1 28.18 1 FALSE 1 長沙市市轄區.1 長沙市市轄區
## 2 113.1 28.18 2 FALSE 1 長沙市市轄區.1 長沙市市轄區
names(mysh)[1:2] = c("x","y") #這句是不得已而為之的黑魔法
接著我們給一串隨機數當成是流行病學資料,並用顏色填充到地圖上。
myepidat = data.frame(id = unique(sort(mysh$id)))
myepidat$rand = runif(length(myepidat$id))
myepidat
## id rand
## 1 寧鄉縣 0.98076
## 2 望城縣 0.32123
## 3 瀏陽市 0.66957
## 4 長沙縣 0.09655
## 5 長沙市市轄區 0.19437
csmap = ggplot(myepidat) +
geom_map(aes(map_id = id, fill = rand), color = "white", map = mysh) +
scale_fill_gradient(high = "darkgreen",low = "lightgreen") +
expand_limits(mysh) + coord_map()
print(csmap)
接下來的工作就是新增地名,sp包提供了coordinates
函式,來計算地圖的中心座標:
tmp = coordinates(Changsha)
print(tmp)
## [,1] [,2]
## 2121 113.2 28.32
## 2134 113.7 28.23
## 2136 112.8 28.29
## 2149 112.3 28.13
## 2182 113.0 28.17
tmp = as.data.frame(tmp)
tmp$names = iconv(Changsha$NAME99, from = 'GBK')
print(tmp)
## V1 V2 names
## 2121 113.2 28.32 長沙縣
## 2134 113.7 28.23 瀏陽市
## 2136 112.8 28.29 望城縣
## 2149 112.3 28.13 寧鄉縣
## 2182 113.0 28.17 長沙市市轄區
csmap + geom_text(aes(x = V1,y = V2,label = names), family = "GB1", data = tmp)
如果需要支援更多字型,可以配合使用showtext包。
3.2 內地省份的地市級圖的情況
如果國家基礎地理資訊中心的GIS地圖資料的地市檔案bou3_4m.zip中含有polygon檔案,那麼我們就可以根據上一節的內容繪製省內地市級分佈圖了。官方恰恰缺少了這個檔案,給繪圖造成了麻煩。
解決方案有兩個:
一個是另闢蹊徑,從非官方的www.gadm.org下載一份shp格式的中國地圖來繪製;
另一個解決方案是從官方釋出的縣級地圖入手,根據ADCODE99編碼適當合併,繪製省內地市分佈圖,同時利用bou3_4m.zip僅存的邊界檔案繪製邊界。
相信官方新版本的GIS地圖資料會包含舊版本所缺失的這份檔案。目前還是建議暫時使用gadm的省級地圖。舊版官方地圖資訊比較陳舊落後,比如湖南沒有標註出湘西州的規劃。
3.3 一地名對應多區域,上海為例
中國很多沿海省/直轄市有很多附屬島嶼,導致地名和區域(Polygon)存在一對多的情況。這種情況下,在fortify
處理資料的時候一定要特別注意索引與多邊形一一對應,同時又要保持地名資訊,黑魔法在程式碼中:
# mydat = readShapePoly("maps/bou4/BOUNT_poly.shp")
Shanghai = mydat[substr(as.character(mydat$ADCODE99), 1, 2) == '31',]
mysh = fortify(Shanghai, region = 'NAME99')
mysh = transform(mysh, id = iconv(id, from = 'GBK'), group = iconv(group, from = 'GBK'))
head(mysh)
## long lat order hole piece group id
## 1 121.2 31.85 1 FALSE 1 崇明縣.1 崇明縣
## 2 121.3 31.85 2 FALSE 1 崇明縣.1 崇明縣
## 3 121.3 31.85 3 FALSE 1 崇明縣.1 崇明縣
## 4 121.3 31.85 4 FALSE 1 崇明縣.1 崇明縣
## 5 121.3 31.85 5 FALSE 1 崇明縣.1 崇明縣
## 6 121.3 31.84 6 FALSE 1 崇明縣.1 崇明縣
# 黑魔法在此
names(mysh)[c(1, 2, 6, 7)] = c("x", "y", "id", "code")
myepidat = data.frame(id = unique(sort(mysh$id)))
# 隨機數字替代資料
myepidat$rand = runif(length(myepidat$id))
# 官方地圖區劃比較落後過時,目前上海是16區1縣,神碼“市直轄5區”的稱呼已經過時。
myepidat
## id rand
## 1 上海市市轄區.1 0.21673
## 2 上海市市轄區.2 0.74173
## 3 上海市市轄區.3 0.02462
## 4 上海市市轄區.4 0.20619
## 5 上海市市轄區.5 0.89970
## 6 南匯縣.1 0.77084
## 7 嘉定區.1 0.21771
## 8 奉賢縣.1 0.91729
## 9 崇明縣.1 0.04879
## 10 崇明縣.2 0.02462
## 11 崇明縣.3 0.03397
## 12 崇明縣.4 0.72591
## 13 崇明縣.5 0.72059
## 14 崇明縣.6 0.43981
## 15 松江區.1 0.18296
## 16 金山區.1 0.78371
## 17 金山區.2 0.88552
## 18 閔行區.1 0.54186
## 19 青浦縣.1 0.12003
ggplot(myepidat) + geom_map(aes(map_id = id, fill = rand), map = mysh) +
expand_limits(mysh) + coord_map()
3.4 其他問題
如果需要縣級以下的地圖GIS資料,比如街道、鄉村的地圖,國家地理資訊中心並不提供。要麼去民政部索取,要麼自己繪製。
另外,提醒大家,流行病學資料並不是僅僅畫在地圖上就完事了。針對空間資料,R裡面有很多空間資料的分析軟體包。推薦Roger S. Bivand的《Applied Spatial Data Analysis with R》,尤其是裡面第11章“Disease Mapping”,對醫學背景同學很有益處。如果能找到一個地理資源環境學院的研究生一同討論的話就更好了。畢竟,它山之石可以攻玉,我們要承認自己的不足。
4 自己繪製簡單的GIS地圖
在製作流行病學統計地圖的過程中,對於很多區、街道、鄉村級別的地圖,無法獲得GIS資料。很多人的做法是到百度地圖上用繪圖軟體摹描出區域線圖,然後再把自己的資料計算成相應顏色,再手工填充顏色繪成統計地圖。這個過程枯燥繁瑣,而且資料對映成顏色的時候容易出錯。不如把你已經描好的線圖,製成shp格式的GIS資料地圖,分享給大家用。辛苦你一個,幸福千萬家。這個過程其實有專業的GIS軟體可以做,若你能找到專業人士,就直接“幸福千萬家”了。
如果地圖結構簡單,我們可以“土法”來做。先去NIH(美國國立衛生研究院)網站下載一個免費的影象軟體ImageJ,用來採集地區邊界資料。然後再把採集好的資料在R軟體裡面把畫素座標換算成地理座標,在利用R軟體sp包和maptools的函式整合成SpatialPolygonsDataFrame
,最後儲存為shp格式的地圖檔案。
我們以起點中文網小說《江山美人志》開篇所附地圖為例,繪製虛擬世界裡面“中南郡”的GIS地圖。為了和實際問題類似,我在地圖中畫上了參考座標線。
利用ImageJ“點”工具,同時按住Shift鍵一次批量多點取樣,再點選分析菜的測量,最後儲存結果。
ImageJ採集的點座標是點陣圖畫素相對座標,為了能換算為地理經緯度座標。我們先採集圖上參考座標線上的經緯交點座標,在R中建立換算關係:
mg_pos = data.frame(x = c(103,103,403,403), y = c(75,275,75,275))
real_pos = data.frame(x = c(105,105,115,115), y = c(27,20,27,20))
data_x = data.frame(img = img_pos$x, rel = real_pos$x)
data_y = data.frame(img = img_pos$y, rel = real_pos$y)
lm_x = lm(rel~img, data = data_x)
lm_y = lm(rel~img, data = data_y)
mytrans_x = function(myimg) {
predict(lm_x, newdata = data.frame(img = myimg))
}
mytrans_y = function(myimg) {
predict(lm_y, newdata = data.frame(img = myimg))
}
然後,再利用ImageJ軟體對中南郡的每個區域輪廓線單獨描邊取樣,這樣做的缺點就是兩個區域相鄰邊會有些不一致,出現小幅的咬合錯位現象,但這個對美觀影響不大。優點是大大節省時間。
把每個區域的邊界儲存在單獨的檔案中。然後在R中把這些資料轉化為GIS資料,儲存為shp格式的標準地圖檔案。關於程式碼中函式的意義及範例(比我的程式碼更清晰),請參考sp和maptools包的幫助檔案。
library(maptools)
myfiles = c("Jiana.xls", "Kutedan.xls", "Miyaluo.xls", "Woda.xls", "Yada.xls")
mypolys = lapply(myfiles,
function(x) {
tmp = read.table(paste0("data/", x));
tmp = rbind(tmp, tmp[1, ]);
tmp$X = mytrans_x(tmp$X);
tmp$Y = mytrans_y(tmp$Y);
tmp
})
mynames = sub(".xls$", "", myfiles)
names(mypolys) = mynames
myPolygons = lapply(mynames,
function(x) {
tmp = mypolys[[x]];
Polygons(list(Polygon(cbind(tmp$X, tmp$Y))), x)
})
mySpn = SpatialPolygons(myPolygons)
myCNnames = c("嘉納", "庫特丹", "米亞洛", "沃達", "雅達")
myshpdata = SpatialPolygonsDataFrame(mySpn,
data = data.frame(
Names = mynames,
CNnames = myCNnames,
row.names = row.names(mySpn)))
# 我們要注意到:SpatialPolygonsDataFrame類的data成員的欄位是可以自定義的,
# 這個是暴露給names函式以及$、[]運算子的。
writePolyShape(x = myshpdata, fn = "data/myDIYmap_poly")
這樣我們在就成功儲存了shp格式的地圖檔案(一共生成三個檔案,一個shp檔案,兩個輔助檔案)。生成的地圖檔案可以留給別人用,也可以正常開啟繪圖了。
mydat = readShapePoly("data/myDIYmap_poly.shp")
plot(mydat)
可以發現,在區域相鄰的邊界,有咬合分離現象,這是由於我們取樣的時候,每個區單獨描邊,產生了共享邊的不一致。不過,我們繪製地圖是為了展示流行病學資料,這個誤差是可以接受的。
library(ggplot2)
mysh = fortify(mydat, region = "CNnames")
names(mysh)[1:2] = c("x", "y")
myepidat = data.frame(id = unique(sort(mysh$id)))
myepidat$rand = runif(length(myepidat$id))
tmp = coordinates(mydat)
tmp = as.data.frame(tmp)
tmp$names = mydat$CNnames
ggplot(myepidat) + geom_map(aes(map_id = id, fill = rand), color = "white", map = mysh) +
geom_text(aes(x = V1,y = V2,label = names), family = "GB1", data = tmp)+
scale_fill_gradient(high = "red", low = "yellow") +
expand_limits(mysh) + coord_map()
如上,畫成統計地圖,還算美觀。
如果非要消除這種邊界交錯的不完美,就需要預先制定規劃,在點陣圖上分段採集邊界線,再拼接組合成區域輪廓。由於共享邊只採集一次,你能得到邊界完美的地圖。問題是,隨著地圖區域增多,你將在輪廓的拼接組合上,面臨幾何級數增長的複雜度。不過,離開現實的功利和脅迫,去追求完美,不也是推動這個世界前進的原動力麼?
5 小結
儘管我在寫作中使用了這個星球上最強大的knitr軟體包來保證本文的可重複性,但是隨著官方新版資料在未來的釋出,資料的欄位名稱甚至組織布局將會有些變化,也會使本文程式碼無法直接拷貝執行。還是希望讀者能自己掌握R,以無招勝有招。
喜歡讀統計之都主頁文章的結尾部分,因為常在此部分讀到作者“不著調”的話,發人深省。最愛楊燦兄改編的這段:
問:世間是否此山最高,或者另有高處比天高?
答:在世間自有山比此山更高,Open-mind要比天高。
參考文獻