1. 程式人生 > >R語言tm包中的TermDocumentMatrix函式生成中文詞語矩陣含有\n

R語言tm包中的TermDocumentMatrix函式生成中文詞語矩陣含有\n

問題產生原因是新版本R的scan函式讀取utf8格式資料有時會新增\n,解決辦法是在執行TermDocumentMatrix前,呼叫Sys.setlocale(locale=”English”),之後再設定回去,Sys.setlocale(locale=”Chinese (Simplified)_People’s Republic of China.936”),local設定通過函式sessionInfo()獲得。

txt<-Corpus(VectorSource(segmentCN(Diy_dict,returnType = "tm")),readerControl = list(language = "UTF-8"
)) Sys.setlocale(locale="English") tdm<-DocumentTermMatrix(txt) df_dtm2<-as.data.frame(inspect(tdm)) Sys.setlocale(locale="Chinese (Simplified)_People's Republic of China.936")