1. 程式人生 > >DL4J中文文件/語言處理/Tokenization

DL4J中文文件/語言處理/Tokenization

什麼是分詞?

分詞是將文字分解成單個單詞的過程。單詞視窗也是由片語成。 Word2Vec還可以輸出文字視窗,這些文字視窗包括用於輸入神經網路中的訓練示例,如本文所見。

示例

下面是一個用DL4J工具進行分詞的例子:

     //帶有詞形還原,詞性標註,句子分割的分詞
     TokenizerFactory tokenizerFactory = new UimaTokenizerFactory();
     Tokenizer tokenizer = tokenizerFactory.tokenize("mystring");

      //迭代
      while(tokenizer.hasMoreTokens()) {
      	   String token = tokenizer.nextToken();
      }
      
      //得到詞的整個列表
      List<String> tokens = tokenizer.getTokens();

上面的程式碼段建立了一個能夠詞幹提取的分詞器。

在Word2Vec中,那是建立詞彙表的推薦方法,因為它避免了各種詞彙上的巧合,例如同一名詞的單數和複數被計算為兩個不同的單詞。