1. 程式人生 > >DL4J中文文件/語言處理/Vocabulary Cache

DL4J中文文件/語言處理/Vocabulary Cache

詞彙快取的工作原理

詞彙快取是DL4J中處理通用自然語言任務的機制,包括普通TF-IDF、單詞向量和某些資訊檢索技術。詞彙快取的目標是成為文字向量化的一站式商店,其中封裝了單詞袋和單詞向量等常用的技術。

詞彙快取通過倒排索引處理詞、詞統計頻率、倒排文件頻率和文件出現的儲存。InMemoryLookupCache是參考實現。

為了在迭代文字和索引詞時使用詞彙快取,你需要確定詞是否應該包括在詞彙快取中。該標準通常是如果詞出現在語料庫中超過一定預先配置的頻率。在該頻率以下,單個詞不是一個詞彙快取的單詞,它只是一個詞。

我們也跟蹤詞。為了跟蹤詞,請執行下列操作:

    addToken(new VocabWord(1.0,"myword"));

當你想新增一個詞彙快取的詞,按如下做:

    addWordToIndex(0, Word2Vec.UNK);
    putVocabWord(Word2Vec.UNK);

向索引新增單詞來 設定索引。然後你把它宣告為一個詞彙快取單詞。(宣告它是一個詞彙快取單詞,將從索引中拉出單詞。)