TrieTree字典樹資料結構的原理、實現及應用

阿新 • • 發佈：2019-02-17

一、基本知識

字典樹(TrieTree)，又稱單詞查詢樹或鍵樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：最大限度地減少無謂的字串比較，查詢效率比雜湊表高。

Trie的核心思想是空間換時間。利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。

它有3個基本性質：
根節點不包含字元，除根節點外每一個節點都只包含一個字元。
從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串。
每個節點的所有子節點包含的字元都不相同。

二、構建TrieTree

給定多個字串，如 {banana,band,apple,apt,bbc,app,ba}，那麼所構建的一棵TrieTree形狀如下：
構建的TrieTree

其中，黃色的節點代表從根節點通往該節點的路徑上所經過的節點的字元構成的一個字串出現在原來的輸入文字中，如以d為例，路徑上的字元為：b-a-n-d，對應輸入的字串集合中的”band”。TrieTree可以很方便的擴充套件，當來了新的字串時，只要把新的字串按照原本的規則插入到原來的樹中，便可以得到新的樹。如需要加入新的單詞”bat”，那麼樹的結構只需簡單的拓展成如下的形式：
拓展後的TrieTree

可以看出，TrieTree充分利用字串與字串間擁有公共字首的特性，而這種特性在字串的檢索與詞頻統計中會發揮重要的作用。

三、利用TrieTree進行字串檢索

利用上一節中構造的TrieTree，我們可以很方便的檢索一個單詞是否出現在原來的字串集合中。例如，我們檢索單詞”banana”，那麼我們從根節點開始，逐層深入，由路徑b-a-n-a-n-a最終到達節點a，可以看出此時的節點a是黃色的，意味著“從根節點到該節點的路徑形成的字串出現在原來的字串集合中”，因此單詞”banana”的檢索是成功的。又如，檢索單詞”application”，從根節點沿路徑a-p-p，到達節點p後，由於節點p的後代並沒有’l’，這也意味著檢索失敗。再舉一個例子，檢索單詞”ban”，沿著路徑b-a-n到達節點n，然而，當前的節點n並不是黃色的，說明了“從根節點到該節點的路徑形成的字串“ban”沒有出現在原來的字串集合中，但該字串是原字串集合中某個(些)單詞的字首”。

可以看出，利用TrieTree進行文字串的單詞統計十分方便，當我們要檢索一個單詞的詞頻時，不用再去遍歷原來的文字串，從而實現高效的檢索。這在搜尋引擎中統計高頻的詞彙是十分有效的。

四、TrieTree的程式碼實現

以下為以C++語言實現的TrieTree資料結構。

#include<vector>
#include<string>
#include<cassert>
#include<fstream>
#include<algorithm>
#include<stack>
#include<map>
using 
 namespace std;

#define MAX_SIZE 26     //字符集的大小，這裡預設字元都是小寫英文字母

struct TrieTreeNode{
    int WordCount;          //用於記錄以該節點結尾的單詞出現的次數
    int PrefixCount;        //用於記錄以該節點結尾的前綴出現的次數
    char ch;                //該節點的字元值
    TrieTreeNode* parent;   //指向的父節點指標，一般來說不需要，但為了後面高效的遍歷樹並統計詞頻所增加的
    TrieTreeNode** child;   //指向孩子的指標陣列
    TrieTreeNode(){
        WordCount = 0;
        PrefixCount = 0;
        child = new TrieTreeNode*[MAX_SIZE];
        parent = NULL;
        for (int i = 0; i < MAX_SIZE; ++i)
            child[i] = NULL;
    }
};


class TrieTree{
private:
    TrieTreeNode* _root;
public:
    //建構函式
    TrieTree(){ _root = new TrieTreeNode();
    }
    //向樹插入新單詞
    void insert(const string& word){
        if (word.length() == 0) {  return; }
        insert_I(_root, word);
    }
    //給定某個單詞，返回其在文字中出現的次數
    int findCount(const string& word){
        if (word.length() == 0){ return -1; }
        return findCount_I(_root, word);
    }
    //給定某個字首，返回其在文字中出現的次數
    int findPrefix(const string& prefix){
        if (prefix.length() == 0) return -1;
        return findPrefix_I(_root, prefix); 
    }
    //統計文字中出現的所有單詞及出現的次數
    map<string, int> WordFrequency(){
        map<string, int> tank;
        countFrequency(_root, tank);
        return tank;
    }

private:
    pair<string, int> getWordCountAtNode(TrieTreeNode* p){
        int count = p->WordCount;
        string word;
        stack<char> S;
        do{
            S.push(p->ch);
            p = p->parent;
        } while (p->parent);
        while (!S.empty()){
            word.push_back(S.top());
            S.pop();
        }
        return {word,count};
    }
    void countFrequency(TrieTreeNode* p,map<string, int>& tank){
        if (p == NULL) return;
        if (p->WordCount > 0) tank.insert(getWordCountAtNode(p));
        for (int i = 0; i < MAX_SIZE; ++i){
            countFrequency(p->child[i], tank);
        }
    }
    void insert_I(TrieTreeNode* p, const string& word){

        for (int i = 0; i < word.length(); ++i){
            int pos = word[i] - 'a';
            if (p->child[pos] == NULL){
                p->child[pos] = new TrieTreeNode();
                p->child[pos]->ch = word[i];
                p->child[pos]->parent = p;
            }
                p->child[pos]->PrefixCount++;
                p = p->child[pos];
        }
        p->WordCount++;
    }
    int findCount_I(TrieTreeNode* p, const string& word){
        for (int i = 0; i < word.length(); ++i){
            int pos = word[i] - 'a';
            if (p->child[pos] == NULL) return 0;
            p = p->child[pos];
        }
        return p->WordCount;
    }
    int findPrefix_I(TrieTreeNode* p, const string& prefix){
        for (int i = 0; i < prefix.length(); ++i){
            int pos = prefix[i] - 'a';
            if (p->child[pos] == NULL) return 0;
            p = p->child[pos];
        }
        return p->PrefixCount;
    }
};

四、TrieTree的應用

利用TrieTree檢索單詞是否出現在文字中：
例如，有一文字內容如下：

the apple apple banana potato potato. potato apple
oppo potato, apple tomato the.

定義一個類FileReader用來讀取文字檔案：

class FileReader{
private:
    vector<string> text;
    string erase;
    bool erase_flag;
public:
    FileReader():erase_flag(false){}
    void read(const string& filename){
        ifstream infile;
        infile.open(filename.data());
        assert(infile.is_open());
        string word;
        while (infile>>word){
            if (erase_flag){
                for (int i = 0; i < erase.length(); ++i){
                    int n = 0,pos=0;
                    while (n<word.length())
                    {
                        pos=word.find(erase[i], pos);
                        if (pos < 0) break;
                        else{
                            word.erase(pos, 1);
                        }
                    }
                }
            text.push_back(word);
            }
        }
    }
    void InputEraseChar(const string& CharSet){
        if (CharSet.length() == 0) return;
        erase = CharSet;
    }
    void OnEraseChar(){ erase_flag = true; }
    void OffEraseChar(){ erase_flag = false; }

    void clearData(){
        text.clear();
    }
    void writeData(){
        if (text.size() == 0) { printf("No Data!!"); return; }
        for (int i = 0; i < text.size(); ++i){
            printf("%s ", text[i].data());
        }
    }
    vector<string> outputData(){
        if (text.size() == 0) return{};
        vector<string> output(text);
        return output;
    }
private:
    bool IsEraseChar(const char &ch){
        return erase.find(ch);
    }
};

測試1：統計某些單詞或前綴出現次數
主函式入口如下：

int main(){
    FileReader reader;
    reader.InputEraseChar(",.");
    reader.OnEraseChar();
    reader.read("F:\\TrieTreeTest.txt");
    vector<string> words = reader.outputData();
    TrieTree tree;
    for (int i = 0; i < words.size(); ++i)
        tree.insert(words[i]);

    int count=tree.findCount("banana");
    printf("banana: %d\n",count);
    count=tree.findCount("apple");
    printf("apple: %d\n",count);

    int prefixCount=tree.find("ba");
    printf("prefix \"ba\": %d\n",prefixCount);

    return 0;
}

程式輸出如下：
這裡寫圖片描述

測試2：統計所有出現過的單詞詞頻

int main(){
    FileReader reader;
    reader.InputEraseChar(",.");
    reader.OnEraseChar();
    reader.read("F:\\TrieTreeTest.txt");
    vector<string> words = reader.outputData();
    TrieTree tree;
    for (int i = 0; i < words.size(); ++i)
        tree.insert(words[i]);
    map<string, int> tank = tree.WordFrequency();
    map<string, int>::iterator begin = tank.begin();

    for (; begin != tank.end(); ++begin){
        printf("%s: %d\n", begin->first.c_str(), begin->second);
    }

    return 0;
}

程式碼結果如下：
這裡寫圖片描述

以上就是TrieTree結構在文字中統計單詞詞頻的應用。

TrieTree字典樹資料結構的原理、實現及應用

一、基本知識字典樹(TrieTree)，又稱單詞查詢樹或鍵樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：最大限度地減少無謂的字串比較，查詢效率比雜湊表高。

堆排序演算法基於二叉樹資料結構的python實現

堆排序的原理略，此處只是作為記錄，提供整個程式碼的實現，其中每個細節會給出註釋和函式的設計思路（程式碼末尾）。注：堆排序演算法的實現，以陣列結構來實現要簡潔高效！此處只是作為練手使用，由於堆排序的陣列實現已經有很多，此處略。自定義模組：這個模組我們只用到其節點物件的建立、根據陣列生成

CVPR論文《100+ Times FasterWeighted Median Filter (WMF)》的實現和解析（附原始碼）。任意半徑中值濾波（擴充套件至百分比濾波器）O(1)時間複雜度演算法的原理、實現及效果任意半徑中值濾波（擴充套件至百分比濾波器）O(1)時間複雜度演算法的原理、實現及

　　四年前第一次看到《100+ Times FasterWeighted Median Filter (WMF)》一文時，因為他附帶了原始碼，而且還是CVPR論文，因此，當時也對程式碼進行了一定的整理和解讀，但是當時覺得這個演算法雖然對原始速度有不少的提高，但是還是比較慢。因此，沒有怎麼在意，這幾天有幾位朋友

TrieTree字典樹資料結構的原理、實現及應用

TrieTree字典樹資料結構的原理、實現及應用

堆排序演算法基於二叉樹資料結構的python實現

Java常用演算法原理、實現及總結

二分查詢（折半查詢）演算法（原理、實現及時間複雜度）

分塊查詢演算法完全攻略（原理、實現及時間複雜度）

順序查詢演算法（原理、實現及時間複雜度）

一、 FrameBuffer 原理、實現與應用寫屏（轉）

FrameBuffer 原理、實現與應用

一、 FrameBuffer 原理、實現與應用寫屏

資料結構——單鏈表實現及操作（c語言）

MySQL主備複製原理、實現及異常處理

再談Java資料結構—分析底層實現與應用注意事項

JavaScript資料結構——集合的實現與應用

SPI、I2C、UART三種序列匯流排的原理、區別及應用

系統學習深度學習（五） --遞迴神經網路原理，實現及應用

深度學習中Attention Mechanism詳細介紹：原理、分類及應用

三分鐘看懂大資料風控中使用者行為資料的採集、分析及應用（轉）

平衡二叉樹（AVL樹）建立、查詢、插入操作《大話資料結構》 c++實現程式碼

[從今天開始修煉資料結構]佇列、迴圈佇列、PriorityQueue的原理及實現

TrieTree字典樹資料結構的原理、實現及應用

相關推薦