1. 程式人生 > >用SQLite進行全文檢索

用SQLite進行全文檢索

對於應用軟體開發人員來說,要解決這個問題有許多的方案可以選擇。如,利用MySQL和PostgreSQL或者Sphinx和Lucene這樣的獨立軟體進行本地執行。然而,這些要麼用起來棘手,要麼就過度了。

  幸運的是,Google為SQLite貢獻了一些資源以實現幫助。在版本3.3.8中第一次實現全文檢索。此版本提供的功能可以建立一個依賴於外部延伸的虛擬表:在這裡,全文搜尋運演算法則可用於任何虛擬表內的文字列。在PHP 5.3.0中,對應的支援只被預設的PDO和SQLite3啟用。較早版本的PHP可以使用PECL 的SQLite3擴充套件庫。

  建立一個搜尋索引通常情況如下:

  • 把文字分解成記號。

  • 轉換為小寫字母。

  • 確定根詞。

  • 建立索引。

  設定好一切

對於應用軟體開發人員來說,要解決這個問題有許多的方案可以選擇。如,利用MySQL和PostgreSQL或者Sphinx和Lucene這樣的獨立軟體進行本地執行。然而,這些要麼用起來棘手,要麼就過度了。

  幸運的是,Google為SQLite貢獻了一些資源以實現幫助。在版本3.3.8中第一次實現全文檢索。此版本提供的功能可以建立一個依賴於外部延伸的虛擬表:在這裡,全文搜尋運演算法則可用於任何虛擬表內的文字列。在PHP 5.3.0中,對應的支援只被預設的PDO和SQLite3啟用。較早版本的PHP可以使用PECL 的SQLite3擴充套件庫。

  建立一個搜尋索引通常情況如下:

  • 把文字分解成記號。

  • 轉換為小寫字母。

  • 確定根詞。

  • 建立索引。

  設定好一切

  在預設情況下,SQLite提供了兩個基本的分詞器,Simple和Porter。它們可以控制字的分開方式。Simple根據空格和標點符號將文字分解成不同的記號。Porter是專為英文使用而設計,它可以將大量的文字擴充套件化解為基礎形式。例如,condolidate,consolidated,和consolidating這一類詞語都會被轉變成consolid。

  遺憾的是,SQLite目前還沒有取消停用詞。所以常用詞,例如,the,of和to仍位於索引內。這會極大地擴充索引的範疇並減緩搜尋速度。最簡單的解決辦法是,在按下確認檢索之前手動除去停用詞。

  下面,向您展示一些程式碼,教你如何建立自己的第一個全文索引。 SQLite之所以做到這些,是因為它通過使用FTS3擴充套件建立一個虛擬表。只有文字列位於這個虛擬表以內時,才可以被搜尋,並且最後一列用來識別使用的分詞器型別。

      CREATE VIRTUAL TABLE example

  USING FTS3(title TEXT, TOKENIZE SIMPLE)

  建立表後,您可以使用SELECT, INSERT,UPDATE和DELETE語句詢問此表。此處要附加說明的是:沒有進一步的索引可以建立在表格上,所以簡單的查詢將導致對全表的掃描。

  一旦你鍵入一些資料,你就可以試試。本文中其餘的例子,我會使用出自英文版維基百科的所有標題。我的資料庫有5,453,838行,相比較於沒有索引時的146MB,若使用全文索引,其大小是233MB。

  檢索

  搜尋索引由匹配操作完成。查詢可以包含多個方面,在這種情況下,只有文字行包含所有條件時才返回。還有支援“OR”的查詢,但該查詢排除了條件,精確的片語匹配以及字首檢索。

      SELECT rowid, title FROM example WHERE title MATCH 'tea bag'

  SELECT rowid, title FROM example WHERE title MATCH 'tea OR bag'

  SELECT rowid, title FROM example WHERE title MATCH 'tea -bag'

  SELECT rowid, title FROM example WHERE title MATCH '"tea bag"'

  SELECT rowid, title FROM example WHERE title MATCH 'tea*'

 請注意:OR區分大小寫,並且在一次查詢中只允許一個MATCH操作。

  建立片段

  為了向匹配的搜尋結果提供語境,可以使用snippet()功能。這一功能將突出顯示搜尋結果中任何文字列的關鍵詞。

      SELECT title, snippet(example)

  FROM example

  WHERE title

  MATCH 'Advent'

  ADVENT|ADVENT

  Advent|Advent

  Advent,_Cornwall|Advent,_Cornwall

  Advent,_West_Virginia|Advent,_West_Virginia

  Advent:_One-Winged_Angel|Advent:_One-Winged_Angel

  Advent_(band)|Advent_(band)

  額外的變數可以用來標示置標,置標過去常用於環繞匹配的表達和任何為縮短結果做的省略。這些分別是第二,第三和第四的變數,它們是第一次被用來標示表名。

  非英語的標記

  可以通過ICU(指令控制單元)庫提供的一些基本功能實現對非英語文字進行全文檢索的願望。這個庫是PHP 6 的一個核心部分,該庫通過在intl 擴充套件的PHP5.3中也可得。這兩種情況下的SQLite將有更多的分詞器。

  在ICU分詞器將根據語言規則和指定的區域識別詞語,然後按照界定拆分。這種方法只適用於某些地域。句法如下:

      CREATE VIRTUAL TABLE example

  USING FTS3(title TEXT, TOKENIZE icu en_GB)

  此處的第二個變數由語言,國家和資訊變體組成。