Elasticseach的評分機制

阿新 • • 發佈：2017-08-30

說明文檔機制 code 解釋 tails elastic 簡單標準 style

lucene 的評分機制
elasticsearch是基於lucene的，所以他的評分機制也是基於lucene的。評分就是我們搜索的短語和索引中每篇文檔的相關度打分。
如果沒有幹預評分算法的時候，每次查詢，lucene會基於一個評分算法來計算所有文檔和搜索語句的相關評分。
使用lucene的評分機制基本能夠把最符合用戶需要的搜索放在最前面。
當然有的時候，我們可能想要自定義評分算法，這個就和lucene的評分算法沒有什麽關系了。當然，我們大多數應該還是會根據自己的需求，來調整lucene本身的算法。

lucene的評分公式
lucene的評分是叫做TF/IDF算法，基本意思就是詞頻算法。
根據分詞詞庫，所有的文檔在建立索引的時候進行分詞劃分。進行搜索的時候，也對搜索的短語進行分詞劃分。
TF代表分詞項在文檔中出現的次數（term frequency），IDF代表分詞項在多少個文檔中出現（inverse document frequency）。

lucene的算法簡單來說就是將搜索的短語進行分詞得出分詞項，每個分詞項和每個索引中的文檔根據TF 
/IDF進行詞頻出現的評分計算。
然後每個分詞項的得分相加，就是這個搜索對應的文檔得分。



這個評分公式有6個部分組成

coord(q,d) 評分因子，基於文檔中出現查詢項的個數。越多的查詢項在一個文檔中，說明文檔的匹配程度越高。
queryNorm(q)查詢的標準查詢
tf(t in d) 指項t在文檔d中出現的次數frequency。具體值為次數的開根號。
idf(t) 反轉文檔頻率, 出現項t的文檔數docFreq
t.getBoost 查詢時候查詢項加權
norm(t,d) 長度相關的加權因子
coord(q, d)
這個評分因子的計算公式是：

public 
 float coord(int overlap, int maxOverlap) {
    return overlap / (float)maxOverlap;
}
overlap: 文檔中命中檢索的個數
maxOverlap: 檢索條件的個數
比如檢索"english book"， 現在有一個文檔是"this is an chinese book"。
那麽，這個搜索對應這個文檔的overlap為1（因為匹配了book），而maxOverlap為2（因為檢索條件有兩個book和english）。
最後得到的這個搜索對應這個文檔的coord值為0.5。

queryNorm(q)
這個因素對所有文檔都是一樣的值，所以它不影響排序結果。比如如果我們希望所有文檔的評分大一點，那麽我們就需要設置這個值。

 
public float queryNorm(float sumOfSquaredWeights) {
    return (float)(1.0 / Math.sqrt(sumOfSquaredWeights));
}
tf(t in d)
項t在文檔d中出現的次數

public float tf(float freq) {
    return (float)Math.sqrt(freq);
}
比如有個文檔叫做"this is book about chinese book"， 我的搜索項為"book"，那麽這個搜索項對應文檔的freq就為2，那麽tf值就為根號2，即1.4142135

idf
public float idf(long docFreq, long numDocs) {
    return (float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0);
}
這裏的兩個值解釋下

docFreq 指的是項出現的文檔數，就是有多少個文檔符合這個搜索
numDocs 指的是索引中有多少個文檔。
我在用es實際看這裏的時候遇到一個問題，numDocs數和實際的文檔數不一致，最後弄明白了，這裏的numDocs指的是分片的文檔數據，而不是所有分片的文檔數。
所以使用es分析這個公式的時候，最好將分片數設置為1。

比如我現在有三個文檔，分別為:

this book is about english
this book is about chinese
this book is about japan
我要搜索的詞語是"chinese"，那麽對第二篇文檔來說，docFreq值就是1，因為只有一個文檔符合這個搜索，而numDocs就是3。最後算出idf的值是:

(float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0) = ln(3/(1+1)) + 1 = ln(1.5) + 1 = 0.40546510810816 + 1 = 1.40546510810816

t.getBoost
查詢時期項t的加權，這個就是一個影響值，比如我希望匹配chinese的權重更高，就可以把它的boost設置為2

norm(t,d)
這個項是長度的加權因子，目的是為了將同樣匹配的文檔，比較短的放比較前面。
比如兩個文檔:

chinese
chinese book
我搜索chinese的時候，第一個文檔會放比較前面。因為它更符合"完全匹配"。

norm(t,d) = doc.getBoost()· lengthNorm· ∏ f.getBoost()


public float lengthNorm(FieldInvertState state) {
    final int numTerms;
    if (discountOverlaps)
        numTerms = state.getLength() - state.getNumOverlap();
    else
        numTerms = state.getLength();
    return state.getBoost() * ((float) (1.0 / Math.sqrt(numTerms)));
}
這裏的doc.getBoost表示文檔的權重，f.getBoost表示字段的權重，如果這兩個都設置為1，那麽nor(t,d)就和lengthNorm一樣的值。

比如我現在有一個文檔:

chinese book
搜索的詞語為chinese， 那麽numTerms為2，lengthNorm的值為 1/sqrt(2) = 0.71428571428571。

但是非常遺憾，如果你使用explain去查看es的時候，發現lengthNorm顯示的只有0.625。
這個官方給出的原因是精度問題，norm在存儲的時候會進行壓縮，查詢的時候進行解壓，而這個解壓是不可逆的，即decode(encode(0.714)) = 0.625。

示例
es中可以使用_explain接口進行評分解釋查看。

比如現在我的文檔為：

chinese book
搜索詞為：

{
  "query": {
    "match": {
      "content": "chinese"
    }
  }
}
explain得到的結果為：

{
    "_index": "scoretest",
    "_type": "test",
    "_id": "2",
    "matched": true,
    "explanation": {
        "value": 0.8784157,
        "description": "weight(content:chinese in 1) [PerFieldSimilarity], result of:",
        "details": [
            {
                "value": 0.8784157,
                "description": "fieldWeight in 1, product of:",
                "details": [
                    {
                        "value": 1,
                        "description": "tf(freq=1.0), with freq of:",
                        "details": [
                            {
                                "value": 1,
                                "description": "termFreq=1.0"
                            }
                        ]
                    },
                    {
                        "value": 1.4054651,
                        "description": "idf(docFreq=1, maxDocs=3)"
                    },
                    {
                        "value": 0.625,
                        "description": "fieldNorm(doc=1)"
                    }
                ]
            }
        ]
    }
}
看到這篇文檔的總得分為 0.8784157

tf(t in d): 1
idf: ln(3/(1+1)) + 1 = 1.4054651
norm(t,d): decode(encode(1/sqrt(2))) = 0.625
總分: 1.4054651 * 0.625 = 0.8784157

Elasticseach的評分機制

說明文檔機制 code 解釋 tails elastic 簡單標準 style lucene 的評分機制 elasticsearch是基於lucene的，所以他的評分機制也是基於lucene的。評分就是我們搜索的短語和索引中每篇文檔的相關度打分。如果沒有幹預評

網路連線評分機制之NetworkAgent

http://blog.csdn.net/u010961631/article/details/48971651 前面介紹了開機過程中各個網路提供者的初始化過程，其實就是建立自己的NetworkFactory，並將其註冊到ConnectivityService。而在

網路連線評分機制之再談WIFI與資料切換過程（原）

前面幾節介紹了網路評分機制的執行流程，下面我們再次通過案例來梳理一下評分機制在使用過程中的體現。使用者原本在用資料上網，但是如果到了一個有WIFI的環境，並連線上了WIFI，此時使用者的手機將會自動斷開資料網路，這是如何做到的呢？

Elasticseach的橫向擴展、容錯機制(3)

ja1、橫向擴容過程，如何超出擴容極限，以及如何提升容錯性（1）primary&replica自動負載均衡，6個shard，3 primary，3 replica（2）每個node有更少的shard，IO/CPU/Memory資源給每個shard分配更多，每個shard性能更好（3）擴容的極限，6個s

微信網頁授權獲取用戶信息等機制

json 開發者 userinfo 技術分享 nal amp 分隔 response unionid 參考官方文檔 https://mp.weixin.qq.com/wiki/17/c0f37d5704f0b64713d5d2c37b468d75.html 1.用戶進入授權

字符設備之poll機制

range his ssi movl -o 是把 sys ack timespec poll機制作用：相當於一個定時器。時間到了還沒有資源就喚醒進程。主要用途就是：進程設置一段時間用來等待資源，假設時間到了資源還沒有到來，進程就立馬從睡眠狀態喚醒不再等待。當

繞過chrome的彈窗攔截機制

eww ajax請求出發 btn 發的沒有 ces 攔截 click 在chrome的安全機制裏面，非用戶觸發的window.open方法，是會被攔截的。舉個例子： var btn = $(‘#btn‘); btn.click(function () { //

Android安全機制介紹

backup 可能 mbed 集合應用程序 linux用戶內存空間 bin 實施 Android的安全機制包含下面幾個方面： ? 進程沙箱隔離機制。 ? 應用程序簽名機制。 ? 權限聲明機制。 ? 訪問控制機

C++差分隱私的指數機制的一種實現方法

list and span 機制 namespace stdio.h int class ++ #include <iostream> #include<stdio.h> #include<stdlib.h> #include<m

Java多線程機制

tro wid 機制 bsp 多核 idt http log 任務 Java 中的多線程簡介 1. 並發與並行的區別：　　二者之間的區別在於，並發指的是一個處理器同時處理多個任務，並行指的是多個處理器或者是多核的處理器同時處理多個不同的任務. 2. 並發是邏輯上的同時發生

一個極其高效的虛擬機內存冗余消除機制：UKSM

穩定版評測內核基礎程序 cpu占用 projects kvm虛擬機 pos Linux內核機制KSM(Kernel Samepage Merging)能合並KVM虛擬機之間相同內存的頁面，被CentOS, RHEL之類的服務器內核廣泛采用，但是其速度很慢。UKSM(

反射機制的理解

java反射機制的理解以前學過很長時間反射機制，很是不理解？今天終於看到一本書講的很詳細。所有反射機制都是通過一個類叫做Class來實現：讓我看看書上是怎麽介紹的ClassClass是java.lang包中的類，該類的實例用來封裝對象運行時的狀態。當一個類被加載且創建對象時，和該類相關的一個類型為Claas的

2.2.2　加入factory機制

func nds extends 能夠 rand 並且 spa 屬於 style 上一節給出了一個只有driver、使用UVM搭建的驗證平臺。嚴格來說這根本就不算是UVM驗證平臺，因為UVM的特性幾乎一點都沒有用到。像上節中my_driver的實例化及drv.main_ph

$apply方法（觸發臟檢查機制）

oct -1 alt module img rip ++ bsp area $swatch監聽方法 <!DOCTYPE html> <html><head lang="en"> <meta charset="UTF-8"&

項目經理評分（評價）

pri ++ 顯示 alua 1.3 初始化 [0 object ems 1.2///創建一個長度為3的數組 SE[] se = new SE[3]; 1.2///初始化並把信息遍歷出來 private void FrmShow_Load(object send

linux下select/poll/epoll機制的比較

解決方案 socket 下一步 linux 操作系統 select、poll、epoll簡介epoll跟select都能提供多路I/O復用的解決方案。在現在的Linux內核裏有都能夠支持，其中epoll是Linux所特有，而select則應該是POSIX所規定，一般操作系統均有實現sele

Java的異常機制

上班錯誤跟蹤 spa ring 代碼混合返回值 err cat 一．什麽是異常：非正常的，不同尋常的，不是語法錯誤。生活中，醫生說你身體某個部位異常，該部位和正常相比，有點不同功能可能受損。張三開車去上班，正常情況下，順利到達公司非正常情況下，車子壞了，走路去公

Oracle SCN機制解析

丟失 self pen 必須發出 span system 幫助不同的 SCN（System Chang Number）作為oracle中的一個重要機制，在數據恢復、Data Guard、Streams復制、RAC節點間的同步等各個功能中起著重要作用。理解SCN的運作機制

AssetBundle管理機制（下）

資源加載應該卸載針對性 idt current ntc ims nor ◆◆◆◆ AssetBundle卸載內存分析在上圖中的右側，我們列出了各種內存物件的卸載方式： ● 場景物件（GameObject）：這類物件可通過Destr

AssetBundle管理機制（上）

atlas strong img rem byte das let atl 由於 AssetBundle內存管理機制接上期AssetBundle打包的講解，我們今天為大家繼續探秘AssetBundle，從管理機制的角度出發，談談

Elasticseach的評分機制

相關推薦