文字相似度計算之餘弦定理

阿新 • • 發佈：2019-05-13

前言

餘弦相似度，又稱為餘弦相似性，是通過計算兩個向量的夾角餘弦值來評估他們的相似度。餘弦相似度將向量根據座標值，繪製到向量空間中。用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，反之越接近0就表示兩個向量相似度越低，這就叫"餘弦相似性"。

正文

重溫餘弦定理

先簡單的重溫一下高中數學知識，餘弦定理

這個公式大家不知道還有沒有印象呢？沒有的話我們看下下面的圖

此時a=(xa,ya),b=(xb,0),那麼怎麼計算各邊長的長度呢？

此時將各邊長代入上圖的公式當中，最後可以得出最終的計算公式

文字相似度計算步驟

那麼在我們的文字相似度計算中，都有哪些步驟呢？

分詞，比如有兩行文字，第一句：你好，我是小王，我是個程式設計師”,將會分割成你好/我/是/小王/我/是/個/程式設計師。第二句：你好，我是設計師,將會分成你好/我/是/設計師
統計詞頻，其實就是統計所有語句中的每個詞在當前句子出現的次數，第一句：你好1,我2，是2，小王1，個1，程式設計師1，設計師0，第二句你好1,我1，是1，小王0，個0，程式設計師0，設計師1
組合詞頻向量，第一句(1,2,2,1,1,1,0)

,第二句(1,1,1,0,0,0,1)。
將資料代入上面的公式計算相似度

maven 引入ikanalyzer依賴

這裡使用ikanalyzer來實現一個簡單的分詞功能

 <dependency>
    <groupId>com.janeluo</groupId>
    <artifactId>ikanalyzer</artifactId>
    <version>2012_u6</version>
</dependency>

IKUtils分詞工具類，程式碼比簡單，唯一一個方法返回的是語句分詞的List物件

/**
 * 分詞相關工具類
 * @author wangzh
 */
public class IKUtils {

    /**
     * 以List的格式返回文字分詞的結果
     * @param text
     * @return
     */
    public static List<String> divideText(String text){
        if(null == text || "".equals(text.trim())){
            return null;
        }
        List<String> resultList = new ArrayList<>();
        StringReader re = new StringReader(text);
        IKSegmenter ik = new IKSegmenter(re, true);
        Lexeme lex = null;
        try {
            while ((lex = ik.next()) != null) {
                resultList.add(lex.getLexemeText());
            }
        } catch (Exception e) {
            //TODO
        }
        return resultList;
    }

}

下面是主要的程式碼邏輯，相關步驟已註釋在程式碼裡面

public class Analysis {
    public static void main(String[] args) {
        Map<String,int[]> resultMap = new HashMap<>();
        //測試文字
        String text1 = "你好，我是小王，我是個程式設計師";
        String text2 = "你好，我是設計師";
        //統計
        statistics(resultMap, IKUtils.divideText(text1),1);
        statistics(resultMap, IKUtils.divideText(text2),0);
        //計算類
        final Calculation calculation = new Calculation();
        resultMap.forEach((k,v)->{
            int[] arr = resultMap.get(k);
            calculation.setNumerator(calculation.getNumerator() + arr[0] * arr[1]);
            calculation.setElementA(calculation.getElementA() + arr[0] * arr[0]);
            calculation.setElementB(calculation.getElementB() + arr[1] * arr[1]);
        });

       System.out.println("文字相似度：" + calculation.result());
    }

    /**
     * 組合詞頻向量
     
     * @param words
     * @param direction
     * @return
     */
    private static void statistics(Map<String,int[]> map,List<String> words ,int direction){
        if(null == words || words.size() == 0){
            return ;
        }
        int[] in = null;
        boolean flag = direction(direction);
        for (String word : words){
            int[] wordD = map.get(word);
            if(null == wordD){
                if(flag){
                    in = new int[]{1,0};
                }else {
                    in = new int[]{0,1};
                }
                map.put(word,in);
            }else{
                if(flag){
                    wordD[0]++;
                }else{
                    wordD[1]++;
                }
            }
        }
    }
    
    //判斷不同句子
    private static boolean direction(int direction){
        return direction == 1?true:false;
    }

}

用於計算餘弦相似度的類

public class Calculation{

    private  double elementA;
    private  double elementB;
    private  double numerator;

    public double result(){
        return numerator / Math.sqrt(elementA * elementB);
    }
    //省略get/set
}

輸出結果：

文字相似度：0.7216878364870323

從結果可以看出這兩句話大致上還是比較相似的。用通俗一點的話來說就是有72%的相似度。

參考圖例：

www.jianshu.com/p/f4606ae11…

公眾號博文同步Github倉庫，有興趣的朋友可以幫忙給個Star哦，碼字不易，感謝支援。

github.com/PeppaLittle…

文字相似度計算之餘弦定理

前言餘弦相似度，又稱為餘弦相似性，是通過計算兩個向量的夾角餘弦值來評估他們的相似度。餘弦相似度將向量根據座標值，繪製到向量空間中。用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，反之越接近0就表示兩個向量相似度越低，這就叫"餘弦

相似度計算之餘弦相似度

一、定義及概念：餘弦取值範圍為[-1,1]。求得兩個向量的夾角，並得出夾角對應的餘弦值，此餘弦值就可以用來表徵這兩個向量的相似性。夾角越小，趨近於0度，餘弦值越接近於1，它們的方向更加吻合，則越相似。當兩個向量的方向完全相反夾角餘弦取最小值-1。當餘弦值為0時，兩向量正交，夾角為9

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

相似度計算之Jaccard係數

Jaccard相似係數定義給定兩個集合A,B，Jaccard 係數定義為A與B交集的大小與A與B並集的大小的比值，定義如下：當集合A，B都為空時，J(A,B)定義為1。與Jaccard 係數相關的指標叫做Jaccard 距離，用於描述集合之間的不相似度。Jaccard

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

相似度演算法之餘弦相似度

轉自：http://blog.csdn.net/u012160689/article/details/15341303 餘弦距離，也稱為餘弦相似度，是用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小的度量。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

海量資料相似度計算之simhash和海明距離

通過採集系統我們採集了大量文字資料，但是文字中有很多重複資料影響我們對於結果的分析。分析前我們需要對這些資料去除重複，如何選擇和設計文字的去重演算法？常見的有餘弦夾角演算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些演算法對於待比較的文字資料不多時還比較好用，如果我們的爬蟲每天採集的

Google開源word2vec，文字相似度計算工具

谷歌已經使用Deep Learning技術開發了許多新方法來解析語言，目前，谷歌開源了一款基於Deep Learning的學習工具——word2vec，這是首款面向大眾的Deep Learning學習工具。 word2vec（word to vector）顧名思義，這是

pythonNLP-文字相似度計算-Demo

參照部落格[我愛自然語言處理]裡面的如何計算兩個文字的相似度系列，把程式碼自己實現了一遍，對整個流程有了瞭解。純屬個人記錄，新手想學習可直接去上面的部落格學習，講的非常好。程式碼 #-*- coding:utf-8 import gensim fr

螞蟻金服金融大腦的挑戰賽的實現程式碼 NLP文字相似度計算

近期做了一些NLP的研究，並基於6月份螞蟻金服金融大腦的挑戰賽，完成了文字相似度計算的驗證。主要思路是基於word2vec來進行訓練，並實現文字相似度的計算。所使用的語料，包括了公開的wiki語料，網友收集的微信語料，以及此大賽中的語料。其中微信語料的位置在https://s

Spark MLlib 之大規模數據集的相似度計算原理探索

tis afr 廣播圖片 times 導致 coord 向量校驗無論是ICF基於物品的協同過濾、UCF基於用戶的協同過濾、基於內容的推薦，最基本的環節都是計算相似度。如果樣本特征維度很高或者<user, item, score>的維度很大，都會導致無法直

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

餘弦相似度計算[轉載]

轉自:https://www.cnblogs.com/dsgcBlogs/p/8619566.html 1.定義及計算公式餘弦相似度用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"餘弦相似性"。

學習筆記--NLP文字相似度之LCS（最長公共子序列）

最長公共子序列一個序列S任意刪除若干個字元得到的新序列T，則T叫做S的子序列兩個序列X和Y的公共子序列中，長度最長的那個，定義為X和Y的最長公共子序列例如： --字串12455與245576的最長公共子序列為2455 --字串acd

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

文字相似度計算之餘弦定理

前言

正文

重溫餘弦定理

文字相似度計算步驟

maven 引入ikanalyzer依賴

相關推薦