相似度演算法之皮爾遜相關係數

阿新 • • 發佈：2019-02-10

皮爾遜相關係數是比歐幾里德距離更加複雜的可以判斷人們興趣的相似度的一種方法。該相關係數是判斷兩組資料與某一直線擬合程式的一種試題。它在資料不是很規範的時候，會傾向於給出更好的結果。

如圖，Mick Lasalle為<<Superman>>評了3分，而GeneSeyour則評了5分，所以該影片被定位中圖中的(3,5)處。在圖中還可以看到一條直線。其繪製原則是儘可能地靠近圖上的所有座標點，被稱為最佳擬合線。如果兩位評論者對所有影片的評分情況都相同，那麼這條直線將成為對角線，並且會與圖上所有的座標點都相交，從而得到一個結果為1的理想相關度評價。

假設有兩個變數X（x1,x2,x3,……）、Y（y1,y2,y3,……），那麼兩變數間的皮爾遜相關係數可通過以下公式計算：

公式一：

皮爾遜相關係數計算公式

公式二：

皮爾遜相關係數計算公式

公式三：

皮爾遜相關係數計算公式

公式四：

皮爾遜相關係數計算公式

以上列出的四個公式等價，其中E是數學期望，cov表示協方差，N表示變數取值的個數。

皮爾遜相關度評價演算法首先會找出兩位評論者都曾評論過的物品，然後計算兩者的評分總和與平方和，並求得評分的乘積之各。利用上面的公式四計算出皮爾遜相關係數。

在實踐統計中,一般只輸出兩個係數,一個是相關係數,也就是計算出來的相關係數大小,在-1到1之間;另一個是獨立樣本檢驗係數,用來檢驗樣本一致性.

根據皮爾遜相關係數的值參考以下標準，可以大概評估出兩者的相似程度：

0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關

當然，在使用過程中該演算法也不使用所有的場景，需要變數X,Y滿足以下幾個約束條件：

1 兩個變數間有線性關係
2 變數是連續變數
3 變數均符合正態分佈,且二元分佈也符合正態分佈
4 兩變數獨立

演算法實現如下：

#皮爾遜相似度演算法
def PearsonSimilarity(UL,p1,p2):
	si = GetSameItem(UL,p1,p2)
	n = len(si)
	if n == 0:
		return 0

	sum1 = sum([UL[p1][item] for item in si])
	sum2 = sum([UL[p2][item] for item in si])

	sqSum1 = sum([pow(UL[p1][item],2) for item in si])
	sqSum2 = sum([pow(UL[p2][item],2) for item in si])

	pSum = sum([UL[p1][item]*UL[p2][item] for item in si])

	num = pSum - (sum1*sum2/n)
	den = math.sqrt(sqSum1-pow(sum1,2)/n)*math.sqrt(sqSum2-pow(sum2,2)/n)

	if den ==0:
		return 0

	r = num/den
	return r

注：本文很大一部分內容轉自：http://lobert.iteye.com/blog/2024999，因為這位仁兄總結的確實很好。本文後續部分略作補充，謹作拋磚引玉之用。

相似度演算法之皮爾遜相關係數

皮爾遜相關係數是比歐幾里德距離更加複雜的可以判斷人們興趣的相似度的一種方法。該相關係數是判斷兩組資料與某一直線擬合程式的一種試題。它在資料不是很規範的時候，會傾向於給出更好的結果。如圖，Mick Lasalle為<<Superman>>評了3分

marchine learning 之皮爾遜相關係數

/**皮爾遜相關係數 * ρ =(∑xy - ∑x∑y/n)/(∑x^2 - (∑x)^2/n)(∑y^2-(∑y)^2/n)^0.5 */ public class PersonCorrelati

資料探勘之曼哈頓距離、歐幾裡距離、明氏距離、皮爾遜相關係數、餘弦相似度Python實現程式碼

# -*- coding:utf8 -*- from math import sqrt users = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoeni

Spark/Scala實現推薦系統中的相似度演算法（歐幾里得距離、皮爾遜相關係數、餘弦相似度：附實現程式碼）

在推薦系統中，協同過濾演算法是應用較多的，具體又主要劃分為基於使用者和基於物品的協同過濾演算法，核心點就是基於"一個人"或"一件物品"，根據這個人或物品所具有的屬性，比如對於人就是性別、年齡、工作、收入、喜好等，找出與這個人或物品相似的人或物，當然實際處理中參考的因子會複雜的多。本篇文章不介紹相關數學概念，

皮爾遜相關係數和餘弦相似度

先看看二者定義，給定兩個n維向量A,B: A=(a1,a2,…,an)A = (a_1, a_2, \ldots ,a_n)A=(a1,a2,…,an) B=(b1,b2,…,bn)B = (b_1, b_2, \ldots ,b_n)B=(b1,b2

Pearson(皮爾遜)相關係數

統計相關係數簡介由於使用的統計相關係數比較頻繁，所以這裡就利用幾篇文章簡單介紹一下這些係數。相關係數：考察兩個事物（在資料裡我們稱之為變數）之間的相關程度。如果有兩個變數：X、Y，最終計算出的相關係數的含義可以

【126】TensorFlow 使用皮爾遜相關係數找出和標籤相關性最大的特徵值

在實際應用的時候，我們往往會收集多個維度的特徵值。然而這些特徵值未必都能派上用場。有些特徵值可能和標籤沒有什麼太大關係，而另外一些特徵值可能和標籤有很大的相關性。相關性不大的特徵值對於訓練模型沒有太大用處，還會影響效能。因此，最佳方式是找到相關性最大的幾個特

集體智慧程式設計-皮爾遜相關係數程式碼理解

剛開始看關於皮爾遜相關係數計算的程式碼，把我看得是暈頭轉向，不過在學習完概率論的課程後，發現結合公式再來看程式碼就會比較簡單了。期望公式 E(x)=1n∑i=1nxi 方差公式 var(x)=

如何通俗易懂地理解皮爾遜相關係數？

要理解 Pearson 相關係數，首先要理解協方差（Covariance）。協方差表示兩個變數 X，Y 間相互關係的數字特徵，其計算公式為： COV(X,Y)=1n−1∑n1(Xi−X⎯⎯⎯)(Yi−Y⎯⎯⎯) 當 Y = X 時，即與方差相同。當變數 X，

皮爾遜相關係數定義+python程式碼實現（與王印討論公式）

作者簡介南京大學，簡稱南大，[1] 是一所源遠流長的高等學府。追溯學脈古為源自孫吳永安元年的南京太學，歷經多次變遷，1949年“國立中央大學”易名“國立南京大學”，翌年徑稱“南京大學”，沿用至今。南京大學是教育部與江蘇省共建的全國重點大學，國家首批“211工程”、“9

利用皮爾遜相關係數找出與目標最相關的特徵（Python實現）

#coding:utf-8 #檢測各特徵和輻照度之間的相關性以及各個特徵之間的相關性 from __future__ import division import tensorflow as tf import math import csv from sklearn imp

皮爾遜相關係數的計算(python程式碼版)

①協方差、相關係數（皮爾遜相關係數），等同於：內積、餘弦值。

假設三維空間裡有很多點，每個點都是用三個維度來表示的。但你發現其實他們差不多都在同一個二維平面上。雖然不是完全在一個平面上，但距離那個平面的距離都很小，遠小於他們在這個平面上的互相距離。於是你想，如果把所有點都投影到這個二維平面，那你就可以用兩個維度來表示所有點，同時又不損失太多關於這些點的資訊。當你這麼做的

【機器學習】歐幾里德距離和皮爾遜相關係數（筆記）

歐幾里德距離（）歐幾里德距離和皮爾遜相關係數在機器學習中都是對相關度的計算，歐幾里德距離是以人們一直評價的物品作為座標軸，將參與評價的人繪製到圖中，並考察他們彼此距離的遠近。例子（摘自集體智慧程式設計）： #資料集 critics={ 'Lisa Rose':

皮爾遜相關系數與余弦相似度（Pearson Correlation Coefficient & Cosine Similarity）

blog 相關 htm mage cnblogs 變量對比兩個是把之前《皮爾遜相關系數（Pearson Correlation Coefficient, Pearson‘s r）》一文介紹了皮爾遜相關系數。那麽，皮爾遜相關系數（Pearson Correlation

皮爾遜相關系數

評價 item product reference ret calculate ati ack 相關系數皮爾遜相關系數是比歐幾裏德距離更加復雜的可以判斷人們興趣的相似度的一種方法。該相關系數是判斷兩組數據與某一直線擬合程序的一種試題。它在數據不是很規範的時候，會傾向於給出

皮爾遜相關系數和余弦相似性的關系

表現差值超過商業 C4D 接下來二維空間相關畢業有兩篇回答，我覺得都是正確的，從不同的方向來看的。作者：陳小龍鏈接：https://www.zhihu.com/question/19734616/answer/174098489來源：知乎著作權歸作者

皮爾遜相關系數理解

IT sel 開發網站依次高中數學開平 func 1.4 皮爾遜相關系數理解有兩個角度其一, 按照高中數學水平來理解, 它很簡單, 可以看做將兩組數據首先做Z分數處理之後, 然後兩組數據的乘積和除以樣本數 Z分數一般代表正態分布中, 數據偏離中心點的距離.等於

【Python學習筆記】使用Python計算皮爾遜相關系數

自己 pre 求和相關學習筆記 python學習 tip urn pow 源代碼不記得是哪裏獲取的了，侵刪。此處博客僅作為自己筆記學習。 def multipl(a,b): sumofab=0.0 for i in range(len(a)):

相似度演算法之皮爾遜相關係數

相關推薦