皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)
Pearson‘s r,稱為皮爾遜相關系數(Pearson correlation coefficient),用來反映兩個隨機變量之間的線性相關程度。
用於總體(population)時記作ρ (rho)(population correlation coefficient):
給定兩個隨機變量X,Y,ρ的公式為:
其中: 是協方差
是X的標準差
是Y的標準差
用於樣本(sample)時記作r(sample correlation coefficient):
給定兩個隨機變量x,y,r的公式為:
其中: 是樣本數量
是x樣本平均數,是y樣本平均數
r的取值在-1與1之間。取值為1時,表示兩個隨機變量之間呈完全正相關關系;取值為-1時,表示兩個隨機變量之間呈完全負相關關系;取值為0時,表示兩個隨機變量之間線性無關。
(註:我們用樣本相關系數r作為總體相關系數ρ的估計值,要判斷r值是不是由抽樣誤差或偶然因素導致的,需要進行假設檢驗。)
那麽皮爾遜相關系數是怎麽得來的呢?(參考:https://blog.csdn.net/ichuzhen/article/details/79535226)
要理解皮爾遜相關系數,首先要理解協方差(Covariance)
。協方差可以反映兩個隨機變量之間的關系,如果一個變量跟隨著另一個變量一起變大或者變小,那麽這兩個變量的協方差就是正值,就表示這兩個變量之間呈正相關關系,反之相反。協方差的公式如下:
如果協方差的值是個很大的正數,我們可以得到兩個可能的結論:
(1) 兩個變量之間呈很強的正相關性
(2) 兩個變量之間並沒有很強的正相關性,協方差的值很大是因為X或Y的標準差很大
那麽到底哪個結論正確呢?只要把X和Y變量的標準差,從協方差中剔除不就知道了嗎?協方差能告訴我們兩個隨機變量之間的關系,但是卻沒法衡量變量之間相關性的強弱。因此,為了更好地度量兩個隨機變量之間的相關程度,引入了皮爾遜相關系數。可以看到,皮爾遜相關系數就是用協方差除以兩個變量的標準差得到的。
皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)