皮爾遜相關系數（Pearson Correlation Coefficient, Pearson's r）

阿新 • • 發佈：2018-12-31

opera back 一個 tar post blank 圖片 art 正數

Pearson‘s r，稱為皮爾遜相關系數（Pearson correlation coefficient），用來反映兩個隨機變量之間的線性相關程度。

用於總體（population）時記作ρ (rho)（population correlation coefficient）：

給定兩個隨機變量X,Y，ρ的公式為： $技術分享圖片$

其中： $技術分享圖片$ 是協方差

$技術分享圖片$ 是X $的標準差$

$技術分享圖片$

$用於樣本（sample）時記作 r （ sample correlation coefficient）：$

$技術分享圖片$

其中： $技術分享圖片$ 是樣本數量

$技術分享圖片$

是變量x，y對應的i點觀測值

$技術分享圖片$

r的取值在-1與1之間。取值為1時，表示兩個隨機變量之間呈完全正相關關系；取值為-1時，表示兩個隨機變量之間呈完全負相關關系；取值為0時，表示兩個隨機變量之間線性無關。

（註：我們用樣本相關系數r作為總體相關系數ρ的估計值，要判斷r值是不是由抽樣誤差或偶然因素導致的，需要進行假設檢驗。）

那麽皮爾遜相關系數是怎麽得來的呢？（參考：https://blog.csdn.net/ichuzhen/article/details/79535226）

要理解皮爾遜相關系數，首先要理解協方差（Covariance）

。協方差可以反映兩個隨機變量之間的關系，如果一個變量跟隨著另一個變量一起變大或者變小，那麽這兩個變量的協方差就是正值，就表示這兩個變量之間呈正相關關系，反之相反。協方差的公式如下：

如果協方差的值是個很大的正數，我們可以得到兩個可能的結論：

（1）兩個變量之間呈很強的正相關性

（2）兩個變量之間並沒有很強的正相關性，協方差的值很大是因為X或Y的標準差很大

那麽到底哪個結論正確呢？只要把X和Y變量的標準差，從協方差中剔除不就知道了嗎？協方差能告訴我們兩個隨機變量之間的關系，但是卻沒法衡量變量之間相關性的強弱。因此，為了更好地度量兩個隨機變量之間的相關程度，引入了皮爾遜相關系數。可以看到，皮爾遜相關系數就是用協方差除以兩個變量的標準差得到的。

皮爾遜相關系數（Pearson Correlation Coefficient, Pearson's r）

opera back 一個 tar post blank 圖片 art 正數 Pearson‘s r，稱為皮爾遜相關系數（Pearson correlation coefficient），用來反映兩個隨機變量之間的線性相關程度。用於總體（population）時記作ρ