1. 程式人生 > >三大統計相關係數:Pearson、Spearman秩相關係數、kendall等級相關係數

三大統計相關係數:Pearson、Spearman秩相關係數、kendall等級相關係數

統計相關係數簡介

 

 

由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。

 

相關係數:考察兩個事物(在資料裡我們稱之為變數)之間的相關程度。

 

如果有兩個變數:X、Y,最終計算出的相關係數的含義可以有如下理解:

(1)、當相關係數為0時,X和Y兩變數無關係。

(2)、當X的值增大(減小),Y值增大(減小),兩個變數為正相關,相關係數在0.00與1.00之間。

(3)、當X的值增大(減小),Y值減小(增大),兩個變數為負相關,相關係數在-1.00與0.00之間。

 

相關係數的絕對值越大,相關性越強,相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。

通常情況下通過以下取值範圍判斷變數的相關強度:
相關係數     0.8-1.0     極強相關
                 0.6-0.8     強相關
                 0.4-0.6     中等程度相關
                 0.2-0.4     弱相關
                 0.0-0.2     極弱相關或無相關

 

 

Pearson(皮爾遜)相關係數

 

 

1、簡介

 

皮爾遜相關也稱為積差相關(或積矩相關)是英國統計學家皮爾遜於20世紀提出的一種計算直線相關的方法。

假設有兩個變數X、Y,那麼兩變數間的皮爾遜相關係數可通過以下公式計算:

公式一:

皮爾遜相關係數計算公式

公式二:

皮爾遜相關係數計算公式

公式三:

皮爾遜相關係數計算公式

公式四:

皮爾遜相關係數計算公式

以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變數取值的個數。

 

 

2、適用範圍

 

當兩個變數的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:

(1)、兩個變數之間是線性關係,都是連續資料。

(2)、兩個變數的總體是正態分佈,或接近正態的單峰分佈。

(3)、兩個變數的觀測值是成對的,每對觀測值之間相互獨立。

 

 

 

Spearman Rank(斯皮爾曼等級)相關係數

 

 

1、簡介

在統計學中,斯皮爾曼等級相關係數以Charles Spearman命名,並經常用希臘字母ρ(rho)表示其值。斯皮爾曼等級相關係數用來估計兩個變數X、Y之間的相關性,其中變數間的相關性可以使用單調函式來描述。如果兩個變數取值的兩個集合中均不存在相同的兩個元素,那麼,當其中一個變數可以表示為另一個變數的很好的單調函式時(即兩個變數的變化趨勢相同),兩個變數之間的ρ可以達到+1或-1。

 

 

假設兩個隨機變數分別為X、Y(也可以看做兩個集合),它們的元素個數均為N,兩個隨即變數取的第i(1<=i<=N)個值分別用Xi、Yi表示。對X、Y進行排序(同時為升序或降序),得到兩個元素排行集合x、y,其中元素xi、yi分別為Xi在X中的排行以及Yi在Y中的排行。將集合x、y中的元素對應相減得到一個排行差分集合d,其中di=xi-yi,1<=i<=N。隨機變數X、Y之間的斯皮爾曼等級相關係數可以由x、y或者d計算得到,其計算方式如下所示:

 

由排行差分集合d計算而得(公式一):

斯皮爾曼等級相關係數公式一

由排行集合x、y計算而得(斯皮爾曼等級相關係數同時也被認為是經過排行的兩個隨即變數的皮爾遜相關係數,以下實際是計算x、y的皮爾遜相關係數)(公式二):

斯皮爾曼等級相關係數公式二

 

以下是一個計算集合中元素排行的例子(僅適用於斯皮爾曼等級相關係數的計算)

斯皮爾曼等級相關係數表一

 

這裡需要注意:當變數的兩個值相同時,它們的排行是通過對它們位置進行平均而得到的。

 

2、適用範圍

斯皮爾曼等級相關係數對資料條件的要求沒有皮爾遜相關係數嚴格,只要兩個變數的觀測值是成對的等級評定資料,或者是由連續變數觀測資料轉化得到的等級資料,不論兩個變數的總體分佈形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關係數來進行研究。

 

 

Kendall Rank(肯德爾等級)相關係數

1、簡介

 

在統計學中,肯德爾相關係數是以Maurice Kendall命名的,並經常用希臘字母τ(tau)表示其值。肯德爾相關係數是一個用來測量兩個隨機變數相關性的統計值。一個肯德爾檢驗是一個無引數假設檢驗,它使用計算而得的相關係數去檢驗兩個隨機變數的統計依賴性。肯德爾相關係數的取值範圍在-1到1之間,當τ為1時,表示兩個隨機變數擁有一致的等級相關性;當τ為-1時,表示兩個隨機變數擁有完全相反的等級相關性;當τ為0時,表示兩個隨機變數是相互獨立的。

 

假設兩個隨機變數分別為X、Y(也可以看做兩個集合),它們的元素個數均為N,兩個隨即變數取的第i(1<=i<=N)個值分別用Xi、Yi表示。X與Y中的對應元素組成一個元素對集合XY,其包含的元素為(Xi, Yi)(1<=i<=N)。當集合XY中任意兩個元素(Xi, Yi)與(Xj, Yj)的排行相同時(也就是說當出現情況1或2時;情況1:Xi>Xj且Yi>Yj,情況2:Xi<Xj且Yi<Yj),這兩個元素就被認為是一致的。當出現情況3或4時(情況3:Xi>Xj且Yi<Yj,情況4:Xi<Xj且Yi>Yj),這兩個元素被認為是不一致的。當出現情況5或6時(情況5:Xi=Xj,情況6:Yi=Yj),這兩個元素既不是一致的也不是不一致的。

 

這裡有三個公式計算肯德爾相關係數的值

 

公式一:

肯德爾相關係數公式1

其中C表示XY中擁有一致性的元素對數(兩個元素為一對);D表示XY中擁有不一致性的元素對數。

注意:這一公式僅適用於集合X與Y中均不存在相同元素的情況(集合中各個元素唯一)。

 

公式二:

肯德爾相關係數公式2

注意:這一公式適用於集合X或Y中存在相同元素的情況(當然,如果X或Y中均不存在相同的元素時,公式二便等同於公式一)。

其中C、D與公式一中相同;

肯德爾相關係數公式2-子公式1肯德爾相關係數公式2-子公式2肯德爾相關係數公式2-子公式3

N1、N2分別是針對集合X、Y計算的,現在以計算N1為例,給出N1的由來(N2的計算可以類推):

將X中的相同元素分別組合成小集合,s表示集合X中擁有的小集合數(例如X包含元素:1 2 3 4 3 3 2,那麼這裡得到的s則為2,因為只有2、3有相同元素),Ui表示第i個小集合所包含的元素數。N2在集合Y的基礎上計算而得。

 

公式三:

肯德爾相關係數公式3

注意:這一公式中沒有再考慮集合X、或Y中存在相同元素給最後的統計值帶來的影響。公式三的這一計算形式僅適用於用表格表示的隨機變數X、Y之間相關係數的計算(下面將會介紹)。

引數M稍後會做介紹。

 

以上都是圍繞用集合表示的隨機變數而計算肯德爾相關係數的,下面所講的則是圍繞用表格表示的隨機變數而計算肯德爾相關係數的。

 

通常人們會將兩個隨機變數的取值製作成一個表格,例如有10個樣本,對每個樣本進行兩項指標測試X、Y(指標X、Y的取值均為1到3)。根據樣本的X、Y指標取值,得到以下二維表格(表1):

肯德爾相關係數表1

由表1可以得到X及Y的可以以集合的形式表示為:

X={1, 1, 2, 2, 2, 2, 2, 3, 3, 3};

Y={1, 2, 1, 1, 2, 2, 3, 2, 3, 3};

得到X、Y的集合形式後就可以使用以上的公式一或公式二計算X、Y的肯德爾相關係數了(注意公式一、二的適用條件)。

當然如果給定X、Y的集合形式,那麼也是很容易得到它們的表格形式的。

 

這裡需要注意的是:公式二也可以用來計算表格形式表示的二維變數的肯德爾相關係數,不過它一般用來計算由正方形表格表示的二維變數的肯德爾相關係數,公式三則只是用來計算由長方形表格表示的二維變數的Kendall相關係數。這裡給出公式三中字母M的含義,M表示長方形表格中行數與列數中較小的一個。表1的行數及列數均為三。

 

2、適用範圍 

肯德爾相關係數與斯皮爾曼相關係數對資料條件的要求相同,可參見統計相關係數(2)--Spearman Rank(斯皮爾曼等級)相關係數及MATLAB實現中介紹的斯皮爾曼相關係數對資料條件的要求。

 

 

 

 

 

轉:https://blog.csdn.net/zhaozhn5/article/details/78392220