1. 程式人生 > >均方根誤差(RMSE),平均絕對誤差(MAE),標準差(Standard Deviation);平均值、標準差、相關係數、迴歸線及最小二乘法

均方根誤差(RMSE),平均絕對誤差(MAE),標準差(Standard Deviation);平均值、標準差、相關係數、迴歸線及最小二乘法

均方根誤差(RMSE),平均絕對誤差(MAE),標準差(Standard Deviation)

RMSE

  • Root Mean Square Error,均方根誤差
  • 是觀測值與真值偏差的平方和與觀測次數m比值的平方根。
  • 是用來衡量觀測值同真值之間的偏差

MAE

  • Mean Absolute Error ,平均絕對誤差
  • 是絕對誤差的平均值
  • 能更好地反映預測值誤差的實際情況.

標準差

  • Standard Deviation ,標準差
  • 是方差的算數平方根
  • 是用來衡量一組數自身的離散程度

這裡寫圖片描述

RMSE與標準差對比:標準差是用來衡量一組數自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差,它們的研究物件和研究目的不同,但是計算過程類似。

RMSE與MAE對比:RMSE相當於L2範數,MAE相當於L1範數。次數越高,計算結果就越與較大的值有關,而忽略較小的值,所以這就是為什麼RMSE針對異常值更敏感的原因(即有一個預測值與真實值相差很大,那麼RMSE就會很大)。

平均值、標準差、相關係數、迴歸線及最小二乘法

  • N個數據平均值計算公式:

   [1]

  • 標準差表示了所有資料與平均值的平均距離,表示了資料的散度,如果標準差小,表示資料集中在平均值附近,如果標準差大則表示資料離標準差比較遠,比較分散。標準差計算公式:

 [1]

x、y兩個變數組成了笛卡爾座標系中的一個座標(x,y),這個座標標識了一個的位置。

各包含n個常量的X,Y兩組資料在笛卡爾座標系中

以n個點來進行表示。

  • 相關係數用字母r來表示,表示兩組資料線性相關的程度(同時增大或減小的程度),從另一方面度量了相對於標準差的散佈情況,它沒有單位。包含n個數值的X、Y兩組資料的相關係數r的計算方法:


簡單的說,就是 r=[(以標準單位表示的 x )X(以標準單位表示的 y )]的平均數

根據上面點的定義,將X、Y兩組資料的關係以點的形式在笛卡爾座標系中畫出,SD線表示了經過中心點(以資料組X、Y平均值為座標的點),當r>0時,斜率=X的標準差/Y的標準差;當r<0時,斜率=-X的標準差/Y的標準差;的直線。通常用SD線來直觀的表示資料的走向:

1、當r<0時,SD線的斜率小於0時,則說明資料負相關,即當x增大時y減少。

2、當r>0時,SD線的斜率大於0時,則說明資料正相關,此時當x增大時y增大。

3、相關係數r的範圍在[-1,1]之間,當r=0時表示資料相關係數為0(不相關)。當r=正負1時,表示資料負相關,此(x,y)點資料都在SD線上。

4、r的值越接近正負1說明(x,y)靠攏SD線,說明資料相關性越強,r的值越接近0說明(x,y)點到SD線的散度越大(越分散),資料相關性越小。

  • 迴歸方法主要描述一個變數如何依賴於另一個變數。y對應於x的迴歸線描述了在不同的x值下y的平均值情況,它是這些平均值的光滑形式,如果這些平均值剛好在一條直線上,則這些平均值剛好和迴歸線重合。通過迴歸線,我們可以通過x值來預測y值(已知x值下y值的平均值)。下面是y對應於x的迴歸線方程:


簡單的說,就是當x每增加1個SD,平均而言,相應的y增加r個SD。

從方程可以看出:

1、迴歸線是一條經過點,斜率為的直線。

2、迴歸線的斜率比SD線小,當r=1或-1時,迴歸線和SD線重合。

當用迴歸線從x預測y時,實際值與預測值之間的差異叫預測誤差。而均方根誤差就是預測誤差的均方根。它度量回歸預測的精確程度。y關於x的迴歸線的均方根誤差用下面的公式進行計算:


由公式可以看出,當r越接近1或-1時,點越聚集在迴歸線附近,均方根誤差越小;反之r越接近0時,點越分散,均方根誤差越大

  • 最小二乘法尋找一條直線來擬合所有的點,使得這條直線到所有的點之間的均方根誤差最小。可以看到,當求兩個變數之間的關係時,最小二乘法求出的直線實際上就是迴歸線。只不過表述的側重點不同:

1、最小二乘法強調求出所有點的最佳擬合直線。

2、迴歸線則是在SD線的基礎上求出的線,表示了樣本中已知變數x的情況下變數y的平均值。

由以上可知,一個散點圖可以用五個統計量來描述:

1、所有點x值的平均數,描述了所有點在x軸上的中心點。

2、所有點x值的SD,描述了所有點距離x中心點的散度。

3、所有點y值的平均數,描述了所有點在y軸上的中心點。

4、所有點y值的SD,描述了所有點距離y中心點的散度。

5、相關係數r,基於標準單位,描述了所有點x值和y值之間的關係。

相關係數r將平均值、標準差、迴歸線這幾個概念聯絡起來:

1、r描述了相對於標準差,沿SD線的群集程度。

2、r說明了y的平均數如何的依賴於x --- x每增加1個x標準差,平均來說,y將只增加r個y標準差。

3、r通過均方根誤差公式,確定了迴歸預測的精確度。

注意:以上相關係數、迴歸線、最小二乘法的計算要在以下兩個條件下才能成立:

1、x、y兩組樣本資料是線性的,如果不是線性的先要做轉換。

2、被研究的兩組樣本資料之間的關係必須有意義。

參考:

https://blog.csdn.net/capecape/article/details/78623897

https://blog.csdn.net/Raymond_Lu_RL/article/details/6701064