1. 程式人生 > >【機器學習筆記】:一文讓你徹底理解準確率,精準率,召回率,真正率,假正率,ROC/AUC

【機器學習筆記】:一文讓你徹底理解準確率,精準率,召回率,真正率,假正率,ROC/AUC

作者:xiaoyu

微信公眾號:Python資料科學

非經作者允許,禁止任何商業轉載。

ROC/AUC作為機器學習的評估指標非常重要,也是面試中經常出現的問題(80%都會問到)。其實,理解它並不是非常難,但是好多朋友都遇到了一個相同的問題,那就是:每次看書的時候都很明白,但回過頭就忘了,經常容易將概念弄混。還有的朋友面試之前背下來了,但是一緊張大腦一片空白全忘了,導致回答的很差。

我在之前的面試過程中也遇到過類似的問題,我的面試經驗是:一般筆試題遇到選擇題基本都會考這個率,那個率,或者給一個場景讓你選用哪個。面試過程中也被問過很多次,比如什麼是AUC/ROC?橫軸縱軸都代表什麼?有什麼優點?為什麼要使用它?

我記得在我第一次回答的時候,我將準確率,精準率,召回率等概念混淆了,最後一團亂。回去以後我從頭到尾梳理了一遍所有相關概念,後面的面試基本都回答地很好。現在想將自己的一些理解分享給大家,希望讀完本篇可以徹底記住ROC/AUC的概念。

▌什麼是效能度量?

我們都知道機器學習要建模,但是對於模型效能的好壞(即模型的泛化能力),我們並不知道是怎樣的,很可能這個模型就是一個差的模型,泛化能力弱,對測試集不能很好的預測或分類。那麼如何知道這個模型是好是壞呢?我們必須有個評判的標準。為了瞭解模型的泛化能力,我們需要用某個指標來衡量,這就是效能度量的意義。有了一個指標,我們就可以對比不同模型了,從而知道哪個模型相對好,那個模型相對差,並通過這個指標來進一步調參逐步優化我們的模型。

當然,對於分類和迴歸兩類監督學習,分別有各自的評判標準。本篇我們主要討論與分類相關的一些指標,因為AUC/ROC就是用於分類的效能度量標準。

▌混淆矩陣,準確率,精準率,召回率

1. 混淆矩陣

在介紹各個率之前,先來介紹一下混淆矩陣。如果我們用的是個二分類的模型,那麼把預測情況與實際情況的所有結果兩兩混合,結果就會出現以下4種情況,就組成了混淆矩陣

由於1和0是數字,閱讀性不好,所以我們分別用P和N表示1和0兩種結果。變換之後為PP,PN,NP,NN,閱讀性也很差,我並不能輕易地看出來預測的正確性與否。因此,為了能夠更清楚地分辨各種預測情況是否正確,我們將其中一個符號修改為T和F

,以便於分辨出結果。

P(Positive):代表1

N(Negative):代表0

T(True):代表預測正確

F(False):代表錯誤

按照上面的字元表示重新分配矩陣,混淆矩陣就變成了下面這樣:

將這種表示方法總結如下,可分為兩部分:

因此對於這種表示方法可以這麼簡單的理解:先看 ①預測結果(P/N),再根據②實際表現對比預測結果,給出判斷結果(T/F)。按這個順序理解,這四種情況就很好記住了。

TP:預測為1,預測正確,即實際1

FP:預測為1,預測錯誤,即實際0

FN:預測為0,預測錯確,即實際1

TN:預測為0,預測正確即,實際0

2. 準確率

既然是個分類指標,我們可以很自然的想到準確率,準確率的定義是預測正確的結果佔總樣本的百分比,其公式如下:

準確率=(TP+TN)/(TP+TN+FP+FN)

雖然準確率可以判斷總的正確率,但是在樣本不平衡的情況下,並不能作為很好的指標來衡量結果。舉個簡單的例子,比如在一個總樣本中,正樣本佔90%,負樣本佔10%,樣本是嚴重不平衡的。對於這種情況,我們只需要將全部樣本預測為正樣本即可得到90%的高準確率,但實際上我們並沒有很用心的分類,只是隨便無腦一分而已。這就說明了:由於樣本不平衡的問題,導致了得到的高準確率結果含有很大的水分。即如果樣本不平衡,準確率就會失效。

正因為如此,也就衍生出了其它兩種指標:精準率和召回率。

3. 精準率

精準率(Precision)又叫查準率,它是針對預測結果而言的,它的含義是在所有被預測為正的樣本中實際為正的樣本的概率,意思就是在預測為正樣本的結果中,我們有多少把握可以預測正確,其公式如下:

精準率=TP/(TP+FP)

精準率和準確率看上去有些類似,但是完全不同的兩個概念。精準率代表對正樣本結果中的預測準確程度,而準確率則代表整體的預測準確程度,既包括正樣本,也包括負樣本。

4. 召回率

召回率(Recall)又叫查全率,它是針對原樣本而言的,它的含義是在實際為正的樣本中被預測為正樣本的概率,其公式如下:

精準率=TP/(TP+FN)

召回率的應用場景比如拿網貸違約率為例,相對好使用者,我們更關心壞使用者,不能錯放過任何一個壞使用者。因為如果我們過多的將壞使用者當成好使用者,這樣後續可能發生的違約金額會遠超過好使用者償還的借貸利息金額,造成嚴重償失。召回率越高,代表實際壞使用者被預測出來的概率越高,它的含義類似:寧可錯殺一千,絕不放過一個。

5. 精準率和召回率的關係,F1分數

通過上面的公式,我們發現:精準率和召回率的分子是相同,都是TP,但分母是不同的,一個是(TP+FP),一個是(TP+FN)。兩者的關係可以用一個P-R圖來展示:

如何理解P-R(查準率-查全率)這條曲線?

有的朋友疑惑:這條曲線是根據什麼變化的?為什麼是這個形狀的曲線?其實這要從排序型模型說起。拿邏輯迴歸舉例,邏輯迴歸的輸出是一個0到1之間的概率數字,因此,如果我們想要根據這個概率判斷使用者好壞的話,我們就必須定義一個閾值。通常來講,邏輯迴歸的概率越大說明越接近1,也就可以說他是壞使用者的可能性更大。比如,我們定義了閾值為0.5,即概率小於0.5的我們都認為是好使用者,而大於0.5都認為是壞使用者。因此,對於閾值為0.5的情況下,我們可以得到相應的一對查準率和查全率。

但問題是:這個閾值是我們隨便定義的,我們並不知道這個閾值是否符合我們的要求。因此,為了找到一個最合適的閾值滿足我們的要求,我們就必須遍歷0到1之間所有的閾值,而每個閾值下都對應著一對查準率和查全率,從而我們就得到了這條曲線。

有的朋友又問了:如何找到最好的閾值點呢?首先,需要說明的是我們對於這兩個指標的要求:我們希望查準率和查全率同時都非常高。但實際上這兩個指標是一對矛盾體,無法做到雙高。圖中明顯看到,如果其中一個非常高,另一個肯定會非常低。選取合適的閾值點要根據實際需求,比如我們想要高的查全率,那麼我們就會犧牲一些查準率,在保證查全率最高的情況下,查準率也不那麼低。

F1分數

但通常,如果想要找到二者之間的一個平衡點,我們就需要一個新的指標:F1分數。F1分數同時考慮了查準率和查全率,讓二者同時達到最高,取一個平衡。F1分數的公式為 = 2*查準率*查全率 / (查準率 + 查全率)。我們在圖中看到的平衡點就是F1分數得來的結果。

▌ROC/AUC的概念

1. 靈敏度,特異度,真正率,假正率

在正式介紹ROC/AUC之前,我們還要再介紹兩個指標,這兩個指標的選擇也正是ROC和AUC可以無視樣本不平衡的原因。這兩個指標分別是:靈敏度和(1-特異度),也叫做真正率(TPR)和假正率(FPR)

靈敏度(Sensitivity) = TP/(TP+FN)

特異度(Specificity) = TN/(FP+TN)

  • 其實我們可以發現靈敏度和召回率是一模一樣的,只是名字換了而已。

  • 由於我們比較關心正樣本,所以需要檢視有多少負樣本被錯誤地預測為正樣本,所以使用(1-特異度),而不是特異度。

真正率(TPR) = 靈敏度 = TP/(TP+FN)

假正率(FPR) = 1- 特異度 = FP/(FP+TN)

下面是真正率和假正率的示意,我們發現TPR和FPR分別是基於實際表現1和0出發的,也就是說它們分別在實際的正樣本和負樣本中來觀察相關概率問題。正因為如此,所以無論樣本是否平衡,都不會被影響。還是拿之前的例子,總樣本中,90%是正樣本,10%是負樣本。我們知道用準確率是有水分的,但是用TPR和FPR不一樣。這裡,TPR只關注90%正樣本中有多少是被真正覆蓋的,而與那10%毫無關係,同理,FPR只關注10%負樣本中有多少是被錯誤覆蓋的,也與那90%毫無關係,所以可以看出:如果我們從實際表現的各個結果角度出發,就可以避免樣本不平衡的問題了,這也是為什麼選用TPR和FPR作為ROC/AUC的指標的原因。

或者我們也可以從另一個角度考慮:條件概率我們假設X為預測值,Y為真實值。那麼就可以將這些指標按條件概率表示:

精準率 = P(Y=1 | X=1)

召回率 = 靈敏度 = P(X=1 | Y=1)

特異度 = P(X=0 | Y=0)

從上面三個公式看到:如果我們先以實際結果為條件(召回率,特異度),那麼就只需考慮一種樣本,而先以預測值為條件(精準率),那麼我們需要同時考慮正樣本和負樣本。所以先以實際結果為條件的指標都不受樣本不平衡的影響,相反以預測結果為條件的就會受到影響。

2. ROC(接受者操作特徵曲線)

ROC(Receiver Operating Characteristic)曲線,又稱接受者操作特徵曲線。該曲線最早應用於雷達訊號檢測領域,用於區分訊號與噪聲。後來人們將其用於評價模型的預測能力,ROC曲線是基於混淆矩陣得出的。

ROC曲線中的主要兩個指標就是真正率假正率,上面也解釋了這麼選擇的好處所在。其中橫座標為假正率(FPR),縱座標為真正率(TPR),下面就是一個標準的ROC曲線圖。

ROC曲線的閾值問題

與前面的P-R曲線類似,ROC曲線也是通過遍歷所有閾值來繪製整條曲線的。如果我們不斷的遍歷所有閾值,預測的正樣本和負樣本是在不斷變化的,相應的在ROC曲線圖中也會沿著曲線滑動。

如何判斷ROC曲線的好壞?

改變閾值只是不斷地改變預測的正負樣本數,即TPR和FPR,但是曲線本身是不會變的。那麼如何判斷一個模型的ROC曲線是好的呢?這個還是要回歸到我們的目的:FPR表示模型虛報的響應程度,而TPR表示模型預測響應的覆蓋程度。我們所希望的當然是:虛報的越少越好,覆蓋的越多越好。所以總結一下就是TPR越高,同時FPR越低(即ROC曲線越陡),那麼模型的效能就越好。參考如下動態圖進行理解。

ROC曲線無視樣本不平衡

前面已經對ROC曲線為什麼可以無視樣本不平衡做了解釋,下面我們用動態圖的形式再次展示一下它是如何工作的。我們發現:無論紅藍色樣本比例如何改變,ROC曲線都沒有影響。

3. AUC(曲線下的面積)

為了計算 ROC 曲線上的點,我們可以使用不同的分類閾值多次評估邏輯迴歸模型,但這樣做效率非常低。幸運的是,有一種基於排序的高效演算法可以為我們提供此類資訊,這種演算法稱為曲線下面積(Area Under Curve)

比較有意思的是,如果我們連線對角線,它的面積正好是0.5。對角線的實際含義是:隨機判斷響應與不響應,正負樣本覆蓋率應該都是50%,表示隨機效果。ROC曲線越陡越好,所以理想值就是1,一個正方形,而最差的隨機判斷都有0.5,所以一般AUC的值是介於0.5到1之間的。

AUC的一般判斷標準

0.5 - 0.7:效果較低,但用於預測股票已經很不錯了

0.7 - 0.85:效果一般

0.85 - 0.95:效果很好

0.95 - 1:效果非常好,但一般不太可能

AUC的物理意義

曲線下面積對所有可能的分類閾值的效果進行綜合衡量。曲線下面積的一種解讀方式是看作模型將某個隨機正類別樣本排列在某個隨機負類別樣本之上的概率。以下面的樣本為例,邏輯迴歸預測從左到右以升序排列:

▌ROC/AUC的Python實現

Python中我們可以呼叫sklearn機器學習庫的metrics進行ROC和AUC的實現,簡單的程式碼實現部分如下:

from sklearn import metrics
from sklearn.metrics import auc 
import numpy as np
y = np.array([1, 1, 2, 2])  
scores = np.array([0.1, 0.4, 0.35, 0.8])  
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
metrics.auc(fpr, tpr) 

0.75

以上就是所有關於ROC和AUC的講解和實現,auc面積是0.75。如今的我再去面試,最希望面試官問我這個問題了,希望看過的朋友也可以徹底理解和記住ROC/AUC,以及各種指標率的概念。

參考:

1. 機器學習,周志華

2. Python資料科學技術詳解與商業實踐,常國珍

3. https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc

4. https://lukeoakdenrayner.wordpress.com/2018/01/07/the-philosophical-argument-for-using-roc-curves/

個人公眾號:Python資料科學