1. 程式人生 > >信用評分卡建模的工作流程

信用評分卡建模的工作流程

結合閱讀書籍和實際工作經驗,整理一篇筆記性質的部落格,供參考。能幫助到需要的人就是我的滿足,更歡迎大神指導不足,謝謝!

一、流程概述

下圖概況了典型的評分卡開發流程,該流程的各個步驟的順序根據具體情況的不同調整,也可以根據需要重複某些步驟。
在這裡插入圖片描述

具體的步驟內容

  1. 問題準備
  2. 資料獲取與整合
  3. EDA(探索性資料分析)與資料描述
  4. 資料準備
  5. 變數選擇
  6. 模型開發
  7. 模型檢驗和評價
  8. 評分卡建立和刻度
  9. 評分卡實施
  10. 監測和報告

引用自:《信用風險評分卡研究_基於SAS的開發與實施》

二、問題準備

建模專案的規劃期,必須確認清楚以下事項,否則一旦出現問題就得從頭返工了,慎重再慎重

1、模型的應用範圍

主要考慮首貸/續貸,產品種類,銷售渠道等可以明顯區分客群的因素

2、違約/正常樣本定義

即Y變數定義,也就是好人/壞人的定義,逾期多少天的人標記成壞人。可以是DPD15+,M1+,M3+等,一般當壞賬率 / 某個時點的逾期率 在80%左右,則可以用這個時點逾期作為違約的定義(此為單期產品的定義,多期產品的定義較為複雜,需要結合業務確認)

3、資料時間視窗

分為建模資料視窗和驗證資料視窗,建模資料是模型訓練資料,驗證資料是out of time驗證以避免模型過擬合的資料,一般選取建模資料視窗後的一段時間。
資料時間視窗選取的原則
1)表現期成熟:也就觀察期,表現期=借款期限+違約定義期限,比如借款30天的產品,以M1作為違約定義,那麼放款後60天才能算表現期成熟。
2)保證資料新鮮度:模型是為了預測未來的資料,所以要保證建模的資料最接近未來,所以選取最近的資料。
3)保證資料週期性:很多貸款產品特別是pay day loan,逾期率具有時間週期性,發薪日逾期率明顯低於其他時間,這種情況,資料視窗最好以月為單位選取。
4)保證樣本量大小:根據經驗,違約樣本的數量需要至少1500個。

4、資料來源確定

剛才確定了資料有哪些行,現在來確定有哪些列,也就是說,確定我們的特徵/變數/屬性。
資料來源可以分為內部資料、外部資料,具體來說,就是確定此次建模能用到的所有資料表。
資料來源選取的原則
1)資料覆蓋率:資料覆蓋率不能過低(不同模型演算法要求不同,邏輯迴歸要求覆蓋率較高,xgboost等數模型要求低些)。
2)資料穩定性:資料的計算邏輯是維持穩定的,不會發生資料定義的改變
3)未來有效性:在模型實施期,可能無法獲取的資料,不能用於建模

未完待續ING