初探機器學習與評分卡模型
機器學習簡介
什麼是機器學習
- 如果一個系統能夠通過執行某個過程改變它的效能,這就是學習(什麼是學習)
- 不用程式設計去指定機器做什麼,而是讓機器有能力自己學習
- 首先定義任務T,經驗E,表現P,如果機器有一個任務T,隨著經驗E的增多,表現P也會變好,則表示機器正在經驗E中學習
三要素
- 模型(機器學習的成果,條件概率分佈或決策函式)
- 策略(計算模型的方式)
- 演算法
生活中的機器學習應用
- 垃圾郵件分類
- AlphaGo圍棋AI
- 醫療行業
- 人聲識別
監督學習
學習一個模型,使模型對給定輸入做出相應的預測輸出,流程如下圖
其中自變數x為自變數,是例項的特徵向量;y為因變數,是例項的結果。
監督學習主要解決分類與迴歸兩類問題
監督學習例項
已知房價,平米數的訓練集如下:
平米數 | 房價(萬) |
---|---|
50 | 50 |
80 | 70 |
100 | 90 |
130 | 110 |
150 | ??? |
給定一個平米數,預測該面積房價。
無監督學習
從資料中自主學習,分析資料的類別結構
評分卡介紹
什麼是評分卡(信貸場景中)
- 以分數的形式來衡量風險機率的一種手段
- 對未來一段時間內違約/逾期/失聯概率的預測
- 通常評分越高越安全
- 根據使用場景分為反欺詐評分卡、申請評分卡、行為評分卡、催收評分卡
為什麼要開發評分卡
- 風險控制的一個環節,根據已有資料提供逾期概率指標參考
評分卡的特性
- 穩定性
- 預測能力
- 等價於逾期概率
評分卡開發的常用模型
- 邏輯迴歸
- 決策樹
- 組合模型
基於邏輯迴歸的評分卡理論依據
一個事件發生的機率(Odds),是指該事件發生的概率與該事件不發生概率的比值。若一個客戶違約概率為p,則其正常的概率為1-p,由此可得:
此時,客戶違約的概率p可以表示為:
評分卡表示式為:
其中A、B為常數。由於log函式在
通過給定
(1)某特定Odds時的Score值
(2)該特定Odds值翻倍時Score增加值
通過給定值
通過以上分析,求該使用者評分Score的問題則轉化為求使用者違約對數機率
依照二元邏輯迴歸構造預測函式
其中
推倒可得該事件的對數機率
可以發現:在邏輯斯蒂迴歸模型中,輸出Y=1的對數機率是輸入條件x的線性函式。
由此可得
回到信貸業務中
目標:尋找最理想的引數估計
方法:損失函式最小化求得
邏輯迴歸的損失函式為對數損失函式(具體可由極大似然估計推倒):
相關推薦
初探機器學習與評分卡模型
機器學習簡介 什麼是機器學習 如果一個系統能夠通過執行某個過程改變它的效能,這就是學習(什麼是學習) 不用程式設計去指定機器做什麼,而是讓機器有能力自己學習 首先定義任務T,經驗E,表現P,如果機器有一個任務T,隨著經驗E的增多,表現P也會變好,則表示
網際網路金融-機器學習及評分卡構建
金融的核心是什麼? 嚴謹的金融從業者,答案必是風控。 金融的核心是風控,風控的核心,是模型。 風控是金融業務的核心組成部分,而信貸風控又是整個風控領域體量最大、挑戰最大的型別。傳統的信貸風控主要靠資深從業人員依靠自身的經驗設定的專家規則。 市場越亂,渾水摸魚者越多,風控行業就
機器學習 第二章:模型評估與選擇-總結
但是 交叉 roc曲線 掃描 com ram hidden 技術分享 preview 1、數據集包含1000個樣本,其中500個正例,500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種劃分方式。 留出法將數據集劃分為兩個互斥的
《機器學習》筆記---2 模型的損失函式與正則化
損失函式 度量模型一次預測的好壞 L( Y,f(X) ) 常見型別: 期望風險(風險函式) 度量平均意義下的模型預測的好壞,即損失函式的期望。(關於 聯行分佈的期望,未知,無法直接計算) 經驗風險 模型關於訓練
機器學習與深度學習系列連載: 第二部分 深度學習(十二)卷積神經網路 3 經典的模型(LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet)
卷積神經網路 3 經典的模型 經典的卷積神經網路模型是我們學習CNN的利器,不光是學習原理、架構、而且經典模型的超引數、引數,都是我們做遷移學習最好的源材料之一。 1. LeNet-5 [LeCun et al., 1998] 我們還是從CNN之父,LeCun大神在98年提出的模
機器學習與深度學習系列連載: 第二部分 深度學習(十八) Seq2Seq 模型
Seq2Seq 模型 Seq2Seq 模型是自然語言處理中的一個重要模型,當然,這個模型也可以處理圖片。 特點是: Encoder-Decoder 大框架 適用於語言模型、圖片模型、甚至是預測 1. RNN相關的生成應用: (1) 作詩 (2) 圖片生成
機器學習與深度學習系列連載: 第一部分 機器學習(五) 生成概率模型(Generative Model)
生成概率模型(Generative Model) 1.概率分佈 我們還是從分類問題說起: 當我們把問題問題看做是一個迴歸問題, 分類是class 1 的時候結果是1 分類為class 2的時候結果是-1; 測試的時候,結果接近1的是class1
機器學習與深度學習系列連載: 第二部分 深度學習(十八) Seq2Seq 模型
Seq2Seq 模型 Seq2Seq 模型是自然語言處理中的一個重要模型,當然,這個模型也可以處理圖片。 特點是: Encoder-Decoder 大框架 適用於語言模型、圖片模型、甚至是預測 1. RNN相關的生成應用: (1) 作詩 (2) 圖片生成
王小草【機器學習】筆記--主題模型LDA實踐與應用
標籤(空格分隔): 王小草機器學習筆記 筆記整理時間:2016年12月30日 筆記整理者:王小草 1. LDA的實現工具 在主題模型LDA的理論篇,長篇大幅的公式與推導也許實在煩心,也不願意自己去寫程式碼實現一遍的話,不妨用一用一些已經開源和
機器學習_生成式模型與判別式模型
從概率分佈的角度看待模型。 給個例子感覺一下: 如果我想知道一個人A說的是哪個國家的語言,我應該怎麼辦呢? 生成式模型 我把每個國家的語言都學一遍,這樣我就能很容易知道A說的是哪國語言,並且C、D說的是哪國的我也可以知道,進一步我還能自己講不同國家語言。
淺談機器學習與深度學習的模型設計
今天我們來聊一聊,機器學習與深度學習的模型設計。 運用機器學習演算法進行研究,其實就是尋找目標函式的過程。通過構建機器學習模型(形成函式集),用訓練資料做驅動,尋找與訓練資料匹配,並且在測試資料中表現優異的函式。所以構建機器學習模型就顯得十分的重要了。以線性迴
初探機器學習之使用百度AI服務實現圖片識別與相似圖片
一、百度雲AI服務 最近在調研一些雲服務平臺的AI(人工智慧)服務,瞭解了一下阿里雲、騰訊雲和百度雲。其中,百度雲提供了影象識別及影象搜尋,而且還細分地提供了相似圖片這項服務,比較符合我的需求,且百度雲提供了每日10000次入庫和500次檢索的免費次數,使得我可以更快地試用,且沒有任何花費。更為重要的是
評分卡模型之特徵工程中的BadRate單調與特徵分箱之間的聯絡
Bad Rate: 壞樣本率,指的是將特徵進行分箱之後,每個bin下的樣本所統計得到的壞樣本率 bad rate 單調性與不同的特徵場景: 在評分卡模型中,對於比較嚴格的評分模型,會要求
【機器學習】【seq2seq模型與attention機制,Beam Search】
Beam Search一張圖來表示 貪心的做法:每次選擇輸出概率最大的那個單詞,但是這樣無法保證最終整體概率最大;而集束搜尋每次會選擇Beam個概率最大的單詞(Beam表示每次選擇單詞數,本例中為3),然後進行下一步...直到最後會得到Beam個句子,挑出概率最大的那句
機器學習與深度學習系列連載: 第一部分 機器學習(四)誤差分析(Bias and Variance)和模型調優
1.誤差分析(Bias and Variance) 當我們以非常複雜的模型去進行測試的時候,可能得到的結果並不理想 影響結果的主要有兩個因素:Bias 偏差、Variance 方差 Bias 偏差 在這裡,我們定義偏差是指與目標結果的偏移量,這個偏
機器學習與深度學習系列連載: 第一部分 機器學習(十八)模型評估
模型評估 模型評估中有三個關鍵問題: 如何獲得測試結果? 評估方法 如何評估效能優劣? 效能度量 如何判斷實質差別? 比較檢驗 2. 效能度量(performance measure)是衡量模型泛化能力的 評價標準,反映了任務需求 (1
寫給程式設計師的機器學習入門 (三) - 線性模型,啟用函式與多層線性模型
生物神經元與人工神經元 在瞭解神經元網路之前,我們先簡單的看看生物學上的神經元是什麼樣子的,下圖摘自維基百科: (因為我不是專家,這裡的解釋只用於理解人工神經元模擬了生物神經元的什麼地方,不一定完全準確) 神經元主要由細胞體和細胞突組成,而細胞突分為樹突 (Dendrites) 和軸突 (Axon),樹突
軟件——機器學習與Python,聚類,K——means
4.0 etc sichuan readlines 文件夾 8.4 k-means 數據 -m K-means是一種聚類算法: 這裏運用k-means進行31個城市的分類 城市的數據保存在city.txt文件中,內容如下: BJ,2959.19,730.79,749.41
機器學習與量化交易-2-3
.cn img -1 bsp 9.png ges 量化 ima image 機器學習與量化交易-2-3
大數據、機器學習與信息安全
機器學習 信息安全 從機器學習的角度來看,大數據不過是訓練各類參數、概率分布模型的輸入。合適的、經過篩選的、符合事物客觀特征描述的大數據方才是好的數據,故在目前這個所謂“泛大數據時代”,數據確實是最為精貴的資源,但並不是所有數據都是,我們只能去蕪存菁方可認清數據的本質以及事物(包括人類自身)的本質。因此