機器學習 scikit-learn6 - 預測貸款使用者是否會逾期 - 特徵工程

阿新 • • 發佈：2018-11-24

文章目錄

說明
核心程式碼說明

1 去掉一部分對結果沒有影響的資料
2 字元特徵處理
3 日期/時間型特徵
4 數值特徵

問題
參考文件

說明

這次時間比較緊迫，還是按照以前的思路完成了這次小任務
參考連結： https://github.com/spareribs/kaggleSpareribs/tree/master/Overdue/ml/features

features 主要是資料的預處理

目前主要是簡單的資料處理, 主要是模型上面的訓練
1. 需要 直接刪除 的資料, 這些都是唯一的id標識, 會過擬合
    - bank_card_no：只有一個值 '卡號1' , 無區分度
    - source：只有一個值 'xs' , 無區分度
    - 'Unnamed: 0': 與預測值無關 
    - custid: 與預測值無關 
    - id_name：與預測值無關 
    - trade_no：與預測值無關 
    
2. 【類別特徵】需要 離散化處理 的資料
    - reg_preference_for_trad
    - regional_mobility
    - student_feature
    - is_high_user

3. 【日期】針對日期資料的處理(轉換成年月日)
    - first_transaction_time
    - latest_query_time
    - loans_latest_time

4. 【刪除部分特徵】：統計各個列標準差，將標準差小於0.1的特徵剔除
    
5. 【缺失值】缺失值的填充
    - 目前只是簡單的眾數填充 TODO
    - 缺失的資料作為一種新特徵，衡量資料的完整度

6. 歸一化處理所有資料
    - 目前直接使用StandardScaler方法處理, 沒搞明白 TODO

核心程式碼說明

1 去掉一部分對結果沒有影響的資料

def unique_drop(data):
    """ 
    1. count 跟 unique 一樣，需要刪除
    2. count 跟 unique 不一樣，只有單一值也是要刪除
    3. count 跟 unique 不一樣，但是 nan統計後，count 跟 unique 一樣 也需要刪除
    """
    for col in data.columns:
        count = len(list(data[col].unique()))
        if count == 1 or count == 
 data.shape[0]:
            print(col)
            train.drop([col], inplace=True, axis=1)

unique_drop(train)

這樣直接刪除這5列資料 Unnamed: 0, custid, trade_no, bank_card_no, source

2 字元特徵處理

def missing_count(train, feature):
    """
    1. 統計缺失值
    2. 統計unique
    """
    all_count = len(train)
    missing = 
 len(train[feature][pd.isnull(train[feature])])
    unique_object = list(train[feature].unique())
    print("缺失{1:>4}個  缺失率 {4:.2f}% 有{2:>4}個值 分別為 {3}等".format(all_count, missing, len(unique_object),unique_object[:7], missing/all_count, feature))

missing_count(train_object,"reg_preference_for_trad")
missing_count(train_object,"id_name")

reg_preference_for_trad: 城市,使用0來填充用 one-hot 編碼
id_name：名字，理論上需要對相同名字的人進行歸類, 這種做法先擱置了, 沒想到更好的解決方法，先刪除這一列資料
latest_query_time和loans_latest_time 當作時間特徵來處理

# 缺失值2個，用眾數填充
train_object['reg_preference_for_trad'] = train_object['reg_preference_for_trad'].fillna(train_object['reg_preference_for_trad'].mode()[0])
# 轉換成數字
train_object['reg_preference_for_trad'] = train_object['reg_preference_for_trad'].map({'一線城市': 0, '二線城市': 1,'三線城市': 2,  '其他城市': 3, '境外': 4})
# one-hot編碼
train_object = pd.get_dummies(train_object,columns=["reg_preference_for_trad"],prefix="reg_preference_for_trad")

3 日期/時間型特徵

參考 https://blog.csdn.net/l75326747/article/details/84326897#字元型特徵

取出日期，可分別構建如年、月、日、工作日、週數等；
如有時間，可分別構建如小時、分鐘等；
兩兩日期或時間可根據業務知識相互做差，求出相差天數，小時數等

date_temp = pd.DataFrame()
date_temp['latest_query_time_year'] = pd.to_datetime(train_object['latest_query_time']).dt.year
date_temp['latest_query_time_month'] = pd.to_datetime(train_object['latest_query_time']).dt.month
date_temp['latest_query_time_day'] = pd.to_datetime(train_object['latest_query_time']).dt.day
date_temp['loans_latest_time_year'] = pd.to_datetime(train_object['loans_latest_time']).dt.year
date_temp['loans_latest_time_month'] = pd.to_datetime(train_object['loans_latest_time']).dt.month
date_temp['loans_latest_time_day'] = pd.to_datetime(train_object['loans_latest_time']).dt.day
date_temp.fillna(date_temp.median(), inplace=True)  # 使用中位數填充缺失值

4 數值特徵

製圖函式 - 與結果的關係

# 參考文章：
# https://zhuanlan.zhihu.com/p/33733586
# https://www.cnblogs.com/jin-liang/p/9011771.html
# https://blog.csdn.net/Jinlong_Xu/article/details/79769730
# https://www.jianshu.com/p/4b925654f506

import matplotlib.pyplot as plt

result = "status"
def sns_violinplot(train, feature, y_result=result):
    """ 類別特徵對應的特徵分佈 - 提琴圖 """
    sns.violinplot(x=y_result, y=feature, data=train)

sns_violinplot(train_num, "consfin_avg_limit") # 示例

確認缺失值的情況

train.isnull().sum().sort_values() / len(train) * 100

不難發現除了 student_feature 缺失值在 63% 以外，其餘的都不是非常多，這裡使用平均值來補充

student_feature：使用0來填充
other：使用均值來補充

train_num.fillna({'student_feature': 0}, inplace=True)
train_num.fillna(train_num.mode(), inplace=True) # 眾數
# train_num.fillna(train_num.mean(), inplace=True) # 均值
# train_num.fillna(train_num.median(), inplace=True) # 中位數

問題

問題1：dtype=object使用的問題，會全部轉換成字元型

train = pd.read_csv('{0}/data.csv'.format(PATH), encoding='gbk', dtype=object)  # 取消 dtype=object 的使用

問題2：時間日期的處理有沒有更好的方法直接轉換
問題3：如何在一個for迴圈裡面製作所有的提琴圖，有待解決

for col in train_num.columns.tolist()
	sns_violinplot(train_num, "consfin_avg_limit") # 示例

整理文件1：各種圖形分析
整理文件2：pandas學習：對series和dataframe
整理文件3：資料分析中常用資料型別的處理方法

參考文件

[1] Feature Engineering for Machine Learning - 書本翻譯
[2] 特徵處理 - 七月線上
[3] 特徵選擇
[4] 缺失值處理

機器學習 scikit-learn6 - 預測貸款使用者是否會逾期 - 特徵工程

文章目錄說明核心程式碼說明 1 去掉一部分對結果沒有影響的資料 2 字元特徵處理 3 日期/時間型特徵 4 數值特徵問題參考文件說明這次時間比較緊迫，還是按照以前的思路完

機器學習 scikit-learn5 - 預測貸款使用者是否會逾期 - 模型效能評估

文章目錄核心程式碼程式碼使用方法資料輸出的程式碼繪圖的程式碼模型效能評估疑問核心程式碼程式碼路徑 https://github.com/spareribs/kaggleSparer

機器學習 scikit-learn1 預測貸款使用者是否會逾期

scikit-learn 一週演算法實踐集訓簡介程式碼說明程式碼目錄結構程式碼使用方法個人總結參考文件任務1. 邏輯迴歸模型實踐【2018.11.14 - 2018.11.15】任

機器學習 scikit-learn7 - 預測貸款使用者是否會逾期 - 網路搜尋交叉驗證

網路搜尋 - 目錄 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 交叉驗證 TODO 3.2 使用網路搜尋獲得最優的引數 3.2.1 邏輯迴歸 4 問題 1 說

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

特徵挑選 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 IV值挑選特徵 3.2 隨機森林挑選特徵 3.3 將 IV值和隨機森林的特徵結合 3.4 訓練模型輸出結果 4 結果對比 5

R語言使用機器學習算法預測股票市場

分析 article library 日期 ant else 3.4 set span quantmod 介紹 quantmod 是一個非常強大的金融分析報, 包含數據抓取,清洗,建模等等功能. 1. 獲取數據 getSymbols 　　默認是數據源是yahoo

機器學習scikit-learn概目

機器學習scikit-learn概目線性模型 (linear_model)： 1、線性-迴歸器 ① class sklearn.linear_model.LinearRegression() ② class sklearn.linear_model.Ri

機器學習scikit-learn

1.分類：監督學習，非監督學習，半監督學習（少量標籤），強化學習，遺傳演算法 2.安裝：pip install scikit-learn 建議直接用anaconda（兩個不用同事安裝使用容易出錯） **安裝問題：如果不用anaconda用pip建議看下這篇文章https://bbs.csdn

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.3.1 Linea

機器學習 scikit-learn2 模型實踐 - 邏輯迴歸

邏輯迴歸 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 1 簡介 1.1 程式

機器學習 — 信用卡欺詐預測

# 讀取CSV檔案的內容 import pandas as pd data = pd.read_csv("creditcard.csv") data.head() Time V1 V2 V3 V4 V5 V6

Python機器學習實戰專案--預測紅酒質量（超詳細）

用Scikit-Learn（sklearn）建立模型 1 環境搭建 Python 3+NumPy+Pandas+Scikit-Learn (sklearn) 2 匯入庫和模組 Numpy是比Python自身的巢狀列表（nested list structure)結構要高效的多的一

基於機器學習進行銷售預測分析

課程介紹：根據集團客戶歷史銷售資料，結合對市場未來需求資料、相關行業政策資料等，預測未來週期內客戶銷售收入，用以指導企業銷售策略，加強計劃性，提高經濟效益。通過本案例，學員可以瞭解預測的相關概念及相關演算法，掌握MaxCompute內部資料加工流程，掌握機器學習的

【機器學習】基於機器學習的乳腺癌預測模型

基於機器學習的乳腺癌預測模型（附Python程式碼）前提說明專案介紹匯入資料概述資料資料視覺化評估演算法實施預測程式碼參考前提說明此部落格內容為20

深度學習機器學習面試問題準備（必會）

第一部分：深度學習 1、神經網路基礎問題（1）Backpropagation（要能推倒）　　後向傳播是在求解損失函式L對引數w求導時候用到的方法，目的是通過鏈式法則對引數進行一層一層的求導。這裡重點強調：要將引數進行隨機初始化而不是全部置0，否則所有隱層的數值都會與輸入

機器學習---scikit-learn中KNN演算法的封裝

1，工具準備，python環境，pycharm 2，在機器學習中，KNN是不需要訓練過程的演算法，也就是說，輸入樣例可以直接呼叫predict預測結果，訓練資料集就是模型。當然這裡必須將訓練資料和訓練標籤進行擬合才能形成模型。 3 3，在pycharm中建立新的專案工程

機器學習SVC分類預測三個月後的股價

思路：通過學習近兩年的每個季度報的基本面財務資料，建立模型，買入並持有預測三個月後會漲5%以上的股票，直到下一批季度報資料採集：用到了大約10018行資料（已去除缺失值，不採用填充），其中採用了兩個技術指標（趨勢指標CYES,CYEL） circulating_market_ca

唐宇迪機器學習之離職預測

最近在看唐宇迪機器學習視訊，這個視訊我覺得很不錯，可是我資源有限，有的視訊沒有配套的資料、資料集或者是程式碼，但還是可以看視訊瞭解其中的一些知識點。專案介紹該專案是通過員工對公司的滿意程度、公司對員工的評估、員工薪資水平、員工崗位、員工工作時長等特徵來推斷員

[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

Scikit-Learn提供了比較全的資料集,主要分為以下幾類 1. 自帶的小資料集（packaged dataset） 2. 線上下載的資料集（Downloaded Dataset） 3. 生成的資料集（Generated Dataset) 4. svm

機器學習 scikit-learn6 - 預測貸款使用者是否會逾期 - 特徵工程

文章目錄

說明

核心程式碼說明

1 去掉一部分對結果沒有影響的資料

2 字元特徵處理

3 日期/時間型特徵

4 數值特徵

問題

參考文件

相關推薦