1. 程式人生 > >利用圖演算法實現金融行業風控

利用圖演算法實現金融行業風控

(本文資料為虛構,僅供實驗)

一、背景

本文將針對阿里雲平臺上圖演算法模組來進行實驗。圖演算法一般被用來解決關係網狀的業務場景。與常規的結構化資料不同,圖演算法需要把資料整理成首尾相連的關係圖譜。圖演算法更多的是考慮邊和點的概念。阿里雲機器學習平臺上提供了豐富的圖演算法元件,包括K-Core、最大聯通子圖、標籤傳播聚類等。
本文的業務場景如下:
下圖是已知的一份人物通聯關係圖,每兩個人之間的連線表示兩人有一定關係,可以是同事關係或者親人關係等。已知“Enoch”是信用使用者,"Evan"是欺詐使用者,計算出其它人的信用指數。通過圖演算法,可以算出圖中每個人是欺詐使用者的概率,這個資料可以方便相關機構做風控。

二、資料集介紹

資料來源:本文資料為自己生成,用於實驗。
具體欄位如下:

欄位名 含義 型別 描述
start_point 邊的起始節點 string
end_point 邊結束節點 string
count 關係緊密度 double 數值越大,兩人的關係越緊密

資料截圖:

三、資料探索流程

首先,實驗流程圖:

1.最大聯通子圖

最大聯通子圖的功能很好理解,前面已經介紹了,圖演算法的輸入資料是關係圖譜結構的。最大聯通子圖可以找到有通聯關係的最大集合,在團伙發現的場景中可以排除掉一些與風控場景無關的人。本次實驗通過“最大聯通子圖”元件將資料中的群體分為兩部分,並賦予group_id。通過“SQL指令碼”元件和“JOIN”元件去除下圖中的無關聯人員。

2.單源最短路徑

通過“單源最短路徑”元件探查出每個人的一度人脈、二度人脈關係等。distance講的是“Enoch”通過幾個人可以聯絡到目標人。
如下圖:

3.標籤傳播分類

“標籤傳播分類”演算法為半監督的分類演算法,原理是用已標記節點的標籤資訊去預測未標記節點的標籤資訊。在演算法執行過程中,每個節點的標籤按相似度傳播給相鄰節點。
呼叫“標籤傳播分類”元件除了要有所有人員的通聯圖資料以外,還要有人員打標資料。這裡通過“已知資料-讀odps”元件匯入打標資料(weight表示目標是欺詐使用者的概率):

通過SQL對結果進行篩選,最終結果展現的是每個人涉嫌欺詐的概率,數值越大表示是欺詐使用者的概率越大。

四、其它

相關推薦

利用演算法實現金融行業

(本文資料為虛構,僅供實驗) 一、背景 本文將針對阿里雲平臺上圖演算法模組來進行實驗。圖演算法一般被用來解決關係網狀的業務場景。與常規的結構化資料不同,圖演算法需要把資料整理成首尾相連的關係圖譜。圖演算法更多的是考慮邊和點的概念。阿里雲機器學習平臺上提供了豐富的圖演算法元件,包括K-Core、最大聯

DL之RNN:人工智慧為你寫歌詞(林夕寫給陳奕迅)——基於TF利用RNN演算法實現【機器為你作詞】、訓練&測試過程全記錄

DL之RNN:人工智慧為你寫歌詞(林夕寫給陳奕迅)——基於TF利用RNN演算法實現【機器為你作詞】、訓練&測試過程全記錄 輸出結果 1、test01 你的揹包 一個人過我 誰不屬了 不甘心 不能回頭 我的揹包載管這個 誰讓我們是要不可 但求跟你過一生 你把我灌醉 即使嘴角

DL之RNN:人工智慧為你寫周董歌詞——基於TF利用RNN演算法實現【機器為你作詞】、訓練&測試過程全記錄

DL之RNN:人工智慧為你寫周董歌詞——基於TF利用RNN演算法實現~機器為你作詞~、訓練&測試過程全記錄 輸出結果 1、test01 夕海 而我在等待之光 在月前被畫面 而我心碎 你的個世紀 你的時間 我在趕過去 我的不是你不會感覺媽媽 我說不要不要說 我會愛你 我不要你不

DL之BigGAN:利用BigGAN演算法實現超強炸天效果——畫風的確skr、skr、skr,太特麼的skr了

文章推薦Paper之BigGAN:ICLR 2019最新論文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》論文研究中 本博主剛剛利用程式碼進行測試, 結果:的確吊(不)炸(可)天(思議)! PS:B

TF之NN:基於TF利用NN演算法實現根據三個自變數預測一個因變數的迴歸問題

TF之NN:基於TF利用NN演算法實現根據三個自變數預測一個因變數的迴歸問題   實驗資料 說明:利用前四年的資料建立迴歸模型,並對第五年進行預測。   輸出結果 loss is: 913.6623 loss is: 781206160000.0

DL之RNN:基於TF利用RNN演算法實現~機器為你寫詩~、訓練&測試過程全記錄

DL之RNN:基於TF利用RNN演算法實現~機器為你寫詩~、測試過程全記錄 輸出結果 模型監控 訓練、測試過程全記錄 1、訓練過程 2018-10-13 18:17:33.385001: step: 10/10000... loss: 6.6

DL之RNN:人工智慧為你寫歌詞(林夕寫給陳奕迅)——基於TF利用RNN演算法實現【機器為你作詞】、訓練&測試過程全記錄

DL之RNN:人工智慧為你寫歌詞(林夕寫給陳奕迅)——基於TF利用RNN演算法實現【機器為你作詞】、訓練&測試過程全記錄 輸出結果 1、test01 你的揹包 一個人過我 誰不屬了 不甘心 不能回頭 我的揹包載管這個 誰讓我們是要不可 但求跟你過一生 你把我

金融信貸(一)——申請評分卡

網際網路金融業申請評分卡介紹 申請評分卡的重要性和特性 評分卡: 以分數的形式來衡量風險機率 對未來一段時間內違約\逾期\失聯概率的預測 通常分數越高越安全 申請環節:反欺詐評分卡,申請評分卡;監控環節:行為評分卡;逾期環節:催收評分卡

EL之Bagging:利用Bagging演算法實現迴歸預測(實數值評分預測)問題

EL之Bagging:利用Bagging演算法實現迴歸預測(實數值評分預測)問題 輸出結果   設計思路   核心思路 #4.1、當treeDepth=1,對圖進行視覺化 #(1)、定義numTreesMax、

利用Dijkstra演算法實現記錄每個結點的所有最短路徑

最近在做PAT時發現圖論的一些題目需要對多條最短路徑進行篩選,一個直接的解決辦法是在發現最短路徑的時候就進行判斷,選出是否更換路徑;另一個通用的方法是先把所有的最短路徑記錄下來,然後逐個判斷。前者具有一定的難度並且不好排查BUG,因此我設計了一種基於Dijkstra的記錄所

AI Programmer--利用遺傳演算法實現AI Programmmer

本文是在讀完AI Programmer:Autnomously Creating Software Programs Using Genetic Algorithms一文之後寫的總結。 一、文章的任務 本文提出了一個可以自動完成程式設計任務的機器學習模型,即AI prog

金融信貸(二)——資料預處理和特徵衍生

申請評分卡中的資料預處理和特徵衍生 構建信用風險型別的特徵 資料預處理 1、資料預處理 包括格式、缺失值的處理等。 缺失值包括如下幾種情況: 1、完全隨機缺失 2、隨機缺失 3、完全非隨機缺失:與變數本身有關,比如富裕家庭不願意填收入 處理缺失值的方法

位示演算法實現大資料的儲存

          今天在看排序演算法的時候,看到了用位示圖法實現的,上面說可以大大減少記憶體的使用,尤其針對大資料的儲存,資料量非常大的的時候,他的優點就比較明顯了,因為他儲存資料值依靠1個位來表示。具體是怎麼回事呢,繼續往下看。點陣圖法,點陣圖法,當然和位相關,下面我給

Java利用DFA演算法實現敏感詞過濾

前言: 敏感詞文字過濾是一個網站必不可少的功能,如何設計一個好的、高效的過濾演算法是非常有必要的。作為一般開發人員來說首先考慮的肯定是簡單的匹配,這樣是可以實現功能,但效率比較慢,在高階一點的就是正則表示式,比前一個好一點,但終究還是一丘之貉,非常遺憾,兩種方法都不可取。當

金融信貸中的機器學習

區分 可能 編程 邏輯回歸 足夠 應用 定義 開發 pan 金融信貸風控中的機器學習 推薦學習地址:https://pan.baidu.com/s/1AeYKXniWfE4va_9EAKseyg 提取碼: 5w6e 如何搭建金融信貸風控中的機器學習模型推薦學習鏈接: htt

9月第3周業務關註|央行:將進一步探索構建行業共享的金融網絡安全防護平臺

防護 缺陷 cto process 單位 個人 情況 依然 hat 易盾業務風控周報每周呈報值得關註的安全技術和事件,包括但不限於內容安全、移動安全、業務安全和網絡安全,幫助企業提高警惕,規避這些似小實大、影響業務健康發展的安全風險。 1.央行:將進一步探索構建行業共享的金

9月第3周業務關注|央行:將進一步探索構建行業共享的金融網路安全防護平臺

易盾業務風控週報每週呈報值得關注的安全技術和事件,包括但不限於內容安全、移動安全、業務安全和網路安全,幫助企業提高警惕,規避這些似小實大、影響業務健康發展的安全風險。 1.央行:將進一步探索構建行業共享的金融網路安全防護平臺 據澎湃新聞訊息,2018年網路安全技術

金融安全資訊精選 2018年第一期:2017年P2P網貸行業年報,成保險業轉型新四大關鍵詞之一,央行釋出條碼支付規範

摘要: 2017年P2P網貸行業年報,風控成保險業轉型新四大關鍵詞之一,央行釋出條碼支付規範 概要:截至2017年12月底,網貸行業正常運營平臺數量達到了1931家,相比2016年底

【ArchSummit乾貨分享】個推大資料金融演算法實踐

作者:個推高階資料工程師 曉駿 眾所周知,金融是資料化程度最高的行業之一,也是人工智慧和大資料技術重要的應用領域。隨著大資料收集、

利用Selenium+PhantomJS 實現

rgs 重載 public 服務器 console read using default tom using OpenQA.Selenium; using OpenQA.Selenium.PhantomJS; using System; using Syste