1. 程式人生 > >機器學習引領智慧金融,變革萬億規模實時支付風控模式

機器學習引領智慧金融,變革萬億規模實時支付風控模式

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

隨著我國銀行業全面開放和深化改革,網際網路金融的不斷髮展以及電子銀行、手機銀行交易系統的全面鋪開,與這些全新業務模式相伴而生的欺詐風險也在頻繁發生。各類跨業務、跨條線的欺詐風險更是層出不窮。

作者 | 亞信資料

官網 | www.datayuan.cn

微信公眾號ID | datayuancn

本文為資料猿推出的“金融科技價值—資料驅動金融商業裂變”大型主題策劃活動第一部分的文章/案例/產品徵集部分;感謝 亞信資料 的投稿

隨著我國銀行業全面開放和深化改革,網際網路金融的不斷髮展以及電子銀行、手機銀行交易系統的全面鋪開,伴隨這些全新業務模式而生的欺詐風險也在頻繁發生。各類跨業務、跨條線的欺詐風險更是層出不窮。這些欺詐問題,對銀行社會聲譽以及使用者財產安全都造成嚴重威脅。隨著大資料、雲端計算等技術的發展,也給金融領域各類新形態欺詐問題的解決帶來了新思路。

1、支付風控問題與現狀

金融行業經營是風險,只不過它往往以貨幣或者錢的形態表現出來。金融的本質就是對於風險的管理,其中比較重要的風險包括:市場風險、信用風險、操作風險、法律政策風險等等。金融業發展的歷程也是對於風險管理不斷明確深化的過程,著名的巴賽爾框架就是對金融風險管理方法和最佳實踐的系統性的總結。框架中對金融行業方方面面的風險管理,都進行了一定程度的規範和量化。我國的銀行金融業也在央行的要求下,正在全面深化和落實巴塞爾風險管理框架。

隨著整個銀行支付網路的電子化、全球化、移動化發展,支付中的欺詐風險也在不斷提高。請設想如下情景:我們有一位中國的持卡人,他的太太早上在網上用他的這張信用卡,支付了他家庭當月的電費。他們的孩子在美國求學,課餘時間用這張信用卡的副卡在平板電腦上購買了一款遊戲。而這位中國的持卡人是位商務人士,他正在澳洲出差,中午他在澳洲的一家飯店的POS機上用信用卡支付了午餐費用。面對這樣豐富的全球化支付場景,銀行面臨著一方面要儘量保護持卡人的賬戶資產不受損失,另一方面還要讓整個支付流程順暢進行,這樣一個兩難的挑戰。

技術挑戰與金融大資料

如何能精確判定哪些支付行為是合法的、哪些是金融欺詐行為,一直是個充滿挑戰的技術問題。眾所周知的信用卡盜刷犯罪,就是非常高發的一種金融欺詐形式,這類犯罪每年給持卡人和銀行造成的損失都非常大。欺詐行為是人類的發展過程一直存在的問題,而且欺詐者也對其金融欺詐的模式進行不斷演進。反欺詐檢測這個工作難做,大致有以下三方面的原因:

首先,消費者和欺詐者這兩方面的行為模式都變化很快。隨著網際網路和電子商務各種創新業務模式的發展,每天都有各種新的消費形式和消費渠道湧現。消費者正常的消費行為已經很難被簡單描述出來。與此同時,欺詐者也會根據這些新的發展,不斷改變調整自己的行為模式,已到達逃避檢查和規避法律制裁的目的。

其次,確切而完整的欺詐案件資料相比浩如煙海的正常消費資料來說非常少。這也有兩方面的原因,一方面,之前我國銀行對反欺詐工作的重要性可能認識不足,而且也沒有很好的系統來輔助支援這些欺詐案件資訊的完整入庫;另一方面,很多人受到了欺詐行為的侵害而本身卻毫不知情。受害者可能是收到信用卡對賬單時,才知道有盜刷的交易存在。這也就造成了銀行方面很難及時發現一些新的欺詐問題的苗頭。

我們還應該看到,想要真正完整確認一起欺詐案件,往往還是需要專業人員進行細緻的線下調查,很多時候還需要和公安部門進行配合,這樣的成本往往很高。綜上這幾點原因,如何有效進行反欺詐檢測是一個複雜的、系統性的、富有挑戰性的問題。

與此同時,我們也要看到,在現代的支付環境下,金融欺詐檢測問題本質是一個大資料的問題。支付網路的節點數往往是千萬甚至億級別的,整個支付流程所觸達的分散式系統更是數不勝數。每一個節點和系統都會不停地產生大量的資料。

以一個比較著名的第三方支付平臺Paypal為例,每年Paypal平臺要處理50億筆支付請求,每秒鐘峰值達到300筆。全球有250萬個開發者,在利用Paypal平臺提供自身應用所需要的支付功能。Paypal的資料平臺所儲存的資料也到達42個PB。這樣的龐大資料量和支付場景實時性要求,顯然需要強有力的大資料平臺軟體和硬體的支援。

2、資料驅動的支付欺詐檢測

資料驅動模式想要成功要有三個必要的因素:

l )要強而有力地進行特徵工程,提取和欺詐行為相關的特徵因子,並輔以有效的機器學習演算法和統計模型。

2) 要有高效能和高可延展性的大資料軟硬體平臺,以便在大資料環境下實現相關計算和模型演算法。

3) 要有一個優秀的團隊,團隊的組成包括資料科學家、大資料工程師、已經熟悉反欺詐實務的分析員和業務專家,大家共同配合才能做好這個事情。

除了上述三點之外,資料驅動方式最重要的因素顯然就是要有大量的資料,以支撐機器學習模型機建立的需要。

銀行產業資料的特點

在亞信提出的產業互聯的大背景下,每個行業都有其獨特而不可取代的核心資料,像銀行這樣關係國計民生的命脈行業更是如此。具體來說,銀行要掌握以下四大類核心資訊:

首先,銀行非常瞭解他的客戶,特別是有貸款業務的客戶,銀行往往進行過非常詳細縝密的背景調查,其所掌握的客戶資訊非常完整。

其次,銀行掌握整個金融網路中每一個賬戶的動態,任何賬戶之間的資金流轉都在銀行嚴格的監理之下進行。

第三,銀行掌握客戶的每一個互動操作,從賬戶餘額查詢到賬戶密碼的更改、各種許可權的設定,銀行都會一一記錄掌握。

最後也是最重要的,銀行了解每一個支付交易的支付場景,大到數額客觀的客戶投資,小到手機充值繳費,銀行了解每一筆支付的情景和詳細的上下文資訊。這些銀行的核心資訊,為廣泛提取風險行為特徵提供了堅實的基礎。

0?wx_fmt=png

圖1:風控模型系統架構

機器學習風控模型的系統架構

圖1展示了機器學習建模的系統架構和資訊流程。圖左半部分是實時模型決策部分。它主要包含了特徵服務,模型服務,和決策引擎三個部分。特徵服務提取實時交易報文中的關鍵資訊,產生實時的風險特徵。

模型服務中包含已經訓練好的反欺詐預測模型,模型會使用特徵服務提供的實時特徵,以及離線分析系統利用歷史資訊所提取的離線風險特徵。這些離線特徵是利用長時間週期數據計算而成的,往往包含使用者長期的行為資訊。模型服務會對每一筆交易都做出欺詐風險預測。模型服務的預測結果會輸出到決策引擎,決策引擎會進行進一步的量化評分,以便觸發相應的風控動作,這一部分我會在後面更詳細的加以介紹。

在看到圖的右半部分,實時資訊通過分散式的日誌系統和大資料流處理平臺被積累到離線的資料平臺上,當然這些實時資訊也會被用於實時監測以瞭解整個系統執行的情況分析和建模系統利用離線資料平臺中的資料,進行特徵的提取和模型的迭代訓練。模型迭代的頻率一般是每天一次。除了利用新獲取的資訊訓練模型之外,模型迭代過程中的重要一步就是要對模型進行歷史資料的回測。通過資料瞭解模型的準確度,掌握可能得問題,以便進一步的調優。這個過程需要用歷史資料大量的進行模擬回測,只有滿足系統性能要求的模型才會被推送到實時的生產系統中進行使用。

0?wx_fmt=png

圖2:機器學習建模流程

圖2描述了利用機器學習進行建模的一般流程。首先,我們要對現有資料進行梳理和清洗。然後利用各種適當的統計計算方法,大量廣泛的提取和預測目標相關的特徵資訊。之後,再利用系統性的方法來對提取的特徵進行進一步的篩選。經過這樣一個過程之後,準備好的資料特徵就可以輸出到適當的機器學習演算法中去進行模型訓練。訓練模型的時候,根據資料測試的效果,還要對一些先驗性的模型引數進行調整,使模型的預測效能到達最優。最後,經過調優的模型就可以用到生產系統去進行使用。當然,如果有新的資料或者新的特徵提取思路,我們可以快速重複和迭代整個過程,不斷改進現有的模型。

資料探索與特徵工程

資料處理流程中重要的第一步是對現有資料進行清洗和梳理。現實中的資料往往不是完美的,而且不同型別的資料也有其自身特有的特徵。比如,很多現實數庫中的記錄並不完整或者不準確,會出現漏填、錯填的情況,清洗時要選擇合適方法進行適當的補全或者更正。很多資料集本身是傾斜而不均勻的,比如在反欺詐中,好樣本的數量要遠遠多於壞樣本,經濟發達地區的交易記錄要遠多於欠發達地區,這些因素在資料清洗時都要做適當的處理和調整。

另外,很多類別性的離散資料也不能直接被機器學習的模型所使用,要先進行一定的轉換。資料梳理過程還包括結合大資料平臺數據處理的特性,設計合理的資料結構和演算法來支援資料的快速儲存和呼叫。比如為了計算賬戶的行為特徵,這就需要我們把大量無需的交易資料按賬戶號聚合,按交易時間排序。總之,資料的清洗和梳理工作為之後的特徵提取和模型訓練打下堅實的基礎。

結合到反欺詐檢測這個具體情景,我把所用到的特徵按其包含資訊的層級有微觀到巨集觀分為三大類:

粒度最細的是交易級別的特徵,這些特徵是需要在交易和支付發生的那個時間才能採集到的,比如交易的類別,支付的手段,交易的金額等等。這些資訊非常重要是構成高層次特徵的原子資訊。

再上一層的是賬戶級別的特徵,比如賬戶的交易頻率,賬戶的交易一般發生的時間段,等等。對於這些特徵資訊,我們往往需要回溯歷史,比如一週,一個月,甚至幾個月才能準確獲取。

最巨集觀的特徵是支付網路級別的特徵,如果我們把每一個賬戶看做一個節點,每一筆交易看做連線節點的邊,那麼我們就可以構建一個涵蓋所有賬戶所有交易的支付網路。

有了這個巨集觀的網路檢視,我們可以清晰的看到是否在短時間內有很多的賬戶向同一個賬戶來進行付款,如果有那麼我們很可能要更進一步瞭解這個中心賬戶是否有正當的理由來支援這樣的行為特徵。每一個級別的特徵都會給反欺詐模型提供相應維度的資訊,以便進行風險的綜合預測。

特徵與模型選擇

隨著大資料和各類開源技術的發展,我們已經有了很多很強大的大資料的機器學習工具。選擇好適當的工具可以極大的提高工作的效率。在欺詐檢測的模型的建立過程中,我們選取了深度學習模型作為其中的一個主要演算法。深度學習的概念源於人工神經網路的研究。它模仿人腦的結構機制來解釋和學習資料。結構上他是由一層層的神經元網路組合而成。深度學習通過組合層次遞進的方式,用低層特徵形成更加抽象的高層表示來提取和發現數據的內在聯絡。近年來隨著平行計算技術的發展和一些理論上的重要突破,在很多的應用場景下,深度學習的效果相比傳統的機器學習演算法有了非常大的提升,在視訊、影象、音訊的理解和學習上有著非常廣泛的應用。

深度學習的優點也是很明顯的,首先由於層次化的模型結構,使得模型本身帶有特徵提取和特徵選擇的功能特性,這一優勢特性可以大大降低對於人工提取特徵的依賴度,模型自身可以對基礎資訊進行非線性的組合篩選,得到不能直觀想象但是有效的特徵因子。另外,訓練好的深度學習模型往往可以表達為一系列的矩陣的運算,這使得他在生產系統中的運算效率極高,可以滿足很多實時系統的計算效率要求。

0?wx_fmt=png

很多的機器學習演算法都提供充足的引數空間,支援訓練任意複雜度的模型,以深度學習演算法為例,我們可以自由的決定模型的深度也就是神經元網路的層數,每層的神經元數量,以及每個神經元的觸發函式等等。但需要注意的是模型過於簡單或者過於複雜都難以取得理想的預測準確度,然而這些模型引數的配置往往是先驗的,需要根據訓練出的模型在實際資料集上的效能判定優劣。所以我們需要嘗試不同的引數組合,最終找到在一定的資料集特徵下最優的引數配置。

我們再次快速的回顧一下整個資料驅動建立欺詐檢測預測模型的流程。從左到右,我們從原始資料的清洗和梳理開始,到大量廣泛的提取相關特徵並有效的進行篩選,在確定了機器學習演算法後,我們就可以利用梳理好的特徵資料進行模型訓練、引數選擇、效能回測等工作,最後得到可以用於生產系統的預測模型。

3、實時支付欺詐檢測系統

亞信資料矽谷人工智慧研發中心團隊為實時金融欺詐提供了一整套完整的系統解決方案。之前著重介紹的基於機器學習風控模型只是其中的一個子系統。整個系統的實時部分設計完全基於大資料流處理平臺和高效能的實時資料庫,保證了高併發低延遲的實時響應能力。系統也提供全生命週期的金融欺詐檢測和防控功能,除了欺詐檢測模型,這套系統還會進一步的進行風險的量化評分,以便觸發相應的風險控制策略。這也是之前講到的決策引擎的主要演算法邏輯。

風險量化評分考慮到欺詐風險和交易金額兩個因素,欺詐風險越大,交易所涉及的金額越多,風險評分就會越高。根據風控模型實時計算的交易風險評分,系統自動採取對應的策略。主要策略包括:交易放行、警告、簡訊提醒、加強驗證、人工坐席核實,直至自動交易阻斷。客戶簡訊驗證,客服坐席核實的結果也都會及時反饋到大資料分析系統的資料庫中,以供模型更新使用,使整個系統中的資訊形成閉環。也使模型可以快速迭代更新,大大提高模型預測準確度。

總結一下,實時金融欺詐檢測系統主要提供了4個方面的能力:首先,引入資料驅動的風控模型,以機器學習為基礎,科學設定反欺詐規則,實現從資料到業務語言以及機器程式碼的轉化。其次,實現了包括電子、手機、網銀等多渠道的全面資料接入,提供完善的欺詐案件記錄和處置的功能,填補事中風險管控工作的空白。第三,系統提供了優化的交易風險處置,通過量化風險,觸發不同級別的防控策略,優化系統效果和使用者體驗。最後,可以提供全面的報表和分析功能,實時監控全域性的風險情況,以便掌握資訊。

-作者簡介 -

於今

澳大利亞新南威爾士大學計算機博士學位,亞信資料CTO,全面負責公司產品戰略、產品架構設計、人工智慧核心演算法打造和新產品孵化等工作;曾先後服務於中國最大的線上旅遊社交平臺馬蜂窩,擔任技術副總裁兼首席架構師,以及在全球第二大廣告交易公司OpenX擔任技術副總裁兼首席架構師;於今也曾是一位創業家,分別創立過專注於社交大資料開發的Portaura公司和專注於電子商務搜尋引擎的Martsoft公司。

常劍

亞信資料矽谷人工智慧研發中心主任,賓夕法尼亞大學 (University Of Pennsylvania)計算機博士,清華大學本科。博士期間進行了大規模分散式系統的安全與信任問題的研究,專注於大資料和機器學習技術的研發工作。領導技術團隊與中信銀行成立業內第一個金融科技創新實驗室,進行支付欺詐防控,智慧投顧等新產品的研發,在醫療領域進行人工智慧在各場景落地的探索研究。

0?wx_fmt=gif

作為整體活動的第二部分,2017年10月25日,資料猿還將在北京舉辦千人規模的“2017金融科技價值——資料驅動金融商業裂變”峰會並將在現場舉行文章、案例、產品的頒獎典禮

更多精彩內容

(點選關鍵詞檢視)

· 觀 點 ·

· 案 例 ·

0?wx_fmt=jpeg

0?wx_fmt=jpeg