TW201933260A - 評估金融違約風險的方法及裝置 - Google Patents
評估金融違約風險的方法及裝置 Download PDFInfo
- Publication number
- TW201933260A TW201933260A TW107144310A TW107144310A TW201933260A TW 201933260 A TW201933260 A TW 201933260A TW 107144310 A TW107144310 A TW 107144310A TW 107144310 A TW107144310 A TW 107144310A TW 201933260 A TW201933260 A TW 201933260A
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- merchant
- information
- neural network
- output result
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本說明書實施例提供一種評估用戶的金融違約風險的方法和裝置。方法包括,首先獲取若干個短周期的細粒度資料集,該細粒度資料集包括用戶的各種與借貸行為相關的金額資訊和商家資訊,利用循環神經網路處理這些資料集,得到中間處理結果。另一方面,還獲取用戶在長周期的粗粒度統計資訊作為廣度特徵,利用全連接的深度神經網路進一步處理這些統計資訊和以上得到的中間處理結果,從而進行最終的金融風險評估。所述裝置與上述方法對應。如此,透過深度特徵和廣度特徵結合的方式,更好地評估金融違約風險。
Description
本說明書的一個或多個實施例涉及電腦技術領域,尤其涉及評估金融違約風險的方法及裝置。
電腦和網路技術的發展使得網際網路已經滲透進人們生活的各方面,人們越來越多地利用網際網路進行各種各樣的操作,包括金融相關操作,例如網路購物,電子支付,電子轉帳,線上理財,線上借貸等。在用戶的諸多網路金融操作中,有一些操作行為有一定的金融風險,例如請求先享受後付款類服務,採用花唄、白條等透支服務,申請借貸等。這就需要對用戶的金融違約風險預先進行評估和判斷。儘管已經存在諸如芝麻信用這樣的信用評估系統,但是僅僅根據信用分判斷金融違約風險,維度比較單一,粒度不夠細緻。
因此,需要更有效的方式,對用戶進行全面分析,從而評估其金融違約風險。
因此,需要更有效的方式,對用戶進行全面分析,從而評估其金融違約風險。
本說明書的一個或多個實施例描述了一種方法和裝置,可以全面地對用戶的金融違約風險進行分析和評估。
根據第一方面,提供了一種評估金融違約風險的方法,包括:
獲取資料集序列,所述資料集序列包括對應於連續的多個第一時間段、且按照時間順序排列的多個資料集,所述多個資料集中的各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊;
利用循環神經網路處理所述資料集序列,獲得第一輸出結果;
獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;
利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;
根據所述第二輸出結果評估所述用戶的金融違約風險。
在一種可能的設計中,所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
進一步地,在一個實施例中,與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項,用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
在一個實施例中,所述方法還包括:對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
根據一個實施例,上述預處理還包括:在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量;將所述均值向量包含在預處理的商家資訊中。
在一個實施例中,上述預處理還包括:對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和;將所述商家向量和包含在預處理的商家資訊中。
根據一個實施例,所述多個資料集中的各個資料集還包括,用戶在對應的第一時間段內的信用資訊。
在一個實施例中,所述方法還包括,獲取所述用戶的屬性特徵資訊,所述利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果,包括:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
進一步地,在一個實施例中,所述全連接神經網路為多層全連接神經網路,其中將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路包括:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
根據一種可能的設計,所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
根據第二方面,提供了一種評估金融違約風險的裝置,包括:
資料集獲取單元,配置為獲取資料集序列,包括對應於連續的多個第一時間段、且按時間順序排列的多個資料集,所述多個資料集中的各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊;
第一處理單元,配置為利用循環神經網路處理所述資料集序列,獲得第一輸出結果;
統計資訊獲取單元,配置為獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;
第二處理單元,配置為利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;
評估單元,配置為根據所述第二輸出結果評估所述用戶的金融違約風險。
根據第三方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一方面的方法。
根據第四方面,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現第一方面的方法。
透過本說明書實施例提供的方法及裝置,採用了深度模型和廣度模型相結合的架構分析用戶的金融違約風險。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析,反映用戶的借貸狀態的變化。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。
根據第一方面,提供了一種評估金融違約風險的方法,包括:
獲取資料集序列,所述資料集序列包括對應於連續的多個第一時間段、且按照時間順序排列的多個資料集,所述多個資料集中的各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊;
利用循環神經網路處理所述資料集序列,獲得第一輸出結果;
獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;
利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;
根據所述第二輸出結果評估所述用戶的金融違約風險。
在一種可能的設計中,所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
進一步地,在一個實施例中,與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項,用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
在一個實施例中,所述方法還包括:對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
根據一個實施例,上述預處理還包括:在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量;將所述均值向量包含在預處理的商家資訊中。
在一個實施例中,上述預處理還包括:對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和;將所述商家向量和包含在預處理的商家資訊中。
根據一個實施例,所述多個資料集中的各個資料集還包括,用戶在對應的第一時間段內的信用資訊。
在一個實施例中,所述方法還包括,獲取所述用戶的屬性特徵資訊,所述利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果,包括:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
進一步地,在一個實施例中,所述全連接神經網路為多層全連接神經網路,其中將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路包括:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
根據一種可能的設計,所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
根據第二方面,提供了一種評估金融違約風險的裝置,包括:
資料集獲取單元,配置為獲取資料集序列,包括對應於連續的多個第一時間段、且按時間順序排列的多個資料集,所述多個資料集中的各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊;
第一處理單元,配置為利用循環神經網路處理所述資料集序列,獲得第一輸出結果;
統計資訊獲取單元,配置為獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;
第二處理單元,配置為利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;
評估單元,配置為根據所述第二輸出結果評估所述用戶的金融違約風險。
根據第三方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行第一方面的方法。
根據第四方面,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現第一方面的方法。
透過本說明書實施例提供的方法及裝置,採用了深度模型和廣度模型相結合的架構分析用戶的金融違約風險。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析,反映用戶的借貸狀態的變化。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。
下面結合附圖,對本說明書提供的方案進行描述。
圖1為本說明書披露的一個實施例的實施場景示意圖。如圖1所示,用戶有可能透過網路,進行多種與借貸相關的行為,例如向各種商家申請借款,還款,申請延期還款等。相應地,商家對應的伺服器可以記錄用戶的與借貸相關的行為記錄。例如,用戶透過支付寶下的“螞蟻借唄”申請了一筆借款,然後每月還款,這時可以認為商家即為支付寶平台,那麽在支付寶平台伺服器中會記錄用戶的該借貸行為。用戶還透過某電子借貸平台申請了一筆借款,那麽該借貸平台即為對應商家,並且該借貸平台的伺服器會記錄用戶的借貸行為。可以理解,取決於用戶進行借貸的商家,記錄用戶借貸行為的伺服器可以是集中的伺服器,也可以分散式伺服器,還可以是互相完全獨立的多個伺服器,在此不做限定。
為了對用戶的金融違約風險進行評估,各個借貸平台會將用戶的借貸行為資料經過整理之後提供給計算平台,由計算平台進行綜合分析,確定出用戶的違約風險。在說明書披露的實施例中,計算平台獲取各個借貸商家所提供的用戶行為相關資料之後,採用深度模型和廣度模型相結合的構架,利用機器學習和循環神經網路,對這些資料進行全面分析,從而對金融風險進行評估。上述計算平台可以是任何具有計算、處理能力的裝置、設備和系統,例如可以是伺服器,它既可以作為獨立的計算平台,也可以整合到記錄用戶借貸行為的某些伺服器中。更具體地,計算平台一方面獲取若干個短周期(例如1個月)的細粒度資料集,該細粒度資料集包括用戶的各種與借貸行為相關的金額資訊和商家資訊,利用循環神經網路處理這些資料集,得到中間處理結果。另一方面,計算平台還獲取用戶在長周期的粗粒度統計資訊作為廣度特徵,利用全連接的深度神經網路進一步處理這些統計資訊和以上得到的中間處理結果,從而進行最終的金融風險評估。下面描述計算平台評估金融違約風險的具體過程。
圖2示出根據一個實施例的評估金融違約風險的方法的流程圖。該方法流程的執行主體可以是任何具有計算、處理能力的裝置、設備和系統,例如圖1中的計算平台。如圖2所示,在該實施例中,評估金融違約風險的方法包括以下步驟:步驟21,獲取資料集序列,包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;所述多個資料集中的各個資料集包括,用戶的與借貸行為相關的金額資訊和商家資訊;步驟22,利用循環神經網路處理所述資料集序列,獲得第一輸出結果;步驟23,獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;步驟24,利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;以及步驟25,根據所述第二輸出結果評估所述用戶的金融違約風險。下面具體描述以上各個步驟的執行過程。
首先,在步驟21,獲取資料集序列,其包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;其中各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊。
在一個實施例中,上述第一時間段為相對較短的時間段,例如一周,半個月,一個月等。典型地,上述第一時間段為一個月。為了描述簡單,在本文中又將該第一時間段稱為短周期。針對這樣的短周期,可以獲取每個短周期內與用戶的借貸行為有關的細粒度的資訊,將這樣的資訊整理為一個資料集。具體地,針對每個短周期的細粒度資料集可以包括,對應短周期內與用戶的借貸行為有關的金額資訊和商家資訊。
在一個實施例中,上述金額資訊可以包括以下中的一項或多項:對應短周期內的新增借款金額、還款金額、訂單金額、應還金額、逾期金額、總結欠金額等。例如,在3月份,用戶在A借貸平台借款1萬元,約定每月還款2500元,分四期完成還款;在4月份,該用戶向A借貸平台還款2000元,同時還向B借貸平台借款5000元,約定每月還款1000元,分五期完成還款。那麽,3月份對應的金額資訊具體可以包括:新增借款金額1萬元,訂單金額1萬,總結欠1萬元;4月份對應的金額資訊具體可以包括:新增借款金額5000元,還款金額2000元,訂單金額15000元(1萬元+5000元),應還金額2500元,逾期金額500元,總結欠金額13000元(15000-2000元)。金額資訊還可以包含更多項的與借貸金額相關的資料。
此外,短周期對應的資料集還包括,對應時間段中用戶的與借貸行為相關的商家資訊。在一個實施例中,上述商家資訊包括,與用戶的借貸行為相關的商家ID。更具體地,與所述用戶的借貸行為相關的商家ID可以包括以下中的一項或多項:用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID等。例如,在一個例子中,用戶在3月份共向4個借貸平台A,B,C和D申請了借款,其中A,B,C平台同意了該用戶的借款請求並放款,而D平台拒絕了用戶的借款請求;在4月份,該用戶又向E平台申請借款並成功,同時,按照約定向A,B平台還款,而對於已經借款的C平台,未能按時還款。那麽針對該用戶,其3月份資料集中的商家資訊如下面的表1A所示,4月份的資料集中的商家資訊如表1B所示。
在一個實施例中,為了便於機器模型更好地處理商家資訊,對獲得的商家資訊進行預處理。在一個實施例中,上述預處理包括,透過詞嵌入模型(embedding模型)將以上的商家ID轉化為向量的形式,此處稱為ID向量。
可以理解,詞嵌入模型是自然語言處理(NLP)中用到的一種模型,用於將單個詞轉換為一個向量。在最簡單的模型中,為每個單詞構造一組特徵作為其對應向量。更進一步地,為了實現單詞之間的關係,例如類別關係,從屬關係,可以採用各種方式訓練語言模型,優化向量表達。例如,word2vec的工具中包含了多種詞嵌入的方法,能夠快速得到單詞的向量表達,並且向量表達能夠實現單詞之間的類比關係。例如,單詞“北京”與單詞“中國”的對應向量之間的關係,與單詞“巴黎”與單詞“法國”的對應向量之間的關係相一致,如此,透過詞向量實現對應的單詞之間的類別和類比關係。還存在一些其他的詞嵌入算法。
在商家資訊的預處理中,可以根據需要,選取適當的詞嵌入模型,將商家ID轉換為對應的ID向量。如此,得到預處理的商家資訊,在其中用不同的ID向量表示不同商家。例如,對於表1A和表1B所示的商家資訊,透過詞嵌入預處理,可以得到預處理後的商家資訊,如表2A和表2B所示。
在表2A和2B中,,,,和分別表示商家A,B,C,D,E對應的ID向量。如此,用向量的方式表徵各個商家的商家ID。
在一個實施例中,對以上ID向量進行進一步處理。具體地,在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量,作為預處理的商家資訊。例如,在某個資料集中,商家資訊包括,用戶向3個商家申請借款的行為,那麽可以計算這3個商家的ID向量的平均值,作為申請借款這一類型對應的均值向量。表3A示出對表2A進行進一步處理,獲取的各類型下的均值向量。
在表3A中,為ID向量,,,的平均值,為ID向量,,的平均值。如此,僅用一個向量表徵一個類別下的商家ID資訊。
在一個實施例中,在商家資訊預處理過程中,對以上的均值向量進行進一步處理。具體地,在同一資料集中,對用戶的不同類型的借貸行為中各個類型對應的均值向量求和,獲得商家向量和。如前所述,經過向量均值處理,已經將用戶的一個類型的借貸行為對應的商家ID處理為一個均值向量。進一步地,可以對不同類型借貸行為各自對應的均值向量進行求和,來獲得商家向量和,作為預處理的商家資訊。在一個例子中,將不同類型借貸行為中各個類型對應的均值向量簡單求和,從而獲得商家向量和。例如,對於表3A所示的商家資訊,可以簡單地將不同類型下的均值向量,即申請借款的商家ID的均值向量,借款成功的商家ID的均值向量,以及借款失敗的商家ID的均值向量,進行求和=++,獲得商家向量和。在另一個例子中,為各個類型的借貸行為賦予一定權重,對各個類型的借貸行為對應的均值向量進行加權求和。仍以表3A為例,假定申請借款對應的權重因子為w1,借款成功對應的權重因子為w2,借款失敗對應的權重因子為w3,那麽在該例子中,商家向量和可以計算為=。透過這樣的方式,用一個向量,即商家向量和,來綜合地表徵一個短周期內與用戶的借貸行為相關的商家資訊。如前所述,在詞嵌入過程中,較佳地使得轉化的ID向量能夠實現對應商家ID的類別關係。因此,對於商家ID的ID向量進行均值計算,以及進一步的求和計算,最終的結果能夠從總體上反映,用戶借貸行為相關的商家的平均特徵和綜合特徵。
以上描述了對資料集中商家資訊中的商家ID的處理。
在一個實施例中,商家資訊還可以包括,用戶的各類型借貸行為相關的商家數目。例如,基於表1A所示的3月份中各類型借貸行為對應的商家ID,可以確定出各借貸行為對應的商家數目,比如申請借款的商家數為4,借款成功的商家數為3,借款失敗的商家數為1。這些有關商家數目的資訊也可以包含在商家資訊中。
除了以上的金額資訊和商家資訊,對應於短周期的資料集還可以包含更多與借貸行為相關的資訊。例如,在一個實施例中,資料集中還可以包括與借貸行為相關的訂單數目資訊,比如借款訂單數目,還款訂單資料,履約訂單數目等。
在一個實施例中,各個資料集還包括,用戶在對應的時間段內的信用資訊。該信用資訊例如包括,芝麻信用分,第三方徵信機構提供的信用評分,以及借貸商家可能調用的其他信用相關特徵,例如交易活躍度、支付完成率等。
在更多實施例中,各個資料集還可以包括更多種細粒度的與用戶借貸行為相關的資料資訊。
對應於多個短周期的資料集可以構成一個具有先後時序的資料集序列。如前所述,在一個實施例中,上述資料集中的商家資訊可以經過預處理,轉化為不同層級的向量形式。這樣的資料集序列可以輸入到循環神經網路中進行處理。也就是,在步驟S22,利用循環神經網路處理多個資料集構成的資料集序列,獲得中間結果,或稱為第一輸出結果。
可以理解,循環神經網路(RNN, Recurrent Neural Networks)是一種時間遞歸神經網路,可用於處理序列資料。在RNN中,一個序列目前的輸出與其前面的輸出相關聯。具體的,RNN會對前面的資訊進行記憶並應用於目前輸出的計算中,即隱藏層之間的節點是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。也就是說,第t次的隱含層狀態可以表示為:
St=f(U∗Xt+W∗St−1)
其中,Xt為第t次輸入層的狀態,St-1為第t-1次隱含層狀態,f為計算函數,W,U為權重。如此,RNN將之前的狀態循環回目前輸入,考慮了歷史輸入的影響,因而適合於具有時序的資料序列。
在一個實施例中,在步驟22,採用多層RNN來處理上述資料集序列。
更進一步地,在一個實施例中,在RNN架構下,採用長短期記憶模型(LSTM,Long Short Term Memory)進行處理。
如前所述,在RNN中目前隱含層狀態依賴於之前的狀態輸出,因此在處理長期記憶的情况下,需要將目前的隱含態的計算與前n次的計算關聯,即St = f(U*Xt + W1*St-1 + W2*St-2 + … + Wn*St-n)。隨著n的增大,計算量呈指數式增長,導致模型訓練的時間大幅增加。為此,提出LSTM模型來解決長期依賴的問題。
在LSTM模型中,透過設置讓資訊選擇性通過的“遺忘門”來丟棄某些不再需要的資訊,如此對輸入的不必要的干擾資訊進行判斷和屏蔽,從而更好地對長期資料進行分析處理。
在一個實施例中,採用多層疊加的LSTM模型來處理多個資料集構成的資料集序列。
圖3示出根據一個實施例的循環神經網路的處理示意圖。在圖3的例子中,短周期採取一個月,從而可以獲取每個月對應的資料集,各個資料集中包括當月用戶的與借貸行為有關的資訊,包括金額資訊,商家資訊,訂單資訊等。這樣的連續6個月的資料集構成一個資料集序列。對於這樣的資料集序列,可選地,在一個例子中,在輸入層對各個資料集中的商家資訊進行預處理。預處理可以包括如上所述的ID向量化,求均值向量,求商家向量和中的至少一部分,還可以包括更多的預處理方式。圖中條形框中的每個圓圈示意性地對應資料集中的一項特徵。經過預處理的資料集序列被輸入到循環神經網路RNN進行處理。在圖3的例子中,循環神經網路包括多層疊加的LSTM模型,圖3示例中每一縱列的LSTM塊對應於一個月的資料集。經過多層RNN的處理,可以獲得中間處理結果。
除了如上所述獲得各個短周期內的細粒度借貸行為資料之外,另一方面,在步驟23,還獲取與用戶在第二時間段內的借貸行為相關的統計資訊,該第二時間段大於步驟21中的第一時間段。如果將第一時間段稱為短周期的話,在本文中對應地將第二時間段稱為長周期。一般地,長周期可以是短周期的若干倍數。例如,在短周期典型地為一個月的情况下,長周期可以是例如3個月,6個月,或12個月。相應地,在步驟23中,獲取用戶在3/6/12個月中與借貸行為相關的統計資訊。這樣的統計資訊可以包括,借款總金額,借款總次數,還款總金額等。相比於步驟21中獲得的資料集中的各種具體資訊,步驟23中的統計資訊是更加粗粒度的綜合資訊。
在此基礎上,在步驟24,將步驟22獲得的、循環神經網路輸出的中間結果,和步驟23獲得的長周期內粗粒度的統計資訊,共同輸入到全連接神經網路進行處理。
可以理解,在全連接神經網路中,每一個節點都與上一層的所有節點相連,用於把前邊提取到的所有特徵綜合起來。相應地,在步驟24,利用全連接神經網路,對輸入的統計資訊和中間結果進行全面關聯分析,從而提供全連接輸出,即第二輸出。
基於這樣的全連接輸出,在步驟25,可以確定用戶的金融違約風險。在一個實施例中,全連接神經網路對輸入資料進行分析處理後,可以輸出該用戶未來的金融違約概率。於是可以基於該金融違約概率確定用戶的金融違約風險。在另一實施例中,全連接神經網路可以輸出用戶的各類型行為的風險指數,例如借貸風險指數,透支風險指數,購買先享後付類服務的風險指數等等。在步驟25,可以根據需要,確定用戶的各類型行為的風險指數以及綜合金融違約風險。在又一實施例中,全連接神經網路可以輸出針對不同類型商家的風險指數。相應地,在步驟25,可以根據需要,確定針對不同商家的金融違約風險,以及綜合金融違約風險。可以理解,全連接神經網路的輸出結果的具體形式,取決於對全連接神經網路,以及循環神經網路的訓練過程。
在一個實施例中,為了更全面地對用戶進行評估,還獲取上述用戶的屬性特徵,例如年齡、性別、地域、職業、學歷等等。將用戶的屬性特徵,和上述的中間結果和統計資訊一起,共同輸入到全連接神經網路進行進一步處理。
圖4示出一個實施例中全連接神經網路的處理示意圖。在圖4的示意圖中,全連接神經網路的輸入包含3個部分,第一部分為圖3的循環神經網路所輸出的中間結果,第二部分為用戶長周期的統計資訊,第三部分為用戶的屬性特徵。在圖4的例子中,全連接神經網路是2層全連接網路,所有資料輸入到第一層,第一層的處理結果輸入到第二層,第二層的每一個節點都與第一層的所有節點相連。第二層輸出的結果可以用於評估用戶的金融違約風險。
圖5示出另一實施例中全連接神經網路的處理示意圖。在圖5的示意圖中,全連接神經網路為多層全連接神經網路,其中,圖3的循環神經網路輸出的中間結果與用戶的屬性特徵一起,輸入到多層全連接神經網路的第一層,而用戶的長周期的統計資訊輸入到該網路的最後一層。這是因為,用戶的屬性特徵相對比較泛化,需要與別的特徵結合做全連接。因此,將用戶的屬性特徵與中間結果一起輸入到網路的第一層。而用戶的統計資訊具有獨立而明確的特徵,直接將其輸入到最後一層,也就是最外層,更方便全連接神經網路的訓練和調整測試。
圖6示出根據一個實施例的網路模型結構示意圖。可以理解,圖6將圖3的循環神經網路與圖5的全連接神經網路結合在一起,示出了圖2方法中資料的總體處理結構。透過圖6可以看到,在該實施例的方法中,採用了深度模型和廣度模型相結合的架構。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析,充分利用用戶借貸行為中的時序特徵,反映用戶的借貸狀態的變化。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。並且,在深度模型分析中,輸入的資料集中包含商家資訊的特徵,從而在金融風險分析中引入了商家的風控能力和客群特徵,可以增加模型對風險的區分度。
根據另一方面的實施例,還提供一種評估金融違約風險的裝置。圖7示出根據一個實施例的評估裝置的示意方塊圖。如圖7所示,用於評估金融違約風險的裝置700包括:資料集獲取單元71,配置為獲取資料集序列,其包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;所述多個資料集中的各個資料集包括用戶的與借貸行為相關的金額資訊和商家資訊;第一處理單元72,配置為利用循環神經網路處理所述資料集序列,獲得第一輸出結果;統計資訊獲取單元73,配置為獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;第二處理單元74,配置為利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;評估單元75,配置為根據所述第二輸出結果評估所述用戶的金融違約風險。
在一個實施例中,所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
進一步地,在一個例子中,與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項:用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
在一個實施例中,裝置700還包括預處理單元711,配置為對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
進一步地,在一個實施例中,所述預處理單元711還配置為:在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量;將所述均值向量包含在預處理的商家資訊中。
更進一步地,在一個實施例中,所述預處理單元711還配置為:對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和;將所述商家向量和包含在預處理的商家資訊中。
根據一種實施方式,在一個實施例中,商家資訊還可以包括,用戶的各類型借貸行為相關的商家數目。
除了以上的金額資訊和商家資訊,在一個實施例中,以上資料集還可以包含與借貸行為相關的訂單數目資訊。在另一實施例中,以上資料集還包括用戶在對應的第一時間段內的信用資訊。
根據一個實施例,上述裝置700還包括屬性特徵獲取單元(未示出),配置為獲取所述用戶的屬性特徵資訊。相應地,第二處理單元74配置為:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
進一步地,在一個實施例中,所述第二處理單元74還配置為:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
根據一個實施例,所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
可以看到,以上的裝置700採用了深度模型和廣度模型相結合的方式,評估用戶的金融違約風險。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。並且,在深度模型分析中,輸入的資料集中包含商家資訊的特徵,從而在金融風險分析中引入了商家的風控能力和客群特徵,可以增加模型對風險的區分度。
根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2所描述的方法。
根據再一方面的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現結合圖2所述的方法。
本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
圖1為本說明書披露的一個實施例的實施場景示意圖。如圖1所示,用戶有可能透過網路,進行多種與借貸相關的行為,例如向各種商家申請借款,還款,申請延期還款等。相應地,商家對應的伺服器可以記錄用戶的與借貸相關的行為記錄。例如,用戶透過支付寶下的“螞蟻借唄”申請了一筆借款,然後每月還款,這時可以認為商家即為支付寶平台,那麽在支付寶平台伺服器中會記錄用戶的該借貸行為。用戶還透過某電子借貸平台申請了一筆借款,那麽該借貸平台即為對應商家,並且該借貸平台的伺服器會記錄用戶的借貸行為。可以理解,取決於用戶進行借貸的商家,記錄用戶借貸行為的伺服器可以是集中的伺服器,也可以分散式伺服器,還可以是互相完全獨立的多個伺服器,在此不做限定。
為了對用戶的金融違約風險進行評估,各個借貸平台會將用戶的借貸行為資料經過整理之後提供給計算平台,由計算平台進行綜合分析,確定出用戶的違約風險。在說明書披露的實施例中,計算平台獲取各個借貸商家所提供的用戶行為相關資料之後,採用深度模型和廣度模型相結合的構架,利用機器學習和循環神經網路,對這些資料進行全面分析,從而對金融風險進行評估。上述計算平台可以是任何具有計算、處理能力的裝置、設備和系統,例如可以是伺服器,它既可以作為獨立的計算平台,也可以整合到記錄用戶借貸行為的某些伺服器中。更具體地,計算平台一方面獲取若干個短周期(例如1個月)的細粒度資料集,該細粒度資料集包括用戶的各種與借貸行為相關的金額資訊和商家資訊,利用循環神經網路處理這些資料集,得到中間處理結果。另一方面,計算平台還獲取用戶在長周期的粗粒度統計資訊作為廣度特徵,利用全連接的深度神經網路進一步處理這些統計資訊和以上得到的中間處理結果,從而進行最終的金融風險評估。下面描述計算平台評估金融違約風險的具體過程。
圖2示出根據一個實施例的評估金融違約風險的方法的流程圖。該方法流程的執行主體可以是任何具有計算、處理能力的裝置、設備和系統,例如圖1中的計算平台。如圖2所示,在該實施例中,評估金融違約風險的方法包括以下步驟:步驟21,獲取資料集序列,包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;所述多個資料集中的各個資料集包括,用戶的與借貸行為相關的金額資訊和商家資訊;步驟22,利用循環神經網路處理所述資料集序列,獲得第一輸出結果;步驟23,獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;步驟24,利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;以及步驟25,根據所述第二輸出結果評估所述用戶的金融違約風險。下面具體描述以上各個步驟的執行過程。
首先,在步驟21,獲取資料集序列,其包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;其中各個資料集包括,對應的第一時間段中,用戶的與借貸行為相關的金額資訊和商家資訊。
在一個實施例中,上述第一時間段為相對較短的時間段,例如一周,半個月,一個月等。典型地,上述第一時間段為一個月。為了描述簡單,在本文中又將該第一時間段稱為短周期。針對這樣的短周期,可以獲取每個短周期內與用戶的借貸行為有關的細粒度的資訊,將這樣的資訊整理為一個資料集。具體地,針對每個短周期的細粒度資料集可以包括,對應短周期內與用戶的借貸行為有關的金額資訊和商家資訊。
在一個實施例中,上述金額資訊可以包括以下中的一項或多項:對應短周期內的新增借款金額、還款金額、訂單金額、應還金額、逾期金額、總結欠金額等。例如,在3月份,用戶在A借貸平台借款1萬元,約定每月還款2500元,分四期完成還款;在4月份,該用戶向A借貸平台還款2000元,同時還向B借貸平台借款5000元,約定每月還款1000元,分五期完成還款。那麽,3月份對應的金額資訊具體可以包括:新增借款金額1萬元,訂單金額1萬,總結欠1萬元;4月份對應的金額資訊具體可以包括:新增借款金額5000元,還款金額2000元,訂單金額15000元(1萬元+5000元),應還金額2500元,逾期金額500元,總結欠金額13000元(15000-2000元)。金額資訊還可以包含更多項的與借貸金額相關的資料。
此外,短周期對應的資料集還包括,對應時間段中用戶的與借貸行為相關的商家資訊。在一個實施例中,上述商家資訊包括,與用戶的借貸行為相關的商家ID。更具體地,與所述用戶的借貸行為相關的商家ID可以包括以下中的一項或多項:用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID等。例如,在一個例子中,用戶在3月份共向4個借貸平台A,B,C和D申請了借款,其中A,B,C平台同意了該用戶的借款請求並放款,而D平台拒絕了用戶的借款請求;在4月份,該用戶又向E平台申請借款並成功,同時,按照約定向A,B平台還款,而對於已經借款的C平台,未能按時還款。那麽針對該用戶,其3月份資料集中的商家資訊如下面的表1A所示,4月份的資料集中的商家資訊如表1B所示。
在一個實施例中,為了便於機器模型更好地處理商家資訊,對獲得的商家資訊進行預處理。在一個實施例中,上述預處理包括,透過詞嵌入模型(embedding模型)將以上的商家ID轉化為向量的形式,此處稱為ID向量。
可以理解,詞嵌入模型是自然語言處理(NLP)中用到的一種模型,用於將單個詞轉換為一個向量。在最簡單的模型中,為每個單詞構造一組特徵作為其對應向量。更進一步地,為了實現單詞之間的關係,例如類別關係,從屬關係,可以採用各種方式訓練語言模型,優化向量表達。例如,word2vec的工具中包含了多種詞嵌入的方法,能夠快速得到單詞的向量表達,並且向量表達能夠實現單詞之間的類比關係。例如,單詞“北京”與單詞“中國”的對應向量之間的關係,與單詞“巴黎”與單詞“法國”的對應向量之間的關係相一致,如此,透過詞向量實現對應的單詞之間的類別和類比關係。還存在一些其他的詞嵌入算法。
在商家資訊的預處理中,可以根據需要,選取適當的詞嵌入模型,將商家ID轉換為對應的ID向量。如此,得到預處理的商家資訊,在其中用不同的ID向量表示不同商家。例如,對於表1A和表1B所示的商家資訊,透過詞嵌入預處理,可以得到預處理後的商家資訊,如表2A和表2B所示。
在表2A和2B中,,,,和分別表示商家A,B,C,D,E對應的ID向量。如此,用向量的方式表徵各個商家的商家ID。
在一個實施例中,對以上ID向量進行進一步處理。具體地,在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量,作為預處理的商家資訊。例如,在某個資料集中,商家資訊包括,用戶向3個商家申請借款的行為,那麽可以計算這3個商家的ID向量的平均值,作為申請借款這一類型對應的均值向量。表3A示出對表2A進行進一步處理,獲取的各類型下的均值向量。
在表3A中,為ID向量,,,的平均值,為ID向量,,的平均值。如此,僅用一個向量表徵一個類別下的商家ID資訊。
在一個實施例中,在商家資訊預處理過程中,對以上的均值向量進行進一步處理。具體地,在同一資料集中,對用戶的不同類型的借貸行為中各個類型對應的均值向量求和,獲得商家向量和。如前所述,經過向量均值處理,已經將用戶的一個類型的借貸行為對應的商家ID處理為一個均值向量。進一步地,可以對不同類型借貸行為各自對應的均值向量進行求和,來獲得商家向量和,作為預處理的商家資訊。在一個例子中,將不同類型借貸行為中各個類型對應的均值向量簡單求和,從而獲得商家向量和。例如,對於表3A所示的商家資訊,可以簡單地將不同類型下的均值向量,即申請借款的商家ID的均值向量,借款成功的商家ID的均值向量,以及借款失敗的商家ID的均值向量,進行求和=++,獲得商家向量和。在另一個例子中,為各個類型的借貸行為賦予一定權重,對各個類型的借貸行為對應的均值向量進行加權求和。仍以表3A為例,假定申請借款對應的權重因子為w1,借款成功對應的權重因子為w2,借款失敗對應的權重因子為w3,那麽在該例子中,商家向量和可以計算為=。透過這樣的方式,用一個向量,即商家向量和,來綜合地表徵一個短周期內與用戶的借貸行為相關的商家資訊。如前所述,在詞嵌入過程中,較佳地使得轉化的ID向量能夠實現對應商家ID的類別關係。因此,對於商家ID的ID向量進行均值計算,以及進一步的求和計算,最終的結果能夠從總體上反映,用戶借貸行為相關的商家的平均特徵和綜合特徵。
以上描述了對資料集中商家資訊中的商家ID的處理。
在一個實施例中,商家資訊還可以包括,用戶的各類型借貸行為相關的商家數目。例如,基於表1A所示的3月份中各類型借貸行為對應的商家ID,可以確定出各借貸行為對應的商家數目,比如申請借款的商家數為4,借款成功的商家數為3,借款失敗的商家數為1。這些有關商家數目的資訊也可以包含在商家資訊中。
除了以上的金額資訊和商家資訊,對應於短周期的資料集還可以包含更多與借貸行為相關的資訊。例如,在一個實施例中,資料集中還可以包括與借貸行為相關的訂單數目資訊,比如借款訂單數目,還款訂單資料,履約訂單數目等。
在一個實施例中,各個資料集還包括,用戶在對應的時間段內的信用資訊。該信用資訊例如包括,芝麻信用分,第三方徵信機構提供的信用評分,以及借貸商家可能調用的其他信用相關特徵,例如交易活躍度、支付完成率等。
在更多實施例中,各個資料集還可以包括更多種細粒度的與用戶借貸行為相關的資料資訊。
對應於多個短周期的資料集可以構成一個具有先後時序的資料集序列。如前所述,在一個實施例中,上述資料集中的商家資訊可以經過預處理,轉化為不同層級的向量形式。這樣的資料集序列可以輸入到循環神經網路中進行處理。也就是,在步驟S22,利用循環神經網路處理多個資料集構成的資料集序列,獲得中間結果,或稱為第一輸出結果。
可以理解,循環神經網路(RNN, Recurrent Neural Networks)是一種時間遞歸神經網路,可用於處理序列資料。在RNN中,一個序列目前的輸出與其前面的輸出相關聯。具體的,RNN會對前面的資訊進行記憶並應用於目前輸出的計算中,即隱藏層之間的節點是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。也就是說,第t次的隱含層狀態可以表示為:
St=f(U∗Xt+W∗St−1)
其中,Xt為第t次輸入層的狀態,St-1為第t-1次隱含層狀態,f為計算函數,W,U為權重。如此,RNN將之前的狀態循環回目前輸入,考慮了歷史輸入的影響,因而適合於具有時序的資料序列。
在一個實施例中,在步驟22,採用多層RNN來處理上述資料集序列。
更進一步地,在一個實施例中,在RNN架構下,採用長短期記憶模型(LSTM,Long Short Term Memory)進行處理。
如前所述,在RNN中目前隱含層狀態依賴於之前的狀態輸出,因此在處理長期記憶的情况下,需要將目前的隱含態的計算與前n次的計算關聯,即St = f(U*Xt + W1*St-1 + W2*St-2 + … + Wn*St-n)。隨著n的增大,計算量呈指數式增長,導致模型訓練的時間大幅增加。為此,提出LSTM模型來解決長期依賴的問題。
在LSTM模型中,透過設置讓資訊選擇性通過的“遺忘門”來丟棄某些不再需要的資訊,如此對輸入的不必要的干擾資訊進行判斷和屏蔽,從而更好地對長期資料進行分析處理。
在一個實施例中,採用多層疊加的LSTM模型來處理多個資料集構成的資料集序列。
圖3示出根據一個實施例的循環神經網路的處理示意圖。在圖3的例子中,短周期採取一個月,從而可以獲取每個月對應的資料集,各個資料集中包括當月用戶的與借貸行為有關的資訊,包括金額資訊,商家資訊,訂單資訊等。這樣的連續6個月的資料集構成一個資料集序列。對於這樣的資料集序列,可選地,在一個例子中,在輸入層對各個資料集中的商家資訊進行預處理。預處理可以包括如上所述的ID向量化,求均值向量,求商家向量和中的至少一部分,還可以包括更多的預處理方式。圖中條形框中的每個圓圈示意性地對應資料集中的一項特徵。經過預處理的資料集序列被輸入到循環神經網路RNN進行處理。在圖3的例子中,循環神經網路包括多層疊加的LSTM模型,圖3示例中每一縱列的LSTM塊對應於一個月的資料集。經過多層RNN的處理,可以獲得中間處理結果。
除了如上所述獲得各個短周期內的細粒度借貸行為資料之外,另一方面,在步驟23,還獲取與用戶在第二時間段內的借貸行為相關的統計資訊,該第二時間段大於步驟21中的第一時間段。如果將第一時間段稱為短周期的話,在本文中對應地將第二時間段稱為長周期。一般地,長周期可以是短周期的若干倍數。例如,在短周期典型地為一個月的情况下,長周期可以是例如3個月,6個月,或12個月。相應地,在步驟23中,獲取用戶在3/6/12個月中與借貸行為相關的統計資訊。這樣的統計資訊可以包括,借款總金額,借款總次數,還款總金額等。相比於步驟21中獲得的資料集中的各種具體資訊,步驟23中的統計資訊是更加粗粒度的綜合資訊。
在此基礎上,在步驟24,將步驟22獲得的、循環神經網路輸出的中間結果,和步驟23獲得的長周期內粗粒度的統計資訊,共同輸入到全連接神經網路進行處理。
可以理解,在全連接神經網路中,每一個節點都與上一層的所有節點相連,用於把前邊提取到的所有特徵綜合起來。相應地,在步驟24,利用全連接神經網路,對輸入的統計資訊和中間結果進行全面關聯分析,從而提供全連接輸出,即第二輸出。
基於這樣的全連接輸出,在步驟25,可以確定用戶的金融違約風險。在一個實施例中,全連接神經網路對輸入資料進行分析處理後,可以輸出該用戶未來的金融違約概率。於是可以基於該金融違約概率確定用戶的金融違約風險。在另一實施例中,全連接神經網路可以輸出用戶的各類型行為的風險指數,例如借貸風險指數,透支風險指數,購買先享後付類服務的風險指數等等。在步驟25,可以根據需要,確定用戶的各類型行為的風險指數以及綜合金融違約風險。在又一實施例中,全連接神經網路可以輸出針對不同類型商家的風險指數。相應地,在步驟25,可以根據需要,確定針對不同商家的金融違約風險,以及綜合金融違約風險。可以理解,全連接神經網路的輸出結果的具體形式,取決於對全連接神經網路,以及循環神經網路的訓練過程。
在一個實施例中,為了更全面地對用戶進行評估,還獲取上述用戶的屬性特徵,例如年齡、性別、地域、職業、學歷等等。將用戶的屬性特徵,和上述的中間結果和統計資訊一起,共同輸入到全連接神經網路進行進一步處理。
圖4示出一個實施例中全連接神經網路的處理示意圖。在圖4的示意圖中,全連接神經網路的輸入包含3個部分,第一部分為圖3的循環神經網路所輸出的中間結果,第二部分為用戶長周期的統計資訊,第三部分為用戶的屬性特徵。在圖4的例子中,全連接神經網路是2層全連接網路,所有資料輸入到第一層,第一層的處理結果輸入到第二層,第二層的每一個節點都與第一層的所有節點相連。第二層輸出的結果可以用於評估用戶的金融違約風險。
圖5示出另一實施例中全連接神經網路的處理示意圖。在圖5的示意圖中,全連接神經網路為多層全連接神經網路,其中,圖3的循環神經網路輸出的中間結果與用戶的屬性特徵一起,輸入到多層全連接神經網路的第一層,而用戶的長周期的統計資訊輸入到該網路的最後一層。這是因為,用戶的屬性特徵相對比較泛化,需要與別的特徵結合做全連接。因此,將用戶的屬性特徵與中間結果一起輸入到網路的第一層。而用戶的統計資訊具有獨立而明確的特徵,直接將其輸入到最後一層,也就是最外層,更方便全連接神經網路的訓練和調整測試。
圖6示出根據一個實施例的網路模型結構示意圖。可以理解,圖6將圖3的循環神經網路與圖5的全連接神經網路結合在一起,示出了圖2方法中資料的總體處理結構。透過圖6可以看到,在該實施例的方法中,採用了深度模型和廣度模型相結合的架構。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析,充分利用用戶借貸行為中的時序特徵,反映用戶的借貸狀態的變化。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。並且,在深度模型分析中,輸入的資料集中包含商家資訊的特徵,從而在金融風險分析中引入了商家的風控能力和客群特徵,可以增加模型對風險的區分度。
根據另一方面的實施例,還提供一種評估金融違約風險的裝置。圖7示出根據一個實施例的評估裝置的示意方塊圖。如圖7所示,用於評估金融違約風險的裝置700包括:資料集獲取單元71,配置為獲取資料集序列,其包括按時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;所述多個資料集中的各個資料集包括用戶的與借貸行為相關的金額資訊和商家資訊;第一處理單元72,配置為利用循環神經網路處理所述資料集序列,獲得第一輸出結果;統計資訊獲取單元73,配置為獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段;第二處理單元74,配置為利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;評估單元75,配置為根據所述第二輸出結果評估所述用戶的金融違約風險。
在一個實施例中,所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
進一步地,在一個例子中,與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項:用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
在一個實施例中,裝置700還包括預處理單元711,配置為對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
進一步地,在一個實施例中,所述預處理單元711還配置為:在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量;將所述均值向量包含在預處理的商家資訊中。
更進一步地,在一個實施例中,所述預處理單元711還配置為:對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和;將所述商家向量和包含在預處理的商家資訊中。
根據一種實施方式,在一個實施例中,商家資訊還可以包括,用戶的各類型借貸行為相關的商家數目。
除了以上的金額資訊和商家資訊,在一個實施例中,以上資料集還可以包含與借貸行為相關的訂單數目資訊。在另一實施例中,以上資料集還包括用戶在對應的第一時間段內的信用資訊。
根據一個實施例,上述裝置700還包括屬性特徵獲取單元(未示出),配置為獲取所述用戶的屬性特徵資訊。相應地,第二處理單元74配置為:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
進一步地,在一個實施例中,所述第二處理單元74還配置為:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
根據一個實施例,所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
可以看到,以上的裝置700採用了深度模型和廣度模型相結合的方式,評估用戶的金融違約風險。具體地,採用循環神經網路作為深度模型,對用戶的多個短周期中細粒度的資料集進行深度分析。廣度模型基於用戶長周期的統計特徵,獲取用戶更為宏觀的統計資訊,與深度模型的分析結果進行全連接,進而全面分析用戶的金融違約風險。並且,在深度模型分析中,輸入的資料集中包含商家資訊的特徵,從而在金融風險分析中引入了商家的風控能力和客群特徵,可以增加模型對風險的區分度。
根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行結合圖2所描述的方法。
根據再一方面的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現結合圖2所述的方法。
本領域技術人員應該可以意識到,在上述一個或多個示例中,本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本發明的保護範圍之內。
21‧‧‧步驟
22‧‧‧步驟
23‧‧‧步驟
24‧‧‧步驟
25‧‧‧步驟
71‧‧‧資料集獲取單元
711‧‧‧預處理單元
72‧‧‧第一理單元
73‧‧‧統計資訊獲取單元
74‧‧‧第二處理單元
75‧‧‧評估單元
700‧‧‧評估金融違約風險的裝置
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。
圖1為本說明書披露的一個實施例的實施場景示意圖;
圖2示出根據一個實施例的評估金融違約風險的方法的流程圖;
圖3示出根據一個實施例的循環神經網路的處理示意圖;
圖4示出一個實施例中全連接神經網路的處理示意圖;
圖5示出另一實施例中全連接神經網路的處理示意圖;
圖6示出根據一個實施例的網路模型結構示意圖;
圖7示出根據一個實施例的評估裝置的示意方塊圖。
Claims (22)
- 一種評估金融違約風險的方法,包括: 獲取資料集序列,所述資料集序列包括按照時間順序排列的多個資料集,各資料集分別對應預設的第一時間段;所述多個資料集中的各個資料集包括用戶的與借貸行為相關的金額資訊和商家資訊; 利用循環神經網路處理所述資料集序列,獲得第一輸出結果; 獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段; 利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;及 根據所述第二輸出結果評估所述用戶的金融違約風險。
- 根據申請專利範圍第1項所述的方法,其中所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
- 根據申請專利範圍第2項所述的方法,其中與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項,用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
- 根據申請專利範圍第2項所述的方法,還包括:對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
- 根據申請專利範圍第4項所述的方法,其中所述預處理還包括: 在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量; 將所述均值向量包含在預處理的商家資訊中。
- 根據申請專利範圍第5項所述的方法,其中所述預處理還包括: 對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和; 將所述商家向量和包含在預處理的商家資訊中。
- 根據申請專利範圍第1項所述的方法,其中所述多個資料集中的各個資料集還包括,用戶在對應的第一時間段內的信用資訊。
- 根據申請專利範圍第1項所述的方法,還包括,獲取所述用戶的屬性特徵資訊,所述利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果,包括:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
- 根據申請專利範圍第8項所述的方法,其中所述全連接神經網路為多層全連接神經網路,其中將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路包括:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
- 根據申請專利範圍第1-9項中任一項所述的方法,其中所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
- 一種評估金融違約風險的裝置,包括: 資料集獲取單元,配置為獲取資料集序列,所述資料集序列包括按照時間順序排列的多個資料集,各資料集分別對應預設的第一時間段,所述多個資料集中的各個資料集包括,用戶的與借貸行為相關的金額資訊和商家資訊; 第一處理單元,配置為利用循環神經網路處理所述資料集序列,獲得第一輸出結果; 統計資訊獲取單元,配置為獲取與所述用戶在第二時間段內的借貸行為相關的統計資訊,所述第二時間段大於所述第一時間段; 第二處理單元,配置為利用全連接神經網路處理所述第一輸出結果和所述統計資訊,獲得第二輸出結果;及 評估單元,配置為根據所述第二輸出結果評估所述用戶的金融違約風險。
- 根據申請專利範圍第11項所述的裝置,其中所述商家資訊包括,與所述用戶的借貸行為相關的商家ID。
- 根據申請專利範圍第12項所述的裝置,其中與所述用戶的借貸行為相關的商家ID包括以下中的一項或多項,用戶申請借款的商家ID,用戶借款成功的商家ID,用戶借款失敗的商家ID,用戶履約的商家ID,用戶違約的商家ID。
- 根據申請專利範圍第12項所述的裝置,還包括預處理單元,配置為對所述商家資訊進行預處理,所述預處理包括:透過詞嵌入模型將所述商家ID轉化為ID向量。
- 根據申請專利範圍第14項所述的裝置,其中所述預處理單元還配置為: 在同一資料集中,對所述用戶的同類型借貸行為所針對的商家ID的ID向量求平均,獲得各類型對應的均值向量; 將所述均值向量包含在預處理的商家資訊中。
- 根據申請專利範圍第15項所述的裝置,其中所述預處理單元還配置為: 對所述用戶的不同類型的借貸行為中各個類型對應的所述均值向量求和,獲得商家向量和; 將所述商家向量和包含在預處理的商家資訊中。
- 根據申請專利範圍第11項所述的裝置,其中所述多個資料集中的各個資料集還包括,用戶在對應的第一時間段內的信用資訊。
- 根據申請專利範圍第11項所述的裝置,還包括,屬性特徵獲取單元,配置為獲取所述用戶的屬性特徵資訊,所述第二處理單元配置為:將所述第一輸出結果、所述統計資訊和所述屬性特徵資訊輸入所述全連接神經網路,獲得第二輸出結果。
- 根據申請專利範圍第18項所述的裝置,其中所述第二處理單元配置為:將所述第一輸出結果和所述屬性特徵資訊輸入所述多層全連接神經網路的第一層,將所述統計資訊輸入所述全連接神經網路的最後一層。
- 根據申請專利範圍第11-19項中任一項所述的裝置,其中所述循環神經網路包括多層疊加的長短期記憶模型(LSTM)。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行申請專利範圍第1-10項中任一項的所述的方法。
- 一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行碼,所述處理器執行所述可執行碼時,實現申請專利範圍第1-10項中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201810050531.X | 2018-01-18 | ||
CN201810050531.XA CN108416663A (zh) | 2018-01-18 | 2018-01-18 | 评估金融违约风险的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201933260A true TW201933260A (zh) | 2019-08-16 |
Family
ID=63126182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107144310A TW201933260A (zh) | 2018-01-18 | 2018-12-10 | 評估金融違約風險的方法及裝置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108416663A (zh) |
TW (1) | TW201933260A (zh) |
WO (1) | WO2019141125A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI752486B (zh) * | 2019-10-31 | 2022-01-11 | 大陸商支付寶(杭州)信息技術有限公司 | 訓練方法、特徵提取方法、裝置及電子設備 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416663A (zh) * | 2018-01-18 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 评估金融违约风险的方法及装置 |
CN109615454A (zh) * | 2018-10-30 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定用户金融违约风险的方法及装置 |
CN109711848A (zh) * | 2018-12-28 | 2019-05-03 | 武汉金融资产交易所有限公司 | 一种金融交易的匹配系统及其构建方法、匹配方法 |
CN111723200B (zh) * | 2019-03-20 | 2024-08-20 | 京东科技控股股份有限公司 | 一种确定用户行为特征的方法及系统 |
CN111191677B (zh) * | 2019-12-11 | 2023-09-26 | 北京淇瑀信息科技有限公司 | 用户特征数据生成方法、装置及电子设备 |
CN112184431A (zh) * | 2020-11-09 | 2021-01-05 | 上海优扬新媒信息技术有限公司 | 用户风险确定方法和装置 |
CN113191871B (zh) * | 2021-02-25 | 2024-01-16 | 华夏方圆信用评估有限公司 | 智能信用交易履约监控方法及系统 |
CN113159915B (zh) * | 2021-02-25 | 2023-12-01 | 华夏方圆信用评估有限公司 | 基于大数据的智能金融信用动态评估方法及系统 |
CN112801563B (zh) * | 2021-04-14 | 2021-08-17 | 支付宝(杭州)信息技术有限公司 | 风险评估方法和装置 |
CN113516548A (zh) * | 2021-05-14 | 2021-10-19 | 牛少侠科技(山西)有限公司 | 一种基于区块链的金融借贷方法及系统 |
CN113283583B (zh) * | 2021-05-18 | 2024-09-06 | 广州致景信息科技有限公司 | 纺织行业违约率预测方法、装置、存储介质及处理器 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153977A (zh) * | 2016-03-02 | 2017-09-12 | 阿里巴巴集团控股有限公司 | 网上交易平台中交易实体信用评估方法、装置及系统 |
CN107316198B (zh) * | 2016-04-26 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 账户风险识别方法及装置 |
CN107424070A (zh) * | 2017-03-29 | 2017-12-01 | 广州汇融易互联网金融信息服务有限公司 | 一种基于机器学习的贷款用户信用评级方法及系统 |
CN108416663A (zh) * | 2018-01-18 | 2018-08-17 | 阿里巴巴集团控股有限公司 | 评估金融违约风险的方法及装置 |
-
2018
- 2018-01-18 CN CN201810050531.XA patent/CN108416663A/zh active Pending
- 2018-12-10 TW TW107144310A patent/TW201933260A/zh unknown
-
2019
- 2019-01-10 WO PCT/CN2019/071088 patent/WO2019141125A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI752486B (zh) * | 2019-10-31 | 2022-01-11 | 大陸商支付寶(杭州)信息技術有限公司 | 訓練方法、特徵提取方法、裝置及電子設備 |
Also Published As
Publication number | Publication date |
---|---|
CN108416663A (zh) | 2018-08-17 |
WO2019141125A1 (zh) | 2019-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019141125A1 (zh) | 评估金融违约风险的方法及装置 | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
US8108301B2 (en) | Application processing and decision systems and processes | |
KR101277385B1 (ko) | 트랜잭션을 해결하는 시스템 및 방법 | |
US10891631B2 (en) | Framework for generating risk evaluation models | |
US20160155195A1 (en) | System for resolving transactions employing automated offer optimization | |
US11909749B2 (en) | Fraud detection based on analysis of frequency-domain data | |
US11276071B2 (en) | Unified artificial intelligence model for multiple customer value variable prediction | |
WO2021159735A1 (zh) | 信贷风险评估方法、装置、计算机设备及存储介质 | |
US10417379B2 (en) | Health lending system and method using probabilistic graph models | |
US11588762B1 (en) | Simulation-based virtual advisor | |
WO2021139525A1 (zh) | 评估交互事件的自编码器的训练方法及装置 | |
Ntwiga | Social network analysis for credit risk modeling | |
CN110473039A (zh) | 评估用户的信用风险的方法及装置 | |
US20130179255A1 (en) | Building and using an intelligent logical model of effectiveness of marketing actions | |
US11188917B2 (en) | Systems and methods for compressing behavior data using semi-parametric or non-parametric models | |
US20240095457A1 (en) | Systems and methods for generating dynamic conversational responses based on predicted user intents using artificial intelligence models | |
US20230334378A1 (en) | Feature evaluations for machine learning models | |
US20230289633A1 (en) | Global explainable artificial intelligence | |
US12101381B2 (en) | System for generating a user interaction timeline | |
US12100017B2 (en) | Unified artificial intelligence model for multiple customer value variable prediction | |
US20230206320A1 (en) | Method and system for generating a financial infographic of a user through a financing platform | |
US20230032963A1 (en) | Method and system for validating financial events and security events | |
US11909830B2 (en) | System and method for generating a client interaction timeline | |
Prabha | Bank offered rate based on Artificial Intelligence |