為了更好地理解上述技術方案,下面透過圖式以及具體實施例對本說明書實施例的技術方案做詳細說明,應當理解本說明書實施例以及實施例中的具體特徵是對本說明書實施例技術方案的詳細說明,而不是對本說明書技術方案的限定。在不衝突的情況下,本說明書實施例以及實施例中的技術特徵可以相互組合。
實施例一
本說明書實施例一提供一種風險識別方法。所述風險識別方法可用於案件分析,如遊戲類案件、電信類案件等,也可以用於安全教育中,以提高相關人員的風險識別能力,或者產生風險防控策略,用於風控引擎中。以下對所述風險識別方法進行詳細描述。
請參見圖1,圖1為本說明書實施例的一種風險識別方法的方法流程圖。所述風險識別方法包括以下步驟:
步驟110,獲得多個風險事件樣本,並產生每個所述風險事件樣本的個案畫像,所述個案畫像包括案件描述資訊。風險事件樣本是從已經定性為案件中獲得的,可以是從已經定性的案件中挑選的典型案件,也可以是從案件中隨機挑選出來的;還可以是已經定性案件的所有案件。
在本實施例中,對風險事件樣本的具體選擇方式不做限定,可以根據需求進行風險事件樣本的選擇。在獲得多個風險事件樣本後,產生每個風險事件樣本的個案畫像。個案畫像用於為每個風險事件的描述資訊,以便於能夠進行每個風險事件的描述資訊的快速獲取。
所述案件描述資訊可以為用戶資訊、風險主體相關資訊、資金往來資訊、案情描述資訊等中的一種或者多種。用戶資訊可以包括姓名、性別、年齡、帳號等相關資訊。風險主體是執行風險行為的主體,所述風險主體相關資訊包括風險主體的ID如姓名或帳號或身分證號等、風險主體的即時通訊應用帳號如QQ、微信等、風險主體的支付應用帳號如支付寶帳號等、風險主體的銀行卡資訊、風險主體的設備號、風險主體的IP位址等中的一種或者多種。
資金往來資訊包括轉帳金額、轉帳方式等資訊,案情描述資訊包括風險行為資訊、案件起因、過程、結果等資訊。風險行為資訊即風險主體的行為,如開通花唄消費、開通借唄借錢、更換綁定的手機號碼、更換綁定的電子郵箱號碼、更改密碼、支付位置變化、變更收貨位址、購買特定商品中的一種或者多種。開通花唄消費、開通借唄借錢等,其中,花唄和借唄均為一種借貸工具,包括用戶的資訊,用戶可以透過該工具進行借貸。購買特定商品,如購買以前未曾購買過的類別的商品,反覆購買同一種商品等。
在本實施方式中,所述個案畫像還包括定性原因,即將該事件確定為風險事件的過程及原因。其中,所述定性原因是透過對判別模型進行reason code的解析而得,具體地,所述定性原因的獲得方法,具體為:
採用可解釋性演算法,從所述案情描述資訊中獲得多個風險事件定性變量及排序;基於多個風險事件定性變量的排序,獲得定性原因。
可解釋性演算法,這裡可以採用tree based learning (集成樹演算法)演算法或SHAP(SHapley Additive exPlanations)演算法。針對經典機器學習演算法,如GBDT、XGBOOST演算法,我們採用採用tree based learning(集成樹演算法)的方法給出多個案件定性變量的排序,根據排序結果獲得定性原因;針對深度學習演算法,採用SHAP(SHapley Additive exPlanations)演算法來給出每個打分變量的重要性排序,根據排序結果獲得定性原因。比如說:某個事件裡面因為雙方無可信關係、歷史沒有交易而被定性為風險事件。
在其它實施方式中,所述個案畫像還可以包括:定性處理(如確定為風險事件)、事中識別(如交易uct策略未稽核)等,事中識別(即實時識別,如對每筆進來的交易進行風險判斷)等。
本說明書實施例以一遊戲類案件為例進行個案畫像的說明,如圖2所示,所述個案畫像包括定性處理、用戶、風險主體、資金往來、事中識別、案情描述、以及定性原因。在該示例中,因為雙方(用戶和風險主體)無可信關係、而且歷史沒有交易而被定性為風險事件。
產生個案畫像之後,進入步驟120。
步驟120,基於每個風險事件樣本的案件行為資訊,對多個所述風險事件樣本進行聚類處理,獲得多個風險行為類別。
在對風險事件樣本進行聚類時,可以根據案件描述資訊所包括一種或者多種資訊對風險事件樣本進行聚類,從而獲得多個風險事件類別。
在本實施方式中,主要根據風險行為資訊對風險事件樣本進行聚類,以下進行詳細說明。
聚類處理是對樣本進行聚類演算法的處理,聚類演算法是對事物自動歸類的一類演算法,聚類演算法是一種典型的無監督的學習演算法,在聚類演算法中透過定義不同的相似性的度量方法,將具有相似屬性的事物聚集到同一個類中。聚類演算法是以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。
風險事件類別表示每個風險事件樣本的類別,如可將風險事件類別設置為1、2、3或,a、b、c均可,由於本發明採用的是無監督演算法—聚類演算法,沒有標記樣本,因此,這個風險事件類別只是一個類別標記,並不表示任何該類別的特徵資訊。
在對所有的風險事件樣本進行聚類處理後,將所有的風險事件樣本分為多個風險事件類別,定義出多個風險事件類別的id,如風險行為1、風險行為2、風險行為3等,其中風險行為1、風險行為2、風險行為3即為風險事件類別,每個類的風險事件樣本的風險事件類別相同,即透過聚類將相同或者相近似的聚為同一類,設置為類別資訊相同,該類的所有風險事件樣本的風險行為資訊相同或者相近似。
以下舉例對基於風險行為資訊對風險事件樣本進行的聚類處理進行說明,假設風險事件樣本的數目為5個(編號分別為1~5),基於風險行為資訊對風險事件樣本進行聚類處理,獲得2個風險行為的風險事件類別,如表1所示。
表1 基於風險行為資訊的聚類處理示意表
樣本 | 風險行為資訊 | 聚類結果 |
樣本1 | 改密碼、換綁手機 | 風險行為1 |
樣本2 | 開通借唄借錢 | 風險行為2 |
樣本3 | 改密碼、換綁電子郵箱 | 風險行為1 |
樣本4 | 開通花唄消費 | 風險行為2 |
樣本5 | 開通花唄消費 | 風險行為2 |
在5個風險事件樣本中,由於風險事件樣本1、風險事件樣本3的風險行為相近似,都是改密碼、換綁手機、換綁電子郵箱,則將風險事件樣本1和風險事件樣本3聚類為風險行為1的風險事件類別;而風險事件樣本2、風險事件樣本4和風險事件樣本5的風險行為相近似,都是透過開通借唄借錢、開通花唄消費,則將風險事件樣本2、風險事件樣本4和風險事件樣本5聚類為風險行為2的風險事件類別。即,基於風險行為資訊,將5個樣本聚為兩個風險事件類別,風險行為1的風險事件類別和風險行為2的風險事件類別。
具體地,基於風險行為的具體聚類演算法過程如下:
具體地,所述基於每個風險事件樣本的風險行為資訊,對多個所述風險事件樣本進行聚類處理,獲得多個風險事件類別,包括:
基於每個所述風險事件樣本的風險行為資訊,產生序列資料,透過node2vec的方法構建圖向量,獲得第一聚類特徵,以及透過word2vec的方法構建圖向量,獲得第二聚類特徵;將預設的結構化向量特徵與所述第一聚類特徵、以及所述第二聚類特徵結合,獲得結構化資料;採用聚類演算法對所述結構化資料進行聚類處理,獲得多個風險事件類別。
具體地,第一聚類特徵為Xi(i=1,…,n,n為大於1的整數,i為正整數),第二聚類特徵為Xj(j=n+1,…,m,j為大於n小於等於m的整數,m為大於n的整數),預設的結構化向量特徵為Xk(k=m+1,…,l,k為大於m小於等於l的整數,l為大於m的整數)。預設的結構化向量特徵為開發人員根據業務經驗設定的,也叫經驗變量,或者經驗特徵,透過設置這個預設的結構化向量特徵,是的聚類結果與真實結果更相近。在獲得Xi、Xj、Xk後,透過將Xi、Xj、Xk按照列拼接,即可獲得基於風險行為資訊對風險事件樣本進行聚類的結果。
在對風險事件樣本進行聚類處理,獲得風險行為類別後,進入步驟130。
步驟130,根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,所述每個風險行為類別的模式資訊包括:與每個風險行為資訊對應的一個以上的風險行為特徵以及每個所述風險行為特徵的權重。
在獲得基於風險行為資訊對風險事件樣本進行聚類處理,獲得風險行為類別的結果後,進入步驟130,基於每個風險行為類別產生模式資訊。
在獲得每個風險行為類別後,分析該類別風險事件樣本的具體風險行為資訊,風險行為資訊具體可以透過提取關鍵字或者透過AI(人工智慧),即可產生該風險事件類別的風險事件樣本的風險行為資訊,也可以基於該風險事件類別中的風險事件樣本的個案畫像,直接獲得該類別的風險事件樣本的風險行為資訊。
每個模式資訊對應一個風險行為件類別,也就是說,一個風險行為件類別只有一個模式資訊。每個模式資訊所包含的風險行為特徵的數量是根據該風險行為件類別的風險行為件樣本所包含的風險行為資訊確定的。每個模式資訊中與每種風險行為對應的風險行為特徵可以為一個,也可以為多個。每個所述風險行為特徵的權重是根據該風險行為特徵的重要性確定的,重要的風險行為特徵權重高,次要的風險行為特徵權重低,也就是說,越重要的風險行為特徵權重值越高。
具體地,在本實施方式中,所述與每個風險行為資訊對應的風險行為特徵包括:開啟特定的功能、開啟特定的權限、更換綁定電話號碼、更改綁定電子郵箱、更改密碼、支付位置變化、變更收貨位址和/或購買特定商品。即,與風險行為資訊對應的風險行為特徵可以為開啟特定的功能、開啟特定的權限、更換綁定手機號碼、更換綁定電子郵箱號碼、更改密碼、支付位置變化、變更收貨位址、購買特定商品等中的一種或者多種。購買特定商品,如購買以前未曾購買過的類別的商品,反覆購買同一種商品等。
如在某一種風險行為類別中,包括三個風險行為特徵:開啟特定的功能、支付位置變化、變更收貨位址,其中“開啟特定的功能、開啟特定的權限”這個風險行為特徵的重要程度最高,則將這個風險行為特徵的權重值最大,如設置為0.8,另外兩個風險行為特徵的重要程度是一樣的,則將這兩個風險行為特徵的權重值設置為相同,如0.2。
獲得每個風險行為類別的模式資訊至少有以下兩種獲得方式:
方式1:
具體地,所述根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,包括:
針對每個風險行為類別的風險事件樣本,提取與該風險行為類別的風險行為資訊對應的一個以上風險行為特徵;
確定一個以上風險行為特徵中每個風險行為特徵對應的權重,產生該風險行為類別的模式資訊。
本方式是透過人設定的方式進行的,基於風險行為資訊,確定風險行為特徵後,再根據該風險行為特徵的重要性確定每個所述風險行為特徵的權重。每個風險行為特徵的重要性可以根據經驗設置,也可以根據巨量資料資料分析結果進行設置。
繼續以前述的基於風險行為2的風險行為類別的風險事件樣本為例進行說明,該風險行為類別的風險事件樣本的風險行為資訊為開通借唄借錢,基於風險行為資訊,可確定與該風險行為資訊對應的風險行為特徵—開啟特定的功能,設定該風險行為特徵的權重為1,即可獲得該風險行為類別的模式資訊1。
又如,某風險行為類別的風險行為資訊為改密碼、換綁手機,基於該風險行為資訊,確定與該風險行為資訊對應的兩個風險行為特徵,風險行為特徵1—更換綁定手機號碼,風險行為特徵2—更改密碼,設定風險行為特徵1的權重為0.5,風險行為特徵2為0.5,獲得模式資訊2,如下表2所示。
表2 模式資訊的示意
模式 | 風險行為特徵 | 權重 |
模式資訊1 | 更換綁定手機號碼 | 0.5 |
更改密碼 | 0.5 |
模式資訊2 | 開啟特定的功能 | 1 |
方式2:
具體地,所述根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,包括:
將每個風險行為類別的風險事件樣本輸入到預設模型;
獲得所述預設模型輸出該風險行為類別的風險行為資訊對應的一個以上風險行為特徵及每個風險行為特徵的權重;
基於輸出該風險行為類別的風險行為對應的一個以上風險行為特徵及每個風險行為特徵的權重,獲得該風險行為類別的模式資訊。
該方式是透過預設模型的獲得模式資訊。該預設模型是用於對輸入的風險行為類別的風險事件樣本進行分析,輸出該風險行為類別的風險行為對應風險行為特徵及權重。所述預設模式具體可以為基於神經網路如卷積神經網路(Convolutional Neural Networks, CNN)模型、循環神經網路(RNN)的模型。
在獲得模式資訊後,進入步驟140。
步驟140,當需要對目標事件進行風險識別時,根據所述每個風險行為類別的模式資訊,對目標事件進行風險識別。
所述目標事件可以為一件或者多件,包括但不限於被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等事件。透過確定目標事件是否為風險事件,從而可以發現潛在的風險行為,也可以挖掘出隱在的風險事件。在識別出所述目標事件為風險事件時,可以攔截或者提醒。
具體地,所述根據所述每個風險行為類別的模式資訊,對目標事件進行風險識別,包括:根據每個風險行為類別的模式資訊,對所述目標事件進行打分,獲得打分結果;基於所述打分結果,確定所述目標事件是否為風險事件。
具體地,所述根據每個風險行為類別的模式資訊,對所述目標事件進行打分,獲得打分結果,包括:
在所述目標事件中提取與每個風險行為類別的模式資訊包括一個以上風險行為特徵;
基於提取的風險行為特徵及每個所述風險行為特徵對應的權重,獲得所述目標事件在每個風險行為類別的打分結果。
如,基於風險行為類別獲得的模式資訊1的風險行為特徵為開啟特定的功能,該風險行為特徵的權重為1為例進行說明。識別目標事件是否有開啟特定的功能,如是否有開啟花唄消費、開啟借唄借錢等,若是,則提取該特徵,獲得該特徵對應的權重值1,則可獲得目標事件在模式資訊1對應的風險行為類別的打分結果,打分結果為1。
又如,某個風險行為類別的模式資訊2具有兩個風險行為特徵,風險行為特徵1—更換綁定手機號碼,風險行為特徵2—更改密碼,設定風險行為特徵1的權重為0.5,風險行為特徵2為0.5,識別目標事件是否有改密碼,是否為更換綁定手機號碼,若目標事件具有風險行為特徵2—更改密碼,基於風險行為特徵2的權重,獲得打分結果為0.5。
在獲得打分結果後,所述基於所述打分結果,確定所述目標事件是否為風險事件,包括:判斷所述目標事件在每個風險行為類別的打分結果是否大於該風險行為類別的預設分值;若是,則確定所述目標事件為該風險行為類別的風險事件。
透過設定預設分值,確定目標事件為某個風險行為類別的風險事件,如某一目標事件的打分結果為0.9,預設值設定為0.8,則打分結果大於預設值,確定該風險行為類別的風險事件,基於此,可進行交易攔截或者對用戶進行提醒。
在其它實施方式中,可以多設置幾個預設分值,基於預設分值識別目標事件的風險程度的級別,如風險程度高、風險程度低、風險程度中,基於風險程度的不同,產生不要的策略,如風險程度高,則攔截的防控策略,直接攔截交易,如風險程度低,則,產生提示資訊,提示用戶有風險。透過產生防控策略,能夠在用戶報案之前自動地、智慧地推薦給用戶或者強制執行,減少風險事件的發生,透過該方法,可與風控引擎打通,實現策略的自動化、智慧化的推薦,從而提高交易的安全性。
也可以直接提取特徵,確定目標事件是否為風險事件,具體地,所述根據所述每個風險行為類別的模式資訊,對所述目標事件進行風險識別,包括:
提取所述目標事件中與每個風險行為類別的模式資訊對應的風險行為特徵;
基於提取的風險行為特徵及每個所述風險行為特徵對應的權重,確定所述目標事件是否為風險事件。
進一步地,所述方法還包括:基於所述模式資訊,產生安全教育頁面,並展示所述安全教育頁面。具體地,如模式資訊為基於案件行為類別——更換綁定電話號碼、更改密碼,則根據潛在可能被盜的用戶去宣傳修改更安全的密碼等。透過基於模式資訊,可以針對不同的人群產生安全教育資訊,從而可以針對不同的人群進行安全教育,實現用戶心智的運營。
又,本說明書實施例的方法可以用於智慧審理的服務,將需要審理的事件作為目標事件,透過本說明書實施例的方法對事件進行申請,即可確定該事件屬於哪個風險行為類別的風險事件,從而可以實現風控體系的自動駕駛。
進一步地,在獲得每個風險行為類別的目標事件後,可以對每個風險行為類別的目標事件進行聚類處理,獲得一個以上的風險主體類別,再獲得每個風險主體類別的模式資訊,基於模式資訊對待識別事件進行識別;也可以直接提取每個風險行為類別包括的目標事件的風險主體相關資訊,基於風險主體相關資訊對待識別事件進行識別,以下分別進行詳細介紹。
A、具體地,所述方法還包括:
獲得每個風險行為類別的各目標事件的風險主體相關資訊;
基於每個風險行為類別的各目標事件的風險主體相關資訊,對該風險行為類別的目標事件進行聚類處理,獲得一個以上的風險主體類別;
根據每個風險主體類別包括的目標事件,產生每個風險主體類別的模式資訊;所述每個風險主體類別的模式資訊具體包括:與每個風險主體相關資訊對應的一個以上風險主體特徵、及每個所述風險主體特徵的權重;
透過每個風險主體類別的模式資訊對待識別事件進行識別。
在獲得每個風險行為類別的目標事件的風險主體相關資訊後,即可對多個目標事件進行基於風險主體相關資訊進行聚類出來,獲得一個以上的風險主體類別。檢測風險主體群的手段可以透過強媒體進行連通圖關聯,建立用戶和設備號、用戶和卡號、用戶和電話號碼等關係,透過逐層關聯向外拓展挖掘風險主體群。如用戶1和卡1有關聯,卡1和用戶2有關聯,用戶1和設備1有關聯,設備1和用戶3有關聯,透過聯通關係最終可以發現,用戶1、用戶2、用戶3屬於同一風險主體群。另外也可透過自主選擇媒體如IP位址的方式來執行風險行為。基於聚類演算法,將相關聯的風險主體聚在一起,獲得基於風險主體進行聚類處理獲得的風險主體類別。
具體地,所述與每個風險主體相關資訊對應的風險主體特徵包括:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼和/或IP位址。即,所述與每個風險主體相關資訊對應的風險主體特徵包括:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼、IP位址等中的一種或多種。ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼、IP位址均為風險主體的資訊。
在獲得每個風險主體類別後,分析該類別的目標事件的風險主體相關資訊。每個模式資訊對應一個風險主體類別,也就是說,一個風險主體類別只有一個模式資訊。每個模式資訊所包含的風險主體特徵的數量是根據該風險主體類別的風險事件樣本所包含的風險主體相關資訊確定的。每個模式資訊中與風險主體對應的風險主體特徵可以為一個,也可以為多個。每個所述風險主體特徵的權重是根據該風險主體特徵的重要性確定的,重要的風險主體特徵權重高,次要的風險主體特徵權重低,也就是說,越重要的風險主體特徵權重值越高。
繼續以前述用戶1、用戶2、用戶3屬於同一風險主體群這一示例進行說明,該風險主體類別中的風險主體相關資訊包括用戶、設備、卡,因此,基於該等風險主體相關資訊,可以獲得三個風險主體特徵:ID、銀行卡資訊、操作設備號碼,其中,風險主體特徵—操作設備號碼的重要程度最高,則將這個風險主體特徵的權重值最大,如設置為0.7,另外兩個風險主體特徵—ID、銀行卡資訊的重要程度次之,則分別設置為0.2和0.3,即可產生模式資訊。
具體地,所述透過每個風險主體類別的模式資訊對待識別事件進行識別,包括:
提取所述待識別事件中與每個風險主體類別的模式資訊對應的風險主體特徵;
基於提取的風險主體特徵及每個所述風險主體特徵對應的權重,確定所述待識別事件是否為風險事件。
如,某風險主體類別的模式資訊,包括三個風險主體相關特徵:ID、銀行卡資訊、操作設備號碼,權重分別為0.2、0.3、0.7。提取待識別事件是否有三個風險主體相關特徵,若識別出待識別事件具有其中兩個風險主體相關特徵ID、操作設備號碼,則提取該兩個風險主體相關特徵,基於該兩個風險主體相關特徵的權重,則可獲得待識別事件的打分結果為0.9,基於該打分結果,可確定待識別事件為風險事件。
B、具體地,所述方法還包括:
獲得每個風險行為類別的目標事件的風險主體相關資訊;
透過每個風險行為類別的風險主體相關資訊,對待識別事件進行識別。
所述風險主體相關資訊包括風險主體的ID如姓名或帳號或身分證號等、風險主體的即時通訊應用帳號如QQ、微信等、風險主體的支付應用帳號如支付寶帳號等、風險主體的銀行卡資訊、風險主體的設備號、風險主體的IP位址等中的一種或者多種。
獲得每個風險行為類別的目標事件的風險主體相關資訊後,確定待識別事件中的是否具有該等風險主體相關資訊中的一個或者多個,然後再根據預設規則,確定待識別事件是否為風險事件。
如,待識別事件中的風險主體的ID與某一風險行為類別的目標事件的風險主體的ID相同,則根據預設規則風險主體的ID相同,則確定待識別事件是否為風險事件。
本說明書實施例透過獲得多個風險事件樣本的個案畫像,所述個案畫像包括風險行為資訊;基於每個風險事件樣本的風險行為資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險行為類別;根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,在需要對目標事件進行風險識別時,根據所述每個風險行為類別的模式資訊,對目標事件進行風險識別,從而可以實現對被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等案件的智慧審理,從而可以實現風控體系的自動駕駛,解決了現有技術中分析效率低,分析結果因分析人員的不同而產生差異的技術問題。
另外,本發明分別基於風險行為資訊對風險事件樣本進行聚類處理,實現從風險行為的不同的角度對風險事件樣本進行分類處理,使得基於每個風險行為類別產生的模式資訊能夠更體現該類別的風險事件的特點,進而在對目標事件識別時,提高風險識別率。
實施例二
於同樣的發明構思,本發明還提供一種風險識別方法,如圖3所示,所述風險識別方法包括:
步驟310,獲得多個風險事件樣本,並產生每個所述風險事件樣本的個案畫像,所述個案畫像包括風險主體相關資訊。
個案畫像參見實施例一的描述,在此不再贅述。
步驟320,基於每個風險事件樣本的風險主體相關資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險主體類別。
一個風險主體群是指兩個以上成員之間,基於共同的違反法律的意圖和目標,以共同的需要、興趣、價值觀念等心理因素作為精神紐帶,糾合在一起,進行多次共同進行不合法風險行為。基於風險主體的資訊,可以確定風險事件樣本中與該風險主體關聯的風險主體群,基於該風險主體群,就可以進行風險主體聚類處理。
一般來說,所有風險事件背後對應的風險主體都是呈群體性質的,從風險事件出發挖掘出背後的群體,以便快速防控風險事件和進行線下打擊。在該步驟中,可以採用標簽傳播(LPA)的演算法。LPA演算法的邏輯結構如下:一開始構建所有樣本的一個全網路,透過案件定性的結果,發現定性的黑樣本,從黑樣本出發,經過多輪迭代,就可以發現周圍的樣本慢慢都可以傳染到,以此發現兩個子群為風險主體群。該方案從黑樣本出發去侵染剩餘樣本,給剩餘樣本打分,根據得分的大小判斷該樣本是否是風險事件,以此來達到發現風險主體群的目的。
在獲得每個風險事件樣本的風險主體相關資訊後,即可對多個風險事件樣本進行基於風險主體相關資訊進行聚類出來,獲得多個風險事件類別。檢測風險主體群的手段可以透過強媒體進行連通圖關聯,建立用戶和設備號、用戶和卡號、用戶和電話號碼等關係,透過逐層關聯向外拓展挖掘風險主體群。如用戶1和卡1有關聯,卡1和用戶2有關聯,用戶1和設備1有關聯,設備1和用戶3有關聯,透過聯通關係最終可以發現,用戶1、用戶2、用戶3屬於同一風險主體群。另外也可透過自主選擇媒體如IP位址的方式來執行風險行為。基於聚類演算法,將相關聯的風險主體聚在一起,獲得基於風險主體進行聚類處理獲得的風險事件類別。
具體地,所述與每個風險主體相關資訊對應的風險主體特徵包括:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼和/或IP位址。即,所述與每個風險主體對應的風險主體特徵包括:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼、IP位址等中的一種或多種。ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼、IP位址均為風險主體的資訊。
在對風險事件樣本進行聚類處理,獲得風險事件類別後,進入步驟330。
步驟330,根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,所述每個風險主體類別的模式資訊包括:與每個風險主體相關資訊對應的一個以上的風險主體特徵以及每個所述風險主體特徵的權重。
在獲得每個風險主體類別後,分析該類別的風險事件樣本的風險主體相關資訊。每個模式資訊對應一個風險主體類別,也就是說,一個風險主體類別只有一個模式資訊。每個模式資訊所包含的風險主體特徵的數量是根據該風險主體類別的風險事件樣本所包含的風險主體相關資訊確定的。每個模式資訊中與風險主體對應的風險主體特徵可以為一個,也可以為多個。每個所述風險主體特徵的權重是根據該風險主體特徵的重要性確定的,重要的風險主體特徵權重高,次要的風險主體特徵權重低,也就是說,越重要的風險主體特徵權重值越高。
繼續以前述用戶1、用戶2、用戶3屬於同一風險主體群這一示例進行說明,該風險主體類別中的風險主體相關資訊包括用戶、設備、卡,因此,基於該等風險主體相關資訊,可以獲得三個風險主體特徵:ID、銀行卡資訊、操作設備號碼,其中,風險主體特徵—操作設備號碼的重要程度最高,則將這個風險主體特徵的權重值最大,如設置為0.7,另外兩個風險主體特徵—ID、銀行卡資訊的重要程度次之,則分別設置為0.2和0.3,即可產生模式資訊。
獲得每個風險主體類別的模式資訊的方式至少有如下兩種:
方式1:
具體地,根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,包括:
針對每個風險主體類別的風險事件樣本,提取與該風險主體類別的風險主體對應的一個以上風險主體特徵;
確定一個或者多個風險主體特徵對應的權重,產生該風險主體類別的模式資訊。
本方式是透過人設定的方式進行的,基於風險主體相關資訊,確定風險主體特徵後,再根據該風險主體特徵的重要性確定每個所述風險主體特徵的權重。每個風險主體特徵的重要性可以根據經驗設置,也可以根據巨量資料資料分析結果進行設置。
繼續以前述的風險主體類別為例進行說明,該風險主體類別中的風險主體相關資訊包括用戶、設備、卡,基於該資訊,即可確定出該風險主體類別的模式資訊的三個風險主體特徵:ID、銀行卡資訊、操作設備號碼,由於風險主體特徵—操作設備號碼的重要程度最高,則將這個風險主體特徵的權重值最大,如設置為0.7,另外兩個風險主體特徵—ID、銀行卡資訊的重要程度次之,則分別設置為0.2和0.3。
方式2:
根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,包括:
將每個風險主體類別的風險事件樣本輸入到預設模型;
獲得所述預設模型輸出該風險主體類別的風險主體相關資訊對應的一個以上風險主體特徵及每個風險主體特徵的權重;
基於輸出該風險主體類別的風險主體相關資訊對應的一個以上風險主體特徵及每個風險主體特徵的權重,獲得該風險主體類別的模式資訊。
該方式是透過預設模型的獲得模式資訊。該預設模型是用於對輸入的某一風險主體類別的風險事件樣本進行分析,輸出該風險主體件類別的風險主體相關資訊對應風險主體特徵及權重。所述預設模式具體可以為基於神經網路如卷積神經網路(Convolutional Neural Networks, CNN)模型、循環神經網路(RNN)的模型。
在獲得模式資訊後,進入步驟340。
步驟340,當需要對事件進行風險識別時,根據所述每個風險主體的模式資訊,對所述事件進行風險識別。
所述目標事件可以為一件或者多件,包括但不限於被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等事件。透過確定目標事件是否為風險事件,從而可以發現潛在的風險行為,也可以挖掘出隱在的風險事件。在識別出所述目標事件為風險事件時,可以攔截或者提醒。
具體地,所述根據所述每個風險主體類別的模式資訊,對所述事件進行風險識別,包括:
提取所述事件中與每個風險主體類別的模式資訊對應的風險主體特徵;
基於提取的風險主體特徵及每個所述風險主體特徵對應的權重,確定所述事件是否為風險事件。
如,某風險主體類別的模式資訊,包括三個風險主體相關特徵:ID、銀行卡資訊、操作設備號碼,權重分別為0.2、0.3、0.7。提取目標事件是否有三個風險主體相關特徵,若識別出目標事件具有其中兩個風險主體相關特徵ID、操作設備號碼,則提取該兩個風險主體相關特徵,基於該兩個風險主體相關特徵的權重,則可獲得目標事件的打分結果為0.2+0.7=0.9,基於該打分結果,確定該目標事件為風險事件。
本說明書實施例透過獲得多個風險事件樣本的個案畫像,所述個案畫像包括風險主體相關資訊;基於每個風險事件樣本的風險主體相關資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險主體類別;根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,在需要對目標事件進行風險識別時,根據所述每個風險主體類別的模式資訊,對目標事件進行風險識別,從而可以實現對被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等案件的智慧審理,從而可以實現風控體系的自動駕駛,解決了現有技術中分析效率低,分析結果因分析人員的不同而產生差異的技術問題。
另外,本發明分別基於風險主體相關資訊對風險事件樣本進行聚類處理,實現從風險主體的不同的角度對風險事件樣本進行分類處理,使得基於每個風險主體類別產生的模式資訊能夠更體現該類別的風險事件的特點,進而在對目標事件識別時,提高風險識別率。
實施例三
基於同樣的發明構思,本發明還提供一種風險識別裝置,如圖4所示,所述風險識別裝置,包括:
個案畫像產生單元410,用於產生多個風險事件樣本中每個所述風險事件樣本的個案畫像,所述個案畫像包括風險行為資訊;
聚類處理單元420,用於基於每個風險事件樣本的風險行為資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險行為類別;
模式資訊產生單元430,用於根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,所述每個風險行為類別的模式資訊包括:與每個風險行為資訊對應的一個以上的風險行為特徵以及每個所述風險行為特徵的權重;
識別單元440,用於當需要對目標事件進行風險識別時,根據所述每個風險行為的模式資訊,對所述目標事件進行風險識別。
具體地,所述裝置還包括獲得單元,所述獲得單元用於獲得每個風險行為類別的各目標事件的風險主體相關資訊;所述聚類處理單元240還用於基於每個風險行為類別的各目標事件的風險主體相關資訊,對該風險行為類別的目標事件進行聚類處理,獲得一個以上的風險主體類別;
所述模式產生單元430還用於根據每個風險主體類別包括的目標事件,產生每個風險主體類別的模式資訊;所述每個風險主體類別的模式資訊具體包括:與每個風險主體相關資訊對應的一個以上風險主體特徵、及每個所述風險主體特徵的權重;
所述識別單元440還用於透過每個風險主體類別的模式資訊對待識別事件進行識別。
具體地,所述與每個風險行為資訊對應的風險行為特徵為:開啟特定的功能、開啟特定的權限、更換綁定電話號碼、更換綁定電子郵箱、更改密碼、支付位置變化、變更收貨位址或購買特定商品。
所述裝置還包括獲得單元,所述獲得單元用於獲得每個風險行為類別的目標事件的風險主體相關資訊;所述識別單元440還用於透過每個風險行為類別的風險主體相關資訊,對待識別事件進行識別。
所述識別單元440具體用於提取所述目標事件中與每個風險事件類別的模式資訊對應的風險主體特徵,並基於提取的風險主體特徵及每個所述風險主體特徵對應的權重,確定所述目標事件是否為該風險主體類別的風險事件。
具體地,所述與每個風險主體相關資訊對應的風險主體特徵為:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼或IP位址。
本說明書實施例透過獲得多個風險事件樣本的個案畫像,所述個案畫像包括風險行為資訊;基於每個風險事件樣本的風險行為資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險行為類別;根據每個風險行為類別包括的風險事件樣本,產生每個風險行為類別的模式資訊,在需要對目標事件進行風險識別時,根據所述每個風險行為類別的模式資訊,對目標事件進行風險識別,從而可以實現對被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等案件的智慧審理,從而可以實現風控體系的自動駕駛,解決了現有技術中分析效率低,分析結果因分析人員的不同而產生差異的技術問題。
另外,本發明分別基於風險行為資訊對風險事件樣本進行聚類處理,實現從風險行為的不同的角度對風險事件樣本進行分類處理,使得基於每個風險行為類別產生的模式資訊能夠更體現該類別的風險事件的特點,進而在對目標事件識別時,提高風險識別率。
實施例四
基於同樣的發明構思,本發明還提供一種風險識別裝置,如圖5所示,所述風險識別裝置包括:
個案畫像產生單元510,用於產生多個風險事件樣本中每個所述風險事件樣本的個案畫像,所述個案畫像包括風險主體相關資訊;
聚類處理單元520,用於基於每個風險事件樣本的風險主體相關資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險主體類別;
模式產生單元530,用於根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,所述每個風險主體類別的模式資訊包括:與每個風險主體相關資訊對應的一個以上的風險主體特徵以及每個所述風險主體特徵的權重;
識別單元540,用於當需要對事件進行風險識別時,根據所述每個風險主體的模式資訊,對所述事件進行風險識別。
具體地,所述識別單元540具體用於提取所述事件中與每個風險主體類別的模式資訊對應的風險主體特徵,並基於提取的風險主體特徵及每個所述風險主體特徵對應的權重,確定所述事件是否為風險事件。
具體地,所述與每個風險主體相關資訊對應的風險主體特徵為:ID、即時通訊應用帳號、支付應用帳號、銀行卡資訊、電話號碼、電子郵箱、操作設備號碼或IP位址。
本說明書實施例透過獲得多個風險事件樣本的個案畫像,所述個案畫像包括風險主體相關資訊;基於每個風險事件樣本的風險主體相關資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險主體類別;根據每個風險主體類別包括的風險事件樣本,產生每個風險主體類別的模式資訊,在需要對目標事件進行風險識別時,根據所述每個風險主體類別的模式資訊,對目標事件進行風險識別,從而可以實現對被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等案件的智慧審理,從而可以實現風控體系的自動駕駛,解決了現有技術中分析效率低,分析結果因分析人員的不同而產生差異的技術問題。
另外,本發明分別基於風險主體相關資訊對風險事件樣本進行聚類處理,實現從風險主體的不同的角度對風險事件樣本進行分類處理,使得基於每個風險主體類別產生的模式資訊能夠更體現該類別的風險事件的特點,進而在對目標事件識別時,提高風險識別率。
實施例五
基於與前述實施例中同樣的發明構思,本說明書實施例還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,該程式被處理器執行時實現前文任一所述方法的步驟。
實施例六
基於與前述實施例中同樣的發明構思,本說明書的實施例還提供一種電腦設備,如圖6所示,包括記憶體604、處理器602及儲存在記憶體604上並可在處理器602上運行的電腦程式,所述處理器602執行所述程式時實現前文任一所述方法的步驟。
其中,在圖6中,匯流排架構(用匯流排600來代表),匯流排600可以包括任意數量的互聯的匯流排和橋,匯流排600將包括由處理器602代表的一個或多個處理器和記憶體604代表的記憶體的各種電路鏈接在一起。匯流排600還可以將諸如外圍設備、穩壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。匯流排介面605在匯流排600和接收器601和發送器603之間提供介面。接收器601和發送器603可以是同一個元件,即收發機,提供用於在傳輸媒體上與各種其他終端設備通信的單元。處理器602負責管理匯流排600和通常的處理,而記憶體604可以被用於儲存處理器602在執行操作時所使用的資料。
透過本說明書的一個或者多個實施例,本說明書具有以下有益效果或者優點:
本說明書實施例透過獲得多個風險事件樣本的個案畫像,所述個案畫像包括案件描述資訊;基於每個風險事件樣本的案件描述資訊,對所述多個風險事件樣本進行聚類處理,獲得多個風險事件類別;根據每個風險事件類別包括的風險事件樣本,產生每個風險事件類別的模式資訊,在需要對目標事件進行風險識別時,根據所述每個風險事件類別的模式資訊,對目標事件進行風險識別,從而可以實現對被識別策略稽核的交易、被舉報但未定型的交易、其它未完成的或已完成的或正在進行中的交易等案件的智慧審理,從而可以實現風控體系的自動駕駛,解決了現有技術中分析效率低,分析結果因分析人員的不同而產生差異的技術問題。
另外,本發明分別基於風險行為資訊和風險主體相關資訊對風險事件樣本進行聚類處理,實現從不同的角度對風險事件樣本進行分類處理,使得基於每個風險事件類別產生的模式資訊能夠更體現該類別的風險事件的特點,進而在對目標事件識別時,提高風險識別率。
在此提供的演算法和顯示不與任何特定電腦、虛擬系統或者其它設備固有相關。各種通用系統也可以與基於在此的示教一起使用。根據上面的描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定程式化語言。應當明白,可以利用各種程式化語言實現在此描述的本發明的內容,並且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,並未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
類似地,應當理解,為了精簡本公開並幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特徵有時被一起分組到單個實施例、圖、或者對其的描述中。然而,並不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個申請專利範圍中所明確記載的特徵更多的特徵。更確切地說,如申請專利範圍所反映的那樣,發明方面在於少於前面公開的單個實施例的所有特徵。因此,遵循具體實施方式的申請專利範圍由此明確地併入該具體實施方式,其中每個申請專利範圍本身都作為本發明的單獨實施例。
本領域那些技術人員可以理解,可以對實施例中的設備中的模組進行自適應性地改變並且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模組或單元或組件組合成一個模組或單元或組件,以及此外可以把它們分成多個子模組或子單元或子組件。除了這樣的特徵和/或過程或者單元中的至少一些是相互排斥之外,可以採用任何組合對本說明書(包括申請專利範圍、摘要和圖式)中公開的所有特徵以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括申請專利範圍、摘要和圖式)中公開的每個特徵可以由提供相同、等同或相似目的替代特徵來代替。
此外,本領域的技術人員能夠理解,儘管在此的一些實施例包括其它實施例中所包括的某些特徵而不是其它特徵,但是不同實施例的特徵的組合意味著處於本發明的範圍之內並且形成不同的實施例。例如,在下面的申請專利範圍中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發明的各個部件實施例可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模組實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數位信號處理器(DSP)來實現根據本發明實施例的閘道器、代理伺服器、系統中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程式(例如,電腦程式和電腦程式產品)。這樣的實現本發明的程式可以儲存在電腦可讀媒體上,或者可以具有一個或者多個信號的形式。這樣的信號可以從網際網路網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,並且本領域技術人員在不脫離申請專利範圍的範圍的情況下可設計出替換實施例。在申請專利範圍中,不應將位於括號之間的任何參考符號構造成對申請專利範圍的限制。單詞“包含”不排除存在未列在申請專利範圍中的元件或步驟。位於元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助於包括有若干不同元件的硬體以及借助於適當程式化的電腦來實現。在列舉了若干裝置的單元申請專利範圍中,這些裝置中的若干個可以是透過同一個硬體項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。