TWI717839B

TWI717839B - 風險頂點識別方法和裝置

Info

Publication number: TWI717839B
Application number: TW108133586A
Authority: TW
Inventors: 李娜
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2019-03-08
Filing date: 2019-09-18
Publication date: 2021-02-01
Also published as: EP3859623A1; CN110110954A; SG11202104382RA; EP3859623A4; US20210357942A1; US11348115B2; TW202034187A; CN110110954B; WO2020181909A1

Abstract

本發明提供了一種用於識別風險頂點的方法，包括：構建多個媒體網，所述多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值；將所述多個媒體網疊加；基於疊層媒體網結構中每個頂點的重合次數和所述第一風險值來確定該頂點的最終風險值；以及根據最終風險值確定高危頂點：

Description

風險頂點識別方法和裝置

本發明涉及業務安全領域，尤其涉及風險頂點識別的方法和裝置。

交易風險普遍存在於各類交易中，小到在菜市場買菜，掃錯了商家二維碼從而付款到錯的帳戶，大到公司交易中，交易對手因為各種原因違約，而造成了巨額損失。有些風險的發生是因為客觀原因，或是非故意為之而導致的，比如因為金融危機的風險傳染性而導致對手方經營不善從而違約；而另外一些是主觀原因，比如交易對手蓄意引導錯誤交易從而導致資金損失。然而在判斷一筆交易是否存在風險時，不單單需要追溯交易雙方的真實資訊和目的，也需要全面考慮所有風險關聯方。當前存在以下風險關聯方識別的方案： 1.基於連通圖的識別模型：連通圖可以透過定義不同的媒體而分為單因子媒體圖或多因子媒體圖，並以黑種子為出發點，無限拓展連通。但這類圖結構的構建存在如下缺點： a.頂點自定義拓展受限：若是連通關係以及媒體定義確定後，如果風險形式發生變動或是專家法自定義增刪任何邏輯，連通圖無法靈活拓展。 b.計算效率受限：連通圖對於複雜的資金關係動態變化情況，由於資料量級和複雜程度，以及計算資源受限導致計算效率相對不高。 c.多場景切換受限：連通圖一般可建立普適性大圖，或是透過切割各個小圖組成大圖。然後圖建立後，若是需要根據不同的應用場景進行個性化側寫，或是多場景交叉類，較難實現或是較難複用。 2.設備關聯反查：設備通常指用於風險交易的電子設備，比如電腦、手機、電話卡等。由於設備價值一般高於其他作案工具，因此複用性及使用週期較長。透過已知黑設備，可以關聯反查出更多作案帳戶等。但這類方法有以下缺點： a.非準確類(疑似類)設備導致後續關聯反查準確率陡降：部分黑設備可能是透過二級市場購買，而非新設備。這類設備關聯反查產出的用戶會混雜優質客戶，若是再進行二度或三度關聯，由於優質客戶社會關係(日常互動)遠遠大於作案類帳戶，會導致幾度關聯結果準確性直線下降。 b.混用類設備準確率低：由於設備價值往往較高，因此會存在多種風險主體混用現象，比如欺詐類作案設備和賭博類作案設備混用，那麼關聯反查後，由於賭博類帳戶可能往往大於欺詐類，導致欺詐類帳戶總體占比下降，準確率降低。因此期望一種能夠有效識別風險關聯方，以便於在交易風險發生前，提前識別和管控所有的風險關聯方。

本發明在交易風險發生前，提前識別高風險頂點(例如，高風險帳戶)，從而能夠實時監控高風險頂點，有效預防風險發生。本發明提供了一種用於識別風險頂點的方法，包括：構建多個媒體網，所述多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值；將所述多個媒體網疊加；基於疊層媒體網結構中每個頂點的重合次數和所述第一風險值來確定該頂點的最終風險值；以及根據最終風險值確定高危頂點。可任選地，所述構建多個媒體網包括：產生一個或多個初始種子；將媒體池中的媒體與所述一個或多個初始種子進行匹配以產生一個或多個初始媒體；以及輸出所述一個或多個初始種子和所述一個或多個初始媒體以用於構建媒體網。可任選地，所述將媒體池中的媒體與所述一個或多個初始種子進行匹配包括：確定所述媒體是否與所述一個或多個初始種子中的一者或多者相關聯；確定所述媒體所關聯的初始種子數目與初始種子總數的比率；以及如果所述比率高於閾值，則所述媒體被確定為初始種子。可任選地，所述根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值包括：根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值；以及根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。可任選地，頂點的初始風險值是所連接的上一層媒體的數目的對數函數。可任選地，所述根據每個頂點滿足風險條件的數目來確定該頂點的第二重風險值包括：確定該頂點滿足風險條件的數目；以及基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。可任選地，所述基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值進一步包括：確定該頂點的層級數；以及基於該頂點的層級數、滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。可任選地，頂點的所述層級數是頂點與黑種子之間的媒體數目。可任選地，該方法進一步包括：將每個邊界頂點的風險值與其上游頂點的風險值進行比較；以及如果邊界頂點的風險值大於任一上游頂點，則調整所述邊界頂點的上游頂點的風險值，以使得上游頂點的風險值大於或等於所述邊界頂點的風險值。可任選地，所述獲取疊層媒體網中每個頂點的最終風險值包括：基於頂點的重合次數來增大重合頂點的風險值。本發明的又一方面提供了一種用於識別風險頂點的裝置，包括：用於構建多個媒體網的模組，所述多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；用於根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值的模組；用於將所述多個媒體網疊加的模組；用於基於疊層媒體網結構中每個頂點的重合次數和所述第一風險值來確定該頂點的最終風險值的模組；以及用於根據最終風險值確定高危頂點的模組。可任選地，所述構建多個媒體網包括：用於產生一個或多個初始種子的模組；用於將媒體池中的媒體與所述一個或多個初始種子進行匹配以產生一個或多個初始媒體的模組；以及用於輸出所述一個或多個初始種子和所述一個或多個初始媒體以用於構建媒體網的模組。可任選地，所述將媒體池中的媒體與所述一個或多個初始種子進行匹配包括：用於確定所述媒體是否與所述一個或多個初始種子中的一者或多者相關聯的模組；用於確定所述媒體所關聯的初始種子數目與初始種子總數的比率的模組；以及用於如果所述比率高於閾值，則所述媒體被確定為初始種子的模組。可任選地，所述用於根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值的模組包括：用於根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值的模組；以及用於根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。可任選地，頂點的初始風險值是所連接的上一層媒體的數目的對數函數。可任選地，所述用於根據每個頂點滿足風險條件的數目來確定該頂點的第二重風險值的模組包括：用於確定該頂點滿足風險條件的數目的模組；以及用於基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。可任選地，所述用於基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組進一步包括：用於確定該頂點的層級數的模組；以及用於基於該頂點的層級數、滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。可任選地，頂點的所述層級數是頂點與黑種子之間的媒體數目。可任選地，該裝置進一步包括：用於將每個邊界頂點的風險值與其上游頂點的風險值進行比較的模組；以及用於如果邊界頂點的風險值大於任一上游頂點，則調整所述邊界頂點的上游頂點的風險值，以使得上游頂點的風險值大於或等於所述邊界頂點的風險值的模組。可任選地，所述用於獲取疊層媒體網中每個頂點的最終風險值的模組包括：用於基於頂點的重合次數來增大重合頂點的風險值的模組。本發明的又一方面提供了一種電腦設備，包括：處理器；以及被安排成儲存電腦可執行指令的記憶體，所述可執行指令在被執行時使所述處理器執行以下操作：構建多個媒體網，所述多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值；將所述多個媒體網疊加；基於疊層媒體網結構中每個頂點的重合次數和所述第一風險值來確定該頂點的最終風險值；以及根據最終風險值確定高危頂點。本發明的媒體網構建和高危節點識別可應用於各種判斷風險交易的場景，比如違禁類風險，欺詐類風險，營銷類風險等，能取得顯著的效果。

為讓本發明的上述目的、特徵和優點能更明顯易懂，以下結合圖式對本發明的具體實施方式作詳細說明。在下面的描述中闡述了很多具體細節以便於充分理解本發明，但是本發明還可以採用其它不同於在此描述的其它方式來實施，因此本發明不受下面公開的具體實施例的限制。具體而言，本申請的發明人透過對大量資料樣本的分析，發現對於大多數交易事件的雙方，交易前的風險行為可以透過構建各種媒體的網狀結構，迭代識別各個頂點的重合度，從而確定風險程度。例如，通訊類媒體(例如，手機、電話等)可以識別雙方是否是認識關係，設備類媒體(例如，電腦、智慧手機等)可以識別是否有不同帳戶在同一設備上操作，位置類(例如，LBS(基於位置的服務))媒體可以判斷交易雙方是否在相近的地理位置等等。這些媒體可以混合組成一個交錯的網狀結構，也可以組成多個獨立的網狀結構。如果網狀結構中某一個頂點與多個媒體關聯，那麼高危程度增加，與之相關的交易自然風險加大。隨著通信工具和社交媒體的普及，形成了廣泛的社交網。每個實體(例如，個人、企業等)都有各種帳戶(例如，銀行帳戶、手機號、支付寶帳戶、微信帳戶，等等)，實體可使用媒體(例如，電話、簡訊、微信、微博，等等)與其它實體聯繫。可以構建媒體網來表徵實體之間的這些互動和關聯。媒體網由頂點以及連接各頂點的媒體組成。頂點是實體在互動(例如，交易)中使用的身分標識，諸如，帳號(例如，銀行帳號、手機號、支付寶帳號、微信帳號等)。媒體表示實體之間的互動手段，例如，銀行轉帳、電話、簡訊、微信、微博等。例如，如果兩個實體透過手機通信過，那麼可以使用手機通訊類媒體來連接兩個實體的手機號頂點。在另一示例中，如果兩個實體有過銀行轉帳記錄，那麼可以使用銀行轉帳類媒體來連接兩個實體的銀行帳號頂點。在又一示例中，如果兩個實體在相同設備上使用過，那麼可以使用設備類媒體來連接兩個實體的設備頂點。在進一步示例中，如果兩個實體在相同地點出現過，那麼可以使用LBS(基於位置的服務)媒體來連接兩個實體的位置頂點。媒體網中的每個頂點可具有風險值，風險值可表徵該頂點為危險實體(例如，欺詐實體、冒用實體等)的概率。媒體網中的每個頂點一般可包括一種或多種類型的風險值(例如，欺詐風險值、冒用風險值等等)。頂點關於某種類型的風險值可表示頂點關於該風險的發生概率。通常從黑種子出發構建媒體網，黑種子(也稱為種子)的類型與媒體網中的頂點類型(例如，銀行帳戶、手機號、支付寶帳戶、微信帳戶等)相同，表徵已被確定存在某類風險的實體。例如，信用差、有欺詐、盜用和冒用歷史的實體。本發明在媒體網中的頂點風險值確定中考慮到與黑種子的多媒體(或即多路徑)關聯、附加風險特徵、與黑種子的關聯強度、多個媒體網疊加時頂點的重合度，從而能夠更加準確地確定風險值，從而更精確地標識出高風險頂點。圖1是根據本發明的風險頂點識別方法的示圖。如圖1所示，本發明的風險頂點識別方案可分為以下四個部分：第一部分是資料準備，為後續的各模組提供初始種子以及與初始種子相匹配的媒體(也被稱為初始媒體)。具體而言，從黑種子池中提取可用於構建媒體網的初始種子(種子提純)；將初始種子與有效媒體池中的媒體進行匹配，將與初始種子有關聯關係的媒體確定為初始媒體。第二部分是獨立媒體網構建和頂點初始賦值，使用第一部分產生的初始種子和初始媒體，構建多個獨立媒體網並且確定各個頂點的初始風險值。例如，可以針對手機號建立媒體網A，針對銀行帳號建立媒體網B，針對支付寶帳號建立媒體網C，針對位置資訊建立媒體網D。第三部分是頂點自定義(或即，頂點風險值優化)，在初始風險值的基礎上使用其它拓展資訊優化風險值，從而確定頂點的第二重風險值。例如，可以基於頂點滿足其它風險的狀況以及可任選地頂點的層級數來對初始風險值進行優化，得到第二重風險值。第四部分是多重網疊層，將多個獨立媒體網疊加起來，針對重合頂點建立多媒體結構，形成多邊結構。針對多媒體結構中的頂點，確定第三重風險值，進而得到最終風險值。根據最終風險值來確定潛在高危頂點。進一步，可以根據最終風險值分佈及專家經驗將高危頂點補充到黑種子池中，從而形成完善的良性識別體系。圖2是根據本發明的各方面的媒體網的示意圖。如圖2所示，媒體網以黑種子(初始種子)A0出發點，黑種子A0分別連接至相關聯媒體AJ₁₁ 、AJ₁₂ 、AJ₁₃ 。黑種子A0透過媒體AJ₁₁ 與頂點B₁₁ 相關聯，透過媒體AJ₁₂ 與頂點B₁₃ 、B₁₄ 、B₁₅ 相關聯，並且透過媒體AJ₁₃ 與頂點B₁₂ 相關聯。由此在媒體網中，媒體AJ₁₁ 連接至相關聯頂點B₁₁ ，媒體AJ₁₂ 連接至相關聯頂點B₁₃ 、B₁₄ 、B₁₅ ，並且媒體AJ₁₃ 連接至相關聯頂點B₁₂ 。媒體AJ₁₁ 、AJ₁₂ 、AJ₁₃ ，頂點B₁₁ 、B₁₂ 、B₁₃ 、B₁₄ 、B₁₅ 屬於媒體網的第一層級M1。頂點B₁₁ 進而透過媒體AJ₂₁ 與頂點B₂₁ 相關聯；頂點B₁₂ 進而透過媒體AJ₂₂ 與頂點B₂₂ 、B₂₃ 相關聯。由此在媒體網中，頂點B₁₁ 透過媒體AJ₂₁ 連接至相關聯頂點B₂₁ ；頂點B₁₂ 透過媒體AJ₂₂ 連接至頂點B₂₂ 、B₂₃ 。媒體AJ₂₁ 、媒體AJ₂₂ 、頂點B₂₁ 、B₂₂ 、B₂₃ 屬於媒體網的第二層級M2。為了解說起見，圖2中媒體/頂點的標號的第一個數字代表媒體/頂點所處層級，第二個數字代表媒體/頂點在所處層級的編號。例如，頂點B₁₃ 代表處於層級1的第3個頂點。在本文中，上游是指靠近黑種子(初始種子)的方向，下游是指遠離黑種子的方向。由此可見，在媒體網中，各頂點透過媒體相連，從黑種子向外擴展。在媒體網中，頂點的層級數M是該頂點與黑種子之間的路徑上的媒體(也可稱為上游媒體)個數，媒體的層級數M是該媒體與黑種子之間的路徑上的媒體個數加1。在一個媒體網中有多個黑種子的情況下，特定頂點到每個黑種子的路徑上的媒體數不同。在這種情況下，該頂點的層級數M為其中最大的上游媒體個數。圖3是根據本發明的各方面的一個頂點關聯多個媒體的示意圖。如圖3所示，頂點B₁₁ 連接至兩個上游媒體AJ₁₁ 、AJ₁₃ ，這表示頂點B₁₁ 所代表的實體分別透過AJ₁₁ 、AJ₁₃ 與黑種子A0關聯。由此頂點B₁₁ 的風險值可增大(例如，加倍、對數加倍(例如，In2))。以下詳細描述根據本發明的風險頂點識別的方法。如上所述，風險頂點識別方案可分為資料準備、獨立媒體網構建、頂點自定義和多重網疊層四個部分，以下對這四個部分分別進行詳細描述。資料準備資料準備包括準備用於媒體網構建的初始種子和初始媒體。圖4示出了準備用於媒體網構建的種子和媒體的方法的流程圖。在步驟401，產生初始種子。初始種子可以是圖2和圖3中所示的黑種子A0。具體而言，可從黑種子池選擇初始種子。黑種子池是某一風險或多風險集合形成的種子池，包括被確定有過不良行為的實體。例如，在本業務系統中有過不良記錄的實體帳戶、與法院失信被執行人名單或公安局涉案名單對應的用戶帳戶等。例如，對於欺詐類風險，黑種子池可以是被用戶舉報並且定性的案件、公安部門推送的案件、或者新聞報道中所涉及的案件等等。黑種子池還可以納入部分盜用類和冒用類案件。經過時間積累，形成龐大的單一或多風險綜合黑種子池。可對黑種子池進行種子提純來產生用於媒體網構建的初始種子。具體而言，黑種子池中並非所有種子均為活躍種子或有效種子，可以剔除非有效或是存在干擾的種子，從而提高媒體網狀結構的準確性。種子提純可考慮以下因素：帳戶活躍時間、帳戶行為突變性、帳戶環境變異性等等。帳戶活躍時間是指某些種子所關聯的帳戶歷史交易偏白(即，帳戶歷史上為好帳戶，例如，歷史無投訴且為正常帳戶)，但是當前一段時間不活躍，這類關聯就屬於無效關聯。若是使用該種子來建立媒體網，則由於歷史交易偏白關係，會導致擴散邊無限。因此這類種子可被剔除掉。帳戶行為突變性是指某些種子關聯帳戶歷史上為好帳戶，突然變為壞帳戶，也可被保留作為初始種子。帳戶環境變異性是指某些種子所關聯的帳戶先前在好設備上操作，突然變為在壞設備上操作。這表明帳戶很有可能被盜用，也可被保留作為初始種子。在步驟402，將媒體池中的媒體與初始種子進行匹配以產生初始媒體。初始媒體是指與初始種子直接關聯(連接)的媒體，例如，圖2和圖3中所示的與黑種子A0直接連接的媒體AJ₁₁ 、AJ₁₂ 和AJ₁₃ 。媒體包含的範圍較為廣闊，在風險交易中，藉以傳播風險的物質均可成為媒體。媒體池一般基於特定風險的專家經驗收集和總結。例如，實踐中常用的有效媒體包括銀行卡(例如，簽帳金融卡)、支付寶帳戶、手機號、社交帳戶(例如，QQ，微信等)、證件等。可以將有效媒體池中的媒體與步驟401中產生的初始種子進行匹配以選擇用於媒體網構建的媒體。具體而言，可以根據有效媒體池中的媒體與初始種子是否有效關聯來確定它們是否匹配，並且選擇與初始種子相匹配的媒體作為初始媒體。例如，N個初始種子和M個媒體具有N*M種關聯關係，但不是每個關聯關係均為有效。例如，如果初始種子是沒有註冊手機號的收益卡帳號，而媒體為手機通訊類媒體，由於該收益卡不與手機號直接匹配，則認為該收益卡與手機通訊類媒體不匹配。可以透過媒體與初始種子的匹配率來確定該媒體是否能作為初始媒體。該匹配率是指與媒體相匹配的初始種子數與初始種子總數(步驟401中產生的初始種子的總數)之比。一般可選取與初始種子的匹配率較高(例如，高於閾值)的媒體為用於媒體網構建的有效媒體。例如，如果媒體所匹配的初始種子數高於初始種子總數的40%，則認為此類媒體有效，可保存以用於媒體網構建。進一步，可建立初始種子與相關聯的一個或多個初始媒體的映射關係以用於媒體網構建，如下所述。在步驟403，輸出初始種子和初始媒體以用於媒體網構建。具體而言，輸出步驟401中產生的初始種子以及步驟402中與每個種子匹配的媒體及其映射。例如，如圖2中所示的黑種子A0和相關聯媒體AJ₁₁ 、AJ₁₂ 、AJ₁₃ 。獨立媒體網構建和頂點初始賦值在確定初始種子和初始媒體之後，可以構建一個或多個獨立媒體網，並且對各個媒體網中的頂點進行初始賦值。圖5示出了對頂點進行初始賦值的方法的流程圖。如圖5所示，在步驟501，構建一個或多個獨立媒體網。具體而言，可以將初始種子分類，針對每種類型的初始種子，構建一個獨立媒體網。例如，可以針對銀行帳戶類型的一個或多個黑種子，構建一個獨立媒體網；針對手機號類型的一個或多個黑種子，構建一個獨立媒體網。每個獨立媒體網的構建可包括以黑種子為出發點，首先連接初始媒體(以上步驟403輸出的初始媒體中與該黑種子相關聯的媒體)，透過數度關聯拓展，形成多層頂點和媒體。具體而言，可以確定每個上游頂點(包括種子)透過媒體關聯的一個或多個其它頂點，將該媒體和該一個或多個其它頂點添加到該上游頂點的下游，依此類推。例如，黑種子集合：

黑種子可關聯的有效媒體集合如下(J 、K 、L ……分別代表不同媒體種類)：

，其中

其中Z表示正整數。如圖6所示，媒體AK₁₁ 由於無關聯有效內容(例如，銀行卡帳戶等)而不具有下游頂點，因此AK₁₁ 被認為是有效媒體集合中的無效媒體個體。有效媒體個體是上述有效媒體集合的子集：

媒體網的最終擴散頂點個數與有效媒體個體數S、關聯層級M相關，由於對於同一頂點，會存在交叉關聯(見圖3)，因此頂點個數Q的下限如下式，上限可無窮。實踐研究中，一般無風險類頂點透過多重擴散後接近無窮，然而風險交易類擴散結果往往是逐層遞減，頂點個數收斂於固定常數：

其中Z表示正整數。在步驟502，確定頂點的初始風險值。在媒體網中，各個媒體個體不重複。但是同一個頂點的上一層媒體可能不止一個。如圖3所示，頂點B₁₁ 連接的上一層媒體的個數為兩個，分別為AJ₁₁ 和AJ₁₃ ，這種情況可被認為頂點的風險疊加，相當於對於同一風險事實存在兩個完全不同的舉證，那麼可相應地增大確定性(例如，加倍、對數加倍)。例如，如果黑種子A0為一個具有手機號的支付寶帳號，該支付寶帳號所對應的手機號與頂點B₁₁ (另一具有手機號的支付寶帳號)有關聯(例如，具有通話歷史)，同時該支付寶帳號與頂點B₁₁ 的支付寶帳號有轉帳歷史。換言之，頂點B₁₁ 透過兩條路徑與黑種子有關聯，由此頂點B₁₁ 的風險值較大。因此可相應地增大頂點B₁₁ 的風險值。以上列出了一個頂點關聯兩個媒體的情形，但其它情形也在本發明的構想中。例如，一個頂點關聯兩個以上媒體，頂點所關聯的媒體距離黑種的層級數更高，等等。如果某一頂點V的上層媒體個數(即，頂點V連接的上一層媒體的個數)是X個，則頂點V的初始風險值

可如下計算：

(1) 其中，Z表示正整數集合。如式(1)所示，如果X=1，則R(V)為1；如果X=2，則R(V)為1.69；依此類推。式(1)中使用對數函數ln，使得風險值隨著頂點連接的上一層媒體數的增加而增大，但最終會收斂。風險值代表風險的高危程度，當風險值普遍大於其他頂點時，已經可以確定為風險頂點。實踐中，一般最大存在5個上層媒體，即風險值2.6，可確定為高風險頂點。注意，雖然以上關於頂點的初始風險值給出了公式(1)，但確定初始風險值的其它方式也在本發明的構想中，例如，

，

，等等，只要考慮到頂點的初始風險值隨著連接的上一層的媒體數增大即可。如上所述，對於多個有效媒體集合(每個集合包括相同類型的媒體)，分別構建多個媒體網狀結構，進一步計算各個頂點的初始風險值。頂點自定義在對頂點初始賦值之後，可以引入更多類型的其它資料，進一步對頂點進行風險值優化。在頂點的初始風險值的基礎上迭代計算。圖7是對頂點進行風險值優化的方法的流程圖。在步驟701，確定頂點滿足拓展條件的數目。在頂點風險值的優化中，可以考慮其它拓展條件。例如，可以考慮頂點是否滿足以下風險條件： 1、頂點是否涉及其它綜合風險。每個媒體網中的各頂點可包括多種類型風險的風險值。在計算其中一種風險的風險值時，可考慮其它風險，即，除當前涉及的風險之外的相關其他風險。這些風險可能是當前風險的衍生風險，也可能與當前風險存在共存關係。例如，在實踐中，對於欺詐類風險，通常還涉及冒用風險、垃圾註冊風險、司法凍結風險、社交風險等。因此，在計算頂點的欺詐類風險值時，可以考慮該頂點是否滿足冒用風險、垃圾註冊風險、司法凍結風險、社交風險中的至少一者。例如，可以確定該頂點是否針對垃圾註冊風險、司法凍結風險、社交風險中的至少一者為高危風險頂點。如果針對其中一者為高危風險頂點，則確定該頂點涉及其它綜合風險。 2、頂點是否具有異常行為。具體而言，可對頂點進行異常行為特徵分析。包括高危的資金關係行為、購物生活類行為、風險偏好行為等等。這類行為分析往往對於挖掘隱藏風險幫助較大。例如，某一銀行帳戶平時行為正常(例如，往往用於生活繳費)，突然涉及大金額轉帳，則可認為該銀行帳戶具有異常行為。 3、頂點是否為不確定類型，即，資訊量很少的頂點。如果頂點的資訊量非常少，沒有準確資訊可供判斷，這種情況常常會發生風險突變。例如，如果某一帳戶既沒有任何歷史行為，也沒有任何歷史風險，則無法對此類帳戶深入剖析。但該頂點很有可能在某一段時間突然風險爆發。以上列舉了三個可用於風險值優化的資訊，但本領域技術人員也可構想其它拓展資訊以用於風險值優化。在優化頂點風險值時，可將頂點是否滿足拓展條件和/或滿足拓展條件的數目納入考慮。可任選地，在步驟702，確定頂點的層級數。如圖2所示，每個頂點所在層級數為M。一般而言，M值越大，代表所處的關聯層級越遠離初始種子A0(黑種子)，風險值遞減。例如，如果黑種子表示已經定案的詐騙犯，第一層頂點B₁ 代表詐騙犯的妻子，第二層頂點B₂ 代表妻子的弟弟，第三層頂點B₃ 代表妻子弟弟的朋友。那麼隨著關聯層級的增大，頂點與黑種子的關聯強度降低，風險值遞減。如果邊界頂點(即，媒體網的最外圍頂點，例如，B₁₃ 、B₁₄ 、B₁₅ 、B₂₁ 、B₂₂ 、B₂₃ )具有較大的風險值，則可以認為此邊界頂點與黑種子之間的各上游頂點風險值均更大，因為它們與黑種子的關聯強度更大。例如，對於欺詐風險場景，如果投入的初始種子為中低風險，那麼透過不同層級的媒體關聯，風險遞減，邊界頂點一般為低風險，或即普遍為‘好人’；如果初始種子風險非常高，則即使經過幾重媒體擴散，邊界頂點依然高危。因此，在對初始風險值進行優化時，可將頂點的層級數M作為考慮因素。這在以下詳細說明。在步驟703，確定頂點的第二重風險值。在一個示例中，第二重風險值可以根據頂點滿足的拓展條件的數目和所處層級來確定。例如，可以根據式(2)來計算頂點V的第二重風險值：

(2) 其中，Y 是頂點V 滿足的風險條件的數目，M 是頂點所處層級。以風險條件為三個為例，如果Y =0，即不滿足任何風險條件，那麼第二重風險值等於初始風險值。如果滿足全部三個風險條件，並且頂點所處層級為5，則第二重風險值

是初始風險值

的2.87倍。對於深度媒體拓展(一般大於3次均認為深度拓展)的頂點，若是被三類風險條件均命中，那麼頂點必定為高風險。例如，與初始種子直接關聯的頂點(層級為1)由於離種子很近，其天然風險就較高。而如果頂點的層級為4，因為離種子較遠，理論上風險較低，但若滿足多個風險條件，則可增大其風險值以用於後續對上游頂點的風險值的調整，如下所述。替換地，第二重風險值可以僅根據頂點滿足的拓展條件的數目來確定，而無需考慮頂點所處的層級。例如，可以根據式(3)來計算頂點V的第二重風險值：

(3) 雖然以上式(2)和式(3)使用函數ln()來確定第二重風險值，但也可使用其它方式來確定第二重風險值，只要根據頂點滿足的擴展條件以及可任選地頂點所處層級調整風險值即可。多重網疊層以上描述了針對每個獨立的媒體網確定頂點的風險值，但是不同媒體網中的頂點存在重合的可能性。例如，一個實體的銀行帳號頂點處於第一媒體網(銀行轉帳媒體網)中，而其手機號頂點處於第二媒體網中(手機通訊媒體網)，在將第一媒體網和第二媒體網疊加時，該實體在兩個媒體網中的頂點將會重合。在實踐中，中高風險頂點的數量與無風險或低風險頂點的數量的區別在於前者是有限的，而後者是無限的。當不同媒體網中的頂點重合後，此類頂點的風險值可增大。例如，如果透過手機通訊媒體和銀行轉帳媒體拓展出相同的頂點，那麼該頂點是高風險的可能性增大。圖8示出了計算疊層媒體網的頂點的風險值的方法的流程圖。在步驟801，透過合併不同媒體網中重合的頂點來疊加多個媒體網。不同媒體網中的頂點存在重合的情況，可將不同媒體網中的代表相同實體的頂點合併成一個頂點，由此疊加多個媒體網。例如，一個實體的銀行帳號頂點處於第一媒體網(銀行轉帳媒體網)中，而其手機號頂點處於第二媒體網中(手機通訊媒體網)，在將第一媒體網和第二媒體網疊加時，可將第一媒體網和第二媒體網中的對應頂點合併。圖10是根據一個實施例的兩個媒體網疊加的示圖。如圖10所示，媒體網1包括黑種子A0，從黑種子拓展出透過媒體AJ₁₃ 與黑種子A0相關聯的頂點B₁₃ 。媒體網2包括黑種子A0’，透過媒體AK₁₁ 、頂點C₁₁ 、媒體AK₂₁ 拓展出頂點C₂₁ 。頂點B₁₃ 和頂點C₂₁ 代表相同的實體，例如，代表同一實體的銀行帳號、微信號、手機號等。在將媒體網1和媒體網2疊加為層疊媒體結構時，頂點B₁₃ 和頂點C₂₁ 可合併為一個頂點。可任選地，在步驟802，調整層疊媒體網結構中頂點的風險值。邊界頂點是沒有下游頂點的頂點，邊界頂點通常應當為路徑中風險值最小的頂點。一般而言，媒體網中的邊界頂點一般比各上游頂點的風險值低。但在多個媒體網疊加之後，有可能出現邊界頂點比上游頂點的風險值高的情況。尤其地，如果在計算頂點的第二重風險值時納入頂點的層級，即，使用式(2)來計算第二重風險值，則下游頂點的第二重風險值相對於上游頂點被放大。因此需要在媒體網疊加之後對各頂點的風險值進行調整。例如，可以針對媒體網中的各頂點的第二重風險值進行排序。如果邊界頂點的風險值高於最低值(例如，1)，則將該邊界頂點的上游各頂點與該風險值進行比較，如果上游頂點的風險值小於邊界頂點的風險值，則將上游頂點的風險值至少增大為邊界頂點的風險值，由此修正路徑上的各頂點的風險值。例如，如果黑種子表示已經定案的詐騙犯，第一層B₁ 代表詐騙犯的妻子，第二層B₂ 代表妻子的弟弟，第三層B₃ 代表妻子弟弟的朋友。如果弟弟的朋友B₃ 的第二重風險值比上游的B₁ 或B₂ 中的至少一者大，那麼可相應地將B₁ 或B₂ 至少增大為B₃ 的值，由此使得媒體網中邊界頂點的風險值不大於上游頂點的風險值。這裡的調整層疊媒體網結構中頂點的風險值可以與根據式(2)計算頂點的第二重風險值(即，在計算中納入頂點的層級數)相結合執行。在實際應用中，層級低的頂點，例如初始種子關聯到的第一層級頂點V1，因為其離種子很近，天然風險程度較高。如果拓展到四層頂點V4，因為離種子已經很遠，理論上風險降低，但在如果V4被多風險命中，則在計算第二重風險值時，V4的風險值得到更大地提升(

)。在步驟802調整層疊媒體網結構中頂點的風險值時，可以使整條路徑中的頂點都相應地提高風險值。在步驟803，根據頂點的重合次數確定第三重風險值。假設有S個獨立媒體網可進行疊加，對於某一頂點V，若是分別處於兩個獨立媒體網，那麼重合次數是2，若是處於一個媒體網，重合次數是1。重合次數不受頂點所在媒體網層級限制。設重合次數為Z，可如下計算頂點V的第三重風險值：

(4) 其中

，

是頂點V在每個獨立媒體網中的第二重風險值的加權求和。具體而言，如果

分別是頂點V在S個獨立媒體網中的第二重風險值，則式(4)中的

可如下計算：

(5) 其中權重

、

、……、

為每個風險值的權重。權重

、

、……、

的取值可以根據實際需要來選擇。在一個示例中，可以對主風險的風險值賦予較高的權重。例如，如果當前計算的是盜用風險的風險值，那麼多個媒體網中涉及盜用風險的風險值的權重可較大。在另一示例中，可以簡單地對每個媒體網的風險值賦予相同的權重值，即，

為

的平均值。第三重風險值可作為頂點的最終風險值以用於確定高危頂點。可任選地，在步驟804，調整層疊媒體網結構中頂點的第三重風險值。在確定各頂點的第三重風險值之後，可再次對路徑上的各頂點的第三重風險值進行調整以獲取最終風險值，即如果上游頂點的風險值大於邊界頂點的風險值，則將上游頂點的風險值至少增大為邊界頂點的風險值，由此修正路徑上的各頂點的風險值，與步驟802類似。在步驟805，確定潛在高危頂點。可將各個頂點的風險值從高到低排序，提取排序前x%的頂點為潛在高危頂點以用於事前風險管控。高危頂點可以直接納入黑種子池以供後續使用。關於x的取值，可以分析分值分佈，結合專家經驗和人工抽樣驗證而確定。對於不同風險值的頂點所代表的實體，可以採取分層式管控。圖9是根據本發明的風險頂點識別方法的流程圖。在步驟901，構建多個媒體網。該多個媒體網中的每一者從具有相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成。如以上關於圖5的步驟501所描述的。在步驟902，根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值。如以上關於圖5的步驟502所描述的。在步驟903，至少根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。如以上關於圖7所描述的。在步驟904，將所述多個媒體網疊加並獲取疊層媒體網結構中每個頂點的最終風險值。如以上關於圖8所描述的。在步驟905，根據最終風險值確定高危頂點。如以上關於圖8的步驟804所描述的。本文結合圖式闡述的說明描述了示例配置而不代表可被實現或者落在申請專利範圍的範圍內的所有示例。本文所使用的術語“示例性”意指“用作示例、實例或解說”，而並不意指“優於”或“勝過其他示例”。本詳細描述包括具體細節以提供對所描述的技術的理解。然而，可以在沒有這些具體細節的情況下實踐這些技術。在一些實例中，眾所周知的結構和設備以方塊圖形式示出以避免模糊所描述的示例的概念。在圖式中，類似組件或特徵可具有相同的圖式標記。此外，相同類型的各個組件可透過在圖式標記後跟隨短劃線以及在類似組件之間進行區分的第二標記來加以區分。如果在說明書中僅使用第一圖式標記，則該描述可應用於具有相同的第一圖式標記的類似組件中的任何一個組件而不論第二圖式標記如何。結合本文中的公開描述的各種解說性方塊以及模組可以用設計成執行本文中描述的功能的通用處理器、DSP、ASIC、FPGA或其他可程式化邏輯裝置、分立的閘或電晶體邏輯、分立的硬體組件、或其任何組合來實現或執行。通用處理器可以是微處理器，但在替換方案中，處理器可以是任何常規的處理器、控制器、微控制器、或狀態機。處理器還可被實現為計算設備的組合(例如，DSP與微處理器的組合、多個微處理器、與DSP核心協同的一個或多個微處理器，或者任何其他此類配置)。本文中所描述的功能可以在硬體、由處理器執行的軟體、韌體、或其任何組合中實現。如果在由處理器執行的軟體中實現，則各功能可以作為一條或多條指令或程式碼儲存在電腦可讀媒體上或藉其進行傳送。其他示例和實現落在本公開及申請專利範圍的範圍內。例如，由於軟體的本質，以上描述的功能可使用由處理器執行的軟體、硬體、韌體、硬連線或其任何組合來實現。實現功能的特徵也可物理地位於各種位置，包括被分佈以使得功能的各部分在不同的物理位置處實現。另外，如本文(包括申請專利範圍中)所使用的，在項目列舉(例如，以附有諸如“中的至少一個”或“中的一個或多個”之類的措辭的項目列舉)中使用的“或”指示包含性列舉，以使得例如A、B或C中的至少一個的列舉意指A或B或C或AB或AC或BC或ABC(即，A和B和C)。同樣，如本文所使用的，短語“基於”不應被解讀為引述封閉條件集。例如，被描述為“基於條件A”的示例性步驟可基於條件A和條件B兩者而不脫離本公開的範圍。換言之，如本文所使用的，短語“基於”應當以與短語“至少部分地基於”相同的方式來解讀。電腦可讀媒體包括非瞬態電腦儲存媒體和通信媒體兩者，其包括促成電腦程式從一地向另一地轉移的任何媒體。非瞬態儲存媒體可以是能被通用或專用電腦存取的任何可用媒體。作為示例而非限定，非瞬態電腦可讀媒體可包括RAM、ROM、電可擦除可程式化只讀記憶體(EEPROM)、光碟(CD)ROM或其他光碟儲存、磁碟儲存或其他磁儲存設備、或能被用來攜帶或儲存指令或資料結構形式的期望程式程式碼手段且能被通用或專用電腦、或者通用或專用處理器存取的任何其他非瞬態媒體。任何連接也被正當地稱為電腦可讀媒體。例如，如果軟體是使用同軸電纜、光纖電纜、雙絞線、數位訂戶線(DSL)、或諸如紅外、無線電、以及微波之類的無線技術從web網站、伺服器、或其它遠程源傳送而來的，則該同軸電纜、光纖電纜、雙絞線、數位訂戶線(DSL)、或諸如紅外、無線電、以及微波之類的無線技術就被包括在媒體的定義之中。如本文所使用的碟(disk)和碟片(disc)包括CD、雷射碟片、光碟片、數位通用碟片(DVD)、軟碟和藍光碟片，其中碟常常磁性地再現資料而碟片用雷射來光學地再現資料。以上媒體的組合也被包括在電腦可讀媒體的範圍內。提供本文的描述是為了使得本領域技術人員能夠製作或使用本公開。對本公開的各種修改對於本領域技術人員將是顯而易見的，並且本文中定義的普適原理可被應用於其他變形而不會脫離本公開的範圍。由此，本公開並非被限定於本文所描述的示例和設計，而是應被授予與本文所公開的原理和新穎特徵相一致的最廣範圍。

1:媒體網 2:媒體網 A0:黑種子 A0’:黑種子 AJ₁₁:媒體 AJ₁₂:媒體 AJ₁₃:媒體 AJ₂₁:媒體 AJ₂₂:媒體 AK₁₁:媒體 AK₁₂:媒體 AK₁₃:媒體 AK₂₁:媒體 AK₃₁:媒體 B₁₁:頂點 B₁₂:頂點 B₁₃:頂點 B₁₄:頂點 B₁₅:頂點 B₂₁:頂點 B₂₂:頂點 B₂₃:頂點 C₁₁:頂點 C₁₂:頂點 C₂₁:頂點 C₃₁:頂點 M1:第一層級 M2:第二層級

圖1是根據本發明的風險頂點識別方法的示圖。圖2是根據本發明的各方面的媒體網的示意圖。圖3是根據本發明的各方面的頂點關聯多個媒體的示意圖。圖4是根據本發明的各方面的準備用於資料準備的方法的流程圖。圖5是根據本發明的各方面的對頂點進行初始賦值的方法的流程圖。圖6是根據本發明的各方面的無線媒體個體的示圖。圖7是根據本發明的各方面的對頂點進行風險值優化的方法的流程圖。圖8是根據本發明的各方面的計算疊層媒體網的頂點的風險值的方法的流程圖。圖9是根據本發明的風險頂點識別方法的流程圖。圖10是根據一個實施例的兩個媒體網疊加的示圖。

Claims

一種用於識別風險頂點的方法，該方法由電腦設備所執行且包括：構建多個媒體網，該多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值；將該多個媒體網疊加；基於疊層媒體網結構中每個頂點的重合次數和該第一風險值來確定該頂點的最終風險值；以及根據最終風險值確定高危頂點；其中，該根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值包括：根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值；以及根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。
如申請專利範圍第1項所述的方法，其中，該構建多個媒體網包括：產生一個或多個初始種子；將媒體池中的媒體與該一個或多個初始種子進行匹配以產生一個或多個初始媒體；以及輸出該一個或多個初始種子和該一個或多個初始媒體以用於構建媒體網。
如申請專利範圍第2項所述的方法，其中，該將媒體池中的媒體與該一個或多個初始種子進行匹配包括：確定該媒體是否與該一個或多個初始種子中的一者或多者相關聯；確定該媒體所關聯的初始種子數目與初始種子總數的比率；以及如果該比率高於閾值，則該媒體被確定為初始種子。
如申請專利範圍第1項所述的方法，其中，頂點的初始風險值是所連接的上一層媒體的數目的對數函數。
如申請專利範圍第1項所述的方法，其中，該根據每個頂點滿足風險條件的數目來確定該頂點的第二重風險值包括：確定該頂點滿足風險條件的數目；以及基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。
如申請專利範圍第5項所述的方法，其中，該基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值進一步包括：確定該頂點的層級數；以及基於該頂點的層級數、滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。
如申請專利範圍第6項所述的方法，其中，頂點的該層級數是頂點與黑種子之間的媒體數目。
如申請專利範圍第6項所述的方法，其中，進一步包括：將每個邊界頂點的風險值與其上游頂點的風險值進行比較；以及如果邊界頂點的風險值大於任一上游頂點，則調整該邊界頂點的上游頂點的風險值，以使得上游頂點的風險值大於或等於該邊界頂點的風險值。
一種用於識別風險頂點的裝置，包括：用於構建多個媒體網的模組，該多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；用於根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值的模組；用於將該多個媒體網疊加的模組；用於基於疊層媒體網結構中每個頂點的重合次數和該第一風險值來確定該頂點的最終風險值的模組；以及用於根據最終風險值確定高危頂點的模組；其中，該用於根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值的模組包括：用於根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值的模組；以及用於根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。
如申請專利範圍第9項所述的裝置，其中，該構建多個媒體網包括：用於產生一個或多個初始種子的模組；用於將媒體池中的媒體與該一個或多個初始種子進行匹配以產生一個或多個初始媒體的模組；以及用於輸出該一個或多個初始種子和該一個或多個初始媒體以用於構建媒體網的模組。
如申請專利範圍第10項所述的裝置，其中，該將媒體池中的媒體與該一個或多個初始種子進行匹配包括：用於確定該媒體是否與該一個或多個初始種子中的一者或多者相關聯的模組；用於確定該媒體所關聯的初始種子數目與初始種子總數的比率的模組；以及用於如果該比率高於閾值，則該媒體被確定為初始種子的模組。
如申請專利範圍第9項所述的裝置，其中，頂點的初始風險值是所連接的上一層媒體的數目的對數函數。
如申請專利範圍第9項所述的裝置，其中，該用於根據每個頂點滿足風險條件的數目來確定該頂點的第二重風險值的模組包括：用於確定該頂點滿足風險條件的數目的模組；以及用於基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。
如申請專利範圍第13項所述的裝置，其中，該用於基於該頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組進一步包括：用於確定該頂點的層級數的模組；以及用於基於該頂點的層級數、滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值的模組。
如申請專利範圍第14項所述的裝置，其中，頂點的該層級數是頂點與黑種子之間的媒體數目。
如申請專利範圍第14項所述的裝置，其中，進一步包括：用於將每個邊界頂點的風險值與其上游頂點的風險值進行比較的模組；以及用於如果邊界頂點的風險值大於任一上游頂點，則調整該邊界頂點的上游頂點的風險值，以使得上游頂點的風險值大於或等於該邊界頂點的風險值的模組。
一種電腦設備，包括：處理器；以及被安排成儲存電腦可執行指令的記憶體，該可執行指令在被執行時使該處理器執行以下操作：構建多個媒體網，該多個媒體網中的每一者從相同類型的一個或多個黑種子構建，並且由頂點和連接頂點的媒體組成；根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值；將該多個媒體網疊加；基於疊層媒體網結構中每個頂點的重合次數和該第一風險值來確定該頂點的最終風險值；以及根據最終風險值確定高危頂點；其中，該根據每個頂點所連接的上一層媒體的個數和滿足風險條件的數目來確定該頂點的第一風險值包括：根據每個頂點所連接的上一層媒體的個數來確定該頂點的初始風險值；以及根據每個頂點滿足風險條件的數目和初始風險值來確定該頂點的第二重風險值。