TWI745589B

TWI745589B - 風險特徵篩選、描述報文產生方法、裝置以及電子設備

Info

Publication number: TWI745589B
Application number: TW107115871A
Authority: TW
Inventors: 張鵬; 印曉華; 張向陽; 薛峰; 顧曦; 郭倩婷; 屠劍威
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2017-09-12
Filing date: 2018-05-10
Publication date: 2021-11-11
Also published as: CN107679985B; WO2019055382A1; SG11202002167QA; CN107679985A; US20190080327A1; EP3665636A1; TW201913522A

Abstract

本說明書實施例公開了風險特徵篩選、描述報文產生方法、裝置以及電子設備，所述方法包括：根據多個風險特徵的特徵權重，以及用於約束根據風險特徵所產生報文的長度的預定條件，篩選風險特徵，進而，可以利用篩選出的風險特徵為待描述事件產生描述報文。

Description

風險特徵篩選、描述報文產生方法、裝置以及電子設備

本說明書涉及電腦技術領域，尤其涉及風險特徵篩選、描述報文產生方法、裝置以及電子設備。

隨著網際網路金融的快速發展，網際網路金融交易的數量在快速增長。在大量的網際網路金融交易中，可能存在一些不法人員進行洗錢等非法交易。因此，需要工作人員從大量交易記錄中查找到可疑交易，並產生對應的可疑交易描述報文，反饋到有關管理部門，這些可疑交易也可以稱為風險事件。

在現有技術中，接收到可疑交易資料後，通常藉由工作人員根據這些資料，按照預定義的報文模板以人工方式編寫描述可疑交易的報文，其中，報文長度是受到限制的。

基於現有技術，需要能夠基於報文長度約束條件，針對可疑交易產生更有參考性的描述報文的方案。

本說明書實施例提供風險特徵篩選、描述報文產生方法、裝置以及電子設備，用於解決以下技術問題：需要能夠基於報文長度約束條件，針對可疑交易產生更有參考性的描述報文的方案。

為解決上述技術問題，本說明書實施例是這樣實現的：本說明書實施例提供一種風險特徵篩選方法，包括：獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例提供的一種描述報文產生方法，包括：獲取待描述事件；確定篩選出的各風險特徵；根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例提供的一種風險特徵篩選裝置，包括：獲取模組，獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；篩選模組，根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例提供的一種描述報文產生裝置，包括：獲取模組，獲取待描述事件；確定模組，確定篩選出的各風險特徵；產生模組，根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例提供的一種風險特徵篩選電子設備，包括：至少一個處理器；以及，與所述至少一個處理器通訊連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例提供的一種描述報文產生電子設備，包括：至少一個處理器；以及，與所述至少一個處理器通訊連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：獲取待描述事件；確定篩選出的各風險特徵；根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果：可以利用訓練得到的分類模型，確定各風險特徵分別的特徵權重，根據特徵權重，以及用於約束根據風險特徵所產生報文的長度的預定條件，為待描述事件產生描述報文，從而產生的描述報文更有參考性；其中，待描述事件比如可以是疑似洗錢交易等可疑交易。

S202~204:步驟

S302~306:步驟

701:獲取模組

702:篩選模組

703:權重確定模組

704:報文產生模組

801:獲取模組

802:確定模組

803:產生模組

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本說明書中記載的一些實施例，對於本領域具有通常知識者來講，在不付出創造性勞動性的前提下，還可以根據這些圖式獲得其他的圖式。

圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖；圖2為本說明書實施例提供的一種風險特徵篩選方法的流程示意圖；圖3為本說明書實施例提供的一種描述報文產生方法的流程示意圖；圖4為本說明書實施例提供的描述報文的部分截圖的示意圖；圖5為本說明書實施例提供的一種自動報文演算法的示意圖；圖6為本說明書實施例提供的一種實際應用場景下的可疑交易甄別流程示意圖；圖7為本說明書實施例提供的對應於圖2的一種風險特徵篩選裝置的結構示意圖；圖8為本說明書實施例提供的對應於圖3的一種描述報文產生裝置的結構示意圖。

本說明書實施例提供風險特徵篩選、描述報文產生方法、裝置以及電子設備。

為了使本技術領域的人員更好地理解本說明書中的技術方案，下面將結合本說明書實施例中的圖式，對本說明書實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本說明書實施例，本領域具有通常知識者在沒有作出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本發明保護的範圍。

為了便於理解，對本說明書的方案的思路進行分析。

在沒有報文長度約束條件的情況下，可以使描述報文覆蓋可疑交易的全部資訊點，其中，每個資訊點分別反映可疑交易的其中一個風險特徵的資料，比如，資訊點是根據風險特徵產生的子報文。將由全部風險特徵構成的集合記作S。

而在有報文長度約束條件的情況下，描述報文通常只能覆蓋可疑交易的一部分風險特徵資料而不是全部，否則報文長度將會超限。那麼，為了使產生的描述報文參考性儘量高，需要對風險特徵進行篩選，以篩選出參考價值最高的風險特徵子集合，風險特徵子集合記作S ^'

S。假定利用分類模型的受試者工作特徵曲線下面積(Area Under roc Curve，AUC)來度量S ^'的參考價值。一種理想的目標是：篩選得到對應的AUC最大的S ^'。

該理想的目標屬於組合優化問題，在風險特徵數量較多時，計算量很大不利於實用，基於此，本說明書的方案利用貪心搜索策略，對該組合優化問題進行近似求解，求得局部最優解即可，如此可以減少計算量，效率較高。

本說明書的方案可以用於：在一個待篩選風險特徵集合中，篩選參考價值相對高的風險特徵；進一步地可以用於利用篩選出的風險特徵，為諸如可疑交易等風險事件產生描述報文。

圖1為本說明書的方案在一種實際應用場景下涉及的一種整體架構示意圖。該整體架構包括至少一個設備，設備工作流程主要包括：確定待篩選的多個風險特徵，以及篩選出至少部分風險特徵；以及輸入待描述事件到用於產生描述報文的設備，該設備根據待描述事件以及篩選出的風險特徵，產生描述報文，其中，上述至少一個設備中可以包括分類模型。

基於上述思路和整體架構，下面對本說明書的方案進行詳細說明。

本說明書實施例提供了一種風險特徵篩選方法，如圖2所示，該方法的流程可以包括以下步驟：

S202：獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到。

在本說明書實施例中，樣本事件有多個。對於同一風險特徵，不同樣本事件的特徵取值可以不同。一般可以預先利用樣本事件訓練得到分類模型，進而利用分類模型確定各風險特徵對應的特徵權重。

例如，特徵權重具體可以藉由計算風險特徵對應於分類模型的分類準確性度量指標得到，其中，分類準確性度量指標比如是AUC、資訊熵、或者分類精確率等。

當然，也可以不依賴於分類模型，而預定義得到特徵權重。

特徵權重反映風險特徵的重要程度，一般地，對於特徵權重越高的風險特徵，可以優先選擇以用於描述事件。進一步地，由於存在報文長度約束，也即上述的預定條件，則特徵權重未必是篩選風險特徵的唯一依據，比如，還可以結合風險特徵對應的子報文長度等因素進行篩選。

風險事件可以是可疑交易，比如，疑似洗錢交易、或疑似盜取帳戶者冒充帳戶主人進行的交易等。風險事件也是可以是交易以外的可疑的業務操作事件，比如，非法登入事件等。

S204：根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

藉由圖2的方法，可以篩選出更有參考價值的風險特徵。基於圖2的方法，本說明書實施例還提供了該方法的一些具體實施方案，以及擴展方案，下面進行說明。

在本說明書實施例中，預定義特徵權重比較容易理解，一般根據運營人員的經驗進行即可。以下主要對另一種得到特徵權重的方式進行說明。

對於步驟S202，利用樣本事件訓練得到的分類模型得到所述特徵權重，具體可以包括：利用樣本事件訓練得到分類模型；分別針對所述多個風險特徵執行：獲取所述樣本事件中對應於該風險特徵的資料；根據所述對應於該風險特徵的資料，計算該風險特徵對應於所述分類模型的分類準確性度量指標；根據該分類準確性度量指標，得到該風險特徵的特徵權重。

在本說明書實施例中，風險特徵對應的對應於分類模型的分類準確性度量指標具體可以表示：單獨採用樣本事件對應於該風險特徵的資料作為分類模型輸入，對樣本事件進行分類的準確程度。以分類準確性度量指標是AUC為例，AUC越高，則分類的準確程度越高。

所述分類模型可以是隨機森林模型或者邏輯迴歸模型等。以隨機森林模型為例，假如訓練樣本D=(x,y)，其中x

R ^n*d是模型輸入資料；y

R ^n*1是樣本標籤，樣本標籤比如表示樣本事件是否涉及洗錢，也即，是否為疑似洗錢交易；進而，根據訓練樣本資料x和樣本標籤y和，構建決策樹，根據構建的多個決策樹訓練得到隨機森林模型。

在本說明書實施例中，根據風險特徵資料，可以產生對應的子報文。所述多個風險特徵分別有對應的子報文字數，可以預先確定或者預估子報文字數。

在這種情況下，對於步驟S204，所述根據所述特徵權重和預定條件，篩選出至少部分所述風險特徵，具體可以包括：根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序；根據所述第一排序結果、所述子報文字數，以及預定條件，篩選出至少部分風險特徵。

以子報文字數是預先為風險特徵定義的子報文模板的預定字數為例。子報文模板可以包含風險特徵和對應的描述語句，可以是預先建立各風險特徵與描述語句之間的對應關係；比如，<特徵1，描述語句1>，<特徵2，描述語句2>，<特徵3，描述語句3>，一般將風險特徵具體的取值代入描述語句，即可以得到子報文。則描述語句的預設字數即為上述的預定字數。

進一步地，所述根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序，具體可以包括：確定所述多個風險特徵按照所述特徵權重大小，進行第二排序得到的第二排序結果；根據所述第二排序結果，選取所述多個風險特徵中的至少部分風險特徵；根據所述特徵權重及對應的所述子報文字數，對所述選取的風險特徵進行第一排序。

在實際應用中，當風險特徵較多時，可以先對風險特徵進行排序和/或預篩選等處理，再正式地進行篩選，如此有利於減少篩選所耗費的處理資源。

例如，假定按照特徵權重由大到小的順序，對風險特徵進行第二排序，可以將第二排序結果中比較靠後的風險特徵剔除，保留靠前的風險特徵。

需要說明的是，預篩選(基於上述的第二排序進行)並非一個必須的步驟，可以根據實際需求決定是否執行。

在本說明書實施例中，所述根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序，具體可以包括：根據所述風險特徵對應的所述特徵權重和所述子報文字數，計算所述風險特徵對應的單位字數權重；按照所述單位字數權重，對所述多個風險特徵進行第一排序。

單位字數權重可以表示：子報文中每個字對其對應的特徵權重的平均貢獻。更直觀地，比如，單位字數權重可以等於特徵權重除以對應的子報文字數。

當然，也可以基於單位字數權重以外的其他指標對風險特徵進行排序以及篩選，比如，單位字數資訊量等。

前面在說明方案思路時提到，利用貪心搜索策略進行近似求解。下面先示出近似求解過程，再進行分析。

在本說明書實施例中，所述根據所述第一排序結果、所述子報文字數，以及預定條件，篩選出至少部分風險特徵，具體可以包括：根據所述第一排序結果，針對所述第一排序結果包含的各風險特徵，按照單位字數權重從大到小的順序，進行遍歷，針對當前風險特徵執行：將當前風險特徵加入設定集合，判斷所述設定集合中包含的風險特徵對應的子報文字數之和是否符合預定條件；若是，遍歷至下一個風險特徵；否則，將當前風險特徵從所述設定集合中剔除，結束遍歷過程，將所述設定集合中包含的風險特徵作為篩選出的至少部分風險特徵；其中，所述設定集合初始時為空集。

在實際應用中，在上述判斷過程中，若判斷結果為否，也未必要結束遍歷操作，比如，可以繼續按順序嘗試選擇後面的風險特徵加入設定集合，再看是否滿足約束條件。

在本說明書實施例中，對於所述遍歷至下一個風險特徵的步驟，具體可以包括：確定所述設定集合對應於所述分類模型的分類準確性度量指標；判斷該分類準確性度量指標是否不大於加入當前風險特徵前的所述設定集合對應於所述分類模型的分類準確性度量指標；若是，將當前風險特徵從所述設定集合中剔除，遍歷至下一個風險特徵；否則，遍歷至下一個風險特徵。

為了避免混淆，舉例對所述加入當前風險特徵前的所述設定集合進行說明。例如，設定集合中已加入了9個風險特徵(假定將此時的設定集合稱為：當前集合)，接下來要加入第10個風險特徵(也即，當前風險特徵)，則所述加入當前風險特徵前的所述設定集合指：該當前集合。

上面示出了利用貪心搜索策略進行近似求解的過程，下面進行分析。

若要獲得上述的理想的目標，則需要對風險特徵子集合S ^'進行窮舉，以求得在滿足報文長度約束條件的情況下對應的AUC(分類準確性度量指標的一種示例)最大的S ^'。

而貪心搜索策略則避免了窮舉，其基於第一排序結果，依次對風險特徵進行優選，每次選入剩餘各風險特徵中最優(在上例中，最優指單位字數權重最大)的風險特徵，直至達到報文長度約束條件的限制。並且，近似地認為每次加入風險特徵後對應的AUC都會變大，從而避免每次都計算AUC，可以節省處理資源，以及提高篩選效率。

當然，更精確地，也可以每次都計算AUC。原因在於：新加入的風險特徵也有可能使得AUC降低；在這種情況下，可以將該風險特徵剔除。

例如，存在一個風險特徵S ⁽ⁱ⁾與已獲得的設定集合S ^'相關性強，或者S ⁽ⁱ⁾包含的雜訊明顯，該風險特徵S ⁽ⁱ⁾會導致分類模型的分類能力下降或不變(也即，分類準確性度量指標下降或不變)，則可以把S ⁽ⁱ⁾剔除出S ^'。

在本說明書實施例中，基於篩選風險特徵，可以進一步地為諸如疑似洗錢交易等待描述的風險事件產生描述報文，其中，是否是風險事件可以基於人工經驗判定。

例如，獲取待描述事件，分別針對篩選出至少部分風險特徵，產生對應於待描述事件的子報文，對各子報文進行拼裝，得到待描述事件的描述報文。另外，為了提高效率，可以利用預定義的子報文模板，產生子報文。

基於同樣的思路，本說明書實施例還提供了一種描述報文產生方法的流程示意圖，如圖3所示。

圖3中的流程可以包括以下步驟：

S302：獲取待描述事件。

S304：確定篩選出的各風險特徵。

在本說明書實施例中，風險特徵可以在該流程執行前預先篩選，也可以在獲取待描述事件後再篩選。

S306：根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

在實際應用中，可以一邊篩選風險特徵，一邊產生對應的子報文，也可以在全部風險特徵篩選完畢後，再產生子報文。進而，可以得到由子報文構成的描述報文。

藉由圖3的方法，有利於為待描述事件產生更有參考性的描述報文。

更直觀地，本說明書實施例還提供了為可疑交易產生的描述報文的一種內容構成示例，描述報文比如包括六部分內容，每部分對應於一個或多個風險特徵：第一，概述可疑交易情況；第二，表述發現可疑交易的過程，例如，時間、地點等資訊；第三，可疑帳戶開戶情況，例如，開戶資料的基本情況等；第四，可疑交易的總體情況，例如，交易的時間段、涉及交易次數和金額、資金的來源和去向、交易流程等；第五，可疑點分析，逐條列舉可疑點，例如，開銷戶資訊和交易過程中的其他可疑資訊等；第六，對報文進行判斷，結合所有的資料分析和主觀判斷，對交易給出最終標籤，例如，疑似洗錢交易。

圖4為本說明書實施例提供的描述報文的部分截圖的示意圖，圖4中示出了上述六部分中的部分內容。基於本說明書實施例產生的描述報文，可以突出重點，而且不會超過報文長度限制。

在一種實際應用場景下，針對疑似洗錢交易可以產生的描述報文有兩類。一類是上面各實施例所述的描述報文，稱為確定性報文，這部分報文通常是直接根據客觀資料得到的，不摻雜主觀分析資料；另一類稱為不確定性報文，這部分報文可以摻雜主觀分析資料。在這種情況下，上述的報文長度約束條件是針對確定性報文的。

本說明書實施例提供一種基於疑似洗錢交易自動產生描述報文模型的建模方案，該方案可以包括以下步驟：給定一個帶標籤的訓練樣本集合D(X,Y)，其中，X

R ^n*d是樣本模型輸入資料，Y

R ^n*1是樣本標籤，樣本標籤可以表示樣本事件是否為洗錢交易。

把訓練樣本的多個風險特徵構成的集合記為S，|S|=d，給定D的分類模型f(D)，希望藉由該分類模型找到至少部分風險特徵構成的集合S ^'

S，對應的確定性報文記為M(S ^')，使得M(S ^')的長度不大於給定的閾值λ-θ，也即：|M(S ^')|

λ-θ，其中，λ為確定性報文與不確定性報文總的約束長度，θ為不確定性報文的約束長度，則λ-θ為確定性報文的約束長度(也即，上述的預定的報文長度約束條件)。各約束長度通常根據實際情況(比如，審理人員不同、環境不同等)預先設定。

理想的目標是篩選出一個最優的特徵集合S ^*

S，使得S ^*對應的資料集在分類器f(D(S*))下的AUC結果AUC(D,S ^',f)最大，也就是求解如下的組合優化問題：

s.t.：|M(S ^')|

λ-θ；其中，目標函數AUC(D,S ^',f)表示每次按某種方案選取特徵子集S ^'後，D在分類器f(X)下的AUC。

當然，根據前面的分析可知，要達到這種理想的目標成本較高，因此，退而求其次，利用貪心搜索策略近似求解。圖5為本說明書實施例中提供的一種自動報文演算法的示意圖，即反映了該近似求解過程。

在圖5中，特徵權重倒排表即為上述的第二排序結果，S ^'即為上述的設定集合，步驟3即為上述的遍歷篩選風險特徵的過程。需要說明的是，圖5中是一邊篩選風險特徵，一邊產生子報文的，風險特徵篩選完畢時，即已經得到構成確定性報文的各子報文。

進一步地，本說明書實施例還提供了一種實際應用場景下的可疑交易甄別流程示意圖，如圖6所示。

圖6中的流程主要包括：基於可疑規則產生描述報文產生任務，其中，該任務是針對疑似洗錢交易的；進一步地，可以利用本說明書的方案自動執行該任務(也即，為疑似洗錢交易產生描述報文)；再針對該描述報文進行人工初審以及人工複審。

基於同樣的思路，本說明書實施例還提供了對應的裝置，如圖7、圖8所示。

圖7為本說明書實施例提供的對應於圖2的一種風險特徵篩選裝置的結構示意圖，包括：獲取模組701，獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；篩選模組702，根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

可選地，所述裝置還包括權重確定模組703；所述權重確定模組703根據利用樣本事件訓練得到的分類模型得到所述特徵權重，具體包括：所述權重確定模組703利用樣本事件訓練得到分類模型；分別針對所述多個風險特徵執行：獲取所述樣本事件中對應於該風險特徵的資料；根據所述對應於該風險特徵的資料，計算該風險特徵對應於所述分類模型的分類準確性度量指標；根據該分類準確性度量指標，得到該風險特徵的特徵權重。

可選地，所述多個風險特徵分別有對應的子報文字數；所述篩選模組702根據所述特徵權重和預定條件，篩選出至少部分風險特徵，具體包括：所述篩選模組702根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序；根據所述第一排序結果、所述子報文字數，以及預定條件，篩選出至少部分風險特徵。

可選地，所述篩選模組702根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序，具體包括：所述篩選模組702確定所述多個風險特徵按照所述特徵權重大小，進行第二排序得到的第二排序結果；根據所述第二排序結果，選取所述多個風險特徵中的至少部分風險特徵；根據所述特徵權重及對應的所述子報文字數，對所述選取的風險特徵進行第一排序。

可選地，所述篩選模組702根據所述特徵權重及對應的所述子報文字數，對所述多個風險特徵進行第一排序，具體包括：所述篩選模組702根據所述風險特徵對應的所述特徵權重和所述子報文字數，計算所述風險特徵對應的單位字數權重；按照所述單位字數權重，對所述多個風險特徵進行第一排序。

可選地，所述篩選模組702根據所述第一排序結果、所述子報文字數，以及預定條件，篩選出至少部分風險特徵，具體包括：所述篩選模組702根據所述第一排序結果，針對所述第一排序結果包含的各風險特徵，按照單位字數權重從大到小的順序，進行遍歷，針對當前風險特徵執行：將當前風險特徵加入設定集合，判斷所述設定集合中包含的風險特徵對應的子報文字數之和是否符合預定條件；若是，遍歷至下一個風險特徵；否則，將當前風險特徵從所述設定集合中剔除，結束遍歷過程，將所述設定集合中包含的風險特徵作為篩選出的至少部分風險特徵；其中，所述設定集合初始時為空集。

可選地，所述篩選模組702遍歷至下一個風險特徵，具體包括：所述篩選模組702確定所述設定集合對應於所述分類模型的分類準確性度量指標；判斷該分類準確性度量指標是否不大於加入當前風險特徵前的所述設定集合對應於所述分類模型的分類準確性度量指標；若是，將當前風險特徵從所述設定集合中剔除，遍歷至下一個風險特徵；否則，遍歷至下一個風險特徵。

可選地，所述分類準確性度量指標包括受試者工作特徵曲線下面積(AUC)。

可選地，所述裝置還包括：報文產生模組704，獲取待描述事件；分別針對篩選出至少部分風險特徵，產生對應於所述待描述事件的子報文，根據各所述子報文，為所述待描述事件產生描述報文。

可選地，所述待描述事件被判定為風險事件，所述風險事件為疑似洗錢交易。

圖8為本說明書實施例提供的對應於圖3的一種描述報文產生裝置的結構示意圖，包括：獲取模組801，獲取待描述事件；確定模組802，確定篩選出的各風險特徵；產生模組803，根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

基於同樣的思路，本說明書實施例還提供了一種電子設備，包括：至少一個處理器；以及，與所述至少一個處理器通訊連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

基於同樣的思路，本說明書實施例還提供了另一種電子設備，包括：至少一個處理器；以及，與所述至少一個處理器通訊連接的記憶體；其中，所述記憶體儲存有可被所述至少一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器能夠：獲取待描述事件；確定篩選出的各風險特徵；根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

基於同樣的思路，本說明書實施例還提供了一種非易失性電腦儲存媒體，儲存有電腦可執行指令，所述電腦可執行指令設置為：獲取多個風險特徵分別的特徵權重，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到；根據所述特徵權重和預定條件，篩選出至少部分風險特徵，所述預定條件用於約束根據風險特徵所產生報文的長度。

基於同樣的思路，本說明書實施例還提供了另一種非易失性電腦儲存媒體，儲存有電腦可執行指令，所述電腦可執行指令設置為：獲取待描述事件；確定篩選出的各風險特徵；根據所述篩選出的各風險特徵，為所述待描述事件產生描述報文；其中，所述篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據所述特徵權重和預定條件，篩選出所述各風險特徵，所述特徵權重根據利用樣本事件訓練得到的分類模型得到或者預定義得到，所述預定條件用於約束根據風險特徵所產生報文的長度。

上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於裝置、電子設備、非易失性電腦儲存媒體實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書實施例提供的裝置、電子設備、非易失性電腦儲存媒體與方法是對應的，因此，裝置、電子設備、非易失性電腦儲存媒體也具有與對應方法類似的有益技術效果，由於上面已經對方法的有益技術效果進行了詳細說明，因此，這裡不再贅述對應裝置、電子設備、非易失性電腦儲存媒體的有益技術效果。

在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都藉由將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式邏輯裝置(Programmable Logic Device,PLD)(例如現場可程式閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種集成電路，其邏輯功能由使用者對裝置編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的集成電路晶片。而且，如今，取代手工地製作集成電路晶片，這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始代碼也得用特定的編程語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL (Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到集成電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。

控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用集成電路(Application Specific Integrated Circuit，ASIC)、可程式邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以藉由將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用集成電路、可程式邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。

上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、筆記型電腦、蜂窩電話、相機電話、智慧型電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。

為了描述的方便，描述以上裝置時以功能分為各種單元分別描述。當然，在實施本說明書一個或多個實施例時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。

本領域內的技術人員應明白，本說明書實施例可提供為方法、系統、或電腦程式產品。因此，本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式資料處理設備的處理器以產生一個機器，使得藉由電腦或其他可程式資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可程式資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可程式資料處理設備上，使得在電腦或其他可程式設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內部記憶體。

內部記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性內部記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。內部記憶體是電腦可讀媒體的示例。

電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變隨機存取記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式唯讀記憶體(EEPROM)、快閃記憶體或其他內部記憶體技術、唯讀光碟(CD-ROM)、數位化多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。

還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。

本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構等等。也可以在分散式計算環境中實踐說明書，在這些分散式計算環境中，由藉由通訊網路而被連接的遠端處理設備來執行任務。在分散式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

以上所述僅為本說明書實施例而已，並不用於限制本發明。對於本領域技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本發明的申請專利範圍之內。

Claims

一種風險特徵篩選方法，藉由可程式資料處理設備執行，包括：獲取多個風險特徵分別的特徵權重，該特徵權重是預定義的，或者是藉由以下步驟得到的：利用樣本事件訓練得到分類模型；以及分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重；根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出一個或多個風險特徵。
如申請專利範圍第1項所述的方法，該根據該特徵權重和該多個風險特徵分別對應的該子報文字數，篩選出一個或多個風險特徵，具體包括：根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序；根據該第一排序結果、該子報文字數，以及預定條件，篩選出一個或多個風險特徵。
如申請專利範圍第2項所述的方法，該根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序，具體包括：確定該多個風險特徵按照該特徵權重大小，進行第二排序得到的第二排序結果；根據該第二排序結果，選取該多個風險特徵中的一個或多個風險特徵；根據該特徵權重及對應的該子報文字數，對該選取的風險特徵進行第一排序。
如申請專利範圍第2項所述的方法，該根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序，具體包括：根據該風險特徵對應的該特徵權重和該子報文字數，計算該風險特徵對應的單位字數權重；按照該單位字數權重，對該多個風險特徵進行第一排序。
如申請專利範圍第2項所述的方法，該根據該第一排序結果、該子報文字數，以及預定條件，篩選出一個或多個風險特徵，具體包括：根據該第一排序結果，針對該第一排序結果包含的各風險特徵，按照單位字數權重從大到小的順序，進行遍歷，針對當前風險特徵執行：將當前風險特徵加入設定集合，判斷該設定集合中包含的風險特徵對應的子報文字數之和是否符合預定條件；若是，遍歷至下一個風險特徵；否則，將當前風險特徵從該設定集合中剔除，結束遍歷過程，將該設定集合中包含的風險特徵作為篩選出的該一個或多個風險特徵；其中，該設定集合初始時為空集。
如申請專利範圍第5項所述的方法，該遍歷至下一個風險特徵，具體包括：確定該設定集合對應於該分類模型的分類準確性度量指標；判斷該分類準確性度量指標是否不大於加入當前風險特徵前的該設定集合對應於該分類模型的分類準確性度量指標；若是，將當前風險特徵從該設定集合中剔除，遍歷至下一個風險特徵；否則，遍歷至下一個風險特徵。
如申請專利範圍第1項所述的方法，該分類準確性度量指標包括受試者工作特徵曲線下面積(AUC)。
如申請專利範圍第1~7項中任一項所述的方法，該方法還包括：獲取待描述事件；分別針對篩選出的該一個或多個風險特徵，產生對應於該待描述事件的子報文，根據各該子報文，為該待描述事件產生描述報文。
如申請專利範圍第8項所述的方法，該待描述事件被判定為風險事件，該風險事件為疑似洗錢交易。
一種描述報文產生方法，藉由可程式資料處理設備執行，包括：獲取待描述事件；確定篩選出的各風險特徵；根據該篩選出的各風險特徵，為該待描述事件產生描述報文；其中，該篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出該各風險特徵，該特徵權重是預定義的，或者是藉由以下步驟得到的：利用樣本事件訓練得到分類模型；以及分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重。
一種風險特徵篩選裝置，包括：獲取模組，獲取多個風險特徵分別的特徵權重，該特徵權重是預定義的，或者是藉由權重確定模組執行以下步驟得到的：利用樣本事件訓練得到分類模型；分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重；篩選模組，根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出一個或多個風險特徵。該權重確定模組利用樣本事件訓練得到分類模型；分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；根據該分類準確性度量指標，得到該風險特徵的特徵權重。
如申請專利範圍第11項所述的裝置，該篩選模組根據該特徵權重和該多個風險特徵分別對應的該子報文字數，篩選出一個或多個風險特徵，具體包括：該篩選模組根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序；根據該第一排序結果、該子報文字數，以及預定條件，篩選出一個或多個風險特徵。
如申請專利範圍第12項所述的裝置，該篩選模組根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序，具體包括：該篩選模組確定該多個風險特徵按照該特徵權重大小，進行第二排序得到的第二排序結果；根據該第二排序結果，選取該多個風險特徵中的一個或多個風險特徵；根據該特徵權重及對應的該子報文字數，對該選取的風險特徵進行第一排序。
如申請專利範圍第12項所述的裝置，該篩選模組根據該特徵權重及對應的該子報文字數，對該多個風險特徵進行第一排序，具體包括：該篩選模組根據該風險特徵對應的該特徵權重和該子報文字數，計算該風險特徵對應的單位字數權重；按照該單位字數權重，對該多個風險特徵進行第一排序。
如申請專利範圍第12項所述的裝置，該篩選模組根據該第一排序結果、該子報文字數，以及預定條件，篩選出一個或多個風險特徵，具體包括：該篩選模組根據該第一排序結果，針對該第一排序結果包含的各風險特徵，按照單位字數權重從大到小的順序，進行遍歷，針對當前風險特徵執行：將當前風險特徵加入設定集合，判斷該設定集合中包含的風險特徵對應的子報文字數之和是否符合預定條件；若是，遍歷至下一個風險特徵；否則，將當前風險特徵從該設定集合中剔除，結束遍歷過程，將該設定集合中包含的風險特徵作為篩選出的一個或多個風險特徵；其中，該設定集合初始時為空集。
如申請專利範圍第15項所述的裝置，該篩選模組遍歷至下一個風險特徵，具體包括：該篩選模組確定該設定集合對應於該分類模型的分類準確性度量指標；判斷該分類準確性度量指標是否不大於加入當前風險特徵前的該設定集合對應於該分類模型的分類準確性度量指標；若是，將當前風險特徵從該設定集合中剔除，遍歷至下一個風險特徵；否則，遍歷至下一個風險特徵。
如申請專利範圍第11項所述的裝置，該分類準確性度量指標包括受試者工作特徵曲線下面積(AUC)。
如申請專利範圍第11~17項中任一項所述的裝置，該裝置還包括：報文產生模組，獲取待描述事件；分別針對篩選出一個或多個風險特徵，產生對應於該待描述事件的子報文，根據各該子報文，為該待描述事件產生描述報文。
如申請專利範圍第18項所述的裝置，該待描述事件被判定為風險事件，該風險事件為疑似洗錢交易。
一種描述報文產生裝置，包括：獲取模組，獲取待描述事件；確定模組，確定篩選出的各風險特徵；產生模組，根據該篩選出的各風險特徵，為該待描述事件產生描述報文；其中，該篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出該各風險特徵，該特徵權重是預定義的，或者是藉由以下步驟得到的：利用樣本事件訓練得到分類模型；以及分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重。
一種風險特徵篩選電子設備，包括：至少一個處理器；以及，與該至少一個處理器通訊連接的記憶體；其中，該記憶體儲存有可被該至少一個處理器執行的指令，該指令被該至少一個處理器執行，以使該至少一個處理器能夠：獲取多個風險特徵分別的特徵權重，該特徵權重是預定義的，或者是藉由以下步驟得到的：利用樣本事件訓練得到分類模型；以及分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重；根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出一個或多個風險特徵。
一種描述報文產生電子設備，包括：至少一個處理器；以及，與該至少一個處理器通訊連接的記憶體；其中，該記憶體儲存有可被該至少一個處理器執行的指令，該指令被該至少一個處理器執行，以使該至少一個處理器能夠：獲取待描述事件；確定篩選出的各風險特徵；根據該篩選出的各風險特徵，為該待描述事件產生描述報文；其中，該篩選出各風險特徵包括：獲取多個風險特徵分別的特徵權重，根據該特徵權重和該多個風險特徵分別對應的子報文字數，篩選出該各風險特徵，該特徵權重是預定義的，或者是藉由以下步驟得到的：利用樣本事件訓練得到分類模型；以及分別針對該多個風險特徵執行：獲取該樣本事件中對應於該風險特徵的資料；根據該對應於該風險特徵的資料，計算該風險特徵對應於該分類模型的分類準確性度量指標；以及根據該分類準確性度量指標，得到該風險特徵的特徵權重。