TW201935387A - 反洗錢方法、裝置及設備 - Google Patents
反洗錢方法、裝置及設備 Download PDFInfo
- Publication number
- TW201935387A TW201935387A TW107146611A TW107146611A TW201935387A TW 201935387 A TW201935387 A TW 201935387A TW 107146611 A TW107146611 A TW 107146611A TW 107146611 A TW107146611 A TW 107146611A TW 201935387 A TW201935387 A TW 201935387A
- Authority
- TW
- Taiwan
- Prior art keywords
- money laundering
- user
- money
- laundering
- feature
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本說明書實施例公開了一種反洗錢方法、裝置及設備。通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類,提高審理效率,當識別精準度達到一定程度時可以實現全自動的審理。
Description
本說明書涉及計算機技術領域,尤其涉及一種反洗錢方法、裝置及設備。
隨著社會發展,通過金融機構的業務進行洗錢的行為越來越多,相應的,金融機構需要開展有針對性的反洗錢業務。
在當前技術中,金融機構通過流程、規則等方式控制系統內的洗錢風險。一般在反洗錢規則稽核以後,通過搜集和調查相關資訊,根據相關資訊是否符合反洗錢規則,進行人工審理,判定用戶是否洗錢以及可能的洗錢類型。
基於此,需要一種更有效的反洗錢方案。
在當前技術中,金融機構通過流程、規則等方式控制系統內的洗錢風險。一般在反洗錢規則稽核以後,通過搜集和調查相關資訊,根據相關資訊是否符合反洗錢規則,進行人工審理,判定用戶是否洗錢以及可能的洗錢類型。
基於此,需要一種更有效的反洗錢方案。
本說明書實施例提供一種反洗錢方法、裝置及設備,用於解決如下問題:以提供一種更有效的反洗錢方案。
基於此,本說明書實施例提供一種反洗錢方法,包括:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別
同時,本說明書的實施例還提供一種反洗錢裝置,包括:
獲取模組,針對任一用戶,獲取該用戶的多個洗錢特徵;
生成模組,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
確定模組,根據所述識別結果確定該用戶的洗錢類別。
對應的,本說明書實施例還提供一種反洗錢設備,包括:
儲存器,儲存有反洗錢程式;
處理器,調用所述儲存器中的反洗錢程式,並執行:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
對應的,本說明書的實施例還提供一種非揮發性計算機儲存媒體,儲存有計算機可執行指令,所述計算機可執行指令設置為:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果:
通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類,提高審理效率,當識別精準度達到一定程度時可以實現全自動的審理。此外,在審理結束後,還可以根據對洗錢用戶的特徵進行統計計算,從而獲得與犯罪類型最相關的推薦特徵,並添加至相應的模型特徵庫,進一步提高模型的預測準確度;通過採用同時維護多個不同時間段的模型進行加權識別,從而保證模型可以跟上實際情況的變化,使識別準確率能持續達到最優效果。
基於此,本說明書實施例提供一種反洗錢方法,包括:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別
同時,本說明書的實施例還提供一種反洗錢裝置,包括:
獲取模組,針對任一用戶,獲取該用戶的多個洗錢特徵;
生成模組,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
確定模組,根據所述識別結果確定該用戶的洗錢類別。
對應的,本說明書實施例還提供一種反洗錢設備,包括:
儲存器,儲存有反洗錢程式;
處理器,調用所述儲存器中的反洗錢程式,並執行:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
對應的,本說明書的實施例還提供一種非揮發性計算機儲存媒體,儲存有計算機可執行指令,所述計算機可執行指令設置為:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果:
通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類,提高審理效率,當識別精準度達到一定程度時可以實現全自動的審理。此外,在審理結束後,還可以根據對洗錢用戶的特徵進行統計計算,從而獲得與犯罪類型最相關的推薦特徵,並添加至相應的模型特徵庫,進一步提高模型的預測準確度;通過採用同時維護多個不同時間段的模型進行加權識別,從而保證模型可以跟上實際情況的變化,使識別準確率能持續達到最優效果。
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基於本說明書中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。
在當前技術中,對用戶進行反洗錢審理時,目前行業內還是以人工搜集資訊和分析為主,審理效率非常低下。有些審理系統會針對用戶的可疑資訊和特徵做聚合方便分析,甚至會做單獨針對某種可疑類型(例如賭博、詐騙、傳銷等等)的識別模型,當用戶符合該模式時輔助審理,但是覆蓋面很低,而且人工維護成本非常大,在反洗錢領域中可能的可疑類型非常多,用人工一個個做模型覆蓋非常不現實。
基於此,本說明書實施例提供一種反洗錢方案,通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類。
如圖1所示,圖1為本說明書實施例所提供的反洗錢方法的流程示意圖,包括如下步驟:
S101,針對任一用戶,獲取該用戶的多個洗錢特徵。
這裡所述的洗錢特徵可以包括諸如交易金額、轉入/轉出次數、轉帳頻率、交易對象的地點、包含有關鍵詞匯(例如“匯兌”或者“換錢”等等)的次數等等。獲取用戶特徵的方式,可以是通過接收人工輸入參數的方式,也可以是採用模型可識別的格式的方式進行批量輸入,效率更高。
S103,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果。
所述的洗錢識別模型可以是諸如神經網路模型(Nerual Network)、支持向量機(Support Vector Machine,SVM)、隨機森林等等模型,所述識別結果與採用的模型相關。例如,當採用深度神經網路模型進行識別時,其識別結果為一個概率表徵用戶類型的多維向量標簽;當採用隨機森林進行識別時,其識別結果為根據用戶特徵生成的決策樹。換言之,所述預先訓練得到的洗錢識別模型即為根據預設的算法、參數和樣本訓練得到的分類器,所述識別結果即為分類器根據該用戶的洗錢特徵生成的對應模型下的輸出值。
S105,根據所述識別結果確定該用戶的洗錢類別。
所述的洗錢類別包括是否洗錢以及洗錢的具體類型,例如該用戶的洗錢方式是賭博還是傳銷等等。具體而言,即根據模型的輸出值確定該用戶的具體類型,在神經網路模型下,即為根據其輸出的多維向量每一維的概率大小對該用戶的洗錢類別進行確定。
通過上述方案,採用預先訓練洗錢識別模型的方式,獲取用戶的洗錢特徵之後,輸入值該模型,即可得到對應的輸出值,並且根據該輸出值進行審理,極大的提高了審查效率。
在實際應用中,對於步驟S103中,預先訓練得到的洗錢識別模型,可通過如下方式得到:
確定與洗錢行為相關的多個洗錢特徵;獲取已標注用戶類別的用戶樣本,其中,所述用戶樣本至少包括一個所述洗錢特徵;根據所述已標注的用戶樣本和所述洗錢特徵,進行模型訓練,生成所述洗錢識別模型。
換言之,在該部分訓練模型的過程中,採用的方式為監督學習。在訓練模型之前,需要收集相關的黑白標簽樣本(包括用戶的洗錢類型或者用戶無洗錢行為)以及相關的洗錢特徵(即,確定哪些特徵對判斷最終的洗錢類型是有價值的),從而建立起專門的標簽庫和洗錢特徵庫。進而根據標簽庫和特徵庫進行模型訓練,當訓練得到的洗錢識別模型的準確率或者精確率等評估指標達到預期時,即得到所述預先訓練得到的洗錢識別模型。
在上述方案中,對於特徵庫中的相關洗錢特徵而言,有些洗錢特徵可能過於粗糙,而使得在該特徵下失去統計意義。基於此,需要針對該特徵進行進一步的處理,可採用如下方式:
針對任一已確定的洗錢特徵,按照預設的規則,生成多個與所述洗錢特徵相關的子特徵;從而在該方式下進行模型訓練時,需要根據子特徵進行模型訓練,即,根據所述已標注的所述用戶樣本、所述洗錢特徵和所述子特徵,進行模型訓練,生成所述洗錢識別模型。
所述預設的規則包括對洗錢特徵進行分箱或者對某幾個特徵合併處理。以特徵分箱為例,若預先確定的洗錢特徵包括“用戶最近30天流入的金額”,這個洗錢特徵在一定程度有參考意義,但是可能太過粗糙,分辨率不夠,容易造成模型的過擬合。基於此,將該特徵離散為多個子特徵,分別包括:小於等於1萬元、大於1萬元且小於等於10萬元、大於10萬元且小於等於100萬元、大於100萬元以上且小於等於1000萬元、大於1000萬元這五段。每個用戶一定會被分配到某一個段裡,每個子特徵是一個0或者1的二維變量,這樣該用戶在某段的特徵值是1,而且其他段的特徵值是0。例如,某用戶30天內流入的金額為50萬元,那麼該用戶在這個洗錢特徵上對應的值為(0,0,1,0,0)。
此外,在進行特徵分箱的時候也可以採用等頻分箱的方式,等頻分箱是對特徵進行排序,按分位點的方式選取用戶指定的N個分位點作為分箱邊界,若相鄰分位點相同則將兩個分箱合併,因此分箱結果中有可能少於用戶指定的分箱個數。例如,對於一批用戶,統計出來用戶的轉帳筆數特徵4個分位點(20%,40%,60%,80%)為10筆,20筆,50筆,100筆,那麼就按這4個點分成5段。即不再取用戶本身的轉帳筆數,而是認為前20%用戶的轉帳筆數為10,20%至40%的用戶轉帳筆數為20等等,以此類推。
通過特徵分箱獲得多個子特徵,將有特徵相似的用戶聚在一起,減少異常點的干擾,以及保證每個分段下的子特徵具有統計意義,有效降低了洗錢識別模型的過擬合程度。
在對於黑白標簽樣本的處理過程中,由於不僅需要標注該樣本是否屬於洗錢用戶,還需標注其屬於哪種洗錢類別,從而在實際應用中,可以採取如下方式進行:在獲取已標注用戶類別的用戶樣本之後,根據所述用戶類別,確定所述用戶樣本所對應的獨熱編碼。
獨熱編碼即One-Hot編碼,又稱一位有效編碼。例如總共有3種類型的標簽:地下錢莊、傳銷、不可疑。每個用戶只會對應到其中一種,那麼對應的那種類型就為1,其他為0。例如某個用戶樣本為地下錢莊,那麼該用戶的標簽為(1,0,0);如果是不可疑,那麼標簽為(0,0,1)。通過採取one-hot的方式進行樣本標簽向量化,可以有效的對多種類型的洗錢行為同時進行標注,以便模型可以在訓練之後,對多種類型的洗錢行為同時進行識別分類,無需單獨針對某種洗錢行為單獨開發對應的識別模型。
作為一種具體的實施方式,當所採用的洗錢識別模型為深度神經網路模型DNN時,對於S103中的根據所述洗錢特徵生成所述用戶的識別結果,具體包括:採用所述深度神經網路,根據所述洗錢特徵生成標簽向量,其中,所述標簽向量包括多個維度,每個維度對應一種洗錢類別;根據所述識別結果確定該用戶的洗錢類別,包括:獲取所述標簽向量中各維度的概率值;確定概率值最大的維度對應的洗錢類別為所述用戶的洗錢類別。
如圖2所示,圖2為深度神經網路進行分類識別的示意圖,深度神經網路DNN模型一般包括多層,其第一層是特徵輸入層,最後一層是輸出層,輸出一個多維的標簽向量,每個維度對應一種洗錢類別,在每個維度上通過概率值來表徵每種類型類型的概率大小。需要說明的是,在DNN輸出層中,每一個洗錢類別的概率是分開計算的,有時候某種用戶在每個洗錢類別下的概率都比較低,可能加起來不到1。有時候用戶的特徵和好幾個模式都像,在各個洗錢類別下的概率都接近1。
在本說明書的實施例中,可以根據預先設立的標簽庫和特徵庫,通過前向傳播的方法建立基於交叉熵的損失函數,然後通過隨機梯度下降法來逐步更新迭代深度網路裡的每個權重值,經過多輪迭代後,最終達到最優值,從而訓練實現一次模型建立。進而對於任一用戶,只要輸入這個用戶的所有特徵資訊,即可以輸出一個標簽向量,取數值最大的那一維所對應的類型,作為這個用戶的洗錢類別。
在實際應用中,隨著洗錢和反洗錢雙方的對抗升級,洗錢行為的方式也是在不斷變化的,換言之,用戶的洗錢特徵和洗錢類別的對應關係是隨著時間或者地點等因素有著緊密聯繫的。例如,隨著時間推移,某些老式的洗錢手法被拋棄,此時則有可能導致某些特徵會失效,審理人員需要加入新的特徵。基於此,為保證模型的預測準確率能持續達到最優效果,可採用如下方式進行,採用多個預先訓練得到的洗錢識別模型時,根據所述洗錢特徵生成所述用戶的洗錢類別,具體包括:
確定每個洗錢識別模型的權重;針對任一用戶,每個洗錢識別模型根據所述用戶的洗錢特徵,生成該用戶的識別結果;根據所述已確定的權重對各洗錢模型生成的識別結果進行加權,生成加權後的識別結果。
具體根據哪種因素進行多個模型的訓練,可以根據實際情況進行確定。例如,若認為用戶的洗錢行為是根據時間進行改變的,則可以選取不同時間段的初始樣本,進行訓練,得到多個模型,以對以後的待識別用戶進行加權識別。若認為用戶的洗錢行為是根據地點進行改變的,也可以選取不同地點的初始樣本,分別訓練多個模型進行加權識別。
對於時間因素而言,訓練得到多個模型的方式如下:獲取多個不同時間段上的用戶樣本;採用同樣的算法和參數,根據所述不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
例如,每隔一個月,從最新的標簽庫和特徵庫裡取出帶標簽樣本和特徵,進行模型訓練。為保持模型識別的穩定性,將多個模型的識別結果進行加權,來作為最終的預測值。例如,動態的維護一個包含三個模型的模型序列,分別是1月份模型、2月份模型和3月份模型,其權重分別是0.2、0.3和0.5,對於最終的預測結果,通過加權得到。在深度神經網路模型下,1月份的識別結果是標簽向量A1 ,2月份的模型預測值是A2 ,3月份的模型預測值是A3 ,那麼最終的識別結果為A=0.2*A1 +0.3*A2 +0.5*A3 ,基於A再確定該用戶的洗錢類別。如果4月份新訓練一個模型,那麼模型序列就是(2月份模型,3月份模型,4月份模型),權重可以基於經驗進行調整或者不予變化。
在確定了用戶的洗錢類型並加入至標簽庫之後,還可以根據標簽庫中的資料進行推薦和這個犯罪類型最相關的洗錢特徵,具體方法包括:獲取已確定洗錢類別的用戶所包含的洗錢特徵;根據預設的資訊價值(Information Value,IV)計算規則,獲取每個洗錢特徵的IV值;根據所述洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據所述待推薦的洗錢特徵再次訓練所述洗錢識別模型。
對於IV值的計算方式,當前技術中已經比較成熟,此處不再贅述。上述方案中,IV值表徵了洗錢特徵對洗錢類型的區分度的大小。
換言之,添加新的洗錢特徵至特徵庫和訓練洗錢識別模型是一個互相迭代的過程。如圖3所示,圖3為本說明書實施例所提供的執行流程邏輯示意圖。特別在初始模型訓練的過程中,通過從標簽庫或者歷史資料中去計算和統計每個洗錢類型對應的特徵的重要度,從而得到那些具有較高區分度的特徵,並且可以根據具有較高區分度的特徵確定一些待推薦的洗錢特徵,添加至特徵庫中,以便再次訓練,從而得到區分度更高的洗錢識別模型。上述待推薦的洗錢特徵可以是那些具有較高IV值的洗錢特徵本身,也可以是其他根據經驗引申得到的相關特徵。
作為一種具體的實施方式,在實際應用中,通過模型識別生成識別結果之後,還包括:根據所述用戶的洗錢類別和待推薦的洗錢特徵生成關於所述用戶的審理資訊;展示所述審理資訊。即,還可以將結果展示出來,以便人工再次進行審核確認,以提高審核的準確率。例如,按照IV值大小進行排序,取IV值最大的topN特徵為待推薦的特徵進行展示。如圖4所示,圖4為本說明書實施例所提供的審核結果展示示意圖。
本說明書實施例所提供的方案,通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類,提高審理效率,當識別精準度達到一定程度時可以實現全自動的審理。此外,在審理結束後,還可以根據對洗錢用戶的特徵進行統計計算,從而獲得與犯罪類型最相關的推薦特徵,並添加至相應的模型特徵庫,進一步提高模型的預測準確度;通過採用同時維護多個不同時間段的模型進行加權識別,從而保證模型可以跟上實際情況的變化,使識別準確率能持續達到最優效果。
基於同樣的思路,本發明還提供一種反洗錢裝置,如圖5所示,圖5為本說明書實施例所提供的反洗錢裝置的結構示意圖,包括:
獲取模組501,針對任一用戶,獲取該用戶的多個洗錢特徵;
生成模組503,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
確定模組505,根據所述識別結果確定該用戶的洗錢類別。
進一步地,所述裝置還包括模型訓練模組507,確定與洗錢行為相關的多個洗錢特徵;獲取已標注用戶類別的用戶樣本,其中,所述用戶樣本至少包括一個所述洗錢特徵;根據所述已標注的用戶樣本和所述洗錢特徵,進行模型訓練,生成所述洗錢識別模型。
進一步地,所述確定模組501,針對任一已確定的洗錢特徵,按照預設的規則,生成多個與所述洗錢特徵相關的子特徵;所述模型訓練模組,根據所述已標注的用戶樣本、所述洗錢特徵和所述子特徵,進行模型訓練,生成所述洗錢識別模型。
進一步地,所述裝置還包括編碼模組509,根據所述用戶類別,確定所述用戶樣本所對應的獨熱編碼。
進一步地,所述生成模組503,採用所述深度神經網路,根據所述洗錢特徵生成標簽向量,其中,所述標簽向量包括多個維度,每個維度對應一種洗錢類別;所述確定模組,獲取所述標簽向量中各維度的概率值;確定概率值最大的維度對應的洗錢類別為所述用戶的洗錢類別。
進一步地,所述生成模組503,確定每個洗錢識別模型的權重;針對任一用戶,每個洗錢識別模型根據所述用戶的洗錢特徵,生成該用戶的識別結果;根據所述已確定的權重對各洗錢模型生成的識別結果進行加權,生成加權後的識別結果。
進一步地,所述模型訓練模組507,獲取多個不同時間段上的用戶樣本;採用同一同樣的算法和參數,根據所述不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
進一步地,所述裝置還包括特徵推薦模組511,獲取已確定洗錢類別的用戶所包含的洗錢特徵;根據預設的資訊價值IV計算規則,獲取每個洗錢特徵的IV值;根據所述洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據所述待推薦的洗錢特徵再次訓練所述洗錢識別模型。
進一步地,所述裝置還包括展示模組513,根據所述用戶的洗錢類別、待推薦的洗錢特徵生成關於所述用戶的審理資訊;展示所述審理資訊。
對應的,本申請實施例還提供一種反洗錢設備,包括:
儲存器,儲存有反洗錢程式;
處理器,調用所述儲存器中的反洗錢程式,並執行:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
基於同樣的發明思路,本申請實施例還提供了對應的一種非揮發性計算機儲存媒體,儲存有計算機可執行指令,所述計算機可執行指令設置為:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置、設備和媒體類實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可,這裡就不再一一贅述。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在權利要求書中記載的動作或步驟或模組可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可編程邏輯器件(Programmable Logic Device, PLD)(例如現場可編程閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對器件編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的計算機可讀程式代碼(例如軟體或韌體)的計算機可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。本領域技術人員也知道,除了以純計算機可讀程式代碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模組或單元,具體可以由計算機晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為計算機。具體的,計算機例如可以為個人計算機、膝上型計算機、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板計算機、可穿戴設備或者這些設備中的任何設備的組合。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本說明書的實施例時可以把各單元的功能在同一個或多個軟體及/或硬體中實現。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程式產品的流程圖及/或方塊圖來描述的。應理解可由計算機程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些計算機程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得通過計算機或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些計算機程式指令也可儲存在能引導計算機或其他可編程資料處理設備以特定方式工作的計算機可讀儲存器中,使得儲存在該計算機可讀儲存器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。
這些計算機程式指令也可裝載到計算機或其他可編程資料處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內存記憶體。
內存記憶體可能包括計算機可讀媒體中的非永久性儲存器,隨機存取記憶體(RAM)及/或非揮發性內存記憶體等形式,如唯讀記憶體(ROM)或快閃內存記憶體(flash RAM)。內存記憶體是計算機可讀媒體的示例。
計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是計算機可讀指令、資料結構、程式的模組或其他資料。計算機的儲存媒體的例子包括,但不限於相變內存記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內存記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,計算機可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信編號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本說明書中一個或多個的實施例可提供為方法、系統或計算機程式產品。因此,本說明書的實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的形式。而且,本說明書的實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。
本說明書的實施例可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定事務或實現特定抽象資料類型的例程、程式、物件、組件、資料結構等等。也可以在分布式計算環境中實踐本說明書的實施例,在這些分布式計算環境中,由通過通信網路而被連接的遠程處理設備來執行事務。在分布式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠程計算機儲存媒體中。
在當前技術中,對用戶進行反洗錢審理時,目前行業內還是以人工搜集資訊和分析為主,審理效率非常低下。有些審理系統會針對用戶的可疑資訊和特徵做聚合方便分析,甚至會做單獨針對某種可疑類型(例如賭博、詐騙、傳銷等等)的識別模型,當用戶符合該模式時輔助審理,但是覆蓋面很低,而且人工維護成本非常大,在反洗錢領域中可能的可疑類型非常多,用人工一個個做模型覆蓋非常不現實。
基於此,本說明書實施例提供一種反洗錢方案,通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類。
如圖1所示,圖1為本說明書實施例所提供的反洗錢方法的流程示意圖,包括如下步驟:
S101,針對任一用戶,獲取該用戶的多個洗錢特徵。
這裡所述的洗錢特徵可以包括諸如交易金額、轉入/轉出次數、轉帳頻率、交易對象的地點、包含有關鍵詞匯(例如“匯兌”或者“換錢”等等)的次數等等。獲取用戶特徵的方式,可以是通過接收人工輸入參數的方式,也可以是採用模型可識別的格式的方式進行批量輸入,效率更高。
S103,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果。
所述的洗錢識別模型可以是諸如神經網路模型(Nerual Network)、支持向量機(Support Vector Machine,SVM)、隨機森林等等模型,所述識別結果與採用的模型相關。例如,當採用深度神經網路模型進行識別時,其識別結果為一個概率表徵用戶類型的多維向量標簽;當採用隨機森林進行識別時,其識別結果為根據用戶特徵生成的決策樹。換言之,所述預先訓練得到的洗錢識別模型即為根據預設的算法、參數和樣本訓練得到的分類器,所述識別結果即為分類器根據該用戶的洗錢特徵生成的對應模型下的輸出值。
S105,根據所述識別結果確定該用戶的洗錢類別。
所述的洗錢類別包括是否洗錢以及洗錢的具體類型,例如該用戶的洗錢方式是賭博還是傳銷等等。具體而言,即根據模型的輸出值確定該用戶的具體類型,在神經網路模型下,即為根據其輸出的多維向量每一維的概率大小對該用戶的洗錢類別進行確定。
通過上述方案,採用預先訓練洗錢識別模型的方式,獲取用戶的洗錢特徵之後,輸入值該模型,即可得到對應的輸出值,並且根據該輸出值進行審理,極大的提高了審查效率。
在實際應用中,對於步驟S103中,預先訓練得到的洗錢識別模型,可通過如下方式得到:
確定與洗錢行為相關的多個洗錢特徵;獲取已標注用戶類別的用戶樣本,其中,所述用戶樣本至少包括一個所述洗錢特徵;根據所述已標注的用戶樣本和所述洗錢特徵,進行模型訓練,生成所述洗錢識別模型。
換言之,在該部分訓練模型的過程中,採用的方式為監督學習。在訓練模型之前,需要收集相關的黑白標簽樣本(包括用戶的洗錢類型或者用戶無洗錢行為)以及相關的洗錢特徵(即,確定哪些特徵對判斷最終的洗錢類型是有價值的),從而建立起專門的標簽庫和洗錢特徵庫。進而根據標簽庫和特徵庫進行模型訓練,當訓練得到的洗錢識別模型的準確率或者精確率等評估指標達到預期時,即得到所述預先訓練得到的洗錢識別模型。
在上述方案中,對於特徵庫中的相關洗錢特徵而言,有些洗錢特徵可能過於粗糙,而使得在該特徵下失去統計意義。基於此,需要針對該特徵進行進一步的處理,可採用如下方式:
針對任一已確定的洗錢特徵,按照預設的規則,生成多個與所述洗錢特徵相關的子特徵;從而在該方式下進行模型訓練時,需要根據子特徵進行模型訓練,即,根據所述已標注的所述用戶樣本、所述洗錢特徵和所述子特徵,進行模型訓練,生成所述洗錢識別模型。
所述預設的規則包括對洗錢特徵進行分箱或者對某幾個特徵合併處理。以特徵分箱為例,若預先確定的洗錢特徵包括“用戶最近30天流入的金額”,這個洗錢特徵在一定程度有參考意義,但是可能太過粗糙,分辨率不夠,容易造成模型的過擬合。基於此,將該特徵離散為多個子特徵,分別包括:小於等於1萬元、大於1萬元且小於等於10萬元、大於10萬元且小於等於100萬元、大於100萬元以上且小於等於1000萬元、大於1000萬元這五段。每個用戶一定會被分配到某一個段裡,每個子特徵是一個0或者1的二維變量,這樣該用戶在某段的特徵值是1,而且其他段的特徵值是0。例如,某用戶30天內流入的金額為50萬元,那麼該用戶在這個洗錢特徵上對應的值為(0,0,1,0,0)。
此外,在進行特徵分箱的時候也可以採用等頻分箱的方式,等頻分箱是對特徵進行排序,按分位點的方式選取用戶指定的N個分位點作為分箱邊界,若相鄰分位點相同則將兩個分箱合併,因此分箱結果中有可能少於用戶指定的分箱個數。例如,對於一批用戶,統計出來用戶的轉帳筆數特徵4個分位點(20%,40%,60%,80%)為10筆,20筆,50筆,100筆,那麼就按這4個點分成5段。即不再取用戶本身的轉帳筆數,而是認為前20%用戶的轉帳筆數為10,20%至40%的用戶轉帳筆數為20等等,以此類推。
通過特徵分箱獲得多個子特徵,將有特徵相似的用戶聚在一起,減少異常點的干擾,以及保證每個分段下的子特徵具有統計意義,有效降低了洗錢識別模型的過擬合程度。
在對於黑白標簽樣本的處理過程中,由於不僅需要標注該樣本是否屬於洗錢用戶,還需標注其屬於哪種洗錢類別,從而在實際應用中,可以採取如下方式進行:在獲取已標注用戶類別的用戶樣本之後,根據所述用戶類別,確定所述用戶樣本所對應的獨熱編碼。
獨熱編碼即One-Hot編碼,又稱一位有效編碼。例如總共有3種類型的標簽:地下錢莊、傳銷、不可疑。每個用戶只會對應到其中一種,那麼對應的那種類型就為1,其他為0。例如某個用戶樣本為地下錢莊,那麼該用戶的標簽為(1,0,0);如果是不可疑,那麼標簽為(0,0,1)。通過採取one-hot的方式進行樣本標簽向量化,可以有效的對多種類型的洗錢行為同時進行標注,以便模型可以在訓練之後,對多種類型的洗錢行為同時進行識別分類,無需單獨針對某種洗錢行為單獨開發對應的識別模型。
作為一種具體的實施方式,當所採用的洗錢識別模型為深度神經網路模型DNN時,對於S103中的根據所述洗錢特徵生成所述用戶的識別結果,具體包括:採用所述深度神經網路,根據所述洗錢特徵生成標簽向量,其中,所述標簽向量包括多個維度,每個維度對應一種洗錢類別;根據所述識別結果確定該用戶的洗錢類別,包括:獲取所述標簽向量中各維度的概率值;確定概率值最大的維度對應的洗錢類別為所述用戶的洗錢類別。
如圖2所示,圖2為深度神經網路進行分類識別的示意圖,深度神經網路DNN模型一般包括多層,其第一層是特徵輸入層,最後一層是輸出層,輸出一個多維的標簽向量,每個維度對應一種洗錢類別,在每個維度上通過概率值來表徵每種類型類型的概率大小。需要說明的是,在DNN輸出層中,每一個洗錢類別的概率是分開計算的,有時候某種用戶在每個洗錢類別下的概率都比較低,可能加起來不到1。有時候用戶的特徵和好幾個模式都像,在各個洗錢類別下的概率都接近1。
在本說明書的實施例中,可以根據預先設立的標簽庫和特徵庫,通過前向傳播的方法建立基於交叉熵的損失函數,然後通過隨機梯度下降法來逐步更新迭代深度網路裡的每個權重值,經過多輪迭代後,最終達到最優值,從而訓練實現一次模型建立。進而對於任一用戶,只要輸入這個用戶的所有特徵資訊,即可以輸出一個標簽向量,取數值最大的那一維所對應的類型,作為這個用戶的洗錢類別。
在實際應用中,隨著洗錢和反洗錢雙方的對抗升級,洗錢行為的方式也是在不斷變化的,換言之,用戶的洗錢特徵和洗錢類別的對應關係是隨著時間或者地點等因素有著緊密聯繫的。例如,隨著時間推移,某些老式的洗錢手法被拋棄,此時則有可能導致某些特徵會失效,審理人員需要加入新的特徵。基於此,為保證模型的預測準確率能持續達到最優效果,可採用如下方式進行,採用多個預先訓練得到的洗錢識別模型時,根據所述洗錢特徵生成所述用戶的洗錢類別,具體包括:
確定每個洗錢識別模型的權重;針對任一用戶,每個洗錢識別模型根據所述用戶的洗錢特徵,生成該用戶的識別結果;根據所述已確定的權重對各洗錢模型生成的識別結果進行加權,生成加權後的識別結果。
具體根據哪種因素進行多個模型的訓練,可以根據實際情況進行確定。例如,若認為用戶的洗錢行為是根據時間進行改變的,則可以選取不同時間段的初始樣本,進行訓練,得到多個模型,以對以後的待識別用戶進行加權識別。若認為用戶的洗錢行為是根據地點進行改變的,也可以選取不同地點的初始樣本,分別訓練多個模型進行加權識別。
對於時間因素而言,訓練得到多個模型的方式如下:獲取多個不同時間段上的用戶樣本;採用同樣的算法和參數,根據所述不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
例如,每隔一個月,從最新的標簽庫和特徵庫裡取出帶標簽樣本和特徵,進行模型訓練。為保持模型識別的穩定性,將多個模型的識別結果進行加權,來作為最終的預測值。例如,動態的維護一個包含三個模型的模型序列,分別是1月份模型、2月份模型和3月份模型,其權重分別是0.2、0.3和0.5,對於最終的預測結果,通過加權得到。在深度神經網路模型下,1月份的識別結果是標簽向量A1 ,2月份的模型預測值是A2 ,3月份的模型預測值是A3 ,那麼最終的識別結果為A=0.2*A1 +0.3*A2 +0.5*A3 ,基於A再確定該用戶的洗錢類別。如果4月份新訓練一個模型,那麼模型序列就是(2月份模型,3月份模型,4月份模型),權重可以基於經驗進行調整或者不予變化。
在確定了用戶的洗錢類型並加入至標簽庫之後,還可以根據標簽庫中的資料進行推薦和這個犯罪類型最相關的洗錢特徵,具體方法包括:獲取已確定洗錢類別的用戶所包含的洗錢特徵;根據預設的資訊價值(Information Value,IV)計算規則,獲取每個洗錢特徵的IV值;根據所述洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據所述待推薦的洗錢特徵再次訓練所述洗錢識別模型。
對於IV值的計算方式,當前技術中已經比較成熟,此處不再贅述。上述方案中,IV值表徵了洗錢特徵對洗錢類型的區分度的大小。
換言之,添加新的洗錢特徵至特徵庫和訓練洗錢識別模型是一個互相迭代的過程。如圖3所示,圖3為本說明書實施例所提供的執行流程邏輯示意圖。特別在初始模型訓練的過程中,通過從標簽庫或者歷史資料中去計算和統計每個洗錢類型對應的特徵的重要度,從而得到那些具有較高區分度的特徵,並且可以根據具有較高區分度的特徵確定一些待推薦的洗錢特徵,添加至特徵庫中,以便再次訓練,從而得到區分度更高的洗錢識別模型。上述待推薦的洗錢特徵可以是那些具有較高IV值的洗錢特徵本身,也可以是其他根據經驗引申得到的相關特徵。
作為一種具體的實施方式,在實際應用中,通過模型識別生成識別結果之後,還包括:根據所述用戶的洗錢類別和待推薦的洗錢特徵生成關於所述用戶的審理資訊;展示所述審理資訊。即,還可以將結果展示出來,以便人工再次進行審核確認,以提高審核的準確率。例如,按照IV值大小進行排序,取IV值最大的topN特徵為待推薦的特徵進行展示。如圖4所示,圖4為本說明書實施例所提供的審核結果展示示意圖。
本說明書實施例所提供的方案,通過預先訓練得到的模型,對用戶的相關特徵進行自動識別,實現對用戶類型的分類,提高審理效率,當識別精準度達到一定程度時可以實現全自動的審理。此外,在審理結束後,還可以根據對洗錢用戶的特徵進行統計計算,從而獲得與犯罪類型最相關的推薦特徵,並添加至相應的模型特徵庫,進一步提高模型的預測準確度;通過採用同時維護多個不同時間段的模型進行加權識別,從而保證模型可以跟上實際情況的變化,使識別準確率能持續達到最優效果。
基於同樣的思路,本發明還提供一種反洗錢裝置,如圖5所示,圖5為本說明書實施例所提供的反洗錢裝置的結構示意圖,包括:
獲取模組501,針對任一用戶,獲取該用戶的多個洗錢特徵;
生成模組503,採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
確定模組505,根據所述識別結果確定該用戶的洗錢類別。
進一步地,所述裝置還包括模型訓練模組507,確定與洗錢行為相關的多個洗錢特徵;獲取已標注用戶類別的用戶樣本,其中,所述用戶樣本至少包括一個所述洗錢特徵;根據所述已標注的用戶樣本和所述洗錢特徵,進行模型訓練,生成所述洗錢識別模型。
進一步地,所述確定模組501,針對任一已確定的洗錢特徵,按照預設的規則,生成多個與所述洗錢特徵相關的子特徵;所述模型訓練模組,根據所述已標注的用戶樣本、所述洗錢特徵和所述子特徵,進行模型訓練,生成所述洗錢識別模型。
進一步地,所述裝置還包括編碼模組509,根據所述用戶類別,確定所述用戶樣本所對應的獨熱編碼。
進一步地,所述生成模組503,採用所述深度神經網路,根據所述洗錢特徵生成標簽向量,其中,所述標簽向量包括多個維度,每個維度對應一種洗錢類別;所述確定模組,獲取所述標簽向量中各維度的概率值;確定概率值最大的維度對應的洗錢類別為所述用戶的洗錢類別。
進一步地,所述生成模組503,確定每個洗錢識別模型的權重;針對任一用戶,每個洗錢識別模型根據所述用戶的洗錢特徵,生成該用戶的識別結果;根據所述已確定的權重對各洗錢模型生成的識別結果進行加權,生成加權後的識別結果。
進一步地,所述模型訓練模組507,獲取多個不同時間段上的用戶樣本;採用同一同樣的算法和參數,根據所述不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
進一步地,所述裝置還包括特徵推薦模組511,獲取已確定洗錢類別的用戶所包含的洗錢特徵;根據預設的資訊價值IV計算規則,獲取每個洗錢特徵的IV值;根據所述洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據所述待推薦的洗錢特徵再次訓練所述洗錢識別模型。
進一步地,所述裝置還包括展示模組513,根據所述用戶的洗錢類別、待推薦的洗錢特徵生成關於所述用戶的審理資訊;展示所述審理資訊。
對應的,本申請實施例還提供一種反洗錢設備,包括:
儲存器,儲存有反洗錢程式;
處理器,調用所述儲存器中的反洗錢程式,並執行:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
基於同樣的發明思路,本申請實施例還提供了對應的一種非揮發性計算機儲存媒體,儲存有計算機可執行指令,所述計算機可執行指令設置為:
針對任一用戶,獲取該用戶的多個洗錢特徵;
採用預先訓練得到的洗錢識別模型,根據所述洗錢特徵生成所述用戶的識別結果;
根據所述識別結果確定該用戶的洗錢類別。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置、設備和媒體類實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可,這裡就不再一一贅述。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在權利要求書中記載的動作或步驟或模組可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可編程邏輯器件(Programmable Logic Device, PLD)(例如現場可編程閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對器件編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的計算機可讀程式代碼(例如軟體或韌體)的計算機可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。本領域技術人員也知道,除了以純計算機可讀程式代碼方式實現控制器以外,完全可以通過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模組或單元,具體可以由計算機晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為計算機。具體的,計算機例如可以為個人計算機、膝上型計算機、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板計算機、可穿戴設備或者這些設備中的任何設備的組合。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本說明書的實施例時可以把各單元的功能在同一個或多個軟體及/或硬體中實現。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程式產品的流程圖及/或方塊圖來描述的。應理解可由計算機程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些計算機程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得通過計算機或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些計算機程式指令也可儲存在能引導計算機或其他可編程資料處理設備以特定方式工作的計算機可讀儲存器中,使得儲存在該計算機可讀儲存器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。
這些計算機程式指令也可裝載到計算機或其他可編程資料處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內存記憶體。
內存記憶體可能包括計算機可讀媒體中的非永久性儲存器,隨機存取記憶體(RAM)及/或非揮發性內存記憶體等形式,如唯讀記憶體(ROM)或快閃內存記憶體(flash RAM)。內存記憶體是計算機可讀媒體的示例。
計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是計算機可讀指令、資料結構、程式的模組或其他資料。計算機的儲存媒體的例子包括,但不限於相變內存記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內存記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,計算機可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信編號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本說明書中一個或多個的實施例可提供為方法、系統或計算機程式產品。因此,本說明書的實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的形式。而且,本說明書的實施例可採用在一個或多個其中包含有計算機可用程式代碼的計算機可用儲存媒體(包括但不限於磁碟儲存器、CD-ROM、光學儲存器等)上實施的計算機程式產品的形式。
本說明書的實施例可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定事務或實現特定抽象資料類型的例程、程式、物件、組件、資料結構等等。也可以在分布式計算環境中實踐本說明書的實施例,在這些分布式計算環境中,由通過通信網路而被連接的遠程處理設備來執行事務。在分布式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠程計算機儲存媒體中。
501‧‧‧獲取模組
503‧‧‧生成模組
505‧‧‧確定模組
507‧‧‧模型訓練模組
509‧‧‧編碼模組
511‧‧‧特徵推薦模組
513‧‧‧展示模組
圖1為本說明書實施例所提供的反洗錢方法的流程示意圖;
圖2為深度神經網路進行分類識別的示意圖;
圖3為本說明書實施例所提供的執行流程邏輯示意圖;
圖4為本說明書實施例所提供的審核結果展示示意圖;
圖5為本說明書實施例所提供的反洗錢裝置的結構示意圖。
Claims (19)
- 一種反洗錢方法,包括: 針對任一用戶,獲取該用戶的多個洗錢特徵; 採用預先訓練得到的洗錢識別模型,根據該洗錢特徵生成該用戶的識別結果; 根據該識別結果確定該用戶的洗錢類別。
- 如申請專利範圍第1項所述的方法,該預先訓練得到的洗錢識別模型,通過如下方式得到: 確定與洗錢行為相關的多個洗錢特徵; 獲取已標注洗錢類別的用戶樣本,其中,該用戶樣本至少包括一個該洗錢特徵; 根據該已標注的用戶樣本和該洗錢特徵,進行模型訓練,生成該洗錢識別模型。
- 如申請專利範圍第2項所述的方法,該確定與洗錢行為相關的多個洗錢特徵,包括: 針對任一已確定的洗錢特徵,按照預設的規則,生成多個與該洗錢特徵相關的子特徵; 根據該已標注的該用戶樣本和該洗錢特徵,進行模型訓練,生成該洗錢識別模型,包括: 根據該已標注的該用戶樣本、該洗錢特徵和該子特徵,進行模型訓練,生成該洗錢識別模型。
- 如申請專利範圍第2項所述的方法,在獲取已標注用戶類別的用戶樣本之後,還包括: 根據該用戶類別,確定該用戶樣本所對應的獨熱編碼。
- 如申請專利範圍第1項所述的方法,當該洗錢識別模型為深度神經網路模型時,所述根據該洗錢特徵生成該用戶的識別結果,包括: 採用該深度神經網路,根據該洗錢特徵生成標簽向量,其中,該標簽向量包括多個維度,每個維度對應一種洗錢類別; 根據該識別結果確定該用戶的洗錢類別,包括: 獲取該標簽向量中各維度的概率值; 確定概率值最大的維度對應的洗錢類別為該用戶的洗錢類別。
- 如申請專利範圍第1項所述的方法,當有多個預先訓練得到的洗錢識別模型時,根據該洗錢特徵生成該用戶的洗錢類別,包括: 確定每個洗錢識別模型的權重; 針對任一用戶,每個洗錢識別模型根據該用戶的洗錢特徵,生成該用戶的識別結果; 根據該已確定的權重和各洗錢模型生成的識別結果,生成加權後的識別結果。
- 如申請專利範圍第6項所述的方法,該多個預先訓練得到的洗錢識別模型,通過如下方式得到: 獲取多個不同時間段上的用戶樣本; 採用同樣的算法和參數,根據該不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
- 如申請專利範圍第1項所述的方法,還包括: 獲取已確定洗錢類別的用戶所包含的洗錢特徵; 根據預設的資訊價值IV計算規則,獲取對於該洗錢類別每個洗錢特徵的IV值; 根據該洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據該待推薦的洗錢特徵再次訓練該洗錢識別模型。
- 如申請專利範圍第8項所述的方法,還包括: 根據該用戶的洗錢類別和待推薦的洗錢特徵生成關於該用戶的審理資訊; 展示該審理資訊。
- 一種反洗錢裝置,包括: 獲取模組,針對任一用戶,獲取該用戶的多個洗錢特徵; 生成模組,採用預先訓練得到的洗錢識別模型,根據該洗錢特徵生成該戶的識別結果; 確定模組,根據該識別結果確定該用戶的洗錢類別。
- 如申請專利範圍第10項所述的裝置,還包括模型訓練模組,確定與洗錢行為相關的多個洗錢特徵;獲取已標注用戶類別的用戶樣本,其中,該用戶樣本至少包括一個該洗錢特徵;根據該已標注的用戶樣本和該洗錢特徵,進行模型訓練,生成該洗錢識別模型。
- 如申請專利範圍第11項所述的裝置,該確定模組,針對任一已確定的洗錢特徵,按照預設的規則,生成多個與該洗錢特徵相關的子特徵;該模型訓練模組,根據該已標注的用戶樣本、該洗錢特徵和該子特徵,進行模型訓練,生成該洗錢識別模型。
- 如申請專利範圍第11項所述的裝置,還包括編碼模組,根據該用戶類別,確定該用戶樣本所對應的獨熱編碼。
- 如申請專利範圍第10項所述的裝置,該生成模組,採用該深度神經網路,根據該洗錢特徵生成標簽向量,其中,該標簽向量包括多個維度,每個維度對應一種洗錢類別;該確定模組,獲取該標簽向量中各維度的概率值;確定概率值最大的維度對應的洗錢類別為該用戶的洗錢類別。
- 如申請專利範圍第10項所述的裝置,該生成模組,確定每個洗錢識別模型的權重;針對任一用戶,每個洗錢識別模型根據該用戶的洗錢特徵,生成該用戶的識別結果;根據該已確定的權重和各洗錢模型生成的識別結果,生成加權後的識別結果。
- 如申請專利範圍第15項所述的裝置,該模型訓練模組,獲取多個不同時間段上的用戶樣本;採用同一算法和參數,根據該不同時間段上的用戶樣本,訓練生成多個洗錢識別模型。
- 如申請專利範圍第10項所述的裝置,還包括特徵推薦模組,獲取已確定洗錢類別的用戶所包含的洗錢特徵;根據預設的資訊價值IV計算規則,獲取每個洗錢特徵的IV值;根據該洗錢特徵的IV值,確定待推薦的洗錢特徵,以便根據該待推薦的洗錢特徵再次訓練該洗錢識別模型。
- 如申請專利範圍第17項所述的裝置,還包括展示模組,根據該用戶的洗錢類別和待推薦的洗錢特徵生成關於該用戶的審理資訊;展示該審理資訊。
- 一種反洗錢設備,包括: 儲存器,儲存有反洗錢程式; 處理器,調用該儲存器中的反洗錢程式,並執行: 針對任一用戶,獲取該用戶的多個洗錢特徵; 採用預先訓練得到的洗錢識別模型,根據該洗錢特徵生成該用戶的識別結果; 根據該識別結果確定該用戶的洗錢類別。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810148506.5A CN108629687B (zh) | 2018-02-13 | 2018-02-13 | 一种反洗钱方法、装置及设备 |
??201810148506.5 | 2018-02-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201935387A true TW201935387A (zh) | 2019-09-01 |
Family
ID=63706067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107146611A TW201935387A (zh) | 2018-02-13 | 2018-12-22 | 反洗錢方法、裝置及設備 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN108629687B (zh) |
TW (1) | TW201935387A (zh) |
WO (1) | WO2019157946A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629687B (zh) * | 2018-02-13 | 2022-01-28 | 创新先进技术有限公司 | 一种反洗钱方法、装置及设备 |
CN109784525A (zh) * | 2018-11-13 | 2019-05-21 | 北京码牛科技有限公司 | 基于天空地一体化数据的预警方法及装置 |
CN109785034A (zh) * | 2018-11-13 | 2019-05-21 | 北京码牛科技有限公司 | 用户画像生成方法、装置、电子设备及计算机可读介质 |
CN109949154A (zh) * | 2018-12-17 | 2019-06-28 | 深圳平安综合金融服务有限公司 | 客户信息分类方法、装置、计算机设备和存储介质 |
CN109767327A (zh) * | 2018-12-20 | 2019-05-17 | 平安科技(深圳)有限公司 | 基于反洗钱的客户信息采集及其使用方法 |
CN109615020A (zh) * | 2018-12-25 | 2019-04-12 | 深圳前海微众银行股份有限公司 | 基于机器学习模型的特征分析方法、装置、设备及介质 |
CN109919454A (zh) * | 2019-02-20 | 2019-06-21 | 中国银行股份有限公司 | 反洗钱监控方法及系统 |
CN110807072A (zh) * | 2019-10-30 | 2020-02-18 | 深圳前海微众银行股份有限公司 | 交互式特征分箱处理方法、设备及可读存储介质 |
CN110852884A (zh) * | 2019-11-15 | 2020-02-28 | 成都数联铭品科技有限公司 | 用于反洗钱识别的数据处理系统及方法 |
CN111145026B (zh) * | 2019-12-30 | 2023-05-09 | 第四范式(北京)技术有限公司 | 一种反洗钱模型的训练方法及装置 |
CN111311416B (zh) * | 2020-02-28 | 2024-01-23 | 杭州云象网络技术有限公司 | 一种基于多通道图和图神经网络的区块链洗钱节点检测方法 |
CN111476662A (zh) * | 2020-04-13 | 2020-07-31 | 中国工商银行股份有限公司 | 反洗钱识别方法及装置 |
CN111639687B (zh) * | 2020-05-19 | 2024-03-01 | 北京三快在线科技有限公司 | 一种模型训练以及异常账号识别方法及装置 |
CN112508705A (zh) * | 2020-12-18 | 2021-03-16 | 北京航空航天大学 | 一种复杂关联交易中洗钱交易的检测方法和系统 |
CN112785476B (zh) * | 2021-02-01 | 2024-05-14 | 浙江大华系统工程有限公司 | 一种用户行为识别方法及装置 |
CN113157941B (zh) * | 2021-04-08 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 业务特征数据处理、文本生成方法、装置及电子设备 |
CN113657896A (zh) * | 2021-08-20 | 2021-11-16 | 成都链安科技有限公司 | 一种基于图神经网络的区块链交易拓扑图分析方法和装置 |
CN114356902A (zh) * | 2021-12-14 | 2022-04-15 | 中核武汉核电运行技术股份有限公司 | 工业数据质量管理方法及装置 |
CN115827880B (zh) * | 2023-02-10 | 2023-05-16 | 之江实验室 | 一种基于情感分类的业务执行方法及装置 |
CN117390293B (zh) * | 2023-12-12 | 2024-04-02 | 之江实验室 | 一种针对纠纷案件的信息推荐方法、装置、介质及设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339242A1 (en) * | 2012-05-09 | 2013-12-19 | Ganart Technologies, Inc. | System and method for formless, self-service registration for access to financial services |
CN106357418B (zh) * | 2015-07-15 | 2019-08-30 | 阿里巴巴集团控股有限公司 | 一种基于复杂网络的特征提取方法及装置 |
CN106952162A (zh) * | 2016-01-07 | 2017-07-14 | 平安科技(深圳)有限公司 | 洗钱风险等级计算方法及系统 |
CN107169571A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 一种特征筛选方法及装置 |
CN107515873B (zh) * | 2016-06-16 | 2020-10-16 | 阿里巴巴集团控股有限公司 | 一种垃圾信息识别方法及设备 |
CN107330445B (zh) * | 2017-05-31 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 用户属性的预测方法和装置 |
CN108629687B (zh) * | 2018-02-13 | 2022-01-28 | 创新先进技术有限公司 | 一种反洗钱方法、装置及设备 |
-
2018
- 2018-02-13 CN CN201810148506.5A patent/CN108629687B/zh active Active
- 2018-12-22 TW TW107146611A patent/TW201935387A/zh unknown
-
2019
- 2019-01-29 WO PCT/CN2019/073574 patent/WO2019157946A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN108629687A (zh) | 2018-10-09 |
CN108629687B (zh) | 2022-01-28 |
WO2019157946A1 (zh) | 2019-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201935387A (zh) | 反洗錢方法、裝置及設備 | |
Shen et al. | A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique | |
US20210365003A1 (en) | Methods and apparatus for machine learning predictions of manufacturing processes | |
TWI679592B (zh) | 風控規則生成方法和裝置 | |
CN110363449B (zh) | 一种风险识别方法、装置及系统 | |
CN111340509B (zh) | 一种虚假交易识别方法、装置及电子设备 | |
TW201944304A (zh) | 保險詐欺識別的資料處理方法、裝置、設備及伺服器 | |
TW201928848A (zh) | 基於圖結構模型的信用風險控制方法、裝置以及設備 | |
TW201928815A (zh) | 一種基於圖結構模型的交易風險控制方法、裝置以及設備 | |
CN109214436A (zh) | 一种针对目标场景的预测模型训练方法及装置 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
TW201944338A (zh) | 保險欺詐識別的資料處理方法、裝置、設備及伺服器 | |
CN110348462A (zh) | 一种图像特征确定、视觉问答方法、装置、设备及介质 | |
CN110633989B (zh) | 一种风险行为生成模型的确定方法及装置 | |
CN110119860B (zh) | 一种垃圾账号检测方法、装置以及设备 | |
CN112861522B (zh) | 基于双重注意力机制的方面级情感分析方法、系统及模型 | |
CN112214652B (zh) | 一种报文生成方法、装置及设备 | |
CN109684477A (zh) | 一种专利文本特征提取方法及系统 | |
Jain et al. | Financial supervision and management system using Ml algorithm | |
Usmani et al. | Predicting market performance with hybrid model | |
Zaffar et al. | Comparing the performance of FCBF, Chi-Square and relief-F filter feature selection algorithms in educational data mining | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
Shrimalve et al. | Comparative analysis of stock market prediction system using SVM and ANN | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 | |
Shaji et al. | Weather Prediction Using Machine Learning Algorithms |