TWM633533U

TWM633533U - 防止理財專員舞弊的警示系統

Info

Publication number: TWM633533U
Application number: TW111208290U
Authority: TW
Inventors: 沈盈君
Original assignee: 兆豐國際商業銀行股份有限公司
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-21

Abstract

提供一種防止理財專員舞弊的警示系統，包含處理器、儲存媒體以及收發器。收發器取得文件；儲存媒體儲存多個機器學習模型，藉由處理器取得對應於第一特徵的第一向量以及對應於第二特徵的第二向量，其中第一向量中的多個元素分別指示多個機器學習模型是否與第一特徵相關。根據第一向量以及第二向量判斷第一特徵與第二特徵之間的相關性以及使用率差異，並計算相關性指標。當偵測到文件符合第一特徵，判斷相關性指標是否大於相關性閾值。當相關性指標大於相關性閾值，偵測文件是否符合第二特徵。當文件符合第二特徵，通過收發器輸出警示訊息。

Description

防止理財專員舞弊的警示系統

本揭露是有關於一種用於金融機構的警示系統，且特別是有關於一種防止理財專員舞弊的警示系統。

理專舞弊的案件層出不窮，雖然在銀行端系統會制訂與理專舞弊相關的規範與條件，但此些條件並非適用於所有情境，於實際上可能會有虛報或是假警報的狀況產生。當有通報時，只要根據銀行端系統制訂的理專舞弊相關規範與條件中的其中一個項目符合，即發出警示。為此，不少虛報或是假警報無形中帶來資源的浪費。因此，如何減少假警報的數量產生同時減少於銀行人員處理警報報表的成本，是本領域人員致力的目標之一。

本揭露提出一種防止理財專員舞弊的警示系統，可偵測理財專員舞弊事件的同時避免假警報發生。

本揭露提供一種防止理財專員舞弊的警示系統，包括：收發器，取得文件；儲存媒體，儲存多個機器學習模型；以及處理器，耦接儲存媒體以及收發器，其中處理器執行：取得對應於第一特徵的第一向量以及對應於第二特徵的第二向量，其中第一向量中的多個元素分別指示多個機器學習模型是否與第一特徵相關；根據第一向量以及第二向量判斷第一特徵與第二特徵之間的相關性，並且根據第一向量和第二向量判斷多個機器學習模型對第一特徵和第二特徵的使用率差異；根據相關性以及使用率差異計算第一特徵與第二特徵的相關性指標；響應於偵測到文件符合第一特徵，判斷相關性指標是否大於相關性閾值；響應於相關性指標大於相關性閾值，偵測文件是否符合第二特徵；以及響應於文件符合第二特徵，通過收發器輸出警示訊息。

在本揭露的一實施例中，上述處理器更經配置以執行：通過收發器取得歷史文件資訊，其中歷史文件資訊包括歷史文件以及指示歷史文件是否與舞弊事件相關的標籤；自歷史文件集合中選出符合第一特徵的多個歷史文件；將多個歷史文件輸入至多個機器學習模型中的第一機器學習模型以產生分別對應於多個歷史文件的多個分類結果；以及根據對應於多個分類結果的分類準確率判斷第一機器學習模型是否與第一特徵相關以產生所述第一向量中的第一元素，其中第一元素對應於第一機器學習模型。

在本揭露的一實施例中，上述處理器更經配置以執行當判斷第一機器學習模型與第一特徵相關，將第一元素設為一；以及判斷第一機器學習模型與第一特徵不相關，將第一元素設為零。

在本揭露的一實施例中，上述處理器更經配置以執行：通過收發器取得歷史文件資訊，其中歷史文件資訊包括歷史文件以及指示歷史文件是否與舞弊事件相關的標籤；以及基於機器學習演算法而根據歷史文件資訊訓練多個機器學習模型。

在本揭露的一實施例中，上述機器學習演算法包括分類樹演算法以及隨機森林演算法。

在本揭露的一實施例中，上述處理器更經配置以執行：計算第一向量中的多個元素的平均以取得第一使用率；以及計算對應於第一向量的第一使用率與對應於第二向量的第二使用率之間的絕對差值以取得使用率差異。

在本揭露的一實施例中，上述第一特徵包括文件包括違規字眼、文件包括客戶私人資訊、文件包括帳戶資訊、文件包括大額金額資訊、文件包括銀行保密資訊以及文件包括公司獲利資訊。

基於上述，本揭露的防止理財專員舞弊的警示系統可透過除了原指標外的額外相關聯指標，以多因子的方式判斷理財專員舞弊事件是否發生，達到減少假警報，並進而降低人員處理假警報所需的人力成本。

圖1根據本揭露的實施例繪示一種防止理財專員舞弊的警示系統100的示意圖。防止理財專員舞弊的警示系統100可包含處理器110、儲存媒體120以及收發器130。

處理器110例如是中央處理單元（central processing unit，CPU），或是其他可程式化之一般用途或特殊用途的微控制單元（micro control unit，MCU）、微處理器（microprocessor）、數位信號處理器（digital signal processor，DSP）、可程式化控制器、特殊應用積體電路（application specific integrated circuit，ASIC）、圖形處理器（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、影像處理單元（image processing unit，IPU）、算數邏輯單元（arithmetic logic unit，ALU）、複雜可程式邏輯裝置（complex programmable logic device，CPLD）、現場可程式化邏輯閘陣列（field programmable gate array，FPGA）或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130，並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。

收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。

儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟（hard disk drive，HDD）、固態硬碟（solid state drive，SSD）或類似元件或上述元件的組合，而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中，儲存媒體120可儲存包括多個機器學習模型的多個模組。

處理器110可通過收發器130取得用於作為訓練資料的歷史文件資訊。作為訓練資料的歷史文件資訊可包含N筆歷史文件以及分別對應於N筆歷史文件的N個標籤（N為正整數），其中標籤用以指示各個歷史文件是否與理財專員舞弊事件相關。處理器110可基於監督式機器學習演算法（例如：分類樹演算法或隨機森林演算法）而根據歷史文件的特徵以及標籤訓練K個機器學習模型（K為正整數）。歷史文件的特徵可包含特徵1「文件包括違規字眼」、特徵2「文件包括客戶私人資訊」、特徵3「文件包括帳戶資訊」、特徵4「文件包括大額金額資訊」、特徵5「文件包括銀行保密資訊」以及特徵6「文件包括公司獲利資訊」等多個特徵，但本揭露不限於此。表1為作為訓練資料的歷史文件資訊的範例，其中索引代表歷史文件的編號。歷史文件的特徵值為「1」代表該歷史文件符合相對應的特徵，且歷史文件的特徵值為「0」代表該歷史文件不符合相對應的特徵。標籤值為「1」代表該歷史文件是理財專員舞弊事件中所使用的文件，且標籤值為「0」代表該歷史文件不是理財專員舞弊事件中所使用的文件。表1

索引	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6	標籤
#1	1	1	0	0	0	1	1
#2	1	1	1	0	0	0	1
#3	0	0	1	0	1	0	1
…	…	…	…	…	…	…	…
#N	0	0	0	0	0	1	0

在訓練好K個機器學習模型後，處理器110可判斷K個機器學習模型的每一者是否與特定特徵相關，從而為每一個機器學習模型產生用以指示機器學習模型是否與特定特徵相關的向量，其中所述向量中的每一個元素與一特徵相對應。若該元素的值為「1」，代表該機器學習模型與該特徵相關。若該元素的值為「0」，代表該機器學習模型與該特徵不相關。表2為K個機器學習模型及其對應的向量的範例。以機器學習模型#1為例，機器學習模型#1的向量[1 1 0 0 0 0]代表機器學習模型#1與特徵1和特徵2有關，而與特徵3、特徵4、特徵5和特徵6無關。表2

機器學習模型索引	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6
#1	1	1	0	0	0	0
#2	1	1	1	0	0	0
…	…	…	…	…	…	…
#K	0	0	0	1	1	0

上述的機器學習模型的向量可由處理器110根據測試資料產生。具體來說，處理器110可通過收發器130取得用於作為測試資料的歷史文件資訊。作為測試資料的歷史文件資訊可包含多筆歷史文件以及分別對應於多筆歷史文件的多個標籤，其中標籤用以指示各個歷史文件是否與理財專員舞弊事件相關。為了訓練好的機器學習模型是否與特定特徵相關，處理器110可從多筆歷史文件中選出符合所述特定特徵的M筆歷史文件及其對應的M個標籤（M為正整數）。處理器110可將M筆歷史文件分別輸入至機器學習模型以產生分別對應於M筆歷史文件的M個分類結果。表3為M筆歷史文件及其對應的M個標籤以及M個分類結果的範例。表3為將符合特徵1的M筆歷史文件輸入至機器學習模型#1後產生的分類結果。表3

索引	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6	標籤	分類結果
#1	1	1	0	0	0	0	1	1
…	…	…	…	…	…	…	…	…
#M	1	1	1	0	0	0	1	0

參照表3，由於M筆歷史資料中的每一者都符合特徵1，故每一筆歷史資料的特徵1的特徵值均為「1」。處理器110可比對分類結果與標籤來判斷機器學習模型#1的分類準確率，進而根據分類準確率判斷機器學習模型#1是否與特徵1相關。在一實施例中，處理器110可響應於分類準確率大於預設值而判斷機器學習模型#1與特徵1相關。舉例來說，假設M等於100且預設值為50%，若100筆歷史文件中有60筆歷史文件的分類結果與標籤匹配，則處理器110可判斷分類準確率為60/100=60%。據此，處理器110可響應於60%大於50%而判斷機器學習模型#1與特徵1相關。

在一實施例中，處理器110可響應於判斷機器學習模型與特定特徵相關而將該機器學習模型的向量中與該特定特徵相關的特徵值設為「1」，且可響應於判斷機器學習模型與特定特徵不相關而將該機器學習模型的向量中與該特定特徵相關的特徵值設為「0」。以表2的機器學習模型#1為例，處理器110可響應於判斷特徵1與機器學習模型#1相關而將特徵1的特徵值設為「1」。另一面，處理器110可響應於判斷特徵3與機器學習模型#1不相關而將特徵1的特徵值設為「0」。

在取得分別對應於K個機器學習模型的K個向量後，處理器110可根據K個向量產生與特定特徵相對應的向量，其中所述向量中的每一個元素與特定機器學習模型相對應。以表2的特徵1為例，處理器110可從K個向量的每一者中擷取出與特徵1相對應的特徵值以組成特徵1的向量，其中所述向量可包含分別與K個機器學習模型相對應的K個元素，其中元素用以指示相對應的機器學習模型是否與特徵相關。換句話說，若處理器110判斷特徵1與特定機器學習模型（例如：機器學習模型#1或#2）相關，則處理器110可將特徵1的向量中與特定機器學習模型相對應的元素設為「1」。若處理器110判斷特徵1與特定機器學習模型（例如：機器學習模型#K）不相關，則處理器110可將特徵1的向量中與特定機器學習模型相對應的元素設為「0」。

在取得各個特徵對應的向量後，處理器110可根據各個特徵的向量計算兩個特徵之間的相關性。以表2的特徵1和特徵3為例，處理器110可計算特徵1的向量[1 1 … 0]與特徵3的向量[0 1 … 0]之間的相關性。上述的相關性例如是皮爾生相關係數（Pearson correlation coefficient）。表4為特徵1至特徵6彼此之間的相關性的範例。表4

	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6
特徵1	-	0.92	0.32	0.04	0.04	0.42
特徵2	-	-	0.32	0.04	0.34	0.45
特徵3	-	-	-	0.85	0.42	0.14
特徵4	-	-	-	-	0.75	0.24
特徵5	-	-	-	-	-	0.34
特徵6	-	-	-	-	-	-

另一方面，處理器110可根據各個特徵的向量計算兩個特徵之間的使用率差異。具體來說，處理器110可計算特徵的向量中的元素的平均以取得使用率。接著，處理器110可計算分別對應於兩個特徵的兩個使用率之間的絕對差值（absolute difference）以取得使用率差異。以表2的特徵1與特徵3為例，假設K為100，若在特徵1的向量中，有50個元素的值為「1」（代表100個機器學習模型中有50個機器學習模型與特徵1相關），則處理器110可計算特徵1的使用率為50/100=0.5。若在特徵3的向量中，有27個元素的值為「1」（代表100個機器學習模型中有27個機器學習模型與特徵3相關），則處理器110可計算特徵3的使用率為27/100=0.27。據此，處理器110可計算0.5與0.27的絕對差量0.23以作為特徵1與特徵3之間的使用率差異。表5為特徵1至特徵6彼此之間的使用率差異的範例。表5

	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6
特徵1	-	0.04	0.23	0.32	0.50	0.34
特徵2	-	-	0.23	0.26	0.51	0.34
特徵3	-	-	-	0.02	0.34	0.15
特徵4	-	-	-	-	0.10	0.35
特徵5	-	-	-	-	-	0.25
特徵6	-	-	-	-	-	-

在取得相關性和使用率差異後，處理器110可根據方程式（1）計算特徵A與特徵B之間的相關性指標 i，其中

為特徵A與特徵B之間的相關性，且

為特徵A與特徵B之間的使用率差異。表6為特徵1至特徵6彼此之間的相關性指標的範例。

…(1) 表6

	特徵1	特徵2	特徵3	特徵4	特徵5	特徵6
特徵1	-	0.94	0.55	0.36	0.27	0.54
特徵2	-	-	0.55	0.34	0.43	0.56
特徵3	-	-	-	0.92	0.38	0.50
特徵4	-	-	-	-	0.83	0.45
特徵5	-	-	-	-	-	0.55
特徵6	-	-	-	-	-	-

處理器110可通過收發器130取得一文件，並且根據相關性指標來判斷該文件是否與理財專員舞弊事件相關，從而決定是否通過收發器130輸出警示訊息給稽核人員。具體來說，若處理器110偵測（例如：通過光學字元辨識技術或自然語言處理技術）到文件符合特徵A，則處理器110可判斷特徵B與特徵A之間的相關性指標是否大於相關性閾值。若所述相關性指標大於相關性閾值，處理器110可進一步判斷文件是否符合特徵B。若文件同時符合特徵A和特徵B，代表該文件與理財專員舞弊事件有關的機率很高。據此，處理器110可通過收發器130輸出警示訊息給稽核人員。

以表6的特徵1為例，假設相關性閾值為0.5，若處理器110偵測到一文件符合特徵1（即：文件包括違規字眼），則處理器110可從表6中尋找出與特徵1之相關性指標大於0.5的其他特徵，即特徵2、特徵3和特徵6。處理器110可響應於該文件符合特徵2、特徵3或特徵6中的任一者而判斷該文件與理專舞弊事件有關。也就是說，若該文件符合「文件包括客戶私人資訊」、「文件包括帳戶資訊」或「文件包括公司獲利資訊」中的任一者，則處理器110可判斷該文件與理專舞弊事件有關。據此，處理器110可通過收發器130輸出警示訊息給稽核人員。

圖2根據本揭露的實施例繪示一種防止理財專員舞弊的警示方法的流程圖，其中，所述警示方法可由圖1所示的警示系統100實施。在步驟S201中，取得文件以及多個機器學習模型。在步驟S202中，取得對應於第一特徵的第一向量以及對應於第二特徵的第二向量，其中第一向量中的多個元素分別指示多個機器學習模型是否與第一特徵相關。在步驟S203中，根據第一向量以及第二向量判斷第一特徵與第二特徵之間的相關性，並且根據第一向量和第二向量判斷多個機器學習模型對第一特徵和第二特徵的使用率差異。在步驟S204中，根據相關性以及使用率差異計算第一特徵與第二特徵的相關性指標。在步驟S205中，響應於偵測到文件符合第一特徵，判斷相關性指標是否大於相關性閾值。在步驟S206中，響應於相關性指標大於相關性閾值，偵測文件是否符合第二特徵。在步驟S207中，響應於文件符合所述第二特徵，輸出警示訊息。

綜上所述，本揭露可加入多個相關影響判定條件作為判斷舞弊的情形，並據以再次確認其事件是否為理專舞弊之事件，進而提高系統發布警報的準確性以及減少誤判帶來的處理成本，從而提高客戶服務品質。

100:防止理財專員舞弊的警示系統 110:處理器 120:儲存媒體 130:收發器 S201、S202、S203、S204、S205、S206、S207:步驟

圖1根據本揭露的實施例繪示一種防止理財專員舞弊的警示系統的示意圖。圖2根據本揭露的實施例繪示一種防止理財專員舞弊的警示方法的流程圖。

100:防止理財專員舞弊的警示系統

110:處理器

120:儲存媒體

130:收發器

Claims

一種防止理財專員舞弊的警示系統，包括：收發器，取得文件；儲存媒體，儲存多個機器學習模型；以及處理器，耦接所述儲存媒體以及所述收發器，其中所述處理器經配置以執行：取得對應於第一特徵的第一向量以及對應於第二特徵的第二向量，其中所述第一向量中的多個元素分別指示所述多個機器學習模型是否與所述第一特徵相關；根據所述第一向量以及所述第二向量判斷所述第一特徵與所述第二特徵之間的相關性，並且根據所述第一向量和所述第二向量判斷所述多個機器學習模型對所述第一特徵和所述第二特徵的使用率差異；根據所述相關性以及所述使用率差異計算所述第一特徵與所述第二特徵的相關性指標；響應於偵測到所述文件符合所述第一特徵，判斷所述相關性指標是否大於相關性閾值；響應於所述相關性指標大於所述相關性閾值，偵測所述文件是否符合所述第二特徵；以及響應於所述文件符合所述第二特徵，通過所述收發器輸出警示訊息。
如請求項1所述的警示系統，其中所述處理器更經配置以執行：通過所述收發器取得歷史文件資訊，其中所述歷史文件資訊包括歷史文件以及指示所述歷史文件是否與舞弊事件相關的標籤；自所述歷史文件集合中選出符合所述第一特徵的多個歷史文件；將所述多個歷史文件輸入至所述多個機器學習模型中的第一機器學習模型以產生分別對應於所述多個歷史文件的多個分類結果；以及根據對應於所述多個分類結果的分類準確率判斷所述第一機器學習模型是否與所述第一特徵相關以產生所述第一向量中的第一元素，其中所述第一元素對應於所述第一機器學習模型。
如請求項2所述的警示系統，其中所述處理器更經配置以執行：響應於判斷所述第一機器學習模型與所述第一特徵相關，將所述第一元素設為一；以及響應於判斷所述第一機器學習模型與所述第一特徵不相關，將所述第一元素設為零。
如請求項1所述的警示系統，其中所述處理器更經配置以執行：通過所述收發器取得歷史文件資訊，其中所述歷史文件資訊包括歷史文件以及指示所述歷史文件是否與舞弊事件相關的標籤；以及基於機器學習演算法而根據所述歷史文件資訊訓練所述多個機器學習模型。
如請求項4所述的警示系統，其中所述機器學習演算法包括下列的其中之一：分類樹演算法以及隨機森林演算法。
如請求項1所述的警示系統，其中所述處理器更經配置以執行：計算所述第一向量中的所述多個元素的平均以取得第一使用率；以及計算對應於所述第一向量的所述第一使用率與對應於所述第二向量的第二使用率之間的絕對差值以取得所述使用率差異。
如請求項1所述的警示系統，其中所述第一特徵包括下列的其中之一：文件包括違規字眼、文件包括客戶私人資訊、文件包括帳戶資訊、文件包括大額金額資訊、文件包括銀行保密資訊以及文件包括公司獲利資訊。