TWI817237B

TWI817237B - 風險預測方法、系統及其電腦可讀媒介

Info

Publication number: TWI817237B
Application number: TW110141152A
Authority: TW
Inventors: 李政旺; 黃律翔; 賴辰瑜
Original assignee: 關貿網路股份有限公司
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-10-01
Also published as: TW202319973A

Abstract

一種風險預測方法、對應之系統及其電腦可讀媒介，包括：對訓練組中之複數資料組合及複數演算法進行訓練以產生複數模型，其中，各該資料組合包括複數訓練資料，且各該模型係使用該等資料組合中之一者及該等演算法中之一者經訓練所產生者；將驗證組中之各驗證資料輸入各該模型後，根據各該模型對各該驗證資料之輸出值計算出各該資料組合之分數；選取該等資料組合中具有最高之該分數的資料組合做為最佳組合；以及使用該最佳組合之該等模型，以預測即時資料之風險。

Description

風險預測方法、系統及其電腦可讀媒介

本發明係有關基於人工智慧的風險預測技術，且特別係有關一種用於風險預測的方法、系統及其電腦可讀媒介。

對於風險判斷，例如在某些產品檢驗領域，原先設計皆由歷史記錄，設定邏輯條件以判斷風險高低，進而決定抽驗機率。例如在一般情況下，抽驗機率較低，例如20%以下；若歷史紀錄中曾有抽中不合格，則加高其抽驗機率到20%至50%之間；若再抽中不合格則逐批抽驗，抽驗機率為100%。

因此，需要自動化的風險預測技術，以根據有關風險的各種資料，針對即時資料自動預測風險，以提升效率並降低成本。

多數風險預測領域皆可使用上述技術。目前已經有運用人工智慧模型的自動風險預測，然現有的模型預測多是單一演算法的應用，且忽略了用於訓練模型的資料組合本身可能造成的影響，故該技術仍有效率低、準確率低、成本高等問題。

為解決上述問題，本發明提供一種風險預測方法，包括：對訓練組中之複數資料組合及複數演算法進行訓練以產生複數模型，其中，各該資料組合包括複數訓練資料，且各該模型係使用該等資料組合中之一者及該等演算法中之一者經訓練所產生者；將驗證組中之各驗證資料輸入各該模型後，根據各該模型對各該驗證資料之輸出值計算出各該資料組合之分數；選取該等資料組合中具有最高之該分數的資料組合做為最佳組合；以及使用該最佳組合之該等模型，以預測即時資料之風險。

本發明另提供一種電腦可讀媒介，應用於計算裝置或電腦中，係儲存有指令，以執行上述之風險預測方法。

本發明另提供一種風險預測系統，包括訓練單元、分數單元、選取單元及預測單元。訓練單元用於使用訓練組中之複數資料組合及複數演算法經訓練後產生複數模型，其中，各該資料組合包括複數訓練資料，且各該模型係使用該等資料組合中之一者及該等演算法中之一者經訓練所產生者；分數單元耦接該訓練單元，用於將驗證組中之各驗證資料輸入各該模型後，根據各該模型對各該驗證資料之輸出值計算出各該資料組合之分數；選取單元耦接該分數單元，用於選取該等資料組合中具有最高之該分數的資料組合做為最佳組合；預測單元耦接該選取單元，用於使用該最佳組合之該等模型，以預測即時資料之風險。

本發明透過多種不同的演算法集成(ensemble)模型，並透過多種不同的資料組合，以找出用於風險預測的最佳資料組合，藉此避免以往僅使用單一演算法的預測偏誤，並解決忽略資料組合本身影響的問題，以降低風險應對或處理成本，同時兼顧風險預測的命中率，並提升整體效率。

300:風險預測系統

310:資料單元

320:訓練單元

330:分數單元

340:選取單元

350:預測單元

S101~S112,S201~S205:方法步驟

圖1為根據本發明一實施例的一種風險預測方法的模型建立程序的流程圖。

圖2為根據本發明一實施例的一種風險預測方法的預測程序的流程圖。

圖3為根據本發明一實施例的一種風險預測系統的方塊圖。

以下藉由特定的具體實施例說明本發明之實施方式，在本技術領域具有通常知識者可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。

在步驟S101，進行該風險預測方法所針對領域之資料的收集與彙整。上述領域可為涉及風險的產品、商品、服務或其他領域。例如，若該領域為電子產品，則該風險可為電子產品是否符合安全法規或其他各種法規的風險；若該領域為金融機構所提供的貸款服務，則該風險可為貸款申請人是否能正常還款的風險。

此外，上述資料可包括與該領域的風險相關的各種資料，例如各種組織的內部資訊系統中的相關資料、客戶資料、上述的產品、商品、服務或其他領域的資訊、以及氣象資料等外部開放資料；上述組織可以是涉及該領域的政府機關、基金會與財團法人等民間組織、或公司行號等組織；上述客戶可為上述組織的客戶或使用該風險預測方法的客戶。

舉例言之，在金融業是否提供個人信貸的領域中，上述資料可包括個人的性別、年齡、教育程度、月收入、年收入、居住地區，以及居住地區的教育水平、公共設施多寡等等。

再者，在步驟S101，進行多資料源的對應，也就是將來自各資料源的關於同一對象的資料合併為同一筆資料，再將各筆資料全部彙整為統一格式。例如，在金融信貸領域中，每一個對象可為一筆貸款申請；在電子產品領域中，每一個對象可為同一批進口或同一批出廠的待檢驗電子產品，依此類推。

在步驟S102，進行上述資料的前處理，例如將同一個字的簡體版修正為繁體版，或將台灣三百六十八個鄉鎮市區的居住地區簡化區分為高、中、低風險地區等處理。在此步驟，亦會將上述資料中訓練人工智慧模型所需的各種相關資訊定義為特徵，即可能對風險預測結果有影響之變數。

在步驟S103，將已通過步驟S101及S102處理的資料切分為訓練組、驗證組與測試組，其中，訓練組用於訓練模型，驗證組用於找出最佳資料組合，測試組用於該風險預測方法的效益評估。在一實施例中，訓練組、驗證組與測試組可按照各筆資料的使用時間(即歷史記錄中各筆資料被用於風險相關的檢驗或評估的時間，例如某年某月某日)區分，例如訓練組最早，驗證組居中，且測試組最晚。通常訓練組含有最多資料，例如，上述三組的資料數量可為8：1：1。此外，為了強調或區別各組中的資料，可將訓練組、驗證組與測試組中的資料分別稱為訓練資料、驗證資料與測試資料。

訓練組中的訓練資料可根據其使用時間及重抽樣(oversampling)方式劃分為複數資料組合，例如下列的表1中的四個資料組合，其分別對應自2015年開始與自2018年開始這兩種不同的資料使用時間以及等比例放大與合成少數重抽樣技術(Synthetic Minority Oversampling Technique，SMOTE)這兩種不同的重抽樣方式所構成的四種組合。

隨著取得資料的來源不同，資料完整度與可信度可能導致不同資料組合在不同演算法上的結果有所差異，故在資料組合上可依資料使用時間進行一個面向的組合。例如，使用上述風險預測方法的組織所擁有的資料為2015年開始蒐集，然而多數取得的外部資料是2018年後才相對完整，因此在資料使用時間上可區隔為自2015年開始的資料與自2018年開始的資料(自2015年開始的資料包含自2018年開始的資料)。同時，目標變數中，高風險通常為少數，例如低風險與高風險的資料數量比例可能為10：1或8：1，故須透過不平衡資料處理以提高高風險資料比例，例如提高到5：5或7：3，以使得演算法具有較佳的學習成效。因此，處理不平衡資料的不同重抽樣方式，例如等比例放大與SMOTE為另一個面向的組合，故總共有表1所示的四種訓練組資料組合。

本發明不限於僅有四種訓練組資料組合，例如在另一實施例中，訓練組可包含T*O種資料組合，其分別對應T種不同資料使用時間與O種不同重抽樣方式所構成的T*O種不同組合，且每個資料組合均包括複數筆訓練資料，其中，T與O均為大於一的整數。換言之，每種資料組合係由自T種資料使用時間中之一者開始的訓練資料所組成，且係根據O種重抽樣方式中之一者所產生。

在步驟S104，對訓練組進行特徵篩選，以確定納入模型訓練的特徵。該特徵篩選係指去掉對模型訓練無用的特徵，例如，某產品的風險與製造公司資本額無關，則去掉製造公司資本額，不用於後面的模型訓練。

在步驟S105，使用訓練組中之複數資料組合及複數演算法經訓練後產生複數模型。實際上，因為重抽樣有隨機成分，故對於每一種資料組合及每一種演算法，都需要使用該資料組合及該演算法訓練產生N個模型，才會有較穩定的預測結果。

此外，對於上述N個模型，會為每個模型隨機產生不同的訓練資料。因此，若有S種資料組合(S=T*O)及A種演算法，則在此步驟總共訓練產生S*A*N個不同模型，其中，A及N均為大於一的整數。例如，在一實施例中，S等於4(即表1所示的四種資料組合)，A等於5，該五種演算法分別為羅吉斯迴歸(logistic regression)、決策樹(decision tree)C5.0、分類與迴歸樹(classification and regression tree,CART)、樸素貝氏分類(naive Bayes classifier)、以及隨機森林(random forest)，且N等於10，故於步驟S105總共訓練產生200個不同模型。

在步驟S106，讀取驗證組中的下一筆驗證資料，若為第一次執行此步驟，則讀取驗證組中的第一筆驗證資料。

在步驟S107，將讀取的該驗證資料輸入步驟S105訓練產生的每一個模型，以產生各資料組合之各模型對該驗證資料之輸出值。例如，若S等於4、A等於5且N等於10，則4種資料組合中的每一種資料組合均有5種演算法的50個模型，這些模型都會被輸入該驗證資料並產生相應的輸出值。

在步驟S108，根據各資料組合之各模型對該驗證資料之該輸出值，產生各資料組合之各演算法對該驗證資料之預測結果，其中，對於各資料組合及各演算法，該資料組合之該演算法對該驗證資料之該預測結果係該資料組合及該演算法所對應之該等模型對該驗證資料之該等輸出值的平均值。例如，若S等於4、A等於5且N等於10，則4種資料組合中的每一種資料組合均有5種演算法的50個模型，且每一種資料組合的每一種演算法的該預測結果為該演算法的10個模型對該驗證資料的10個輸出值的平均值。

在步驟S109，根據各資料組合之該等演算法對該驗證資料之該等預測結果進行表決，以產生各資料組合對該驗證資料之表決結果。

詳言之，對於各資料組合，若該資料組合之該等演算法對該驗證資料的該等預測結果中，有超過半數之預測結果大於對應的閾值，則該資料組合對該驗證資料之該表決結果為高風險，否則為低風險。例如，若S等於4且A等於5，則對於4種資料組合中的每一種資料組合，若其5種演算法的5個預測結果中，有至少3個預測結果大於對應的閾值，則該資料組合對該驗證資料之該表決結果為高風險，否則為低風險。每一種演算法所對應的閾值可以相同也可以不相同。在另一實施例中，可依防測結果而有至少二種表決結果之風險。

在步驟S110，檢查驗證組中的驗證資料是否已處理完畢。若驗證組中尚有驗證資料未處理，則流程返回步驟S106，否則流程進入S111。

在步驟S111，對於各資料組合，根據該資料組合對每一筆驗證資料的表決結果，計算出該資料組合之分數。

詳言之，根據每一筆驗證資料的歷史記錄與表決結果，使用混淆矩陣(confusion matrix)評估每一種資料組合。例如，每一筆驗證資料的對象接受檢驗或評估的歷史記錄可能為合格或不合格，則歷史記錄的合格與不合格可分別對應表決結果的低風險與高風險。此外，利用混淆矩陣分析歷史記錄與表決結果之間的關聯，可計算出各資料組合的準確率(accuracy)、召回率(recall)、特異度(specificity)、陽性預測值(positive predictive value)、陰性預測值(negative predictive value)、以及最後的F1分數(F1 score/measure)，例如下列的表2所示，其中，該F1分數即為各資料組合之上述分數。

在步驟S112，選取各資料組合中具有最高分數的資料組合做為最佳組合。例如表2展示的兩個領域中，X領域的對應2015年與等比例放大的資料組合具有最高分數0.49，故該資料組合被選為X領域的最佳組合。另一方面，Y領域的對應2018年與等比例放大的資料組合具有最高分數0.45，故該資料組合被選為Y領域的最佳組合。該最佳組合共包括A*N個不同模型。由表2所示的評估結果可知，透過同樣的多種演算法，但不同的訓練組資料組合，在不同領域上的效果亦有所差異。

圖2為根據本發明一實施例的一種風險預測方法的預測程序的流程圖，該預測程序接續圖1的模型建立程序。

在步驟S201，取得即時資料，其中，該即時資料為該風險預測方法所應用領域中的一個待預測對象的一筆風險相關資料，其格式與內容對應上述的訓練資料與檢驗資料。例如，在金融信貸領域中，該對象可為一筆貸款申請。

在步驟S202，進行該即時資料的前處理，此步驟的前處理和步驟S102相同。

在步驟S203，使用步驟S112所選取的最佳組合之該等模型預測該即時資料之風險。

詳言之，將該即時資料輸入該最佳組合之各模型，以產生該最佳組合之各模型對該即時資料的輸出值。然後，對於每一種演算法，計算出該最佳組合之該演算法的各模型之該輸出值的平均值，做為該演算法對該即時資料之預測結果，再根據各演算法對該即時資料之該預測結果進行表決，以預測該即時資料之風險，其中，若該等演算法對該即時資料之該等預測結果中，有超過半數之預測結果大於閾值，則該即時資料為高風險，否則為低風險。

在步驟S204，將該即時資料的表決結果(高風險或低風險)及相關記錄寫入資料庫。

在步驟S205，檢查該表決結果是否為高風險，若為高風險則發出預警，例如，可發送簡訊或電子郵件做為預警以通知管理人員，或以聲音、語音和/或燈光等方式發出預警；反之，則發出一般通知或不處理。

對於即時資料的表決結果，可依其領域的特性進行各種應對。例如，在金融信貸領域，若表決結果為高風險，則可對該即時資料所對應的貸款申請從嚴審查，反之則可從寬審查。

另外，還可以使用該最佳組合的模型，對測試組中的測試資料進行風險預測，以評估該風險預測方法的效益。例如，對於產品抽驗，可評估該風險預測方法能降低多少抽樣檢驗成本，以及是否能提高被抽樣的產品中驗出問題的命中率。

在另一實施例中，本發明另提供一種電腦可讀媒介，係應用於計算裝置或電腦中。例如，該電腦可讀媒介可為記憶體、軟碟、硬碟或光碟。此外，該電腦可讀媒介儲存有指令，以令該計算裝置或電腦執行該風險預測方法。

在另一實施例中，本發明另提供一種風險預測系統，例如圖3所示的風險預測系統300。風險預測系統300包括資料單元310、訓練單元320、分數單元330、選取單元340及預測單元350，這些單元依上述順序串列耦接，且每一個單元均可用硬體、韌體或軟體實現。

風險預測系統300係執行上述之風險預測方法，其中，資料單元310係用於執行圖1中的步驟S101至S104，包括資料收集與彙整、資料前處理、將資料切分為訓練組、驗證組與測試組、特徵篩選，訓練單元320係用於執行步驟S105，包括訓練產生模型，分數單元330係用於執行步驟S106至S111，包括讀取下一筆驗證資料、產生各資料組合之各模型對驗證資料之輸出值、產生各資料組合之各演算法對驗證資料之預測結果、產生各資料組合對驗證資料之表決結果、驗證資料是否已處理完成、計算出各資料組合之分數，選取單元340係用於執行步驟S112，包括選取最佳組合，且預測單元350係用於執行圖2中的步驟S201至S205，包括取得即時資料、資料前處理、使用最佳組合之模型預測即時資料之風險、寫入資料庫、發出預警。

綜上所述，本發明透過多種不同演算法模型的穩健集成架構與多種不同資料組合的綜合交叉評估，找出用於風險預測的最佳資料組合，藉此提升模型預測的表現，避免以往僅使用單一演算法的預測偏誤，並解決忽略資料組合本身影響的問題，以降低風險應對或處理成本，同時提供精準的風險預測，並提升整體效率。

上述實施形態僅例示性說明本發明之原理及其功效，而非用於限制本發明。任何在本技術領域具有通常知識者均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。因此，本發明之權利保護範圍，應如後述之申請專利範圍所列。

S101~S112:方法步驟

Claims

一種風險預測方法，包括：藉由訓練單元，對訓練組中之複數資料組合及複數演算法進行訓練，以使用各該資料組合及各該演算法訓練產生複數模型，且為各該模型隨機產生不同訓練資料，其中，各該資料組合係根據具有隨機成分之複數重抽樣方式中之一者所產生，各該資料組合包括複數訓練資料，且該等訓練資料中之低風險資料與高風險資料的數量比例不平衡；藉由分數單元，對於各該資料組合之各該演算法，將驗證組中之各驗證資料輸入該資料組合之該演算法的各該模型，以計算該資料組合之該演算法的該等模型對該驗證資料之輸出值的平均值，做為該資料組合之該演算法對該驗證資料之預測結果；藉由該分數單元，根據該等預測結果計算出各該資料組合之分數；藉由選取單元，選取該等資料組合中具有最高之該分數的資料組合做為最佳組合；以及藉由預測單元，使用對應該最佳組合之該等模型預測即時資料之風險。
如請求項1所述之風險預測方法，其中，各該資料組合係由自複數資料使用時間中之一者開始的該等訓練資料所組成。
如請求項1所述之風險預測方法，其中，該計算出各該資料組合之該分數的步驟包括：對於各該驗證資料，根據各該資料組合之該等演算法對該驗證資料之該等預測結果進行表決，以產生各該資料組合對該驗證資料之表決結果；以及對於各該資料組合，根據該資料組合對該等驗證資料之該等表決結果計算出該資料組合之該分數。
如請求項3所述之風險預測方法，其中，對於各該資料組合及各該驗證資料，若該資料組合之該等演算法對該驗證資料的該等預測結果中，有超過半數之預測結果大於閾值，則該資料組合對該驗證資料之該表決結果為高風險，反之，則為低風險。
如請求項1所述之風險預測方法，其中，該使用該最佳組合之該等模型預測該即時資料之風險的步驟包括：將該即時資料輸入該最佳組合之各該模型，以根據該最佳組合之各該模型對該即時資料的輸出值產生各該演算法對該即時資料之預測結果；以及根據該等演算法對該即時資料之該等預測結果進行表決，以預測該即時資料之風險。
如請求項5所述之風險預測方法，其中，若該等演算法對該即時資料之該等預測結果中，有超過半數之預測結果大於閾值，則該即時資料為高風險，反之，則為低風險。
一種電腦可讀媒介，應用於計算裝置或電腦中，係儲存有指令，以執行如請求項1至6之任一者所述之風險預測方法。
一種風險預測系統，包括：訓練單元，用於對訓練組中之複數資料組合及複數演算法進行訓練，以使用各該資料組合及各該演算法訓練產生複數模型，且為各該模型隨機產生不同訓練資料，其中，各該資料組合係根據具有隨機成分之複數重抽樣方式中之一者所產生，各該資料組合包括複數訓練資料，且該等訓練資料中之低風險資料與高風險資料的數量比例不平衡；分數單元，係耦接該訓練單元，用於對各該資料組合之各該演算法，將驗證組中之各驗證資料輸入該資料組合之該演算法的各該模型，以計算該資料組合之該演算法的該等模型對該驗證資料之輸出值的平均值，做為該資料組合之該演算法對該驗證資料之預測結果，且該分數單元復用於根據該等預測結果計算出各該資料組合之分數；選取單元，係耦接該分數單元，用於選取該等資料組合中具有最高之該分數的資料組合做為最佳組合；以及預測單元，係耦接該選取單元，用於使用該最佳組合之該等模型，以預測即時資料之風險。