TWM585945U

TWM585945U - 文本處理系統

Info

Publication number: TWM585945U
Application number: TW108207776U
Authority: TW
Inventors: 林淑芬; 宋政隆; 田文; 陳皓遠; 陳逸航
Original assignee: 中國信託商業銀行股份有限公司
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-11-01

Abstract

一種文本處理系統，包含一儲存模組及一處理模組。該儲存模組儲存有多個連結網址及多個關鍵詞，其中，對於每一連結網址，該處理模組根據該連結網址，獲得該連結網址所對應的一欲分析文本，對於每一欲分析文本，該處理模組利用斷詞演算法，獲得對應該欲分析文本的多個斷詞，該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞，自該等欲分析文本中，獲得多個目標文本及其所對應的至少一目標斷詞，該處理模組根據每一目標文本所對應的該至少一目標斷詞，利用聚類分群演算法，將該等目標文本分為至少一群集。

Description

文本處理系統

本新型是有關一種相關於自然語言處理技術的文本處理系統，特別是指一種應用於洗錢防制領域的文本處理系統。

洗錢防制/打擊資助恐怖主義（AML/CFT，Anti-Money Laundering/Combating the Financing of Terrorism）相關法規與作業規範日趨嚴謹，辨識客戶身分、客戶盡職調查作業亦愈趨繁複，AML作業相關人力投入亦均隨之大幅增加。

現行AML姓名檢核作業若觸及負面新聞名單，則需逐條檢閱每則新聞、逐字閱讀新聞內容為真警報或假警報外，亦需同時判斷新聞事件主角與所屬客戶是否為同一人，必須參考分散於內部不同系統與網站的資料以判斷客戶身分是否相同。而必須費時跨系統查找各系統交易資料、耗工蒐集彙整客戶及其關係關聯人資訊，故造成姓名檢核作業速度緩慢、產生作業錯誤風險機率較高等之人工作業痛點。隨著各項金融業務快速成長、疑似洗錢或資恐交易態樣持續完善發展、AML系統警示機制功能不斷開發下，觸及負面新聞之姓名檢核案件亦同步大幅增加，形成作業人員工作超載。

因此，為紓減人力配置重擔與減少錯誤判斷，運用自然語言分析相關於AML文本，以提升案件審查效率，強化負面新聞案件審查品質與作業一致性，減少作業人力需求並降低合規成本。

因此，本新型之目的，即在提供一種運用自然語言分析的文本處理系統。

於是，本新型文本處理系統包含一儲存模組，以及一電連接該儲存模組的處理模組。

該儲存模組儲存有多個用於連結至多個欲分析文本的連結網址，以及多個關鍵詞。

其中，對於每一連結網址，該處理模組根據該連結網址，獲得該連結網址所對應的該欲分析文本，對於每一欲分析文本，該處理模組根據該欲分析文本，利用一斷詞演算法，獲得對應該欲分析文本的多個斷詞，該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞，自該等欲分析文本中，獲得多個目標文本及其所對應的至少一目標斷詞，該處理模組根據每一目標文本所對應的該至少一目標斷詞，利用一聚類分群演算法，將該等目標文本分為至少一群集。

本新型之功效在於：藉由該處理模組自該等欲分析文本中，獲得多個目標文本及其所對應的該至少一目標斷詞，並利用該聚類分群演算法，將該等目標文本分為該至少一群集，如此一來，當於檢核作業逐條審查時，僅需要審查每一群集中的任一個目標文本即可達成與習知作法的相同功效，大大地提升案件審查效率，強化負面新聞案件審查品質與作業一致性，並減少作業人力需求並降低合規成本。

參閱圖1，本新型文本處理系統是應用於洗錢防制的文本處理系統，其實施例包含一電子裝置1。該電子裝置1包含一儲存模組11、一顯示模組12，以及一電連接該儲存模組11及該顯示模組12的處理模組13，在本實施例中，特別是應用於洗錢防制。

該儲存模組11儲存有多個用於連結至多個欲分析文本的連結網址，以及多個關鍵詞。在本實施例中，該等關鍵詞是多個相關於洗錢領域的洗錢關鍵詞。

在該實施例中，該電子裝置1之實施態樣例如為一個人電腦、一伺服器或一雲端主機，但不以此為限。

參閱圖2，以下將藉由本新型應用於洗錢防制的文本處理系統執行一應用於洗錢防制的文本處理方法來說明該電腦裝置1之該儲存模組11、該顯示模組12，以及該處理模組13各元件的運作細節，該文本處理方法包含一步驟51、一步驟52、一步驟53，以及一步驟54。

在步驟51中，對於每一連結網址，該處理模組13根據該連結網址，獲得該連結網址所對應的該欲分析文本。

在步驟52中，對於每一欲分析文本，該處理模組13根據該欲分析文本，利用一斷詞演算法，獲得對應該欲分析文本的多個斷詞。值得特別說明的是，在本實施例中，該斷詞演算法係為[Ma, Wei-Yun and Chen, Keh-Jiann]於 2003所發表之習知技術。

在步驟53中，該處理模組13根據每一欲分析文本所對應的該等斷詞及該等洗錢關鍵詞，自該等欲分析文本中，獲得多個目標文本及其所對應的至少一目標斷詞。

參閱圖3，值得特別說明的是，步驟53還進一步包含一子步驟531，以及一子步驟532。

在子步驟531中，對於每一欲分析文本，該處理模組13判定該欲分析文本所對應的該等斷詞中是否存在於與該等洗錢關鍵詞之其中任一者相符的至少一目標斷詞。當該處理模組13判定出該欲分析文本存在有對應的該至少一目標斷詞時，進行流程步驟532；當該處理模組13判定出該欲分析文本不存在有對應的該至少一目標斷詞時，結束該應用於洗錢防制的文本處理方法。

在子步驟532中，對於每一欲分析文本，該處理模組13將該欲分析文本作為該目標文本，並獲得其所對應的該至少一目標斷詞。

在步驟54中，該處理模組13根據每一目標文本所對應的該至少一目標斷詞，利用一聚類分群演算法，將該等目標文本分為至少一群集並顯示於該顯示模組12。

參閱圖4，值得特別說明的是，步驟54還進一步包含一子步驟541，以及一子步驟542。

在子步驟541中，對於每一目標文本，該處理模組13根據該目標文本所對應的該至少一目標斷詞，利用一用於將文本轉成數值向量的文本嵌入模型，獲得對應該目標文本的一文本向量組。其中，該處理模組13係根據每一目標文本所對應的該至少一目標斷詞，利用該文本嵌入模型，獲得每一目標文本所對應的該文本向量組。值得特別說明的是，在本實施例中，該文本嵌入模型係為[Le and Mikolov]於2014年所發表的 PV-DBOW（Paragraph Vector - Distributed Bag of Words），但不以此為限。

在子步驟542中，根據每一目標文本所對應的該文本向量組，利用該聚類分群演算法，將該等目標文本分為該至少一群集並顯示於該顯示模組12。其中，每一群集係為由樹狀結構表示的樹。值得特別說明的是，在本實施例中，該聚類分群演算法係為[Zhang et al]於1996年所發表的平衡式反覆化簡和層級分群法BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies），但不以此為限。

參閱圖5，值得特別說明的是，子步驟542還進一步包含一子步驟542A、一子步驟542B、一子步驟542C、一子步驟542D、一子步驟542E，以及一子步驟542F。

在子步驟542A中，該處理模組13將一欲分群文本向量組歸類為一候選群集，該欲分群文本向量組為該等文本向量組之其中一者。

在子步驟542B中，該處理模組13判定下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中一者，該下一欲分群文本向量組為尚未被歸類的文本向量組之其中一者。當該處理模組13判定出定該下一個欲分群文本向量組屬於該當前所存在的候選群集之其中之該者時，進行流程子步驟542C；當該處理模組13判定出定該下一個欲分群文本向量組不屬於任一候選群集時，進行流程子步驟542D。特別地，該處理模組13係藉由判定該下一個欲分群文本向量組於加入當前所存在的候選群集之其該者後，當前所存在的候選群集之其該者於向量空間中整體距離之遠近是否超過一預設閾值，以判定該下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中該者。

在子步驟542C中，該處理模組13將該下一個欲分群文本向量組歸類為當前所存在的候選群集之其中之該者。

在子步驟542D中，該處理模組13將該下一個欲分群文本向量組歸類為另一新的候選群集。

在子步驟542E中，該處理模組13判定是否還有尚未被歸類的文本向量組。當該處理模組13判定還有尚未被歸類的文本向量組時，回到流程子步驟542B；當該處理模組13判定無任何尚未被歸類的文本向量組時，進行流程子步驟542F。

在子步驟542F中，該處理模組13將當前所存在的候選群集作為該至少一群集並顯示於該顯示模組12。

綜上所述，本新型應用於洗錢防制的文本處理系統，藉由該處理模組13自該等欲分析文本中，篩選出多個與洗錢相關的目標文本及其所對應的該至少一目標斷詞，接著，利用該文本嵌入模型，將每一目標文本所對應的該至少一目標斷詞，轉換為每一目標文本所對應的該文本向量組，再利用該聚類分群演算法，將該等目標文本分為各個由樹狀結構所表示的該至少一群集，如此一來，當於檢核作業逐條審查時，僅需要審查每一群集之樹根所代表的該目標文本，即可達成與習知作法的相同功效，大大地提升案件審查效率，強化負面新聞案件審查品質與作業一致性，並減少作業人力需求並降低合規成本。因此，故確實能達成本新型的目的。

惟以上所述者，僅為本新型之實施例而已，當不能以此限定本新型實施之範圍，凡是依本新型申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本新型專利涵蓋之範圍內。

1‧‧‧電子裝置

11‧‧‧儲存模組

12‧‧‧顯示模組

13‧‧‧處理模組

51~54‧‧‧步驟

531~532‧‧‧子步驟

541~542‧‧‧子步驟

542A~542F‧‧‧子步驟

本新型之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明本新型文本處理系統的一實施例；圖2是一流程圖，說明該實施例所執行之一文本處理方法；圖3是一流程圖，說明該文本處理方法如何獲得一目標文本及其所對應的至少一目標斷詞的細部流程；圖4是一流程圖，說明該文本處理方法如何獲得所有目標文本的文本向量組，並將其分為至少一群集的細部流程；及圖5是一流程圖，說明該文本處理方法如何將所有目標文本分為至少一群集的細部流程。

Claims

一種文本處理系統，包含：一儲存模組，儲存有多個用於連結至多個欲分析文本的連結網址，以及多個關鍵詞；一處理模組，電連接該儲存模組；其中，對於每一連結網址，該處理模組根據該連結網址，獲得該連結網址所對應的該欲分析文本，對於每一欲分析文本，該處理模組根據該欲分析文本，利用一斷詞演算法，獲得對應該欲分析文本的多個斷詞，該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞，自該等欲分析文本中，獲得多個目標文本及其所對應的至少一目標斷詞，該處理模組根據每一目標文本所對應的該至少一目標斷詞，利用一聚類分群演算法，將該等目標文本分為至少一群集。
如請求項1所述的文本處理系統，其中，對於每一欲分析文本，該處理模組判定該欲分析文本所對應的該等斷詞中是否存在於與該等關鍵詞之其中任一者相符的至少一目標斷詞，對於每一欲分析文本，當該處理模組判定出判定該欲分析文本存在有對應的該至少一目標斷詞時，該處理模組將該欲分析文本作為該目標文本，並獲得其所對應的該至少一目標斷詞。
如請求項1所述的文本處理系統，其中，對於每一目標文本，該處理模組根據該目標文本所對應的該至少一目標斷詞，利用一用於將文本轉成數值向量的文本嵌入模型，獲得對應該目標文本的一文本向量組，該處理模組根據每一目標文本所對應的該文本向量組，利用該聚類分群演算法，將該等目標文本分為該至少一群集。
如請求項3所述的文本處理系統，其中，該處理模組將一欲分群文本向量組歸類為一候選群集，該欲分群文本向量組為該等文本向量組之其中一者，該處理模組判定下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中一者，該下一欲分群文本向量組為尚未被歸類的文本向量組之其中一者，當該處理模組判定出定該下一個欲分群文本向量組屬於該當前所存在的候選群集之其中之該者時，該處理模組將該下一個欲分群文本向量組歸類為當前所存在的候選群集之其中之該者，當該處理模組判定出定該下一個欲分群文本向量組不屬於任一候選群集時，該處理模組將該下一個欲分群文本向量組歸類為另一新的候選群集，該處理模組重覆地判定並歸類下一個尚未被歸類的文本向量組之其中一者，直到將所有尚未被歸類的文本向量組被歸類完成，當前所存在的候選群集即為該至少一群集。
如請求項3所述的文本處理系統，其中，該聚類分群演算法係為平衡式反覆化簡和層級分群法，每一群集係為樹狀結構。