TWM585945U - 文本處理系統 - Google Patents

文本處理系統 Download PDF

Info

Publication number
TWM585945U
TWM585945U TW108207776U TW108207776U TWM585945U TW M585945 U TWM585945 U TW M585945U TW 108207776 U TW108207776 U TW 108207776U TW 108207776 U TW108207776 U TW 108207776U TW M585945 U TWM585945 U TW M585945U
Authority
TW
Taiwan
Prior art keywords
text
target
processing module
analyzed
group
Prior art date
Application number
TW108207776U
Other languages
English (en)
Inventor
林淑芬
宋政隆
田文
陳皓遠
陳逸航
Original Assignee
中國信託商業銀行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國信託商業銀行股份有限公司 filed Critical 中國信託商業銀行股份有限公司
Priority to TW108207776U priority Critical patent/TWM585945U/zh
Publication of TWM585945U publication Critical patent/TWM585945U/zh

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種文本處理系統,包含一儲存模組及一處理模組。該儲存模組儲存有多個連結網址及多個關鍵詞,其中,對於每一連結網址,該處理模組根據該連結網址,獲得該連結網址所對應的一欲分析文本,對於每一欲分析文本,該處理模組利用斷詞演算法,獲得對應該欲分析文本的多個斷詞,該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞,自該等欲分析文本中,獲得多個目標文本及其所對應的至少一目標斷詞,該處理模組根據每一目標文本所對應的該至少一目標斷詞,利用聚類分群演算法,將該等目標文本分為至少一群集。

Description

文本處理系統
本新型是有關一種相關於自然語言處理技術的文本處理系統,特別是指一種應用於洗錢防制領域的文本處理系統。
洗錢防制/打擊資助恐怖主義(AML/CFT,Anti-Money Laundering/Combating the Financing of Terrorism)相關法規與作業規範日趨嚴謹,辨識客戶身分、客戶盡職調查作業亦愈趨繁複,AML作業相關人力投入亦均隨之大幅增加。
現行AML姓名檢核作業若觸及負面新聞名單,則需逐條檢閱每則新聞、逐字閱讀新聞內容為真警報或假警報外,亦需同時判斷新聞事件主角與所屬客戶是否為同一人,必須參考分散於內部不同系統與網站的資料以判斷客戶身分是否相同。而必須費時跨系統查找各系統交易資料、耗工蒐集彙整客戶及其關係關聯人資訊,故造成姓名檢核作業速度緩慢、產生作業錯誤風險機率較高等之人工作業痛點。隨著各項金融業務快速成長、疑似洗錢或資恐交易態樣持續完善發展、AML系統警示機制功能不斷開發下,觸及負面新聞之姓名檢核案件亦同步大幅增加,形成作業人員工作超載。
因此,為紓減人力配置重擔與減少錯誤判斷,運用自然語言分析相關於AML文本,以提升案件審查效率,強化負面新聞案件審查品質與作業一致性,減少作業人力需求並降低合規成本。
因此,本新型之目的,即在提供一種運用自然語言分析的文本處理系統。
於是,本新型文本處理系統包含一儲存模組,以及一電連接該儲存模組的處理模組。
該儲存模組儲存有多個用於連結至多個欲分析文本的連結網址,以及多個關鍵詞。
其中,對於每一連結網址,該處理模組根據該連結網址,獲得該連結網址所對應的該欲分析文本,對於每一欲分析文本,該處理模組根據該欲分析文本,利用一斷詞演算法,獲得對應該欲分析文本的多個斷詞,該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞,自該等欲分析文本中,獲得多個目標文本及其所對應的至少一目標斷詞,該處理模組根據每一目標文本所對應的該至少一目標斷詞,利用一聚類分群演算法,將該等目標文本分為至少一群集。
本新型之功效在於:藉由該處理模組自該等欲分析文本中,獲得多個目標文本及其所對應的該至少一目標斷詞,並利用該聚類分群演算法,將該等目標文本分為該至少一群集,如此一來,當於檢核作業逐條審查時,僅需要審查每一群集中的任一個目標文本即可達成與習知作法的相同功效,大大地提升案件審查效率,強化負面新聞案件審查品質與作業一致性,並減少作業人力需求並降低合規成本。
參閱圖1,本新型文本處理系統是應用於洗錢防制的文本處理系統,其實施例包含一電子裝置1。該電子裝置1包含一儲存模組11、一顯示模組12,以及一電連接該儲存模組11及該顯示模組12的處理模組13,在本實施例中,特別是應用於洗錢防制。
該儲存模組11儲存有多個用於連結至多個欲分析文本的連結網址,以及多個關鍵詞。在本實施例中,該等關鍵詞是多個相關於洗錢領域的洗錢關鍵詞。
在該實施例中,該電子裝置1之實施態樣例如為一個人電腦、一伺服器或一雲端主機,但不以此為限。
參閱圖2,以下將藉由本新型應用於洗錢防制的文本處理系統執行一應用於洗錢防制的文本處理方法來說明該電腦裝置1之該儲存模組11、該顯示模組12,以及該處理模組13各元件的運作細節,該文本處理方法包含一步驟51、一步驟52、一步驟53,以及一步驟54。
在步驟51中,對於每一連結網址,該處理模組13根據該連結網址,獲得該連結網址所對應的該欲分析文本。
在步驟52中,對於每一欲分析文本,該處理模組13根據該欲分析文本,利用一斷詞演算法,獲得對應該欲分析文本的多個斷詞。值得特別說明的是,在本實施例中,該斷詞演算法係為[Ma, Wei-Yun and Chen, Keh-Jiann]於 2003所發表之習知技術。
在步驟53中,該處理模組13根據每一欲分析文本所對應的該等斷詞及該等洗錢關鍵詞,自該等欲分析文本中,獲得多個目標文本及其所對應的至少一目標斷詞。
參閱圖3,值得特別說明的是,步驟53還進一步包含一子步驟531,以及一子步驟532。
在子步驟531中,對於每一欲分析文本,該處理模組13判定該欲分析文本所對應的該等斷詞中是否存在於與該等洗錢關鍵詞之其中任一者相符的至少一目標斷詞。當該處理模組13判定出該欲分析文本存在有對應的該至少一目標斷詞時,進行流程步驟532;當該處理模組13判定出該欲分析文本不存在有對應的該至少一目標斷詞時,結束該應用於洗錢防制的文本處理方法。
在子步驟532中,對於每一欲分析文本,該處理模組13將該欲分析文本作為該目標文本,並獲得其所對應的該至少一目標斷詞。
在步驟54中,該處理模組13根據每一目標文本所對應的該至少一目標斷詞,利用一聚類分群演算法,將該等目標文本分為至少一群集並顯示於該顯示模組12。
參閱圖4,值得特別說明的是,步驟54還進一步包含一子步驟541,以及一子步驟542。
在子步驟541中,對於每一目標文本,該處理模組13根據該目標文本所對應的該至少一目標斷詞,利用一用於將文本轉成數值向量的文本嵌入模型,獲得對應該目標文本的一文本向量組。其中,該處理模組13係根據每一目標文本所對應的該至少一目標斷詞,利用該文本嵌入模型,獲得每一目標文本所對應的該文本向量組。值得特別說明的是,在本實施例中,該文本嵌入模型係為[Le and Mikolov]於2014年所發表的 PV-DBOW(Paragraph Vector - Distributed Bag of Words),但不以此為限。
在子步驟542中,根據每一目標文本所對應的該文本向量組,利用該聚類分群演算法,將該等目標文本分為該至少一群集並顯示於該顯示模組12。其中,每一群集係為由樹狀結構表示的樹。值得特別說明的是,在本實施例中,該聚類分群演算法係為[Zhang et al]於1996年所發表的平衡式反覆化簡和層級分群法BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies),但不以此為限。
參閱圖5,值得特別說明的是,子步驟542還進一步包含一子步驟542A、一子步驟542B、一子步驟542C、一子步驟542D、一子步驟542E,以及一子步驟542F。
在子步驟542A中,該處理模組13將一欲分群文本向量組歸類為一候選群集,該欲分群文本向量組為該等文本向量組之其中一者。
在子步驟542B中,該處理模組13判定下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中一者,該下一欲分群文本向量組為尚未被歸類的文本向量組之其中一者。當該處理模組13判定出定該下一個欲分群文本向量組屬於該當前所存在的候選群集之其中之該者時,進行流程子步驟542C;當該處理模組13判定出定該下一個欲分群文本向量組不屬於任一候選群集時,進行流程子步驟542D。特別地,該處理模組13係藉由判定該下一個欲分群文本向量組於加入當前所存在的候選群集之其該者後,當前所存在的候選群集之其該者於向量空間中整體距離之遠近是否超過一預設閾值,以判定該下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中該者。
在子步驟542C中,該處理模組13將該下一個欲分群文本向量組歸類為當前所存在的候選群集之其中之該者。
在子步驟542D中,該處理模組13將該下一個欲分群文本向量組歸類為另一新的候選群集。
在子步驟542E中,該處理模組13判定是否還有尚未被歸類的文本向量組。當該處理模組13判定還有尚未被歸類的文本向量組時,回到流程子步驟542B;當該處理模組13判定無任何尚未被歸類的文本向量組時,進行流程子步驟542F。
在子步驟542F中,該處理模組13將當前所存在的候選群集作為該至少一群集並顯示於該顯示模組12。
綜上所述,本新型應用於洗錢防制的文本處理系統,藉由該處理模組13自該等欲分析文本中,篩選出多個與洗錢相關的目標文本及其所對應的該至少一目標斷詞,接著,利用該文本嵌入模型,將每一目標文本所對應的該至少一目標斷詞,轉換為每一目標文本所對應的該文本向量組,再利用該聚類分群演算法,將該等目標文本分為各個由樹狀結構所表示的該至少一群集,如此一來,當於檢核作業逐條審查時,僅需要審查每一群集之樹根所代表的該目標文本,即可達成與習知作法的相同功效,大大地提升案件審查效率,強化負面新聞案件審查品質與作業一致性,並減少作業人力需求並降低合規成本。因此,故確實能達成本新型的目的。
惟以上所述者,僅為本新型之實施例而已,當不能以此限定本新型實施之範圍,凡是依本新型申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾,皆仍屬本新型專利涵蓋之範圍內。
1‧‧‧電子裝置
11‧‧‧儲存模組
12‧‧‧顯示模組
13‧‧‧處理模組
51~54‧‧‧步驟
531~532‧‧‧子步驟
541~542‧‧‧子步驟
542A~542F‧‧‧子步驟
本新型之其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是一方塊圖,說明本新型文本處理系統的一實施例; 圖2是一流程圖,說明該實施例所執行之一文本處理方法; 圖3是一流程圖,說明該文本處理方法如何獲得一目標文本及其所對應的至少一目標斷詞的細部流程; 圖4是一流程圖,說明該文本處理方法如何獲得所有目標文本的文本向量組,並將其分為至少一群集的細部流程;及 圖5是一流程圖,說明該文本處理方法如何將所有目標文本分為至少一群集的細部流程。

Claims (5)

  1. 一種文本處理系統,包含: 一儲存模組,儲存有多個用於連結至多個欲分析文本的連結網址,以及多個關鍵詞; 一處理模組,電連接該儲存模組; 其中,對於每一連結網址,該處理模組根據該連結網址,獲得該連結網址所對應的該欲分析文本,對於每一欲分析文本,該處理模組根據該欲分析文本,利用一斷詞演算法,獲得對應該欲分析文本的多個斷詞,該處理模組根據每一欲分析文本所對應的該等斷詞及該等關鍵詞,自該等欲分析文本中,獲得多個目標文本及其所對應的至少一目標斷詞,該處理模組根據每一目標文本所對應的該至少一目標斷詞,利用一聚類分群演算法,將該等目標文本分為至少一群集。
  2. 如請求項1所述的文本處理系統,其中,對於每一欲分析文本,該處理模組判定該欲分析文本所對應的該等斷詞中是否存在於與該等關鍵詞之其中任一者相符的至少一目標斷詞,對於每一欲分析文本,當該處理模組判定出判定該欲分析文本存在有對應的該至少一目標斷詞時,該處理模組將該欲分析文本作為該目標文本,並獲得其所對應的該至少一目標斷詞。
  3. 如請求項1所述的文本處理系統,其中,對於每一目標文本,該處理模組根據該目標文本所對應的該至少一目標斷詞,利用一用於將文本轉成數值向量的文本嵌入模型,獲得對應該目標文本的一文本向量組,該處理模組根據每一目標文本所對應的該文本向量組,利用該聚類分群演算法,將該等目標文本分為該至少一群集。
  4. 如請求項3所述的文本處理系統,其中,該處理模組將一欲分群文本向量組歸類為一候選群集,該欲分群文本向量組為該等文本向量組之其中一者,該處理模組判定下一個欲分群文本向量組是否屬於當前所存在的候選群集之其中一者,該下一欲分群文本向量組為尚未被歸類的文本向量組之其中一者,當該處理模組判定出定該下一個欲分群文本向量組屬於該當前所存在的候選群集之其中之該者時,該處理模組將該下一個欲分群文本向量組歸類為當前所存在的候選群集之其中之該者,當該處理模組判定出定該下一個欲分群文本向量組不屬於任一候選群集時,該處理模組將該下一個欲分群文本向量組歸類為另一新的候選群集,該處理模組重覆地判定並歸類下一個尚未被歸類的文本向量組之其中一者,直到將所有尚未被歸類的文本向量組被歸類完成,當前所存在的候選群集即為該至少一群集。
  5. 如請求項3所述的文本處理系統,其中,該聚類分群演算法係為平衡式反覆化簡和層級分群法,每一群集係為樹狀結構。
TW108207776U 2019-06-19 2019-06-19 文本處理系統 TWM585945U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW108207776U TWM585945U (zh) 2019-06-19 2019-06-19 文本處理系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108207776U TWM585945U (zh) 2019-06-19 2019-06-19 文本處理系統

Publications (1)

Publication Number Publication Date
TWM585945U true TWM585945U (zh) 2019-11-01

Family

ID=69190233

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108207776U TWM585945U (zh) 2019-06-19 2019-06-19 文本處理系統

Country Status (1)

Country Link
TW (1) TWM585945U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI700664B (zh) * 2019-06-19 2020-08-01 中國信託商業銀行股份有限公司 文本處理方法及其系統

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI700664B (zh) * 2019-06-19 2020-08-01 中國信託商業銀行股份有限公司 文本處理方法及其系統

Similar Documents

Publication Publication Date Title
NL2012438B1 (en) Resolving similar entities from a database.
US20170178139A1 (en) Analysis of Transaction Information Using Graphs
Wang et al. Representing fine-grained co-occurrences for behavior-based fraud detection in online payment services
CN113344700B (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN105975547B (zh) 基于内容与位置特征的近似web文档检测方法
CN111833182B (zh) 识别风险对象的方法和装置
CN105630931A (zh) 一种文档分类的方法及装置
WO2019089396A1 (en) Using semi-supervised label procreation to train a risk determination model
US11030228B2 (en) Contextual interestingness ranking of documents for due diligence in the banking industry with topicality grouping
CN111414754A (zh) 一种事件的情感分析方法、装置、服务器及存储介质
JP2022548501A (ja) 暗号通貨取引を分析するためのデータ取得方法及び装置
CN114036531A (zh) 一种基于多尺度代码度量的软件安全漏洞检测方法
US11593385B2 (en) Contextual interestingness ranking of documents for due diligence in the banking industry with entity grouping
CN112950359B (zh) 一种用户识别方法和装置
WO2021021168A1 (en) Anomaly detection and clustering in financial data channel migration
TWM585945U (zh) 文本處理系統
WO2019079054A1 (en) DETECTION OF ANOMALY IN DATA TRANSACTIONS
CN112822210A (zh) 一种基于网络资产的漏洞管理系统
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
US11010399B1 (en) Automated data scraping
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN111563527A (zh) 异常事件检测方法以及装置
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
TWI700664B (zh) 文本處理方法及其系統
CN114519568A (zh) 审单方法、装置、电子设备和存储介质