TWM633252U

TWM633252U - 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置

Info

Publication number: TWM633252U
Application number: TW111208364U
Authority: TW
Inventors: 王俊權; 陳秀玲; 陳美蒨; 宋政隆; 于家琦; 侯鈞元; 吳瑞琳; 賴志禮; 姚維民; 陳皓遠; 邱國豪; 彭士爵
Original assignee: 中國信託商業銀行股份有限公司
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-10-11

Abstract

一種用於標註訓練資料的運算裝置包含一用於輸入一文章的輸入模組及一處理模組。該處理模組將該文章進行文本前處理以獲得一處理後文本，並將該處理後文本進行一命名實體識別以識別出多個字詞，且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句，對於該處理後文本中包含該等目標語句之至少一者的每一段落，將該段落切分為至少一子段落，對於每一子段落，統計該子段落中所包含之目標語句的數量，並自所有子段落中標記出對應有目標語句的數量不為零的目標段落，且根據每一目標段落之目標語句的數量獲得其所對應之關聯度。

Description

用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置

本新型是有關於一種資料標記裝置，特別是指一種自動標註應用機器學習所需之訓練資料的用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置。

鑑於機器學習的迅速發展，應用機器學習模型來解決各式各樣的問題日益月滋，急如星火，使得熟捻專業領域的同仁(專家)們肩負協助標註特定領域資料的工作量也日益繁重。由於標註大量的訓訓練資料曠日廢時，倘若同時有不同的機器學習模型落地專案需要協助，則專案推遲的情況也將會越來越嚴重。

在這樣的情況下，專案小組們為了免除同時面臨業務壓力與專案壓力，漸漸地會對導入機器學習模型落地專案失去信心。機器學習模型落地專案在這樣的情況下陷入一個惡性循環，使得推廣不易，或是專案結果與預期相差甚鉅，科技轉型的實務發展也因此受阻。故如何在減少專家標註負擔的同時又能解決機器學習模型落地專案缺乏大量特定專業領域標註資料的窘境，是目前亟待解決之問題。

因此，本新型之目的，即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於標註訓練資料的運算裝置。

於是，本新型用於標註訓練資料的運算裝置，適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度，該運算裝置包含一用於輸入該文章的輸入模組及一電連接該輸入模組的處理模組。

該處理模組接收來自該輸入模組之該文章，且將該文章進行一文本前處理以獲得一處理後文本，並將該處理後文本進行一命名實體識別，以識別出該處理後文本中的多個字詞，每一字詞對應於多個相關於該特定面向之實體中之一者，且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組將該段落切分為至少一子段落，對於每一子段落，該處理模組統計該子段落中所包含之目標語句的數量，並自所有子段落中標記出對應有目標語句的數量不為零的目標段落，且根據每一目標段落之目標語句的數量獲得其所對應之關聯度。

本新型之另一目的，即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於建立文章標註模型的運算裝置。

於是，本新型用於建立文章標註模型的運算裝置包含一儲存模組、一如上所述之用於標註訓練資料的運算裝置，及一電連接該儲存模組及該用於標註訓練資料的運算裝置的處理模組。

該儲存模組儲存有多筆人工標註訓練資料，每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度。

其中，對於每一訓練文章，該用於標註訓練資料的運算裝置依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度，該處理模組將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料，且該處理模組根據該等人工標註訓練資料及該等自動標註訓練資料，利用一機器學習方法，獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。

本新型之又一目的，即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於標註文章的運算裝置。

於是，本新型用於標註文章的運算裝置包含一用於儲存如上所述的該文章標註模型的儲存模組，及一電連接該儲存模組的處理模組。

其中，該處理模組獲得一待標註文章，並根據該待標註文章利用該文章標註模型，獲得相關於該待標註文章之一標註結果，該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。

本新型之功效在於：藉由該運算裝置將該文章進行一文本前處理及一命名實體識別，以識別出該文章中的該等字詞，且根據該等字詞及一組語法規則獲得該等目標語句，該處理模組統計每一子段落中所包含之目標語句的數量，並自所有子段落中標記出對應有目標語句的數量不為零的目標段落，且根據每一目標段落之目標語句的數量獲得其所對應之關聯度，藉此以自動標記訓練資料，進而減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境。

參閱圖1，本新型用於標註文章的運算裝置1包含一輸入模組11、一儲存模組12及一電連接該輸入模組11與該儲存模組12的處理模組13。該運算裝置11之實施態樣例如為一伺服器、一個人電腦、一筆記型電腦、一平板電腦或一智慧型手機等。

該儲存模組12儲存有多筆人工標註訓練資料，每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度。

以下將藉由一文章標註方法來說明該運算裝置11的運作細節，該文章標註方法包含一訓練資料標註程序、一文章標註模型建立程序、一文章標註程序，及一文章標註模型校準程序。

該訓練資料標註程序說明了如何依據一特定面向標註出每一訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度，並包含一初始標註子程序、一追加標註子程序及一擴充標註子程序。由於每一訓練文章之標註方式皆相似，以下僅就該等訓練文章中之一者進行說明。

參閱圖1與圖2，該初始標註子程序包含以下步驟。

在步驟21中，該處理模組13將自該輸入模組11輸入之該訓練文章進行一文本前處理以獲得一處理後文本。在本實施方式中，該文本前處理包含一文本格式轉換、一文本清洗及一文本切割之至少一者。該文本格式轉換用於將該訓練文章轉換為可利用OCR或直接可取出文字內容的檔案格式。該文本清洗與該文本切割用於刪除該訓練文章中之異常字符及冗餘字符，並重新組合或切割成有意義之分段。

在步驟22中，該處理模組13將該處理後文本進行一命名實體識別，以識別出該處理後文本中的多個字詞，每一字詞對應於多個相關於該特定面向之實體中之一者。舉例而言，若該特定面向為政策面向，則相關於該政策面向之實體即為如，「文獻(WORK_OF_ART)」、「法律(LAW)」、「事件(EVENT)」以及「機構(ORG)」之實體。

在步驟23中，該處理模組13根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句。舉例而言，該組語法規則可包含抓取相關於該特定面向之實體的字詞及其與動詞和受詞之組合的規則，以使得所獲得之目標語句為較完整且有意義，而避免獲得類似縮寫、短語、提⽰、表格表頭等無意義的語句。

在步驟24中，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組13將該段落切分為至少一子段落。

在步驟25中，對於每一子段落，該處理模組13統計該子段落中所包含之目標語句的數量。

在步驟26中，該處理模組13自所有子段落中標記出對應有目標語句的數量不為零的目標段落。

在步驟27中，該處理模組13根據每一目標段落之目標語句的數量獲得其所對應之關聯度。在本實施方式中，當該目標段落中所包含之目標語句的數量為1~3句時，所對應之關聯度為1；當該目標段落中所包含之目標語句的數量超過3句時，所對應之關聯度為2。

值得一提的是，透過該初始標註子程序即可自動標註出該訓練文章中之部分的目標段落及其對應之關聯度，而可將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為訓練資料以供訓練出一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。然而，在訓練模型時，單純使用該初始標註子程序標註出之目標段落，恐仍有遺漏之處，因此為了增進所訓練出之模型的精準度，該文章標註方法進一步採用了該追加標註子程序及該擴充標註子程序來增加目標段落之標註，以避免僅執行該初始標註子程而序生的遺珠之憾。

參閱圖1與圖3，該追加標註子程序包含以下步驟。

在步驟31中，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組13根據該段落中的每一目標段落獲得所對應之至少一目標關鍵字，其中每一目標關鍵字對應於一關聯分數，對於每一目標關鍵字，該目標關鍵字所對應之關聯分數係藉由將該目標關鍵字所在之目標段落所對應的關聯度乘上一預設分數而獲得。在本新型之其他實施方式中，該處理模組13亦可根據該段落中被人工標註出之標記段落來獲得所對應之至少一目標關鍵字，並不以此為限。

在步驟32中，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組13根據該段落中之每一非為目標段落的子段落所包含之與該段落所對應之所有目標關鍵字任一者匹配的關鍵字及其對應之關聯分數，獲得每一非為目標段落的子段落所對應之追加評分。舉例來說，若該非為目標段落的子段落包含三個不同之目標關鍵字，則該非為目標段落的子段落所對應之追加評分即為該等三個不同之目標關鍵字所對應之關聯分數的加總。值得一提的是，即便同一目標關鍵字重複出現於非為目標段落的子段落，仍謹計分一次(亦即，對於同一目標關鍵字，只加一次該目標關鍵字所對應之關聯分數)。

在步驟33中，該處理模組13自所有非為目標段落之子段落中標記出對應有追加評分大於一預設門檻值的追加段落，以作為追加之目標段落。雖然該追加之目標段落不包含目標語句，但其包含許多出現於目標段落之目標關鍵字，因而與目標段落間具有較高之關聯性，故亦應與該特定面向相關，因此也需要被標註出。

在步驟34中，該處理模組13根據每一追加之目標段落的追加評分獲得其所對應之關聯度。在本實施方式中，當該追加之目標段落的追加評分為10~15分時，所對應之關聯度為1；當該追加之目標段落的追加評分為超過15分時，所對應之關聯度為2。

參閱圖1與圖4，該擴充標註子程序包含以下步驟。

在步驟41中，對於每一目標關鍵字，該處理模組13根據該目標關鍵字獲得至少一擴充關鍵字，及其與該目標關鍵字對應之相似度。在本實施方式中，可採用word2vec技術來獲得該目標關鍵所對應的至少一擴充關鍵字。

在步驟42中，對於每一擴充關鍵字，該處理模組13根據該擴充關鍵字所對應之目標關鍵字的關聯分數，及其與該目標關鍵字對應之相似度，獲得一擴充關係分數。其中，該擴充關鍵字所對應之擴充關係分數係藉由將該擴充關鍵字所對應之目標關鍵字的關聯分數乘上該擴充關鍵字與該目標關鍵字對應之相似度而獲得。

在步驟43中，對於每一非為目標段落之子段落，該處理模組13根據該子段落所包含之與所有擴充關鍵字任一者匹配的關鍵字及其對應之擴充關係分數，獲得該子段落之一擴充評分。舉例來說，若該非為目標段落的子段落包含三個不同之擴充關鍵字，則該非為目標段落的子段落所對應之擴充評分即為該等三個不同之擴充關鍵字所對應之擴充關係分數的加總。值得一提的是，即便同一擴充關鍵字重複出現於非為目標段落的子段落，仍謹計分一次(亦即，對於同一擴充關鍵字，只加一次該擴充關鍵字所對應之擴充關係分數)。

在步驟44中，該處理模組13自所有非為目標段落之子段落中標記出對應有擴充評分大於該預設門檻值的擴充段落，以作為擴充之目標段落。另外可進一步考慮的是，雖然該擴充之目標段落不包含目標關鍵字，但其包含許多與目標關鍵字近似之擴充關鍵字，因而也與目標段落間具有較高之關聯性，故亦應與該特定面向相關，因此也需要被標註出。

在步驟45中，該處理模組13根據每一擴充之目標段落的擴充評分獲得其所對應之關聯度。在本實施方式中，當該擴充之目標段落的擴充評分為10~15分時，所對應之關聯度為1；當該擴充之目標段落的擴充評分為超過15分時，所對應之關聯度為2。

參閱圖1與圖5，該文章標註模型建立程序說明了如何建立該文章標註模型，並包含以下步驟。

在步驟51中，對於每一訓練文章，該處理模組13將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料。

在步驟52中，該處理模組13根據該等人工標註訓練資料及該等自動標註訓練資料，利用一機器學習方法，獲得用於標註出該輸入文章之該至少一重點段落及其對應之至少一關聯度的該文章標註模型。

參閱圖1與圖6，該文章標註程序說明了如何獲得一待標註文章之標註結果，並包含以下步驟。

在步驟61中，該處理模組13獲得該待標註文章。其中，該處理模組13係自該輸入模組11所輸入之待標註文章來獲得該待標註文章。

在步驟62中，該處理模組13根據該待標註文章利用該文章標註模型，獲得相關於該待標註文章之標註結果，該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。

參閱圖1與圖7，該文章標註模型校準程序說明了如何校準該文章標註模型，並包含以下步驟。

在步驟71中，在該處理模組13接收到一相關於該待標註文章之人工標註校準結果後，該人工標註校準結果包含相關於該待標註文章之至少一校準重點段落及其對應之至少一關聯度，該處理模組13根據該待標註文章及其人工標註校準結果，利用一反向傳播演算法，更新該文章標註模型。其中，該人工標註校準結果係由一專家針對該文章標註模型所產生之相關於該待標註文章的標註結果所出之改正，並經由操作該輸入模組11而產生。藉由該專家之反向回饋，可持續訓練該文章標註模型，讓該文章標註模型的正確率越來越高。

綜上所述，本新型用於標註文章的運算裝置1，藉由執行該訓練資料標註程序，以自動依據該特定面向標註出每一訓練文章中與該特定面向相關的該至少一目標段落及其對應之至少一關聯度，藉此達到自動標記訓練資料之目的，進而減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境，此外，藉由該運算裝置1執行該文章標註模型校準程序，以透過該專家檢視該文章標註模型自動標註出之標註結果是否正確，並產生該人工標註校準結果以供校準該文章標註模型，進而提升該文章標註模型之準確度，故確實能達成本新型的目的。

惟以上所述者，僅為本新型之實施例而已，當不能以此限定本新型實施之範圍，凡是依本新型申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本新型專利涵蓋之範圍內。

1:運算裝置 11:輸入模組 12:儲存模組 13:處理模組 31~34:步驟 41~45:步驟 51~52:步驟 61~62:步驟 71:步驟

本新型之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明本新型用於標註文章的運算裝置之實施例；圖2是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一初始標註子程序；圖3是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一追加標註子程序；圖4是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一擴充標註子程序；圖5是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一文章標註模型建立程序；圖6是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一文章標註程序；及圖7是一流程圖，說明本新型用於標註文章的運算裝置之實施例執行一文章標註模型校準程序。

1:運算裝置

11:輸入模組

12:儲存模組

13:處理模組

Claims

一種用於標註訓練資料的運算裝置，適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度，該運算裝置包含：一輸入模組，用於輸入該文章；及一處理模組，電連接該輸入模組，並接收來自該輸入模組之該文章，且將該文章進行一文本前處理以獲得一處理後文本，並將該處理後文本進行一命名實體識別，以識別出該處理後文本中的多個字詞，每一字詞對應於多個相關於該特定面向之實體中之一者，且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組將該段落切分為至少一子段落，對於每一子段落，該處理模組統計該子段落中所包含之目標語句的數量，並自所有子段落中標記出對應有目標語句的數量不為零的目標段落，且根據每一目標段落之目標語句的數量獲得其所對應之關聯度。
如請求項1所述的用於標註訓練資料的運算裝置，其中，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組還根據該段落中的每一目標段落獲得所對應之至少一目標關鍵字，其中每一目標關鍵字對應於一關聯分數，對於該處理後文本中包含該等目標語句之至少一者的每一段落，該處理模組還根據該段落中之每一非為目標段落的子段落所包含之與該段落所對應之所有目標關鍵字任一者匹配的關鍵字及其對應之關聯分數，獲得每一非為目標段落的子段落所對應之追加評分，且該處理模組還自所有非為目標段落之子段落中標記出對應有追加評分大於一預設門檻值的追加段落，以作為追加之目標段落，並根據每一追加之目標段落的追加評分獲得其所對應之關聯度。
如請求項2所述的用於標註訓練資料的運算裝置，其中，對於每一目標關鍵字，該處理模組還根據該目標關鍵字獲得至少一擴充關鍵字，及其與該目標關鍵字對應之相似度，對於每一擴充關鍵字，該處理模組還根據該擴充關鍵字所對應之目標關鍵字的關聯分數，及其與該目標關鍵字對應之相似度，獲得一擴充關係分數，對於每一非為目標段落之子段落，該處理模組還根據該子段落所包含之與所有擴充關鍵字任一者匹配的關鍵字及其對應之擴充關係分數，獲得該子段落之一擴充評分，且該處理模組還自所有非為目標段落之子段落中標記出對應有擴充評分大於該預設門檻值的擴充段落，以作為擴充之目標段落，並根據每一擴充之目標段落的擴充評分獲得其所對應之關聯度。
一種用於建立文章標註模型的運算裝置，包含：一儲存模組，儲存有多筆人工標註訓練資料，每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度；一如請求項1所述之用於標註訓練資料的運算裝置；一處理模組，電連接該儲存模組及該用於標註訓練資料的運算裝置；其中，對於每一訓練文章，該用於標註訓練資料的運算裝置依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度，該處理模組將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料，且該處理模組根據該等人工標註訓練資料及該等自動標註訓練資料，利用一機器學習方法，獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。
一種用於標註文章的運算裝置，包含：一儲存模組，用於儲存如請求項4所述的一文章標註模型；及一處理模組，電連接該儲存模組；其中，該處理模組獲得一待標註文章，並根據該待標註文章利用該文章標註模型，獲得相關於該待標註文章之一標註結果，該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
如請求項5所述的用於標註文章的運算裝置，其中，該處理模組在接收到一相關於該待標註文章之人工標註校準結果後，該人工標註校準結果包含相關於該待標註文章之至少一校準重點段落及其對應之至少一關聯度，根據該待標註文章及其人工標註校準結果，利用一反向傳播演算法，更新該文章標註模型。