TWI820845B - 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 - Google Patents
訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 Download PDFInfo
- Publication number
- TWI820845B TWI820845B TW111129192A TW111129192A TWI820845B TW I820845 B TWI820845 B TW I820845B TW 111129192 A TW111129192 A TW 111129192A TW 111129192 A TW111129192 A TW 111129192A TW I820845 B TWI820845 B TW I820845B
- Authority
- TW
- Taiwan
- Prior art keywords
- paragraph
- article
- target
- annotation
- sub
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 104
- 238000002372 labelling Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims description 33
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Stacking Of Articles And Auxiliary Devices (AREA)
- Labeling Devices (AREA)
Abstract
一種用於標註訓練資料的運算裝置包含一用於輸入一文章的輸入模組及一處理模組。該處理模組將該文章進行文本前處理以獲得一處理後文本,並將該處理後文本進行一命名實體識別以識別出多個字詞,且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句,對於該處理後文本中包含該等目標語句之至少一者的每一段落,將該段落切分為至少一子段落,對於每一子段落,統計該子段落中所包含之目標語句的數量,並自所有子段落中標記出對應有目標語句的數量不為零的目標段落,且根據每一目標段落之目標語句的數量獲得其所對應之關聯度。
Description
本發明是有關於一種資料標記方法,特別是指一種自動標註應用機器學習所需之訓練資料的訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置。
鑑於機器學習的迅速發展,應用機器學習模型來解決各式各樣的問題日益月滋,急如星火,使得熟捻專業領域的同仁(專家)們肩負協助標註特定領域資料的工作量也日益繁重。由於標註大量的訓訓練資料曠日廢時,倘若同時有不同的機器學習模型落地專案需要協助,則專案推遲的情況也將會越來越嚴重。
在這樣的情況下,專案小組們為了免除同時面臨業務壓力與專案壓力,漸漸地會對導入機器學習模型落地專案失去信心。機器學習模型落地專案在這樣的情況下陷入一個惡性循環,使得推廣不易,或是專案結果與預期相差甚鉅,科技轉型的實務發展也因此受阻。故如何在減少專家標註負擔的同時又能解決機器學習模型落地專案缺乏大量特定專業領域標註資料的窘境,是目前亟待解決之問題。
因此,本發明的目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的訓練資料標註方法。
於是,本發明訓練資料標註方法,適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,並藉由一運算裝置來實施,該訓練資料標註方法包含以下步驟:
(A)將該文章進行一文本前處理以獲得一處理後文本;
(B)將該處理後文本進行一命名實體識別,以識別出該處理後文本中的多個字詞,每一字詞對應於多個相關於該特定面向之實體中之一者;
(C)根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句;
(D)對於該處理後文本中包含該等目標語句之至少一者的每一段落,將該段落切分為至少一子段落;
(E)對於每一子段落,統計該子段落中所包含之目標語句的數量;
(F)自所有子段落中標記出對應有目標語句的數量不為零的目標段落;及
(G)根據每一目標段落之目標語句的數量獲得其所對應之關聯度。
本發明的另一目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的文章標註模型建立方法。
於是,本發明文章標註模型建立方法,藉由一運算裝置來實施,該運算裝置儲存有多筆人工標註訓練資料,每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度,該文章標註模型建立方法包含以下步驟:
(i)對於每一訓練文章,利用如上所述的訓練資料標註方法依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,並將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料;及
(ii)根據該等人工標註訓練資料及該等自動標註訓練資料,利用一機器學習方法,獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。
本發明的又一目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的文章標註方法。
於是,本發明文章標註方法,藉由一運算裝置來實施,並包含以下步驟:
(I)載入如請求項4所述的一文章標註模型;
(II)獲得一待標註文章;及
(III)根據該待標註文章利用該文章標註模型,獲得相關於該待標註文章之一標註結果,該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
本發明的又一目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於標註訓練資料的運算裝置。
於是,本發明用於標註訓練資料的運算裝置,適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,該運算裝置包含一用於輸入該文章的輸入模組及一電連接該輸入模組的處理模組。
該處理模組接收來自該輸入模組之該文章,且將該文章進行一文本前處理以獲得一處理後文本,並將該處理後文本進行一命名實體識別,以識別出該處理後文本中的多個字詞,每一字詞對應於多個相關於該特定面向之實體中之一者,且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組將該段落切分為至少一子段落,對於每一子段落,該處理模組統計該子段落中所包含之目標語句的數量,並自所有子段落中標記出對應有目標語句的數量不為零的目標段落,且根據每一目標段落之目標語句的數量獲得其所對應之關聯度。
本發明的又一目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於建立文章標註模型的運算裝置。
於是,本發明用於建立文章標註模型的運算裝置包含一儲存模組、一如上所述之用於標註訓練資料的運算裝置,及一電連接該儲存模組及該用於標註訓練資料的運算裝置的處理模組。
該儲存模組儲存有多筆人工標註訓練資料,每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度。
其中,對於每一訓練文章,該用於標註訓練資料的運算裝置依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,該處理模組將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料,且該處理模組根據該等人工標註訓練資料及該等自動標註訓練資料,利用一機器學習方法,獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。
本發明的又一目的,即在提供一種自動標記訓練資料以減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境的用於標註文章的運算裝置。
於是,本發明用於標註文章的運算裝置包含一用於儲存如上所述的該文章標註模型的儲存模組,及一電連接該儲存模組的處理模組。
其中,該處理模組獲得一待標註文章,並根據該待標註文章利用該文章標註模型,獲得相關於該待標註文章之一標註結果,該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
本發明的功效在於:藉由該運算裝置將該文章進行一文本前處理及一命名實體識別,以識別出該文章中的該等字詞,且根據該等字詞及一組語法規則獲得該等目標語句,該處理模組統計每一子段落中所包含之目標語句的數量,並自所有子段落中標記出對應有目標語句的數量不為零的目標段落,且根據每一目標段落之目標語句的數量獲得其所對應之關聯度,藉此以自動標記訓練資料,進而減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境。
參閱圖1,本發明文章標註方法的實施例,藉由一運算裝置1來實施。該運算裝置1包含一輸入模組11、一儲存模組12及一電連接該輸入模組11與該儲存模組12的處理模組13。該運算裝置11之實施態樣例如為一伺服器、一個人電腦、一筆記型電腦、一平板電腦或一智慧型手機等。
該儲存模組12儲存有多筆人工標註訓練資料,每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度。
以下將藉由本發明文章標註方法的實施例來說明該運算裝置11的運作細節,該文章標註方法包含一訓練資料標註程序、一文章標註模型建立程序、一文章標註程序,及一文章標註模型校準程序。
該訓練資料標註程序說明了如何依據一特定面向標註出每一訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,並包含一初始標註子程序、一追加標註子程序及一擴充標註子程序。由於每一訓練文章之標註方式皆相似,以下僅就該等訓練文章中之一者進行說明。
參閱圖1與圖2,該初始標註子程序包含以下步驟。
在步驟21中,該處理模組13將自該輸入模組11輸入之該訓練文章進行一文本前處理以獲得一處理後文本。在本實施方式中,該文本前處理包含一文本格式轉換、一文本清洗及一文本切割之至少一者。該文本格式轉換用於將該訓練文章轉換為可利用OCR或直接可取出文字內容的檔案格式。該文本清洗與該文本切割用於刪除該訓練文章中之異常字符及冗餘字符,並重新組合或切割成有意義之分段。
在步驟22中,該處理模組13將該處理後文本進行一命名實體識別,以識別出該處理後文本中的多個字詞,每一字詞對應於多個相關於該特定面向之實體中之一者。舉例而言,若該特定面向為政策面向,則相關於該政策面向之實體即為如,「文獻(WORK_OF_ART)」、「法律(LAW)」、「事件(EVENT)」以及「機構(ORG)」之實體。
在步驟23中,該處理模組13根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句。舉例而言,該組語法規則可包含抓取相關於該特定面向之實體的字詞及其與動詞和受詞之組合的規則,以使得所獲得之目標語句為較完整且有意義,而避免獲得類似縮寫、短語、提⽰、表格表頭等無意義的語句。
在步驟24中,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組13將該段落切分為至少一子段落。
在步驟25中,對於每一子段落,該處理模組13統計該子段落中所包含之目標語句的數量。
在步驟26中,該處理模組13自所有子段落中標記出對應有目標語句的數量不為零的目標段落。
在步驟27中,該處理模組13根據每一目標段落之目標語句的數量獲得其所對應之關聯度。在本實施方式中,當該目標段落中所包含之目標語句的數量為1~3句時,所對應之關聯度為1;當該目標段落中所包含之目標語句的數量超過3句時,所對應之關聯度為2。
值得一提的是,透過該初始標註子程序即可自動標註出該訓練文章中之部分的目標段落及其對應之關聯度,而可將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為訓練資料以供訓練出一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。然而,在訓練模型時,單純使用該初始標註子程序標註出之目標段落,恐仍有遺漏之處,因此為了增進所訓練出之模型的精準度,本發明文章標註方法進一步採用了該追加標註子程序及該擴充標註子程序來增加目標段落之標註,以避免僅執行該初始標註子程而序生的遺珠之憾。
參閱圖1與圖3,該追加標註子程序包含以下步驟。
在步驟31中,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組13根據該段落中的每一目標段落獲得所對應之至少一目標關鍵字,其中每一目標關鍵字對應於一關聯分數,對於每一目標關鍵字,該目標關鍵字所對應之關聯分數係藉由將該目標關鍵字所在之目標段落所對應的關聯度乘上一預設分數而獲得。在本發明之其他實施方式中,該處理模組13亦可根據該段落中被人工標註出之標記段落來獲得所對應之至少一目標關鍵字,並不以此為限。
在步驟32中,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組13根據該段落中之每一非為目標段落的子段落所包含之與該段落所對應之所有目標關鍵字任一者匹配的關鍵字及其對應之關聯分數,獲得每一非為目標段落的子段落所對應之追加評分。舉例來說,若該非為目標段落的子段落包含三個不同之目標關鍵字,則該非為目標段落的子段落所對應之追加評分即為該等三個不同之目標關鍵字所對應之關聯分數的加總。值得一提的是,即便同一目標關鍵字重複出現於非為目標段落的子段落,仍謹計分一次(亦即,對於同一目標關鍵字,只加一次該目標關鍵字所對應之關聯分數)。
在步驟33中,該處理模組13自所有非為目標段落之子段落中標記出對應有追加評分大於一預設門檻值的追加段落,以作為追加之目標段落。雖然該追加之目標段落不包含目標語句,但其包含許多出現於目標段落之目標關鍵字,因而與目標段落間具有較高之關聯性,故亦應與該特定面向相關,因此也需要被標註出。
在步驟34中,該處理模組13根據每一追加之目標段落的追加評分獲得其所對應之關聯度。在本實施方式中,當該追加之目標段落的追加評分為10~15分時,所對應之關聯度為1;當該追加之目標段落的追加評分為超過15分時,所對應之關聯度為2。
參閱圖1與圖4,該擴充標註子程序包含以下步驟。
在步驟41中,對於每一目標關鍵字,該處理模組13根據該目標關鍵字獲得至少一擴充關鍵字,及其與該目標關鍵字對應之相似度。在本實施方式中,可採用word2vec技術來獲得該目標關鍵所對應的至少一擴充關鍵字。
在步驟42中,對於每一擴充關鍵字,該處理模組13根據該擴充關鍵字所對應之目標關鍵字的關聯分數,及其與該目標關鍵字對應之相似度,獲得一擴充關係分數。其中,該擴充關鍵字所對應之擴充關係分數係藉由將該擴充關鍵字所對應之目標關鍵字的關聯分數乘上該擴充關鍵字與該目標關鍵字對應之相似度而獲得。
在步驟43中,對於每一非為目標段落之子段落,該處理模組13根據該子段落所包含之與所有擴充關鍵字任一者匹配的關鍵字及其對應之擴充關係分數,獲得該子段落之一擴充評分。舉例來說,若該非為目標段落的子段落包含三個不同之擴充關鍵字,則該非為目標段落的子段落所對應之擴充評分即為該等三個不同之擴充關鍵字所對應之擴充關係分數的加總。值得一提的是,即便同一擴充關鍵字重複出現於非為目標段落的子段落,仍謹計分一次(亦即,對於同一擴充關鍵字,只加一次該擴充關鍵字所對應之擴充關係分數)。
在步驟44中,該處理模組13自所有非為目標段落之子段落中標記出對應有擴充評分大於該預設門檻值的擴充段落,以作為擴充之目標段落。另外可進一步考慮的是,雖然該擴充之目標段落不包含目標關鍵字,但其包含許多與目標關鍵字近似之擴充關鍵字,因而也與目標段落間具有較高之關聯性,故亦應與該特定面向相關,因此也需要被標註出。
在步驟45中,該處理模組13根據每一擴充之目標段落的擴充評分獲得其所對應之關聯度。在本實施方式中,當該擴充之目標段落的擴充評分為10~15分時,所對應之關聯度為1;當該擴充之目標段落的擴充評分為超過15分時,所對應之關聯度為2。
參閱圖1與圖5,該文章標註模型建立程序說明了如何建立該文章標註模型,並包含以下步驟。
在步驟51中,對於每一訓練文章,該處理模組13將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料。
在步驟52中,該處理模組13根據該等人工標註訓練資料及該等自動標註訓練資料,利用一機器學習方法,獲得用於標註出該輸入文章之該至少一重點段落及其對應之至少一關聯度的該文章標註模型。
參閱圖1與圖6,該文章標註程序說明了如何獲得一待標註文章之標註結果,並包含以下步驟。
在步驟61中,該處理模組13獲得該待標註文章。其中,該處理模組13係自該輸入模組11所輸入之待標註文章來獲得該待標註文章。
在步驟62中,該處理模組13根據該待標註文章利用該文章標註模型,獲得相關於該待標註文章之標註結果,該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
參閱圖1與圖7,該文章標註模型校準程序說明了如何校準該文章標註模型,並包含以下步驟。
在步驟71中,在該處理模組13接收到一相關於該待標註文章之人工標註校準結果後,該人工標註校準結果包含相關於該待標註文章之至少一校準重點段落及其對應之至少一關聯度,該處理模組13根據該待標註文章及其人工標註校準結果,利用一反向傳播演算法,更新該文章標註模型。其中,該人工標註校準結果係由一專家針對該文章標註模型所產生之相關於該待標註文章的標註結果所出之改正,並經由操作該輸入模組11而產生。藉由該專家之反向回饋,可持續訓練該文章標註模型,讓該文章標註模型的正確率越來越高。
綜上所述,本發明文章標註方法,藉由該運算裝置1執行該訓練資料標註程序,以自動依據該特定面向標註出每一訓練文章中與該特定面向相關的該至少一目標段落及其對應之至少一關聯度,藉此達到自動標記訓練資料之目的,進而減少專家標註負擔同時又能解決機器學習模型缺乏大量標註資料之窘境,此外,藉由該運算裝置1執行該文章標註模型校準程序,以透過該專家檢視該文章標註模型自動標註出之標註結果是否正確,並產生該人工標註校準結果以供校準該文章標註模型,進而提升該文章標註模型之準確度,故確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
1:運算裝置
11:輸入模組
12:儲存模組
13:處理模組
31~34:步驟
41~45:步驟
51~52:步驟
61~62:步驟
71:步驟
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中:
圖1是一方塊圖,說明實施本發明文章標註方法之實施例的一運算裝置;
圖2是一流程圖,說明本發明文章標註方法之實施例的一初始標註子程序;
圖3是一流程圖,說明本發明文章標註方法之實施例的一追加標註子程序;
圖4是一流程圖,說明本發明文章標註方法之實施例的一擴充標註子程序;
圖5是一流程圖,說明本發明文章標註方法之實施例的一文章標註模型建立程序;
圖6是一流程圖,說明本發明文章標註方法之實施例的一文章標註程序;及
圖7是一流程圖,說明本發明文章標註方法之實施例的一文章標註模型校準程序。
1:運算裝置
11:輸入模組
12:儲存模組
13:處理模組
Claims (10)
- 一種訓練資料標註方法,適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,並藉由一運算裝置來實施,該訓練資料標註方法包含以下步驟:(A)將該文章進行一文本前處理以獲得一處理後文本;(B)將該處理後文本進行一命名實體識別,以識別出該處理後文本中的多個字詞,每一字詞對應於多個相關於該特定面向之實體中之一者;(C)根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句;(D)對於該處理後文本中包含該等目標語句之至少一者的每一段落,將該段落切分為至少一子段落;(E)對於每一子段落,統計該子段落中所包含之目標語句的數量;(F)自所有子段落中標記出對應有目標語句的數量不為零的目標段落;(G)根據每一目標段落之目標語句的數量獲得其所對應之關聯度;(H)對於該處理後文本中包含該等目標語句之至少一者的每一段落,根據該段落中的每一目標段落獲得所對應之至少一目標關鍵字,其中每一目標關鍵字對應於一關聯分數; (I)對於該處理後文本中包含該等目標語句之至少一者的每一段落,根據該段落中之每一非為目標段落的子段落所包含之與該段落所對應之所有目標關鍵字任一者匹配的關鍵字及其對應之關聯分數,獲得每一非為目標段落的子段落所對應之追加評分;(J)自所有非為目標段落之子段落中標記出對應有追加評分大於一預設門檻值的追加段落,以作為追加之目標段落;及(K)根據每一追加之目標段落的追加評分獲得其所對應之關聯度。
- 如請求項1所述的訓練資料標註方法,在步驟(K)之後,還包含以下步驟:(L)對於每一目標關鍵字,根據該目標關鍵字獲得至少一擴充關鍵字,及其與該目標關鍵字對應之相似度;(M)對於每一擴充關鍵字,根據該擴充關鍵字所對應之目標關鍵字的關聯分數,及其與該目標關鍵字對應之相似度,獲得一擴充關係分數;(N)對於每一非為目標段落之子段落,根據該子段落所包含之與所有擴充關鍵字任一者匹配的關鍵字及其對應之擴充關係分數,獲得該子段落之一擴充評分;(O)自所有非為目標段落之子段落中標記出對應有擴充評分大於該預設門檻值的擴充段落,以作為擴充之目標段落;及(P)根據每一擴充之目標段落的擴充評分獲得其所對 應之關聯度。
- 一種文章標註模型建立方法,藉由一運算裝置來實施,該運算裝置儲存有多筆人工標註訓練資料,每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度,該文章標註模型建立方法包含以下步驟:(i)對於每一訓練文章,利用如請求項1所述的訓練資料標註方法依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,並將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料;及(ii)根據該等人工標註訓練資料及該等自動標註訓練資料,利用一機器學習方法,獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。
- 一種文章標註方法,藉由一運算裝置來實施,並包含以下步驟:(I)載入如請求項3所述的一文章標註模型;(II)獲得一待標註文章;及(III)根據該待標註文章利用該文章標註模型,獲得相關於該待標註文章之一標註結果,該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
- 如請求項4所述的文章標註方法,在步驟(III)之後,還包 含以下步驟:(IV)在接收到一相關於該待標註文章之人工標註校準結果後,該人工標註校準結果包含相關於該待標註文章之至少一校準重點段落及其對應之至少一關聯度,根據該待標註文章及其人工標註校準結果,利用一反向傳播演算法,更新該文章標註模型。
- 一種用於標註訓練資料的運算裝置,適用於依據一特定面向標註出一作為一訓練資料之文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,該運算裝置包含:一輸入模組,用於輸入該文章;及一處理模組,電連接該輸入模組,並接收來自該輸入模組之該文章,且將該文章進行一文本前處理以獲得一處理後文本,並將該處理後文本進行一命名實體識別,以識別出該處理後文本中的多個字詞,每一字詞對應於多個相關於該特定面向之實體中之一者,且根據該等字詞及一組語法規則自該處理後文本獲得多個目標語句,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組將該段落切分為至少一子段落,對於每一子段落,該處理模組統計該子段落中所包含之目標語句的數量,並自所有子段落中標記出對應有目標語句的數量不為零的目標段落,且根據每一目標段落之目標語句的數量獲得其所對應之關聯度,其中,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組還根據該段落 中的每一目標段落獲得所對應之至少一目標關鍵字,其中每一目標關鍵字對應於一關聯分數,對於該處理後文本中包含該等目標語句之至少一者的每一段落,該處理模組還根據該段落中之每一非為目標段落的子段落所包含之與該段落所對應之所有目標關鍵字任一者匹配的關鍵字及其對應之關聯分數,獲得每一非為目標段落的子段落所對應之追加評分,且該處理模組還自所有非為目標段落之子段落中標記出對應有追加評分大於一預設門檻值的追加段落,以作為追加之目標段落,並根據每一追加之目標段落的追加評分獲得其所對應之關聯度。
- 如請求項6所述的用於標註訓練資料的運算裝置,其中,對於每一目標關鍵字,該處理模組還根據該目標關鍵字獲得至少一擴充關鍵字,及其與該目標關鍵字對應之相似度,對於每一擴充關鍵字,該處理模組還根據該擴充關鍵字所對應之目標關鍵字的關聯分數,及其與該目標關鍵字對應之相似度,獲得一擴充關係分數,對於每一非為目標段落之子段落,該處理模組還根據該子段落所包含之與所有擴充關鍵字任一者匹配的關鍵字及其對應之擴充關係分數,獲得該子段落之一擴充評分,且該處理模組還自所有非為目標段落之子段落中標記出對應有擴充評分大於該預設門檻值的擴充段落,以作為擴充之目標段落,並根據每一擴充之目標段落的擴充評分獲得其所對應之關聯度。
- 一種用於建立文章標註模型的運算裝置,包含: 一儲存模組,儲存有多筆人工標註訓練資料,每筆人工標註訓練資料包含一訓練文章及至少一經人工自該訓練文章所標註出且相關於一特定面向的標記段落及其對應之至少一關聯度;一如請求項6所述之用於標註訓練資料的運算裝置;一處理模組,電連接該儲存模組及該用於標註訓練資料的運算裝置;其中,對於每一訓練文章,該用於標註訓練資料的運算裝置依據該特定面向標註出該訓練文章中與該特定面向相關的至少一目標段落及其對應之至少一關聯度,該處理模組將該訓練文章、該訓練文章所對應之目標段落及其關聯度作為一筆自動標註訓練資料,且該處理模組根據該等人工標註訓練資料及該等自動標註訓練資料,利用一機器學習方法,獲得一用於標註出一輸入文章之至少一相關於該特定面向之重點段落及其對應之至少一關聯度的文章標註模型。
- 一種用於標註文章的運算裝置,包含:一儲存模組,用於儲存如請求項8所述的一文章標註模型;及一處理模組,電連接該儲存模組;其中,該處理模組獲得一待標註文章,並根據該待標註文章利用該文章標註模型,獲得相關於該待標註文章之一標註結果,該標註結果包含相關於該待標註文章之至少一重點段落及其對應之至少一關聯度。
- 如請求項9所述的用於標註文章的運算裝置,其中,該處理模組在接收到一相關於該待標註文章之人工標註校準結果後,該人工標註校準結果包含相關於該待標註文章之至少一校準重點段落及其對應之至少一關聯度,根據該待標註文章及其人工標註校準結果,利用一反向傳播演算法,更新該文章標註模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129192A TWI820845B (zh) | 2022-08-03 | 2022-08-03 | 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111129192A TWI820845B (zh) | 2022-08-03 | 2022-08-03 | 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI820845B true TWI820845B (zh) | 2023-11-01 |
TW202407577A TW202407577A (zh) | 2024-02-16 |
Family
ID=89722253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111129192A TWI820845B (zh) | 2022-08-03 | 2022-08-03 | 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI820845B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
TW201822031A (zh) * | 2016-12-09 | 2018-06-16 | 中華電信股份有限公司 | 以文字資訊建立圖表索引方法及其電腦程式產品 |
TW201903564A (zh) * | 2017-06-13 | 2019-01-16 | 香港商阿里巴巴集團服務有限公司 | 資料儲存及調用方法及裝置 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111177569A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐处理方法、装置及设备 |
TWM605342U (zh) * | 2020-09-09 | 2020-12-11 | 玉山商業銀行股份有限公司 | 智能金融商品推薦系統 |
TWM633252U (zh) * | 2022-08-03 | 2022-10-11 | 中國信託商業銀行股份有限公司 | 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置 |
-
2022
- 2022-08-03 TW TW111129192A patent/TWI820845B/zh active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201822031A (zh) * | 2016-12-09 | 2018-06-16 | 中華電信股份有限公司 | 以文字資訊建立圖表索引方法及其電腦程式產品 |
TW201903564A (zh) * | 2017-06-13 | 2019-01-16 | 香港商阿里巴巴集團服務有限公司 | 資料儲存及調用方法及裝置 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111177569A (zh) * | 2020-01-07 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐处理方法、装置及设备 |
TWM605342U (zh) * | 2020-09-09 | 2020-12-11 | 玉山商業銀行股份有限公司 | 智能金融商品推薦系統 |
TWM633252U (zh) * | 2022-08-03 | 2022-10-11 | 中國信託商業銀行股份有限公司 | 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置 |
Also Published As
Publication number | Publication date |
---|---|
TW202407577A (zh) | 2024-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
JP5963328B2 (ja) | 生成装置、生成方法、およびプログラム | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
CA2777520C (en) | System and method for phrase identification | |
CN102262765B (zh) | 一种发布商品信息的方法及装置 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
Sharma et al. | BioAMA: towards an end to end biomedical question answering system | |
Li et al. | Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN103714053B (zh) | 一种面向机器翻译的日语动词识别方法 | |
TWM633252U (zh) | 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置 | |
TWI820845B (zh) | 訓練資料標註方法及其運算裝置、文章標註模型建立方法及其運算裝置,以及文章標註方法及其運算裝置 | |
CN109918632B (zh) | 基于场景模板的文献撰写辅助方法 | |
CN110888940B (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN114021572B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
Srinivasagan et al. | An automated system for tamil named entity recognition using hybrid approach | |
CN112733517B (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
WO2022227166A1 (zh) | 词语替换方法、装置、电子设备和存储介质 | |
Wang et al. | Chinese text error correction suggestion generation based on SoundShape code | |
Sun et al. | Joint self-attention based neural networks for semantic relation extraction | |
CN115129951A (zh) | 一种获取目标语句的数据处理系统 | |
CN109189932B (zh) | 文本分类方法和装置、计算机可读存储介质 | |
Wibowo et al. | Spelling checker of words in rejang language using the n-gram and euclidean distance methods |