TWI798513B

TWI798513B - 自然語言語料用於機器學習決策模型的訓練方法

Info

Publication number: TWI798513B
Application number: TW108146882A
Authority: TW
Inventors: 李亞倫; 林昀嫺; 王道維
Original assignee: 國立清華大學
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-04-11
Also published as: US20210192148A1; US11461558B2; TW202125309A

Abstract

一種自然語言語料用於機器學習決策模型的訓練方法，藉由一儲存有多筆自然文本的電腦裝置實施，每一自然文本被標記多個決策結果中之一目標決策結果且包含多個相關於該自然文本所欲描述之至少一對象的理據資料，並包含：對於每一自然文本所對應之每一理據資料，利用斷詞演算法及文句轉向量演算法，獲得一對應的理據向量組；對於每一自然文本，將該自然文本所對應之該等理據向量組，依照順序連接組合成一等效向量組；根據每一自然文本所對應的該等效向量組及其對應的該目標決策結果，利用監督式分類演算法，獲得一決策模型。

Description

自然語言語料用於機器學習決策模型的訓練方法

本發明是有關於一種人工智慧的模型訓練方法，特別是指一種基於機器學習並用於分類決策自然語言文本的模型訓練方法。

過往利用機器學習（Machine Learning）模型進行決策預測的方法，主要依賴於人工已標註的類型化資料。

其中，在非自然語言（包含文字及語音）處理的領域上，可透過例如：黃詩淳、邵軒磊，運用機器學習預測法院裁判─法資訊學之實踐 2017，根據法院判決書所描述的各種關鍵資訊，以人工的方式標註於預先設定好的一選項類別問卷中（例：法院判決書提到甲方年收入80萬，則該選項類別問卷中相關於年收入選項的必須勾選“介於80~100萬間”），藉此將語料轉換為類型化資料作為建模訓練資料後，再透過資料探勘（Data Mining）方式建立出模型。但是此種方式針對不同類型的語料，需要人工重新定義一全新的選項類別問卷，而使整個訓練方法難以擴展到更大範圍的語料。

而，在自然語言（包含文字及語音）處理的領域上，亦有一些針對大範圍語料進行分類的方法，如LSA（ Latent Semantic Indexing）、LDA（Latent Dirichlet Allocation）等主題模型，可將語料按照相似的主題進行分類，但上述方法只適用於粗略分類，對於近似的主題，仍無法提供有效的分類以供決策預測。

有鑑於此，勢必需提出一種全新機器學習決策模型的訓練方法，以克服前述技術所面臨之問題。

因此，本發明的目的，即在提供一種基於自然語言技術，且無需額外定義選項類別問卷，並有效提高分類決策的正確率的機器學習決策模型訓練方法。

於是，本發明自然語言語料用於機器學習決策模型的訓練方法，藉由一電腦裝置來實施，該自然語言語料用於機器學習決策模型的訓練方法包含一步驟(A)、一步驟(B)，以及一步驟(C)。

步驟(A)是對於每一自然文本所對應之每一理據資料，藉由該電腦裝置，根據該理據資料，獲得一對應於該理據資料的理據向量組。

步驟(B)是對於每一自然文本，藉由該電腦裝置，將該自然文本所對應之該等理據向量組，依照一第一順序連接組合成一等效向量組。

步驟(C)是藉由該電腦裝置，至少根據每一自然文本所對應的該等效向量組，以及每一自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得一用於將未標記的一待決策自然文本標記為該等決策結果中之一者的決策模型。

本發明之功效在於：藉由該電腦裝置，將每一自然文本中多個預先標記並相關於該自然文本所欲描述之至少一對象的理據資料轉換為對應的該理據向量組，藉由將該自然文本中的「句子」或「段落」為單位進行訓練，以此保留住具有實質意義文句所表示出之向量，接著，根據每一自然文本所對應的該等效向量組，以及每一自然文本所對應的該目標決策結果，便能在無需定義額外選項類別問卷下，使所訓練出的該決策模型，有效地提升決策預測的準確率。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1，執行本發明自然語言語料用於機器學習決策模型的訓練方法之一實施例的一電腦裝置1包含一儲存模組11、一顯示模組12，以及一電連接該儲存模組11與該顯示模組12的處理模組13。

該儲存模組11儲存有多筆自然文本，每一自然文本標記有多個決策結果中之一目標決策結果。且，每一自然文本係相關於一事件包含多個預先標記並相關於該自然文本所欲描述之至少一對象的理據資料、多個預先標記且無關於該自然文本所欲描述之任何對象的中性資料、多個預先標記且相關於該自然文本所欲描述之對象的對象背景資料，以及多個預先標記的文件類別資料。

其中，每一自然文本所對應之每一理據資料，即在該自然文本中，可被標記為相關於所欲描述之對象的正向涵義（有利）或負向涵義（不利）的描述內容。其中，對應該自然文本之每一欲描述對象具有正向涵義係為一正向理據資料，而對應該自然文本之每一欲描述對象具有負向涵義係為一負向理據資料。

其中，每一自然文本所對應之每一中性資料，即在該自然文本中，無法被標記為對所欲描述之至少一對象相對於該目標決策結果之正向涵義（有利）或負向涵義（不利）的描述內容。

其中，每一自然文本之每一對象所對應的該對象背景資料，即在該自然文本中，與該對象相關的背景資訊。舉例來說，該等對象背景資料包含有例如類別化資料型態的一對象性別資訊、一對象職業資訊、一對象國籍資訊、一對象居住地資訊、一對象人格特質資訊、一對象前科資訊，還包括有例如數值資料型態的一對象年齡資訊、一對象收入資訊、一對象就學時間資訊，以及，還包括有例如文字資料型態的一對象心情描述資訊、一對象成長環境描述資訊，但不以上述舉例為限。

其中，每一自然文本所對應的每一文件類別資料，即在該自然文本中，不能被歸類為該等理據資料、該等中性資料及該等對象背景資料的資料。舉例來說，該等文件類別資料包含有例如一相關發生該事件的時間資訊、一相關發生該事件的地點資訊、一相關該事件之自然文本的發佈地點資訊、一撰寫該事件之自然文本的筆者資訊、一相關該自然文本的來源資訊、一負責相關該事件的歸屬單位、一關於裁決該事件之法官所使用之法條，以及一該事件的醫病科別，但不以上述舉例為限。

具體來說，當每一自然文本為包含預先標記並相關於該自然文本所欲描述之單一對象的該等理據資料時，例如為學生入學資料。每一學生入學資料（自然文本）包含有一申請學生自傳中的家庭背景之理據資料、一申請學生自傳中的個人興趣之理據資料、一申請學生自傳中的學術性向之理據資料、一申請學生自傳中的團隊合作經驗之理據資料，以及一申請學生自傳中的未來學習規劃之理據資料，而，每一自然文本所對應之該等決策結果包含一指示出申請學生錄取學校的錄取結果（錄取的決策結果），及一指示出申請學生未錄取學校的未錄取結果（未錄取的決策結果），但不以上述例子為限。

具體來說，當每一自然文本包含預先標記並相關於該自然文本所欲描述之單一對象的該等理據資料時，例如為醫療病歷。每一醫療病歷（自然文本）包含有一相關於該對象之一第一生理部位症狀的理據資料，以及一相關於該對象之一第二生理部位症狀的理據資料，而，每一自然文本所對應之該等決策結果包含一指示出該醫療病歷係屬於一第一疾病的決策結果，及一指示出該醫療病歷係屬於一第二疾病的決策結果，但仍不以上述例子為限。

舉例來說，當自然文本係為醫療病歷時，其內容為『打噴嚏，流鼻水，鼻塞不通，頭痛頭暈，喉嚨微痛，咳嗽聲重，白痰很多，微發熱』，則被標記為該第一生理部位症狀的理據資料；另其內容為『胃口不佳，沒有食慾，接著發現體重持續減輕，一直想排便的感覺，有出血現象，腹脹，多氣，多屁』，則被標記為該第二生理部位症狀的理據資料；另其內容為『服藥後，請避免從事容易引起傷害的危險活動，如開車、操作機械等』，則被標記並作為與所欲描述之疾病無關的中性資料。

具體來說，當每一自然文本為包含預先標記並相關於該自然文本所欲描述之複數對象的該等理據資料時，例如為：一包含有一對於該自然文本所欲描述之第一對象有正向涵義的第一正向理據資料、一對於該自然文本所欲描述之第一對象有負向涵義的第一負向理據資料、一對於該自然文本所欲描述之第二對象有正向涵義的第二正向理據資料，以及一對於該自然文本所欲描述之第二對象有負向涵義的第二負向理據資料的法院判決書（例：對聲請人有利或不利的描述，及對相對人有利或不利的描述）或新聞評論文章（例：對第一政黨有利或不利的描述，及對第二政黨有利或不利的描述），而，每一自然文本所對應之該等決策結果包含一指示出該第一對象獲勝的獲勝結果（該第一對象獲勝或勝訴的決策結果）、一指示出該第一對象落敗的落敗結果（該第一對象落敗或敗訴的決策結果），以及一指示出該第一對象與該第二對象平手的平手結果（該第一對象與該第二對象平手的決策結果），但不以上述例子為限。

舉例來說，當自然文本係為判決書時，其內容為『聲請人於親職能力、教養能力及支持系統均屬穩定，且自關係人出生後，皆由聲請人擔任關係人之主要照顧者，聲請人亦具高度監護意願，訪親時觀察關係人與聲請人互動自然，有穩定之親子依附關係』，則被標記為所欲描述之對象的正向涵義以作為正向理據資料；另其內容為『相對人曾有家庭暴力行為，依據家庭暴力防治理論，有暴力行為者較不宜照顧未成年子女』，則被標記為所欲描述之對象的負向涵義以作為負向理據資料。

在該實施例中，該電腦裝置1之實施態樣例如為一個人電腦，但不以此為限。

以下將藉由本發明自然語言語料用於機器學習決策模型的訓練方法之該實施例來說明該電腦裝置1的運作細節，本發明自然語言語料用於機器學習決策模型的訓練方法包含一標準訓練程序、一中性資料擴增訓練程序、一調換資料擴增訓練程序，以及一改寫資料擴增訓練程序。

參閱圖2，該標準訓練程序係應用於具有至少一所欲描述對象之該等理據資料的自然文本，並利用該儲存模組11所儲存的該等自然文本進行訓練，並包含步驟50~55。

在步驟50中，對於每一自然文本所對應之每一理據資料，該處理模組13根據該理據資料，利用前處理演算法，進行斷詞(Tokenize)、移除停用詞(Remove Stopwords)、字根抽取(Stemming)、詞性標記(POS)、命名實體標註(NER)、n元語法(N-grams)，獲得一對應於該理據資料的理據前處理資料。值得特別說明的是，對應於中文語料所利用之前處理演算法係為Python中的結巴（Jieba）斷詞套件，但不以此為限。而，對應於英文語料所利用之前處理演算法係為Python中的自然語言處理工具包(NLTK)套件，但不以此為限。

在步驟51中，對於每一自然文本所對應之每一理據斷詞資料，該處理模組13利用文句轉向量演算法，獲得一對應於該理據斷詞資料的一理據向量組（向量組係為多維度的向量）。值得特別說明的是，所利用之文句轉向量演算法係為Doc2vec演算法，但不以此為限。

值得特別說明的是，該等理據向量組亦可使用語音轉向量演算法而獲得。詳細來說，該處理模組13僅需利用機器朗讀，將對於每一自然文本所對應之每一理據資料轉換為一理據語音資料，並利用Speech2Vec演算法，亦可獲得該理據語音資料所對應的該理據向量組。此外，各種前處理演算法、Doc2vec演算法及Speech2Vec演算法的使用及訓練方式皆為習知技術且並非為本發明之重點，在此不再闡述。

在步驟52中，對於每一自然文本所對應之每一文件類別資料，該處理模組13將該文件類別資料轉為一文件向量。

在步驟53中，對於每一自然文本所對應的每一對象背景資料，藉由該電腦裝置，將該對象背景資料轉為一對象向量。

值得特別說明的是，該處理模組13係藉由一由使用者預先定義的映射對應表將每一文件類別資料與每一對象背景資料轉換為各自對應的該文件向量與該對象向量。

在步驟54中，對於每一自然文本，該處理模組13將該自然文本所對應的該等理據向量組、該自然文本所對應的該等文件向量，以及該自然文本所對應的該等對象向量，依照一可由使用者自行定義的第一順序連接組合成一對應該自然文本的第一等效向量組。而在其他實施例中，該第一等效向量組亦可僅包含該等理據向量組；又或是，該第一等效向量組可包含該等理據向量組及該等文件向量；又或是，該第一等效向量組可包含該等理據向量組及該等對象向量。

具體來說，當每一自然文本皆為包含預先標記並相關於該自然文本所欲描述之單一對象的該等理據資料的該學生入學資料時，對於每一自然文本，該處理模組13便依照由使用者自行定義的該第一順序，依序地將該申請學生自傳中的家庭背景之理據資料所對應的理據向量組、該申請學生自傳中的個人興趣之理據資料所對應的理據向量組、該申請學生自傳中的學術性向之理據資料所對應的理據向量組、該申請學生自傳中的團隊合作經驗之理據資料所對應的理據向量組、該申請學生自傳中的未來學習規劃之理據資料所對應的理據向量組、該等文件向量，以及該等對象向量連接組合成該第一等效向量組。

具體來說，當每一自然文本皆為包含預先標記並相關於該自然文本所欲描述之複數對象的該等理據資料的該法院判決書時，對於每一自然文本，該處理模組13便依照由使用者自行定義的該第一順序，依序地將對應於該自然文本之該第一正向理據資料且利用文句轉向量演算法所獲得的該第一正向理據向量組、對應於該自然文本之該第一負向理據資料且利用文句轉向量演算法所獲得的該第一負向理據向量組、對應於該自然文本之該第二正向理據資料且利用文句轉向量演算法所獲得的該第二正向理據向量組、對應於該自然文本之該第二負向理據資料且利用文句轉向量演算法所獲得的該第二負向理據向量組、該等文件向量，以及該等對象向量連接組合成該第一等效向量組。換句話說，每一自然文本皆依照統一的該第一順序將該等理據向量組、該等文件向量，以及該等對象向量連接組合成該第一等效向量組，而統一的該第一順序可由使用者自行定義，並不以上述例子為限。

在步驟55中，該處理模組13至少根據每一自然文本所對應的該第一等效向量組，以及每一自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得一用於將未標記的一待決策自然文本標記為該等決策結果中之一者的決策模型。其中，該處理模組13係可將該待決策自然文本標記為該等決策結果中之該者的分類結果顯示於該顯示模組12。值得特別說明的是，所利用之監督式分類演算法係為類神經網路（ANN，Artificial Neural Network），但不以此為限。

值得特別說明的是，對於每一自然文本，該處理模組13亦可將該自然文本所對應的該等理據向量組作為一理據向量資料集，並將其儲存於任何儲存裝置中，未來使用者便能直接根據儲存裝置中的該等理據向量資料集，於任一電腦裝置上執行步驟54及55，以獲得該決策模型。

參閱圖3，該中性資料擴增訓練程序係應用於具有至少一所欲描述對象之該等理據資料的自然文本，並利用該儲存模組11所儲存的該等自然文本，產生一個不同於該等自然文本所對應之該等第一等效向量組的新等效向量組，以擴增訓練該決策模型時所需的向量，並包含步驟60~64及55。

在步驟60中，對於每一自然文本所對應之每一中性資料，該處理模組13根據該中性資料，利用前處理演算法，獲得一對應於該中性資料的中性前處理資料。

在步驟61中，對於每一自然文本所對應之每一中性前處理資料，該處理模組13利用文句轉向量演算法，獲得一對應於該中性前處理資料的一中性向量組。同樣地，該處理模組13亦可利用機器朗讀，將對於每一自然文本所對應之每一中性資料轉換為一中性語音資料，並利用語音轉向量演算法，亦可獲得該中性語音資料所對應的該中性向量組。

在步驟62中，該處理模組13根據選自該等自然文本中之一第一選定自然文本所對應的該等理據向量組中，獲得至少一選定理據向量組。

在步驟63中，對於每一選定理據向量組，該處理模組13根據該選定理據向量組及所有自然文本所對應的任一中性向量組，獲得一相關於該選定理據向量組的重組理據向量組。特別地，該處理模組13係將該選定理據向量組與任一中性向量組相加取平均，以獲得該重組理據向量組。

在步驟64中，該處理模組13將該至少一重組理據向量組及該第一選定自然文本未被挑選的理據向量組、該第一選定自然文本所對應的該等文件向量，以及該第一選定自然文本所對應的該等對象向量，依照該第一順序連接組合成一第二等效向量組。而在其他實施例中，該第二等效向量組亦可僅包含該至少一重組理據向量組及該第一選定自然文本未被挑選的理據向量組；又或是，該第一等效向量組可包含該至少一重組理據向量組與該第一選定自然文本未被挑選的理據向量組，以及該第一選定自然文本所對應的該等文件向量；又或是，該第一等效向量組可包含該至少一重組理據向量組與該第一選定自然文本未被挑選的理據向量組，以及該第一選定自然文本所對應的該等對象向量。

值得特別說明的是，在所有中性前處理資料皆不會影響任何自然文本所對應的該目標決策結果（任一自然文本的分類結果）的前提下，由對應的該中性前處理資料轉換該等中性向量組理當不會影響任何自然文本所對應的該目標決策結果，因此，該第二等效向量組所對應的該目標決策結果即為該第一選定自然文本所對應的該目標決策結果。

具體來說，當每一自然文本皆為包含預先標記並相關於該自然文本所欲描述之複數對象的該等理據資料的該法院判決書時，於步驟62中，該處理模組13將該第一選定自然文本所對應之該第一正向理據向量組與該第一負向理據向量組作為該至少一選定理據向量組；接著，於步驟63中，該處理模組13根據該第一正向理據向量組與該第一負向理據向量組，以及任一中性向量組，獲得兩個分別對應該第一正向理據向量組與該第一負向理據向量組的重組理據向量組；接著，於步驟64中，該處理模組13依照該第一順序，將對應該第一正向理據向量組的該重組理據向量組、對應該第一負向理據向量組的該重組理據向量組、該第一選定自然文本所對應的該第二正向理據向量組、該第一選定自然文本所對應的該第二負向理據向量組、該第一選定自然文本所對應的該等文件向量，以及該第一選定自然文本所對應的該等對象向量連接組合，藉此產生一個不同於該等自然文本所對應之該等第一等效向量組的該第二等效向量組。其中，該第二等效向量組所對應的該目標決策結果即為該第一選定自然文本所對應的該目標決策結果。是故，便可將該第二等效向量組及其所對應的該目標決策結果，作為一全新的訓練資料。

最後，在該標準訓練程序之步驟55中，該處理模組13便除了根據每一自然文本所對應的該第一等效向量組及每一自然文本所對應的該目標決策結果，還能根據該第二等效向量組及該第一選定自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。同樣地，該處理模組13亦可將該至少一重組理據向量組、該第一選定自然文本未被挑選的理據向量組及該第一選定自然文本所對應的該目標決策結果作為一中性擴增資料集，並將該理據向量資料集與該中性擴增資料集儲存於任何儲存裝置中，未來使用者便能直接根據儲存裝置中的該等理據向量資料集與該中性擴增資料集，於任一電腦裝置上執行步驟64及55，以獲得該決策模型。

參閱圖4，該調換資料擴增訓練程序係應用於具有複數所欲描述對象之該等理據資料的自然文本，並利用該儲存模組11所儲存的該等自然文本，產生一個不同於該等自然文本所對應之該等第一等效向量組的新等效向量組，以擴增訓練該決策模型時所需的向量，並包含步驟70~71及55。

在步驟70中，該處理模組13將選自該等自然文本中之一第二選定自然文本中每一對象所對應的正向理據向量組與負向理據向量組、該第二選定自然文本所對應的該等文件向量，以及該第二選定自然文本所對應的該等對象向量，依照一第二順序連接組合成一第三等效向量組，該第二順序係使該第一順序中二組分別對應不同之選定對象的正向理據向量組各自所對應的順位對調，且使該第一順序中二組分別對應該等不同選定對象的負向理據向量組各自所對應的順位對調。而在其他實施例中，該第三等效向量組亦可僅包含該第二選定自然文本中所對應該等理據向量組；又或是，該第三等效向量組可包含該第二選定自然文本中所對應的該等理據向量組，以及該第二選定自然文本所對應的該等文件向量；又或是，該第三等效向量組可包含該第二選定自然文本中所對應的該等理據向量組，以及該第二選定自然文本所對應的該等對象向量。

舉四個理據向量組（二個對象）為例：該處理模組13係將該第二選定自然文本所對應的該第一正向理據向量組、該第一負向理據向量組、該第二正向理據向量組、該第二負向理據向量組，依照該第二順序連接組合成該第三等效向量組，該第二順序係將該第一順序中的該第一正向理據向量組與該第二正向理據向量組順位對調且將該第一負向理據向量組與該第二負向理據向量組順位對調。

詳言之，該第二選定自然文本所對應的該第一等效向量組之第一正向理據向量組與該第三等效向量組之第二正向理據向量組皆代表相關於一第一方的正向理據向量組，該第二選定自然文本所對應的該第一等效向量組之第一負向理據向量組與該第三等效向量組之第二負向理據向量組皆代表相關於一第一方的負向理據向量組，該第二選定自然文本所對應的該第一等效向量組之第二正向理據向量組與該第三等效向量組之第一正向理據向量組皆代表相關於一第二方的正向理據向量組，該第二選定自然文本所對應的該第一等效向量組之第二負向理據向量組與該第三等效向量組之第一負向理據向量組皆代表相關於一第二方的負向理據向量組。透過上述順序的調換，將原先對應於該第一方的該第一正向理據向量組更改為該第二正向理據向量組，將原先對應於該第一方的該第一負向理據向量組更改為該第二負向理據向量組；且，將原先對應於該第二方的該第二正向理據向量組更改為該第一正向理據向量組，將原先對應於該第二方的該第二負向理據向量組更改為該第一負向理據向量組，以產生該第三等效向量組。

舉六個理據向量組（三個對象）為例：該處理模組13依照相同方式先獲得對應選自該等自然文本中之另一第二選定自然文本的該第一正向理據向量組、該第一負向理據向量組、該第二正向理據向量組、該第二負向理據向量組、該第三正向理據向量組，以及該第三負向理據向量組，接著，該處理模組13將該另一第二選定自然文本所對應的該等理據向量組依照一第三順序連接組合成另一第三等效向量組，該第三順序係使該第一順序中二組分別對應不同之選定對象的正向理據向量組各自所對應的順位對調，且使該第一順序中二組分別對應該等不同選定對象的負向理據向量組各自所對應的順位對調。

在步驟71中，該處理模組13根據該第二選定自然文本所對應的該目標決策結果，獲得該第三等效向量組所對應的該目標決策結果。同樣地，該處理模組13亦可將調換後所獲得之該第三等效向量組及其對應之該目標決策結果作為一調換擴增資料集，並將該理據向量資料集與該調換擴增資料集儲存於任何儲存裝置中，未來使用者便能直接根據儲存裝置中的該等理據向量資料集與該調換擴增資料集，於任一電腦裝置上執行步驟55，以獲得該決策模型。

承上四個理據向量組（二個對象）為例：該第二選定自然文本所對應的該目標決策結果為一相關於該第一方與該第二方之勝負的勝敗結果，當該第二選定自然文本所對應的該目標決策結果指示出該第一方獲勝時，將該第三等效向量組所對應的該目標決策結果修改為指示出該第二方獲勝；當該第二選定自然文本所對應的該目標決策結果指示出該第二方獲勝時，將該第三等效向量組所對應的該目標決策結果修改為指示出該第一方獲勝；當該第二選定自然文本所對應的該目標決策結果指示出雙方平手時，則不更改該目標決策結果。

承上六個理據向量組（三個對象）為例，若該另一第二選定自然文本所對應的該目標決策結果指示出第一方獲勝或第二方獲勝時，則必須將第一方獲勝更改為第二方獲勝或將第二方獲勝更改為第一方獲勝，以作為該另一第三等效向量組所對應的該目標決策結果，但，若該另一第二選定自然文本所對應的該目標決策結果指示出第三方獲勝時，便無需進行修正，直接將該另一第二選定自然文本所對應的該目標決策結果作為該另一第三等效向量組所對應的該目標決策結果。

等效向量組具體來說，當每一自然文本皆為包含預先標記並相關於該自然文本所欲描述之複數對象的該等理據資料的該法院判決書時，該第一等效向量組（對應該第二選定自然文本）的該第一正向理據向量組代表相關於該第一方（例：聲請人）的正向描述，該第一等效向量組的該第一負向理據向量組代表相關於該第一方的負向描述，該第一等效向量組的該第二正向理據向量組代表相關於該第二方（例：相對人）的正向描述，該第一等效向量組的該第二負向理據向量組代表相關於該第二方的負向描述，而在經過調換後，步驟70之該第三等效向量組的第二正向理據向量組代表相關於該第一方（例：聲請人）的正向描述，該第三等效向量組的第二負向理據向量組代表相關於該第一方的負向描述，該第三等效向量組的第一正向理據向量組代表相關於該第二方（例：相對人）的正向描述，該第三等效向量組的第一負向理據向量組代表相關於該第二方的負向描述，透過上述方式即可產生一個不同於該等自然文本所對應之該等第一等效向量組的該第三等效向量組；此外，再經由步驟71修正該目標決策結果，便可將該第三等效向量組及其所對應的該目標決策結果，作為一全新的訓練資料。

換句話說，步驟70係將法院判決書（對應該第二選定自然文本）之聲請人與相對人的有利及不利描述對調，當法院判決書係判定聲請人勝訴時，所產生的新法院判決書（該第三等效向量組），便會因為雙方有利及不利描述皆已對調，則於步驟71令判決結果應改判定相對人勝訴；同理，當法院判決書係判定相對人勝訴時，所產生的新法院判決書（該第三等效向量組）的判決結果則於步驟71改判定聲請人勝訴；而，當法院判決書係判定雙方平手時，所產生的新法院判決書（該第三等效向量組）的判決結果則於步驟71為持原判決。

最後，在該標準訓練程序之步驟55中，該處理模組13便除了根據每一自然文本所對應的該第一等效向量組及每一自然文本所對應的該目標決策結果，還能根據該第三等效向量組及其所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。

值得特別說明的是，當自然文本屬於學生自傳或醫療病歷此類不涉及複數對象之比較，而無『正負向』理據資料時，便無法使用「該調換資料擴增訓練程序」技術，只能使用「該中性資料擴增訓練程序」與「該改寫資料擴增訓練程序」訓練該決策模型。

參閱圖5，該改寫資料擴增訓練程序係應用於具有至少一所欲描述對象之該等理據資料的自然文本，並利用該儲存模組11所儲存的該等自然文本，產生一個不同於該等自然文本所對應之該等第一等效向量組的新等效向量組，以擴增訓練該決策模型時所需的向量，並包含步驟80~84及55。

在步驟80中，該處理模組13根據選自該等自然文本中之一第三選定自然文本所對應的該等理據資料中，獲得至少一選定理據資料。

在步驟81中，對於每一選定理據資料，該處理模組13利用同義改寫演算法，將該選定理據資料改寫為一對應於該選定理據資料的理據改寫資料。而在其他實施例中，該處理模組13亦可利用電腦翻譯，將該選定理據資料翻譯為任一外語（例：英文），再將其翻譯回原文（原文為中文），以獲得該理據改寫資料。值得特別說明的是，在該實施例中，所利用之該同義改寫演算法係為EDA NLP for Chinese，但不以此為限。

在步驟82中，對於每一理據改寫資料，該處理模組13根據該理據改寫資料，利用前處理演算法，獲得一對應於該理據改寫資料的改寫前處理資料。

在步驟83中，對於每一改寫前處理資料，該處理模組13根據該改寫前處理資料，利用文句轉向量演算法，獲得一對應於該改寫前處理資料的改寫向量組。同樣地，該處理模組13亦可利用機器朗讀，將對於每一自然文本所對應之每一理據改寫資料轉換為一改寫語音資料，並利用語音轉向量演算法，亦可獲得該改寫語音資料所對應的該改寫向量組。

在步驟84中，該處理模組13將該至少一改寫向量組及該第三選定自然文本未被挑選的理據向量組、該第三選定自然文本所對應的該等文件向量，以及該第三選定自然文本所對應的該等對象向量，依照該第一順序連接組合成一第四等效向量組。而在其他實施例中，該第四等效向量組亦可僅包含該至少一改寫向量組及該第三選定自然文本未被挑選的理據向量組；又或是，該第四等效向量組可包含該至少一改寫向量組及該第三選定自然文本未被挑選的理據向量組，以及該第三選定自然文本所對應的該等文件向量；又或是，該第四等效向量組可包含該至少一改寫向量組及該第三選定自然文本未被挑選的理據向量組，以及該第三選定自然文本所對應的該等對象向量。

值得特別說明的是，在該實施例中，利用同義改寫演算法，將該第三選定自然文本所對應的每一選定理據資料進行改寫，僅會產生文字描述上的差異，語意本身並未改變。在其他實施例中，利用電腦翻譯，將該第三選定自然文本所對應的每一選定理據資料翻譯為任一外語後，再將其翻譯回原文，僅會產生文字描述上的差異，語意本身同樣並未改變。故，在語意本身並未改變而不會影響所對應之自然文本的該目標決策結果（所對應之自然文本的分類結果）的前提下，包含由該至少一改寫前處理資料所轉換的該至少一改寫向量組的該第四等效向量組所對應的該目標決策結果理當相同於該第三選定自然文本所對應的該目標決策結果。

具體來說，當每一自然文本皆為包含預先標記並相關於該自然文本所欲描述之複數對象的該等理據資料的該法院判決書時，於步驟80中，該處理模組13將該第三選定自然文本所對應之該第一正向理據資料與該第一負向理據資料作為該至少一選定理據資料；接著，於步驟81中，該處理模組13利用同義改寫演算法，獲得兩個分別對應該第一正向理據資料與該第一負向理據資料的一第一正向理據改寫資料及一第一負向理據改寫資料，其中，每一理據改寫資料相較於其對應的該理據資料，僅有文字描述上的差異，而語意本身並未改變；接著，於步驟82及83中，該處理模組13獲得兩個分別對應該第一正向理據改寫資料與該第一負向理據改寫資料的一第一正向改寫向量組及一第一負向改寫向量組，其中，每一改寫前處理資料所對應的該改寫向量組，相較於改寫前對應之選定理據資料所對應的該理據向量組並不相同（不同文句所轉換的向量組不相同）；接著，於步驟84中，該處理模組13依照該第一順序，將該第一正向改寫向量組、該第一負向改寫向量組、該第三選定自然文本所對應的該第二正向理據向量組、該第三選定自然文本所對應的該第二負向理據向量組、該第三選定自然文本所對應的該等文件向量，以及該第三選定自然文本所對應的該等對象向量連接組合，藉此產生一個不同於該等自然文本所對應之該等第一等效向量組的該第四等效向量組。其中，該第四等效向量組所對應的該目標決策結果即為該第三選定自然文本所對應的該目標決策結果。是故，便可將該第四等效向量組及其所對應的該目標決策結果，作為一全新的訓練資料。

最後，在該標準訓練程序之步驟55中，該處理模組13便除了根據每一自然文本所對應的該第一等效向量組及每一自然文本所對應的該目標決策結果，還能根據該第四等效向量組及該第三選定自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。同樣地，該處理模組13亦可將該至少一改寫向量組、該第三選定自然文本未被挑選的理據向量組及該第三選定自然文本所對應的該目標決策結果作為一改寫擴增資料集，並將該理據向量資料集與該改寫擴增資料集儲存於任何儲存裝置中，未來使用者便能直接根據儲存裝置中的該等理據向量資料集與該改寫擴增資料集，於任一電腦裝置上執行步驟84及55，以獲得該決策模型。

綜上所述，本發明自然語言語料用於機器學習決策模型的訓練方法適用多種不同類型的語料，藉由該標準訓練程序，將每一自然文本所預先標記的該等理據資料轉換為向量並作為訓練資料，在無需額外定義選項類別問卷下，進而使得所訓練出的該決策模型具有更佳的正確率；此外，還能藉由該中性資料擴增訓練程序、該調換資料擴增訓練程序，以及該改寫資料擴增訓練程序，擴增所需要訓練資料，以彌補原始資料量不足造成機器學習效能低落的問題，更是藉由該調換資料擴增訓練程序，有效地緩解因為原始訓練資料偏差取樣所帶來對決策過程的誤導，進而彌補一般機器學習所可能因為偏態資料而出現的偏見，為機器學習在決策判斷的應用方面更符合社會公平正義的需求。因此，故確實能達成本發明的目的。

惟以上所述者，僅為本發明的實施例而已，當不能以此限定本發明實施的範圍，凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾，皆仍屬本發明專利涵蓋的範圍內。

1:電腦裝置 11:儲存模組 12:顯示模組 13:處理模組 50~55:步驟 60~64:步驟 70~71:步驟 80~84:步驟

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一方塊圖，說明一執行本發明自然語言語料用於機器學習決策模型的訓練方法的一實施例的一電腦裝置；圖2是一流程圖，說明該實施例的一標準訓練程序；圖3是一流程圖，說明該實施例的一中性資料擴增訓練程序；圖4是一流程圖，說明該實施例的一調換資料擴增訓練程序；及圖5是一流程圖，說明該實施例的一改寫資料擴增訓練程序。

50~55:步驟

Claims

一種自然語言語料用於機器學習決策模型的訓練方法，藉由一電腦裝置來實施，該電腦裝置儲存有多筆自然文本，每一自然文本被標記為多個決策結果中之一目標決策結果且包含多個預先標記並相關於該自然文本所欲描述之至少一對象的理據資料，該自然語言語料用於機器學習決策模型的訓練方法包含以下步驟：(A)對於每一自然文本所對應之每一理據資料，藉由該電腦裝置，根據該理據資料，獲得一對應於該理據資料的理據向量組，其中，步驟(A)包含以下步驟，(A-1)對於每一自然文本所對應之每一理據資料，藉由該電腦裝置，根據該理據資料，利用機器朗讀，獲得一對應於該理據資料的理據語音資料，及(A-2)對於每一自然文本所對應之每一理據語音資料，藉由該電腦裝置，利用語音轉向量演算法，獲得一對應於該理據語音資料的該理據向量組；(B)對於每一自然文本，藉由該電腦裝置，將該自然文本所對應之該等理據向量組，依照一第一順序連接組合成一等效向量組；及(C)藉由該電腦裝置，至少根據每一自然文本所對應的該等效向量組，以及每一自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得一用於將未標記的一待決策自然文本標記為該等決策結果中之一者的決策模型。
如請求項1所述的自然語言語料用於機器學習決策模型的訓練方法，每一自然文本還包含多個預先標記且無關於該自然文本所欲描述之任何對象的中性資料，其中，在步驟(C)之前，還包含以下步驟：(D)對於每一自然文本所對應之每一中性資料，藉由該電腦裝置，根據該中性資料，獲得一對應於該中性資料的一中性向量組；(E)藉由該電腦裝置，根據選自該等自然文本中之一選定自然文本所對應的該等理據向量組中，獲得至少一選定理據向量組；(F)對於每一選定理據向量組，藉由該電腦裝置，根據該選定理據向量組及所有自然文本所對應的任一中性向量組，獲得一相關於該選定理據向量組的重組理據向量組；及(G)藉由該電腦裝置，將該至少一重組理據向量組及該選定自然文本未被挑選的理據向量組，依照該第一順序連接組合成另一等效向量組；及在步驟(C)中，藉由該電腦裝置，不僅根據每一自然文本所對應的該等效向量組及每一自然文本所對應的該目標決策結果，還根據該另一等效向量組及該選定自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。
如請求項1所述的自然語言語料用於機器學習決策模型的訓練方法，每一自然文本所對應之該等理據資料包含對應該自然文本之每一對象具有正向涵義的一正向理據資料，以及對應該自然文本之每一對象具有負向涵義的一負向理據資料，其中：在步驟(A)中，每一自然文本對應的該等理據向量組包含每一對象之正向理據資料所轉換的正向理據向量組，每一對象之負向理據資料所轉換的負向理據向量組；及在步驟(B)中，對於每一自然文本，藉由該電腦裝置，根據該自然文本之每一對象所對應的正向理據向量組及負向理據向量組，依照該第一順序連接組合成該等效向量組。
如請求項3所述的自然語言語料用於機器學習決策模型的訓練方法，其中，在步驟(B)之後，還包含以下步驟：(H)藉由該電腦裝置，將選自該等自然文本中之一選定自然文本中所對應的該等理據向量組，依照一第二順序連接組合成另一等效向量組，該第二順序係使該第一順序中二組分別對應不同之選定對象的正向理據向量組各自所對應的順位對調，且使該第一順序中二組分別對應該等不同選定對象的負向理據向量組各自所對應的順位對調；(I)藉由該電腦裝置，根據步驟(H)之該選定自然文本所對應的該目標決策結果，獲得步驟(H)之該另一等效向量組所對應的該目標決策結果；及在步驟(C)中，藉由該電腦裝置，不僅根據每一自然文本所對應的該等效向量組及每一自然文本所對應的該目標決策結果，還根據該另一等效向量組及其所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。
如請求項1所述的自然語言語料用於機器學習決策模型的訓練方法，其中，在步驟(C)之前，還包含以下步驟：(I)藉由該電腦裝置，根據選自該等自然文本中之一選定自然文本所對應的該等理據資料中，獲得至少一選定理據資料；(J)對於每一選定理據資料，藉由該電腦裝置，利用同義改寫演算法，將該選定理據資料改寫為一對應於該選定理據資料的理據改寫資料；(K)對於每一理據改寫資料，藉由該電腦裝置，根據該理據改寫資料，獲得一對應於該理據改寫資料的改寫向量組；(L)藉由該電腦裝置，將該至少一改寫向量組及該選定自然文本未被挑選的理據向量組，依照該第一順序連接組合成另一等效向量組；及在步驟(C)中，藉由該電腦裝置，不僅根據每一自然文本所對應的該等效向量組及每一自然文本所對應的該目標決策結果，還根據該另一等效向量組及該選定自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得該決策模型。
一種自然語言語料用於機器學習決策模型的訓練方法，藉由一電腦裝置來實施，該電腦裝置儲存有多筆自然文本，每一自然文本被標記為多個決策結果中之一目標決策結果且包含多個預先標記並相關於該自然文本所欲描述之至少一對象的理據資料，每一自然文本係相關於一事件並包含多個預先標記的文件類別資料，該自然語言語料用於機器學習決策模型的訓練方法包含以下步驟：(A)對於每一自然文本所對應之每一理據資料，藉由該電腦裝置，根據該理據資料，獲得一對應於該理據資料的理據向量組；(B)對於每一自然文本所對應之每一文件類別資料，藉由該電腦裝置，將該文件類別資料轉為一文件向量，其中，每一自然文本所對應的該等文件類別資料包括一相關發生該事件的地點資訊；(C)對於每一自然文本，藉由該電腦裝置，將該自然文本所對應之該等理據向量組及該等文件向量，依照該第一順序連接組合成該等效向量組；及(D)藉由該電腦裝置，至少根據每一自然文本所對應的該等效向量組，以及每一自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得一用於將未標記的一待決策自然文本標記為該等決策結果中之一者的決策模型。
一種自然語言語料用於機器學習決策模型的訓練方法，藉由一電腦裝置來實施，該電腦裝置儲存有多筆自然文本，每一自然文本被標記為多個決策結果中之一目標決策結果且包含多個預先標記並相關於該自然文本所欲描述之至少一對象的理據資料，每一自然文本還包含多個預先標記且相關於該自然文本所欲描述之對象的對象背景資料，該自然語言語料用於機器學習決策模型的訓練方法包含以下步驟：(A)對於每一自然文本所對應之每一理據資料，藉由該電腦裝置，根據該理據資料，獲得一對應於該理據資料的理據向量組；(B)對於每一自然文本所對應的每一對象背景資料，藉由該電腦裝置，將該對象背景資料轉為一對象向量；(C)對於每一自然文本，藉由該電腦裝置，將該自然文本所對應之該等理據向量組及該等對象向量，依照該第一順序連接組合成該等效向量組；及(D)藉由該電腦裝置，至少根據每一自然文本所對應的該等效向量組，以及每一自然文本所對應的該目標決策結果，利用監督式分類演算法，獲得一用於將未標記的一待決策自然文本標記為該等決策結果中之一者的決策模型。
如請求項7所述的自然語言語料用於機器學習決策模型的訓練方法，其中，在步驟(B)中，每一自然文本之每一對象所對應的該等對象背景資料包括一對象性別資訊。