TWI750567B

TWI750567B - 中文斷詞方法及系統

Info

Publication number: TWI750567B
Application number: TW109102151A
Authority: TW
Inventors: 王文傑
Original assignee: 卓騰語言科技股份有限公司
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-12-21
Also published as: TW202129533A

Abstract

本發明係一種中文斷詞方法及系統，特別是指一種運算速度快、程式檔案小的中文斷詞方法及系統。其中，該中文斷詞方法及系統在取得一篇章字句的時候，先進行一命名實體辨識(NER)後再同時處理詞性(POS)與斷詞(CWS)，本發明是利用語言學裡的「句法結構」(Syntax tree)來處理中文斷詞問題的系統，進一步依衝突發生時的解決規則加註語言的詞性標記，本發明為新的中文斷詞處理系統原理，亦在減少硬體環境需求的同時增加了中文斷詞處理系統的應用範圍。

Description

中文斷詞方法及系統

本發明是有關一種斷詞方法及系統，特別是指一種中文斷詞方法及系統。

中文斷詞又稱中文「分詞」，中文斷詞技術種類可分為基於字典的中文斷詞、基於統計的中文斷詞、基於機器學習(類神經網路或深度學習)的中文斷詞。

基於字典的中文斷詞是需要依賴人工編寫的字典進行斷詞任務，若無字典，則不會動作，以輸入「輪到他披掛上陣」一句為例，因字典裡有「輪到」有「他」以及「披掛上陣」三個詞條，故系統將會輸出「輪到/他/披掛上陣」的斷詞結果。字典裡除了「披掛上陣」外，亦有「披掛」一詞，但因為「披掛上陣」符合了4個字，而「披掛」一詞只符合了2個字。在4比2大的情況下，系統會以「最大符合(Maximum Match)」為優先，取「披掛上陣」而捨棄「披掛」，在這裡會遇到兩個困難點一是「人工」很費時，二是很難定義何時才叫「最大符合」。

基於統計的中文斷詞，主要還是依賴巨大的繁體中文詞庫字典檔在運作，取眾多的文件做為統計的母體，將每一個字符和「前一個字」相鄰的次數除以母體的字數，做為這兩個字符能「成詞」的機率。但若是遇上「講台中央站著一位歌手」這個句子時，而在母體中取得的文件裡剛好「講台」這兩個字很少一起出現，那麼這個句子就會被處理成「講/台中/央/站著/一位/歌手」。由此可知「文件來源」和其中每個字詞的分佈機率，就是這種做法的關鍵，但那些「文件」中每個字詞的分佈機率是沒有經過專家驗證的，因此在中文的處理上，一直都只是差強人意。

基於機器學習的中文斷詞出發點為，從資料中，萃取(訓練)出「描述特定目標」的「方程式」或「模型」以斷詞來說，這個「特定目標」就是「詞」。

其方法則是透過在數位化的文章中取n個「詞」當作「學習樣本」之後取得其學習樣本的「特徵」，並依特徵建立「方程式」或「模型」再利用建立的方程式或模型來預測新的未知答案，但它的問題就是「進入特定領域」(例如法律學)時，特定領域內的「文件數量」和其它一般領域內的「文件數量」一比，往往會被沖淡其統計顯著性。

為了解決上述問題，本發明利用語言學裡的「句法結構」(Syntax tree)來處理中文斷詞問題的系統。我們解決的重點不是「什麼是一個詞」而是「一個句子裡應該有什麼？」一個句子裡的核心是「動詞」，而動詞常常會跟著諸如「已經」、「正在」、「著」、「過」、「了」…等時態標記。

因此，本發明中文斷詞方法及系統之目的，為解決現有技術中存在的上述問題，提供一種中文斷詞方法及系統。該中文斷詞方法及系統能達到運算速度快，程式檔案小的技術功效。

本發明之中文斷詞方法及系統，由輸入裝置輸入一篇章字句，將該篇章字句經依標點符號進行詞句切分，切分成複數個詞句，將分成過後的詞句一次一句依命名實體辨識，辨識人名、地名、機構名、時間及各類專有名詞，再同時進行詞性(POS)與斷詞(CWS)處理加註詞性成複數個單詞組，之後再找出有詞性衝突的單詞組，依完整該句法樹結構規則將衝突的詞組詞性進行詞性轉品並加註詞性標記，最後再將所有單詞組依原先順序組合。

本發明之中文斷詞方法及系統，可選用載入使用者自定的參考定典，或選用載入政府開放平台資料為外部參考字典。

本發明之中文斷詞方法及系統，程式核心會先進行命名實體辨識(NER)，接下來才會同時處理詞性(POS)與斷詞(CWS)。

本發明之功效在於：使用該句法結構「語法樹(Syntax Tree)」來處理資料，不需要大數據模型做訓練，能達到運算速度快、程式檔案小之技術功效，並在運算時同步處理詞性標記(POS)與中文斷詞(CWS)讓運算時間更快速，且大幅降低硬體環境需求。

本發明依不同語言，只需調整語言及參數(X-bar Rules)「主要語在首」head-first或「主要語在尾」head-final，這和「編寫一個語言的所有詞彙」相比，是非常小的工作量。

本發明是目前唯一一個利用語言學裡的「句法結構」(Syntax tree)來處理中文斷詞問題的系統。

本發明不需要龐大的資料庫，程式碼也只有約14MB(最小可動程式碼約為3.6MB)，而執行環境裡，也只需要11MB的記憶體需求。和目前動輒GB尺度的機器學習模型相比，本發明能夠在每台手機或其它離線設備、單晶片設備上都安裝一份斷詞引擎以做為人工智慧應用的自然語言互動介面。

10:句法樹結構(Syntax Tree)

21:斷層句法樹結構

22:VP高度句法樹結構

31:正規表示式編寫方式

32:物件導向編寫方式

33:條件邏輯編寫方式

100:輸入模組

200:詞句切分模組

300:命名實體辨識模組(NER)

310:人名偵測單元

320:地名偵測單元

330:專有名詞偵測單元

400:詞性(POS)與斷詞(CWS)模組

500:詞性轉品模組

600:輸出模組

700:資料庫模組

710:專有名詞資料庫

720:詞性資料庫

750:字典資料庫

800:句法結構詞性模組

810:句法結構單元

820:詞性標記單元

821:極致斷詞(lv1)

822:詞組斷詞(lv2)

S10~S70:中文斷詞方法及系統之流程步驟

A10~A40:極致斷詞(lv1)實施例之流程步驟

B10~B40:詞組斷詞(lv2)實施例之流程步驟

第1圖為中文斷詞方法及系統之系統示意圖

第2圖為中文斷詞方法及系統之流程示意圖

第3圖為句法樹結構(Syntax Tree)樹狀示意圖

第4A、4B圖為語言調整參數(X-bar Rules)日文與中文語法示意圖

第5圖為極致斷詞(lv1)與詞組斷詞(lv2)示意圖

第6A圖為極致斷詞(lv1)實施例

第6B圖為詞組斷詞(lv2)實施例

第7圖為句法樹結構位階實施例

第8圖為八大詞類示意圖

為使本發明的目的、技術方案和優點更加清楚明瞭，下面結合具體實施方式並參照附圖，對本發明進一步詳細說明。應該理解，這些描述只是示例性的，而並非要限制本發明的範圍。此外，在以下說明中，省略了對公知結構和技術的描述，以避免不必要地混淆本發明的概念。

請參閱第1圖所示，其為本發明之中文斷詞系統包含：一輸入模組100、一詞句切分模組200、一命名實體辨識模組(NER)300、一詞性(POS)與斷詞(CWS)模組400、一詞性轉品模組500、一輸出模組600、一資料庫模組700以及一句法結構詞性模組800。

該資料庫模組700包含：一專有名詞資料庫710，儲存複數類專有名詞做為NER目的使用，尚包含一成俗俚語資料庫、一外國中文譯名資料庫、一時間表示(分秒日週月年...)規則資料庫、一詞性推算規則資料庫、一限定詞規則資料庫及一可選用字典籍資料庫。該些個字典籍資料庫可選用載入使用者自定的參考字典，或選用載入政府開放平台資料或選用載入維基資料為外部參考字典。

該句法結構詞性模組800包含：一句法結構單元810，由一管理者維護一句法樹結構(Syntax Tree)10，該句法樹結構10以能產生位階最高的語法樹節點為目標；一詞性標記單元820，依一表示式編寫詞性衝突發生時之解決規則。

該命名實體辨識模組(NER)包含：一人名偵測單元 310，該人名偵測單元310是以中文常見姓氏為起點偵測其後二字是否可組成中文三字人名；一地名偵測單元320，該地名偵測單元320為對比行政地名、地址、道路名稱；及一專有名詞偵測單元330，該專有名詞偵測單元330對比該資料庫模組700之該專有名詞資料庫710與該字典資料庫750。

請參閱第2圖所示，其為本發明之流程示意圖：

S10.藉由該輸入模組100之一輸入裝置輸入一篇章字串，該篇章字串由複數個詞句組成，每一個詞句由複數個字詞組成，每一個字詞由複數個單詞組成。

S20.將該篇章字句經該詞句切分模組200依一標點符號進行切分，切分成複數個詞句。

S30.將該些個詞句一次一句送入該命名實體辨識模組(NER)300，該命名實體辨識模組(NER)300依該資料庫模組700之該專有名詞資料庫710與該字典資料庫750進行命名實體辨識；同時依該人名偵測單元310進行人名偵測、該地名偵測單元320進行地名偵測及該專有名詞偵測單元330進行專有名詞偵測。

S40.至S50.將經該命名實體辨識模組(NER)300辨識過後的該些個詞句傳送到該詞性(POS)與斷詞(CWS)模組400，該詞性(POS)與斷詞(CWS)模組400將非屬命名實體的該些個詞句進行斷詞並同時加註詞性成複數個單詞組。

S60.至S65.該詞性轉品模組500再將該些個單詞組所組成的該些個句子，依完整該句法樹結構10找出有詞性衝突的該些個單詞組，並依該表示式將衝突的該些個單詞組詞性進行一詞性轉品，將轉品過後的該些個單詞組加註一詞性標記。

S70.將經該詞性轉品模組500轉品過後的該些個單詞組所組成的該些個詞句，依原該篇章字串順序加上該詞性標記輸出至一輸出裝置600上。

較佳的，該中文斷詞方法及系統，如第3圖所示，為該句法樹結構(Syntax Tree)10樹狀示意圖。

較佳的，該中文斷詞方法及系統，其中該詞句切分模組依該標點符號進行切分，該標點符號尚包含但不僅限於半形逗號、半形單引號以及半形的點等...，本發明亦能依使用者自定義詞彙來排除標點符號切分，例如：定義「O’clock」為一個詞彙，則本發明將不會依該半形單引號進行詞句切分。更進一步而言，又若該標點符號前後為數字時，例如：數字100’000、1.23則本發明亦將不會依該半形單引號來進行數字切分。

較佳的，該中文斷詞方法及系統，其中該表示式可選擇一正規表示式、一物件導向及一條件邏輯的方式來編寫衝突發生時的解決規則。

該正規表示式(Regular Expression)又稱正規表達式、正規表示法、規則運算式、常規表示法，是電腦科學的一個概念。正規表示式使用單個字串來描述、匹配一系列符合某個句法規則的字串。在很多文字編輯器裡，正規表達式通常被用來檢索、替換那些符合某個模式的文字。以本發明為例，在詞性衝突發生時，即可取出資料庫中的正規表示式規則，將衝突發生處的詞性標記進行更換詞性(即「轉品」)處理，將衝突排除以便取得較高位階的句法樹位置。

該物件導向式(Object-oriented programming)是種具有物件概念的程式程式設計典範，同時也是一種程式開發的抽象方針。它可能包含資料、屬性、程式碼與方法。物件則指的是類別的實例。它將物件作為程式的基本單元，將程式和資料封裝其中，以提高軟體的重用性、靈活性和擴充性，物件裡的程式可以存取及經常修改物件相關連的資料。以本發明為例，在詞性衝突發生時，即可取出資料庫中的規則將之實體化為一物件後，依該物件的屬性(Attributes)和方法(Manner)將衝突排除以便取得較高位階的句法樹位置。

該條件邏輯為基本的電腦程式語言陳述式(Statements)、條件式(Conditionals)和迴圈(Loops)。藉由陳述式指定變數的型別及值後，再結合迴圈遍歷所指定之資料，並依條件式的設定，分別指派不同的資料處理或數值計算流程。以本發明為例，在詞性衝突發生時，即可利用迴圈遍歷整個輸入的語句，依條件式取出衝突段落，再依資料庫中的衝突排解規則進行排除，以便取得較高位階的句法樹位置。

上述該表示式之較佳實施例：以「這研究」詞句為例，表達在「這」這個的冠詞後的「研究」一詞要從動詞轉為名詞，其一正規表示式編寫方式為：

其一物件導向編寫方式為：

其一條件邏輯編寫方式為：

該表示式，並可依載入之一專業領域字典的常用詞組結構，把詞語切分點最佳化。例如以「醫療設備字典KNOWLEDGE_medGear.json」為例，字典內有詞句「輸血加溫器」，對語言結構而言，它的結構是「輸血/加溫/器」其結構可表示其語意為『「輸血作業」時「提高血液溫度」的「設備」』，但對應用場景中醫療專業人員而言，這就是一個設備的名稱，因此不需斷詞，即是「輸血加溫器」。

較佳的，該中文斷詞方法及系統，其中該詞性(POS)與斷詞(CWS)模組尚包含一語言調整參數(X-bar Rules)，該語言調整參數依不同地區之語言結構進行「主要語在首」head-first或「主要語在尾」head-final參數調整；一實施例如第4B圖所示，為日文與中文之參數調整，日文語法為「主要語在尾」head-final與中文語法「主要語在首」head-first不同。

較佳的，該中文斷詞方法及系統，其中該些個詞句的詞性分類如第8圖所示。

較佳的，該中文斷詞方法及系統，其中該詞性(POS)與斷詞(CWS)模組之該些個詞句斷詞與該詞性標記同時運作。其它具有詞性(POS)標記能力的斷詞系統，皆為先進行「斷詞」的處理後，才進行「詞性」的標記。一較佳實施例，如「我的研究」一詞組，其它具詞性標記能力的斷詞系統，將從左向右計算，先處理成「我/的/研究」以後，再進行「我(名詞)/的(DE)/研究(名詞)」的詞性標記。本發明則非從左向右計算，而是先計算「的」(功能詞)是一個獨立的詞彙，前後應與其分開，且其後應為名詞。因為計算「的」是為獨立詞彙的同時，也參考了其詞性的句法功能，故產生的結果即為「詞性(POS)/斷詞(CWS)」同時完成的結果：「我(名詞)/的(功能詞)/研究(名詞)」。

較佳的，該中文斷詞方法及系統之一斷詞方法包含：一極致斷詞(lv1)821、一詞組斷詞(lv2)822及一語意斷詞(lv3)823。

該極致斷詞(lv1)為句法節點中的最小單位原則做為輸出標的。最小單位之定義，依麻省理工學院的語言學教授Noam Chomsky的研究，句法節點中的最小單位應能以可位移的詞組內的最大獨立詞彙能力加以測試之。一較佳實施例，例如「小紅帽」為一詞組，其下的「小」、「紅」、「帽」三字皆可扮演獨立詞彙，故經極致斷詞處理後即為「小/紅/帽」。若以「小帽子」為一詞組，則因「子」無法扮演獨立詞彙(其獨立語意為「孩子」，和此處的「帽子」無關)，故最大獨立詞彙應為「帽子」，故最後輸出為「小/帽子」。

該詞組斷詞(lv2)為句法節點中的詞組單位原則做為輸出標的。詞組單位之定義，依麻省理工學院的語言學教授Noam Chomsky的研究，句法節點中的詞組單位應能以「位移」及「形成問句」的方法加以測試之。一較佳實施例，例如「小紅帽去看奶奶」中的「小紅帽」可以形成問句，以「誰」取代之為「誰去看奶奶」。故「小紅帽」應視為一個詞組。相對地，「誰」無法取代「誰紅帽」、「小誰帽」或是「小紅誰」，故「小、紅、帽」三個字獨立時，皆無法被視為詞組。該詞組斷詞即以「能否形成詞組」做為輸出時的詞彙斷點原則。

該語意斷詞(lv3)以語意上的「人、事件、時間、地點、物體」做為主要輸出標的，以便能呈現輸入語句中的語意互動關係。另附上「使用者自定詞彙」、形式語意學(formal semantics)的標記分類(theta_role)以供研究學者使用，以及輸入語句之拼音或注音標記，以供自動合成語音輸出TTS(text-to-speech)的需求使用。

上述該斷詞方法之較佳實施例：如第5圖所示，如「代表/隊」，該極致斷詞(lv1)821把「代表」視為動詞，而「隊」則是某種名詞。再切換到該詞組斷詞(lv2)822後，就會把「代表隊」依句法規則組合成一個名詞，並標為名詞了。這個例子說明了我們的運作機制是：在該極致斷詞(lv1)821的時候，依語言詞性標記去看哪一個字詞是「可能會成為動詞」的(在這個例子裡就是「代表」)，接著再把「中文裡動詞出現的東西，推斷為名詞」，便得到了「代表(動詞)/隊(名詞)」的結果。而在該詞組斷詞(lv2)822的時候，則以該極致斷詞(lv1)821的結果，再依句法結構往上疊一層，「代表+隊=代表隊」，於是結果就是「代表隊(名詞)」。

較佳的，該斷詞方法其中該語意斷詞(lv3)823，則會回覆一個內含「人、事、時、地、物」的JSON物件(JavaScript Object Notation，JavaScript物件表示法)。該規則如下："person"：<第一句中出現的人名>,<標點符號>,<第二句中出現的人名>...,"event"：[<第一句中出現的事件>,<標點符號>,<第二句中出現的事件>...,"time"：<第一句中出現的時間>,<標點符號>,<第二句中出現的時間>...,"site"：<第一句中出現的地點>,<標點符號>,<第二句中出現的地點>...,"entity"：<第一句中出現的時間>,<標點符號>,<第二句中出現的時間>...,"user_defined"：<第一句中出現的使用者自定詞>,<標點符號>,<第二句中出現的使用者自定詞>...,"theta_role"：{"agent"："句子中的主要動詞的行動者","patient"："句子中的主要動詞的受事者(被影響的人)","theme"："若句子無動詞，則評論重點為何",}"utterance"：<第一句的注音或漢語拼音(依使用者設定)>,<標點符號>,<第二句的注音或漢語拼音(依使用者設定)>...。

該極致斷詞(lv1)821一較佳實施例，如第6A圖所示，A10輸入一「我想過過過兒過過的日子」字串；A20經由上述步驟S20至S50進行該詞句切分模組200切分，後由該命名實體辨識模組(NER)300進行命名實體辨識，後傳送到該詞性(POS)與斷詞(CWS)模組400，將非屬命名實體的該些個詞句進行斷詞並同時加註詞性成該些個單詞組，依完整該句法樹結構10找出有詞性衝突的該些個單詞組，本實施例找出有兩個動詞(verb)相連接產生詞性衝突；A30將衝突的該些個單詞組詞性進行該詞性轉品，將轉品過後的該些個單詞組加註該詞性標記；A40依原該篇章字句順序加上該詞性標記輸出成「我(pronoun)想(verb)過過(quantlfledverb)過兒(pronoun)過(verb)過(aspect)的(lnner)日子(noun)」。

該詞組斷詞(lv2)822一較佳實施例，如第6B圖所示，B10輸入一「我想過過過兒過過的日子」字串；B20經由上述步驟S20至S50進行該詞句切分模組200切分，後由該命名實體辨識模組(NER)300進行命名實體辨識，後傳送到該詞性(POS)與斷詞(CWS)模組400，將非屬命名實體的該些個詞句進行斷詞並同時加註詞性成該些個單詞組，依完整該句法樹結構10找出有詞性衝突的該些個單詞組，本實施例找出在代名詞(pronoun)後出現量詞動詞(quantlfledverb)產生詞性衝突；B30將衝突的該些個單詞組詞性進行該詞性轉品，將轉品過後的該些個單詞組加註該詞性標記；B40依原該篇章字句順序加上該詞性標記輸出成「我(pronoun)想(verb)過過(quantlfledverb)過兒(pronoun)過過(verbp)的(lnner)日子(noun)」。

該語意斷詞(lv3)823一較佳實施例，以一例句「蔡英文總統明日到台北市政府找柯文哲開會討論他的想法，請你安排一下！」經過該語意斷詞(lv3)之斷詞結果如下：{"person"：[[(15,18,'蔡英文'),(212,215,'柯文哲'),[(305,306,'他')]],['，'],[[(44,45,'你')]],['！']],"event"：[[(m,n,'找柯文哲'),(m,n,'開會討論')],[','],[[(m,n,'安排')]],['！']],"time"：[[(73,75,'明日')]],[','],[[]],['！']],"site"：[[(124,126,'台北')]],[','],[[]],['！']],"entity"：[[(47,49,'總統'),(151,154,'市政府'),(363,365,'想法')]],[','],[[]],['！']],"user_defined"：[[(47,49,總統),'官銜'],[(m,n,市政府),'組織']],[','],[[]],['！']], "theta_role"：{"agent"：[(15,18,'蔡英文')],"patient"：[(212,215,'柯文哲')]","theme"：[],}"utterance"[['ㄘㄞ^ˋ ㄧㄥㄨㄣ^ˊ/ㄗㄨㄥ^ˇ ㄊㄨㄥ^ˇ/ㄇㄧㄥ^ˊ ㄖ^ˋ/ㄉㄠ^ˋ/ㄊㄞ^ˊ ㄅㄟ^ˇ/ㄕ^ˋ ㄓㄥ^ˋ ㄈㄨ^ˇ/ㄓㄠ^ˇ''/ㄎㄜㄨㄣ^ˊ ㄓㄜ^ˊ/ㄎㄞㄏㄨㄟ^ˋ/ㄊㄠ^ˇ ㄌㄨㄣ^ˋ/ㄊㄚ/ㄉㄜ˙/ㄒㄧㄤ^ˇ ㄈㄚ^ˇ/'],[,],['ㄑㄧㄥ^ˇ/ㄋㄧ^ˇ/ㄢㄆㄞ^ˊ ㄧㄒㄧㄚ^ˋ/'],[！]]。

本發明一較佳實施例，如第7圖所示以能產生位階最高的語法樹節點為目標之實施例，以「我研究中文」的結構說明。「研究」一詞可為動詞或名詞，若將「研究」視為名詞如一斷層句法樹結構21，此文句的句法樹結構之右枝結構最高只爬到N’，使VP出現為斷層。但若將「研究」一詞改置於V的中心語位置，當作「動詞」如一VP高度句法樹結構22，則此文句的句法樹結構之右枝結構將有機會爬到VP的高度，而又能結合「我」合成CP(CP為句子結構位階的最高點)，故本發明將採用該VP高度句法樹結構22結果輸出，將「研究」的POS標為動詞。

較佳的，該中文斷詞方法及系統，其中該輸出裝置可以是但不僅是電腦螢幕、翻譯機及報表形式。

較佳的，該中文斷詞方法及系統，其中該輸入裝置可以是但不僅是電腦文字輸入、掃描輸入或影像檔輸入方式。

應當理解的是，本發明的上述具體實施方式僅僅用於示例性說明或解釋本發明的原理，而不構成對本發明的限制。因此，在不偏離本發明的精神和範圍的情況下所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。此外，本發明所附權利要求旨在涵蓋落入所附權利要求範圍和邊界、或者這種範圍和邊界的等同形式內的全部變化和修改例。