TW200529014A

TW200529014A - Method for processing Chinese natural language sentence

Info

Publication number: TW200529014A
Application number: TW093104530A
Authority: TW
Inventors: Yi-Chun Chen; Feng-Lin Chang; Hua-Sen Cheng
Original assignee: Simpleact Inc
Priority date: 2004-02-24
Filing date: 2004-02-24
Publication date: 2005-09-01

Description

20Q529014__ 五、發明說明⑴ " " -- 【發明所屬之技術領域）本發明是有關於一種處理中文自然語言文句的方法’即利用淺層文法解析（Shal l〇w parsing)，將中文句子轉換為三元表示式的自然語言處理方法。【先前技術】 ^ 中華民國專利公報公告第526427號係一種功能性系統，其包含需要存取匯集式資源的一組功能，此系統包· 含附接來實做存取架構的界面，特徵為以預定方式歷經的複數個狀態’一狀態形成特定長度存取的可能性並根據可存取此匯集式資源的功能定義優先順序；此與本案根本不同；另中華民國專利公報公告第5丨7丨9丨號係一種用於資料處理系統中建立處理電子訊息規則的方法，係用以檢測移動電子訊息到一個文件的用戶輸入，比較該電子訊息與該文件夾中的其他電子訊息的特徵，形成一種比較，和根據這一比較產生處理電子訊息的規則，亦與本案不同。 Φ 【發明内容】請參考第1圖，為一般傳統上處理自然語言文句之方塊圖。一文句經由構詞分析（morphological analysis)102，取得文句中每一字詞的基本型態，例如英

第6頁「200529014- 五、發明說明（2) 文的動詞s t u d i e s，經過分析轉變為動詞原形s t u d y，再經由句法分析（syntactic analysis)104’得到文句的句法結構（syntactic structure)，最後由語意解釋（semantic interpretation)10 6產生一語意表示式（semantic representation)0 但在處理中文文句時，此類方法卻有以下不足之處： 1·中文文句在書寫時，不像英文字詞間有空白區隔，因此處理中文文句時，必須先作斷詞處理，將文句中的每一字詞辨識出來。 2·中文在語吕學上是屬於孤立語（is〇iating iangUage)，少有文法上的各種形式變化，如，名詞單複數及動詞語尾等變化。因此如英文等印歐語系的構詞分析，便無法套用於處理中文字詞。 3 ·傳統上的句法分析通常作整句剖析，取得最適當的句法結構，作自動化處理時錯誤率高，一般需要人工作後處理修正。 4 ·對整^句子作$意解釋時’需要足夠的知識庫，此知識庫包含每-字詞的語意分類及功能，建立此類知識庫，需要大量的時間與人力。有鑒於此，本發明提出一藉片^ m處理中文自然語言文句的方法，針對中文的特性，先作鼢μ & z a 、作斷词處理，並以詞組層 (phrase-level)的淺層文法 .q始丨、，綷思仏- -* 解析取代複雜的整句文法剖析，取後以間易的二兀表示4 τ式’表示文句的組成要素。

200529014 五、發明說明（3) 【實施方式】請參照第2圖，為本發明提出的中文自然語言文句處理方法之方塊圖，首先斷詞處理程序2 0 2，係採用長詞優先法則，將文句中的中文字詞斷出並標上詞性，產生標記詞性的字詞序列；字詞過濾程序2 0 4，係濾除不需要的字詞，以簡化詞組的複雜度；詞組剖析程序2 0 6，係以詞組層的淺層文法解析出文句中的詞組；三元表示式轉換程序 208，係為產生對應於文句的三元表示式。本發明提出另一種用於表現文句中子句（clause)的三元表鲁示式，係將文句中由詞組組成的子句，以三元表示式表現之，其中，一個三元表示式包含三個組成成分：主詞 (S )、述詞（P )及受詞（0 )，每一成分為一詞組，意即，一個三元表示式由三個詞組所組成，表現出一子句中主詞、受詞及之間的關聯性。請參照範例一，π張三喜歡李四”以三元表示式表示為π [[張三]，[喜歡]，[李四]]π。三元表示式的定義請參照定義一。範例一： (1 )張三喜歡李四。 · (2)[[張三]，[喜歡]，[李四]] 定義一：一個三元表示式Τ包括三個組成成分，Τ表示為[S， R， 0 ]，其中： 1 S係由一至多個名詞所組成的序列，其文法角色為子句中

第8頁 20QS29014- 五、發明說明（4) 的主詞。 1 R係由一至多個動詞或介詞所組成的序列，其文法角色為子句中的述詞。 1 0係由一至多個名詞所組成的序列，其文法角色為子句中的受詞。在定義一中，一個三元表示式包括S、R與0三個成分，分別代表一子句中的主詞、述詞與受詞。而一中文文句可能含有一至多個子句，因此一文句亦由一至多個三元表示式表現之。請參照範例二，為一個具有二個子句的中文句子，π張三參加比赛得到冠軍π，以三元表示式表示為π ^ [[[張三]，[參加]，[比赛]]，[[zero],[得到]，[冠軍]]]π，其中，範例二（2 )有二個三元表示式，而在第二個三元表示式中，1’ z e r οπ表示一零代詞，為主詞省略，係中文經常發生的文法角色省略現象。範例二： (1 )張三參加比赛得到冠軍。 (2)[[[張三]，[參加]，[比赛]]，[[zero],[得到]，[冠軍]]] 本發明又再提出另一種用於解析文句中子句結構的三元規· 則，三元規則包括三元生成規則與三元例外規則，其中，三元生成規則係為子句構成之基本句型（主詞一述詞一受詞），三元例外規則係用以處理中文之零代詞現象。三元生成規則，係包括四條規則，分別處理四種基本子句句型，請參照表格一，其中，規則1所處理的句型為主詞+

第9頁 20052901^1---1 五、發明說明（5) 及物動詞詞組+受詞，規則2所處理的句型為主詞+不及物動詞詞組，規則3所處理的句型為主詞+介詞+受詞，規則4 所處理的句型為一文句僅以一名詞詞組所構成。表格一：三元生成規則編號規則 lTrilpel(S，P，0) a np(S)，vtp(P)，np(〇). 2Trilpe2(S，P，none) a np(S)，vip(p)· 3Trilpe3(S, P, 0) a np(S),prep(P),np(0 ). 4Trilpe4(S,none,none) a np(S). 請參照表格一，n v t p (P)n表示述詞為及物動詞詞組，” v i p (P)"表示述詞為不及物動詞詞組，n prep(p)"表示述詞為介詞。編號4規則為處理一文句僅以一名詞詞組所構成。三元例外規則，係包括五條規則，用以處理中文經常發生的零代詞現象’請參照表格二，其中，規則1 z 1、2 z 1與 3 z 1處理的是當零代詞出現在子句的主詞位置，規則1 z 2處理的是當零代詞出現在子句的受詞位置，規則1 z 3處理的是當零代詞同時出現在子句的主詞與受詞位置，如範例二 (2 )，在套用規則1 z 1後，n z e r οπ表示一零代詞，為主詞省· 略0 表格二：三元例外規則編號規則 lzlTrilpelzl(zero,P,〇)a vtp(P),np(0). 2z2Trilpelz2(S,P,zero)a np(S),vtp(P).

第10頁 ,200539011- 五、發明說明（6) 3z3Trilpelz3(zero，P，zero)a v t p(P ). 2zlTrilpe2zl(zero，P，none)a v i p(P ). 3zlTrilpe3zl(zero,P,0) a prep(P),np(0). 為讓本發明之上述和其他目的、特徵、和優點能更明顯易懂，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下：圖式之簡單說明：第1圖繪示的是一般傳統自然語言文句處理之一方塊圖；第2圖繪示的是本發明提出的中文自然語言文句處理方法 . 之方塊圖；第3圖繪示的是本發明之一詞組剖析流程圖；以及第4圖繪示的是本發明之一三元表示式轉換流程圖。第5圖繪示的是本發明之一流程圖。第6圖繪示的是本發明之一流程圖。重要元件標號 1 0 2 :構詞分析程序 104:句法分析程序 1 0 6 :語意解釋程序 2 0 2 :斷詞處理程序 2 0 4 :字詞過濾程序 2 0 6 :詞組剖析程序 208:三元表示式轉換程序

第11頁五、發明說明（7) 步驟s3 0 0至步驟s3 0 6為本發明之一斷詞處理實施步驟步驟S400至步驟s41〇為本發明之一字詞過遽實施步驟步驟S502至步驟S5 18為本發明之一詞組剖析實施步驟步驟s602至步驟s6 16為本發明之一三元表示式轉換實施步驟較佳實施例本么明所提出的中文自然語言文句處理方法，請參照第2 圖，包括斷詞處理程序2 0 2、字詞過濾程序2〇4、詞組剖析程序2 0 6及三元表示式轉換程序2〇8等四個程序，本文就這些程序提出一較佳實施例。 2參照第3圖，其繪示的是斷詞處理程序之步驟，包括·· 輸入一中文文句S3 0 0,經由步驟s3〇2，自文句第一個字開始，與辭典中的詞相比對，找出所有符合的中文詞，接著 2钟，依長詞優先規則，從所有符合的中文詞挑右&之字祠，並標上該詞的詞性在步驟s306中，若仍 =餘：部分中文文句未比對，則繼續比對及挑出最長之子3 ’直至中文查詢句子做完為止。二η二圖’其繪示的是字詞過滤程序之步驟，包括：檢查序列中第一個字詞字詞是否為詞經::驟 5司，若是，在步驟s404中，將該字詞挑出^ 硐或介否，則在步驟s4〇6中，將該字詞移除，接著序列’若 :’檢查原序列中是否仍有剩餘字詞，若： = 处理，則回到步驟s4〇2繼續做處理，直;、子詞為席予同序列處理 20Q§-29Q14- 五、發明說明（8) 完為止。請參照第5圖‘ 輸入一已標記處理s 5 0 4，經詞具有相同的前處理字詞或前處理序列是步驟s 5 0 8，處未處理之剩餘入的序列中是中，產生一僅新的輸入’若請參照第6圖包括：輸入一詞組開始處理三元表示式，示式，若有，若無，則依據驟s612中，若未處理之剩餘的詞組都已經 — 其纷示的是詞組剖析程序之步驟，包括：詞链之字詞序列s 5 0 2，由最左方的字詞開始由步騍s50 6檢查目前處理字詞是否與右方丰巧性，若是，則步驟s 5 0 8結合右方字詞與目序列為一新序列，接著在步驟s 5 1 0，檢查目否與右方字詞具有相同的詞性，若是，回到 j下一個字詞’若否，在步驟s512，取出尚字詞回到步驟s 5 0 4，在步驟s 5 1 4中，檢查輸否還有未處理的字詞，若有，在步驟3516 $括一字詞之序列並將未處理剩餘字詞作為無’則輸出剖析結果並結束詞組剖析程序。 >其繪示的是三元表示式轉換程序之步驟，同組序列s60 2,在步驟s6〇4f，由最左方接，步驟S6 0 6中，依據三元生成規則產生一 1在步驟s60 8中，檢查是否有產生三元表驟s6 12中檢查是否還有未處理之詞組，外規則產生—三元表示式，接著在步還有未處理之詞組，在步驟s 6 1 0中，將二、、且作為新的輸入，回到步驟s 6 〇 4，若所处理几成’則輸出結果並結束程序。

第13頁 200529011 圖式簡單說明

« 第14頁

Claims

200520014_ 六、申請專利範圍申請專利範圍 1. 一種處理中文自然語言文句的方法，係有關於將一中文自然語言文句轉換為一結構化表示式，其中包括：一斷詞處理程序，係將一中文文句作斷詞處理，將文句中的字詞——斷開，並標示每個字詞的詞性；一字詞過濾程序，係將一中文文句經斷詞處理後，將不處理或不必要的字詞濾除；一詞組剖析程序，係剖析中文文句，將文句中的詞組抽取出來形成一詞組序列；以及一三元表示式轉換程序，係將一文句經由詞組剖析程序，船產生詞組序列後，將文句中的子句，——轉換為三元表示 2. 如申請專利範圍第1項所述之字詞過濾程序，其中，將不屬於以下詞性的字詞濾除：名詞、動詞及介詞。 3. 如申請專利範圍第1項所述之詞組剖析程序，其中包括抽取出以下詞組：名詞詞組、動詞詞組及單一介詞。 4. 如申請專利範圍第1項所述之三元表示式轉換程序，其中，三元表示式的定義如下：一個三元表示式T包括三個組成成分，T表示為[S， R， φ 0]，其中： S係由一至多個名詞所組成的序列，其文法角色為子句中的主詞； R係由一至多個動詞或介詞所組成的序列，其文法角色為子句中的述詞；

第15頁 -2005-29014- 六、申請專利範圍〇係由一至多個名詞所組成的序列，其文法角色為子句中的受詞。 5. 如申請專利範圍第1項所述之三元表示式轉換程序，其中，三元表示式可表現之子句結構有以下四種：主詞+及物動詞詞組+受詞；主詞+不及物動詞詞組；主詞+介詞+受詞；以及一文句僅以一名詞詞組所構成。 6. 如申請專利範圍第1項所述之三元表示式轉換程序，其中，三元表示式可表現之具有零代詞現象之子句結構有以下五種：零代詞+及物動詞詞組+受詞；主詞+及物動詞詞組+零代詞；零代詞+及物動詞詞組+零代詞；零代詞+不及物動詞詞組；以及零代詞+介詞+受詞。 7. —種處理中文自然語言文句的方法，係有關於將中文文句中的子句，轉換為一三元表示式，此三元表示式包含三個組成成分，分別依序對應於子句中的主詞、述詞與受詞。 8. 如申請專利範圍第7項所述之一三元表示式，其中第二個組成成分為一子句中主詞與受詞的關聯性。 9. 如申請專利範圍第8項所述之一子句中主詞與受詞的關聯性，包括動詞詞組與介詞。

第16頁 200529014 六、申請專利範圍 10.如申請專利範圍第7項所述之一三元表示式，其中，三元表示式對應的子句，包括零代詞出現於主詞與受詞位置的子句。 1 1. 一種處理中文自然語言文句的方法，係有關於分析文句中所有的子句結構，以一三元表示式表現一子句的方式，進而表現整個文句。 1 2.如申請專利範圍第1 1項所述之表現中文問句的方式，是以一至多個三元表示式表現一中文文句，其中一至多個三元表示式依照先後出現順序，對應至文句中的所有子

第17頁