TW200529014A - Method for processing Chinese natural language sentence - Google Patents
Method for processing Chinese natural language sentence Download PDFInfo
- Publication number
- TW200529014A TW200529014A TW093104530A TW93104530A TW200529014A TW 200529014 A TW200529014 A TW 200529014A TW 093104530 A TW093104530 A TW 093104530A TW 93104530 A TW93104530 A TW 93104530A TW 200529014 A TW200529014 A TW 200529014A
- Authority
- TW
- Taiwan
- Prior art keywords
- sentence
- ternary
- chinese
- patent application
- scope
- Prior art date
Links
Landscapes
- Machine Translation (AREA)
Description
20Q529014__ 五、發明說明⑴ " " -- 【發明所屬之技術領域) 本發明是有關於一種處理中文自然語言文句的方 法’即利用淺層文法解析(Shal l〇w parsing),將中文句 子轉換為三元表示式的自然語言處理方法。 【先前技術】 ^ 中華民國專利公報公告第526427號係一種功能性 系統,其包含需要存取匯集式資源的一組功能,此系統包· 含附接來實做存取架構的界面,特徵為以預定方式歷經的 複數個狀態’一狀態形成特定長度存取的可能性並根據可 存取此匯集式資源的功能定義優先順序;此與本案根本不 同;另中華民國專利公報公告第5丨7丨9丨號係一種用於資料 處理系統中建立處理電子訊息規則的方法,係用以檢測移 動電子訊息到一個文件的用戶輸入,比較該電子訊息與該 文件夾中的其他電子訊息的特徵,形成一種比較,和根據 這一比較產生處理電子訊息的規則,亦與本案不同。 Φ 【發明内容】 請參考第1圖,為一般傳統上處理自然語言文句 之方塊圖。一文句經由構詞分析(morphological analysis)102,取得文句中每一字詞的基本型態,例如英
第6頁 「200529014- 五、發明說明(2) 文的動詞s t u d i e s,經過分析轉變為動詞原形s t u d y,再經 由句法分析(syntactic analysis)104’得到文句的句法 結構(syntactic structure),最後由語意解釋(semantic interpretation)10 6產生一語意表示式(semantic representation)0 但在處理中文文句時,此類方法卻有以下不足之處: 1·中文文句在書寫時,不像英文字詞間有空白區隔,因此 處理中文文句時,必須先作斷詞處理,將文句中的每一字 詞辨識出來。 2·中文在語吕學上是屬於孤立語(is〇iating iangUage), 少有文法上的各種形式變化,如,名詞單複數及動詞語尾 等變化。因此如英文等印歐語系的構詞分析,便無法套用 於處理中文字詞。 3 ·傳統上的句法分析通常作整句剖析,取得最適當的句法 結構,作自動化處理時錯誤率高,一般需要人工作後處理 修正。 4 ·對整^句子作$意解釋時’需要足夠的知識庫,此知 識庫包含每-字詞的語意分類及功能,建立此類知識庫, 需要大量的時間與人力。 有鑒於此,本發明提出一藉片^ m處理中文自然語言文句的方 法,針對中文的特性,先作鼢μ & z a 、 作斷词處理,並以詞組層 (phrase-level)的淺層文法 .q始丨、,綷思仏- -* 解析取代複雜的整句文法剖 析,取後以間易的二兀表示4 τ式’表示文句的組成要素。
200529014 五、發明說明(3) 【實施方式】 請參照第2圖,為本發明提出的中文自然語言文句處理方 法之方塊圖,首先斷詞處理程序2 0 2,係採用長詞優先法 則,將文句中的中文字詞斷出並標上詞性,產生標記詞性 的字詞序列;字詞過濾程序2 0 4,係濾除不需要的字詞, 以簡化詞組的複雜度;詞組剖析程序2 0 6,係以詞組層的 淺層文法解析出文句中的詞組;三元表示式轉換程序 208,係為產生對應於文句的三元表示式。 本發明提出另一種用於表現文句中子句(clause)的三元表鲁 示式,係將文句中由詞組組成的子句,以三元表示式表現 之,其中,一個三元表示式包含三個組成成分:主詞 (S )、述詞(P )及受詞(0 ),每一成分為一詞組,意即,一 個三元表示式由三個詞組所組成,表現出一子句中主詞、 受詞及之間的關聯性。請參照範例一,π張三喜歡李四”以 三元表示式表示為π [[張三],[喜歡],[李四]]π。三元表 示式的定義請參照定義一。 範例一: (1 )張三喜歡李四。 · (2)[[張三],[喜歡],[李四]] 定義一: 一個三元表示式Τ包括三個組成成分,Τ表示為[S, R, 0 ],其中: 1 S係由一至多個名詞所組成的序列,其文法角色為子句中
第8頁 20QS29014- 五、發明說明(4) 的主詞。 1 R係由一至多個動詞或介詞所組成的序列,其文法角色為 子句中的述詞。 1 0係由一至多個名詞所組成的序列,其文法角色為子句中 的受詞。 在定義一中,一個三元表示式包括S、R與0三個成分,分 別代表一子句中的主詞、述詞與受詞。而一中文文句可能 含有一至多個子句,因此一文句亦由一至多個三元表示式 表現之。請參照範例二,為一個具有二個子句的中文句 子,π張三參加比赛得到冠軍π,以三元表示式表示為π ^ [[[張三],[參加],[比赛]],[[zero],[得到],[冠 軍]]]π,其中,範例二(2 )有二個三元表示式,而在第二 個三元表示式中,1’ z e r οπ表示一零代詞,為主詞省略,係 中文經常發生的文法角色省略現象。 範例二: (1 )張三參加比赛得到冠軍。 (2)[[[張三],[參加],[比赛]],[[zero],[得到],[冠 軍]]] 本發明又再提出另一種用於解析文句中子句結構的三元規· 則,三元規則包括三元生成規則與三元例外規則,其中, 三元生成規則係為子句構成之基本句型(主詞一述詞一受 詞),三元例外規則係用以處理中文之零代詞現象。 三元生成規則,係包括四條規則,分別處理四種基本子句 句型,請參照表格一,其中,規則1所處理的句型為主詞+
第9頁 20052901^1---1 五、發明說明(5) 及物動詞詞組+受詞,規則2所處理的句型為主詞+不及物 動詞詞組,規則3所處理的句型為主詞+介詞+受詞,規則4 所處理的句型為一文句僅以一名詞詞組所構成。 表格一:三元生成規則 編號規則 lTrilpel(S,P,0) a np(S),vtp(P),np(〇). 2Trilpe2(S,P,none) a np(S),vip(p)· 3Trilpe3(S, P, 0) a np(S),prep(P),np(0 ). 4Trilpe4(S,none,none) a np(S). 請參照表格一,n v t p (P)n表示述詞為及物動詞詞組,” v i p (P)"表示述詞為不及物動詞詞組,n prep(p)"表示述詞為 介詞。編號4規則為處理一文句僅以一名詞詞組所構成。 三元例外規則,係包括五條規則,用以處理中文經常發生 的零代詞現象’請參照表格二,其中,規則1 z 1、2 z 1與 3 z 1處理的是當零代詞出現在子句的主詞位置,規則1 z 2處 理的是當零代詞出現在子句的受詞位置,規則1 z 3處理的 是當零代詞同時出現在子句的主詞與受詞位置,如範例二 (2 ),在套用規則1 z 1後,n z e r οπ表示一零代詞,為主詞省· 略0 表格二:三元例外規則 編號規則 lzlTrilpelzl(zero,P,〇)a vtp(P),np(0). 2z2Trilpelz2(S,P,zero)a np(S),vtp(P).
第10頁 ,200539011- 五、發明說明(6) 3z3Trilpelz3(zero,P,zero)a v t p(P ). 2zlTrilpe2zl(zero,P,none)a v i p(P ). 3zlTrilpe3zl(zero,P,0) a prep(P),np(0). 為讓本發明之上述和其他目的、特徵、和優點能更明顯易 懂,下文特舉較佳實施例,並配合所附圖式,作詳細說明 如下: 圖式之簡單說明: 第1圖繪示的是一般傳統自然語言文句處理之一方塊圖; 第2圖繪示的是本發明提出的中文自然語言文句處理方法 . 之方塊圖; 第3圖繪示的是本發明之一詞組剖析流程圖;以及 第4圖繪示的是本發明之一三元表示式轉換流程圖。 第5圖繪示的是本發明之一流程圖。 第6圖繪示的是本發明之一流程圖。 重要元件標號 1 0 2 :構詞分析程序 104:句法分析程序 1 0 6 :語意解釋程序 2 0 2 :斷詞處理程序 2 0 4 :字詞過濾程序 2 0 6 :詞組剖析程序 208:三元表示式轉換程序
第11頁 五、發明說明(7) 步驟s3 0 0至步驟s3 0 6為本發明之一斷詞處理實施步驟 步驟S400至步驟s41〇為本發明之一字詞過遽實施步驟 步驟S502至步驟S5 18為本發明之一詞組剖析實施步驟 步驟s602至步驟s6 16為本發明之一三元表示式轉換實施步 驟 較佳實施例 本么明所提出的中文自然語言文句處理方法,請參照第2 圖,包括斷詞處理程序2 0 2、字詞過濾程序2〇4、詞組剖析 程序2 0 6及三元表示式轉換程序2〇8等四個程序,本文就這 些程序提出一較佳實施例。 2參照第3圖,其繪示的是斷詞處理程序之步驟,包括·· 輸入一中文文句S3 0 0,經由步驟s3〇2,自文句第一個字開 始,與辭典中的詞相比對,找出所有符合的中文詞,接著 2钟,依長詞優先規則,從所有符合的中文詞挑 右&之字祠,並標上該詞的詞性在步驟s306中,若仍 =餘:部分中文文句未比對,則繼續比對及挑出最長之 子3 ’直至中文查詢句子做完為止。 二η二圖’其繪示的是字詞過滤程序之步驟,包括: 檢查序列中第一個字詞字詞是否為詞經::驟 5司,若是,在步驟s404中,將該字詞挑出^ 硐或介 否,則在步驟s4〇6中,將該字詞移除,接著序列’若 :’檢查原序列中是否仍有剩餘字詞,若: = 处理,則回到步驟s4〇2繼續做處理,直;、子詞為 席予同序列處理 20Q§-29Q14- 五、發明說明(8) 完為止。 請參照第5圖‘ 輸入一已標記 處理s 5 0 4,經 詞具有相同的 前處理字詞或 前處理序列是 步驟s 5 0 8,處 未處理之剩餘 入的序列中是 中,產生一僅 新的輸入’若 請參照第6圖 包括:輸入一 詞組開始處理 三元表示式, 示式,若有, 若無,則依據 驟s612中,若 未處理之剩餘 的詞組都已經 — 其纷示的是詞組剖析程序之步驟,包括: 詞链之字詞序列s 5 0 2,由最左方的字詞開始 由步騍s50 6檢查目前處理字詞是否與右方丰 巧性,若是,則步驟s 5 0 8結合右方字詞與目 序列為一新序列,接著在步驟s 5 1 0,檢查目 否與右方字詞具有相同的詞性,若是,回到 j下一個字詞’若否,在步驟s512,取出尚 字詞回到步驟s 5 0 4,在步驟s 5 1 4中,檢查輸 否還有未處理的字詞,若有,在步驟3516 $括一字詞之序列並將未處理剩餘字詞作為 無’則輸出剖析結果並結束詞組剖析程序。 >其繪示的是三元表示式轉換程序之步驟, 同組序列s60 2,在步驟s6〇4f,由最左方 接,步驟S6 0 6中,依據三元生成規則產生一 1在步驟s60 8中,檢查是否有產生三元表 驟s6 12中檢查是否還有未處理之詞組, 外規則產生—三元表示式,接著在步 還有未處理之詞組,在步驟s 6 1 0中,將 二、、且作為新的輸入,回到步驟s 6 〇 4,若所 处理几成’則輸出結果並結束程序。
第13頁 200529011 圖式簡單說明
« 第14頁
Claims (1)
- 200520014_ 六、申請專利範圍 申請專利範圍 1. 一種處理中文自然語言文句的方法,係有關於將一中文 自然語言文句轉換為一結構化表示式,其中包括: 一斷詞處理程序,係將一中文文句作斷詞處理,將文句中 的字詞——斷開,並標示每個字詞的詞性; 一字詞過濾程序,係將一中文文句經斷詞處理後,將不處 理或不必要的字詞濾除; 一詞組剖析程序,係剖析中文文句,將文句中的詞組抽取 出來形成一詞組序列;以及 一三元表示式轉換程序,係將一文句經由詞組剖析程序,船 產生詞組序列後,將文句中的子句,——轉換為三元表示 2. 如申請專利範圍第1項所述之字詞過濾程序,其中,將 不屬於以下詞性的字詞濾除:名詞、動詞及介詞。 3. 如申請專利範圍第1項所述之詞組剖析程序,其中包括 抽取出以下詞組:名詞詞組、動詞詞組及單一介詞。 4. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式的定義如下: 一個三元表示式T包括三個組成成分,T表示為[S, R, φ 0],其中: S係由一至多個名詞所組成的序列,其文法角色為子句中 的主詞; R係由一至多個動詞或介詞所組成的序列,其文法角色為 子句中的述詞;第15頁 -2005-29014- 六、申請專利範圍 〇係由一至多個名詞所組成的序列,其文法角色為子句中 的受詞。 5. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式可表現之子句結構有以下四種: 主詞+及物動詞詞組+受詞; 主詞+不及物動詞詞組; 主詞+介詞+受詞;以及 一文句僅以一名詞詞組所構成。 6. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式可表現之具有零代詞現象之子句結構有以 下五種: 零代詞+及物動詞詞組+受詞; 主詞+及物動詞詞組+零代詞; 零代詞+及物動詞詞組+零代詞; 零代詞+不及物動詞詞組;以及 零代詞+介詞+受詞。 7. —種處理中文自然語言文句的方法,係有關於將中文文 句中的子句,轉換為一三元表示式,此三元表示式包含三 個組成成分,分別依序對應於子句中的主詞、述詞與受 詞。 8. 如申請專利範圍第7項所述之一三元表示式,其中第二 個組成成分為一子句中主詞與受詞的關聯性。 9. 如申請專利範圍第8項所述之一子句中主詞與受詞的關 聯性,包括動詞詞組與介詞。第16頁 200529014 六、申請專利範圍 10.如申請專利範圍第7項所述之一三元表示式,其中,三 元表示式對應的子句,包括零代詞出現於主詞與受詞位置 的子句。 1 1. 一種處理中文自然語言文句的方法,係有關於分析文 句中所有的子句結構,以一三元表示式表現一子句的方 式,進而表現整個文句。 1 2.如申請專利範圍第1 1項所述之表現中文問句的方式, 是以一至多個三元表示式表現一中文文句,其中一至多個 三元表示式依照先後出現順序,對應至文句中的所有子第17頁
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW093104530A TW200529014A (en) | 2004-02-24 | 2004-02-24 | Method for processing Chinese natural language sentence |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW093104530A TW200529014A (en) | 2004-02-24 | 2004-02-24 | Method for processing Chinese natural language sentence |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW200529014A true TW200529014A (en) | 2005-09-01 |
Family
ID=52348307
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW093104530A TW200529014A (en) | 2004-02-24 | 2004-02-24 | Method for processing Chinese natural language sentence |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TW200529014A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
| US9465790B2 (en) | 2012-11-07 | 2016-10-11 | International Business Machines Corporation | SVO-based taxonomy-driven text analytics |
| CN110955748A (zh) * | 2018-09-26 | 2020-04-03 | 华硕电脑股份有限公司 | 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 |
-
2004
- 2004-02-24 TW TW093104530A patent/TW200529014A/zh unknown
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9465790B2 (en) | 2012-11-07 | 2016-10-11 | International Business Machines Corporation | SVO-based taxonomy-driven text analytics |
| US9817810B2 (en) | 2012-11-07 | 2017-11-14 | International Business Machines Corporation | SVO-based taxonomy-driven text analytics |
| CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
| CN105320644B (zh) * | 2015-09-23 | 2018-01-02 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
| CN110955748A (zh) * | 2018-09-26 | 2020-04-03 | 华硕电脑股份有限公司 | 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 |
| CN110955748B (zh) * | 2018-09-26 | 2022-10-28 | 华硕电脑股份有限公司 | 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Goddard et al. | Meaning and universal grammar: Theory and empirical findings | |
| CN104182535B (zh) | 一种人物关系抽取方法和装置 | |
| Roberts | Semantic text analysis: On the structure of linguistic ambiguity in ordinary discourse | |
| JP2003196274A (ja) | 構文解析方法及び装置 | |
| Smith et al. | LILLIE: Information extraction and database integration using linguistics and learning-based algorithms | |
| Alegria et al. | TweetNorm: a benchmark for lexical normalization of Spanish tweets | |
| Flickinger et al. | The evolution of HPSG | |
| Shivahare et al. | Survey paper: study of sentiment analysis and machine translation using natural language processing and its applications | |
| Al-Horaibi et al. | Sentiment analysis of arabic tweets using semantic resources | |
| Kaur et al. | Noise estimation and removal in natural language processing | |
| Boulaknadel et al. | Amazighe Named Entity Recognition using a A rule based approach | |
| Walther et al. | Fast development of basic NLP tools: Towards a lexicon and a POS tagger for Kurmanji Kurdish | |
| Meyerhoff | All the same? The emergence of complementizers in Bislama | |
| Tajalli et al. | Developing an informal-formal persian corpus | |
| TW200529014A (en) | Method for processing Chinese natural language sentence | |
| Altabba et al. | An Arabic morphological analyzer and part-of-speech tagger | |
| Rehman et al. | An artificial neural network approach for sentence boundary disambiguation in Urdu language text | |
| Tajalli et al. | Developing an Informal-Formal Persian Corpus: Highlighting the Differences between Two Writing Styles | |
| Plu et al. | Revealing entities from textual documents using a hybrid approach | |
| El-Taher et al. | An Arabic CCG approach for determining constituent types from Arabic Treebank | |
| Dione | Finite-state tokenization for a deep wolof lfg grammar | |
| Du et al. | Towards computing technologies on machine parsing of English and Chinese garden path sentences | |
| Shukhoshvili | Methodology of translation alignment of georgian text of plato’s “theaetetus” | |
| Qin et al. | Semantic document exchange through mediation of machine natural language | |
| Graffi | Harris, Chomsky and the origins of transformational grammar |