TW200529014A - Method for processing Chinese natural language sentence - Google Patents

Method for processing Chinese natural language sentence Download PDF

Info

Publication number
TW200529014A
TW200529014A TW093104530A TW93104530A TW200529014A TW 200529014 A TW200529014 A TW 200529014A TW 093104530 A TW093104530 A TW 093104530A TW 93104530 A TW93104530 A TW 93104530A TW 200529014 A TW200529014 A TW 200529014A
Authority
TW
Taiwan
Prior art keywords
sentence
ternary
chinese
patent application
scope
Prior art date
Application number
TW093104530A
Other languages
English (en)
Inventor
Yi-Chun Chen
Feng-Lin Chang
Hua-Sen Cheng
Original Assignee
Simpleact Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Simpleact Inc filed Critical Simpleact Inc
Priority to TW093104530A priority Critical patent/TW200529014A/zh
Publication of TW200529014A publication Critical patent/TW200529014A/zh

Links

Landscapes

  • Machine Translation (AREA)

Description

20Q529014__ 五、發明說明⑴ " " -- 【發明所屬之技術領域) 本發明是有關於一種處理中文自然語言文句的方 法’即利用淺層文法解析(Shal l〇w parsing),將中文句 子轉換為三元表示式的自然語言處理方法。 【先前技術】 ^ 中華民國專利公報公告第526427號係一種功能性 系統,其包含需要存取匯集式資源的一組功能,此系統包· 含附接來實做存取架構的界面,特徵為以預定方式歷經的 複數個狀態’一狀態形成特定長度存取的可能性並根據可 存取此匯集式資源的功能定義優先順序;此與本案根本不 同;另中華民國專利公報公告第5丨7丨9丨號係一種用於資料 處理系統中建立處理電子訊息規則的方法,係用以檢測移 動電子訊息到一個文件的用戶輸入,比較該電子訊息與該 文件夾中的其他電子訊息的特徵,形成一種比較,和根據 這一比較產生處理電子訊息的規則,亦與本案不同。 Φ 【發明内容】 請參考第1圖,為一般傳統上處理自然語言文句 之方塊圖。一文句經由構詞分析(morphological analysis)102,取得文句中每一字詞的基本型態,例如英
第6頁 「200529014- 五、發明說明(2) 文的動詞s t u d i e s,經過分析轉變為動詞原形s t u d y,再經 由句法分析(syntactic analysis)104’得到文句的句法 結構(syntactic structure),最後由語意解釋(semantic interpretation)10 6產生一語意表示式(semantic representation)0 但在處理中文文句時,此類方法卻有以下不足之處: 1·中文文句在書寫時,不像英文字詞間有空白區隔,因此 處理中文文句時,必須先作斷詞處理,將文句中的每一字 詞辨識出來。 2·中文在語吕學上是屬於孤立語(is〇iating iangUage), 少有文法上的各種形式變化,如,名詞單複數及動詞語尾 等變化。因此如英文等印歐語系的構詞分析,便無法套用 於處理中文字詞。 3 ·傳統上的句法分析通常作整句剖析,取得最適當的句法 結構,作自動化處理時錯誤率高,一般需要人工作後處理 修正。 4 ·對整^句子作$意解釋時’需要足夠的知識庫,此知 識庫包含每-字詞的語意分類及功能,建立此類知識庫, 需要大量的時間與人力。 有鑒於此,本發明提出一藉片^ m處理中文自然語言文句的方 法,針對中文的特性,先作鼢μ & z a 、 作斷词處理,並以詞組層 (phrase-level)的淺層文法 .q始丨、,綷思仏- -* 解析取代複雜的整句文法剖 析,取後以間易的二兀表示4 τ式’表示文句的組成要素。
200529014 五、發明說明(3) 【實施方式】 請參照第2圖,為本發明提出的中文自然語言文句處理方 法之方塊圖,首先斷詞處理程序2 0 2,係採用長詞優先法 則,將文句中的中文字詞斷出並標上詞性,產生標記詞性 的字詞序列;字詞過濾程序2 0 4,係濾除不需要的字詞, 以簡化詞組的複雜度;詞組剖析程序2 0 6,係以詞組層的 淺層文法解析出文句中的詞組;三元表示式轉換程序 208,係為產生對應於文句的三元表示式。 本發明提出另一種用於表現文句中子句(clause)的三元表鲁 示式,係將文句中由詞組組成的子句,以三元表示式表現 之,其中,一個三元表示式包含三個組成成分:主詞 (S )、述詞(P )及受詞(0 ),每一成分為一詞組,意即,一 個三元表示式由三個詞組所組成,表現出一子句中主詞、 受詞及之間的關聯性。請參照範例一,π張三喜歡李四”以 三元表示式表示為π [[張三],[喜歡],[李四]]π。三元表 示式的定義請參照定義一。 範例一: (1 )張三喜歡李四。 · (2)[[張三],[喜歡],[李四]] 定義一: 一個三元表示式Τ包括三個組成成分,Τ表示為[S, R, 0 ],其中: 1 S係由一至多個名詞所組成的序列,其文法角色為子句中
第8頁 20QS29014- 五、發明說明(4) 的主詞。 1 R係由一至多個動詞或介詞所組成的序列,其文法角色為 子句中的述詞。 1 0係由一至多個名詞所組成的序列,其文法角色為子句中 的受詞。 在定義一中,一個三元表示式包括S、R與0三個成分,分 別代表一子句中的主詞、述詞與受詞。而一中文文句可能 含有一至多個子句,因此一文句亦由一至多個三元表示式 表現之。請參照範例二,為一個具有二個子句的中文句 子,π張三參加比赛得到冠軍π,以三元表示式表示為π ^ [[[張三],[參加],[比赛]],[[zero],[得到],[冠 軍]]]π,其中,範例二(2 )有二個三元表示式,而在第二 個三元表示式中,1’ z e r οπ表示一零代詞,為主詞省略,係 中文經常發生的文法角色省略現象。 範例二: (1 )張三參加比赛得到冠軍。 (2)[[[張三],[參加],[比赛]],[[zero],[得到],[冠 軍]]] 本發明又再提出另一種用於解析文句中子句結構的三元規· 則,三元規則包括三元生成規則與三元例外規則,其中, 三元生成規則係為子句構成之基本句型(主詞一述詞一受 詞),三元例外規則係用以處理中文之零代詞現象。 三元生成規則,係包括四條規則,分別處理四種基本子句 句型,請參照表格一,其中,規則1所處理的句型為主詞+
第9頁 20052901^1---1 五、發明說明(5) 及物動詞詞組+受詞,規則2所處理的句型為主詞+不及物 動詞詞組,規則3所處理的句型為主詞+介詞+受詞,規則4 所處理的句型為一文句僅以一名詞詞組所構成。 表格一:三元生成規則 編號規則 lTrilpel(S,P,0) a np(S),vtp(P),np(〇). 2Trilpe2(S,P,none) a np(S),vip(p)· 3Trilpe3(S, P, 0) a np(S),prep(P),np(0 ). 4Trilpe4(S,none,none) a np(S). 請參照表格一,n v t p (P)n表示述詞為及物動詞詞組,” v i p (P)"表示述詞為不及物動詞詞組,n prep(p)"表示述詞為 介詞。編號4規則為處理一文句僅以一名詞詞組所構成。 三元例外規則,係包括五條規則,用以處理中文經常發生 的零代詞現象’請參照表格二,其中,規則1 z 1、2 z 1與 3 z 1處理的是當零代詞出現在子句的主詞位置,規則1 z 2處 理的是當零代詞出現在子句的受詞位置,規則1 z 3處理的 是當零代詞同時出現在子句的主詞與受詞位置,如範例二 (2 ),在套用規則1 z 1後,n z e r οπ表示一零代詞,為主詞省· 略0 表格二:三元例外規則 編號規則 lzlTrilpelzl(zero,P,〇)a vtp(P),np(0). 2z2Trilpelz2(S,P,zero)a np(S),vtp(P).
第10頁 ,200539011- 五、發明說明(6) 3z3Trilpelz3(zero,P,zero)a v t p(P ). 2zlTrilpe2zl(zero,P,none)a v i p(P ). 3zlTrilpe3zl(zero,P,0) a prep(P),np(0). 為讓本發明之上述和其他目的、特徵、和優點能更明顯易 懂,下文特舉較佳實施例,並配合所附圖式,作詳細說明 如下: 圖式之簡單說明: 第1圖繪示的是一般傳統自然語言文句處理之一方塊圖; 第2圖繪示的是本發明提出的中文自然語言文句處理方法 . 之方塊圖; 第3圖繪示的是本發明之一詞組剖析流程圖;以及 第4圖繪示的是本發明之一三元表示式轉換流程圖。 第5圖繪示的是本發明之一流程圖。 第6圖繪示的是本發明之一流程圖。 重要元件標號 1 0 2 :構詞分析程序 104:句法分析程序 1 0 6 :語意解釋程序 2 0 2 :斷詞處理程序 2 0 4 :字詞過濾程序 2 0 6 :詞組剖析程序 208:三元表示式轉換程序
第11頁 五、發明說明(7) 步驟s3 0 0至步驟s3 0 6為本發明之一斷詞處理實施步驟 步驟S400至步驟s41〇為本發明之一字詞過遽實施步驟 步驟S502至步驟S5 18為本發明之一詞組剖析實施步驟 步驟s602至步驟s6 16為本發明之一三元表示式轉換實施步 驟 較佳實施例 本么明所提出的中文自然語言文句處理方法,請參照第2 圖,包括斷詞處理程序2 0 2、字詞過濾程序2〇4、詞組剖析 程序2 0 6及三元表示式轉換程序2〇8等四個程序,本文就這 些程序提出一較佳實施例。 2參照第3圖,其繪示的是斷詞處理程序之步驟,包括·· 輸入一中文文句S3 0 0,經由步驟s3〇2,自文句第一個字開 始,與辭典中的詞相比對,找出所有符合的中文詞,接著 2钟,依長詞優先規則,從所有符合的中文詞挑 右&之字祠,並標上該詞的詞性在步驟s306中,若仍 =餘:部分中文文句未比對,則繼續比對及挑出最長之 子3 ’直至中文查詢句子做完為止。 二η二圖’其繪示的是字詞過滤程序之步驟,包括: 檢查序列中第一個字詞字詞是否為詞經::驟 5司,若是,在步驟s404中,將該字詞挑出^ 硐或介 否,則在步驟s4〇6中,將該字詞移除,接著序列’若 :’檢查原序列中是否仍有剩餘字詞,若: = 处理,則回到步驟s4〇2繼續做處理,直;、子詞為 席予同序列處理 20Q§-29Q14- 五、發明說明(8) 完為止。 請參照第5圖‘ 輸入一已標記 處理s 5 0 4,經 詞具有相同的 前處理字詞或 前處理序列是 步驟s 5 0 8,處 未處理之剩餘 入的序列中是 中,產生一僅 新的輸入’若 請參照第6圖 包括:輸入一 詞組開始處理 三元表示式, 示式,若有, 若無,則依據 驟s612中,若 未處理之剩餘 的詞組都已經 — 其纷示的是詞組剖析程序之步驟,包括: 詞链之字詞序列s 5 0 2,由最左方的字詞開始 由步騍s50 6檢查目前處理字詞是否與右方丰 巧性,若是,則步驟s 5 0 8結合右方字詞與目 序列為一新序列,接著在步驟s 5 1 0,檢查目 否與右方字詞具有相同的詞性,若是,回到 j下一個字詞’若否,在步驟s512,取出尚 字詞回到步驟s 5 0 4,在步驟s 5 1 4中,檢查輸 否還有未處理的字詞,若有,在步驟3516 $括一字詞之序列並將未處理剩餘字詞作為 無’則輸出剖析結果並結束詞組剖析程序。 >其繪示的是三元表示式轉換程序之步驟, 同組序列s60 2,在步驟s6〇4f,由最左方 接,步驟S6 0 6中,依據三元生成規則產生一 1在步驟s60 8中,檢查是否有產生三元表 驟s6 12中檢查是否還有未處理之詞組, 外規則產生—三元表示式,接著在步 還有未處理之詞組,在步驟s 6 1 0中,將 二、、且作為新的輸入,回到步驟s 6 〇 4,若所 处理几成’則輸出結果並結束程序。
第13頁 200529011 圖式簡單說明
« 第14頁

Claims (1)

  1. 200520014_ 六、申請專利範圍 申請專利範圍 1. 一種處理中文自然語言文句的方法,係有關於將一中文 自然語言文句轉換為一結構化表示式,其中包括: 一斷詞處理程序,係將一中文文句作斷詞處理,將文句中 的字詞——斷開,並標示每個字詞的詞性; 一字詞過濾程序,係將一中文文句經斷詞處理後,將不處 理或不必要的字詞濾除; 一詞組剖析程序,係剖析中文文句,將文句中的詞組抽取 出來形成一詞組序列;以及 一三元表示式轉換程序,係將一文句經由詞組剖析程序,船 產生詞組序列後,將文句中的子句,——轉換為三元表示 2. 如申請專利範圍第1項所述之字詞過濾程序,其中,將 不屬於以下詞性的字詞濾除:名詞、動詞及介詞。 3. 如申請專利範圍第1項所述之詞組剖析程序,其中包括 抽取出以下詞組:名詞詞組、動詞詞組及單一介詞。 4. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式的定義如下: 一個三元表示式T包括三個組成成分,T表示為[S, R, φ 0],其中: S係由一至多個名詞所組成的序列,其文法角色為子句中 的主詞; R係由一至多個動詞或介詞所組成的序列,其文法角色為 子句中的述詞;
    第15頁 -2005-29014- 六、申請專利範圍 〇係由一至多個名詞所組成的序列,其文法角色為子句中 的受詞。 5. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式可表現之子句結構有以下四種: 主詞+及物動詞詞組+受詞; 主詞+不及物動詞詞組; 主詞+介詞+受詞;以及 一文句僅以一名詞詞組所構成。 6. 如申請專利範圍第1項所述之三元表示式轉換程序,其 中,三元表示式可表現之具有零代詞現象之子句結構有以 下五種: 零代詞+及物動詞詞組+受詞; 主詞+及物動詞詞組+零代詞; 零代詞+及物動詞詞組+零代詞; 零代詞+不及物動詞詞組;以及 零代詞+介詞+受詞。 7. —種處理中文自然語言文句的方法,係有關於將中文文 句中的子句,轉換為一三元表示式,此三元表示式包含三 個組成成分,分別依序對應於子句中的主詞、述詞與受 詞。 8. 如申請專利範圍第7項所述之一三元表示式,其中第二 個組成成分為一子句中主詞與受詞的關聯性。 9. 如申請專利範圍第8項所述之一子句中主詞與受詞的關 聯性,包括動詞詞組與介詞。
    第16頁 200529014 六、申請專利範圍 10.如申請專利範圍第7項所述之一三元表示式,其中,三 元表示式對應的子句,包括零代詞出現於主詞與受詞位置 的子句。 1 1. 一種處理中文自然語言文句的方法,係有關於分析文 句中所有的子句結構,以一三元表示式表現一子句的方 式,進而表現整個文句。 1 2.如申請專利範圍第1 1項所述之表現中文問句的方式, 是以一至多個三元表示式表現一中文文句,其中一至多個 三元表示式依照先後出現順序,對應至文句中的所有子
    第17頁
TW093104530A 2004-02-24 2004-02-24 Method for processing Chinese natural language sentence TW200529014A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW093104530A TW200529014A (en) 2004-02-24 2004-02-24 Method for processing Chinese natural language sentence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW093104530A TW200529014A (en) 2004-02-24 2004-02-24 Method for processing Chinese natural language sentence

Publications (1)

Publication Number Publication Date
TW200529014A true TW200529014A (en) 2005-09-01

Family

ID=52348307

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093104530A TW200529014A (en) 2004-02-24 2004-02-24 Method for processing Chinese natural language sentence

Country Status (1)

Country Link
TW (1) TW200529014A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
US9465790B2 (en) 2012-11-07 2016-10-11 International Business Machines Corporation SVO-based taxonomy-driven text analytics
CN110955748A (zh) * 2018-09-26 2020-04-03 华硕电脑股份有限公司 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465790B2 (en) 2012-11-07 2016-10-11 International Business Machines Corporation SVO-based taxonomy-driven text analytics
US9817810B2 (en) 2012-11-07 2017-11-14 International Business Machines Corporation SVO-based taxonomy-driven text analytics
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN105320644B (zh) * 2015-09-23 2018-01-02 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN110955748A (zh) * 2018-09-26 2020-04-03 华硕电脑股份有限公司 语意处理方法、电子装置以及非暂态电脑可读取记录媒体
CN110955748B (zh) * 2018-09-26 2022-10-28 华硕电脑股份有限公司 语意处理方法、电子装置以及非暂态电脑可读取记录媒体

Similar Documents

Publication Publication Date Title
Goddard et al. Meaning and universal grammar: Theory and empirical findings
CN104182535B (zh) 一种人物关系抽取方法和装置
Roberts Semantic text analysis: On the structure of linguistic ambiguity in ordinary discourse
JP2003196274A (ja) 構文解析方法及び装置
Smith et al. LILLIE: Information extraction and database integration using linguistics and learning-based algorithms
Alegria et al. TweetNorm: a benchmark for lexical normalization of Spanish tweets
Flickinger et al. The evolution of HPSG
Shivahare et al. Survey paper: study of sentiment analysis and machine translation using natural language processing and its applications
Al-Horaibi et al. Sentiment analysis of arabic tweets using semantic resources
Kaur et al. Noise estimation and removal in natural language processing
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
Walther et al. Fast development of basic NLP tools: Towards a lexicon and a POS tagger for Kurmanji Kurdish
Meyerhoff All the same? The emergence of complementizers in Bislama
Tajalli et al. Developing an informal-formal persian corpus
TW200529014A (en) Method for processing Chinese natural language sentence
Altabba et al. An Arabic morphological analyzer and part-of-speech tagger
Rehman et al. An artificial neural network approach for sentence boundary disambiguation in Urdu language text
Tajalli et al. Developing an Informal-Formal Persian Corpus: Highlighting the Differences between Two Writing Styles
Plu et al. Revealing entities from textual documents using a hybrid approach
El-Taher et al. An Arabic CCG approach for determining constituent types from Arabic Treebank
Dione Finite-state tokenization for a deep wolof lfg grammar
Du et al. Towards computing technologies on machine parsing of English and Chinese garden path sentences
Shukhoshvili Methodology of translation alignment of georgian text of plato’s “theaetetus”
Qin et al. Semantic document exchange through mediation of machine natural language
Graffi Harris, Chomsky and the origins of transformational grammar