TWI665567B - 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 - Google Patents
語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 Download PDFInfo
- Publication number
- TWI665567B TWI665567B TW107133897A TW107133897A TWI665567B TW I665567 B TWI665567 B TW I665567B TW 107133897 A TW107133897 A TW 107133897A TW 107133897 A TW107133897 A TW 107133897A TW I665567 B TWI665567 B TW I665567B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech
- word
- words
- block
- blocks
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本揭示文件提出一種語意處理方法,本方法包含以下步驟:首先根據詞庫資料庫來對輸入字串解析得到複數個字詞。接著,以這些字詞來建立斷詞表格,其中斷詞表格包含複數個表格區塊,每個表格區塊包含一個字詞或相鄰的多個字詞。參考斷詞表格的各個階層的各表格區塊的一字詞於詞庫資料庫中對應的一或多個詞性,或參考斷詞表格的各個階層的各表格區塊的多個字詞於詞庫資料庫中對應的一或多個詞性序列。根據此些詞性或詞性序列,來對各階層的每一個表格區塊執行文法規則。根據斷詞表格中符合文法規則的表格區塊來輸出剖析樹。
Description
本揭示文件係有關於語言的處理方法,特別是一種語意處理方法。
在自然語言的技術範疇,運用上結合了語言學與人工智慧。在一段輸入的句子或文章當中,首先必須以語言學對句子進行解構,從句子當中分析出更小的單位,也就是字詞,對各個字詞標註所屬的語意角色。一般而言,處理系統是以使用統計資料庫來標註語意角色,因此訓練完善的語料資料庫相形重要。然而,字詞往往不只具備一種詞性,若以統計數值來決定字詞的詞性,例如以某字詞最常出現的詞性來標註,對於出現機率相對較低的詞性之字詞,則會使得句子的解析發生錯誤,而輸出錯誤的解析結果。
根據本揭示文件之一實施例,揭示一種語意處理方法。此方法包含下述步驟:根據詞庫資料庫對輸入字串解析為複數個字詞。接著,建立斷詞表格,其中斷詞表格包含複數個表格區塊,並且此些表格區塊分別位在斷詞表格的複數個階層,此些階層各自的表格區塊逐層遞減,各個表格區塊包含此些字詞的其中一者或者此些字詞中相鄰的多個字詞。接著,參考斷詞表格的各個階層的各表格區塊的一字詞於詞庫資料庫對應的一或多個詞性,或參考斷詞表格的各個階層的各表格區塊的多個字詞於詞庫資料庫對應的一或多個詞性序列。接著,根據斷詞表格的表格區塊對應的詞性或詞性序列,對各階層的每一個表格區塊執行文法規則。以及,根據斷詞表格中符合文法規則的等表格區塊,輸出剖析樹。此剖析樹包含該些字詞在輸入字串中的詞意以及輸入字串的句型行為。
根據本揭示文件之另一實施例,揭示一種具備語意處理方法之電子裝置。電子裝置包含儲存媒體、輸入輸出介面以及處理器。儲存媒體儲存至少一程式指令以及詞庫資料庫。輸入輸出介面用以取得輸入字串。處理器耦接於儲存媒體以及輸入輸出介面,用以載入並執行儲存於儲存媒體中的至少一程式指令。處理器係用以根據詞庫資料庫對輸入字串解析為複數個字詞。接著,建立斷詞表格,其中斷詞表格包含複數個表格區塊,並且此些表格區塊分別位在斷詞表格的複數個階層,此些階層各自的表格區塊逐層遞減,各個表格區塊包含此些字詞的其中一者或者此些字詞中相鄰的多個字詞。接著,參考斷詞表格的各個階層的各表格區塊的一字詞於詞庫資料庫
對應的一或多個詞性,或參考斷詞表格的各個階層的各表格區塊的多個字詞於詞庫資料庫對應的一或多個詞性序列。接著,根據斷詞表格的表格區塊對應的詞性或詞性序列,對各階層的每一個表格區塊執行文法規則。以及,根據斷詞表格中符合文法規則的等表格區塊,輸出剖析樹。此剖析樹包含此些字詞在輸入字串中的詞意以及輸入字串的句型行為。
根據本揭示文件之又另一實施例,揭示一種非暫態電腦可讀取記錄媒體,其記錄至少一程式指令,使此些至少一程式指令在載入至電子裝置後,執行下列步驟:根據詞庫資料庫對輸入字串解析為複數個字詞。接著,建立斷詞表格,其中斷詞表格包含複數個表格區塊,並且此些表格區塊分別位在斷詞表格的複數個階層,此些階層各自的表格區塊逐層遞減,各個表格區塊包含此些字詞的其中一者或者此些字詞中相鄰的多個字詞。接著,參考斷詞表格的各個階層的各表格區塊的一字詞於詞庫資料庫對應的一或多個詞性,或參考斷詞表格的各個階層的各表格區塊的多個字詞於詞庫資料庫對應的一或多個詞性序列。接著,根據斷詞表格的表格區塊對應的詞性或詞性序列,對各階層的每一個表格區塊執行文法規則。以及,根據斷詞表格中符合文法規則的等表格區塊,輸出剖析樹。此剖析樹包含此些字詞在輸入字串中的詞意以及輸入字串的句型行為。
為讓本揭示內容之上述和其他目的、特徵、優
點與實施例能更明顯易懂,所附符號之說明如下:
100‧‧‧語意處理方法
S101~S111‧‧‧步驟
201、203、301、303、401、501、601‧‧‧斷詞表格
211、213、231、233‧‧‧階層
311、313、315、411‧‧‧階層
511、513、515、611、613‧‧‧階層
221~227、241~245‧‧‧表格區塊
321~324、331~334、342~343、421~425‧‧‧表格區塊
(0,0)、(0,1)、(0,2)、(0,3)、(0,4)、(1,0)、(1,1)、(1,2)、(1,3)、(2,0)、(2,1)、(2,2)、(3,0)、(3,1)、(4,0)‧‧‧表格區塊
800‧‧‧電子裝置
810‧‧‧處理器
820‧‧‧儲存媒體
830‧‧‧輸入輸出介面
T1、T2‧‧‧邏輯形式圖
N1、N2‧‧‧節點
以下詳細描述結合隨附圖式閱讀時,將有利於
較佳地理解本揭示文件之態樣。應注意,根據說明上實務的需求,圖式中各特徵並不一定按比例繪製。實際上,出於論述清晰之目的,可能任意增加或減小各特徵之尺寸。
第1圖繪示根據本揭示文件一些實施例中的一種語意處理方法的流程示意圖。
第2A圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。
第2B圖繪示根據本揭示文件另一些實施例中斷詞表格的示意圖。
第3A圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。
第3B圖繪示根據本揭示文件另一些實施例中斷詞表格的示意圖。
第4圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。
第5圖繪示根據本揭示文件一些實施例中執行文法規則的示意圖。
第6圖繪示根據本揭示文件一些實施例中執行文法規則的示意圖。
第7A圖-第7B圖繪示根據本揭示文件一些實施例中產生剖析結果的示意圖。
第8圖繪示根據本揭示文件之一實施例中一種電子裝置的功能方塊圖。
以下揭示內容提供許多不同實施例或實例,以便實施本發明之不同特徵。下文描述元件及排列之特定實例以簡化本發明。當然,此些實例僅為示例性且並不欲為限制性。舉例而言,以下描述中在第二特徵上方或第二特徵上形成第一特徵可包括以直接接觸形成第一特徵及第二特徵的實施例,且亦可包括可在第一特徵與第二特徵之間形成額外特徵使得第一特徵及特徵可不處於直接接觸的實施例。另外,本發明可在各實例中重複元件符號及/或字母。此重複係出於簡明性及清晰之目的,且本身並不指示所論述之各實施例及/或配置之間的關係。
進一步地,為了便於描述,本文可使用空間相對性術語(諸如「之下」、「下方」、「較低」、「上方」、「較高」及類似者)來描述諸圖中所圖示一個元件或特徵與另一元件(或多個元件)或特徵(或多個特徵)之關係。除了諸圖所描繪之定向外,空間相對性術語意欲包含使用或操作中裝置之不同定向。設備可經其他方式定向(旋轉90度或處於其他定向上)且因此可同樣解讀本文所使用之空間相對性描述詞。
一般而言,語意處理方法需要利用剖析器來分析各字詞在句子中所代表的意義與角色。採用統計法訓練模型的剖析器,普遍做法是從樹庫(treebank)的結構樹資料,訓練得到一個模型,再以這一模型去剖析新的句子,因此若是非常複雜的句子或是較少出現在樹庫中的結構樹,則會剖析失敗。另一方面,當失敗後,也不易針對剖析錯誤的句子進
行修正,因為此方式的剖析器必須擴增樹庫或是修改演算法,再重新訓練一個新模型進行測試,因此所花費的工程十分浩大且遇到的錯誤未必能修正成功。
採用文法規則為判斷標準的剖析器,一般在文法規則上的設計都相較鬆散,目的是為了維持句子能剖析通過(符合至少一個文法規則)的機率。由於文法規則的認定較寬鬆,所以鑑別句子的歧異結構的效果並不好,例如同一個句子可能同時通過兩種以上的文法規則,難以確認最適合的文法結構。
為了解決同時通過多個文法規則的問題,本揭示文件的語意處理方法100為特徵導向的剖析器,解句法歧異的能力比一般剖析器的效果更佳。
此外,一般剖析器接收到的輸入是使用者輸入的句子,進行斷詞與詞性判斷後,取最高分的組合。然而,最高分的斷詞結果未必是正確的組合,正確的組合可能是位在第二或第三高分。此外,詞性判斷的標記通常是根據訓練語料得到的模型來進行標記,若一個詞在語料庫出現的大多是動詞,模型在標記這個詞時,較高機率會將其標記成動詞,但這個詞在部分語境下,可能是作為形容詞或其他詞性使用,卻因為這個詞的詞性的機率分布而被標為動詞,因此大多數的剖析器會常遇到詞性判斷錯誤的狀況,這將會直接導致其剖析失敗,若是採用錯誤的標記結果進行剖析,則必然會讓句子剖析失敗。
為了解決上述問題,本揭示文件的語意處理方法
100可以一次接受多組斷詞結果進入剖析器且斷詞結果可以不必帶有單一固定的詞性判斷標記,剖析器會將一個詞其存在於詞庫資料庫所有的詞性判斷標記都進行考慮,最後再以文法的限制來篩選出正確的詞性標記。
第1圖繪示根據本揭示文件一些實施例中的一種語意處理方法的流程示意圖。本揭示文件的語意處理方法100用以將一段文字或文章解析為上下文語意通順且符合語言的文法規則的斷句組合。在一些實施例中,由處理元件讀取儲存於記錄單元中的程式指令來執行本揭示文件的語意處理方法100。
請參閱第1圖,首先執行步驟S101,讀取一段輸入字串。輸入的字串可以中文或英文。以中文為範例,輸入字串例如是「你要不要跟我去福利社」。以英文為範例,輸入字串例如是“What shall we do supposing it rains”。在另一些範例,輸入字串可以是一篇短/中/長篇文章,或是經由語音辨識轉換為文字敘述的一段文字。
在步驟S103,根據詞庫資料庫來對輸入的字串進行解析,而獲得複數個字詞以及各字詞其在詞庫資料庫內所有收集的詞意。在進行解析時,會先判斷輸入字串所屬的語系,而根據語系來選擇對應的詞庫資料庫。舉例來說,輸入字串為「張課員被免職了」的情況,詞庫資料庫記錄有單字集合{張、課、員、被、免、職、了},因此輸入字串經過解析之後可以產生「張/課/員/被/免/職/了」的複數個字詞(‘/’表示分開的字詞)。或者,在另一種情況,詞庫資料庫記錄有詞組集合{課員、
免職},因此輸入字串經過解析之後可以產生「張/課員/被/免職/了」的複數個字詞。此用於解析輸入字串的資料庫包含但不限於以統計或詞彙使用習慣而建立的詞彙資料庫。
值得注意的是,本揭示文件所述的「字詞」,可以是一個字或單字(word),或者兩個以上的字所組成的詞組(phrase)。因此,一段輸入字串可以被解析為一種或一種以上的字詞組合。以上述的例子來說明,所解析的結果可為「張/課/員/被/免/職/了」此一種字詞組合。或者,解析的結果可為「張/課/員/被/免/職/了」和「張/課員/被/免職/了」這兩種字詞組合。本揭示文件可根據實際情況來保留後續步驟要使用的字詞組合。若選擇了兩種或以上的字詞組合,各字詞組合都會執行後續的方法步驟。
接著執行步驟S105,根據所獲得的複數個字詞來建立斷詞表格。斷詞表格包含複數個表格區塊,並且此些表格分別位在斷詞表格的複數個階層。各階層具有表格區塊,而每個階層的表格區塊的數目會隨著階層的提升而遞減。此斷詞表格係運用CYK(Cocke-Younger-Kasami)表格,而使用本揭示文件的斷詞邏輯與文法解析而實現語意處理方法。為具體說明斷詞表格的內容,以下配合第2A圖作詳細說明。
第2A圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。如第2A圖所示,斷詞表格201包含階層211、階層213與其他更高階層,此圖例中的斷詞表格201包含七個階層。階層211包含七個表格區塊221~227。比階層211高一階的階層213包含六個表格區塊。以此類推,越高階層所包含
的表格區塊數目越少(在第七個階層只有一個表格區塊)。
繼續步驟S105,每一個表格區塊包含輸入字串中的其中一個字詞或是多個相鄰的字詞。在每一個表格區塊包含一個字詞的情況,例如「張/課/員/被/免/職/了」,則最低的階層211的表格區塊221~227分別填入字詞,即表格區塊221的對應字詞為「張」、表格區塊222的對應字詞為「課」、表格區塊223的對應字詞為「員」、表格區塊224的對應字詞為「被」、表格區塊225的對應字詞為「免」、表格區塊226的對應字詞為「職」以及表格區塊227的對應字詞為「了」,如第2A圖所示。
為具體說明斷詞表格的內容,以下配合第2B圖作詳細說明。第2B圖繪示根據本揭示文件另一些實施例中斷詞表格的示意圖。斷詞表格203包含階層231、階層233與其他更高階層,此圖例中的斷詞表格203包含五個階層。階層231包含五個表格區塊241~245。比階層231高一階的階層233包含四個表格區塊。以此類推,越高階層所包含的表格區塊數目越少(在第五個階層只有一個表格區塊)。在每一個表格區塊包含多個相鄰字詞的情況,例如「張/課員/被/免職/了」,則如第2B圖所示,最低的階層231的表格區塊241~245分別填入字詞,即表格區塊241的對應字詞為「張」、表格區塊242的對應字詞為「課員」、表格區塊243的對應字詞為「被」、表格區塊244的對應字詞為「免職」以及表格區塊245的對應字詞為「了」。
換句話說,透過對輸入字串經過解析而獲得可能
的複數個字詞,在表格區塊存在多個相鄰字詞的情況,可以事先減少字詞的數目,在建立斷詞表格的時候可事先排除不必要的字詞,而得以減少斷詞表格的大小。如此一來,可事先排除不考慮的字詞組合,而進一步地使得斷詞表格在後續進行文法規則剖析(parsing)的時候,可避免不必要的運算成本。以第2A圖與第2B圖為例,第2A圖的斷詞表格需要7*7的大小,第2B圖的斷詞表格僅需要5*5的大小,因此第2B圖在較高階層的字詞組合的文法規則剖析的時候,可以較第2A圖節省運算成本與斷詞表格的儲存空間。
請繼續參閱第1圖,在此階段中並不會對斷詞表格中的字詞來設定固定的詞性,而是會考慮各字詞在不同詞意時的詞性,例如某字詞在第一種詞意時是名詞,其機率為80%,而該字詞在第二種詞意時是動詞,其機率為15%,第三種詞意是形容詞,其機率為5%。換言之,即使該字詞是名詞的機率是80%高於動詞的15%,仍會考慮斷詞表格中各該字詞的所有詞性(如名詞、動詞、形容詞)以及詞意。接著執行步驟S107,參考(refer)斷詞表格的複數個階層中的表格區塊的其中一個字詞於詞庫資料庫中的一或多個詞性,或者參考此些表格區塊的多個字詞於詞庫資料庫中的一或多個詞性序列。其中,此些字詞具有一個或以上的詞性,且各詞性有對應的使用機率。
詳細來說,在決定出斷詞表格的大小並產生各表格區塊的對應字詞,進一步地參考各字詞的一或多個詞性,並將各字詞的一或多個詞性對應地記載於表格區塊中。對於第1
圖的步驟流程,以下配合第3A圖說明參考在斷詞表格之表格區塊所對應的詞性。第3A圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。請參閱第3A圖,輸入字串為「我想念書」。在經過前述第1圖的步驟S103,獲得斷詞表格301。斷詞表格301包含階層311。階層311包含複數個字詞321~324。本範例中,斷詞表格301為每一個表格區塊包含一個字詞的情況,即表格區塊321的對應字詞為「我」、表格區塊322的對應字詞為「想」、表格區塊323的對應字詞為「念」以及表格區塊324的對應字詞為「書」。以及,判斷表格區塊321~324的字詞所對應的詞性(part of speech,POS)。如第3A圖所示,表格區塊321的對應字詞的詞性為名詞(pos=n)(其使用機率例如是100%)、表格區塊322的對應字詞的詞性為動詞(pos=v)(其使用機率例如是70%)、表格區塊323的對應字詞的詞性為動詞(pos=v)(其使用機率例如是75%)以及表格區塊324的對應字詞的詞性為名詞(pos=n)(其使用機率例如是80%)。此外,每一個表格區塊所對應字詞可能具有一個以上的詞性,例如表格區塊324的對應字詞「書」,除了作為名詞以外,也有可能作為動詞的詞性(其使用機率例如是20%),用來描述書寫的動作,於此例中,表格區塊324所讀取的可能詞性就有名詞及動詞等兩種詞性。也就是說,在此階段的斷詞表格會參考字詞的所有詞性判斷標記,不針對各個字詞標記出對應的詞性(例如不因某詞性的使用機率高,就對字詞決定其詞性標記),而是在後續執行文法剖析時,再以文法限制來篩選出正確的詞性標記。欲說明的是,本揭示文件中關於在斷詞
表格中對應的詞性係指斷詞之後剖析器會參考的字詞的所有詞性。如此一來,剖析器可以減少產生錯誤的文法,而輸出更正確的語意句子。並且,也可以針對某些不常用的字詞詞性但在某些情況是正確文法,若直接以最常用的字詞詞性作為詞性標記來進行文法剖析,會產生錯誤的文法結果,本揭示文件提供的方法可以克服此問題,即使是同一字詞而是不常被使用的詞性,也仍然會被納入參考。
對於第1圖的步驟流程,以下配合第3B圖說明參考在斷詞表格之表格區塊所對應的詞性的實施例。第3B圖繪示根據本揭示文件另一些實施例中斷詞表格的示意圖。請參閱第3B圖,輸入字串為「我想念書」。語意處理方法100會根據實際情況來保留字詞組合。如第3B圖所示,斷詞表格303包含階層313與階層315。階層313包含表格區塊331~334,階層315包含表格區塊342~343。表格區塊331的對應字詞為「我」、表格區塊332的對應字詞為「想」、表格區塊334的對應字詞為「書」以及表格區塊333的對應字詞則保留空白。原因是,語意處理方法100在解析與「念」有關的詞組,即「想念」與「念書」時,判斷此二詞組都屬於可能使用的詞組。因此,將此二詞組同時保留,而記錄高於階層313的階層315中。如第3B圖所示,階層315的表格區塊342的對應字詞為「想念」以及表格區塊343的對應字詞為「念書」。同時,表格區塊331的對應字詞的詞性為名詞(pos=n)、表格區塊332的對應字詞的詞性為動詞(pos=v)、表格區塊334的對應字詞的詞性為名詞(pos=n)以及動詞(pos=v),以及表格區塊333不具有對應的
字詞。如此,同時保留兩個或以上的可能詞組,在後續剖析文法的時候都讓此些常用詞組進入剖析器,而相對於一開始就決定好一個斷詞結果,可避免後續產生錯誤的文法解析。
第4圖繪示根據本揭示文件一些實施例中斷詞表格的示意圖。在第4圖中揭示輸入字串“He left for good”的斷詞與詞性。請參閱第4圖,斷詞表格401包含階層411。輸入字串的各個單字“He”、“left”、“for”、“good”,對於“for good”是可被使用的片語,若沒有考慮此片語,很可能在文法剖析的時候產生錯誤的結果。如第4圖所示,表格區塊421的對應字詞為“He”、表格區塊422的對應字詞為“left”、表格區塊423的對應字詞為“for”,以及表格區塊424的對應字詞為“good”。為了使片語“for good”也能進入文法剖析,因此也在較階層411高的階層的表格區塊425中填入字詞“for good”。此外,每一個表格區塊所對應字詞可能具有一個以上的詞性,例如表格區塊424的對應字詞“good”,除了作為名詞以外,也有可能作為形容詞的詞性,用來描述「好的、有益的」,於此例中,表格區塊424所讀取的可能詞性就有名詞及形容詞等兩種詞性。也就是說,如第3A圖、第3B圖以及第4圖所示,語意處理方法100所建立的斷詞表格301、斷詞表格303以及斷詞表格401的表格區塊中的字詞可能會有多種詞意,各該種詞意會對應地具有不同的詞性,因此表格區塊中的字詞不侷限於一個詞性,只要是被斷詞出來的字詞的所有可能的詞性都會被列入,使得在後續執行文法規則之文法剖析的時候可以考慮到所有可能的詞意及詞性。
請繼續參閱第1圖,接著執行步驟S109,根據斷詞表格的表格區塊對應的字詞、詞性或詞性序列,對各階層的每一個表格區塊執行文法規則。以下將說明本揭示文件的文法規則在語意處理方法的運作。在一些實施例中,本揭示文件對於斷詞表格的語意處理方法,係於斷詞表格中由左而右、由下至上依序對表格區塊的對應字詞與詞性進行剖析。
在一些實施例中,語意處理方法的文法規則包含將輸入字串解析為複數個字詞,並判斷輸入字串中具有至少一個預設詞組時,將預設詞組放置於斷詞表格的表格區塊的其中一者,其中預設詞組包含兩個以上的字詞。
第5圖繪示根據本揭示文件一些實施例中執行文法規則的示意圖。本揭示文件的文法規則考慮了字詞與字詞之間的關係以及特徵規則,對於可以成組的複數個字詞,在執行文法規則剖析的時候,會將這些複數個字詞組合成為一個新的字詞,並以此新的字詞取代原本未成組的複數個字詞。在進入文法剖析時,則以此新的字詞執行句子的語法解析。請參閱第5圖,此範例的輸入字串為「他是不是老師」。如第1圖所示的步驟S103,根據詞庫資料庫對「他是不是老師」此輸入字串解析後獲得五個字詞,即「他」、「是」、「不」、「是」、「老師」。在此例中,字詞的詞組「是不是」是預設詞組。因此,如第5圖所示的斷詞表格501,在階層511的表格區塊(0,0)填入「他」、表格區塊(0,1)填入「是」表格區塊(0,2)填入「不」、表格區塊(0,3)填入「是」、表格區塊(0,4)填入「老師」。接著,判斷第一階層511的相鄰字詞的組合是否存在預設詞組,
第一階層511的兩個相鄰字詞的組合,即詞組組合「是不」與「不是」。如本範例,經判斷「是不」與「不是」不含有預設詞組「是不是」,則在下一個階層513中分別填入前一個階層511的對應表格區塊與相鄰表格區塊的字詞的組合。如第5圖所示,階層513的表格區塊(1,1)考慮前一個階層511的對應表格區塊(0,1)與其相鄰的表格區塊(0,2)的字詞組合,因此在表格區塊(1,1)填入字詞詞組「是不」。以及,階層513的表格區塊(1,2)考慮前一個階層511的對應表格區塊(0,2)與其相鄰的表格區塊(0,3)的字詞組合,因此在表格區塊(1,2)填入字詞詞組「不是」。
接續前面說明,判斷階層513的相鄰字詞的組合是否存在預設詞組,即詞組組合「是不是」。此時,因「是不是」符合預設詞組,因此將詞組組合「是不是」填入階層515的表格區塊(2,1)。因為找到「是不是」此預設詞組,代表在所有的可能字詞「是」、「不」、「是」、「是不」、「不是」、「是不是」,是希望以「是不是」作為輸入字串「他是不是老師」的一個斷詞。因此,斷詞表格501不再需要考慮「是不是」以外的字詞,而進一步地將斷詞表格501中的一些字詞或詞組清除,即刪除表格區塊(0,1)、表格區塊(0,2)、表格區塊(0,3)、表格區塊(1,1)以及表格區塊(1,2)的對應字詞「是」、「不」、「是」、「是不」、「不是」。在後續進行文法規則判斷的時候,其他的表格區塊就不再考慮與此些字詞組合,例如不再考慮組合「他是不」、「不是老師」等。
如此,本揭示文件可以即時地對斷詞表格的每個
內容的詞組組合進行調整,刪除不必要的詞組組合,藉以減少未來在運算剖析樹的運算量。
在一些實施例中,語意處理方法的文法規則包含判斷是否存在P節點(Pnode),以在執行文法規則時若讀取到P節點,則暫時通過當前的文法規則。以及,在前述讀取到P節點而暫時通過當前的文法規則後,若在另一文法規則中讀取到P節點的節點詞,則進一步地回來重新讀取先前暫時通過的文法規則,判斷該節點詞是否符合先前暫時通過的文法規則,詳細說明如下。
第6圖繪示根據本揭示文件一些實施例中執行文法規則的示意圖。請參閱第6圖,斷詞表格601包含階層611與階層613。此範例中,輸入字串為“She is a beautiful girl”。在階層611的表格區塊(0,0)的對應字詞“She”、表格區塊(0,1)的對應字詞“is”、表格區塊(0,2)的對應字詞“a”、表格區塊(0,3)的對應字詞“beautiful”以及表格區塊(0,4)的對應字詞“girl”。P節點可以為程式碼中的資料結構,以下將說明本揭示文件如何運用P節點來判斷哪些是符合文法規則的字詞。
如第6圖所示,在表格區塊(0,3)的對應字詞是詞性為形容詞的“beautiful”。在此區塊中執行文法規則:“Adjpc(Pos.Pnode==n?Role.Pnode=MOD)->Adjp;”。在此文法規則中讀取到P節點的詞性是否為名詞的判斷條件,若P節點詞組的詞性為n,則會指派特徵Role=MOD至P節點詞組中,此處的「?」為條件運算子(Conditional Operator),即左側條件成立後,執行右側功能,然而,在此時並不知道P節點
的字詞與詞性為何,無法判斷文法規則是否符合,因此暫時通過此文法規則並保留此P節點的判斷條件。接著,表格區塊(0,4)對應的字詞是詞性為名詞的“girl”。到了表格區塊(1,3),在此區塊中執行文法規則:“NHxa(Head=NHxa,Pnode=NHxa,Cnode=NHxa)->Adjpc+NHxa;”。在此文法規則中讀取到P節點的節點詞(NHxa),此時可以回到先前暫時通過的文法規則而重新判斷文法規則是否成立,即“Adjpc(Pos.NHxa==n?Role.Pnode=MOD)->Adjp;”。由於文法規則成立,而可完成Role.Pnode=MOD的語意角色的指派。換言之,P節點用於判斷某個未知的字詞,而在當下執行文法判斷時先不予處理,留至未來讀取到P節點的相關字詞時,才回到先前的文法規則進行判斷與相對應的資料指派。
如此一來,本揭示文件可解決無法馬上判斷語意表達但卻必須當下就執行文法剖析的問題,透過P節點的配置,保留了條件的判斷,允許在更高階層或更後面的表格區塊才指派P節點的節點詞,讓上層的文法規則來重新判斷P節點與其他字詞的文法關係,使得文法剖析可達成提高精準度的功效。除此之外,本揭示文件可透過P節點在文法剖析階段直接指派語意角色,提升建置剖析樹的效率。
在一些實施例中,語意處理方法的文法規則包含判斷斷詞表格的各階層的表格區塊的左邊表格區塊對應的詞性是否符合設定詞性。舉例來說,文法規則“Pos.LWord[n]==p”用來判斷文法所組成的子樹的左邊的第n個字詞,其詞性特徵(POS)是否為p。另一範例中,文法規則
“Ltokens==V+N”屬於一種未來的比較,用來判斷此文法結果未來將與其他表格區塊的結果進行組合時,必須左方的組合為V+N。例如在Qword的文法結果安插了Ltokens==V+N作為未來判斷,當有一條文法“S->V+N+Qword”,這時會進行Qword內Ltokens的比較,成立後才能組成S。
在一些實施例中,語意處理方法的文法規則包含考慮斷詞表格的一些被指定的表格區塊的所有詞性,並判斷所有詞性中是否存在符合或不符合的設定詞性。舉例來說,輸入字串「你的頭髮和他一樣好看」,並產生斷詞V1「一樣」與斷詞V2「好看」。將此輸入字串使用以下文法規則來判斷:“V(head=V2,_Pos.V1!=adv)->V1(V_type==vh11)+V2(V_type==vh11);”,此時在判斷式“_Pos.V1!=adv”中會考慮斷詞V1從詞庫資料庫取出的所有詞性(POS)是否包含副詞(adv),並判斷出斷詞V1的所有詞性不包含副詞時,可以通過判斷條件。由於詞彙「一樣」於我們所維護的詞庫資料內,並沒有副詞的用法,因此輸入字串「你的頭髮和他一樣好看」可以通過文法規則的條件判斷。如此,本揭示文件提供可限制某一些斷詞的詞性判斷,提升在文法解析的彈性度。
在一些實施例中,語意處理方法的文法規則包含判斷斷詞表格的各階層的表格區塊的右邊表格區塊對應的詞性是否符合設定詞性。舉例來說,文法規則“Word.RWord[n]==好”用來判斷文法所組成的子樹的右邊的第n個字詞,其字詞特徵是否為“好”。另一範例中,文法規則“Rtokens==P+NP”屬於一種未來比較,用來判斷此文法結果
未來將與其他表格區塊的結果進行組合時,必須右方的組合為P+NP。
在一些實施例中,語意處理方法的文法規則包含判斷表格區塊所使用的字詞組合在某個位置的表格區塊所對應的詞性,是否為所設定詞性。舉例來說,文法規則“Pos.Tokens[-1]==n”用來判斷文法所組成的子樹的最後一個字詞的詞性是否為名詞。
在一些實施例中,語意處理方法的文法規則包含判斷斷詞表格的表格區塊對應的相鄰字詞的詞性符合設定詞性時,判斷相鄰字詞為一個詞組。設定詞性可為字詞的語意特徵,例如抽象名詞或實體名詞。舉例來說,考慮以下兩個輸入字串:He lost the interest in life.以及He shook his head in grief.此兩個句子有同樣的句子結構,但介係詞“in”在此兩個輸入字串中會產生兩種不同的意思。我們使用以下兩個文法規則,
文法規則一:“S(Head=VP,fltype.NP==abstract,POfeature.PP==abstract,edge.NP-PP=RANGE)->VP+NP+PP”。
文法規則二:“S(Head=VP,fltype.NP==physical,POfeature.PP==abstract,edge.VP-PP=RANGE)->VP+NP+PP”。
文法規則一表示,若介係詞的左邊與右邊都是抽象名詞,則介係詞會修飾左邊的抽象名詞。文法規則二表示,若介係詞的左邊是實體名詞而右邊是抽象名詞,則介係詞會與抽象名詞組成
詞組而修飾動詞。例如,前述的兩個輸入字串在經過文法規則一與文法規則二的剖析之後,輸入字串“He lost the interest in life.”會通過文法規則一,而輸入字串“He shook his head in grief.”會通過文法規則二。
再舉例來說,考慮以下兩個輸入字串:I eat the pizza with fork.以及I eat the pizza with pineapple.此兩個句子有同樣的句子結構,但介係詞“with”在此兩個輸入字串中會產生兩種不同的意思,即“with fork”以及“with pineapple”。前者指使用叉子來吃披薩,“with fork”用來修飾動詞“eat”,後者則是指披薩上有鳳梨,“with pineapple”用來修飾名詞“pizza”。因此,在文法規則中加入設定詞性來對相同句型結構的句子進行解析。我們使用以下兩個文法規則:
文法規則三:“S(Head=VP,type.NP==food,POfeature.PP==comestible,edge.NP-PP=RANGE)->VP+NP+PP”。
文法規則四:“S(Head=VP,type.NP==food,POfeature.PP==instrument,edge.VP-PP=RANGE)->VP+NP+PP”。
文法規則三表示,若介係詞右側的名詞的詞意特徵為器具類名詞,則介係詞會與右邊名詞組成詞組來修飾動詞;文法規則四表示,若介係詞右側的名詞的詞意特徵為可食用食物類名詞,則介係詞會與右邊名詞組成詞組來修飾左側的名詞。例如,前述的兩個輸入字串在經過文法規則三與文法規則四的剖析之
後,輸入字串“I eat the pizza with fork.”會通過文法規則三,而輸入字串“I eat the pizza with pineapple.”會通過文法規則四。
如此,透過前述的多個文法規則範例來判斷相鄰字詞的詞性符合設定詞性時,可決定詞組的組成,也可對表格區塊的多個字詞來決定對應的詞性序列,可解決在剖析輸入字串的時候,對於一個字詞有多個詞意所產生的歧義(Ambiguity)的問題。
在一些實施例中,語意處理方法的文法規則包含判斷在產生多個字詞對應的多個詞性序列時,可進一步篩選不適合的詞性序列。舉例來說,文法規則“SS(Word.Subj@S==not)->S”可判斷表格區塊的右邊的子樹S與後代子樹Subj是否有“not”此詞彙。若判斷結果為是,則保留該詞性序列。如此,本揭示文件在考慮多種詞彙的詞性的情況下,在後續產生多個可能的詞性序列時,還可以進一步在產生剖析結果之前篩選掉不適合(例如不符合語言表述邏輯或人性化表達)的剖析樹,藉以減少未來在運算剖析樹的運算量。
請繼續參閱第1圖,接著在步驟S111中,根據斷詞表格中符合文法規則的表格區塊來輸出剖析樹。舉例來說,各個文法規則具有對應的權重值,對於符合文法規則的表格區塊就對應地加總權重值。因此,在執行完所有文法規則後,可以得到至少一個剖析樹,且各剖析樹具有對應的權重值總和。語意處理方法100會選出最高的權重值總和,作為輸出的剖析
樹並同時輸出此最高分的剖析樹的邏輯形式圖(Logical Form Graph)。
第7A圖-第7B圖繪示根據本揭示文件一些實施例中產生剖析結果(剖析樹的邏輯形式圖T1或剖析樹的邏輯形式圖T2)的示意圖。
以下為輸入字串「我喜歡安靜的環境」作說明。經過語意處理方法所產生的剖析結果,包含輸入字串的詞意與輸入字串的句型行為。如第7A圖所示,邏輯形式圖T1的節點N1表示句型行為,TELL則表示此句型行為屬於直述句。在剖析的過程中會決定出節點的詞意(例如「我」、「喜歡」等等)。而在節點與節點之間的連線則為語意角色(如content、main、goal_dob、mod、experiencer分別代表節點之間的語意角色)。舉例來說,節點「喜歡」屬於心靈感知(experiencer)的動詞,因此在最後剖析完成後,會指派語意角色連線到「喜歡」的主詞,也就是節點「我」。
以下以另一輸入字串「他是你爸爸嗎?」說明剖析樹的詞意與句型行為。如第7B圖所示的邏輯形式圖T2,節點N2表示句型行為,QUES_YN則表示此句型行為屬於疑問句。相類似於第7A圖的說明,在剖析的過程中會決定出節點的詞意(例如「是」、「爸爸」等等),而在節點與節點之間的連線則為語意角色(如content、main、theme、predicate、ssoc_poss、ques_word分別代表節點之間的語意角色)。
請一併參閱第8圖,其繪示根據本揭示文件之一實施例中一種電子裝置800的功能方塊圖,電子裝置800包含
處理器810、儲存媒體820以及輸入輸出介面830。處理器810耦接至儲存媒體820以及輸入輸出介面830。處理器810配合程式指令(可以是軟體或韌體)用以執行第1圖及上述實施例中的語意處理方法100。
使用者可以藉由輸入輸出介面830將要處理的文字、語音、檔案內容輸入至電子裝置800。當電子裝置800產生對應輸入句子的剖析樹之後,電子裝置800可以對使用者的輸入做出正確的反應或是後續處理,例如電子裝置800可以理解使用者的語意並自動產生回覆對話內容,或者電子裝置800可以理解使用者的輸入指令,幫忙使用者撥打電話、設定鬧鐘、回覆簡訊、買賣商品、語言翻譯等應用。
程式指令可被儲存於儲存媒體820中。儲存媒體820可為隨機存取記憶體(Random Access Memory,RAM)、唯獨記憶體(Read-Only Memory,ROM)、固態硬碟(Solid State Drive,SSD)或其他電腦可讀取記錄媒體的類似元件。處理器810可為中央處理器(Central Processing Unit,CPU)、系統單晶片(System on Chip,SoC)、應用處理器、數位訊號處理器(digital signal processor)或特定功能的處理晶片或控制器,本揭示文件的語意處理方法100可以任何種類的程式語言來實現。於一實施例中,本揭示文件提出一種非暫態電腦可讀取記錄媒體,非暫態電腦可讀取記錄媒體記錄上述程式指令,上述程式指令在載入電子裝置800後可以用來執行先前實施例中的語意處理方法100。
綜上所述,有別於一般的電子裝置執行語意解析
時,在建置斷詞表格的時候就同時標註各斷詞的詞性之後立即進入文法剖析,本揭示文件之語意處理方法及使用此方法的電子裝置在運用斷詞表格的基礎上,在進入文法剖析之前考慮了多種斷詞的可能,將可能的字詞都納入文法剖析計算。因此,本揭示文件的語意處理方法及使用此方法的電子裝置進行文法剖析時,可以同時剖析多種斷詞組合的詞意與詞性,讓電子裝置得出的文法剖析的結果更精確,電子裝置可以更正確的判斷使用者輸入的語句含意。此外,本揭示文件的語意處理方法及使用此方法的電子裝置提供的文法規則,可事先過濾掉不需要被考慮的字詞、詞意組合或詞性組合,可減少句子結構的歧異,解決詞意消歧(Word Sense Disambiguation,WSD)問題。並且,本揭示文件的語意處理方法及使用此方法的電子裝置可在文法剖析階段賦予語意角色,使得最後可以產生正確的剖析樹,增加剖析結果的正確性。
上文概述若干實施例之特徵,使得熟習此項技術者可更好地理解本發明之態樣。熟習此項技術者應瞭解,可輕易使用本發明作為設計或修改其他製程及結構的基礎,以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。熟習此項技術者亦應認識到,此類等效結構並未脫離本發明之精神及範疇,且可在不脫離本發明之精神及範疇的情況下產生本文的各種變化、替代及更改。
Claims (20)
- 一種語意處理方法,適用於一電子裝置,該方法包含:根據一詞庫資料庫對一輸入字串解析為複數個字詞;建立一斷詞表格,其中該斷詞表格包含複數個表格區塊,並且該些表格區塊分別位在該斷詞表格的複數個階層,該些階層各自的該些表格區塊逐層遞減,該些表格區塊每一者包含該些字詞的其中一者或者該些字詞中相鄰的多個字詞;參考該斷詞表格的該些階層中的該些表格區塊的其中一字詞於該詞庫資料庫中對應的一或多個詞性或參考該些表格區塊的多個字詞於該詞庫資料庫中對應的一或多個詞性序列;根據該斷詞表格的該表格區塊對應的該一或多個詞性或該一或多個詞性序列,對各該階層的每一個表格區塊執行一文法規則;以及根據該斷詞表格中符合該文法規則的該些表格區塊,輸出一剖析樹,該剖析樹包含該些字詞在該輸入字串中的一詞意以及該輸入字串之一句型行為。
- 如請求項1所述之語意處理方法,其中將該輸入字串解析為複數個字詞包含判斷該輸入字串中具有至少一預設詞組時,將該預設詞組放置於該斷詞表格的該表格區塊的其中一者,其中該預設詞組包含兩個以上的該字詞。
- 如請求項1所述之語意處理方法,其中該文法規則包含判斷該斷詞表格的各該階層的該表格區塊的一左邊表格區塊對應的該詞性是否符合一設定詞性。
- 如請求項1所述之語意處理方法,其中該文法規則包含判斷該斷詞表格的各該階層的該表格區塊的一右邊表格區塊對應的該詞性是否符合一設定詞性。
- 如請求項1所述之語意處理方法,其中該文法規則包含判斷該表格區塊所使用的一字詞組合在一指定位置的該表格區塊所對應的該詞性,是否符合一設定詞性。
- 如請求項1所述之語意處理方法,其中該文法規則包含判斷一P節點(Pnode),在執行該文法規則而讀取到該P節點時,暫時通過該文法規則。
- 如請求項6所述之語意處理方法,其中讀取到該P節點而暫時通過該文法規則後,以另一文法規則中的該P節點的一節點詞判斷該節點詞是否符合先前暫時通過的該文法規則。
- 如請求項1所述之語意處理方法,其中該文法規則包含判斷該斷詞表格的該表格區塊對應的相鄰字詞的該詞性符合一設定詞性時,判斷該相鄰字詞為一詞組。
- 如請求項1所述之語意處理方法,其中該文法規則具有一權重值,於該斷詞表格的該表格區塊對應的該詞性或該詞性序列符合文法規則時,加總該權重值,以及輸出具有最高的該權重值的該剖析樹。
- 如請求項1所述之語意處理方法,其中將該輸入字串解析為該複數個字詞的一斷詞數目為該斷詞表格的該表格區塊的數目。
- 一種電子裝置,包含:一儲存媒體,儲存至少一程式指令以及一詞庫資料庫;一輸入輸出介面,用以取得一輸入字串;以及一處理器,耦接該儲存媒體以及該輸入輸出介面,該處理器載入並執行儲存於該儲存媒體中的該至少一程式指令,該處理器用以:根據該詞庫資料庫對該輸入字串解析為複數個字詞;建立一斷詞表格,其中該斷詞表格包含複數個表格區塊,並且該些表格區塊分別位在該斷詞表格的複數個階層,該些階層各自的該些表格區塊逐層遞減,該些表格區塊每一者包含該些字詞的其中一者或者該些字詞中相鄰的多個字詞;參考該斷詞表格的該些階層中的該些表格區塊的其中一字詞對應於該詞庫資料庫中的一或多個詞性或參考該些表格區塊的多個字詞於該詞庫資料庫中對應的一或多個詞性序列;根據該斷詞表格的該表格區塊對應的該一或多個詞性或該一或多個詞性序列,對各該階層的每一個表格區塊執行一文法規則;以及根據該斷詞表格中符合該文法規則的該些表格區塊,輸出一剖析樹,該剖析樹包含該些字詞在該輸入字串中的一詞意以及該輸入字串之一句型行為。
- 如請求項11所述之電子裝置,其中該處理器還用以判斷該輸入字串中具有至少一預設詞組時,將該預設詞組放置於該斷詞表格的該表格區塊的其中一者,其中該預設詞組包含兩個以上的該字詞。
- 如請求項11所述之電子裝置,其中該處理器還用以判斷該斷詞表格的各該階層的該表格區塊的一左邊表格區塊對應的該詞性是否符合一設定詞性。
- 如請求項11所述之電子裝置,其中該處理器還用以判斷該斷詞表格的各該階層的該表格區塊的一右邊表格區塊對應的該詞性或一指定位置的該表格區塊對應的該詞性是否符合一設定詞性。
- 如請求項11所述之電子裝置,其中該處理器還用以判斷一P節點(P node),在執行該文法規則而讀取到該P節點時,暫時通過該文法規則。
- 如請求項15所述之電子裝置,其中該處理器還用以在讀取到該P節點而暫時通過該文法規則後,以另一文法規則中的該P節點的一節點詞判斷該節點詞是否符合先前暫時通過的該文法規則。
- 如請求項11所述之電子裝置,其中該處理器還包含判斷該斷詞表格的該表格區塊對應的相鄰字詞的該詞性符合一設定詞性時,判斷該相鄰字詞為一詞組。
- 如請求項11項所述之電子裝置,其中該文法規則具有一權重值,該處理器還用以於判斷該斷詞表格的該表格區塊對應的該詞性或該詞性序列符合文法規則時加總該權重值,以及輸出具有最高的該權重值的該剖析樹。
- 如請求項11所述之電子裝置,其中該處理器還用以將該輸入字串解析為該複數個字詞的一斷詞數目為該斷詞表格的該表格區塊的數目。
- 一種非暫態電腦可讀取記錄媒體,該非暫態電腦可讀取記錄媒體記錄至少一程式指令,該至少一程式指令應用於一電子裝置,在該至少一程式指令載入該電子裝置後,執行下列步驟:根據一詞庫資料庫對一輸入字串解析為複數個字詞;建立一斷詞表格,其中該斷詞表格包含複數個表格區塊,並且該些表格區塊分別位在該斷詞表格的複數個階層,該些階層各自的該些表格區塊逐層遞減,該些表格區塊每一者包含該些字詞的其中一者或者該些字詞中相鄰的多個字詞;參考該斷詞表格的該些階層中的該些表格區塊的其中一字詞於該詞庫資料庫中對應的一或多個詞性或參考該些表格區塊的多個字詞於該詞庫資料庫中對應的一或多個詞性序列;根據該斷詞表格的該表格區塊對應的該一或多個詞性或該一或多個詞性序列,對各該階層的每一個表格區塊執行一文法規則;以及根據該斷詞表格中符合該文法規則的該些表格區塊,輸出一剖析樹,該剖析樹包含該些字詞在該輸入字串中的一詞意以及該輸入字串之一句型行為。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107133897A TWI665567B (zh) | 2018-09-26 | 2018-09-26 | 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 |
US16/576,903 US11501077B2 (en) | 2018-09-26 | 2019-09-20 | Semantic processing method, electronic device, and non-transitory computer readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107133897A TWI665567B (zh) | 2018-09-26 | 2018-09-26 | 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI665567B true TWI665567B (zh) | 2019-07-11 |
TW202013217A TW202013217A (zh) | 2020-04-01 |
Family
ID=68049566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107133897A TWI665567B (zh) | 2018-09-26 | 2018-09-26 | 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11501077B2 (zh) |
TW (1) | TWI665567B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563385B (zh) * | 2020-04-30 | 2023-12-26 | 北京百度网讯科技有限公司 | 语义处理方法、装置、电子设备和介质 |
CN112528671A (zh) * | 2020-12-02 | 2021-03-19 | 北京小米松果电子有限公司 | 语义分析方法、装置以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200630827A (en) * | 2005-02-23 | 2006-09-01 | Hsin-Hsi Chen | Chinese opinion retrieval and extraction systems |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
TW201740293A (zh) * | 2016-05-13 | 2017-11-16 | 國立雲林科技大學 | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3476237B2 (ja) * | 1993-12-28 | 2003-12-10 | 富士通株式会社 | 構文解析装置 |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
US6223150B1 (en) * | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6721697B1 (en) * | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US7158930B2 (en) * | 2002-08-15 | 2007-01-02 | Microsoft Corporation | Method and apparatus for expanding dictionaries during parsing |
US7546234B1 (en) * | 2003-01-08 | 2009-06-09 | Xambala, Inc. | Semantic processing engine |
US7464024B2 (en) * | 2004-04-16 | 2008-12-09 | International Business Machines Corporation | Chinese character-based parser |
CN101446941A (zh) | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种基于历史信息的自然语言层次句法分析方法 |
KR101309839B1 (ko) * | 2009-12-02 | 2013-09-23 | 한국전자통신연구원 | 통계정보를 이용한 규칙 기반 구문분석 장치 및 방법 |
CN102184262A (zh) | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN103186522B (zh) | 2011-12-29 | 2018-01-26 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
-
2018
- 2018-09-26 TW TW107133897A patent/TWI665567B/zh active
-
2019
- 2019-09-20 US US16/576,903 patent/US11501077B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200630827A (en) * | 2005-02-23 | 2006-09-01 | Hsin-Hsi Chen | Chinese opinion retrieval and extraction systems |
TW201740293A (zh) * | 2016-05-13 | 2017-11-16 | 國立雲林科技大學 | 資訊分析裝置與方法、應用軟體及電腦可讀取儲存媒體 |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200097549A1 (en) | 2020-03-26 |
TW202013217A (zh) | 2020-04-01 |
US11501077B2 (en) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leacock et al. | Automated grammatical error detection for language learners | |
Sak et al. | Morphological disambiguation of Turkish text with perceptron algorithm | |
Jensen et al. | Natural language processing: the PLNLP approach | |
JP2000513843A (ja) | 辞書に基づく品詞確率による自然言語パーザ | |
Lee et al. | A discriminative model for joint morphological disambiguation and dependency parsing | |
US20150178271A1 (en) | Automatic creation of a semantic description of a target language | |
MacWhinney | Enriching CHILDES for morphosyntactic analysis | |
Brants et al. | Tagging grammatical functions | |
TWI665567B (zh) | 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 | |
Abdulrahman et al. | A language model for spell checking of educational texts in Kurdish (Sorani) | |
US20180322111A1 (en) | Method for parsing natural language text with constituent construction links | |
JP2004005641A (ja) | 単語の使用を訂正または改善させる方法および装置 | |
Muischnek et al. | Dependency parsing of Estonian: Statistical and rule-based approaches | |
Kuboň | Problems of robust parsing of Czech | |
Ehsan et al. | Statistical Parser for Urdu | |
Sajjad | Statistical part of speech tagger for Urdu | |
Zavrel et al. | Feature-Rich Memory-Based Classification for Shallow NLP and Information Extraction. | |
CN110955748B (zh) | 语意处理方法、电子装置以及非暂态电脑可读取记录媒体 | |
L’haire | FipsOrtho: A spell checker for learners of French | |
Lapponi | Why Not!: Sequence Labeling the Scope of Negation Using Dependency Features | |
Gebre | Part of speech tagging for Amharic | |
Huang | An evaluation of POS taggers for the CHILDES corpus | |
MacKinlay | Pushing the boundaries of deep parsing | |
MOUKRIM et al. | The correction of the grammatical case endings errors in Arabic language | |
Kloppenburg et al. | Native-data models for detecting and correcting errors in learners’ Dutch |