TW202121230A - 自然語言處理方法與其計算裝置 - Google Patents
自然語言處理方法與其計算裝置 Download PDFInfo
- Publication number
- TW202121230A TW202121230A TW109140262A TW109140262A TW202121230A TW 202121230 A TW202121230 A TW 202121230A TW 109140262 A TW109140262 A TW 109140262A TW 109140262 A TW109140262 A TW 109140262A TW 202121230 A TW202121230 A TW 202121230A
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- input
- collocation
- input word
- words
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
一種自然語言處理方法,包含:接收多個輸入字;以及根據一資料庫內的多個集合,簡化該多個輸入字,以形成一或多個主體詞資料結構,其中該一或多個主體詞資料結構之一包含該多個輸入字之中的一第一輸入詞與一第二輸入詞,其中該多個集合之一包含該第一輸入詞與該第二輸入詞的搭配關係,其中該第一輸入詞與該第二輸入詞的該搭配關係包含一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第二輸入詞出現的強度。
Description
本申請係關於自然語言處理,特別係關於利用計算機以簡化方式來處理自然語言。
傳統的自然語言分析工具(如剖析器,中文斷詞等)比較偏重語法,然而有些語言(譬如:中文)文法相當鬆散,網路上的口語夾雜著大量的省略,次序調換和不合文法的語句,學術界正規訓練的剖析系統很難處理,必需考慮大量的語意訊息才能進行正確的剖析,瞭解句意。即便是最基本的中文的斷詞系統,沒有適度考慮語意,也可能犯下許多莫名的錯誤。譬如:一 台大 冰箱;還 要 幾 張才 夠?(錯誤的斷詞由「台大」和「張才」這兩個專名造成)。
在現代人經常使用的電子產品當中,自然語言的語音輸入以及語音輸出已經成為重要的輸入及輸出方法,也是控制電子計算機的人機介面之一。因此,需要一種能夠較為正確地判斷句子語意的方法,以便能夠正確地從輸入的音節當中選字、剖析不合乎文法的口語化語言,進一步能夠進行較正確的機器翻譯,或者將結果以自然語言輸出。
為了更正確的自然語言的語意分析,以便能夠在多個可能的文意當中較為準確地找出正確的文意,本申請提供一種自然語言處理方法與用於自然語言處理的計算裝置,透過資料庫內的搭配關係和標籤序列,利用遞迴的方式將輸入的語句簡化成依存剖析樹所構成的語意結構。當可以形成上述的語意結構時,表示語意分析出的文意無誤。
由於詞與詞之間的多個搭配關係是否存在於資料庫內可以是事先已知的,因此當計算機實行該自然語言處理方法,其結果是確定性的(deterministic)。此外,由於是利用遞迴(recursive)的方式來進行簡化,不是利用窮舉的方式來考慮所有可能性,所以可以減少該自然語言處理方法的計算複雜度。再者,該自然語言處理方法的簡化不是單純地利用詞性的組合進行簡化,也不局限於相鄰的N個字組成的N-gram次數或頻率進行簡化,而是可以根據語境所指涉的語意的搭配關係來進行簡化,使得語意結構可以是有意義的。
根據本申請的一面向,提供一種自然語言處理方法,包含:接收多個輸入字;以及根據一資料庫內的多個集合,簡化該多個輸入字,以形成一或多個主體詞資料結構,其中該一或多個主體詞資料結構之一包含該多個輸入字之中的一第一輸入詞與一第二輸入詞,其中該多個集合之一包含該第一輸入詞與該第二輸入詞的搭配關係,其中該第一輸入詞與該第二輸入詞的該搭配關係包含一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第二輸入詞出現的頻率、次數或強度。
更進一步的,為了簡化具有多個搭配詞的主體詞,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集
合之另一集合包含該第二輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第二輸入詞的子節點。
更進一步的,為了簡化具有片語或子句的主體詞,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集合之另一集合包含該第一輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第一輸入詞的子節點。
更進一步的,為了彌補資料庫內所含的搭配關係不足,可以利用主體論來形成搭配關係,其中該多個主體詞資料結構之另一包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該第三輸入詞與該第四輸入詞分別對應到主體論的同一階層或上下階層,該多個集合當中並不包含該第三輸入詞與第四輸入詞的搭配關係。
更進一步的,為了辨識與簡化專有名詞、時間片語、空間片語或固定格式的文意,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該資料庫更包含一標籤序列,該標籤序列包含依序排列的該第三標籤與該第四標籤。
更進一步的,為了辨識與簡化遞迴形式組成的專有名詞、時間片語、空間片語或固定格式的文意,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列與一第二標籤序列,該第一標籤序列包含依序排列的該第三標籤與該第二標籤序列,該第二標籤序列包含依序排列的該第四標籤與該第五標籤。
更進一步的,為了簡化具有未知詞的專有名詞,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列,該第一標籤序列包含依序排列的該第三標籤、一第四標籤與該第五標籤,其中該第四輸入詞不在該多個集合當中的任何一個搭配關係中。
更進一步的,為了更精確地進行語意分析、機器翻譯與彌補資料庫內所含的搭配關係不足,其中該多個集合之一更包含一詞、與該詞搭配的一或多個搭配詞、以及下列集合屬性的其中之一或其任意組合:記載該詞之詞性的集合屬性;記載該詞表示語言的集合屬性;以及記載該詞屬於主體論之階層的集合屬性。
更進一步的,為了更精確地進行語意分析、機器翻譯與彌補資料庫內所含的搭配關係不足,其中該多個集合之一的搭配關係更包含下列搭配屬性的其中之一或其任意組合:記載該搭配關係中的一詞與該搭配詞的先後次序的搭配屬性;記載該詞與該搭配詞是否必須緊鄰的搭配屬性;記載該詞與該搭配詞的詞界的搭配屬性;記載該搭配詞表示語言的搭配屬性;記載該搭配詞是否為標籤的搭配屬性;記載該搭配詞屬於主體論之階層的搭配屬性;以及記載該搭配詞之詞性的搭配屬性。
更進一步的,為了更精確地利用語意結構來進行語意分析,該自然語言處理方法更包含:尋找該一或多個主體詞資料結構當中的一主體動詞資料結構;當找到該主體動詞資料結構時,根據該主體動詞資料結構的動詞框架,形成樹狀結構的一語意結構;以及當找不到該主體動詞資料結構時,根據該一或多個主體資料結構形成森林型態的該語意結構,其中該語意結構包含所有的該一或多個主體詞資料結構。
更進一步的,本申請可以適用於以兩種語言表示的複數個字,其中該多個輸入字當中的至少一個輸入詞以第一語言來表示,該多個輸入字當中的另一個輸入詞以第二語言來表示。
更進一步的,為了進行機器翻譯,該自然語言處理方法更包含:將該語意結構內的每一個以第一語言表示的該輸入詞,翻譯成以第二語言表示的該輸入詞;以及根據具有以第二語言表示的該多個輸入字的該多個集合中的多個搭配關係,將該語意結構內的所有的該多個輸入字排列組成以第二語言表示的一序列。
更進一步的,為了利用資料庫中的搭配關係進行更準確的翻
譯,其中該多個集合之一包含該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係,該翻譯步驟係根據該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係來進行。
更進一步的,為了利用搭配關係的強度來解決具有歧異的相依剖析樹的情況,其中該多個集合之另一包含該多個輸入字之中的該第一輸入詞與一第三輸入詞的搭配關係,該第一輸入詞與該第三輸入詞的該搭配關係包含令一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第三輸入詞出現的第二強度,該自然語言處理方法更包含:判斷該強度與該第二強度的何者較大;當該強度較大時,將該第一輸入詞與該第二輸入詞形成該一或多個主體詞資料結構之一;以及當該第二強度較大時,將該第一輸入詞與該第三輸入詞形成該一或多個主體詞資料結構之一。
更進一步的,為了滿足語意結構必須包含所有的輸入詞,該自然語言處理方法更包含:當該強度較大時,形成另一個該主體詞資料結構,上述的另一個該主體詞資料結構包含該第三輸入詞。
更進一步的,為了解決語音輸入或音節輸入的情況,該多個輸入字包含多個音節,該第一輸入詞包含該多個音節所組成的一或多個字。
更進一步的,為了能接受語音輸入指令,該自然語言處理方法更包含:判斷該語意結構是否包含動詞框架;當該語意結構包含動詞框架時,根據該動詞框架所對應的動詞,找出對應的一指令;以及執行該指令。
更進一步的,為了能接受較為複雜的語音輸入指令,該自然語言處理方法更包含:在執行該指令之前,根據該動詞框架,在該語意結
構中找出該指令的一或多個參數。
更進一步的,為了能利用自然語言回應使用者,該自然語言處理方法更包含:接收該指令執行之後的回應訊息;將該回應訊息組成一回應訊息的語意結構;以及將該回應訊息的語意結構內的所有的輸入詞排列組成一序列。
根據本申請的一面向,提供一種用於自然語言處理的計算裝置,用於執行多個指令,以實現前述的該自然語言處理方法。
總上所述,本申請所提供的自然語言處理方法與用於自然語言處理的計算裝置可以透過搭配關係、標籤序列和本體論進行簡化來進行語意分析。透過語意分析結果,可以得知分析是否正確。分析出的語意結構也可以適用於機器翻譯和指令輸入和回應輸出。
1400:電子系統
1410:計算裝置
1420:輸入裝置
1430:輸出裝置
1440:資料庫系統
1450:記憶體裝置
S101~S106:步驟
S1101~S1103:步驟
S2501~S2504:步驟
1900:自然語言處理方法
1910~1960:步驟
2000:機器翻譯方法
2010~2030:步驟
2100:機器控制方法
2110~2160:步驟
圖1為根據本申請一實施例的主體詞資料結構的一示意圖。
圖2為根據圖1實施例的語意結構的一示意圖。
圖3至圖14F為根據本申請實施例的人類基因名稱的標籤序列的示意圖。
圖15為根據本申請一實施例的一句子的一標籤序列的示意圖。
圖16為根據本發明一實施例的一電子系統1400的一方塊示意圖。
圖17為根據本發明一實施例的自然語言的生成方法的一流程示意圖。
圖18為根據本發明一實施例的主體詞的簡化方法的一流程示意圖。
圖19為根據本發明一實施例的一種句子的語意分析方法的一流程示意圖。
圖20為根據本申請一實施例的一自然語言處理方法的一流程示意圖。
圖21為根據本申請一實施例的機器翻譯方法的一流程示意圖。
圖22為根據本申請一實施例的機器控制方法的一流程示意圖。
本發明將詳細描述一些實施例如下。然而,除了所揭露的實施例外,本發明亦可以廣泛地運用在其他的實施例施行。本發明的範圍並不受該些實施例的限定,乃以其後的申請專利範圍為準。而為提供更清楚的描述及使熟悉該項技藝者能理解本發明的發明內容,圖示內各部分並沒有依照其相對的尺寸而繪圖,某些尺寸與其他相關尺度的比例會被突顯而顯得誇張,且不相關的細節部分亦未完全繪出,以求圖示的簡潔。此外,本發明的各流程圖所示的各個步驟當中,可以插入其他與本發明無關的其他步驟。除非有因果依存關係,本發明也不限定各個步驟的執行順序。
一個詞X的修飾語,通常是語意上能夠和X搭配的詞。一個複雜的句子通常是由簡單句逐步地加上許多語意上適合搭配的修飾語,修飾子句,或者修飾語的修飾語,補語等等。如果我們對每個詞X蒐集其修飾語集合FB(X)。就可以利用詞與詞之間的修飾關係,將一個複雜句反推回原來的簡單句。要進行這個計算,我們需要將句子中所有合理的修飾關係利用FB和句子結構推導出來。如此,就會得到這個句子的依存剖析樹。將一個詞X的修飾語「併入」X的動作,我們稱之為「簡化」(reduction)。對一個句子進行簡化,我們要從依存剖析樹的端點(leaf node)的詞遞迴地與上面的搭配詞合併,回推至其原來的簡單句。本發明描述一個利用FB產生依存剖析樹的方法,並可同時可進行斷詞以及語言生成。
簡化法之簡介
我們發現,人類對於「詞」的認知相當多元。一個詞就像臉書上一個人一樣,有許多的朋友和許多的活動。一個詞與「友詞」在句子之中經常一起出現。這些詞與詞的交互作用,就像人類的社群網路。因此一個詞代表一個概念,它的出現代表著某種意義,除了本身的意義之外,也影響了句子的意義。這也是本發明要探討的課題。雖然目前引用的例子有許多是中文,但本發明可應用在任何語言。
●詞與詞在句子中的語意配搭
詞與詞之間語意搭配(或依存)的關係在句子中極為重要。我們可以說,沒有一個詞在句子中是獨立存在的。也就是說,每一個詞一定會與句子中另一個詞有語意搭配關係。許多這類的搭配關係是約定俗成的。譬如,我們會說「打了一場漂亮的球賽」,而不會說「打了一場美麗的球賽」,即令「漂亮」與「美麗」意義相近。不瞭解這樣的搭配關係,電腦經常會產生錯誤的剖析。譬如下面的例子:
1.完成清掃家裡的工作(Finish the job of house cleaning)
完成{[清掃家裡]的 工作}---(完成,工作)
2.完成清掃家裡的垃圾(Finish cleaning the household garbage)
完成{清掃[家裡的 垃圾]}---(完成,(清掃,垃圾)事件)
一般的剖析器很容易將第二句話剖析成和第一句類似,也就是主要事件是(完成,垃圾)。然而正確的方式卻是:完成了「清掃垃圾」這個事件。也就是說,(完成,工作)是一個合適的語意搭配詞組,但(完成,垃圾)不是。
這類有意義的搭配關係可能有幾千萬個配對,需要在非常大
的資料中才能統計得到,在任何有限的機器學習訓練語料中是無法看出的。這也說明了,為何一般機器學習的正確率在自然語言中有其瓶頸。
搭配詞集合FB(X)
本發明假設這種有意義的配對已經從一個龐大的訓練語料取得而且帶有頻率,後面探討如何利用它們來進行更精準的自然語言理解。具體取得這類配對的方式在後面的分析中會約略提到。
我們對每一個詞X,定義其搭配詞的集合為FB(X)。FB(X)包含了X的ontology中的property,event等等以及許多其他的重要資訊。一個詞X的FB(X)通常會包含X的ontology(如E-HowNet[1])裡面的詞,或者更多(經由繼承)。
詞與詞有許多種搭配關係:比較常見的是修飾關係:譬如名詞與名詞,形容詞與名詞,副詞與形容詞等等。另外,就是一個詞如「餐廳」這個概念場景內,會發生的活動,如聊天,跳舞等等相關的概念詞。另外,對動詞而言,與其有搭配關係的名詞就是經常和其搭配出現的主詞或受詞;其他就是時間(或地點)副詞與片語。
通常一個句子會有主詞、動詞及受詞。最簡單的句子裡沒有任何修飾語。要將簡單句複雜化,可以逐步地加上許多搭配的修飾語及子句,補語,或者修飾語的修飾語等等。
在許多情況,中文會省略一些搭配詞,譬如:「地雷範圍」,正確地說,應該是「地雷爆炸範圍」,其中「爆炸」是「地雷」的event,而「範圍」是「爆炸」的property。然而,以搭配詞組而言,如果「地雷範圍」經常出現,我們就會將「範圍」視為「地雷」的一個搭配詞。
利用FB計算句子的依存剖析樹
本發明主要是藉由事先蒐集的FB(X)知識庫,將一個複雜句逐步簡化(reduce),還原成簡單句。在此過程中,我們會得到這個句子的依存剖析樹。
當一個修飾語A被簡化到其相鄰搭配詞X之下時,我們就會將AX這個字串變成X的概念<X>,同時產生一個實例圖(instance map)來記錄這個關係。如果,接著有另一個修飾語A的相鄰詞B可以作為修飾語A(或搭配詞X)的搭配詞時,我們會擴大<X>的概念。此時,<X>就代表BAX這個字串,同時相對應的實例圖(instance map)會將詞B放在修飾語A(或搭配詞X)之下。從名詞片語NP的結構我們可以看到,<X>的概念可以擴大到有子句的modifier,其後加上「的」。這可以利用許多類似生物專有名詞辨識(NER,Named Entity Recognition)的概念序列(concept sequence)。在確認一個名詞片語NP的組成是正確時,往往需要利用遠距的「名量詞」或者外部的動詞搭配詞。譬如前述的,(完成,工作)和(完成,event)。
在概念組合的過程中,會遇到兩個可能的概念重疊的情況。此時,就需要借重當初修飾語與其搭配詞之間共現的頻率(可轉換成某種權重weight或強度intensity)來計算哪個概念的總權重(total weight)較高,來決定取捨。
當鄰近的FB無法有效地解岐時,我們需要許多更長的概念序列(concept sequence)。就像我們在進行生物醫學名詞辨識(NER,Named Entity Recognition)時的情況。這種情況在後面語音輸入時,更形重要。
●名詞片語的結構分析
下面我們討論如何將一個名詞片語NP(head N)簡化成其head noun N。我們以中文為例。首先,NP(head N)有相當多種可能的結構,有些修飾語後面需要加「的」,有些則不需要。譬如:談到餐廳的設備,我們會說「有停車場的餐廳」,談到餐廳內的可能發生的event,我們會說「可以聊天」的餐廳。其中「停車場」和「聊天」都是餐廳的搭配詞。又如:「黃色的小貓」和「小黃貓」。後者就不需要加「的」。在處理句字中的詞時,有些詞不可能在辭典內窮舉,需要在句子中臨時組合起來,譬如:數詞(九十八,123),時間詞(年月日,時分秒),還有DM(determiner-measure),也就是中文的定量結構,譬如:一個,這個等等。以下我們列舉一些常見的結構:
1.修飾語+N(一般修飾語中間沒有「的」)
2.修飾語+N(有底線的修飾語中間有「的」),這又可細分為下面的cases:
2.1 A+的+修飾語+N
2.2 N+的+修飾語+N
2.3 V+的+修飾語+N
2.4 VP+的+修飾語+N
2.5 S+的+修飾語+N
2.6 時間片語+的+修飾語+N(聖誕節前的考試)
2.7 空間片語+的+修飾語+N(在山上的房子)
3.前兩種結構,最前面(或後面)再加上DM,也就是
3.1 DM+修飾語+N(名量詞搭配)或修飾語+N+DM
3.2 DM+修飾語+N(名量詞搭配)或修飾語+N+DM
修飾語中有直接(緊鄰)搭配詞,間接搭配詞。通常最多有一個間接搭配詞(其他的就會放在「的」的前面)。其餘的搭配詞則為修飾搭配詞的。利用FB中搭配詞的頻率,我們可以決定在連續三個詞ABC中,三個可能的搭配詞組(A,B),(B,C),(A,C)中哪些是最可能的,並將修飾語簡化到N之內。這時,相鄰的DM也可簡化到N以內。之後,NP不是簡化成N,就是N前面有「的」的修飾語。其結果如圖一所示。這裡要注意的是,時間片語和空間片語通常都有方位詞引導,可以獨立處理。此外,前述的ABC三個詞構成一個trigram,是由我們FB的bigram自動產生的。如果再推演下去,修飾語的搭配詞繼續延伸,可以產生語言內N-gram的果效。
再者,我們同時可以簡化動詞V的修飾語。這通常包括了副詞,時間片語及空間片語。有了簡化的N和V,子句內通常只剩下動詞及其相關的論元(argument)(附註:由於語言表達複雜度的自然限制,子句內通常不會再有子句修飾語。因此,我們可不必考慮遞迴式的結構,譬如:子句內修飾動詞的時間片語內就不會再含有子句,類似於「That that you are right is wrong is right」。這種句子通常很難理解,也很少有人會寫。這樣可以大量減低分析的複雜度。和一般程式語言相較,自然語言的迴圈數量最多為2)。利用該動詞的框架就可將子句的語意段落(chunk)篩選出來。時間片語和空間片語中如果有子句,也可同樣處理。當子句處理好之後,我們就可根據上述結構進一步將複雜的NP簡化成N,並將V的修飾語簡化到V內。
此時,針對一些重複或列舉式的「平行結構」,我們先進行合併,譬如:「橘子,梨子和蘋果」,可以簡化成「橘子」。在其下我們會記錄一個list,其中有梨子,蘋果。「淘氣又可愛的」可以簡化成「可愛的」。
●代表一個句子語意角色的實例圖instance map
當NP,V都簡化成head words之後,就剩下動詞及其論元的框架結構。我們可檢查FB來確認這些論元及其動詞都是合理的搭配詞組。然後,根據動詞框架的角色名稱將NP,V的head words放在適當位置。再將其修飾語按照語意訊息放在head之下,這樣就形成了這個句子的實例圖instance map(註:子句可以遞迴產生其實例圖instance map)。以下面的句子為例:「小明打算明天給小華每公斤100元的富士蘋果兩個」,其結果如圖2所示。
此外,一個句子可能還有「補語」。「補語」本身可能是一個句子或形容詞片語。我們可以用同樣的方法將其簡化。
當一個詞A簡化到其依存詞B後,我們可以適當地調整詞B的label,以便更貼近兩者合併之組合詞的語意。
簡化的方法可以類似地應用到其他語言上。接下來,我們將簡化方法應用到英文。考慮以下的英文句子:
I saw a man swimming in the river on the bridge.本句基本的主詞、動詞、受詞的SVO結構為(I,saw,man)。”Swimming”用於修飾”man”;”in the river”用於修飾”swimming”;以及”on the bridge”用於修飾”saw”。對於用作修飾語的介詞片語,我們可以將其簡化為(in,river)以及(on,bridge),並且將這些詞認為是其修飾的詞的FB。
在另一個範例當中,考慮以下的英文句子:
The archaeologist is in trouble.該句具有這樣的形式:<people>:<be>:<in a situation>。可以藉由一對一的
方式加入修飾語,使上述的句子更加複雜。例如:
The old archaeologist named John is in a serious trouble.
The old archaeologist named John Doe is in a very serious trouble with his academia reputation.反過來看,也可以根據其相對應的FB來簡化這些句子的修飾語,使其回到最初的簡單形式。
●FB的蒐集方法大略說明
前面提到NP(head N)的結構。我們可以利用現有的中文剖析器將大量句子剖析出來,對其中NP進行分析,哪些可能是head N的搭配詞,包括放在「的」之前的搭配詞和之後的搭配詞。雖然剖析器不見得準確,但如果訓練的語句數量非常大,得到的pair(N,N’)的數量足夠大,則(N,N’)是一個真正的搭配詞組的機會也很大。連續的搭配詞中有些可能是搭配詞的搭配詞,譬如:「桃園醫院醫師」中,「醫院」是「醫師」的搭配詞,而「桃園」則是「醫院」的搭配詞(而不是「醫師」的搭配詞)。同樣的,「桃園醫院主治醫師」中,前述的搭配關係不變,又增加了一個「主治」是「醫師」的搭配詞。其他如(V,N)及(N,V)的搭配詞組的統計也可以利用剖析樹,非常類似。
●FB(X)的語意抽象化
在自然語言中,有許多階層式語意分類樹(如E-HowNet[1]),將詞依據語意相似度分配在不同的類別內。譬如,「蘋果」可能在「水果」的類別內,「水果」又可能在「食物」的類別內。這些類別的名稱,我們叫做語意label。我們在考慮FB(X)時,X本身也可能是語意label。同
樣的,FB(X)裡面的搭配詞也可能是語意label。在許多情況,由於訓練資料的貧乏,某些詞的FB可能不是蒐集得很充分。這時,可以觀察這個詞X的上層的語意label裡面是否有許多詞已經和某個詞Y成功搭配,此時可考慮將(X,Y)做為「弱搭配詞組」。譬如,「吃蘋果」,「吃香蕉」經常出現,也就是「吃」是「蘋果」和「香蕉」的搭配詞。如果「吃榴槤」出現的次數很低,系統也會考慮將「吃」視為「榴槤」的弱搭配詞。
利用FB進行專有名詞辨識named entity recognition(NER)
在前面一般句子的簡化中,簡化的最後結果是動詞的論元框架。在專有名詞辨識中,我們採取另一種方式。經過適當的標註,利用標註的FB進行簡化,許多專有名詞都可以歸納成辭典內的label sequence或者是前述的概念序列(concept sequence)。在本申請當中,當進行專有名詞辨識時,通常將其稱為是label sequence。但在其餘部分,則可以稱為是概念序列。其中的label類似於concept這裡我們引用的例子為生物醫學的基因命名。從reduction的角度進行人類基因命名規則統整。從語意的角度觀察人類基因的命名方式,可以窺見基因的本體會以不同的角度進行描述,概略約可分成描述基因的外表/結構(Appearance)、基因具有之功能或關連功能推測(Functional related description)、基因的鑑定來源或同源出處(Origin/Source/Homolog)以及基因家族名稱(Family term)這些分類方式是基於HUGO Gene Nomenclature Committee(HGNC)所制訂之準則[2]所延伸,以下試以reduction的角度對人類基因命名進行歸納,並給予相應類別基因名範例。圖三至圖十四F為根據多個實施例所示的基因簡化的label sequence。
1.基因的外表/結構-Appearance:
此類命名著重在基因結構上的描述,語意上會較常[Structure]、[Sequence]等類型,例如以下四個基因名,可以發現他們在命名上有雷同之處。
以上基因名標籤的[Chemical]、[Organ_Tissue]以及[Sequence]可進一步簡化併入[Structure]中。最後得到的基因概念的label sequence為:
[Structure][Head_Mol][Specifier]
2.基因具有之功能或關連功能推測-Functional related description:
此類命名相當多樣化,涵蓋範圍廣,基因名中會描述該分子所負責的功能、作用區域或者突變後造成的影響;若是未發現該基因具體功能,但是知道其會與特定基因進行作用或連結,則名字中會包含其他基因名。以下舉例:
●Vascular epidermal growth factor A(VEGFA)為血管內皮生長激素A,功能即是促進血管新生,Concept tag可標成:
其中相鄰[Organ_Tissue]可合併,最終可由三個Concept tag表示VEGFA,像是[Organ_Tissue][Function_Mol][Specifier]。其結果如圖3所示。
●protein serine-threonine phosphatase 2A(PP2A)為一系列磷酸脢家族的一員,其主要功能為切除目標蛋白的serine或threonine上的磷酸根,藉此讓目標蛋白失去活性,Concept tag可標成:
標籤中的[Head_Mol][Chemical][Chemical]即是基因的作用對象,語意上也可合併為[Chemical],而phosphatase則做為這個基因的[Function_Mol],最終PP2A整合後的語意概念將會如圖4所示。
●lactate dehydrogenase A(LDHA)為乳酸脫氫脢中的一員,這個基因名簡短,但是所代表的語意上層含意恰巧與PP2A接近,都是標的化合物搭配功能性分子的組合,結果如圖5所示,可看出LDHA與圖4表達之PP2A的雷同之處。
功能性基因除了平鋪直述的語意概念外,亦存在巢狀(recursive)語意結構,就如以下兩個基因名稱所描述之功能,作用於另一個完整定義的序列或是基因上,其角色類似於英文句子中的子句或是中文片語。
●cAMP responsive element binding protein 1(CREB1)拆解後可得知,有個特定的序列(responsive element)可對環腺苷酸(cAMP)濃度有所反應,而CREB1蛋白質的功能則為與該特定序列結合,基因名稱的結構可拆
解成如圖六所示之概念,做為[Function_Mol]的binding protein所結合的對象為另一個完整概念架構的cAMP responsive element。
●fibroblast growth factor receptor 2(FGFR2)於命名的結構雷同CREB1,差別為所結合的對象,纖維母細胞生長激素(fibroblast growth factor)為一系列之功能性蛋白質,FGFR2做為受器(receptor)負責與之作用,基因概念的label sequence如圖7所示。
有別於上面的基因名,另外有些基因未能清楚得知其切卻作用對象,但經由觀察或實驗發現當這些基因失常(失去活性、突變)時,會誘發特定疾病的發生,由此做為命名緣由。
●insulin-dependent diabetes mellitus 6(IDDM6)為與胰島素相關糖尿病之基因,且命名非以特定分子(如:protein、receptor)描述做為結尾,而透過序列號辨明此為完整基因,其中所蘊含的基因概念經生物語意的對應後將如圖8F所示。
●acute myeloid leukemia 1 protein(AML1)被發現為急性骨髓性白血病相關的致病基因,因而也直接以此命名,實際文獻撰寫時若文意表達不清易造成讀者混淆,所描述的對象是指疾病本身或者其關連蛋白質,圖9所示之語意概念可清楚說明AML1蛋白質的命名結構。
3.基因的鑑定來源或同源出處-Origin/Source/Homolog:Origin/Source/Homolog of gene
此類人類基因由於是透過其他物種的基因發現而鑑定出,命名往往會帶有其他基因的名稱且會輔以同源(homolog)或相似(like)等描述,藉以表達該基因之緣由。
●Kruppel like factor 4(KLF4)中的”Kruppel”一開始為果蠅中所發現之基因,該基因的突變將會造成果蠅幼體的殘缺,此基因帶入命名,說明KLF4基因之功能性類似於”Kruppel”,而其基因概念亦是由”Kruppel”延伸,構成如圖10所示之結構。
●v-jun avian sarcoma virus 17 oncogene homolog(JUN)從命名方式來看可以發現,人類JUN與禽鳥肉瘤病毒中的v-jun為相近的同源基因,完整的基因語意結構如圖11所示,可發現JUN基因所涵蓋的語意在進行整合後可精簡為兩個上層Concept。
4.基因家族名稱-Family term
這類基因有屬於自己的家族(family/superfamily)譜系,往往每個家族都會有自己的命名邏輯,但由於發源可能根於某個複合物(complex)或是具有雷同的特性(都是小分子、細胞表面蛋白)等,因此同族基因會有相同的命名前綴,後綴之數字、英文序列可到數十甚至上百。
●S100 calcium binding protein A16(S100A16)為低分子量蛋白質S100家族中的一員,此系列蛋白質皆具有與鈣離子結合之能力,全名的描述中再賦予不同的序號作以區別,如圖12所示,label sequence的前端可看出該基因家族的特性,最後的[Specifier]再決定該基因具體序列。
●major histocompatibility complex,class II,DR beta 1(HLA-DRB1)做為細胞表面的抗原辨識蛋白質,MHC是一個龐大的基因家族,與免疫功能息息相關,人類的MHC基因又稱為human leukocyte antigen(HLA),由於要辨識外界環境的各種物質,具有許多不同的基因型以及細類分支為這系列基因的特點,由圖13所示,label sequence中頻繁出現的
[Specifier]亦可觀察到此現象。
Note 1:基因名稱如有多種功能/緣由進行描述,基因名會以and串接前後,而強調其特定作用媒介、位置、對象等,則介係詞(of,for,on)較常加入基因名中。
Note 2:同一個基因會有不同的別名,而這些別名可能就是透過不同的描述角度闡述這個基因。
Note 3:此分類描述人類基因命名描述方式或有未竟之處,需持續整理補完。
當專有名詞(NE,named entity)都是由已知詞組成時,我們已經從生物的例子看到如何產生對應的概念序列(concept sequence)。然而,有兩種例外情況需要考慮:
1.當專有名詞NE內有未知詞時,我們需要利用已知詞的輔助來建立概念序列(concept sequence)。譬如一個包含兩個字的人名:劉謙。我們可能需要更多的上下文,如「魔術師劉謙表演」的概念序列concept sequence:[occupation][person][verb],其中[occupation]是專有名詞左邊的FB的搭配詞,[verb]是專有名詞NE右邊的搭配詞。
2.概念序列(concept sequence)過短,譬如僅含有一或兩個字時,容易產生歧異導致辨識錯誤。此時,類似於前1點的情況,我們就要同時考慮利用專有名詞NE外部的FB來輔助,以產生更長更穩定的概念序列(concept sequence)。
物件關係擷取
請參考圖22所示,其為根據本申請一實施例的一句子的一概
念序列,其包含了專有名詞。請考慮以下的英文句子:The Transcription Factor T-Bet is Regulated by MicroRNA-155 in Murine Anti-Viral CD8+ T Celles via SHIP-1 。這個句子包含了三個基因:T-Bet,MicroRNA-155與SHIP-1。使用簡化方法,我們可以把句子簡化成:T-Bet is regulated by MicroRNA-155 in T Cells via SHIP-1。再將字詞替換成其語意標籤,我們得到以下的標籤序列:[Gene1][BE_Ved_By][Gene2]{Through}[Gene3][IN]{Cell}。與基因之間關係的相關部分是:[Gene1][BE_Ved_By][Gene2]{Through}[Gene3],也就是如圖22所示的概念序列。任何符合此概念序列的句子都會被指定以下的關係:1.正向配對:(Gene1,Gene2),(Gene2,Gene3);2.負向配對:(Gene1,Gene3)。
利用FB進行斷詞以及語音辨識
正確的斷詞也會滿足詞與詞之間合乎FB的搭配關係。既然我們前面的依存剖析樹的演算法是以搭配詞為出發點,其所選取之搭配詞理應有正確的詞界。如果接收到的是語音音節,我們同樣可以先產生對應的詞彙,然後同樣利用依存剖析樹的演算法。
如果輸入的是「字串」、「注音串」、「無聲調的拼音串」或「語音串」時,我們都使用前述的依存剖析樹的演算法去進行分析。在「字串」輸入時,依存剖析樹完成後,自然就得到一組斷詞。在其他音串輸入的情況下,我們除了得到斷詞的結果,還會將對應的音轉成字。FB在語音輸入時,依舊有強大的排岐能力,差別是我們要用到的搭配詞的鏈結強度計算需要更為精確,因為可能發生的歧異詞數量將大為增加。但經由FB和結構(文法)的過濾,還是能夠有效產生正確的依存剖析樹。
同時,在音串輸入時,我們系統可同時辨識「未知詞」,也
就是需要利用專有名詞NE內部或外部的FB或者更長的概念序列(concept sequence)來確認未知詞的種類,以及內部組合方式。
利用FB進行自然語言生成
首先,我們蒐集了中文動詞的論元框架。其次,對每一個動詞,蒐集許多以此動詞為主動詞的例句,同時,對每一個名詞,也蒐集許多含有此名詞修飾語的片語,並生成其對應的實例圖instance map。當我們要生成一個新的自然語言句子時,會:
1.(S2501)確認主要的論元如S,V,O為何,以及每一個詞的修飾語為何。
2.(S2502)接著依照這個動詞的框架,將以上的資訊填入其實例圖instance map。
3.(S2503)藉由事先蒐集關於V的框架及例句,我們可以選取合適的論元位置。
4.(S2504)下一步,將每一個論元的修飾語填入句子中。由於語言的特性,我們可以假設這部分對每一個論元可以分別獨立為之。也就是說,對每一個論元,我們可以從之前蒐集的論元描述的片語及實例圖instance map並參照前面名詞片語的結構,學習出如何將目前的修飾語填入這個論元的周遭。舉例而言,下面的例子「一隻可愛的小花貓」,告訴我們,對動物而言,描述大小的「小」要放在顏色「花」的前面。但是當顏色有多於一個字時,又必需放在前面,譬如「一隻深灰色的小貓」。
利用FB進行機器翻譯
本發明可以應用在任何語言,FB(X)的蒐集也是如此。有了
這些資料後,任何語言的句子都可以進行依存剖析。同時,可以得到一個對應的實例圖instance map。下面我們就以一個例子來說明如何利用這樣的實例圖instance map和FB來進行翻譯。首先,我們看下面(1),(2),(3)句的中文句子。這些句子的意義都相同,只是要強調的主題不太一樣。其下為相對應的實例圖instance map。針對這個中文的實例圖instance map,我們可以將其中的中文詞轉譯為英文。為了維持和諧性,這個轉譯需要用到英文的搭配詞。所以,「處理」「計畫」的對應英文搭配詞為handle project。有了這些英文的實例圖instance map後,我們就可以利用前面說到的自然語言生成,來產生英文的句子。相對的,一個英文句子要翻譯成中文,也可以依循剛才的方式,先進行依存剖析,再利用實例圖instance map上面的英文詞所對應的中文搭配詞,產生中文的實例圖instance map,然後產生中文句子。
1.這個計畫你處理得很不錯
2.你這個計畫處理得很不錯
3.處理這個計畫你很不錯
你(you)
event:處理(handle)
target:計畫(project)
結果:很不錯(very good)
4. You handled this project well.
5. You are very good in handling this project.
這裡還需要強調在利用FB進行自然語言生成時,有兩種輸入方式:
1.使用者給定一個句子,譬如一個經由Google翻譯出來的句子,希望能得到意思相近但更為流暢的句子。我們是先利用FB協助產生依存剖析樹。在過程中,使用者可能使用了不適當的搭配詞,依存剖析樹的計算可能需要用到更通用更上位(general)的語義類別(semantic class),而不只是原本的FB實詞。同時,需要將相關的主詞、動詞、受詞(SVO,subject verb object)以及修飾語的搭配詞選好。既然我們的資料庫已經有許多寫好的句子及其對應的實例圖(instance maps),這些就可拿作為從實例圖轉換到句子的訓練語料。
2.使用者指定了人、事、時、地、物以及相關的修飾語,由我們系統產生句子。這時,我們等於已經有了實例圖,只是需要將相關的主詞、動詞、受詞(SVO,subject verb object)以及修飾語的搭配詞選好,將原來用語不合適的替換或剔除,後面就和前1點的做法類似。
References
[1] 廣義知網http://www.aclclp.org.tw/use ckip c.php
[2] H. M. Wain, E. A. Bruford, R. C. Lovering, M. J. Lush, M. W. Wright, and S. Povey, "Guidelines for human gene nomenelature," Genomics, vol. 79, no. 4, pp. 464-70, Apr 2002.
請參考圖16所示,其為根據本發明一實施例的一電子系統
1400的一方塊示意圖。該電子系統1400包含一計算裝置1410、一輸入裝置1420、一輸出裝置1430、一記憶體裝置1450與一資料庫系統1440。在一實施例當中,該電子系統1400為單一的計算機系統,該計算裝置1410用於存取該記憶體裝置1450所存儲的軟體,執行一作業系統與應用程式,控制上述的輸入裝置1420、輸出裝置1430、記憶體裝置1450與資料庫系統1440。在一實施例當中,該資料庫系統1440與該計算裝置1410位於不同的計算機系統當中,彼此以有線或無線的網路連接。舉例來說,該資料庫系統可以是提供任何關聯式資料庫管理系統(Relational DBMS)或非關聯式資料庫管理系統的計算機系統。例如為微軟公司SQL Server、甲骨文公司的Oracle、MySQL等資料庫管理系統。該計算裝置1410可以執行上述的資料庫管理系統,以便作為上述的資料庫系統1440,供其他程式呼叫使用。
該輸入裝置1420可以包含鍵盤、滑鼠、光碟、網路、麥克風與/或其他的外接裝置,使用者可以透過該輸入裝置1420將資料或文字輸入到該計算裝置1410當中。當輸出裝置1430可以包含螢幕、網路、音響與/或其他的外接裝置,該計算裝置1410的計算結果可以透過該輸出裝置1430輸出。
在一實施例當中,該計算裝置1410的計算結果可以組織成特定的資料結構儲存到該記憶體裝置1450當中,也可以儲存到該資料庫系統1440當中。
請參考圖17,其為根據本發明一實施例的自然語言的生成方法。該生成方法如以下相關的發明點所描述。
請參考圖18,其為根據本發明一實施例的主體詞的簡化方
法。該簡化方法如以下相關的發明點所描述。
請參考圖19,其為根據本發明一實施例的一種句子的語意分析方法。該語意分析方法如以下相關的發明點所描述。
根據電腦軟體發明審查基準的規定,本申請提供了具有技術領域方面的功效。本申請可以應用於「自然語言」的語意分析,根據語意分析後的實例圖instance map可以饋入人工智慧系統或呼叫其餘程式,最後再生成自然語言加以回應。舉例來說,可以根據自然語言的語意分析結果,查詢相關的資料庫,並且將資料庫查詢結果依照自然語言進行輸出。例如可以分析使用者輸入的語意為開啟客廳的冷氣機至26度,然後透過智慧家庭的控制器,令位於客廳的冷氣機啟動,並且設定溫度至26度。最後再以自然語言輸出合成的聲音,回應使用者說客廳的冷氣機已經啟動,並且設定至26度。
本申請可以應用於客戶服務系統,社群軟體的不雅語言審查機制,各種機器的語音控制介面,機器翻譯等,在技術上可以省卻計算時間,盡可能地及時或即時回應使用者的輸入。除此之外,還可以方便使用者用語音輸入,以及語音輸出。使得使用者無需學習各式機器的特殊控制介面,即可以控制機器。由於本申請係用機器來對自然語言進行辨識,而自然語言辨識原本須借助人類心智活動方能執行,而發明中以特殊的演算法取代人類心智,則本演算法可令整體發明具有技術性。換言之,本申請可以提高資訊系統的執行效率,加強自然語言的語意辨識精確度,方便使用者操控機器等,應當符合發明之定義。
以下為發明點與其對應到上述實施例的簡要說明。
發明點1,一種句子的語意分析方法(如圖19所示),包含:(S101)接收包含多個字的一句子;(S1102)根據一資料庫內的多個詞(亦即詞X)與每一個該詞對應之搭配詞(亦即FB(X))的集合,尋找該多個字當中的一或多個第一詞與一或多個第二詞(亦即利用FB進行斷詞),其中每個該第一詞均包含在該資料庫的該多個詞當中,每一個該第二詞均包含在該資料庫的多個該搭配詞當中(第二詞為第一詞的搭配詞,例如圖一實施例當中,蘋果可以是第一詞,富士、個、每公斤、元可以是相對於蘋果的第二詞,給是第一詞,打算、明天可以是相對應給的第二詞);(S1103)當某一該第一詞與某一該第二詞在該資料庫是對應關係時,簡化產生一主體詞資料結構,該主體詞資料結構包含該第一詞與至少一個該第二詞(主體詞資料結構可以如圖一與圖2當中的每一個中括號);(S104)重複該簡化建立主體詞資料結構的步驟,直到找到所有的該第二詞的對應關係為止,據以產生該句子所對應的至少一個該主體詞資料結構(每個句子至少要有一個主體詞資料結構,這個主體詞資料結構的第一詞可以是名詞或是動詞);(S105)當有複數個主體詞資料結構被產生時,找出該複數個主體詞資料結構當中的一主體動詞資料結構,其中該主體動詞資料結構的該第一詞為動詞(當有兩個以上的主體詞資料結構被產生時,該句子至少應會有一個動詞,作為主體動詞資料結構);以及(S106)產生一語意結構(亦即語意結構圖或實例圖instance map,如圖二右邊的括號所示的資料結構),其中該語意結構包含該主體動詞資料結構所對應的一動詞框架,該複數個主體詞資料結構係按照該動詞框架的安排。
發明點2,如發明點1的語意分析方法,其中該第二詞為具有至少一主體詞資料結構的一子句(例句為「我看彗星撞地球的電影」,彗星撞
地球是子句,電影是第一詞,彗星撞地球是第二詞,動詞框架是主體詞我+動詞看+主體詞電影)。
發明點3,如發明點1的語意分析方法,其中該複數個主體詞資料結構其中之一的該第二詞與該第一詞在該句子中的順序是該第二詞在該第一詞之前(例如圖一實施例當中的富士在蘋果之前、修飾語+N、修飾語+N的說明)。
發明點4,如發明點1的語意分析方法,其中該複數個主體詞資料結構其中之一包含兩個以上的該第二詞(例如一隻小花貓的小、花在貓之前)。
發明點5,如發明點4的語意分析方法,其中在該句子中的兩個該第二詞之間包含一個「的」字(如修飾語+N當中的修飾語有「的」字)。
發明點6,如發明點4的語意分析方法,其中在該句子中的一個該第二詞包含一方位詞(時間片語和空間片語有方位詞引導)。
發明點7,如發明點1的語意分析方法,其中該複數個主體詞資料結構其中之一更包含該句子當中不屬於該一或多個第一詞與不屬於該一或多個第二詞的一數量詞、一時間詞、或一定量結構(例如圖一實施例當中的100與兩、年月日時分秒、一個、這個、那些等)。
發明點8,如發明點1的語意分析方法,其中該句子中屬於同一該主體詞資料結構的該第一詞不緊鄰於該第二詞。(例如精神科主治醫師,醫師為第一詞,精神科與主治分別為兩個第二詞,但精神科不與醫師緊鄰)。
發明點9,如發明點1的語意分析方法,其中多個該詞其中之
一是一語意分類樹的一第一標籤。(例如蘋果的標籤可以是水果,水果標籤在該語意分類樹的上一層標籤可以是食物。詞X本身可能是語意label。)
發明點10,如發明第1點的語意分析方法,其中多個該搭配詞其中之一是一語意分類樹的一第二標籤。(FB(X)裡面的搭配詞也可能是語意label。)
發明點11,一種主體詞的簡化方法(如圖18所示),包含:(S1101)接收多個字;(S1102)根據一資料庫內的多個詞與每一個該詞對應之搭配詞的集合,尋找該多個字當中的一或多個第一詞與一或多個第二詞,其中每個該第一詞均包含在該資料庫的該多個詞當中,每一個該第二詞均包含在該資料庫的多個該搭配詞當中;以及(S1103)當某一該第一詞與某一該第二詞在該資料庫是對應關係時,簡化產生一主體詞資料結構,該主體詞資料結構包含該第一詞與至少一個該第二詞。(請見發明點1的說明)
發明點12,如發明點11的簡化方法,其中該第二詞為具有至少一主體詞資料結構的一子句。(請見發明點2的說明)
發明點13,如發明點11的簡化方法,其中該主體詞資料結構的該第二詞與該第一詞在該多個字中的順序是該第二詞在該第一詞之前。(請見發明點3的說明)
發明點14,如發明點11的簡化方法,其中該主體詞資料結構包含兩個以上的該第二詞。(請見發明點4的說明)
發明點15,如發明點14的簡化方法,其中在該多個字當中的兩個該第二詞之間包含一個「的」字。(請見發明點5的說明)
發明點16,如發明點14的簡化方法,其中在該多個字當中的
一個該第二詞包含一方向詞。(請見發明點6的說明)
發明點17,如發明點11的簡化方法,其中該主體詞資料結構更包含該多個字當中不屬於該一或多個第一詞與不屬於該一或多個第二詞的一數量詞、一時間詞、或一定量結構。(請見發明點7的說明)
發明點18,如發明點11的簡化方法,其中該多個字中屬於同一該主體詞資料結構的該第一詞不緊鄰於該第二詞。(請見發明點8的說明)
發明點19,如發明點11的簡化方法,其中多個該詞其中之一是一語意分類樹的一第一標籤。(請見發明點9的說明)
發明點20,如發明點11的簡化方法,其中多個該詞其中之一是一語意分類樹的一第二標籤。(請見發明點10的說明)
發明點21,如發明點11的簡化方法,其中該資料庫包含多個相應於基因的外表或結構的集合,在該多個相應於基因的外表或結構的集合當中的該詞包含結構詞[Structure],在該多個相應於基因的外表或結構的集合當中的該搭配詞包含頭分子詞[Head_Mol]、說明符詞[Specifier]、化學詞[Chemical]、器官組織詞[Organ_Tissue]、或序列詞[Sequence],其中分別對應至該頭分子詞[Head_Mol]與說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該結構詞[Structure]的該第一詞的後方,分別對應至該化學詞[Chemical]、該器官組織詞[Organ_Tissue]、或該序列詞[Sequence]的該第二詞係出現在該句子中對應到該結構詞[Structure]的該第一詞的前方。(請見基因的外表/結構-Appearance的說明)
發明點22,如發明點11的簡化方法,其中該資料庫包含多個相應於基因所具有之功能的集合,在該多個相應於基因所具有之功能的集
合當中的該詞包含目標器官詞[Target_Organ],在該多個相應於基因所具有之功能的集合當中的該搭配詞包含功能分子詞[Function_Mol]、說明符詞[Specifier]、或器官組織詞[Organ_Tissue],其中分別對應至該功能分子詞[Function_Mol]與說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該目標器官詞[Target_Organ]的該第一詞的後方,對應至器官組織詞[Organ_Tissue]的該第二詞係出現在該句子中對應到該目標器官詞[Target_Organ]的該第一詞的前方。
發明點23,如發明點11的簡化方法,其中該資料庫包含多個相應於基因所具有之功能的集合,在該多個相應於基因所具有之功能的集合當中的該詞包含目標化學物詞[Target_Chem],在該多個相應於基因所具有之功能的集合當中的該搭配詞包含功能分子詞[Function_Mol]、說明符詞[Specifier]、目標分子詞[Target_Mol]或化學詞[Chemical],其中分別對應至該功能分子詞[Function_Mol]與說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該目標化學物詞[Target_Chem]的該第一詞的後方,分別對應至目標分子詞[Target_Mol]或化學詞[Chemical]的該第二詞係出現在該句子中對應到該目標化學物詞[Target_Chem]的該第一詞的前方。
發明點24,如發明點23的簡化方法,其中該資料庫包含多個相應於目標化學物的集合,該目標化學物詞[Target_Chem]係對應到該多個相應於目標化學物的集合其中之一,在該多個相應於目標化學物的集合當中的該詞包含目標分子詞[Target_Mol],在該多個相應於基因所具有之功能的集合當中的該搭配詞包含化學詞[Chemical],其中分別對應至該化學詞[Chemical]的該第二詞係依序出現在該句子中對應到該目標分子詞
[Target_Mol]的該第一詞的後方。
發明點25,如發明點11的簡化方法,其中該資料庫包含多個相應於基因之目標序列的集合,在該多個相應於基因之目標序列的集合當中的該詞包含目標序列詞[Target_Seq],在該多個相應於基因之目標序列的集合當中的該搭配詞包含功能分子詞[Function_Mol]、說明符詞[Specifier],其中分別對應至該功能分子詞[Function_Mol]與說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該目標序列詞[Target_Seq]的該第一詞的後方,其中該資料庫包含多個相應於描述基因之目標序列說明的集合,該目標序列詞[Target_Seq]係對應到該多個相應於描述基因之目標序列說明的集合其中之一,在該多個相應於描述基因之目標序列說明的集合的該詞包含化學詞[Chemical],在該多個相應於描述基因之目標序列說明的集合的該搭配詞包含序列說明符詞[Seq_Mod]或序列詞[Sequence],其中分別對應至該序列說明符詞[Seq_Mod]或序列詞[Sequence]的該第二詞係依序出現在該句子中對應到該化學詞[Chemical]的該第一詞的後方,其中該資料庫包含多個相應於描述功能分子的集合,該功能分子詞[Function_Mol]係對應到該多個相應於描述功能分子的集合其中之一,在該多個相應於描述功能分子的集合的該詞包含目標功能詞[Target_Function],在該多個相應於描述功能分子的集合的該搭配詞包含頭分子詞[Head_Mol],其中分別對應至該頭分子詞[Head_Mol]的該第二詞係依序出現在該句子中對應到該目標功能詞[Target_Function]的該第一詞的後方。
發明點26,如發明點11的簡化方法,其中該資料庫包含多個相應於基因之目標分子的集合,在該多個相應於基因之目標分子的集合當
中的該詞包含目標分子詞[Target_Mol],在該多個相應於基因之目標分子的集合當中的該搭配詞包含功能分子詞[Function_Mol]、說明符詞[Specifier],其中分別對應至該功能分子詞[Function_Mol]與說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該目標分子詞[Target_Mol]的該第一詞的後方,其中該資料庫包含多個相應於目標細胞與功能的集合,該功能分子詞[Function_Mol]係對應到該多個相應於目標細胞與功能的集合的其中之一,在該多個相應於目標細胞與功能的集合當中的該詞包含目標細胞詞[Target_Cell],在該多個相應於目標細胞與功能的集合當中的該搭配詞包含功能目標詞[Fun_Obj],其中分別對應至該功能目標詞[Fun_Obj]的該第二詞係依序出現在該句子中對應到該目標細胞詞[Target_Cell]的該第一詞的後方,其中該資料庫包含多個相應於目標細胞與功能說明的集合,該功能目標詞[Fun_Obj]係對應到該多個相應於目標細胞與功能說明的集合的其中之一,在該多個相應於目標細胞與功能說明的集合的該詞包含目標功能詞[Target_Fun],在該多個相應於目標細胞與功能說明的集合的該搭配詞包含目標分子詞[Obj_Mol],其中分別對應至該目標分子詞[Obj_Mol]的該第二詞係依序出現在該句子中對應到該目標功能詞[Target_Fun]的該第一詞的後方。
發明點27,如發明點11的簡化方法,其中該資料庫包含多個相應於基因表現疾病的集合,在該多個基因表現疾病的集合當中的該詞包含疾病詞[Disease],在該多個基因表現疾病的集合當中的該搭配詞包含基因表現詞[Gene_Ex]、說明符詞[Specifier],其中分別對應至說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該疾病詞[Disease]的該第一詞的
後方,其中分別對應至基因表現詞[Gene_Ex]的該第二詞係依序出現在該句子中對應到該疾病詞[Disease]的該第一詞的前方,其中該資料庫包含多個相應於基因表現的集合,該基因表現詞[Gene_Ex]係對應到該多個相應於基因表現的集合的其中之一,在該多個相應於基因表現的集合的該詞包含基因符號詞[GeneSymbol],在該多個相應於基因表現的集合的該搭配詞包含連接詞[Linking],其中分別對應至連接詞[Linking]的該第二詞係依序出現在該句子中對應到該基因符號詞[GeneSymbol]的該第一詞的後方,其中該資料庫包含多個相應於疾病說明的集合,該疾病詞[Disease]係對應到該多個相應於疾病說明的集合的其中之一,該多個相應於疾病說明的集合的該詞包含主疾病詞[Disease_Main],該多個相應於疾病說明的集合的該搭配詞包含疾病補詞[Disease_Suf],其中分別對應至疾病補詞[Disease_Suf]的該第二詞係依序出現在該句子中對應到該主疾病詞[Disease_Main]的該第一詞的後方。
發明點28,如發明點11的簡化方法,其中該資料庫包含多個相應於基因表現疾病的集合,在該多個基因表現疾病的集合當中的該詞包含疾病詞[Disease],在該多個基因表現疾病的集合當中的該搭配詞包含基因表現詞[Gene_Ex]、說明符詞[Specifier],其中分別對應至說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該疾病詞[Disease]的該第一詞的後方,其中分別對應至基因表現詞[Gene_Ex]的該第二詞係依序出現在該句子中對應到該疾病詞[Disease]的該第一詞的前方,其中該資料庫包含多個相應於基因表現的集合,該基因表現詞[Gene_Ex]係對應到該多個相應於基因表現的集合的其中之一,在該多個相應於基因表現的集合的該詞包含基因符號詞[GeneSymbol],在該多個相應於基因表現的集合的該搭配詞包含連接
詞[Linking],其中分別對應至連接詞[Linking]的該第二詞係依序出現在該句子中對應到該基因符號詞[GeneSymbol]的該第一詞的後方。
發明點29,如發明點11的簡化方法,其中該資料庫包含多個相應於基因家族的集合,在該多個相應於基因家族的集合當中的該詞包含基因家族詞[Gene_Fam],在該多個相應於基因家族的集合當中的該搭配詞包含功能分子詞[Function_Mol]、說明符詞[Specifier],其中分別對應至功能分子詞[Function_Mol]或說明符詞[Specifier]的該第二詞係依序出現在該句子中對應到該基因家族詞[Gene_Fam]的該第一詞的後方,其中該資料庫包含多個相應於功能分子的集合,該功能分子詞[Function_Mol]係對應到該多個相應於功能分子的集合的其中之一,在該多個相應於功能分子的集合的該詞包含頭分子詞[Head_Mol],在該多個相應於功能分子的集合的該搭配詞包含化學詞[Chemical]、目標功能詞[Target_Function],其中分別對應至功能分子詞化學詞[Chemical]或目標功能詞[Target_Function]的該第二詞係依序出現在該句子中對應到該頭分子詞[Head_Mol]的該第一詞的前方。
發明點30,如發明點11的簡化方法,其中該資料庫包含多個相應於基因同源出處的集合,在該多個相應於基因同源出處的集合當中的該詞包含基因分子[Gene_Mol],在該多個相應於基因同源出處的集合當中的該搭配詞包含頭分子詞[Head_Mol],其中分別對應至頭分子詞[Head_Mol]的該第二詞係依序出現在該句子中對應到該基因分子[Gene_Mol]的該第一詞的後方,其中該資料庫包含多個相應於基因分子的集合,該基因分子詞係對應到該多個相應於基因分子的集合的其中之一,在該多個相應於基因分子的集合的該詞包含物種詞[Species],在該多個相應於基因分子的集合的該
詞包含基因符號詞[GeneSymbol]、目標分子詞[Obj_Mol],其中分別對應至基因符號詞[GeneSymbol]的該第二詞係依序出現在該句子中對應到該物種詞[Species]的該第一詞的前方,其中分別對應至目標分子詞[Obj_Mol]的該第二詞係依序出現在該句子中對應到該物種詞[Species]的該第一詞的後方。
發明點31,如發明點11的簡化方法,其中該資料庫包含多個相應於基因疾病的集合,在該多個相應於基因疾病的集合當中的該詞包含疾病詞[Disease],在該多個相應於基因疾病的集合當中的該搭配詞包含頭分子詞[Head_Mol],其中分別對應至頭分子詞[Head_Mol]的該第二詞係依序出現在該句子中對應到該疾病[Disease]的該第一詞的後方,其中該資料庫包含多個相應於疾病的集合,該疾病詞[Disease]係對應到該多個相應於疾病的集合的其中之一,在該多個相應於疾病的集合的該詞包含疾病名詞[Disease_Name],在該多個相應於疾病的集合的該詞包含疾病階段詞[Disease_Stage]、器官詞[Organ]、說明符號詞[Specifier],其中分別對應至說明符號詞[Specifier]的該第二詞係依序出現在該句子中對應到疾病名詞[Disease_Name]的該第一詞的後方,其中分別對應至疾病階段詞[Disease_Stage]、器官詞[Organ]的該第二詞係依序出現在該句子中對應到疾病名詞[Disease_Name]的該第一詞的前方。
發明點32,一種自然語言的生成方法(如圖17所示,請見利用FB進行自然語言生成的段落),包含:接收一語意結構(亦即步驟S2502所產生的實例圖instance map),其中該語意結構包含一動詞框架,該動詞框架更包含多個主體詞資料結構,其中每一個該主體詞資料結構包含一第一詞與該第一詞所對應的一或多個第二詞;根據該動詞框架,產生包含多個字
的一句子,其包含各個該主體詞資料結構當中的該第一詞(亦即步驟S2503);以及根據每一個該主體詞資料結構當中的該第二詞與其對應的該第一詞的關係,將每一個該主體詞資料結構當中的該第二詞插入到該句子中的該第一詞的相應位置(亦即步驟S2504)。
發明點33,如發明點32的生成方法,其中該多個主體詞資料結構當中至少包含一個主體動詞資料結構,該主體動詞資料結構所包含的該第一詞為動詞,該動詞架構相應於該主體動詞資料結構所包含的該第一詞(步驟3係依據V動詞的框架進行)。
發明點34,如發明點32的生成方法,更包含:當該主體詞資料結構包含兩個以上的該第二詞時,根據該兩個第二詞分別與該第一詞的前後結合在訓練語料當中出現的統計頻率或次數,決定該兩個第二詞插入到該句子當中的順序(例如小花貓的小和花的順序,取決於訓練資料當中小花貓與花小貓的出現頻率或次數)。
發明點35,如發明點32的生成方法,更包含在該句子當中的該兩個第二詞中間插入一個「的」字(例如一隻可愛的小花貓和一隻深灰色的小貓)。
發明點36,如發明點32的生成方法,更包含:在接收以一第一種語言表示的該語意結構之後,將該動詞框架所包含的每一該多個主體詞資料結構中的該第一詞與該第二詞翻譯成一第二種語言表示的該第一詞與該第二詞,其中產生該句子的步驟與插入該第二詞的步驟係使用該該第二種語言進行。(即利用FB進行機器翻譯)
發明點37,一種用於句子的語意分析的電子系統(第一組發
明點的方法項在圖16所示的電子系統中實作),包含:一資料庫系統,用於存儲多個詞與每一個該詞對應之搭配詞的集合;一輸入裝置,用於接收包含多個字的一句子;以及一計算裝置,用於連接該資料庫系統與該輸入裝置,執行軟體指令以實現如發明點1至10其中之一的語音分析方法。
發明點38,一種用於主體詞的簡化的電子系統(第二組發明點的方法項在圖16所示的電子系統中實作),包含:一資料庫系統,用於存儲多個詞與每一個該詞對應之搭配詞的集合;一輸入裝置,用於接收包含多個字的一句子;以及一計算裝置,用於連接該資料庫系統與該輸入裝置,執行軟體指令以實現如發明點11至31其中之一的主體詞的簡化方法。
發明點39,一種用於自然語言的生成的電子系統(第三組發明點的方法項在圖16所示的電子系統中實作),包含:一輸入裝置,用於接收一語意結構;以及一計算裝置,執行軟體指令以實現如發明點32至36其中之一的自然語言的生成方法。
請參考圖20所示,其為根據本申請一實施例的一自然語言處理方法1900的一流程示意圖。該自然語言處理方法1900可以實施於圖16所示的電子系統當中,用於產生語意結構。該自然語言處理方法1900可以判斷輸入是否符合文法。所輸出的語意結構可以留給圖21與圖22所示的方法分別進行機器翻譯與控制。
該自然語言處理方法1900會使用到圖16所示的資料庫系統1440。該資料庫系統1440可以包含多個集合。每一個集合(set)包含一個或多個對應關係。該對應關係可以是詞X與其搭配詞的集合FB(X)。每一個集合可以具有一或多個集合屬性(property)。集合屬性可以包含表示詞X的語言,
例如是中文、英文或其他種的語言。集合屬性可以包含詞X的詞性,例如是動詞、名詞、形容詞、副詞等。
對應到一個詞X的一個搭配詞CX,也可以具有一或多個搭配屬性。舉例來說,搭配屬性可以包含該詞X和搭配詞CX在訓練語料中出現的頻率、次數或強度(intensity)。搭配屬性還可以包含詞界(domain),例如是生物學用語、計算機科學用語等。搭配屬性可以表示搭配詞CX與詞X在訓練語料當中的前後順序,例如某個搭配詞CX出現在詞X之前或之後。搭配屬性還可以表示搭配詞CX是否與詞X相鄰,或可以間接相鄰。
在一實施例當中,搭配詞CX可以是詞X的本體論(ontology)當中的事件(event)、屬性(property)或其他的訊息。在另一實施例當中,搭配詞可以是詞X的上層本體(ontology)當中的事件、屬性或其他的訊息。如前所述,本體論可以是如E-HowNet[1]所述的結構。關於這種搭配詞CX可以參考先前所述的「地雷範圍」的說明。其搭配屬性可以記載著搭配詞CX與詞X在本體論分別所屬的階層,以及階層之間的關係。
在一實施例當中,當該詞X是名詞時,其搭配詞CX可以緊鄰在詞X之前。在另一實施例當中,當該詞X是中文名詞時,其搭配詞CX與詞X之間可以包含一個的字。該搭配詞CX的搭配屬性可以表示在搭配詞CX之後具有的字。如前所述,該搭配詞CX可以是形容詞A、另一個名詞N、動詞V等。該搭配詞CX也可以是由多個字詞所組成的動詞片語、時間片語或空間片語。
在一實施例當中,為了進行機器翻譯,以第一語言表示的詞X,其搭配語CX可以是以第二語言表示的同義詞。舉例來說,先前所述的
中文詞「處理」,其搭配詞為英文詞handle。搭配屬性可以標註為第二語言,亦即英文。由於日常用語當中經常有中英夾雜的情況,如果輸入的複數個字中有多種語言表示的字,可以先將其翻譯成同一種語言,再利用以第二語言表示的詞X’,找出其第二語言表示的搭配詞CX’。
雖然前一段提到先翻譯詞X為第二語言表示的詞X’,再尋找搭配詞CX’的作法,但本申請也可以適用於詞X和搭配詞CX分別屬於不同語言的情況。
如上所述,一個集合當中,可以包含一個詞X與其搭配的一或多個搭配詞CX。該一或多個搭配詞CX,組成了詞X的搭配詞集合FB(X)。
在一實施例當中,為了進行專有名詞辨識,該詞X的搭配詞CX並非另一個詞,而是一個概念標籤(concept tag)。如前所述,關於人類基因名稱的辨識時,每個詞X可以對應到一個概念標籤。因此,當該搭配詞CX是一個概念標籤時,該搭配詞CX的搭配屬性可以表示其搭配關係為概念標籤。
在一實施例當中,該資料庫系統1440還可以包含多個標籤序列(label sequence),用於辨識專有名詞。每一個標籤序列包含多個標籤(tag)。每個標籤(tag)還可以包含一或多個標籤,或是另一個標籤序列,以便形成一個遞迴的結構。換言之,標籤可以對應到標籤與標籤序列的任意組合。當詞X的搭配詞CX是概念標籤(concept tag),而且該概念標籤為某一標籤序列所包含的一個標籤時,該詞X可以被視為組成該標籤序列的一分子。當該標籤序列的所有標籤都能夠各自對應到一個詞X時,則可以認為這些詞的序列為合乎該標籤序列的一個專有名詞。
使用相同的方式,如年月日或時分秒之類的時間片語,也可以表示為標籤序列。將數字當成是一種概念標籤,就可以得到時間片語。類似地,空間片語或定量結構也可以表示為標籤序列。
在一實施例當中,詞X可以是一個專有名詞,例如為各個公司行號與機關的名稱或縮寫。該詞X的搭配詞CX也是一個概念標籤(機關名稱標籤)。除了前述的基因名稱之外,也可以適用於特定機關名稱辨識。例如以下的標籤序列來標註學校全銜:[上級機關所立][專有名詞][學校層級]。「市立雨農國民小學」當中的市立即屬於[上級機關所立]的概念標籤,國民小學即屬於[學校層級]的概念標籤,而雨農則屬於專有名詞的概念標籤。
在執行步驟1910之前,已經先具備了上述的資料庫系統1440。接著,執行步驟1910,接收複數個字。這些字可以是一個句子,也可以是不成句子的名詞片語。如果是一個句子,則至少會包含一個動詞,也就是祈使句。如果是主詞加上動詞的組合,就形成一個簡單句。
在一實施例當中,步驟1910所接收的該複數個字還可以是由多個音節組成,例如先前所提到的「注音串」、「無聲調的拼音串」或「語音串」。多個音節可以組合成一個以上的字。
步驟1920:根據該資料庫,遞迴地令該複數個字組成一個以上的主體詞資料結構。例如圖1和圖2的實施例,在該複數個字當中,可以找到一或連續的多個字所組的詞能夠對應到該資料庫當中的詞X或是搭配詞CX。接著,可以遞迴地令這些詞組成依存剖析樹。在這些詞當中,可能是對應到某個集合的詞X的第一詞,也可能是對應到同一集合的搭配詞CX的第二詞,因此當兩個詞符合其搭配屬性之時,就可以幫第一詞建立依存
剖析樹,將第二詞簡化到第一詞的依存剖析樹的樹狀結構當中。
在一實施例當中,可以利用本體論的關係,將第二詞簡化到第一詞的依存剖析樹內。也就是說,在資料庫系統當中,第二詞並非屬於第一詞的搭配詞,但第二詞和第一詞的搭配詞屬於本體論當中相同的類別,因此可以動態地建立第二詞與第一詞的弱搭配關係。換言之,也就能將第二詞簡化到第一詞的依存剖析樹。
在一實施例當中,可以利用某些詞對應到的概念標籤,將其組合歸納成專有名詞、時間片語、空間片語與定量結構的標籤序列或概念序列。例如先前提到的人類基因名稱。
在簡化成多個依存剖析樹之後,可以再將這些依存剖析樹進一步遞迴地簡化成一或多個主體詞資料結構。如前所述,當主體詞資料結構的主體詞為名詞或動詞時,則其主體詞資料結構可以包含以該名詞或動詞為主的依存剖析樹結構。在圖1所示的範例當中,可以見到兩個以蘋果為第一詞的依存剖析樹結構,被簡化合併成一個依存剖析樹結構。在圖2所示的範例當中,可以見到以「給」字為第一詞的依存剖析樹。
步驟1920可以包含多個簡化子步驟。在編寫的程式語言當中,例如是C、C++或是Java等,可以遞迴地執行上述的一或多個簡化子步驟,以便形成多層的依存剖析樹的樹狀結構。這些簡化子步驟之一,可以是將根據資料庫中詞X與其FB(X)搭配關係來形成依存剖析樹的一部份。簡化子步驟之另一,可以是根據搭配屬性中的本體論的階層關係,動態地或靜態地形成依存剖析樹的一部份。簡化子步驟之一,還可以是根據資料庫中的標籤序列以及搭配屬性中的概念標籤來形成依存剖析樹的一部份。
當可以產出多個依存剖析樹而產生歧異時,可以根據搭配屬性所記載的頻率、次數或強度,來決定這些依存剖析樹的強度。當第一個依存剖析樹內的多個搭配關係的頻率、次數或強度的總和,大於第二個依存剖析樹內的多個搭配關係的頻率、次數或強度的總和時,可以認為第一個依存剖析樹的強度要大於第二個依存剖析樹。當受到計算資源或時間的限制,而無法對所有產出的多個依存剖析樹進行後續步驟,可以先對具有最大強度的依存剖析樹進行後續步驟。
例如當步驟1910接收到的是多個音節時,則可能產生多個字的組合。每一個組合都可能產生出一個依存剖析樹,也就是會造成歧異。例如,當輸入的是音節「ㄑㄧˊㄧˋ」時,會產生「歧異」、「奇異」與「歧義」三種候選詞。步驟1920可以就這三個候選詞分別進行簡化,看看它們是否能和其他的詞組成主體詞資料結構。如果有多個候選詞可以產生被簡化成多個依存剖析樹時,則同樣要依據這些依存剖析樹的強度,來判斷哪一個候選詞是正確的。
步驟1930:找出該一或多個主體詞資料結構中的主體動詞結構。在圖2所示的範例當中,可以見到以給字為主的主體動詞資料結構。由於所接收的複數個字當中,未必是一個完整的句子,當判斷結果為是時,流程走向步驟1940,否則走向步驟1950。
在一實施例當中,由於一個句子當中可能包含動詞片語或子句,使得在複數個字當中具有複數個動詞。由於步驟1930可以將動詞片語或子句簡化到另一個主體詞資料結構內,因此,在多個主體詞資料結構所形成的森林(forest)當中,應當只有一個獨立的主體動詞資料結構。當具有兩個
獨立的主體動詞資料結構時,很可能是先前提到的斷詞錯誤,流程可以回到重新採用另一個詞的組合,將某一個動詞片語或子句簡化到其中一個主體詞資料結構內。
步驟1940:根據該主體動詞資料結構的動詞框架,形成語意結構。在圖2的實施範例中,根據給字的動詞框架,可以形成一個樹狀結構的語意結構,或者稱為實例圖(instance map或是incidence map)。
步驟1950:根據一或多個主體詞資料結構,形成語意結構。在圖1的實施例當中,根據蘋果為主的依存剖析樹,可以形成一個語意結構來修飾蘋果。通常來說,如果找出主體動詞資料結構時,該語意結構應當只包含一個主體詞資料結構。如果有多個主體詞資料結構時,則可以形成一個森林型態的語意結構。
無論輸入的是哪一種語言的字或音節,所形成語意結構應該包含了所有輸入的字和音節。如果有任何輸入的字無法容納到該語意結構時,表示該語意結構有誤。
在一實施例當中,當步驟1940或1950產出多個語意結構時,可以根據其搭配屬性所記載的頻率、次數或強度,來決定這些語意結構的強度。當第一個語意結構內的多個搭配關係的頻率、次數或強度的總和,大於第二個語意結構內的多個搭配關係的頻率、次數或強度的總和時,可以認為第一個語意結構的強度與/或正確性要大於第二個語意結構。當受到計算資源或時間的限制,而無法對所有產出的多個語意結構作上下文的比對步驟時,可以輸出具有最大強度或正確性的語意結構。
請參考圖21所示,其為根據本申請一實施例的機器翻譯方法
2000的一流程示意圖。該機器翻譯方法2000可以實施於圖16所示的電子系統當中。該機器翻譯方法2000會使用到圖16所示的資料庫系統1440與一翻譯辭典。該資料庫系統1440所包含的集合有如前述,該翻譯辭典可以包含第一語言和第二語言分別表示的對應字詞。
步驟2010:接收以第一語言表示的一語意結構。該語意結構可以是步驟1940或1950所產生的語意結構,內含的字詞是以第一語言表示。
步驟2020:將該語意結構內的每一個字詞翻譯成第二語言。如前所述,在一實施例當中,當該資料庫系統1440當中具有以第一語言表示的詞X與以第二語言表示的搭配詞X’時,可以將語意結構內的該詞X翻譯為其搭配詞X’。在另一實施例當中,可以利用該翻譯辭典,將語意結構內的某詞翻譯成對應的第二語言的字詞。由於在資料庫系統1440當中的集合可能具有詞界的搭配屬性,因此在翻譯時可以更準確地根據上下文所得到的詞界,來尋找較為適當的搭配詞來翻譯。
步驟2030:根據資料庫,將該語意結構內的所有詞排列成以第二語言表示的一序列。由於在搭配屬性可能記載了搭配詞CX與詞X之間的前後順序關係,兩者是否可以緊鄰,以及搭配關係在訓練材料中出現的頻率、次數或強度,因此可以根據第二詞與第一詞之間的搭配屬性,來決定語意結構內的所有詞的排列順序。
當該語意結構表示一個完整的句子時,可以依據該語意結構中的主體動詞資料結構的動詞框架,形成該句子的各詞的順序。舉例來說,依據日文的動詞框架,將中文我吃早餐翻譯成日文時,就會出現我早餐吃的結果,其動詞與受詞的排列順序不同。換言之,透過語意結構進行輸出,
可以避免文法錯誤的問題。
再者,根據訓練材料當中,第一詞與第二詞出現的頻率、次數或強度,能讓以第二語言作為母語的人們認為翻譯較為通順,而減少出現語句不通的問題。當某一詞具有多種對應的翻譯詞時,還可以根據搭配屬性當中的詞界,來決定哪一個翻譯詞較為正確。
請參考圖22所示,其為根據本申請一實施例的機器控制方法2100的一流程示意圖。該機器控制方法2100可以實施於圖16所示的電子系統當中。
步驟2110:接收具有一主體動詞資料結構及其框架的一語意結構。該語意結構可以是步驟1940或1950所產生的語意結構。
步驟2120:根據該主體動詞資料結構當中的動詞,找出對應的一指令。舉例來說,先前段落中提到智慧家庭的控制器接收到使用者的語音指令:開啟客廳的冷氣機至26度,開啟為該語意結構當中的動詞,對應的指令就是啟動冷氣機。
可選的步驟2130;根據該主體動詞資料結構及其框架,找出該對應指令的一或多個參數。在先前的範例當中,啟動的受詞是客廳的冷氣機,即為對應指令的一個參數。26度則為該對應指令的另一個參數,即設定溫度至26度。
步驟2140:執行對應的指令。
可選的步驟2150:將收到的回應組成另一語意結構。當機器執行指令之後,可能會有回傳的訊息。由於是機器所產生的結構化訊息,因此可以按照固定的對應方式,將其轉換成另一語意結構。舉例來說,當
機器輸出回應的數字碼時,可以將回應碼對應到搭配的文字訊息,放置到該另一語意結構當中。
可選的步驟2160:可以根據資料庫,將該另一語意結構內的所有詞排列組合成一序列輸出。此步驟類似於步驟2030,但無需翻譯成第二語言。
根據本申請的一面向,提供一種自然語言處理方法,包含:接收多個輸入字;以及根據一資料庫內的多個集合,簡化該多個輸入字,以形成一或多個主體詞資料結構,其中該一或多個主體詞資料結構之一包含該多個輸入字之中的一第一輸入詞與一第二輸入詞,其中該多個集合之一包含該第一輸入詞與該第二輸入詞的搭配關係,其中該第一輸入詞與該第二輸入詞的該搭配關係包含一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第二輸入詞出現的頻率、次數或強度。
更進一步的,為了簡化具有多個搭配詞的主體詞,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集合之另一集合包含該第二輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第二輸入詞的子節點。
更進一步的,為了簡化具有片語或子句的主體詞,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集合之另一集合包含該第一輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第
二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第一輸入詞的子節點。
更進一步的,為了彌補資料庫內所含的搭配關係不足,可以利用主體論來形成搭配關係,其中該多個主體詞資料結構之另一包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該第三輸入詞與該第四輸入詞分別對應到主體論的同一階層或上下階層,該多個集合當中並不包含該第三輸入詞與第四輸入詞的搭配關係。
更進一步的,為了辨識與簡化專有名詞、時間片語、空間片語或固定格式的文意,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該資料庫更包含一標籤序列,該標籤序列包含依序排列的該第三標籤與該第四標籤。
更進一步的,為了辨識與簡化遞迴形式組成的專有名詞、時間片語、空間片語或固定格式的文意,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列與一第二標籤序列,該第一標籤序列包含依序排列的該第三標籤與該第二標籤序列,
該第二標籤序列包含依序排列的該第四標籤與該第五標籤。
更進一步的,為了簡化具有未知詞的專有名詞,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列,該第一標籤序列包含依序排列的該第三標籤、一第四標籤與該第五標籤,其中該第四輸入詞不在該多個集合當中的任何一個搭配關係中。
更進一步的,為了更精確地進行語意分析、機器翻譯與彌補資料庫內所含的搭配關係不足,其中該多個集合之一更包含一詞、與該詞搭配的一或多個搭配詞、以及下列集合屬性的其中之一或其任意組合:記載該詞之詞性的集合屬性;記載該詞表示語言的集合屬性;以及記載該詞屬於主體論之階層的集合屬性。
更進一步的,為了更精確地進行語意分析、機器翻譯與彌補資料庫內所含的搭配關係不足,其中該多個集合之一的搭配關係更包含下列搭配屬性的其中之一或其任意組合:記載該搭配關係中的一詞與該搭配詞的先後次序的搭配屬性;記載該詞與該搭配詞是否必須緊鄰的搭配屬性;記載該詞與該搭配詞的詞界的搭配屬性;記載該搭配詞表示語言的搭配屬性;記載該搭配詞是否為標籤的搭配屬性;記載該搭配詞屬於主體論之階層的搭配屬性;以及記載該搭配詞之詞性的搭配屬性。
更進一步的,為了更精確地利用語意結構來進行語意分析,
該自然語言處理方法更包含:尋找該一或多個主體詞資料結構當中的一主體動詞資料結構;當找到該主體動詞資料結構時,根據該主體動詞資料結構的動詞框架,形成樹狀結構的一語意結構;以及當找不到該主體動詞資料結構時,根據該一或多個主體資料結構形成森林型態的該語意結構,其中該語意結構包含所有的該一或多個主體詞資料結構。
更進一步的,本申請可以適用於以兩種語言表示的複數個字,其中該多個輸入字當中的至少一個輸入詞以第一語言來表示,該多個輸入字當中的另一個輸入詞以第二語言來表示。
更進一步的,為了進行機器翻譯,該自然語言處理方法更包含:將該語意結構內的每一個以第一語言表示的該輸入詞,翻譯成以第二語言表示的該輸入詞;以及根據具有以第二語言表示的該多個輸入字的該多個集合中的多個搭配關係,將該語意結構內的所有的該多個輸入字排列組成以第二語言表示的一序列。
更進一步的,為了利用資料庫中的搭配關係進行更準確的翻譯,其中該多個集合之一包含該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係,該翻譯步驟係根據該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係來進行。
更進一步的,為了利用搭配關係的強度來解決具有歧異的相依剖析樹的情況,其中該多個集合之另一包含該多個輸入字之中的該第一輸入詞與一第三輸入詞的搭配關係,該第一輸入詞與該第三輸入詞的該搭配關係包含令一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第三輸入詞出現的第二強度,該自然語言處理方法更包含:判斷該強度與該第
二強度的何者較大;當該強度較大時,將該第一輸入詞與該第二輸入詞形成該一或多個主體詞資料結構之一;以及當該第二強度較大時,將該第一輸入詞與該第三輸入詞形成該一或多個主體詞資料結構之一。
更進一步的,為了滿足語意結構必須包含所有的輸入詞,該自然語言處理方法更包含:當該強度較大時,形成另一個該主體詞資料結構,上述的另一個該主體詞資料結構包含該第三輸入詞。
更進一步的,為了解決語音輸入或音節輸入的情況,該多個輸入字包含多個音節,該第一輸入詞包含該多個音節所組成的一或多個字。
更進一步的,為了能接受語音輸入指令,該自然語言處理方法更包含:判斷該語意結構是否包含動詞框架;當該語意結構包含動詞框架時,根據該動詞框架所對應的動詞,找出對應的一指令;以及執行該指令。
更進一步的,為了能接受較為複雜的語音輸入指令,該自然語言處理方法更包含:在執行該指令之前,根據該動詞框架,在該語意結構中找出該指令的一或多個參數。
更進一步的,為了能利用自然語言回應使用者,該自然語言處理方法更包含:接收該指令執行之後的回應訊息;將該回應訊息組成一回應訊息的語意結構;以及將該回應訊息的語意結構內的所有的輸入詞排列組成一序列。
根據本申請的一面向,提供一種用於自然語言處理的計算裝置,用於執行多個指令,以實現前述的該自然語言處理方法。
1900:自然語言處理方法
1910~1960:步驟
Claims (20)
- 一種自然語言處理方法,包含:接收多個輸入字;以及根據一資料庫內的多個集合,簡化該多個輸入字,以形成一或多個主體詞資料結構,其中該一或多個主體詞資料結構之一包含該多個輸入字之中的一第一輸入詞與一第二輸入詞,其中該多個集合之一包含該第一輸入詞與該第二輸入詞的搭配關係,其中該第一輸入詞與該第二輸入詞的該搭配關係包含一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第二輸入詞出現的強度。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集合之另一集合包含該第二輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第二輸入詞的子節點。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該主體詞資料結構之一包含該多個輸入字之中的一第三輸入詞,其中該多個集合之另一集合包含該第一輸入詞與該第三輸入詞的搭配關係,其中該主體詞資料結構包含一樹狀結構,該第一輸入詞為該樹狀結構的根節點,該第二輸入詞為該第一輸入詞的子節點,該第三輸入詞為該第一輸入詞的子節點。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個主體詞資料結構之另一包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該第三輸入詞與該第四輸入詞分別對應到主體論的同一階層或上下階層,該多個集合當中並不包含該第三輸入詞與第四輸入詞的搭配關係。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞與一第四輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該資料庫更包含一標籤序列,該標籤序列包含依序排列的該第三標籤與該第四標籤。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第四集合包含該第四輸入詞與一第四標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列與一第二標籤序列,該第一標籤序列包含依序排列的該第三標籤與該第二標籤序列,該第二標籤序列包含依序排列的該第四標籤與該第五標籤。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個主體詞資料結構之另一包含一專有名詞,該專有名詞依序包含該多個輸入字之中的一第三輸入詞、一第四輸入詞與一第五輸入詞,該多個集合之一第三集合包含該第三輸入詞與一第三標籤的搭配關係,該多個集合之一第五集合包含該第五輸入詞與一第五標籤的搭配關係,該資料庫更包含一第一標籤序列,該第一標籤序列包含依序排列的該第三標籤、一第四標籤與該第五標籤,其中該第四輸入詞不在該多個集合當中的任何一個搭配關係中。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個集合之一更包含一詞、與該詞搭配的一或多個搭配詞、以及下列集合屬性的其中之一或其任意組合:記載該詞之詞性的集合屬性;記載該詞表示語言的集合屬性;以及記載該詞屬於主體論之階層的集合屬性。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個集合之一的搭配關係更包含下列搭配屬性的其中之一或其任意組合:記載該搭配關係中的一詞與該搭配詞的先後次序的搭配屬性;記載該詞與該搭配詞是否必須緊鄰的搭配屬性;記載該詞與該搭配詞的詞界的搭配屬性;記載該搭配詞表示語言的搭配屬性;記載該搭配詞是否為標籤的搭配屬性;記載該搭配詞屬於主體論之階層的搭配屬性;以及記載該搭配詞之詞性的搭配屬性。
- 如申請專利範圍第1項所述的自然語言處理方法,更包含:尋找該一或多個主體詞資料結構當中的一主體動詞資料結構;當找到該主體動詞資料結構時,根據該主體動詞資料結構的動詞框架,形成樹狀結構的一語意結構;以及當找不到該主體動詞資料結構時,根據該一或多個主體資料結構形成森林型態的該語意結構,其中該語意結構包含所有的該一或多個主體詞資料結構。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個輸入字當中的至少一個輸入詞以第一語言來表示,該多個輸入字當中的另一個輸入詞以第二語言來表示。
- 如申請專利範圍第10項所述的自然語言處理方法,更包含:將該語意結構內的每一個以第一語言表示的輸入詞,翻譯成以第二語言表示的該輸入詞;以及根據具有以第二語言表示的該多個輸入字的該多個集合中的多個搭配關係,將該語意結構內的所有的該多個輸入字排列組成以第二語言表示的一序列。
- 如申請專利範圍第12項所述的自然語言處理方法,其中該多個集合之一包含該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係,該翻譯步驟係根據該第一語言表示的該輸入詞與該第二語言表示的該輸入詞的搭配關係來進行。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個集合之另一包含該多個輸入字之中的該第一輸入詞與一第三輸入詞的搭配關係,該第一輸入詞與該第三輸入詞的該搭配關係包含一搭配屬性,用於記載在訓練語料中該第一輸入詞與該第三輸入詞出現的第二強度,該自然語言處理方法更包含:判斷該強度與該第二強度的何者較大;當該強度較大時,將該第一輸入詞與該第二輸入詞形成該一或多個主體詞資料結構之一;以及當該第二強度較大時,將該第一輸入詞與該第三輸入詞形成該一或多個主體詞資料結構之一。
- 如申請專利範圍第14項所述的自然語言處理方法,更包含:當該強度較大時,形成另一個該主體詞資料結構,上述的另一個該主體詞資料結構包含該第三輸入詞。
- 如申請專利範圍第1項所述的自然語言處理方法,其中該多個輸入字包含多個音節,該第一輸入詞包含該多個音節所組成的一或多個字。
- 如申請專利範圍第10項所述的自然語言處理方法,更包含:判斷該語意結構是否包含動詞框架;當該語意結構包含動詞框架時,根據該動詞框架所對應的動詞,找出對應的一指令;以及執行該指令。
- 如申請專利範圍第17項所述的自然語言處理方法,更包含:在執行該指令之前,根據該動詞框架,在該語意結構中找出該指令的一或多個參數。
- 如申請專利範圍第17項所述的自然語言處理方法,更包含:接收該指令執行之後的回應訊息;將該回應訊息組成一回應訊息的語意結構;以及將該回應訊息的語意結構內的所有的輸入詞排列組成一序列。
- 一種用於自然語言處理的計算裝置,用於執行多個指令,以實現申請專利範圍第1項至第19項其中之一所述的該自然語言處理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962937961P | 2019-11-20 | 2019-11-20 | |
US62/937,961 | 2019-11-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202121230A true TW202121230A (zh) | 2021-06-01 |
TWI735380B TWI735380B (zh) | 2021-08-01 |
Family
ID=75907821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109140262A TWI735380B (zh) | 2019-11-20 | 2020-11-17 | 自然語言處理方法與其計算裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568151B2 (zh) |
CN (1) | CN112825111A (zh) |
TW (1) | TWI735380B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7468398B2 (ja) * | 2021-02-17 | 2024-04-16 | トヨタ自動車株式会社 | 情報処理装置、プログラム及び情報処理方法 |
CN113609860B (zh) * | 2021-08-05 | 2023-09-19 | 湖南特能博世科技有限公司 | 文本切分方法、装置及计算机设备 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US7593845B2 (en) * | 2003-10-06 | 2009-09-22 | Microsoflt Corporation | Method and apparatus for identifying semantic structures from text |
US8364468B2 (en) * | 2006-09-27 | 2013-01-29 | Academia Sinica | Typing candidate generating method for enhancing typing efficiency |
US9645993B2 (en) * | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
CN102117281B (zh) * | 2009-12-30 | 2013-05-08 | 北京亿维讯科技有限公司 | 一种构建领域本体的方法 |
US8478581B2 (en) * | 2010-01-25 | 2013-07-02 | Chung-ching Chen | Interlingua, interlingua engine, and interlingua machine translation system |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
US10810368B2 (en) * | 2012-07-10 | 2020-10-20 | Robert D. New | Method for parsing natural language text with constituent construction links |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
CN103207856B (zh) * | 2013-04-03 | 2015-10-28 | 同济大学 | 一种本体概念及层次关系生成方法 |
US9519634B2 (en) * | 2014-05-30 | 2016-12-13 | Educational Testing Service | Systems and methods for determining lexical associations among words in a corpus |
US9767093B2 (en) * | 2014-06-19 | 2017-09-19 | Nuance Communications, Inc. | Syntactic parser assisted semantic rule inference |
US9626358B2 (en) * | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US20160283523A1 (en) * | 2015-03-24 | 2016-09-29 | International Business Machines Corporation | Schema generation using natural language processing |
CN105320644B (zh) * | 2015-09-23 | 2018-01-02 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
US10509855B2 (en) * | 2016-03-02 | 2019-12-17 | International Business Machines Corporation | Dynamic facet tree generation |
US10133724B2 (en) * | 2016-08-22 | 2018-11-20 | International Business Machines Corporation | Syntactic classification of natural language sentences with respect to a targeted element |
WO2018126325A1 (en) * | 2017-01-06 | 2018-07-12 | The Toronto-Dominion Bank | Learning document embeddings with convolutional neural network architectures |
US10699077B2 (en) * | 2017-01-13 | 2020-06-30 | Oath Inc. | Scalable multilingual named-entity recognition |
US20180225372A1 (en) * | 2017-02-03 | 2018-08-09 | Accenture Global Solutions Limited | User classification based on multimodal information |
JP6815899B2 (ja) * | 2017-03-02 | 2021-01-20 | 東京都公立大学法人 | 出力文生成装置、出力文生成方法および出力文生成プログラム |
US10417269B2 (en) * | 2017-03-13 | 2019-09-17 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for verbatim-text mining |
US10216724B2 (en) * | 2017-04-07 | 2019-02-26 | Conduent Business Services, Llc | Performing semantic analyses of user-generated textual and voice content |
US10445429B2 (en) * | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10733538B2 (en) * | 2017-09-29 | 2020-08-04 | Oracle International Corporation | Techniques for querying a hierarchical model to identify a class from multiple classes |
US10474478B2 (en) * | 2017-10-27 | 2019-11-12 | Intuit Inc. | Methods, systems, and computer program product for implementing software applications with dynamic conditions and dynamic actions |
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
US11023461B2 (en) * | 2018-01-19 | 2021-06-01 | Servicenow, Inc. | Query translation |
US11269929B2 (en) * | 2018-05-04 | 2022-03-08 | International Business Machines Corporation | Combining semantic relationship information with entities and non-entities for predictive analytics in a cognitive system |
CN111914533A (zh) * | 2019-05-07 | 2020-11-10 | 广东小天才科技有限公司 | 一种解析英语长句的方法及系统 |
-
2020
- 2020-11-17 US US17/099,867 patent/US11568151B2/en active Active
- 2020-11-17 CN CN202011282856.4A patent/CN112825111A/zh active Pending
- 2020-11-17 TW TW109140262A patent/TWI735380B/zh active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
US20210150148A1 (en) | 2021-05-20 |
US11568151B2 (en) | 2023-01-31 |
TWI735380B (zh) | 2021-08-01 |
CN112825111A (zh) | 2021-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250842B2 (en) | Multi-dimensional parsing method and system for natural language processing | |
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
TWI735380B (zh) | 自然語言處理方法與其計算裝置 | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
US20090198642A1 (en) | Method and system for generating an ontology | |
JP2013502643A (ja) | 構造化データ翻訳装置、システム及び方法 | |
JP2015505082A (ja) | 情報ドメインに対する自然言語処理モデルの生成 | |
CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
WO2010051966A1 (en) | Method for semantic processing of natural language using graphical interlingua | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
Shekarpour et al. | Question answering on linked data: Challenges and future directions | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Alsudias et al. | Developing an Arabic infectious disease ontology to include non-standard terminology | |
Liebeskind et al. | Semiautomatic construction of cross-period thesaurus | |
Dar et al. | Frameworks for querying databases using natural language: a literature review | |
EP2184685A1 (en) | Method for semantic processing of natural language using graphical interlingua | |
Littell et al. | The ARIEL-CMU situation frame detection pipeline for LoReHLT16: a model translation approach | |
Remus et al. | EmpiriST: AIPHES-robust tokenization and POS-tagging for different genres | |
US20200089697A1 (en) | System and method for parsing user query | |
KR102632539B1 (ko) | 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법 | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
US20220334808A1 (en) | Methods, systems, and computer readable media for creating and using minimum dictionary language (mdl) to access data in closed-domain data sets | |
Dung et al. | Ontology-based information extraction and information retrieval in health care domain | |
Savary et al. | ProlexFeeder–Populating a Multilingual Ontology of Proper Names from Open Sources | |
Gondal et al. | No Sql-Not Obligatory Sql (Natural Language To Sql Conversion) |