TWI685760B

TWI685760B - 自然語言的語義解析方法

Info

Publication number: TWI685760B
Application number: TW107107956A
Authority: TW
Inventors: 張國峰; 蔡勇; 劉燦; 石淵
Original assignee: 威盛電子股份有限公司
Priority date: 2018-01-10
Filing date: 2018-03-08
Publication date: 2020-02-21
Also published as: TW201931158A; CN107943793A

Abstract

一種自然語言的語義解析方法。基於語法規則集分析目標語料而獲得語法。在判定語法包括需要進行驗證的語義槽之後，查詢內建知識庫中是否存在與語義槽的槽值相匹配的結果。當無法獲得與槽值相匹配的結果時，判定槽值的語義不正確。當獲得與槽值相匹配的結果時，輸出語法的語義分析結果。

Description

自然語言的語義解析方法

本發明是有關於一種自然語言處理方法，且特別是有關於一種自然語言的語義解析方法。

自然語言處理（Natural Language Processing，NLP）是人工智慧和語言學領域的分支學科。自然語言處理涵蓋的議題相當廣泛，包括：斷詞（word segmentation）、詞性標記（part-of-speech tagging）、專有名詞標記（name entity tagging）、詞義消歧（word sense disambiguation）、代名詞釋義（pronoun resolution）、句法剖析、文法比對、語義角色標註（semantic role labeling）、語義邏輯推論、自動音譯、機器翻譯、語音辨識、語音合成等。

自然語言處理是針對人類語言文字進行各種自動化處理的技術，其目標是要讓電腦認識、分析、理解、合成人類語言，進行各式運算，希望最終能以自然語言為媒介，讓電腦跟人類順暢的溝通，以完成各項指定的任務。而隨著科技的進步，自然語言處理的應用越來越廣泛。因此，如何讓自然語言處理更為簡化及方便則為目前的研究課題之一。

本發明提供一種自然語言的語義解析方法，可確保下游應用程式獲得的語義是正確的語義。

本發明的自然語言的語義解析方法，包括：基於語法規則集匹配目標語料而獲得匹配成功的語法；檢查語法是否包括需要進行驗證的語義槽；在判定語法包括需要進行驗證的語義槽的情況下，查詢內建知識庫中是否存在與語義槽的槽值相匹配的結果；當無法獲得與槽值相匹配的結果時，判定槽值的語義不正確；以及當獲得與槽值相匹配的結果時，輸出語法的語義分析結果。

在本發明的一實施例中，所述內建知識庫包括多個資料庫，而在判定語法包括需要進行驗證的語義槽的情況下，基於語義槽的槽驗證類別，自所述資料庫中取出對應的其中一個來進行查詢。

在本發明的一實施例中，所述語義解析方法更包括：在判定語法不包括需要進行驗證的語義槽的情況下，輸出語法的語義分析結果。

在本發明的一實施例中，在獲得語法之後，更包括：在判定語法中包括指代詞時，根據目標語料的上文語料對應的另一語法來獲得指代詞對應的詞彙；以及驗證詞彙的語義。

在本發明的一實施例中，在獲得語法之後，更包括：在判定語法中包括指代詞時，提示詢問訊息。

在本發明的一實施例中，所述語義解析方法更包括：根據語義槽的引用類別，記錄語義槽對應的詞彙。

在本發明的一實施例中，所述語義解析方法更包括：提供修飾符，其中修飾符用以記錄前次匹配語義。而在獲得與槽值相匹配的結果之後，更包括：根據語法是否記載該修飾符，輸出匹配答案。

基於上述，將語義槽的驗證放到語義解析的過程中，可確保下游應用程式獲得的語義是正確的語義，而不需要再進行驗證，加快和簡化了應用程式的開發。並且，將指代消解的過程放到語義解析的過程中，可確保下游應用程式獲得的是完整的語義。另外，可根據不同的情況和語境來輸出匹配答案，使得回答的內容更符合預期，從而簡化了應用程式開發的難度。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1，電子裝置100為具有運算能力的電子裝置，例如為桌上型電腦、筆記型電腦、平板電腦、智慧型手機、智慧型手錶、雲端伺服器等。

電子裝置100包括處理器110、語義解析器120以及儲存器130。處理器110耦接至語義解析器120以及儲存器130。處理器110驅動語義解析器120來執行自然語言的語義解析方法。

處理器110例如為中央處理單元（Central Processing Unit，CPU）、圖像處理單元（Graphic Processing Unit，GPU）、物理處理單元（Physics Processing Unit，PPU）、可程式化之微處理器（Microprocessor）、嵌入式控制晶片、數位訊號處理器（Digital Signal Processor，DSP）、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）或其他類似裝置。語義解析器120例如為嵌入式控制晶片的硬體設備，亦可以是由程式語言撰寫而成的軟體模組。

儲存器130例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、安全數位卡（Secure Digital Memory Card，SD）、硬碟或其他類似裝置或這些裝置的組合。儲存器130包括內建知識庫131。

圖2是依照本發明一實施例的自然語言的語義解析方法的流程圖。請參照圖1及圖2，在步驟S205中，語義解析器120基於語法規則集去匹配目標語料而獲得匹配成功的語法（grammar）。此語法是構成語義理解支持的主要元素，通過匹配結果能得到一種語義結構解析描述句。語法中還可以包含全局修飾符，以及槽修飾符，修飾符由寫語法的人自行定義。修飾符的值會體現在語義結構中。

在使用自然語言語義開發應用程式時，主要的語義生成方法都是基於喬姆斯基範式（Chomsky normal form）編寫語法規則，當一句語料符合一個語法規則時，就會得到一個語義結構。

例如，假設語料為“上海的市長是誰”，在經由語義解析器120進行結構分析之後，會獲得底下語法。＜grammar1＞:＜slot_city＞的市長是誰

在獲得語法之後，在步驟S210，語義解析器120檢查語法是否包括需要進行驗證的語義槽（slot）。例如，假設手機語音助手（一種應用程式）中定義了需要驗證的語義槽的槽驗證類別包括歌名、歌手、詩名、詩人、地名、國家、城市、名人。當在語法中出現上述槽驗證類別時，便需要進一步來進行驗證。

在判定語法包括需要進行驗證的語義槽的情況下，如步驟S215所示，語義解析器120查詢內建知識庫131是否存在與語義槽的槽值相匹配的結果。當無法獲得與槽值相匹配的結果時，在步驟S220中，判定槽值的語義不正確。當獲得與槽值相匹配的結果時，在步驟S225，輸出語法的語義分析結果。另外，在步驟S210中判定語法不包括需要進行驗證的語義槽的情況下，如步驟S225所示，輸出語法的語義分析結果。

舉例來說，假設獲得的目標語料為“中國的市長是誰”，在經由語義解析器120獲得下述語法。＜grammar1＞:＜slot_city＞的市長是誰

接著，語義解析器120對語義槽＜slot_city＞進行驗證。在此，語義槽＜slot_city＞的槽驗證類別事先被設為城市，因此自與城市對應的內建知識庫中以其槽值（即“中國”）進行查詢。由於“中國”不是隸屬於城市的詞彙，無法獲得與其相匹配的結果，因此，判定這個語義不正確，拒絕這個語義。

又例如，假設獲得的目標語料為“上海的市長是誰”，在經由語義解析器120獲得下述語法。＜grammar1＞:＜slot_city＞的市長是誰

由於“上海”為隸屬於城市的詞彙，因此，在獲得與其相匹配的結果之後，判定所述語義正確，因而輸出相關聯的語義分析結果。

另外，假設目標語料為“我要聽張三的歌”，在經由語義解析器120匹配之後獲得底下兩個語法。＜grammar1＞:我要聽＜singer＞的歌＜grammar2＞:我要聽＜songname＞

在此，語義槽＜singer＞、＜songname＞事先被分別指定的槽驗證類別為歌手及歌曲。當目標語料“我要聽張三的歌”進入語義解析器120時，可同時匹配＜grammar1＞和＜grammar2＞。在匹配＜grammar1＞時，從目標語料中拿到的槽值為“張三”。而在經過語義解析器120的驗證後發現“張三”不是歌手，因此＜grammar1＞這個語法是廢棄的。而在匹配上＜grammar2＞時，從目標語料中拿到的槽值為“張三的歌”。而在經過語義解析器120的驗證後，證實“張三的歌”與內建知識庫131中記載的結果相匹配，符合語法中指定的語義槽＜songname＞必須是個歌曲名。因此，表示語法＜grammar2＞的語義才是正確的。

在本實施例中，在儲存器130的內建知識庫131中還可進一步基於不同的槽驗證類別來建立多個資料庫。例如，根據歌名、歌手、詩名、詩人、地名、國家、城市、名人等槽驗證類別來建立多個資料庫。據此，在判定語法包括需要進行驗證的語義槽的情況下，語義解析器120會基於語義槽的槽驗證類別，取出對應的一個資料庫來進行查詢。

內建知識庫131的資料補充有兩種方式，一種是通過網路爬蟲（web crawler）從各個網頁來抓取資料，另一種是讓應用程式的開發者上傳資料，使用者上傳的資料經過審核後可以自動加入到內建知識庫131。

另外，在獲得語法之後，還可進一步來處理語法中的指代消解。圖3是依照本發明一實施例的指代消解方法的流程圖。請參照圖3，在圖2所示的步驟S205之後，更包括步驟S310～S320。

在步驟S310中，語義解析器120檢查語法中是否包括指代詞。在判定語法中包括指代詞時，在步驟S315中，語義解析器120根據目標語料的上文語料對應的另一語法來獲得指代詞對應的詞彙。之後，在步驟S320中，驗證所述詞彙的語義。即，在獲得指代詞對應的詞彙之後，由語義解析器120進行驗證程序。例如，執行步驟S210～步驟S225。

假設獲得的語法如下。＜grammar＞:＜slot_reference_people＞唱過什麼歌其中，＜slot_reference_people＞:他|那個人

上述語法可以匹配到“他唱過什麼歌”、“那個人唱過什麼歌”這兩種說法，根據匹配結果，可以得到一個語義結構，此語意含有語意槽＜slot_reference_people＞，此槽的值是“他”或“那個人”。假如不進行指代消解的話，直接將語義返回給應用程式，應用程式是沒辦法直接處理的。

為了實現指定消解的方法，開發者可為語義槽設置槽的引用類別（常見的例如：人物、時間、地點等）。並且給此槽在引用句式的語法中加上槽修飾符“last”。據此，在語義解析過程中，當引用句式的語法被語料匹配上時，語義解析器120發現此語意槽有“last”修飾符時就可以根據語義槽對應的引用類別而從上文語料中來尋找相關內容。

舉例來說，假設有以下語義槽的槽定義及語法，其中的＜{slot_reference_people@=last}＞表示這句語法匹配上後給出的語義槽會有一個修飾符“last”。＜grammar1＞:＜slot_people＞是哪一年出生的＜slot_people＞(reference_type:人物) ＜grammar2＞: 他＜{slot_reference_people@=last}＞唱過什麼歌＜slot_reference_people＞ (reference_type :人物)

第一條目標語料“劉德華是哪一年出生的”在被語法＜grammar1＞匹配上之後，語義解析器120會根據語義槽＜slot_people＞對應的槽引用類別“人物”，將其對應的詞彙“劉德華”（即語義槽＜slot_people＞對應的槽值）作為人物記錄下來。之後，當第二條目標語料“他唱過什麼歌”匹配上語法＜grammar2＞的時候，語義解析器120發現槽＜slot_reference_people＞存在“last”修飾符，便會去之前記錄下來的資訊中查找與“＜slot_reference_people＞”的引用類別一致的記錄，這時候就可以獲得作為人物而記錄的詞彙“劉德華”，指代消除的工作也就完成了。

在此，如果存在指代關係，就在之前保存的上文資訊中對應的引用類別裡獲取指代內容，並對獲取到的內容進行驗證，如果驗證成功才輸出語義，否則不輸出（是否需要對指代內容進行驗證可以由開發者在開發過程中指定）。

底下再舉一例來說明答案匹配方法的各步驟。圖4是依照本發明一實施例的答案的匹配方法流程圖。答案是指當應用程式的邏輯是類似一問一答的情形時，這時可以把答案和語法關聯起來，當某句語料匹配上某個語法，語義解析器120可以直接給出和這個語法關聯的答案。本發明給出的方法能夠結合不同的上文給出不同的答案。請參照圖4，在步驟S405中，接收一目標語料。接著，在步驟S410中，透過語義解析器120分析目標語料，以獲得對應的語法。之後，在步驟S415中，驗證語法的語義。如同步驟S210～步驟S225所示，透過語義解析器120來驗證語義是否正確。在判定語義正確之後，在步驟S420中，結合上文語法的全局修飾符（modifier），來挑選更合適的答案。

在理解上文的能力上，語義解析器120會每次把當前語法對應的全局修飾符（如有）記錄下來。在答案中用這個修飾符去判斷上次的語義，用選擇功能來選擇本次回答的內容，就可以更好的針對語境來做出本次回答。

以下述語法來舉例說明：＜grammar2＞:你吃飯了嗎＜{@=eat}＞＜answer2＞:{“lastmodifier”: [{“eat”:“你失憶了嗎？你剛剛問過了！”}, {“default”:“還沒有呢！你要請我吃大餐嗎？”}]}

在此，語法＜grammar2＞中的＜{@=eat}＞表示這句語法有全局修飾符“eat”，當語法被匹配上時，語義結構中會有全局修飾符”eat”這個資訊。答案＜answer2＞中的“lastmodifier”為取得上一次目標語料對應的語法的修飾符，＜answer2＞的含義表示當“lastmodifier”為“eat”時輸出答案“你失憶了嗎？你剛剛問過了！”；如果不是“eat”，則輸出“default”的匹配答案，即，“還沒有呢！你要請我吃大餐嗎？”。

例如，在第一次問“你吃飯了嗎”匹配到語法＜grammar2＞時，當前的語法的全局修飾符為“eat”但是代表上一個語法的全局修飾符“lastmodifier”為空值，不等於“eat”，所以輸出的匹配答案是“還沒有呢！你要請我吃大餐嗎？”。倘若緊接著再次說“你吃飯了嗎”，又匹配到語法＜grammar2＞，由於上次匹配的語法的全局修飾符是“eat”，所以“lastmodifier”為“eat”，輸出的匹配答案則是“你失憶了嗎？你剛剛問過了！”。

另外，在本實施例中，在答案中還可進一步加入固定格式的變數，使得答案可編輯，同一個答案可以輸出不同的內容。舉例來說，假設目標語料為“現在幾點了”，就可以在其對應的答案中加一個當前時間的變數。如底下語法所示。＜grammar1＞:現在幾點了＜answer1＞:現在是＜time＞

語法＜grammar1＞對應的答案輸出為＜answer1＞。在＜answer1＞中，＜time＞屬於特殊變數，由語意解析器120替換成格式為“x點x分”的當前時間。即，如果測試時間為11點20分，輸出答案則是“現在是11點20分”。據此，在答案的選擇上將會更貼近一般對談。

另外，在判定語法中包括指代詞時，在無法自上文語料來獲得對應的指代詞時，還可提示一詢問訊息來主動詢問使用者。例如，使用者提問了“他唱過什麼歌？”，而應用程式在發現存在指代詞但無法自上文語料來獲得對應的指代詞時，認為是缺失了資訊，便主動詢問使用者“你想要查誰唱過的歌？”。

綜上所述，本發明將語義槽的驗證放到語義解析的過程中，在匹配規則成功後不是馬上輸出語義，而是檢查是否有需要驗證的語義槽，如果有則利用內置知識庫來進行驗證，在驗證成功之後才輸出語義，否則不輸出。如此可保證下游的應用程式拿到的語義永遠是正確的。另外，亦將指代消解的過程放到語義解析的過程中，在語法規則匹配成功後不是直接輸出語義，而是繼續檢查語義中是否包含指代詞，如果存在指代詞，就在先前保存的上文資訊中來獲取指代的內容，之後對獲取到的內容進行驗證，如果驗證成功才輸出語義，否則不輸出。並且，在答案中加入特定的變數，根據變數的值來選擇不同的輸出內容，解決了無法靈活編輯和無法根據上文語境輸出的問題。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100‧‧‧電子裝置110‧‧‧處理器120‧‧‧語義解析器130‧‧‧儲存器131‧‧‧內建知識庫S205～S225‧‧‧自然語言的語義解析方法各步驟S310～S320‧‧‧指代消解方法的各步驟S405～S420‧‧‧答案的匹配方法各步驟

圖1是依照本發明一實施例的電子裝置的方塊圖。圖2是依照本發明一實施例的自然語言的語義解析方法的流程圖。圖3是依照本發明一實施例的指代消解方法的流程圖。圖4是依照本發明一實施例的答案的匹配方法流程圖。

S205~S225‧‧‧自然語言的語義解析方法各步驟

Claims

一種自然語言的語義解析方法，包括：基於一語法規則集匹配一目標語料而獲得匹配成功的一語法；檢查該語法是否包括需要進行驗證的一語義槽；在判定該語法包括需要進行驗證的該語義槽的情況下，查詢一內建知識庫中是否存在與該語義槽的一槽值相匹配的結果；當無法獲得與該槽值相匹配的結果時，判定該槽值的語義不正確；以及當獲得與該槽值相匹配的結果時，輸出該語法的一語義分析結果。
如申請專利範圍第1項所述的自然語言的語義解析方法，其中該內建知識庫包括多個資料庫，而在判定該語法包括需要進行驗證的該語義槽的情況下，基於該語義槽的槽驗證類別，自所述資料庫中取出對應的其中一個來進行查詢。
如申請專利範圍第1項所述的自然語言的語義解析方法，更包括：在判定該語法不包括需要進行驗證的該語義槽的情況下，輸出該語法的該語義分析結果。
如申請專利範圍第1項所述的自然語言的語義解析方法，其中在獲得該語法之後，更包括：在判定該語法中包括一指代詞時，根據該目標語料的一上文語料對應的另一語法來獲得該指代詞對應的一詞彙；以及驗證該詞彙的語義。
如申請專利範圍第1項所述的自然語言的語義解析方法，其中在獲得該語法之後，更包括：在判定該語法中包括一指代詞時，提示一詢問訊息。
如申請專利範圍第1項所述的自然語言的語義解析方法，更包括：根據該語義槽的引用類別，記錄該語義槽對應的詞彙。
如申請專利範圍第1項所述的自然語言的語義解析方法，更包括：提供一修飾符，其中該修飾符用以記錄前次匹配語義；其中，在獲得與該槽值相匹配的結果之後，更包括：根據該語法是否記載該修飾符，輸出一匹配答案。