TWI754445B

TWI754445B - 智慧信息處理系統與方法

Info

Publication number: TWI754445B
Application number: TW109138606A
Authority: TW
Inventors: 邱仁鈿
Original assignee: 碩網資訊股份有限公司
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-02-01
Also published as: TW202219818A

Abstract

本發明之目的，在於透過導入模糊檢索演算法，藉由所輸入的問題，判斷上下文關係，改善轉換訓練模型用於問答任務主詞不明確時，無法回答問題的缺點。本發明的智慧信息處理系統與方法，包含：問句輸入模組，供用戶輸入問句；問句處理模組，將輸入的問句轉換為問句文本，其中，問句處理模組包含問句儲存單元，儲存訓練文本；文本儲存模組，儲存數個主題文本，並具有與問句文本與訓練文本對應的主題；問句比對模組，包含轉換(Bert)比對單元與模糊(Fuzzy)比對單元，將主題文本與訓練文本、問句文本進行比對，並從主題文本中挑選出回應文本，回應予用戶。

Description

智慧信息處理系統與方法

本發明涉及一種智慧信息處理系統，更詳而言之，為一種以模糊檢索演算法，推斷問題語意之信息處理系統。

近年來，得益於人工智慧各類演算法的發展，配合各大入口網站的搜索工具，使用戶能藉由語音對答的方式，透過智能客服、智慧語音助理等工具於龐大的資訊量下，使用戶以語音對話獲取訊息成為可能。現有的智慧語音助理，大多基於轉換訓練模型(Transformer Pre Trained Model)，如BERT(Bidirectional Encoder Representations from Transformers)、XLNet、RoBERTa，其在用於自然語言理解，以及問答任務(Question Answering，QA)時，通常需將問題本身，和問題的回覆(或和問題有關連性的文本)一起作為輸入文本，然後用自注意力機制(Self-Attention Mechanism)對輸入文本進行多層交互編碼，最後用線性分類器將問題所對應的答案(即文本內容)加以排列後輸出。然而，以上將問題-文本回覆的預訓練模型得到的回答是問題相關的，但相關文本除了內容龐大外，當問題具有上下文連貫，或缺少主題(主詞)時，現有的轉換訓練模型往往無法有效回覆問題。

舉例來說，當用戶輸入「某銀行有哪些信用卡？」時，由於轉換訓練模型已經針對各式信用卡的文本內容進行過訓練，因此將可以預期智慧語音助理的回應，將為信用卡的種類(如尊爵卡、白金卡、鑽石卡等各類信用卡方案)。然而，當接著輸入「那申請方式為何？」時，由於問題本身缺少主題(例如上述問題中，缺少了某銀行，以及信用卡此一主題或主詞)，此時自注意力機制並無法將所輸入的問題連結到相關的文本內容，而轉換訓練模型也沒有將「某銀行有哪些信用卡？」與「那申請方式為何？」兩個前後相關的問題進行過預先的訓練，因此現有的轉換訓練模型並無法使智慧語音助理，進行預期中諸如申請信用卡的條件、需填寫的資料等回答。因此，基於上述現有轉換訓練模型作為自然語言處理時，仍然不夠自然流暢，使其存在每個問題的上下文意之間無任何連結關係的缺點，現有的智慧語音助理，依然具有進一步改進的空間。

為解決上述問題，本發明提出一種智慧信息處理系統，其系統架構，包含：問句輸入模組，供用戶輸入問句；問句處理模組，耦接問句輸入模組，將所輸入的問句轉換為一問句文本，其中，問句處理模組包含問句儲存單元，儲存訓練文本，所述訓練文本為預訓練的標準問句；文本儲存模組，儲存複數個主題文本，所述主題文本為上述標準問句相關聯的文章內容，其具有與問句文本與訓練文本相對應的主題或主詞；問句比對模組，耦接問句處理模組，將主題文本與訓練文本、問句文本進行比對，並從主題文本中挑選出一回應文本，其中，問句比對模組包含轉換(Bert)比對單元，計算問句文本與主題文本間一相關的門檻值，當門檻值小於預設值時，則選擇上一個問句文本所對應主題的主題文本；以及，回應模組，當門檻值大於預設值時，將所挑選出的回應文本輸出予用戶。

根據本發明之內容，所述問句比對模組更包含一模糊(Fuzzy)比對單元，當問句文本與主題文本間的門檻值小於一預設值，且上一個問句文本與主題文本間的門檻值同樣小於一預設值時，則模糊比對單元以近似比對(Fuzzy Answer Rule)的方式，檢索與問句文本最接近的訓練文本，在本發明一實施例中，該近似比對包含將問句文本的字串進行插入、刪除、替換或轉置。

根據本發明之內容，問句處理模組包含問句儲存單元，以儲存標準問句，並轉換為訓練文本，其中所述的訓練文本可在用戶輸入問句前，先行與文本儲存模組中的主題文本對應以進行預訓練，且在預訓練結束後，該訓練文本可被用作用戶輸入的問句文本的語意解析。

根據本發明之內容，問句處理模組包含問句儲存單元，將用戶輸入的問句與問句儲存單元中的標準問句進行比對，當所輸入的問句和標準問句的相似度達到一門檻值時，則問句比對模組藉由問句儲存單元所儲存的訓練文本，與主題文本的主題進行比對，以增進智慧信息處理系統的精確度與處理速度。

100:智慧信息處理系統

101:問句輸入模組

103:問句處理模組

103a:問句儲存單元

105:問句比對模組

105a:轉換比對單元

105c:模糊比對單元

107:文本儲存模組

109:回應模組

200:智慧信息處理方法

S1-S7:執行步驟

如下所述之對本發明的詳細描述與實施例之示意圖，應使本發明更被充分地理解；然而，應可理解此僅限於作為理解本發明應用之參考，而非限制本發明於一特定實施例之中。

圖1係說明智慧信息處理系統的系統架構。

圖2係說明智慧信息處理系統處理具上下文連貫問句時的回應方式。

圖3係進一步說明問句比對模組的詳細架構。

圖4係說明智慧信息處理方法的執行流程。

本發明將以較佳之實施例及觀點加以詳細敘述。下列描述提供本發明特定的施行細節，俾使閱者徹底瞭解這些實施例之實行方式。然該領域之熟習技藝者須瞭解本發明亦可在不具備這些細節之條件下實行。此外，本發明亦可藉由其他具體實施例加以運用及實施，本說明書所闡述之各項細節亦可基於不同需求而應用，且在不悖離本發明之精神下進行各種不同的修飾或變更。本發明將以較佳實施例及觀點加以敘述，此類敘述係解釋本發明之結構，僅用以說明而非用以限制本發明之申請專利範圍。以下描述中使用之術語將以最廣義的合理方式解釋，即使其與本發明某特定實施例之細節描述一起使用。此外，本發明所述的智慧信息處理系統(100)，可以程式碼的型態被安裝於於實體媒體，例如：軟碟、光碟片、硬碟、或是任何其他終端(例如電腦、智慧手機、平板電腦、智慧穿戴裝置)的可讀取儲存媒體；其中當程式碼被終端載入且執行時，此終端變成用以實現本發明之裝置。本發明之系統的任意元件也可以程式碼型態被安裝在近端或遠端，其中當程式碼被至少一個終端接收、載入且執行時，該至少一終端可組成本發明之系統，於此先行敘明。

本發明的核心概念，在於透過導入模糊檢索(Fuzzy Search)演算法改善傳統轉換訓練模型，解決如BERT、XLNet、RoBERTa在用於自然語言理解和問答任務(Question Answering，QA)主題或主詞不明確時，可能無法回答所輸入的問題。本發明藉由優化轉換訓練模型與模糊檢索演算法之間的執行方式，若當前用戶輸入的問句文本與主題文本間一相關的門檻值小於一預設值時，則由原本以轉換訓練模型回應的方式，改以模糊檢索演算法回應。本發明的優勢在於：(1)不需要全盤修改原來的轉換訓練模型與模糊檢索演算法的架構，即可判斷上下文對答的方式，在缺少主詞(主題)的情況下，回應出正確答案的精準度，由原有不具備糢糊檢索演算法的65%以下，在導入後可提升到90%以上；(2)不需要重新預訓練原有的智慧語音助理或問答機器人，可以繼續使用轉換訓練模型，但透過引入與模糊檢索演算法間的用於協調與優化系統構件，省下預訓練所需花費的時間與經濟成本；(3)可以持續疊加問句文本(輸入問句)、訓練文本(標準問句)、主題文本(與標準問句相關聯的文章內容)三者之間的對應關係，以持續增加系統的精準度。

基於上述目的，請參閱圖1，本發明具體提出了一種智慧信息處理系統(100)，其系統架構，包含：問句輸入模組(101)，供用戶輸入問句；問句處理模組(103)，耦接問句輸入模組(101)，將所輸入的問句轉換為一問句文本，其中，問句處理模組(103)包含問句儲存單元(103a)，儲存訓練文本，所述訓練文本為預訓練的標準問句；文本儲存模組(107)，儲存複數個主題文本，所述主題文本具有與問句文本與訓練文本相對應的主題或主詞；問句比對模組(105)，耦接問句處理模組(103)，將主題文本與訓練文本、問句文本進行比對，並從主題文本中挑選出一回應文本，其中，問句比對模組(105)包含轉換(Bert)比對單元(105a)，計算問句文本與訓練文本間一相關的門檻值；以及，回應模組(109)，當門檻值大於預設值時，則由問句比對模組(105)挑選出與訓練文本對應的主題文本，並透過回應模組(109)輸出予用戶。請參閱圖2，其中，所述的主題文本為與標準問句有關的文章內容，例如標準問句為：「某銀行具有哪些貸款種類？」，其對應的文章內容為：「某銀行即日起，具有以下貸款種類(好好貸、輕鬆貸)，而貸款申請方式為在網路上，填妥申請資料表，接著......」。

承上述，在本發明之一實施例中，問句儲存單元(103a)所儲存的標準問句，可包含具有主題的訓練文本，例如圖2中的第一問句的類型，例如：「某銀行具有哪些信用卡？」、「某銀行的信用卡申請方式為何？」等等，在訓練文本中，其主詞(主題)為某銀行、信用卡、貸款項目，問句儲存單元(103a)將上述的訓練文本加以儲存，該訓練文本可透過一般的轉換訓練模型(Transformer Pre trained Model)的預訓練，例如如BERT、XLNet、RoBERTa，先行與文本儲存模組(107)中的主題文本進行對應，例如「某銀行具有尊爵卡、白金卡、鑽石卡等種類......」、「某銀行具有貸款的申請方式為填妥申請資料表，接著......」等等，因此，當用戶輸入「某銀行有甚麼信用卡？」、「某銀行具有甚麼信用卡？」、「某銀行，信用卡」、「某銀行哪些信用卡？」時，問句比對模組(105)則將上述用戶所輸入的問句文本與訓練文本中，藉由相關性比對(Exactly Match Rule)後，挑選出最接近的訓練文本作為問句文本的語意理解，即訓練文本與文句文本間的第一門檻值最高，並與文本儲存模組(107)中的主題文本做進一步的比對。

請參閱圖3，問句比對模組(105)的架構中，包含轉換比對單元(105a)與模糊比對單元(105c)。當來自用戶透過問句輸入模組(101)的問句文本，藉由問句比對模組(105)藉由相關性比對並選擇出最相關的訓練文本後(即第一門檻值最高，且高於一預設值)，轉換(Bert)比對單元(105a)比對文本儲存模組(107)中，比對出與訓練文本最接近的主題文本，作為回應文本(Samrt Bert Rule)，並將回應文本傳輸至回應模組(109)，以輸出予用戶。

值得注意者為，若於當次的問句文本中，不包含具有主題(主詞)時，例如圖2中的第二問句的類型，「那申請方式為何？」、「怎麼申請」，而導致轉換(Bert)比對單元(105a)在與訓練文本比對的過程中，出現問句文本無法對應至訓練文本，此時則藉由模糊比對單元(105c)，將當前的問句文本，與前次的問句文本進行近似比對(Fuzzy Answer Rule)，即，將具有主題(主詞)類型的第一問句，與不具主題(主詞)類型的第二問句，使用模糊檢索演算法，將第一問句或第二問句以插入、刪除、替換或轉置的方式，嘗試篩選出主題(主詞)。例如，將圖2中第一問句與第二問句進行近似比對時：第一問句：「某銀行有哪些信用卡？」；第二問句：「那申請方式為何？」，由於第一問句的主題(主詞)為某銀行、信用卡，則模糊比對單元(105c)若此時將第一問句的主題(主詞)以插入的方式處理第二問句，則第二問句可能將變成「那某銀行信用卡申請方式為何？」、「那信用卡某銀行申請方式為何？」、「那某銀行申請方式為何？」、「那信用卡申請方式為何？」等形式，此時問句比對模組(105)藉由上述經過近似比對後的第二問句做為問句文本，並選擇出第二門檻值最高，且高於一預設值的訓練文本後，問句比對模組(105)比對文本儲存模組(107)中，與訓練文本最接近的主題文本，例如：「尊爵卡、白金卡、鑽石卡的申請方式為到如下網址填妥申請資料表，接著將資料表提交到……」作為回應文本，並將回應文本傳輸至回應模組(109)，從而輸出予用戶，以藉由判斷第一問句與第二問句間的上下文關係，以達到改善傳統轉換訓練模型語意不完整時，無法正確回答用戶問題的目的。

請參閱圖4，其說明了智慧信息處理方法(200)的在用戶輸入問題後，理解並進行回應的過程，其執行的步驟如下：在步驟(S1)中，用戶於問句輸入模組(101)輸入提問的問句，其中，所輸入的問句類型可為具有主題(主詞)類型的第一問句，或不具主題(主詞)類型的第二問句。於步驟(S2)中，問句處理模組(103)將用戶所輸入的問句轉換為問句文本，並於步驟(S3)中，問句比對模組(105)將上述用戶所輸入的問句文本與訓練文本中，藉由相關性比對(Exactly Match Rule)判斷文本儲存模組(107)中，是否存在一訓練文本，在經過與問句文本的相關性比對後可以達到第一門檻值的預設值，若存在，則執行步驟(S4)，由轉換(Bert)比對單元(105a)將文本儲存模組(107)中，與訓練文本相對應的主題文本，作為回應文本(Samrt Bert Rule)，並將回應文本傳輸至回應模組(109)，以輸出予用戶，若不存在，亦即，問句文本無法對應至訓練文本(第一門檻值低於預設值)時，則執行步驟(S5)，由模糊比對單元(105c)，將當前的問句文本，與前次的問句文本進行近似比對(Fuzzy Answer Rule)，將具有主題(主詞)類型的第一問句，與不具主題(主詞)類型的第二問句，使用模糊檢索演算法，將第一問句或第二問句以插入、刪除、替換或轉置的方式，嘗試篩選出主題(主詞)。若在步驟(S5)的過程中，模糊比對單元(105c)判斷經過近似比對後，可以將問句文本對應至訓練文本(第二門檻值高於預設值)時，則在步驟(S6)中，由模糊比對單元(105c)將文本儲存模組(107)中，與訓練文本相對應的主題文本，作為回應文本透過回應模組(109)回應予用戶，若不存在第二門檻值高於預設值的訓練文本，則執行步驟(S7)，回應模組(109)輸出無法回覆或請用戶重新輸入問句的訊息。

以上所述係為本發明之較佳實施例。此領域之技藝者應得以領會其係用以說明本發明，而非用以限定本發明所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡熟悉此領域之技藝者，在不脫離本專利精神或範圍內，所作之更動或潤飾，均屬於本發明所揭示精神下所完成之等效改變或設計，且應包含在下述之申請專利範圍內。