TWI754445B - 智慧信息處理系統與方法 - Google Patents

智慧信息處理系統與方法 Download PDF

Info

Publication number
TWI754445B
TWI754445B TW109138606A TW109138606A TWI754445B TW I754445 B TWI754445 B TW I754445B TW 109138606 A TW109138606 A TW 109138606A TW 109138606 A TW109138606 A TW 109138606A TW I754445 B TWI754445 B TW I754445B
Authority
TW
Taiwan
Prior art keywords
question
text
subject
module
training
Prior art date
Application number
TW109138606A
Other languages
English (en)
Other versions
TW202219818A (zh
Inventor
邱仁鈿
Original Assignee
碩網資訊股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 碩網資訊股份有限公司 filed Critical 碩網資訊股份有限公司
Priority to TW109138606A priority Critical patent/TWI754445B/zh
Application granted granted Critical
Publication of TWI754445B publication Critical patent/TWI754445B/zh
Publication of TW202219818A publication Critical patent/TW202219818A/zh

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本發明之目的,在於透過導入模糊檢索演算法,藉由所輸入的問題,判斷上下文關係,改善轉換訓練模型用於問答任務主詞不明確時,無法回答問題的缺點。本發明的智慧信息處理系統與方法,包含:問句輸入模組,供用戶輸入問句;問句處理模組,將輸入的問句轉換為問句文本,其中,問句處理模組包含問句儲存單元,儲存訓練文本;文本儲存模組,儲存數個主題文本,並具有與問句文本與訓練文本對應的主題;問句比對模組,包含轉換(Bert)比對單元與模糊(Fuzzy)比對單元,將主題文本與訓練文本、問句文本進行比對,並從主題文本中挑選出回應文本,回應予用戶。

Description

智慧信息處理系統與方法
本發明涉及一種智慧信息處理系統,更詳而言之,為一種以模糊檢索演算法,推斷問題語意之信息處理系統。
近年來,得益於人工智慧各類演算法的發展,配合各大入口網站的搜索工具,使用戶能藉由語音對答的方式,透過智能客服、智慧語音助理等工具於龐大的資訊量下,使用戶以語音對話獲取訊息成為可能。現有的智慧語音助理,大多基於轉換訓練模型(Transformer Pre Trained Model),如BERT(Bidirectional Encoder Representations from Transformers)、XLNet、RoBERTa,其在用於自然語言理解,以及問答任務(Question Answering,QA)時,通常需將問題本身,和問題的回覆(或和問題有關連性的文本)一起作為輸入文本,然後用自注意力機制(Self-Attention Mechanism)對輸入文本進行多層交互編碼,最後用線性分類器將問題所對應的答案(即文本內容)加以排列後輸出。然而,以上將問題-文本回覆的預訓練模型得到的回答是問題相關的,但相關文本除了內容龐大外,當問題具有上下文連貫,或缺少主題(主詞)時,現有的轉換訓練模型往往無法有效回覆問題。
舉例來說,當用戶輸入「某銀行有哪些信用卡?」時,由於轉換訓練模型已經針對各式信用卡的文本內容進行過訓練,因此將可以預期智慧語音助理的回應,將為信用卡的種類(如尊爵卡、白金卡、鑽石卡等各類信用卡方案)。然而,當接著輸入「那申請方式為何?」時,由於問題本身缺少主題(例如上述問題中,缺少了某銀行,以及信用卡此一主題或主詞),此時自注意力機制並無法將所輸入的問題連結到相關的文本內容,而轉換訓練模型也沒有將「某銀行有哪些信用卡?」與「那申請方式為何?」兩個前後相關的問題進行過預先的 訓練,因此現有的轉換訓練模型並無法使智慧語音助理,進行預期中諸如申請信用卡的條件、需填寫的資料等回答。因此,基於上述現有轉換訓練模型作為自然語言處理時,仍然不夠自然流暢,使其存在每個問題的上下文意之間無任何連結關係的缺點,現有的智慧語音助理,依然具有進一步改進的空間。
為解決上述問題,本發明提出一種智慧信息處理系統,其系統架構,包含:問句輸入模組,供用戶輸入問句;問句處理模組,耦接問句輸入模組,將所輸入的問句轉換為一問句文本,其中,問句處理模組包含問句儲存單元,儲存訓練文本,所述訓練文本為預訓練的標準問句;文本儲存模組,儲存複數個主題文本,所述主題文本為上述標準問句相關聯的文章內容,其具有與問句文本與訓練文本相對應的主題或主詞;問句比對模組,耦接問句處理模組,將主題文本與訓練文本、問句文本進行比對,並從主題文本中挑選出一回應文本,其中,問句比對模組包含轉換(Bert)比對單元,計算問句文本與主題文本間一相關的門檻值,當門檻值小於預設值時,則選擇上一個問句文本所對應主題的主題文本;以及,回應模組,當門檻值大於預設值時,將所挑選出的回應文本輸出予用戶。
根據本發明之內容,所述問句比對模組更包含一模糊(Fuzzy)比對單元,當問句文本與主題文本間的門檻值小於一預設值,且上一個問句文本與主題文本間的門檻值同樣小於一預設值時,則模糊比對單元以近似比對(Fuzzy Answer Rule)的方式,檢索與問句文本最接近的訓練文本,在本發明一實施例中,該近似比對包含將問句文本的字串進行插入、刪除、替換或轉置。
根據本發明之內容,問句處理模組包含問句儲存單元,以儲存標準問句,並轉換為訓練文本,其中所述的訓練文本可在用戶輸入問句前,先行與文本儲存模組中的主題文本對應以進行預訓練,且在預訓練結束後,該訓練文本可被用作用戶輸入的問句文本的語意解析。
根據本發明之內容,問句處理模組包含問句儲存單元,將用戶輸入的問句與問句儲存單元中的標準問句進行比對,當所輸入的問句和標準問句 的相似度達到一門檻值時,則問句比對模組藉由問句儲存單元所儲存的訓練文本,與主題文本的主題進行比對,以增進智慧信息處理系統的精確度與處理速度。
100:智慧信息處理系統
101:問句輸入模組
103:問句處理模組
103a:問句儲存單元
105:問句比對模組
105a:轉換比對單元
105c:模糊比對單元
107:文本儲存模組
109:回應模組
200:智慧信息處理方法
S1-S7:執行步驟
如下所述之對本發明的詳細描述與實施例之示意圖,應使本發明更被充分地理解;然而,應可理解此僅限於作為理解本發明應用之參考,而非限制本發明於一特定實施例之中。
圖1係說明智慧信息處理系統的系統架構。
圖2係說明智慧信息處理系統處理具上下文連貫問句時的回應方式。
圖3係進一步說明問句比對模組的詳細架構。
圖4係說明智慧信息處理方法的執行流程。
本發明將以較佳之實施例及觀點加以詳細敘述。下列描述提供本發明特定的施行細節,俾使閱者徹底瞭解這些實施例之實行方式。然該領域之熟習技藝者須瞭解本發明亦可在不具備這些細節之條件下實行。此外,本發明亦可藉由其他具體實施例加以運用及實施,本說明書所闡述之各項細節亦可基於不同需求而應用,且在不悖離本發明之精神下進行各種不同的修飾或變更。本發明將以較佳實施例及觀點加以敘述,此類敘述係解釋本發明之結構,僅用以說明而非用以限制本發明之申請專利範圍。以下描述中使用之術語將以最廣義的合理方式解釋,即使其與本發明某特定實施例之細節描述一起使用。此外,本發明所述的智慧信息處理系統(100),可以程式碼的型態被安裝於於實體媒體,例如:軟碟、光碟片、硬碟、或是任何其他終端(例如電腦、智慧手機、平板電腦、智慧穿戴裝置)的可讀取儲存媒體;其中當程式碼被終端載入且執行時,此終端變成用以實現本發明之裝置。本發明之系統的任意元件也可以程式碼型態被安裝在 近端或遠端,其中當程式碼被至少一個終端接收、載入且執行時,該至少一終端可組成本發明之系統,於此先行敘明。
本發明的核心概念,在於透過導入模糊檢索(Fuzzy Search)演算法改善傳統轉換訓練模型,解決如BERT、XLNet、RoBERTa在用於自然語言理解和問答任務(Question Answering,QA)主題或主詞不明確時,可能無法回答所輸入的問題。本發明藉由優化轉換訓練模型與模糊檢索演算法之間的執行方式,若當前用戶輸入的問句文本與主題文本間一相關的門檻值小於一預設值時,則由原本以轉換訓練模型回應的方式,改以模糊檢索演算法回應。本發明的優勢在於:(1)不需要全盤修改原來的轉換訓練模型與模糊檢索演算法的架構,即可判斷上下文對答的方式,在缺少主詞(主題)的情況下,回應出正確答案的精準度,由原有不具備糢糊檢索演算法的65%以下,在導入後可提升到90%以上;(2)不需要重新預訓練原有的智慧語音助理或問答機器人,可以繼續使用轉換訓練模型,但透過引入與模糊檢索演算法間的用於協調與優化系統構件,省下預訓練所需花費的時間與經濟成本;(3)可以持續疊加問句文本(輸入問句)、訓練文本(標準問句)、主題文本(與標準問句相關聯的文章內容)三者之間的對應關係,以持續增加系統的精準度。
基於上述目的,請參閱圖1,本發明具體提出了一種智慧信息處理系統(100),其系統架構,包含:問句輸入模組(101),供用戶輸入問句;問句處理模組(103),耦接問句輸入模組(101),將所輸入的問句轉換為一問句文本,其中,問句處理模組(103)包含問句儲存單元(103a),儲存訓練文本,所述訓練文本為預訓練的標準問句;文本儲存模組(107),儲存複數個主題文本,所述主題文本具有與問句文本與訓練文本相對應的主題或主詞;問句比對模組(105),耦接問句處理模組(103),將主題文本與訓練文本、問句文本進行比對,並從主題文本中挑選出一回應文本,其中,問句比對模組(105)包含轉換(Bert)比對單元(105a),計算問句文本與訓練文本間一相關的門檻值;以及,回應模組(109),當門檻值大於預設值時,則由問句比對模組(105)挑選出與訓練文本對應的主題文本,並透過回應模組(109)輸出予用戶。請參閱圖2,其中,所述的主題文本為與標準問句有關的文章內容,例如標準問句為:「某銀行具有哪些貸款種類?」,其對應的文 章內容為:「某銀行即日起,具有以下貸款種類(好好貸、輕鬆貸),而貸款申請方式為在網路上,填妥申請資料表,接著......」。
承上述,在本發明之一實施例中,問句儲存單元(103a)所儲存的標準問句,可包含具有主題的訓練文本,例如圖2中的第一問句的類型,例如:「某銀行具有哪些信用卡?」、「某銀行的信用卡申請方式為何?」等等,在訓練文本中,其主詞(主題)為某銀行、信用卡、貸款項目,問句儲存單元(103a)將上述的訓練文本加以儲存,該訓練文本可透過一般的轉換訓練模型(Transformer Pre trained Model)的預訓練,例如如BERT、XLNet、RoBERTa,先行與文本儲存模組(107)中的主題文本進行對應,例如「某銀行具有尊爵卡、白金卡、鑽石卡等種類......」、「某銀行具有貸款的申請方式為填妥申請資料表,接著......」等等,因此,當用戶輸入「某銀行有甚麼信用卡?」、「某銀行具有甚麼信用卡?」、「某銀行,信用卡」、「某銀行哪些信用卡?」時,問句比對模組(105)則將上述用戶所輸入的問句文本與訓練文本中,藉由相關性比對(Exactly Match Rule)後,挑選出最接近的訓練文本作為問句文本的語意理解,即訓練文本與文句文本間的第一門檻值最高,並與文本儲存模組(107)中的主題文本做進一步的比對。
請參閱圖3,問句比對模組(105)的架構中,包含轉換比對單元(105a)與模糊比對單元(105c)。當來自用戶透過問句輸入模組(101)的問句文本,藉由問句比對模組(105)藉由相關性比對並選擇出最相關的訓練文本後(即第一門檻值最高,且高於一預設值),轉換(Bert)比對單元(105a)比對文本儲存模組(107)中,比對出與訓練文本最接近的主題文本,作為回應文本(Samrt Bert Rule),並將回應文本傳輸至回應模組(109),以輸出予用戶。
值得注意者為,若於當次的問句文本中,不包含具有主題(主詞)時,例如圖2中的第二問句的類型,「那申請方式為何?」、「怎麼申請」,而導致轉換(Bert)比對單元(105a)在與訓練文本比對的過程中,出現問句文本無法對應至訓練文本,此時則藉由模糊比對單元(105c),將當前的問句文本,與前次的問句文本進行近似比對(Fuzzy Answer Rule),即,將具有主題(主詞)類型的第一問句,與不具主題(主詞)類型的第二問句,使用模糊檢索演算法,將第一問句或第 二問句以插入、刪除、替換或轉置的方式,嘗試篩選出主題(主詞)。例如,將圖2中第一問句與第二問句進行近似比對時:第一問句:「某銀行有哪些信用卡?」;第二問句:「那申請方式為何?」,由於第一問句的主題(主詞)為某銀行、信用卡,則模糊比對單元(105c)若此時將第一問句的主題(主詞)以插入的方式處理第二問句,則第二問句可能將變成「那某銀行信用卡申請方式為何?」、「那信用卡某銀行申請方式為何?」、「那某銀行申請方式為何?」、「那信用卡申請方式為何?」等形式,此時問句比對模組(105)藉由上述經過近似比對後的第二問句做為問句文本,並選擇出第二門檻值最高,且高於一預設值的訓練文本後,問句比對模組(105)比對文本儲存模組(107)中,與訓練文本最接近的主題文本,例如:「尊爵卡、白金卡、鑽石卡的申請方式為到如下網址填妥申請資料表,接著將資料表提交到……」作為回應文本,並將回應文本傳輸至回應模組(109),從而輸出予用戶,以藉由判斷第一問句與第二問句間的上下文關係,以達到改善傳統轉換訓練模型語意不完整時,無法正確回答用戶問題的目的。
請參閱圖4,其說明了智慧信息處理方法(200)的在用戶輸入問題後,理解並進行回應的過程,其執行的步驟如下:在步驟(S1)中,用戶於問句輸入模組(101)輸入提問的問句,其中,所輸入的問句類型可為具有主題(主詞)類型的第一問句,或不具主題(主詞)類型的第二問句。於步驟(S2)中,問句處理模組(103)將用戶所輸入的問句轉換為問句文本,並於步驟(S3)中,問句比對模組(105)將上述用戶所輸入的問句文本與訓練文本中,藉由相關性比對(Exactly Match Rule)判斷文本儲存模組(107)中,是否存在一訓練文本,在經過與問句文本的相關性比對後可以達到第一門檻值的預設值,若存在,則執行步驟(S4),由轉換(Bert)比對單元(105a)將文本儲存模組(107)中,與訓練文本相對應的主題文本,作為回應文本(Samrt Bert Rule),並將回應文本傳輸至回應模組(109),以輸出予用戶,若不存在,亦即,問句文本無法對應至訓練文本(第一門檻值低於預設值)時,則執行步驟(S5),由模糊比對單元(105c),將當前的問句文本,與前次的問句文本進行近似比對(Fuzzy Answer Rule),將具有主題(主詞)類型的第一問句,與不具主題(主詞)類型的第二問句,使用模糊檢索演算法,將第一問句或第二問句以插 入、刪除、替換或轉置的方式,嘗試篩選出主題(主詞)。若在步驟(S5)的過程中,模糊比對單元(105c)判斷經過近似比對後,可以將問句文本對應至訓練文本(第二門檻值高於預設值)時,則在步驟(S6)中,由模糊比對單元(105c)將文本儲存模組(107)中,與訓練文本相對應的主題文本,作為回應文本透過回應模組(109)回應予用戶,若不存在第二門檻值高於預設值的訓練文本,則執行步驟(S7),回應模組(109)輸出無法回覆或請用戶重新輸入問句的訊息。
以上所述係為本發明之較佳實施例。此領域之技藝者應得以領會其係用以說明本發明,而非用以限定本發明所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡熟悉此領域之技藝者,在不脫離本專利精神或範圍內,所作之更動或潤飾,均屬於本發明所揭示精神下所完成之等效改變或設計,且應包含在下述之申請專利範圍內。
103a:問句儲存單元
105:問句比對模組
105a:轉換比對單元
105c:模糊比對單元
107:文本儲存模組
109:回應模組

Claims (5)

  1. 一種智慧信息處理系統,包含:一問句輸入模組,輸入具有主題第一問句與不具有主題第二問句;一問句處理模組,耦接該問句輸入模組,將所輸入的該具有主題第一問句和該不具有主體第二問句轉換成至少一問句文本,其中,該問句處理模組包含一問句儲存單元,儲存至少一訓練文本;一文本儲存模組,儲存至少一主題文本,對應該至少一訓練文本;一問句比對模組,耦接該文本處理模組,計算對應該具有主題第一問句和該不具有主題第二問句的該至少一問句文本與該至少一訓練文本間的一第一門檻值,其中以相關性比對,該問句比對模組包含一轉換比對單元,當該第一門檻值高於預設值時,從該至少一主題文本中,選出對應於該至少一訓練文本的一回應文本;若該第一門檻值低於預設值時,將該具有主題第一問句,與該不具主題第二問句,使用模糊檢索演算法,計算第二門檻值,將該具有主題第一問句與該不具主題第二問句以插入、刪除、替換或轉置的方式篩選出主題;以及,一回應模組,耦接該問句比對單元,輸出該回應文本,其中,該回應文本的主題與該具有主體第一問句和該不具有主體第二問句之間具有上下文義關聯。
  2. 如請求項1所述之智慧信息處理系統,其中該問句比對單元更包含模糊比對單元藉由該主題,計算該至少一問句文本與該至少一訓練文本間的一第二門檻值,當該第二門檻值高於預設值時,從該至少一主題文本中,選出對應於該至少一訓練文本的該回應文本。
  3. 如請求項2所述之智慧信息處理系統,其中該至少一主題文本回應出正確答案的精準度為90%以上。
  4. 一種智慧信息處理方法,包含以下步驟:由一問句輸入模組輸入提問的具有主題第一問句與不具有主題第二問句;藉由一問句處理模組將輸入的問句轉換為一問句文本;一問句比對模組將該至少一問句文本,藉由轉換訓練模型中的相關性比對判斷一文本儲存模組中,是否存在至少一訓練文本對應該具有主題第一問句和該不具有主題第二問句,在經過與該問句文本的相關性比對後可以達到一第一門檻值的預設值;若存在,該問句比對模組將該文本儲存模組中,與該訓練文本相對應的一主題文本,作為一回應文本,並將該回應文本傳輸至一回應模組予以輸出;若該第一門檻值低於預設值時,其中將該具有主題第一問句,與該不具主題第二問句,使用模糊檢索演算法,計算第二門檻值,當該第二門檻值高於該預設值時,從該至少一主題文本中,選出對應於該至少一訓練文本的該回應文本,其中將該具有主題第一問句與該不具主題第二問句以插入、刪除、替換或轉置的方式篩選出主題;其中,該回應文本的主題與該具有主題第一問句和該不具有主體第二問句之間具有上下文義關聯。
  5. 如請求項4所述之智慧信息處理方法,其中模糊檢索演算法更包含執行以下步驟,以近似比對方式,從該至少一問句文本中,篩選出一主題。
TW109138606A 2020-11-05 2020-11-05 智慧信息處理系統與方法 TWI754445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW109138606A TWI754445B (zh) 2020-11-05 2020-11-05 智慧信息處理系統與方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109138606A TWI754445B (zh) 2020-11-05 2020-11-05 智慧信息處理系統與方法

Publications (2)

Publication Number Publication Date
TWI754445B true TWI754445B (zh) 2022-02-01
TW202219818A TW202219818A (zh) 2022-05-16

Family

ID=81329465

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109138606A TWI754445B (zh) 2020-11-05 2020-11-05 智慧信息處理系統與方法

Country Status (1)

Country Link
TW (1) TWI754445B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238293A (zh) * 2023-09-12 2023-12-15 深圳市途林科技有限公司 基于大型语言模型的酒店旅游交互方法、装置及计算设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN111309944A (zh) * 2020-01-20 2020-06-19 同方知网(北京)技术有限公司 一种基于图数据库的数字人文搜索算法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238293A (zh) * 2023-09-12 2023-12-15 深圳市途林科技有限公司 基于大型语言模型的酒店旅游交互方法、装置及计算设备

Also Published As

Publication number Publication date
TW202219818A (zh) 2022-05-16

Similar Documents

Publication Publication Date Title
Chu et al. Automatic image captioning based on ResNet50 and LSTM with soft attention
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
Banerjee et al. A dataset for building code-mixed goal oriented conversation systems
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN112395391B (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN113239666A (zh) 一种文本相似度计算方法及系统
CN113901200A (zh) 基于主题模型的文本摘要方法、装置及存储介质
CN114328817A (zh) 一种文本处理方法和装置
CN117520523A (zh) 数据处理方法、装置、设备及存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
TWI754445B (zh) 智慧信息處理系統與方法
CN117874210A (zh) 自主交互问答方法、系统、设备及介质
CN113705207A (zh) 语法错误识别方法及装置
CN117370190A (zh) 测试用例生成方法、装置、电子设备和存储介质
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
CN116933796A (zh) 多任务语义理解方法、装置、电子设备和存储介质
Octavany et al. Cleveree: an artificially intelligent web service for Jacob voice chatbot
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
US20230029196A1 (en) Method and apparatus related to sentence generation
CN116150311A (zh) 文本匹配模型的训练方法、意图识别方法及装置
CN111680136B (zh) 一种口语语义匹配的方法及装置
US20230140480A1 (en) Utterance generation apparatus, utterance generation method, and program
CN118051602B (zh) 面向信息安全领域的智能问答方法及系统、介质、设备
KR102466428B1 (ko) 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치