TWI603320B

TWI603320B - 全域對話系統

Info

Publication number: TWI603320B
Application number: TW105143763A
Authority: TW
Inventors: 王駿發; 蘇柏豪; 曾世邦; 吳兆祥; 蘇柏淮
Original assignee: 大仁科技大學
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-10-21
Also published as: TW201824251A

Description

全域對話系統

本發明是關於一種對話系統，特別是關於一種全域對話系統。

對話系統為一種人機互動介面，由於對話系統能夠自動地答復使用者所提出的問題，因此在自動化設備將普遍使用的未來，對話系統將廣泛地應用於需簡單諮詢的場所中，例如各行業之自動諮詢櫃檯。一般來說，對話系統是將接收到的問題資訊與其內建之問題資料庫進行比對後，以最近似之文本進行回復。

但由於每個人用語並不一致，也就是說相同的問題由不同的人提問時，其中使用的語詞可能不盡相同，因此，如何由提問的問題中擷取出具代表性的語詞，也就是將各個語詞進行加權，讓權重高的語詞代表整個問句，才能確保檢索之文本的正確性。常見的加權方式為TF-IDF，其中的TF為詞頻(Term frequency)，為各個語詞在一問句中出現的頻率，表示為一個語詞在一問句中出現的次數越多，則越具代表性，IDF為逆向文件頻率(Inverse document frequency)，為各個語詞在所有文件中出現之頻率的倒數，表示一個語詞在所有文件中出現的次數越少，則越具代表性。但由於對話系統接收到的問句不長，導致每個語詞的詞頻均相同，使得TF-IDF技術用在文字較多的文章中可達到相當的準確性，但卻無法適用於僅具有數個語詞的句子加權。

本發明的主要目的在於權重計算模組不以詞頻作為權重值的計算，是將各語詞傳送至開放檢索資料庫中檢索，以各語詞的檢索數量搭配各語詞在所有的訓練問句中出現之頻率的倒數進行權重值的計算，而可進一步地確保該語詞在句子中的代表性，讓整體之全域對話系統回答之準確性能有效提升。

本發明之一種全域對話系統包含一訓練問句資料庫、一斷詞模組、一詞袋模組、一權重計算模組、一向量空間模型及一對話檢索模組，該訓練問句資料庫具有複數個訓練問句，該斷詞模組耦接該訓練問句資料庫，以將各該訓練問句斷詞為複數個訓練詞彙，詞袋模組耦接該斷詞模組，以將該些訓練詞彙新增為該詞袋模組之一詞袋資料庫中的複數個語詞元素，該權重計算模組具有一文字權重單元及一句子權重單元，該文字權重單元耦接該詞袋模組，該句子權重單元耦接該斷詞模組及一開放檢索資料庫，該文字權重單元計算各該語詞元素之一權重值，該句子權重單元根據該開放檢索資料庫所檢索之一檢索數量計算各該訓練詞彙之一權重值，向量空間模型耦接該權重計算模組，並藉由各該語詞元素之該權重值及各該訓練詞彙之該權重值將該些訓練問句向量化，對話檢索模組耦接該詞袋模組及該向量空間模型，該對話檢索模組接收一輸入問句，並根據該詞袋模組之該些語句元素將該輸入問句向量化，且該對話檢索模組計算該向量化之輸入問句及該些向量化之訓練問句之間的相似度，以根據相似之該訓練問句於一回答資料庫中取得對應之一回答。

本發明藉由權重計算模組以兩種方式計算各個語詞的權重，除了以封閉式之資料庫中的資料計算各語詞的權重外，還透過開放之全域資料庫進行各語詞之權重的計算，而能藉由關鍵字數量的變化讓各語詞的權重產生變化，使得該對話系統的回話更貼近時事，而提高其回答的準確度。

請參閱第1圖，為本發明之一實施例，一種全域對話系統100的功能方塊圖，該全域對話系統100包含一訓練問句資料庫110、一斷詞模組120、一詞袋模組130、一權重計算模組140、一向量空間模型150及一對話檢索模組160，其中該訓練問句資料庫110、該斷詞模組120、該詞袋模組130、該權重計算模組140及該向量空間模型150為該全域對話系統100的訓練部分，該對話檢索模組160為該全域對話系統100的檢索部分。

請參閱第1圖，該訓練問句資料庫110中儲存有複數個訓練問句，該些訓練問句是由該全域對話系統100的建構者依其相關之經驗輸入或以人工智慧方式透過一全域資料庫(如google檢索資料庫、yahoo檢索資料庫)建置，但由於該些訓練問句為一個句子(sentence)，而句子中各個前後文字的組合並非一定具有意義，如“全域對話系統”，其中的 “全域”、“對話”及“系統”的文字組合具有意義，但“全”、“系”、“域對”及“話系”的文字組合就不具有任何意義，因此，若機器直接解析整句的該訓練問句，會產生許多的錯誤判斷，而須以該斷詞模組120對該些訓練問句進行斷詞。本實施例中，該斷詞模組120耦接該訓練問句資料庫110，以接收該些訓練問句，並將各該訓練問句斷詞為複數個訓練詞彙，在本實施例中，由於該些訓練問句為中文，因此該斷詞模組120是以中央研究院研發之CKIP中文斷詞系統對該些訓練問句進行斷詞。請參閱第2圖，為句子“我最喜歡的動物是貓咪”進行斷詞後的結果，其被斷詞為“我”、“最”、“喜歡”、“的”、“動物”、“是”及“貓咪”，而可讓後續之機器判讀之詞彙能符合原始句含義，第2圖中每個斷詞中所述之(Nh)(Dfa)…等，分別代表著CKIP中文斷詞系統所定義之各斷詞的類型。

請參閱第1及3圖，該詞袋模組130耦接該斷詞模組120，該詞袋模組130用以將該些訓練詞彙新增為該詞袋模組130之一詞袋資料庫中的複數個語詞元素，以利進行後續句子的向量化，該詞袋模組130的運作流程如第3圖所示，各該訓練問句經由該斷詞模組120斷詞為複數個訓練詞彙後與該詞袋資料庫中的語詞元素比對，若該訓練詞彙以在該詞袋資料庫中，則不動作，而若該訓練詞彙以在該詞袋資料庫中，則將該訓練詞彙新增至該詞袋資料庫中，最後再進行下一個訓練問句之該訓練詞彙的判斷直至所有的該些訓練問句之該訓練詞彙完成判斷。請參閱第4圖，為該詞袋模組130進行新增語詞元素的示意圖，訊練問句I完成斷詞後與該詞袋訓練庫中的該些語詞元素比對，由於此時該詞袋訓練庫是空的，因此，將所有的該些斷詞新增為該詞袋訓練庫中的該些語詞元素，但重複的斷詞僅會新增一次，如訓練問句I具有兩個“我”，由於該詞袋模組130在判定該第一個“我”時，已將“我”新增為該語詞元素，因此，在判定第二個“我”時，該詞袋模組130就判定“我”已包含在該詞袋訓練庫中，而不會被新增為語詞元素，在下一個訓練問句II中，由於訓練問句II的所有斷詞均已包含在詞袋訓練庫中，因此，訓練問句II的斷詞皆不會新增至該詞袋訓練庫中。

請參閱第1圖，該權重計算模組140具有一文字權重單元141及一句子權重單元142，該文字權重單元141耦接該詞袋模組130，該句子權重單元142耦接該斷詞模組120及一開放檢索資料庫143。如[先前技術]所述，由於一個句子中所包含的語詞並不多，難以詞頻(Term frequency)作為權重值得的代表，因此，在本實施例中，該文字權重單元141是以逆向句子頻率(Inverse sentence frequency)計算各該語詞元素之一權重值，而該句子權重單元142根據該開放檢索資料庫143所檢索之一檢索數量計算各該訓練詞彙之一權重值，而該開放檢索資料庫143可為Google檢索資料庫、Yahoo檢索資料庫，本發明並不在此限。

該文字權重單元141計算該詞袋模組130之各該語詞元素之該權重值的計算式為：其中，為該詞袋模組130之第 i個語詞元素之該權重值，為該詞袋模組130之第 i個語詞元素，為該些該些訓練問句的數量，為包含有第 i個語詞元素之該訓練問句的數量。也就是說，若該語詞元素出現在不同之該訓練問句的數量越多時，代表著每個訓練問句都包含有該語詞，亦意味著該語詞並無法代表該訓練問句的意義，例如中文問句中常出現的語詞“嗎”、“吧”及“呢”，這樣的文字經過權重值的計算後的權重值較低，反之，若該語詞元素出現在不同之該訓練問句的數量越少時，意味著該語詞較能代表該訓練問句的意義，這樣的文字經過權重值的計算後權重值較高。

除了以逆向句子頻率計算權重值外，還以單一個句子的該些訓練詞彙計算權重值，該句子權重單元142計算各該訓練詞彙之該權重值的計算式為：其中，為該訓練問句之各該訓練詞彙之該權重值，為各該訓練詞彙之第 i個訓練詞彙於該開放檢索資料庫143的該檢索數量，為各該訓練詞彙之第 j個訓練詞彙於該開放檢索資料庫143的該檢索數量，為該訓練問句之該些訓練詞彙的數量。請參閱第5圖，以句子“深夜獨自去加油站很危險吧”為例，該句子被斷詞為“深夜”、“獨自”、“去”、“加油站”、“很”、“危險”及“吧”，而各斷詞經由Google檢索資料庫檢索後的檢索數量則如表格中的列所示，而則為各個斷詞的檢索數量除以所有斷詞之檢索數量的總和，因此，檢索數量越多之斷詞之數值越大，而在倒數取對數(log)後的數值越小，因此，檢索數量越多之斷詞的權重值較低，反之，檢索數量越少之斷詞的權重值較高。以第5圖所列舉之問句可知，權重值較高(大於1者)的斷詞為“深夜”、“獨自”、“加油站”及“危險”，確實這4個斷詞能夠代表整個句子的含意，而在後續進行相似度比對時提升其比對的正確率。

請參閱第1圖，該向量空間模型150耦接該權重計算模組140，並藉由各該語詞元素之該權重值及各該訓練詞彙之該權重值將該些訓練問句向量化，在本實施例中，該向量空間模型150藉由各該語詞元素之該權重值及各該訓練詞彙之該權重值將該些訓練問句向量化的表示式為：其中，為向量化之第 j個訓練問句，為向量化之第 j個訓練問句之第 i個向量元素的該權重值，為第 j個訓練問句之第 i個向量元素所對應的該訓練詞彙之該權重值，為第 j個訓練問句之第 i個向量元素所對應的該語詞元素之該權重值。以第5圖之問句為例，若該詞袋模型120之該詞袋資料庫為{深夜, 白天, 獨自, 去, 吃飯, 餐廳, 加油站, 哪間, 很, 危險, 吧, 呢}，該問句則向量化為{ , 0, , , 0, 0, , 0, , , , 0}之矩陣，其中為“深夜”的兩個權重值相乘，以加強或減弱該語詞在整個問句中的代表性，～以此類推，而0為該問句不包含該語詞元素，藉此可讓所有該些訓練問句的長度相同，且每個矩陣中的向量元素代表為相同的語詞，以利於後續相似度的比對。

，請參閱第1圖，該對話檢索模組160耦接該詞袋模組130及該向量空間模型150，其中該對話檢索模組160接收一輸入問句，並根據該詞袋模組130之該些語句元素將該輸入問句向量化，且該對話檢索模組160計算該向量化之輸入問句及該些向量化之訓練問句之間的相似度，以根據相似之該訓練問句於一回答資料庫164中取得對應之一回答。在本實施例中，該對話檢索模組160具有一斷詞單元161、一向量化模組162及一相似度計算模組163，該斷詞單元161與該斷詞模組120為相同之CKIP中文斷詞系統，用以對該輸入問句斷詞，該向量化模組162耦接該斷詞單元161，以藉由該詞袋模組130之該些語句元素及斷詞後之該輸入問句將該輸入問句向量化，使得向量化之該輸入問句與向量化之該訓練問句的長度相同，且每個矩陣中的向量元素代表為相同的語詞，該相似度計算模組163耦接該向量化模組162及該向量空間模型163，以計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度。

在本實施例中，是採用餘絃相似度(Cosine similarity)計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度，藉由計算向量化之該輸入問句及向量化之該些訓練問句之間夾角的cosine值即能得知兩個問句之間的相似度。其中，該相似度計算模組163計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度的計算式為：為向量化之該輸入問句，為向量化之該輸入問句之第 i個向量元素，為向量化之第 j個訓練問句，為向量化之第 j個訓練問句之第 i個向量元素的該權重值。其中，由於向量化該訓練問句有進加權處裡，因此，在計算時能夠讓權重值高的語詞代表該問句，使得相似度計算的準確率可大幅提高，進而讓後續根據相似之該訓練問句於該回答資料庫164中取得對應之該回答能夠正確地回覆給使用者所需的答案。

本發明藉由權重計算模組140以兩種方式計算各個語詞的權重，除了以封閉式之資料庫中的資料計算權重外，還透過開放之全域資料庫進行權重的計算，而能藉由關鍵字數量的變化讓各語詞的權重產生變化，使得該對話系統的回話更貼近時事，而提高其回答的準確度。

本發明之保護範圍當視後附之申請專利範圍所界定者為準，任何熟知此項技藝者，在不脫離本發明之精神和範圍內所作之任何變化與修改，均屬於本發明之保護範圍。

100‧‧‧全域對話系統
110‧‧‧訓練問句資料庫
120‧‧‧斷詞模組
130‧‧‧詞袋模組
140‧‧‧權重計算模組
141‧‧‧文字權重單元
142‧‧‧句子權重單元
143‧‧‧開放檢索資料庫
150‧‧‧向量空間模型
160‧‧‧對話檢索模組
161‧‧‧斷詞單元
162‧‧‧向量化模組
163‧‧‧相似度計算模組
164‧‧‧回答資料庫

第1圖：依據本發明之一實施例，全域對話系統之功能方塊圖。第2圖：依據本發明之一實施例，段詞模組進行斷詞的示意圖。第3圖：依據本發明之一實施例，詞袋模組建立詞袋資料庫的流程圖。第4圖：依據本發明之一實施例，該詞袋模組建立詞袋資料庫的示意圖。第5圖：依據本發明之一實施例，句子權重單元計算權重的示意圖。

100‧‧‧全域對話系統

110‧‧‧訓練問句資料庫

120‧‧‧斷詞模組

130‧‧‧詞袋模組

140‧‧‧權重計算模組

141‧‧‧文字權重單元

142‧‧‧句子權重單元

143‧‧‧開放檢索資料庫

150‧‧‧向量空間模型

160‧‧‧對話檢索模組

161‧‧‧斷詞單元

162‧‧‧向量化模組

163‧‧‧相似度計算模組

164‧‧‧回答資料庫

Claims

一種全域對話系統，其包含：一訓練問句資料庫，具有複數個訓練問句；一斷詞模組，耦接該訓練問句資料庫，該斷詞模組用以將各該訓練問句斷詞為複數個訓練詞彙；一詞袋模組，耦接該斷詞模組，該詞袋模組用以將該些訓練詞彙新增為該詞袋模組之一詞袋資料庫中的複數個語詞元素；一權重計算模組，具有一文字權重單元及一句子權重單元，該文字權重單元耦接該詞袋模組，該句子權重單元耦接該斷詞模組及一開放檢索資料庫，該文字權重單元計算各該語詞元素之一權重值，該句子權重單元根據該開放檢索資料庫所檢索之一檢索數量計算各該訓練詞彙之一權重值；一向量空間模型，耦接該權重計算模組，並藉由各該語詞元素之該權重值及各該訓練詞彙之該權重值將該些訓練問句向量化；以及一對話檢索模組，耦接該詞袋模組及該向量空間模型，該對話檢索模組接收一輸入問句，並根據該詞袋模組之該些語句元素將該輸入問句向量化，且該對話檢索模組計算該向量化之輸入問句及該些向量化之訓練問句之間的相似度，以根據相似之該訓練問句於一回答資料庫中取得對應之一回答。
如申請專利範圍第1項所述之全域對話系統，其中該權重計算模組之該句子權重單元計算各該訓練詞彙之該權重值的方式是將各該訓練問句之該訓練詞彙傳送至該開放檢索資料庫進行檢索，並取回各該訓練詞彙之該檢索數量，並藉由各該訓練詞彙之該檢索數量計算各該訓練問句之該訓練詞彙的該權重值。
如申請專利範圍第2項所述之全域對話系統，其中該句子權重單元計算各該訓練詞彙之該權重值的計算式為：其中，為該訓練問句之各該訓練詞彙之該權重值，為各該訓練詞彙之第 i個訓練詞彙於該開放檢索資料庫的該檢索數量，為各該訓練詞彙之第 j個訓練詞彙於該開放檢索資料庫的該檢索數量，為該訓練問句之該些訓練詞彙的數量。
如申請專利範圍第1項所述之全域對話系統，其中該文字權重單元計算該詞袋模組之各該語詞元素之該權重值的計算式為：其中，為該詞袋模組之第 i個語詞元素之該權重值，為該詞袋模組之第 i個語詞元素，為該些該些訓練問句的數量，為包含有第 i個語詞元素之該訓練問句的數量。
如申請專利範圍第3項所述之全域對話系統，其中該文字權重單元計算該詞袋模組之各該語詞元素之該權重值的表示式為：其中，為該詞袋模組之第 i個語詞元素之該權重值，為該詞袋模組之第 i個語詞元素，為該些該些訓練問句的數量，為包含有第 i個語詞元素之該訓練問句的數量。
如申請專利範圍第5項所述之全域對話系統，其中該向量空間模型藉由各該語詞元素之該權重值及各該訓練詞彙之該權重值將該些訓練問句向量化的表示式為：其中，為向量化之第 j個訓練問句，為向量化之第 j個訓練問句之第 i個向量元素的該權重值，為第 j個訓練問句之第 i個向量元素所對應的該訓練詞彙之該權重值，為第 j個訓練問句之第 i個向量元素所對應的該語詞元素之該權重值。
如申請專利範圍第1項所述之全域對話系統，其中該對話檢索模組具有一斷詞單元、一向量化模組及一相似度計算模組，該斷詞單元用以對該輸入問句斷詞，該向量化模組耦接該斷詞單元，以藉由該詞袋模組之該些語句元素及斷詞後之該輸入問句將該輸入問句向量化，該相似度計算模組耦接該向量化模組及向量空間模型，以計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度。
如申請專利範圍第6項所述之全域對話系統，其中該對話檢索模組具有一斷詞單元、一向量化模組及一相似度計算模組，該斷詞單元用以對該輸入問句斷詞，該向量化模組耦接該斷詞單元，以藉由該詞袋模組之該些語句元素及斷詞後之該輸入問句將該輸入問句向量化，該相似度計算模組耦接該向量化模組及向量空間模型，以計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度。
如申請專利範圍第8項所述之全域對話系統，其中該相似度計算模組計算向量化之該輸入問句及向量化之該些訓練問句之間的相似度的計算式為：其中，為向量化之該輸入問句，為向量化之該輸入問句之第 i個向量元素，為向量化之第 j個訓練問句。
如申請專利範圍第7或8項所述之全域對話系統，其中該斷詞模組及該斷詞單元是以中央研究院研發之CKIP中文斷詞系統分別對該些訓練問句及該輸入問句進行斷詞。