TWI667580B

TWI667580B - 藥局問答對話系統

Info

Publication number: TWI667580B
Application number: TW107137628A
Authority: TW
Inventors: 曾世邦; 陳哲文; 陳柏叡; 王駿發
Original assignee: 大仁科技大學
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-08-01
Also published as: TW202016768A

Abstract

一種藥局問答對話系統分別透過一TF-IDF模組及一長短期記憶自編碼模組計算輸入語句的一第一相似度及一第二相似度，再以相似度計算模組將第一相似度及第二相似度結合為一混合相似度，可讓該混合相似度同時具有詞彙權重及詞彙間關係的優點，而相當適用於有著大量文本資料的藥學領域。

Description

藥局問答對話系統

本發明是關於一種問答對話系統，特別是關於一種藥局問答對話系統。

自動問答對話系統目前已廣泛地應用於各行各業中，如行動裝置的行動助理(如Android系統的Google Assistant或IOS系統的Siri)、各行業的自動櫃台或是照護機器人…等，而自動問答對話系統最重要的就是正確地回覆使用者的問題，一般而言，自動問答對話系統會讓使用者透過語音或是打字的方式輸入問句，再將問句與資料庫中儲存的文本問句進行相似度的計算，最後將相似度最高之文本問句對應之答案回覆予使用者。

其中，常見之相似度的計算方式為TF-IDF，其中TF為詞頻(Term frequency)，用以表示單個詞彙於該問句中出現的頻率，IDF為反向文件頻率(Inverse document frequency)，用以表示含有該詞彙的文件數量與所有的文件數量之間的比例。詞頻含意是該詞彙於該問句中出現的頻率越高時權重越高，該詞彙越能表示該問句，但各種語言中均包含了許多停用詞(Stop words)，如英文中的the、is、at…等等，中文的「什麼」、「幾時」、「如果」…等等，這些停用詞雖然在問句中出現的頻率高，但卻無法用以表示該問句，因此除了詞頻外，還須藉由IDF降低該些停用詞的權重。但由於TF-IDF僅能表示各個詞彙於問句中的權重，卻無法解析詞彙與詞彙之間的關係，因此，TF-IDF若使用於有著大量文本資料庫中，將使得各個文本問句的關鍵字較為近似，導致問句可能被導向關鍵字相似的文本問句，而無法收斂得到相似度夠高的答覆。

本發明之主要目的在於藉由長短期記憶自編碼模組補足TF-IDF所欠缺之詞彙間關係的缺點，而透過兩個相似度計算而得各該詞彙的混合相似度，能夠令文本的搜尋更加準確。

本發明之一種藥局問答對話系統包含一語句處理模組、一TF-IDF模組、一詞嵌入模組、一長短期記憶自編碼模組及一相似度計算模組，該語句處理模組接收一輸入語句，該語句處理模組用以將該輸入語句斷詞為複數個詞彙，該TF-IDF模組耦接該語句處理模組及一文集，該TF-IDF模組根據該輸入語句之該些詞彙及該文集儲存之複數個文本計算該輸入語句之一第一相似度，該詞嵌入模組耦接該語句處理模組，該詞嵌入模組用以藉由該文集將該輸入語句轉算為一語句向量，該長短期記憶自編碼模組耦接該詞嵌入模組，該長短期記憶自編碼模組用以重組各該語句向量為一重組向量，且該長短期記憶自編碼模組用以計算該語句向量及該重組向量之間的一第二相似度，該相似度計算模組耦接該TF-IDF模組及該長短期記憶自編碼模組，該相似度計算模組藉由該第一相似度及該第二相似度計算該輸入語句之一混合相似度。

本發明藉由該相似度計算模組混合了該TF-IDF模組之該第一相似度及該長短期記憶自編碼模組之該第二相似度，讓該混合相似度能夠同時具有詞彙權重及詞彙間關係的優點，而相當適用於有著大量文本資料的藥學領域中。

請參閱第1圖，其為本發明之一實施例，一種藥局問答對話系統100的功能方塊圖，該藥局問答對話系統100具有一語句處理模組110、一TF-IDF模組120、一詞嵌入模組130(Word embedding)、一長短期記憶自編碼模組140及一相似度計算模組150。

請參閱第1圖，該語句處理模組110接收一輸入語句，該語句處理模組110用以將該輸入語句斷詞為複數個詞彙，在本實施例中，該語句處理模組110是藉由jieba中文斷詞系統對該輸入語句進行斷詞，但本發明並不在此限，在其他實施中，亦可透過其他方式，如中研院研發之CKIP中文斷詞系統對該輸入語句進行斷詞。

請參閱第1圖，該TF-IDF模組120耦接該語句處理模組110及一文集160，請參閱第2圖，該TF-IDF模組120具有一TF計算單元121、一IDF計算單元122、一權重計算單元123及一空間向量單元124，該TF計算單元121耦接該語句處理模組110以接收該些詞彙，且該TF計算單元121用以計算各該詞彙之一詞頻值(Term frequency)，該IDF計算單元122耦接該語句處理模組110以接收該些詞彙，且該IDF計算單元122耦接該文集160，以根據該文集160之該些文本計算各該詞彙之一逆向文件頻率值(Inverse document frequency)，該權重計算單元123耦接該TF計算單元121及該IDF計算單元122，該權重計算單元123根據該詞頻值及該逆向文件頻率值計算各該詞彙之一權重值，該空間向量單元124根據各該詞彙之該權重值計算該輸入語句之該第一相似度。

較佳的，該TF計算單元121之該詞頻值的計算式為：其中，為該輸入語句之第 i個詞彙的該詞頻值，為該輸入語句之第 i個詞彙的數量，為該輸入語句之所有該詞彙的數量。該IDF計算單元122之該逆向文件頻率值的計算式為：其中，為該輸入語句之第 i個詞彙的該逆向文件頻率值，為該文集之該些文本的數量，為該文集中包含有第 i個詞彙之該文本的數量。該權重計算單元123之該權重值的計算式為：其中，為該輸入語句之第 i個詞彙的該權重值。最後，該空間向量單元124藉由餘弦相似度(Cosine similarity)計算該輸入語句與該文集之各該文本之間的該第一相似度。

請參閱第1圖，該詞嵌入模組130耦接該語句處理模組110及該文集160，該詞嵌入模組130用以藉由該文集將該輸入語句轉算為一語句向量，在本實施例中，該詞嵌入模組130是透過該文集之該些文本對Word2Vec詞嵌入模組進行訓練，再藉由Word2Vec詞嵌入模組將該輸入語句轉算為該語句向量，藉由Word2Vec詞嵌入模組可將相同涵義的詞彙以近似的向量表示，這可有效地後續運算的速度。

請參閱第1圖，該長短期記憶自編碼模組140耦接該詞嵌入模組130，該長短期記憶自編碼模組140用以重組各該語句向量為一重組向量，請參閱第3圖，該長短期記憶自編碼模組140具有一編碼器141、一固定長度向量142及一解碼器143，該固定長度向量142耦接該編碼器141，該解碼器143耦接該固定長度向量142，其中及分別為解碼前後之該詞彙。在本實施例中，該編碼器141具有複數個編碼長短期記憶神經元141a，該解碼器143具有複數個解碼長短期記憶神經元143a，該些編碼長短期記憶神經元141a及該些解碼長短期記憶神經元143a藉由該文集160之該些文本進行訓練，因此，該編碼器141能以該些編碼長短期記憶神經元141a對該語句向量進行編碼，編碼之該語句向量儲存於該固定長度向量142中，該解碼器143能以該些解碼長短期記憶神經元143a對編碼之該語句向量解碼為該重組向量。在求得該重組向量後，該長短期記憶自編碼模組140以餘弦相似度計算該語句向量及該重組向量之間的一第二相似度。

請參閱第1圖，該相似度計算模組150耦接該TF-IDF模組120及該長短期記憶自編碼模組140以接收該第一相似度及該第二相似度，該相似度計算模組150藉由該第一相似度及該第二相似度計算該輸入語句之一混合相似度。其中，該相似度計算模組150的計算式為：其中，為該混合相似度，為該第一相似度，為該第二相似度，介於0至1的實數，可透過不同領域之文本進行最佳化其大小或是直接由使用者設定。由於該相似度計算模組150輸出之該混合相似度是混合了該TF-IDF模組120之該第一相似度及該長短期記憶自編碼模組140之該第二相似度，能夠同時具有詞彙權重及詞彙間關係的優點，而相當適用於有著大量文本資料的藥學領域中。

本發明之保護範圍當視後附之申請專利範圍所界定者為準，任何熟知此項技藝者，在不脫離本發明之精神和範圍內所作之任何變化與修改，均屬於本發明之保護範圍。

100‧‧‧藥局問答對話系統

110‧‧‧語句處理模組

120‧‧‧TF-IDF模組

121‧‧‧TF計算單元

122‧‧‧IDF計算單元

123‧‧‧權重計算單元

124‧‧‧空間向量單元

130‧‧‧詞嵌入模組

140‧‧‧長短期記憶自編碼模組

141‧‧‧編碼器

141a‧‧‧編碼長短期記憶神經元

142‧‧‧固定長度向量

143‧‧‧解碼器

143a‧‧‧解碼長短期記憶神經元

150‧‧‧相似度計算模組

160‧‧‧文集

第1圖：依據本發明之一實施例，一種藥局問答對話系統的功能方塊圖。第2圖：依據本發明之一實施例，一TF-IDF模組的功能方塊圖。第3圖：依據本發明之一實施例，一長短期記憶自編碼模組的示意圖。

Claims

一種藥局問答對話系統，其包含：一語句處理模組，接收一輸入語句，該語句處理模組用以將該輸入語句斷詞為複數個詞彙；一TF-IDF模組，耦接該語句處理模組及一文集，該TF-IDF模組根據該輸入語句之該些詞彙及該文集儲存之複數個文本計算該輸入語句之一第一相似度；一詞嵌入模組(Word embedding)，耦接該語句處理模組，該詞嵌入模組用以藉由該文集將該輸入語句轉算為一語句向量；一長短期記憶自編碼模組，耦接該詞嵌入模組，該長短期記憶自編碼模組用以重組各該語句向量為一重組向量，且該長短期記憶自編碼模組用以計算該語句向量及該重組向量之間的一第二相似度；以及一相似度計算模組，耦接該TF-IDF模組及該長短期記憶自編碼模組，該相似度計算模組藉由該第一相似度及該第二相似度計算該輸入語句之一混合相似度。
如申請專利範圍第1項所述之藥局問答對話系統，該TF-IDF模組具有一TF計算單元、一IDF計算單元、一權重計算單元及一空間向量單元，該TF計算單元接收該些詞彙以計算各該詞彙之一詞頻值，該IDF計算單元接收該些詞彙，且該IDF計算單元根據該文集之該些文本計算各該詞彙之一逆向文件頻率值，該權重計算單元耦接該TF計算單元及該IDF計算單元，該權重計算單元根據該詞頻值及該逆向文件頻率值計算各該詞彙之一權重值，該空間向量單元根據各該詞彙之該權重值計算該輸入語句之該第一相似度。
如申請專利範圍第2項所述之藥局問答對話系統，其中該TF計算單元之計算式為：其中，為該輸入語句之第 i個詞彙的該詞頻值，為該輸入語句之第 i個詞彙的數量，為該輸入語句之所有該詞彙的數量。
如申請專利範圍第3項所述之藥局問答對話系統，其中該IDF計算單元之計算式為：其中，為該輸入語句之第 i個詞彙的該逆向文件頻率值，為該文集之該些文本的數量，為該文集中包含有第 i個詞彙之該文本的數量。
如申請專利範圍第4項所述之藥局問答對話系統，其中該權重計算單元之計算式為：其中，為該輸入語句之第 i個詞彙的該權重值。
如申請專利範圍第1項所述之藥局問答對話系統，其中該長短期記憶自編碼模組具有一編碼器、一固定長度向量及一解碼器，該固定長度向量耦接該編碼器，該解碼器耦接該固定長度向量，該編碼器用以對該語句向量進行編碼，編碼之該語句向量儲存於該固定長度向量中，該解碼器用以對編碼之該語句向量解碼為該重組向量。
如申請專利範圍第6項所述之藥局問答對話系統，該編碼器具有複數個編碼長短期記憶神經元，該解碼器具有複數個解碼長短期記憶神經元，該些編碼長短期記憶神經元及該些解碼長短期記憶神經元藉由該文集之該些文本進行訓練。
如申請專利範圍第1項所述之藥局問答對話系統，其中該相似度計算模組的計算式為：其中，為該混合相似度，為該第一相似度，為該第二相似度，介於0至1的實數。
如申請專利範圍第1項所述之藥局問答對話系統，其中該輸入語句之該第一相似度及該第二相似度是以餘弦相似度(Cosine similarity)進行計算。