TW202044103A - 語意相似度計算方法 - Google Patents
語意相似度計算方法 Download PDFInfo
- Publication number
- TW202044103A TW202044103A TW108118443A TW108118443A TW202044103A TW 202044103 A TW202044103 A TW 202044103A TW 108118443 A TW108118443 A TW 108118443A TW 108118443 A TW108118443 A TW 108118443A TW 202044103 A TW202044103 A TW 202044103A
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- sentence
- feature
- words
- variable
- Prior art date
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一種語意相似度計算方法,包含下列步驟,首先,輸入一待解析的語句,並將該語句與每一標示詞預設之雜詞進行去雜詞處理,接著,提取該語句中的字詞與每一標示詞預設之反意詞進行反意詞檢查,然後,將該語句與每一標示詞預設之相似詞進行相似詞的置換,接著,該語句與每一標示詞預設之特徵詞進行特徵詞檢查,以獲取一語意解析後的規則語句,最後,對所述之規則語句與該標示詞進行相似度計算,以輸出一與該規則語句之語意相對應的響應語句。
Description
本發明是有關一種相似度計算方法,特別是指一種語意相似度計算方法。
隨著科技的日新月異,人類與智慧型電子裝置間的溝通模式已透過最自然且方便的語音來進行,近年來互動訴求為主的機器人陸續被發表。
目前較為熟知的人機互動技術有一種是先針對使用者可能會表達的話語或問題,於機器人身上內建預先設好的對話資料庫,當機器人接收到語音訊息即與內建的對話資料庫進行比對,以辨識該語音訊息之語意,而進行的互動對談,惟若需達到雙向互動溝通的功能,設備所需對話資料量甚鉅,單以人工方式建置該對話資料庫,除了需耗費龐大的時間與人力成本,更會增加存放資料庫的記憶體空間,且建置後的對話資料庫若無持續擴充更新,幾次後使用者將對機器人喪失新鮮感。
另一種技術則是透過神經網路進行深度學習,於實務上神經網路大多利用超級電腦或單晶片系統來實現。在使用單晶片系統的情況下,是令單晶片系統中的同一套電路在不同時間點分別扮演多層人造神經網路中不同的運算層,當神經網路的層數愈多,愈能模擬複雜的函式(亦即較複雜的判斷規則),然而,當層數增加,整個網路中所需要的神經元數量會隨之大幅增長,將衍生龐大的硬體成本負擔,且各個運算層的輸入資料、可學習參數與
運算結果的資料數量都非常可觀,絕非一般企業得以負擔。
上述缺點都顯現習知人機互動技術在使用上所衍生的種種問題,依目前人工智慧的發展,要達到人機自主互動仍屬不易,畢竟語言是人類經過長期學習與經驗累積的文化產物,因此,如何利用有限度的對話資料庫,且快速擷取使用者之語意進行分析,為一重要課題。
有鑑於此,本發明之目的,是提供一種語意相似度計算方法,包含下列步驟。
輸入一待解析的語句,並將該語句與每一標示詞預設之雜詞進行去雜詞處理,提取該語句中的字詞與每一標示詞預設之反意詞進行反意詞檢查,將該語句與每一標示詞預設之相似詞進行相似詞的置換,該語句與每一標示詞預設之特徵詞進行特徵檢查,以獲取一語意解析後的規則語句,對所述之規則語句與該標示詞進行相似度計算,以輸出一與該規則語句之語意相對應的響應語句。
本發明的另一技術手段,是在於該語句與每一標示詞預設之常數特徵詞先進行特徵詞檢查,再與每一標示詞預設之變數特徵詞進行特徵詞檢查,且標示詞之特徵詞包括至少一常數特徵詞、至少一變數特徵詞,或其組合,而每一變數特徵詞具有複數個與該變數特徵詞相關之關聯特徵詞。
本發明的又一技術手段,是在於該語句與每一標示詞預設之常數特徵詞先進行特徵詞檢查,再與每一標示詞預設之變數特徵詞進行特徵詞檢查,且該標示詞之特徵詞包括至少一常數特徵詞、至少一變數特徵詞,或其組合,每一變數特徵詞具有複數個與該變數特徵詞相關之關聯特徵詞,且複數變數特徵詞間互為交集關係。
本發明的再一技術手段,是在於上述之複
數變數特徵詞有先後之排列順序。
本發明的另一技術手段,是在於上述是先對該常數特徵詞進行檢查,再對該變數特徵詞進行檢查。
本發明的又一技術手段,是在於上述需同時符合進行特徵檢查之標示詞的常數特徵詞與該變數特徵詞,才可獲取該規則語句。
本發明的再一技術手段,是在於上述之響應語句提取對應之標示詞的常數特徵詞或該變數特徵詞分別設置有至少一常數回應特徵詞、至少一變數回應特徵詞,或其組合,且該常數回應特徵詞與該變數回應特徵詞是對應該常數特徵詞與該變數特徵詞之順序設置。
本發明的另一技術手段,是在於上述進行相似度計算會依據該常數特徵詞與該變數特徵詞的先後排列順序進行特徵詞檢查。
本發明的又一技術手段,是在於當該規則語句與該標示詞進行相似度計算後,將該響應語句與一預設的匹配度閥值進行檢查,並保留大於所述匹配度閥值的響應語句,以輸出該響應語句。
本發明的再一技術手段,是在於當該語句與該規則庫中的任一標示詞都無法匹配時,即根據該語句的字詞與一廣泛規則庫中的標示詞進行匹配,以獲取一依據該語句之字詞所得的廣泛回應語句。
本發明之有益功效在於,藉由在該標示詞設置至少一個常數特徵詞、至少一個變數特徵詞或兩者之組合,且變數特徵詞更設置有與該變數特徵詞本身相關之關聯特徵詞,以與多元化使用者語句的表達方式進行特徵詞檢查,並透過相對應設置的變數回應特徵詞,可以有多種不同的回答,除了可減少人力設置標示詞的時間與電腦之運算時間外,更可大幅提升人機互動之靈活性,以滿足
不同領域、場合之使用需求。
91~97‧‧‧步驟
圖1是一流程示意圖,說明本發明語意相似度計算方法之較佳實施例。
有關本發明之相關申請專利特色與技術內容,在以下配合參考圖式之較佳實施例的詳細說明中,將可清楚的呈現。
參閱圖1,為本發明語意相似度計算方法之較佳實施例,適用於對使用者與機器人溝通過程的語意進行解析,並產生相對應的回應,該方法包含下列步驟。
首先,進行步驟91,輸入一待解析的語句,並將該語句與每一標示詞預設之雜詞進行去雜詞處理,去雜詞指將該問句中的贅詞去除,而預設之雜詞可以是0個或是複數個,例如請問、假如、比如、像是...等口語無意義的字詞,而輸入之語句可以是由使用者直接與機器人對談,或是擷取語音所得,再將語音轉成文字或文字轉成語音等過程非本發明之技術重點,於此不多贅述。於此,使用下表1標示詞欄位”你喜歡{xq0}{xq1}”作為本實施例的說明,而由去雜詞欄位列出有預設之去雜詞如:相對而言、比較、看等等。
接著,進行步驟92,提取該語句中的字詞與每一標示詞預設之反意詞進行反意詞檢查。反意詞是依據與每一標示詞相反的用詞所設,而預設之反意詞可以是0個或是複數個,例如標示詞中願意的反意詞可以是不願意、不愛、不想、不需要、不要等等,若於本步驟出現該標示詞預設之反意詞,意指與該標示詞語意不同而轉與其他標示詞進行檢查。預設之標示詞可針對醫院、學校、遊
樂園、百貨公司等其中一特定領域或場合使用的標示詞詞庫,用以作為該場合之客服諮詢使用。如下表1之標示詞的反意詞預設為明星。
然後,進行步驟93,將該語句與每一標示詞預設之相似詞進行相似詞的置換,相似詞是依每一標示詞所設,而預設之相似詞可以是0個或是複數個,例如上表1標示詞中喜歡的相似詞欄位列出有喜愛、喜愛、偏愛等等,或是國父與孫中山等等。實際實施時,亦可先進行步驟93相似詞置換再進行步驟92反意詞檢查,不應以此為限。
接著,進行步驟94,該語句與每一標示詞預設之常數特徵詞進行特徵詞檢查,如上表1常數特徵詞欄位預設為你喜歡,若出現”你喜歡”意指與該標示詞語意相同而進行下一步驟,反之則轉與其他標示詞進行檢查。
然後,進行步驟95,該語句與每一標示詞預設之變數特徵詞進行特徵詞檢查,以獲取一語意解析後的規則語句。該標示詞之特徵詞包括至少一常數特徵詞、至少一變數特徵詞,或其組合,此外,每一變數特徵詞具有複數個與該變數特徵詞相關之關聯特徵詞。於此,該特徵詞可以是名詞、動詞、動名詞或形容詞,如上表1變數特徵詞欄位預設有籃球、舞蹈、跳舞等。
進一步地,該複數變數特徵詞間互為交集關係,且該複數變數特徵詞有先後之排列順序,如上表1之標示詞中的{xq0}{xq1}。過程中是先對該常數特徵詞進行檢查,再對該變數特徵詞進行檢查,再者,需同時符合進行特徵檢查之標示詞的常數特徵詞與該變數特徵詞,才可獲取該規則語句。
接著,進行步驟96,對所述之規則語句與該標示詞進行相似度計算,以輸出一與該規則語句之語意相對應的響應語句,如上表1響應語句欄位預設有:我比較喜歡{xq1}些、這兩種運動我都喜歡!、{xq0}跟{xq1}都是很不錯的運動!。當{xq0}、{xq1}分別為籃球與足球時,響應語句為:我比較喜歡足球些、這兩種運動我都喜歡!、籃球跟足球都是很不錯的運動!
在該步驟96中,該響應語句提取對應之標示詞的常數特徵詞與該變數特徵詞分別設置有至少一常數回應特徵詞、至少一變數回應特徵詞,或其組合,且該常數回應特徵詞與該變數回應特徵詞是對應該常數特徵詞與該變數特徵詞之順序設置。特別注意的是,進行相似度計
算會依據該常數特徵詞與該變數特徵詞的先後排列順序進行特徵詞檢查。
最後,進行步驟97,當該規則語句與該標示詞進行相似度計算後,將該響應語句與一預設的匹配度閥值進行檢查,並保留大於所述匹配度閥值的響應語句,以輸出該響應語句,反之,則不輸出該響應語句。一般來說相似度大約會設定在70~80%左右,雖於一開始即進行去雜詞處理,為免於有殘留未被完全去除之無用的雜詞,透過預設的匹配度閥值,可確保計算所得之結果的正確性。
特別說明的是,當該語句與預設任一標示詞都無法匹配時,也就是進行反意詞檢查、特徵詞檢查、相似度計算的其中之一無法匹配,即根據該語句的特徵字詞與一廣泛規則庫中的標示詞詞庫進行匹配,以獲取一依據該語句之特徵字詞所得的廣泛回應語句。
假設語意為X1,X2,X3...,X1有X11,X12,X1...X1n等n種表達方式,並依此類推X2,X3,假設使用者的問句或待解析語句為Y1,當要計算Y1是否在表達X1的語意時,習知作法是將Y1與X11,X12,X13,...X1n分別去計算相似度,因此必須建立n筆標示詞(Label),也就是X11,X12,X13,...X1n,此舉會耗費建置時間與人力成本。本發明解決必須建立n筆標示詞的繁雜作法,也就是以其中一筆標示詞代表X11,X12,..X1n等n筆表達方式,用X11做為標示詞代表X11-X1n,X21-X2n,X31-X3n....到Xmn等m種語意,使其得到m x n種的表達方式,除了可節省建置規則庫的時間外,更可縮短計算時間,以提升人機互動之即時性。
首先,舉進行反意詞檢查的例子來說,標示詞為你喜歡足球嗎,若該語句為你喜歡足球嗎,在進行相似度計算其相似度極高,反之,若該語句為你不喜歡足
球嗎,其相似度也很高,雖然兩句只有一個”不”字不同,可是兩者的語意是截然不同且相反的,因此,透過反意詞檢查步驟,可於此步驟將輸入語句”你不喜歡足球嗎”設定為與標示詞”你喜歡足球嗎”作出比對不匹配的結果,並轉與其他標示詞進行比對,不需進行與標示詞”你喜歡足球嗎的後續置換、檢查或分析等步驟,以節省分析時間與提升分析準確度。
接著,再以標示詞中包括不包括變數特徵詞的例子來說,標示詞X11為”你{喜歡}{足球}嗎”進行說明,括號內的喜歡與足球為常數特徵詞,語言表達方式多元例如X12「你愛踢足球嗎」、X13「你愛看足球嗎」、X14「你喜不喜歡足球」、X15「老實說,你喜歡看足球比賽嗎」、X16「你不喜歡足球嗎」,將語句X12~X16分別輸入時,X13的看與X15的老實說為預設且無意義的雜詞,會在該步驟91中去除,X12的愛踢、X13的愛看、X14的喜不喜歡、X15的喜歡看,與標示詞的喜歡為預設的相似詞,在該步驟93置換為喜歡,X16的你不喜歡足球嗎與標示詞你喜歡足球嗎為預設的相似詞,亦會在該步驟93中被置換。
然後,進行特徵詞檢查,在此步驟喜歡與足球兩個特徵詞需同時存在,且先檢查到有特徵詞”喜歡”才進行特徵詞”足球”的檢查,之後X12會由你愛踢足球嗎變成你喜歡足球嗎進行相似度計算;X13會由你愛看足球嗎變成你喜歡足球嗎進行相似度計算;X14會由你喜不喜歡足球變成你喜歡足球進行相似度計算;X15會由老實說,你喜歡看足球比賽嗎變成你喜歡足球進行相似度計算;X16會由你不喜歡足球嗎變成你喜歡足球嗎進行相似度計算。經過本設計的處理流程,X12~X16在計算相似度時,都可以得到很高的相似值,以認知其與標示詞(X11)
有相同的語意。
另外,舉以標示詞中包括有一個變數特徵詞的例子來說,當標示詞為”你喜歡{足球/籃球/排球/瑜珈…}嗎”,括號為一個變數特徵詞,並設定有與足球相關之關聯特徵詞籃球、排球、瑜珈...等m個關連特徵詞,而該響應語句的變數回應特徵詞對應該變數特徵詞設置,括號為一個變數回應特徵詞,該響應語句回答設計可以是”我最愛{踢足球/籃球/排球/瑜珈…}了”、{足球/籃球/排球/瑜珈…}也是我喜歡的項目之一、{足球/籃球/排球/瑜珈…}有點難度,我沒有很喜歡等多種設計回答。
進一步地,當輸入之語句為”你喜歡籃球嗎”,進行特徵詞檢查時符合變數特徵詞中的關聯特徵詞”籃球”,該語句改為”你喜歡籃球嗎”,之後進行相似度計算得到很高的相似度,最後,得到該響應語句的回答為”我最愛籃球了”,或是”籃球也是我喜歡的項目之一”,亦或是”籃球有點難度,我沒有很喜歡”等多樣化的回答。而若輸入語句為”你喜歡排球嗎”,該響應語句的對應回答為”排球有點難度,我沒有很喜歡”。
綜上所述,本發明語意相似度計算方法,藉由在該標示詞設置至少一個常數特徵詞、至少一個變數特徵詞或兩者之組合,且變數特徵詞更設置有與該變數特徵詞本身相關之關聯特徵詞,以與多元化語句的表達方式進行特徵詞檢查,並透過相對應設置的變數回應特徵詞,可以有多種不同的回答,除了可減少人力設置標示詞的時間與電腦之運算時間外,更可大幅提升人機互動之靈活性,以滿足不同領域、場合之使用需求,故確實可以達成本發明之目的。
惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍,即大凡依本發
明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾,皆仍屬本發明專利涵蓋之範圍內。
91~97‧‧‧步驟
Claims (9)
- 一種語意相似度計算方法,包含下列步驟:輸入一待解析的語句,並將該語句與每一標示詞預設之雜詞進行去雜詞處理;提取該語句中的字詞與每一標示詞預設之反意詞進行反意詞檢查;將該語句與每一標示詞預設之相似詞進行相似詞的置換;該語句與每一標示詞預設之特徵詞進行特徵詞檢查,以獲取一語意解析後的規則語句;及對所述之規則語句與該標示詞進行相似度計算,以輸出一與該規則語句之語意相對應的響應語句。
- 依據申請專利範圍第1項所述之語意相似度計算方法,其中,在進行該語句的特徵詞檢查時,該語句與每一標示詞預設之常數特徵詞先進行特徵詞檢查,再與每一標示詞預設之變數特徵詞進行特徵詞檢查,且該標示詞之特徵詞包括至少一常數特徵詞、至少一變數特徵詞,或其組合,而每一變數特徵詞具有複數個與該變數特徵詞相關之關聯特徵詞。
- 依據申請專利範圍第1項所述之語意相似度計算方 法,其中,在進行該語句的特徵詞檢查時,該語句與每一標示詞預設之常數特徵詞先進行特徵詞檢查,再與每一標示詞預設之變數特徵詞進行特徵詞檢查,且該標示詞之特徵詞包括至少一常數特徵詞、至少一變數特徵詞,或其組合,每一變數特徵詞具有複數個與該變數特徵詞相關之關聯特徵詞,且該複數變數特徵詞間互為交集關係。
- 依據申請專利範圍第2或3項所述之語意相似度計算方法,其中,在進行該語句的特徵詞檢查時,該複數變數特徵詞有先後之排列順序。
- 依據申請專利範圍第2或3項所述之語意相似度計算方法,其中,在進行該語句的特徵詞檢查時,需同時符合進行特徵檢查之標示詞的常數特徵詞與該變數特徵詞,才可獲取該規則語句。
- 依據申請專利範圍第2或3項所述之語意相似度計算方法,其中,在進行相似度計算時,該響應語句提取對應之標示詞的常數特徵詞或該變數特徵詞分別設置有至少一常數回應特徵詞、至少一變數回應特徵詞,或其組合,且該常數回應特徵詞與該變數回應特徵詞是對應該常數特徵詞與該變數特徵詞之順序設置。
- 依據申請專利範圍第2或3項所述之語意相似度計算方法,其中,在進行相似度計算時,會依據該常數特徵詞與該變數特徵詞的先後排列順序進行特徵詞檢查。
- 依據申請專利範圍第1項所述之語意相似度計算方 法,其中,在進行相似度計算時,當該規則語句與該標示詞進行相似度計算後,將該響應語句與一預設的匹配度閥值進行檢查,並保留大於所述匹配度閥值的響應語句,以輸出該響應語句。
- 依據申請專利範圍第1項所述之語意相似度計算方法,其中,當該語句與該規則庫中的任一標示詞都無法匹配時,即根據該語句的字詞與一廣泛規則庫中的標示詞進行匹配,以獲取一依據該語句之字詞所得的廣泛回應語句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108118443A TWI712949B (zh) | 2019-05-28 | 2019-05-28 | 語意相似度計算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108118443A TWI712949B (zh) | 2019-05-28 | 2019-05-28 | 語意相似度計算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202044103A true TW202044103A (zh) | 2020-12-01 |
TWI712949B TWI712949B (zh) | 2020-12-11 |
Family
ID=74668175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108118443A TWI712949B (zh) | 2019-05-28 | 2019-05-28 | 語意相似度計算方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI712949B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005041063A1 (en) * | 2003-09-30 | 2005-05-06 | British Telecommunications Public Limited Company | Information retrieval |
US9672206B2 (en) * | 2015-06-01 | 2017-06-06 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
CN107944027B (zh) * | 2017-12-12 | 2020-03-31 | 苏州思必驰信息科技有限公司 | 创建语义键索引的方法及系统 |
CN109062892A (zh) * | 2018-07-10 | 2018-12-21 | 东北大学 | 一种基于Word2Vec的中文语句相似度计算方法 |
-
2019
- 2019-05-28 TW TW108118443A patent/TWI712949B/zh active
Also Published As
Publication number | Publication date |
---|---|
TWI712949B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Know more say less: Image captioning based on scene graphs | |
US11520991B2 (en) | Method, apparatus, electronic device and storage medium for processing a semantic representation model | |
CN109783657B (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN111259653B (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
CN111832278A (zh) | 文档流畅度的检测方法、装置、电子设备及介质 | |
Wahde et al. | DAISY: An implementation of five core principles for transparent and accountable conversational AI | |
Basu et al. | Multimodal sentiment analysis of# metoo tweets using focal loss (grand challenge) | |
Langlet et al. | Modelling user’s attitudinal reactions to the agent utterances: focus on the verbal content | |
Alshammari et al. | TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM | |
Yan et al. | Implicit emotional tendency recognition based on disconnected recurrent neural networks | |
Zhu | Deep learning for Chinese language sentiment extraction and analysis | |
Rajput et al. | Big data and social/medical sciences: state of the art and future trends | |
Anh et al. | Vlsp 2021-vnnli challenge: Vietnamese and english-vietnamese textual entailment | |
Paduraru et al. | Conversational Agents for Simulation Applications and Video Games. | |
WO2023169301A1 (zh) | 一种文本处理方法、装置及电子设备 | |
Sun et al. | Cross-language multimodal scene semantic guidance and leap sampling for video captioning | |
TWI712949B (zh) | 語意相似度計算方法 | |
Malviya et al. | HDRS: Hindi dialogue restaurant search corpus for dialogue state tracking in task-oriented environment | |
Alharahseheh et al. | A survey on textual entailment: Benchmarks, approaches and applications | |
CN114817510B (zh) | 问答方法、问答数据集生成方法及装置 | |
Weng et al. | A survey of artificial intelligence techniques on MOOC of legal education | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
Zygadlo | A therapeutic dialogue agent for polish language | |
Khandait et al. | Automatic question generation through word vector synchronization using lamma |