TWI639997B - 基於機率規則之對話理解方法 - Google Patents
基於機率規則之對話理解方法 Download PDFInfo
- Publication number
- TWI639997B TWI639997B TW106133260A TW106133260A TWI639997B TW I639997 B TWI639997 B TW I639997B TW 106133260 A TW106133260 A TW 106133260A TW 106133260 A TW106133260 A TW 106133260A TW I639997 B TWI639997 B TW I639997B
- Authority
- TW
- Taiwan
- Prior art keywords
- dialog
- input
- input sentence
- understanding
- probability
- Prior art date
Links
Abstract
一種基於機率規則之對話理解方法藉由一口語理解模組理解輸入語句之語義後,透過對話管理模組之對話狀態的更新及分數規則之分數值計算各該回覆動作的期望分數值,該人機互動介面以具有最高期望分數值的回覆動作進行回覆,而可讓回覆動作符合使用者的需求。
Description
本發明是關於一種對話理解方法,特別是關於一種基於機率規則之對話理解方法。
台灣已進入高齡化社會,老年人所估比例將逐年增加,因此如何提供完善之照護,讓老年人在晚年保有良好的生活品質是目前各產業領域所關注的焦點。其中,居家照護機器人能透過影像及語音的擷取瞭解被照護者的動態,且能根據使用者的指令進行如多媒體播放、視訊電話播打或影像擷取…等,而成為居家照護的發展重點之一。
使用者一般可透過觸控銀幕輸入、按鍵或語音的方式下達指令給居家照護機器人,基於使用上的方便,目前居家照護機器人多以朝向語音控制的方向發展,居家照護機器人內建有語音識別系統,以接收並分析使用者的語音指令,目前語音識別系統是將使用者之語音指令與其資料庫內所儲存之預設指令進行相似度的計算,讓居家照護機器人得知使用者的指令為何,以進行後續之動作回饋,但也因此讓居家照護機器人在操作上顯的一板一眼,缺乏了居家照護應有的溫暖。此外,由於資料庫中所能儲存之預設指令有限,使用者必須記得確切的指令為何才能有效地控制居家照護機器人的行動,對於年長者及幼童的使用
相當不便。
本發明的主要目的在於以口語理解系統得到使用者之輸入以理解使用者對話中的意圖(intent),並透過對話管理管理模組根據輸入語句之目標及人機互動介面的狀態進行對話狀態之更新,再搭配上分數規則後能以最佳的回覆動作回饋給使用者,讓居家照護機器人可根據使用者的意圖提供友善且具親和力的居家照護,而不是一個口令一個動作。
本發明之一種基於機率規則之對話理解方法,其包含:一前處理模組對一輸入語句進行前處理而得到複數個詞彙;一口語理解模組根據該輸入語句之該些詞彙得到該輸入語句的一目標;一對話管理模組根據該輸入語句之該目標及一人機互動介面之一控制狀態於一對話狀態更新表找出該輸入語句對應的複數個對話狀態,且各該對話狀態具有一可能狀態機率;該對話管理模組根據該些對話狀態及該人機互動介面之該控制狀態於一分數規則表中找出各該對話狀態對應之複數個回覆動作,且該對話管理模組根據各該對話狀態之該可能狀態機率與各該回覆動作之一分數值計算各該回覆動作的一期望分數值;以及該對話管理模組以具有最高之該期望分數值之該回覆動作控制一人機互動介面進行動作。
本發明藉由該口語理解模組理解輸入語句之語義後,透過對話管理模組之對話狀態的更新及分數規則之分數值計算各該回覆動作的期望分數值,可讓該人機互動介面之回覆動作能符合使用者的需求,由於本發明是以該口語理解模組實際地理解使用者之輸入語句,因此,該人機互動介面之回覆動作並
非一個命令一個動作,而是具有貼近使用者意圖之友善性及親和力,讓本發明之該基於機率規則之對話理解方法能適用於居家型照顧機器人。
10‧‧‧基於機率規則之對話理解方法
11‧‧‧前處理
12‧‧‧口語理解
13‧‧‧對話狀態更新
14‧‧‧計算期望分數值
15‧‧‧控制人機互動介面
100‧‧‧基於機率規則之對話理解系統
110‧‧‧前處理模組
120‧‧‧口語理解模組
121‧‧‧意圖分類單元
121a‧‧‧語句主題偵測
121b‧‧‧疑問句偵測
121c‧‧‧祈使句偵測
122‧‧‧槽填充單元
123‧‧‧指令偵測單元
130‧‧‧對話管理模組
140‧‧‧人機互動介面
150‧‧‧指令資料庫
160‧‧‧對話狀態資料庫
170‧‧‧分數規則資料庫
第1圖:依據本發明之一實施例,一種基於機率規則之對話理解方法的流程圖。
第2圖:依據本發明之一實施例,一種基於機率規則之對話理解系統的功能方塊圖。
第3圖:依據本發明之一實施例,一前處理模組、一口語理解模組及一對話管理模組的功能方塊圖。
第4圖:依據本發明之一實施例,一前處理模組及一意圖分類單元的功能方塊圖。
第5圖:依據本發明之一實施例,一槽填充單元進行槽填充的示意圖。
第6圖:依據本發明之一實施例,一對話狀態更新表的示意圖。
第7圖:依據本發明之一實施例,一分數規則表的示意圖。
請參閱第1及2圖,其為本發明之一實施例,一種基於機率規則之對話理解方法10的流程圖,其應用於一種基於機率規則之對話理解系統100,該基於機率規則之對話理解方法10包含「前處理11」、「口語理解12」、「對話狀態更新13」、「計算期望分數值14」及「控制人機互動介面15」,該基於機率規則之對話理解系統100包含一前處理模組110、一口語理解模組120、一對話管理模組130、一人機互動介面140、一指令資料庫150、一對話狀態資料庫160及一分
數規則資料庫170。
請參閱第1及2圖,一輸入語句輸入該前處理模組110,其中該輸入語句是由一語音擷取模組(如麥克風)擷取一使用者說話之語音後,再透過一自動語音辨識模組(如Google Speech API)辨識而得,由於中文語句中相連的兩個單字並非一定具有意義,如「今天天氣真好」中的「氣真」就不具有任何意義,因此須藉由「前處理11」對該輸入語句進行剖析,其中,該前處理模組110對該輸入語句進行前處理而得到複數個詞彙,在本實施例中,該前處理模組110是以中央研究院研發之CKIP中文剖析系統對該輸入語句進行前處理,以將該輸入語句斷詞(segment)為該些詞彙,例如該輸入語句「今天天氣真好我想出去玩」的剖析結果為「今天|天氣|真好|我|想|出去|玩」7個詞彙,完成前處理11後,該輸入語句之該些詞彙傳送至該口語理解模組120。
接著,請參閱第1及2圖,於「口語理解12」中,該口語理解模組120根據該輸入語句之該些詞彙得到該輸入語句的一目標,請參閱第3圖,在本實施例中,該口語理解模組120包含一意圖分類單元121、一槽填充單元122及一指令偵測單元123,該意圖分類單元121、該槽填充單元122及該指令偵測單元123分別由該前處理模組110接收該輸入語句之該些詞彙。
請參閱第3及4圖,該意圖分類單元121根據該輸入語句之該些詞彙分析該輸入語句的一意圖類型,該意圖分類單元121包含一語句主題偵測121a、一疑問句偵測121b及一祈使句偵測121c,該語句主題偵測121a用以根據該輸入語句之該些詞彙偵測該輸入語句之一語句主題,該疑問句偵測121b用以根據該輸入語句之該些詞彙偵測該輸入語句中是否具有一疑問句,該祈使句偵測121c用以根據該輸入語句之該些詞彙偵測該輸入語句中是否具有一祈使句,因此,該意
圖類型可包含有一語句主題、一疑問句及一祈使句。在本實施例中,該語句主題偵測121a是比對該輸入語句之該些詞彙及一語句主題資料集得到該輸入語句之該語句主題,例如「我|想|聽|音樂」之該輸入語句的的該語句主題為「音樂」,「幫|我|拍|張|照片」之該輸入語句的的該主題為「照片」。該疑問句偵測121b是比對該輸入語句之該些詞彙及一疑問句資料集得到該輸入語句之該疑問句,例如「有|什麼|最|新|體育|新聞|嗎」之該輸入語句的該疑問句為「嗎」。在本實施例中,該祈使句偵測121c是比對該輸入語句之該些詞彙及一祈使句資料集測得該輸入語句之該祈使句,例如「幫|我|播|音樂|好不好」之該輸入語句的該祈使句為「好不好」。
請參閱第3圖,該槽填充單元122根據該輸入語句之該些詞彙分析各該詞彙所屬之一標籤種類,請參閱第5圖,為一輸入語句「我|住在|台南|市區」進行槽填充的示意圖,該槽填充單元122是逐字將各該詞彙進行其標籤種類的搜尋,其中由於「我」及「住在」之詞彙並未搜尋到對應之該標籤種類,因此這兩個詞彙的標籤種類設為0,而「台南」及「市區」則分別搜尋到預設之B region type及I region type。該意圖分類單元121及該槽填充單元122分別完成意圖類型及標籤種類之偵測後,該意圖類型及該標籤種類被包裹為該輸入語句之該目標,且該目標傳送至該對話管理模組130。
請參閱第3圖,較佳的,為了讓整體系統的運作更加順暢,藉由該指令偵測單元123根據該輸入語句之該些詞彙及一指令資料庫150儲存之複數個指令用語分析該輸入語句是否具有一指令用語,在本實施例中,該指令偵測單元123是以傑卡德相似係數(Jaccard similarity coefficient)分析該輸入語句中是否具有該指令用語,若該輸入語句具有該指令用語,則該對話管理模組130直接根據
該指令用語控制該人機互動介面140進行動作。
接著,請參閱第1及2圖,於「對話狀態更新13」中,該對話管理模組130將該輸入語句之該目標、該人機互動介面140之一控制狀態及一對話歷史於儲存於一對話狀態資料庫160之一對話狀態更新表中找出該輸入語句對應的複數個對話狀態,且各該對話狀態具有一可能狀態機率,在本實施例中,是以if...then...else的方式編寫該對話狀態更新表,以藉由該輸入語句之該目標、該人機互動介面140之該控制狀態及該對話歷史於該對話狀態更新表中找到對應之該些對話狀態及其可能狀態機率。請參閱第6圖,為該對話狀態更新表的示意圖,其中u為該輸入語句之該目標,q為該人機互動介面140之該控制狀態,h為該對話歷史,s為各該對話狀態,P(.)為各該對話狀態之該可能狀態機率,以第一個判斷式為例,當該輸入語句之該目標為request(x)、該人機互動介面140之該控制狀態為TASKMANAGER且該對話歷史為idle時,該對話管理模組130設定該對話狀態為request(x)的可能狀態機率為0.8,該對話狀態為dialogue的可能狀態機率為0.2。
接著,請參閱第1及2圖,於「計算期望分數值14」中該對話管理模組130根據該些對話狀態及該人機互動介面140之該控制狀態於儲存於一分數規則資料庫170的一分數規則表中找出各該對話狀態對應之複數個回覆動作,且該對話管理模組130根據各該對話狀態之該可能狀態機率與各該回覆動作之一分數值計算各該回覆動作的一期望分數值,在本實施例中,是以if...then...else的方式編寫該分數規則表,以找出各該對話狀態對應之該些回覆動作及其分數值。請參閱第7圖,為該分數規則表的示意圖,其中R(.)為各該回覆動作之該分數值,dialogue及do(x)為各該回覆動作。而各該回覆動作之該期望分數值的計算為各該
對話狀態之該可能狀態機率乘上各該回覆動作的分數值後相加而得,請參閱第6圖,以該輸入語句之該目標、該人機互動介面140之該控制狀態及該對話歷史符合該對話狀態更新表第一行之判斷式為例,其對話狀態為request(x)之該可能狀態機率為0.8,對話狀態為dialogue(x)之該可能狀態機率為0.2,請再參閱第7圖,以該分數規則表前兩行為例,該回覆動作dialogue(x)之該期望分數值為0.8×-5+0.2×5=-3,該回覆動作do(x)之該期望分數值為0.8×5+0.2×-5=3。
此外,若該對話管理模組130計算之各該回覆動作的該期望分數值均低於一信心門檻值時,該對話管理模組130將該輸入語句標註為一聊天語句,代表該輸入語句為單純之對話,而非要求該人機互動介面140之互動請求,該對話管理模組130將該輸入語句傳送至一對話系統(圖未繪出)進行最佳回話之運算。
最後,請參閱第1及2圖,於「控制人機互動介面15」中,該對話管理模組130以具有最高之該期望分數值之該回覆動作控制該人機互動介面140進行動作,由於具有最高之該期望分數值之該回覆動作是經由口語理解、對話狀態更新及分數規則計算而得,可確保該人機互動介面140之回覆動作能貼近使用者的實際需求。
本發明藉由該口語理解模組120理解輸入語句之語義後,透過對話管理模組130之對話狀態的更新及分數規則之分數值的計算各該回覆動作的期望分數值,可讓該人機互動介面140之回覆動作能符合使用者的需求,由於本發明是以該口語理解模組120實際地理解使用者之輸入語句,因此,該人機互動介面140之回覆動作並非一個命令一個動作,而是具有貼近使用者意圖之友善性及親和力,讓本發明之該基於機率規則之對話理解方法10能適用於居家型照顧機
器人。
本發明之保護範圍當視後附之申請專利範圍所界定者為準,任何熟知此項技藝者,在不脫離本發明之精神和範圍內所作之任何變化與修改,均屬於本發明之保護範圍。
Claims (7)
- 一種基於機率規則之對話理解方法,其包含:一前處理模組對一輸入語句進行前處理而得到複數個詞彙;一口語理解模組根據該輸入語句之該些詞彙得到該輸入語句的一目標,其中該口語理解模組包含一意圖分類單元及一槽填充單元,該意圖分類單元包含一語句主題偵測、一疑問句偵測及一祈使句偵測,該意圖分類單元根據該輸入語句之該些詞彙分析該輸入語句的一意圖類型,該槽填充單元根據該輸入語句之該些詞彙分析各該詞彙所屬之一標籤種類,其中該意圖類型及該標籤種類被包裹為該輸入語句之該目標;一對話管理模組根據該輸入語句之該目標及一人機互動介面之一控制狀態於一對話狀態更新表找出該輸入語句對應的複數個對話狀態,且各該對話狀態具有一可能狀態機率;該對話管理模組根據該些對話狀態及該人機互動介面之該控制狀態於一分數規則表中找出各該對話狀態對應之複數個回覆動作,且該對話管理模組根據各該對話狀態之該可能狀態機率與各該回覆動作之一分數值計算各該回覆動作的一期望分數值;以及該對話管理模組以具有最高之該期望分數值之該回覆動作控制一人機互動介面進行動作。
- 如申請專利範圍第1項所述之基於機率規則之對話理解方法,其中該前處理模組是以中央研究院研發之CKIP中文剖析系統對該輸入語句進行前處理。
- 如申請專利範圍第1項所述之基於機率規則之對話理解方法,其中 該口語理解模組另包含有一指令偵測單元,該指令偵測單元根據該輸入語句之該些詞彙及一指令資料庫分析該輸入語句是否具有一指令用語。
- 如申請專利範圍第3項所述之基於機率規則之對話理解方法,其中若該輸入語句具有該指令用語,則該對話管理模組根據該指令用語控制該人機互動介面進行動作。
- 如申請專利範圍第3項所述之基於機率規則之對話理解方法,其中該指令偵測單元是計算該輸入語句之該些詞彙與該指令資料庫儲存之該些指令用語之間的相似度分析該輸入語句是否具有該指令用語。
- 如申請專利範圍第1項所述之基於機率規則之對話理解方法,其中對話管理模組根據該輸入語句之該目標、該人機互動介面之該控制狀態及一對話歷史於該對話狀態更新表找出該輸入語句對應的該些對話狀態。
- 如申請專利範圍第1項所述之基於機率規則之對話理解方法,其中若該對話管理模組計算之各該回覆動作的該期望分數值均低於一信心門檻值時,該對話管理模組將該輸入語句標註為一聊天語句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106133260A TWI639997B (zh) | 2017-09-28 | 2017-09-28 | 基於機率規則之對話理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106133260A TWI639997B (zh) | 2017-09-28 | 2017-09-28 | 基於機率規則之對話理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI639997B true TWI639997B (zh) | 2018-11-01 |
TW201916003A TW201916003A (zh) | 2019-04-16 |
Family
ID=65034128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106133260A TWI639997B (zh) | 2017-09-28 | 2017-09-28 | 基於機率規則之對話理解方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI639997B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201021024A (en) * | 2008-11-19 | 2010-06-01 | Inst Information Industry | Method for classifying speech emotion and method for establishing emotional semantic model thereof |
TW201432669A (zh) * | 2013-02-01 | 2014-08-16 | Tencent Tech Shenzhen Co Ltd | 一種聲學語言模型訓練方法和裝置 |
TW201543469A (zh) * | 2010-12-03 | 2015-11-16 | Dolby Lab Licensing Corp | 利用多媒體處理節點之適應性處理技術 |
US20160098986A1 (en) * | 2014-10-06 | 2016-04-07 | Intel Corporation | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
-
2017
- 2017-09-28 TW TW106133260A patent/TWI639997B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201021024A (en) * | 2008-11-19 | 2010-06-01 | Inst Information Industry | Method for classifying speech emotion and method for establishing emotional semantic model thereof |
TW201543469A (zh) * | 2010-12-03 | 2015-11-16 | Dolby Lab Licensing Corp | 利用多媒體處理節點之適應性處理技術 |
TW201432669A (zh) * | 2013-02-01 | 2014-08-16 | Tencent Tech Shenzhen Co Ltd | 一種聲學語言模型訓練方法和裝置 |
US20160098986A1 (en) * | 2014-10-06 | 2016-04-07 | Intel Corporation | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI805008B (zh) * | 2021-10-04 | 2023-06-11 | 中華電信股份有限公司 | 客製化意圖評選系統、方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
TW201916003A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11221669B2 (en) | Non-verbal engagement of a virtual assistant | |
KR102523982B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
US10360265B1 (en) | Using a voice communications device to answer unstructured questions | |
US9922642B2 (en) | Training an at least partial voice command system | |
CN110797019B (zh) | 多命令单一话语输入方法 | |
CN112262430A (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
JP7341171B2 (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
TW201935273A (zh) | 語句的使用者意圖識別方法和裝置 | |
US20220335930A1 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
US20150331665A1 (en) | Information provision method using voice recognition function and control method for device | |
CN104090652A (zh) | 一种语音输入方法和装置 | |
JP2017534941A (ja) | オーファン発話検出システム及び方法 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
US11830482B2 (en) | Method and apparatus for speech interaction, and computer storage medium | |
US11762848B2 (en) | Combining parameters of multiple search queries that share a line of inquiry | |
CN117059097A (zh) | 基于第三方代理内容的语音到文本转换 | |
CN109979460A (zh) | 可视化语音信息交互方法及装置 | |
US20210065709A1 (en) | Task-oriented dialog suitable for a standalone device | |
US20220068267A1 (en) | Method and apparatus for recognizing speech, electronic device and storage medium | |
TWI639997B (zh) | 基於機率規則之對話理解方法 | |
WO2023124215A1 (zh) | 用户问题的标注方法及装置 | |
Khan et al. | Making Personal Digital Assistants Aware of What They Do Not Know. | |
US11646035B1 (en) | Dialog management system | |
US20240013782A1 (en) | History-Based ASR Mistake Corrections | |
KR20240011841A (ko) | 과거 인터렉션에 기초하여 세컨더리 자동화된 어시스턴트에 관련 쿼리 제공 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |