TWI657433B

TWI657433B - 語音互動裝置及應用其之語音互動方法

Info

Publication number: TWI657433B
Application number: TW106137827A
Authority: TW
Inventors: 蔡政宏; 劉上瑋; 朱志國; 谷圳
Original assignee: 財團法人資訊工業策進會
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2019-04-21
Also published as: TW201919042A; CN109754792A; US20190130900A1

Abstract

一種語音互動裝置及應用其之語音互動方法。語音互動方法包括以下步驟。首先，回應語者的話語，分析話語的語意。然後，分析話語的聲調。然後，依據語意與聲調，判斷出語者屬於數個語者分類之一者。然後，依據一對話語句資料庫內的數筆語者分類與回應語句的對應關係，產生對應此些語者分類之該者的一回應語句。然後，以回應語句產生回應語音。

Description

語音互動裝置及應用其之語音互動方法

本發明是有關於一種互動裝置及應用其之互動方法，且特別是有關於一種語音互動裝置及應用其之語音互動方法。

一般來說，賣場都會提供一資訊機台，讓消費者透過資訊機台查詢賣場是否會有所需的產品及有關產品的資訊，如價格、廠牌、庫存等。然而，資訊機台是被動式地與消費者互動，且大多需要消費者手動輸入資訊，或是經由讀條碼機器來讀取條碼，消費者使用的頻率不高，對於提升賣場銷量的幫助不大。因此，提出一種新的語音互動裝置及應用其之語音互動方法，以改善前述問題是本技術領域業者努力的方向之一。

本發明係有關於一種語音互動裝置及應用其之語音互動方法，可改善前述習知問題。

本發明一實施例提出一種語音互動裝置。語音互動裝置包括一語意分析模組、一聲調分析模組、一語者分類判斷模組、一對話語句資料庫、一對話語句產生模組及一語音產生器。語意分析模組用以分析一語者的一話語的一語意。聲調分析模組用以分析該話語的一聲調。語者分類判斷模組用以依據語意與聲調，判斷出語者屬於數個語者分類之一者。對話語句資料庫儲存有數筆語者分類與回應語句的對應關係。對話語句產生模組依據此些語者分類與回應語句的對應關係，產生對應該些語者分類之該者的回應語句。語音產生器以回應語句產生一對應的回應語音。

本發明另一實施例提出一種語音互動方法。語音互動方法包括：回應一語者的一話語，分析話語的一語意；分析話語的一聲調；依據語意與聲調，判斷出語者屬於數個語者分類之一者；依據一對話語句資料庫內的數筆語者分類與回應語句的對應關係，產生對應此些語者分類之該者的一回應語句；以及，以回應語句產生一對應的回應語音。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

請參照第1A圖，其繪示依照本發明一實施例之語音互動裝置100的功能方塊圖。語音互動裝置100可分析語者說出的話語的語意及聲調，以判斷語者的所屬類型，並與語者進行對話。語音互動裝置100可以是一機器人、一電子裝置、或是其他任何形式之電腦等。

語音互動裝置100包括語意分析模組110、聲調分析模組120、語者分類判斷模組130、對話語句產生模組140、語音產生器150及對話語句資料庫D1。

語意分析模組110、聲調分析模組120、語者分類判斷模組130、對話語句產生模組140及語音產生器150可以是採用半導體製程所形成的電路結構。此外，語意分析模組110、聲調分析模組120、語者分類判斷模組130、對話語句產生模組140與語音產生器150 可以是獨立結構，然亦可至少二者可整合成單一結構。在一些特定實施例中，也可經由一般用途處理器/計算器/伺服器結合其它硬體(如儲存單元)來進行實作。

語意分析模組110用以分析語者的話語W1的語意W11。聲調分析模組120用以分析話語W1的聲調W12。語者分類判斷模組130可判斷話語W1的語意W11及聲調W12所屬的語者分類C1。對話語句產生模組140依據數個語者分類與回應語句的對應關係R1，產生對應此些語者分類C1之該者的回應語句S1。語音產生器150以回應語句S1產生一對應語者的回應語音。前述的各語者分類與回應語句的對應關係R1包含了語者分類C1與其對應的回應語句的對應關係。

請參照第1B圖，其繪示依照本發明另一實施例之語音互動裝置100的功能方塊圖。語音互動裝置100包括語音接收器105、語意分析模組110、聲調分析模組120、語者分類判斷模組130、對話語句產生模組140、語音產生器150、紀錄單元160、攝像器170、對話語句資料庫D1、語者分類資料庫D2及語者身分資料庫D3。第1B圖的模組名稱和標號與第1A圖中相同者，具有相同或相似功能，於此不再多贅述。此外，語音接收器105可例如是麥克風，其可接收語者的話語W1，紀錄單元160可例如是一般市售可得之儲存裝置或內建的儲存器，而攝像器170可例如是一般市售可得的攝影機或照像機。

前述語者分類判斷模組130可依據數個話語與語者分類的對應關係R2判斷話語W1的語意W11及聲調W12所屬的語者分類C1。各話語與語者分類的對應關係R2包含了話語W1的語意W11及聲調W12與語者分類C1的對應關係。此外，此些話語與語者分類的對應關係R2可儲存於語者分類資料庫D2。

本實施例的語者例如是消費者，而語者分類C1例如包含消費者性格，例如是品牌為主、重視品質、重視購物樂趣、重視流行、經常性購買、重視感受、考慮型與經濟型中至少一者。消費者的語者分類C1不限於此些狀態，其可更包含其它類型的狀態。此外，本發明實施例不限定語者分類C1的數量，其可少於或多於前述數個狀態的數量。

在一實施例中，語意分析模組110可分析話語W1而得到關鍵字W13。聲調分析模組120可依據聲調W12分析語者的說話情緒W14，語者分類判斷模組130可依據關鍵字W13與說話情緒W14，判斷出語者所屬的語者分類C1。前述的回應語句S1可包含關鍵字W13。此外，聲調分析模組120可分析話語W1的音速、音頻(音高)、音色與音量等特徵來判斷語者的說話情緒W14。在一些實施例中，可使用音速、音頻、音色與音量中一個以上的特徵來判斷語者的說話情緒W14，例如是使用四個特徵同時進行判斷語者的說話情緒W14。

以語者為消費者來說，關鍵字W13例如是「便宜」、「價格」、「回饋」、「折扣」、「優惠」、「促銷」、「打折」、「CP值」、「現在」、「馬上」、「快一點」、「直接」、「包起來」、「趕快」、「等不及」、「先前」、「往常」、「以往」、「之前」、「上一次」、「上個月」、「好猶豫」、「都好想要」、「難決定」、「感覺都不錯」、「選擇」、「國家」、「材質」、「品質」、「實用」、「用得久」、「耐用」、「堅固」、「商標(例如Sony、Apple等)」、「廠牌」、「品牌」、「防水」、「戶外」、「搭車」、「運動」、「旅遊」、「出國」、「流行」、「熱門」、「限定」、「代言 (例如電競專屬)、周杰倫代言等)」等。

「便宜」、「價格」、「回饋」、「折扣」、「優惠」、「促銷」、「打折」及「CP值」例如可歸類為「品牌為主」(語者分類C1)；「現在」、「馬上」、「快一點」、「直接」、「包起來」、「趕快」及「等不及」例如可歸類為「重視感受」；「先前」、「往常」、「以往」、「之前」、「上一次」及「上個月」例如可歸類為「經常性購買」；「好猶豫」、「都好想要」、「難決定」、「感覺都不錯」及「選擇」例如可歸類為「考慮型」；「國家」、「材質」、「品質」、「實用」、「用得久」、「耐用」及「堅固」例如可歸類為「重視品質」；「商標」、「廠牌」及「品牌」例如可歸類為「品牌為主」；「防水」、「戶外」、「搭車」、「運動」、「旅遊」及「出國」例如可歸類為「重視購物樂趣」；以及，「流行」、「熱門」、「限定」及「代言」例如可歸類為「重視流行」。

以語者為消費者來說，說話情緒W14例如是「喜」、「怒」、「哀」、「樂」、「酸」及「平」。例如，如下表一，當聲調分析模組120分析出聲調W12的音速緩慢，音頻低、音色焦躁且音量小(即下表一的第一個聲調特徵)時，則判斷語者呈現苦惱且無法決定的說話情緒W14，因此判斷說話情緒W14屬於「哀」。此外，本發明實施例不限定說話情緒W14的種類及/或數量。說話情緒W14可根據更多或其它不同的聲調W12的特徵而增加。

表一

聲調W12的特徵	說話情緒W14
音速：緩慢，音頻：低音色：焦躁，音量：小	苦惱、無法決定 (哀)
音速：輕快，音頻：略高音色：愉悅，音量：略大	興奮、略有期待 (喜)
音速：輕快，音頻：略高音色：愉悅，音量：略大	開心、愉悅 (喜)
音速：適中，音頻：中音色：平靜，音量：中	鎮定、沉著 (平)
音速：輕快，音頻：略高音色：愉悅，音量：略大	喜歡這些商品 (喜)
音速：緩慢，音頻：中音色：冷淡，音量：小	覺得便宜不可靠 (酸)
音速：急促，音頻：高音色：焦躁，音量：大	無法接受商品價格 (怒)
音速：緩慢，音頻：低音色：焦躁，音量：小	苦惱、無法決定 (哀)

表一中，「苦惱、無法決定」例如歸類為「考慮型」(語者分類C1)；「興奮、略有期待」例如歸類為「經濟型」；「開心、愉悅」例如歸類為「重視感受」；「鎮定、沉著」例如歸類為「經常性購買」；「喜歡這些商品」例如歸類為「經濟型」；「覺得便宜不可靠」例如歸類為「重視品質」；以及，「無法接受商品價格」例如歸類為「經濟型」。

請參照第2圖，其繪示關鍵字W13、說話情緒W14、語者分類C1與回應語句S1的對應關係圖。當語者說出的話語W1為「這件商品有那些廠牌比較推薦」時，語意分析模組110分析出話語W1的關鍵字W13為「廠牌」且聲調分析模組120分析出說話情緒W14屬於「平」，語者分類判斷模組130依據「廠牌」 (關鍵字W13)與「平」(說話情緒W14)，判斷出語者屬於「品牌為主」(語者分類C1)。

對話語句產生模組140依據數個語者分類與回應語句的對應關係R1，產生對應「品牌為主」的回應語句S1。例如，當話語W1為「這件商品有那些廠牌比較推薦」時，依據語者屬於「品牌為主」，對話語句產生模組140產生回應語句S1：「Sony、Beats、鐵三角為目前搜索率最高的幾個品牌，推薦給您」。語音產生器150以回應語句S1產生一對應的回應語音。語音產生器150例如是揚聲器。回應語句S1可包含與語關鍵字W13意思相同或意思相近的用字。例如，前述舉例的回應語句S1中的「品牌」與話語W1的關鍵字W13的「廠牌」意思相近，然回應語句S1中的「品牌」亦可以關鍵字W13的「廠牌」取代。

在另一實施例中，當語意W11或聲調W12無法被正確分析時，對話語句產生模組140可產生問句S2，其中問句S2用以讓語者所回應的話語W1增加更多特徵詞。例如，當語意W11或聲調W12無法被正確分析時，對話語句產生模組140可產生「抱歉，可以再說一次麼」，以提示語者把話語W1再陳述一次。或者，當語意W11或聲調W12無法被正確分析時，對話語句產生模組140可產生「抱歉，可以再說清楚一點麼」，以提示語者多陳述一些話語W1。

由上可知，對於相同的話語W1，雖然具有相同的語意W11，但視說話情緒W14而定，語者可能屬於不同的語者分類C1，因此回應語句S1也可能不同。進一步來說，本發明實施例的語音互動裝置100除了分析話語W1的語意W11外，更分析了話語W1的聲調W12，以更精準辨識出語者的所屬語者分類C1，然後產生對應語者分類C1的回應語句S1。如此，本發明實施例的語音互動裝置100透過與語者雙向的語音互動，可語音式快速提供語者產品資訊，刺激語者的購買欲望。

此外，前述數個語者分類與回應語句的對應關係R1可儲存於對話語句資料庫D1內。此外，對話語句資料庫D1可儲存有一商品列表R3。當語者的話語W1包含與商品有關的語意時，對話語句產生模組140可更依據商品列表R3產生回應語句S1。商品列表R3例如包含品名、品牌、價錢、產品敘述等完整資訊，以滿足語者在消費過程中大部分或所有的詢問內容。

此外，在一語者完成消費後，紀錄單元160可紀錄該語者的所屬的語者分類C1、該語者的消費紀錄及該語者說出的話語W1的聲紋(voiceprint)，並將此些資料記錄在語者身分資料庫D3。聲紋可用以辨識該語者的身分。進一步地說，後續分析某位語者的話語W1時，聲調分析模組120可比對該某位語者的話語W1的聲紋與語者身分資料庫D3的數個聲紋。若該某位語者的話語W1的聲紋與語者身分資料庫D3的其中一聲紋相符，則對話語句產生模組140更依據紀錄單元160所記錄的該某位語者及該某位語者的消費紀錄，產生對應該某位語者所屬的語者分類C1的回應語句S1。換言之，若語者曾經與語音互動裝置100對話過，則語音互動裝置100可分析語者的消費歷史紀錄，以更精準分析語者的語者分類C1(如慣用商品、慣用廠牌及/或可接受價格等)，並列入產生回應語句S1的參考。

在另一實施例中，語音互動裝置100更包括一攝像器170。攝像器170可擷取語者的影像，如臉部影像，以分辨語者的身分。換言之，語音互動裝置100可依據話語W1的聲紋及攝像器170所擷取的臉部影像，更準確地辨識出語者的身分。在另一實施例中，語音互動裝置100可省略攝像器170。

以上語者係以消費者為例說明，在另一些實施例中，語者也可以是受照護者。以語者為受照護者來說，語者分類C1例如包含被照護者心理狀態，例如是疲累狀態、生病狀態、憤怒狀態、孤僻狀態與正常狀態(如心情愉快狀態)至少二者。語者分類C1不限於此些狀態，其可更包含其它類型的狀態。此外，本發明實施例不限定語者分類C1的數量，其可少於或多於前述數個狀態的數量。

綜上可知，本文的語者可以是消費者或被照護者等，因此語音互動裝置100可應用在賣場、醫院或家庭看護環境等。

以語者為受照護者來說，在一實施例中，當語者說出「我好累喔!」，語音互動裝置100依據相同前述的方法判斷語者屬於「疲累狀態」(語者分類C1)，並產生回應語句S1：「今天是不是太早起啦，建議您可以去小睡一下，需要幫您設個鬧鐘嗎？」。在另一實施例中，當語者說出「我好累喔…」，語音互動裝置100依據相同前述的方法判斷語者屬於「生病狀態」(語者分類C1)，並產生回應語句S1：「建議您先躺下休息，需要幫您聯絡親友或醫護人員嗎? 或是提供您醫療資訊嗎?」。在其它實施例中，當語者說出「不要吵我！」，語音互動裝置100依據相同前述的方法判斷語者屬於「憤怒狀態」(語者分類C1)，並產生回應語句S1：「好的，我隨時等候您呼叫！」。或者，當語者說出「不要吵我…」，語音互動裝置100依據相同前述的方法判斷語者屬於「孤僻狀態」(語者分類C1)，並產生回應語句S1：「您是否想和我聊聊，有什麼是我可以替你解決的嗎？」。

另外，語音互動裝置100具有人工智慧的學習功能，隨著與更多的語者對話，語音互動裝置100能不斷地擴充及修正語者分類與回應語句的對應關係R1及話語與語者分類的對應關係R2，以更精準判斷出語者的所屬語者分類C1。

請參照第3圖，其繪示第1B圖之語音互動裝置100的語音互動流程圖。

在步驟S110中，語意分析模組110回應語者的話語W1，分析話語W1的語意W11。在步驟S120中，聲調分析模組120分析話語W1的聲調W12。在步驟S130中，語者分類判斷模組130依據語意W11與聲調W12，判斷出語者屬於數個語者分類C1之一者。在步驟S140中，對話語句產生模組140依據語者分類資料庫D2內的數筆語者分類與回應語句的對應關係R1，產生對應此些語者分類C1之該者的回應語句S1。在步驟S150中，語音產生器150以回應語句S1產生一對應語者的回應語音，以與語者對話。

請參照第4A及4B圖，其繪示依照本發明實施例之語音互動裝置100的語音訓練過程的示意圖。

首先，語音接收器105接收訓練語者說出的數個訓練話語W2。訓練話語W2可由一個或多個訓練語者說出，本發明實施例不加以限定。

然後，在步驟S210中，語意分析模組110回應訓練語者說出的數個訓練話語W2，分析各訓練話語W2的語意W21。語意分析模組110可分析語意W21中的關鍵字W23。訓練話語W2可以與前述話語W1相同或相似。

然後，在步驟S220中，聲調分析模組120分析各訓練話語W2的聲調W22。例如，聲調分析模組120可分析各訓練話語W2的聲調W22的說話情緒W24。

然後，在步驟S230中，已知的數個訓練話語與語者分類的對應關係R4預先輸入給語音互動裝置100，其中各訓練話語與語者分類的對應關係R4包含訓練話語W2及其對應的語者分類C1。然後，語者分類判斷模組130依據語意W21、聲調W22及已知的訓練話語與語者分類的對應關係R4，建立前述話語與語者分類的對應關係R2。然後，語者分類判斷模組130將話語與語者分類的對應關係R2儲存至語者分類資料庫D2(未繪示於第4A圖)。在一實施例中，訓練話語與語者分類的對應關係R4可藉由真人情境對話的分析獲得。

然後，在步驟S240中，已知的數個訓練話語與回應語句的對應關係R5預先輸入給語音互動裝置100，其中各訓練話語與回應語句的對應關係R5包含訓練話語W2及其對應的回應語句S1。然後，對話語句產生模組140依據已知的訓練話語與語者分類的對應關係R4及已知的訓練話語與回應語句的對應關係R5，建立前述的語者分類與回應語句的對應關係R1。然後，對話語句產生模組140將語者分類與回應語句的對應關係R1儲存至對話語句資料庫D1 (未繪示於第4A圖)。

在一實施例中，前述訓練方法可採用隱馬可夫(HMM)維特比演算法、高斯混合(GMM)K-means演算法及/或Deep Learning遞歸類神經網路完成，然本發明實施例不限於此。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧語音互動裝置

105‧‧‧語音接收器

110‧‧‧語意分析模組

120‧‧‧聲調分析模組

130‧‧‧語者分類判斷模組

140‧‧‧對話語句產生模組

150‧‧‧語音產生器

160‧‧‧紀錄單元

170‧‧‧攝像器

C1‧‧‧語者分類

D1‧‧‧對話語句資料庫

D2‧‧‧語者分類資料庫

D3‧‧‧語者身分資料庫

R1‧‧‧語者分類與回應語句的對應關係

R2‧‧‧話語與語者分類的對應關係

R3‧‧‧商品列表

R4‧‧‧訓練話語與語者分類的對應關係

R5‧‧‧訓練話語與回應語句的對應關係

S1‧‧‧回應語句

S2‧‧‧問句

S110~S150、S210~S240‧‧‧步驟

W1‧‧‧話語

W11、W21‧‧‧語意

W12、W22‧‧‧聲調

W13、W23‧‧‧關鍵字

W14、W24‧‧‧說話情緒

W2‧‧‧訓練話語

第1A圖繪示依照本發明一實施例之語音互動裝置的功能方塊圖。第1B圖繪示依照本發明另一實施例之語音互動裝置的功能方塊圖。第2圖繪示關鍵字、說話情緒、語者分類與回應語句的對應關係圖。第3圖繪示第1B圖之語音互動裝置的語音互動流程圖。第4A及4B圖繪示依照本發明實施例之語音互動裝置的語音訓練過程的示意圖。

Claims

一種語音互動裝置，包括：一語意分析模組，用以分析一語者的一話語的一語意；一聲調分析模組，用以分析該話語的一聲調；一語者分類判斷模組，用以依據該語意與該聲調，判斷出該語者屬於複數個語者分類之一者；一對話語句資料庫，儲存有複數筆語者分類與回應語句的對應關係；一對話語句產生模組，依據該些語者分類與回應語句的對應關係，產生對應該些語者分類之該者的一回應語句；以及一語音產生器，以該回應語句產生一對應的回應語音。
如申請專利範圍第1項所述之語音互動裝置，其中該語意分析模組係用以分析該話語而得到一關鍵字，該語者分類判斷模組係用以依據該關鍵字與該聲調，判斷出該語者屬於該些語者分類之該者。
如申請專利範圍第2項所述之語音互動裝置，其中該回應語句包含該關鍵字。
如申請專利範圍第1項所述之語音互動裝置，其中該聲調分析模組係用以依據該聲調分析該語者的一說話情緒，該語者分類判斷模組係用以依據該語意與該說話情緒，判斷出該語者屬於該些語者分類之一者。
如申請專利範圍第1項所述之語音互動裝置，其中該些語者分類為消費者性格。
如申請專利範圍第5項所述之語音互動裝置，其中該對話語句資料庫儲存有一商品列表，該對話語句產生模組更用以依據該商品列表產生該回應語句。
如申請專利範圍第1項所述之語音互動裝置，其中該些語者分類為被照護者心理狀態。
如申請專利範圍第1項所述之語音互動裝置，更包括：一紀錄單元，紀錄該些語者分類之該者、該語者的消費紀錄及該話語的聲紋。
如申請專利範圍第1項所述之語音互動裝置，其中該對話語句產生模組更用以：當該語意或該聲調無法被正確分析時，產生一問句，其中該問句用以讓該語者所回應的該話語增加更多特徵詞。
如申請專利範圍第1項所述之語音互動裝置，其中該對話語句產生模組更用以：依據一紀錄單元所記錄的該些語者分類之該者、該語者的消費紀錄及該話語的聲紋，產生對應該些語者分類之該者的該回應語句。
一種語音互動方法，包括：回應一語者的一話語，分析該話語的一語意；分析該話語的一聲調；依據該語意與該聲調，判斷出該語者屬於複數個語者分類之一者；依據一對話語句資料庫內的複數筆語者分類與回應語句的對應關係，產生對應該些語者分類之該者的一回應語句；以及以該回應語句產生一對應的回應語音。
如申請專利範圍第11項所述之語音互動方法，更包括：分析該話語而得到一關鍵字；以及依據該關鍵字與該聲調，判斷出該語者屬於該些語者分類之該者。
如申請專利範圍第12項所述之語音互動方法，其中該回應語句包含該關鍵字。
如申請專利範圍第11項所述之語音互動方法，更包括：依據該聲調分析該語者的一說話情緒；以及依據該語意與該說話情緒，判斷出該語者屬於該些語者分類之該者。
如申請專利範圍第11項所述之語音互動方法，其中該些語者分類為消費者性格。
如申請專利範圍第15項所述之語音互動方法，其中該對話語句資料庫儲存有一商品列表，該語音互動方法更包括：依據該商品列表產生該回應語句。
如申請專利範圍第11項所述之語音互動方法，其中該些語者分類為被照護者心理狀態。
如申請專利範圍第11項所述之語音互動方法，更包括：紀錄該些語者分類之該者、該語者的消費紀錄及該話語的聲紋。
如申請專利範圍第11項所述之語音互動方法，更包括：當該語意或該聲調無法被正確分析時，產生一問句，其中該問句用以讓該語者所回應的該話語增加更多特徵詞。
如申請專利範圍第11項所述之語音互動方法，更包括：依據一紀錄單元所記錄的該些語者分類之該者、該語者的消費紀錄及該話語的聲紋，產生對應該些語者分類之該者的該回應語句。
如申請專利範圍第11項所述之語音互動方法，更包括一訓練過程，該訓練過程包括：回應一訓練語者說出的複數個訓練話語，分析各該訓練話語的該語意；分析各該訓練話語的該聲調；依據該些語意、該些聲調及已知的複數個訓練話語與語者分類的對應關係，建立複數個話語與語者分類的對應關係；以及依據已知的該些訓練話語與語者分類的對應關係及已知的複數個訓練話語與回應語句的對應關係，建立該些語者分類與回應語句的對應關係。