TWI776296B

TWI776296B - 語音應答系統和語音應答方法

Info

Publication number: TWI776296B
Application number: TW109142117A
Authority: TW
Inventors: 王振愷; 范登凱
Original assignee: 中華電信股份有限公司
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-09-01
Also published as: TW202223622A

Abstract

提出一種語音應答系統和語音應答方法。語音應答方法包含：預存多個回話引擎；接收當前語音訊息，並且產生對應於當前語音訊息的文字內容；根據當前語音訊息產生聲音特徵矩陣，根據文字內容產生文字特徵矩陣，並且根據聲音特徵矩陣和文字特徵矩陣產生多模態特徵矩陣；將多模態特徵矩陣輸入至情感辨識模型以產生對應於當前語音訊息的情感指標；以及基於情感指標和文字內容而根據多個回話引擎的其中之一產生對應於當前語音訊息的當前回應訊息，並且輸出當前回應訊息。

Description

語音應答系統和語音應答方法

本發明是有關於一種語音應答系統和語音應答方法。

當客戶通過傳統的語音應答系統來向企業尋求協助時，若語音應答系統的回應不如預期，可能會導致用戶產生負面的情緒。如此，可能會致使企業失去該名客戶。因此，如何提出一種能根據用戶的情緒調整回應方式以提升用戶的使用體驗的語音應答系統，是本領域人員致力的目標之一。

本發明提供一種語音應答系統和語音應答方法可根據用戶的情緒調整回話的內容。

本發明的一種語音應答系統，包含處理器、儲存媒體以及收發器。儲存媒體儲存多個模組以及多個回話引擎。處理器耦接儲存媒體以及收發器，並且存取和執行多個模組，其中多個模組包含語音文字轉換模組、多模態特徵抽取模組、情感辨識模組以及回應評選模組。語音文字轉換模組通過收發器接收當前語音訊息，並且產生對應於當前語音訊息的文字內容。多模態特徵抽取模組根據當前語音訊息產生聲音特徵矩陣，根據文字內容產生文字特徵矩陣，並且根據聲音特徵矩陣和文字特徵矩陣產生多模態特徵矩陣。情感辨識模組將多模態特徵矩陣輸入至情感辨識模型以產生對應於當前語音訊息的情感指標。回應評選模組基於情感指標和文字內容而根據多個回話引擎的其中之一產生對應於當前語音訊息的當前回應訊息，並且通過收發器輸出當前回應訊息。

在本發明的一實施例中，上述的當前語音訊息對應於先前回應訊息，其中多個模組更包含評核模組。評核模組基於情感指標而決定根據先前回應訊息更新多個回話引擎，並且基於情感指標而決定根據先前回應訊息和情感指標更新多個回話引擎。

在本發明的一實施例中，上述的語音文字轉換模組包含預定義字典、聲學模型以及語言模型。預定義字典儲存詞組與發音對照表。聲學模型根據當前語音訊息產生對應於多個音素以及當前語音訊息的多個時間段的第一機率矩陣。語言模型根據當前語音訊息產生對應於多個詞組以及當前語音訊息的多個文字的第二機率矩陣，其中語音文字轉換模組基於維特比演算法而根據詞組與發音對照表、第一機率矩陣以及第二機率矩陣產生文字內容。

在本發明的一實施例中，上述的多模態特徵抽取模組將聲音特徵矩陣輸入至第一非監督式機器學習模型以產生第二聲音特徵矩陣，將文字特徵矩陣輸入至第二非監督式機器學習模型以產生第二文字特徵矩陣，並且將第二聲音特徵矩陣以及第二文字特徵矩陣輸入至監督式機器學習模型以產生多模態特徵矩陣。

在本發明的一實施例中，上述的第一非監督式機器學習模型為卷積神經網路-雙向長短記憶網路模型，其中第二非監督式機器學習模型為雙向長短記憶網路模型，其中監督式機器學習模型為深層神經網路。

在本發明的一實施例中，上述的回應評選模組對文字內容執行自然語言處理以產生對應於文字內容的意圖標籤以及命名實體，並且根據意圖標籤以及命名實體以從多個回話引擎中選出受選回話引擎，其中回應評選模組根據受選回話引擎產生當前回應訊息。

在本發明的一實施例中，上述的回應評選模組響應於情感指標以及文字內容的至少其中之一與預設規則匹配而將受選回話引擎從多個回話引擎的其中之一切換至多個回話引擎的其中之另一。

在本發明的一實施例中，上述的預設規則指示回應評選模組響應於文字內容包含重複的問句而切換受選回話引擎。

在本發明的一實施例中，上述的回應評選模組根據歐式距離判斷文字內容中的第一問句與第二問句是否重複。

本發明的一種語音應答方法，包含：預存多個回話引擎；接收當前語音訊息，並且產生對應於當前語音訊息的文字內容；根據當前語音訊息產生聲音特徵矩陣，根據文字內容產生文字特徵矩陣，並且根據聲音特徵矩陣和文字特徵矩陣產生多模態特徵矩陣；將多模態特徵矩陣輸入至情感辨識模型以產生對應於當前語音訊息的情感指標；以及基於情感指標和文字內容而根據多個回話引擎的其中之一產生對應於當前語音訊息的當前回應訊息，並且輸出當前回應訊息。

基於上述，本發明可產生語音訊息的情感指標，從而根據情感指標判斷是否切換受選回話引擎，藉以提升用戶的使用體驗並降低用戶的負面情緒。

以往的情感識別方法主要是基於單一模態特徵進行開發。為了更準確地識別用戶的情緒，本發明可通過特徵融合技術建立多模態特徵矩陣，從而根據多模態特徵矩陣識別用戶的情緒。本發明可基於情感指標和預設規則（例如：回話頻率）來動態地調整回話引擎，避免用戶與語音應答系統進行互動時，語音應答系統的回應不符合用戶的預期。

圖1根據本發明的實施例繪示一種語音應答系統100的示意圖。語音應答系統100可包含處理器110、儲存媒體120以及收發器130。

處理器110例如是中央處理單元（central processing unit，CPU），或是其他可程式化之一般用途或特殊用途的微控制單元（micro control unit，MCU）、微處理器（microprocessor）、數位信號處理器（digital signal processor，DSP）、可程式化控制器、特殊應用積體電路（application specific integrated circuit，ASIC）、圖形處理器（graphics processing unit，GPU）、影像訊號處理器（image signal processor，ISP）、影像處理單元（image processing unit，IPU）、算數邏輯單元（arithmetic logic unit，ALU）、複雜可程式邏輯裝置（complex programmable logic device，CPLD）、現場可程式化邏輯閘陣列（field programmable gate array，FPGA）或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130，並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。

儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟（hard disk drive，HDD）、固態硬碟（solid state drive，SSD）或類似元件或上述元件的組合，而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中，儲存媒體120可儲存包括語音文字轉換模組121、多模態特徵抽取模組122、情感辨識模組123、回應評選模組124以及評核模組125等多個模組，其功能將於後續說明。另一方面，儲存媒體120可儲存多個回話引擎。所述回話引擎的每一者可根據用戶的語音訊息產生用於回應所述語音訊息的回應訊息。舉例來說，當用戶向語音應答系統100提問「台灣哪裡有好吃的小吃？」時，回話引擎可根據用戶的提問產生回應訊息「士林夜市有好吃的小吃」。

在一實施例中，各個回話引擎可具有對應的資料庫。資料庫可包含各式各樣的回應訊息。當回話引擎需要回應用戶時，回話引擎可從資料庫中選出最適當的回應訊息。

收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。

圖2根據本發明的實施例繪示一種語音應答方法的流程圖，其中所述語音應答方法可由如圖1所示的語音應答系統100實施。在步驟S201中，語音文字轉換模組121可通過收發器接收當前語音訊息。舉例來說，語音應答系統100可通過收發器130通訊連接至用戶的終端裝置（例如：智慧型手機、機器人或智慧音箱等）。語音文字轉換模組121可通過收發器130以自終端裝置接收由用戶發出的當前語音訊息。當前語音訊息可與較早的先前回應訊息有關，其中先前回應訊息例如是由語音應答系統100回應給用戶的訊息。舉例來說，在語音應答系統100通過先前回應訊息「請問您的問題是？」向用戶提問後，用戶可通過終端裝置傳送當前語音訊息「台灣哪裡有好吃的小吃？」至語音應答系統100以回答先前回應訊息。

在步驟S202中，語音文字轉換模組121可產生對應於當前語音訊息的文字內容。圖3根據本發明的實施例繪示語音應答方法的步驟S202的詳細流程圖。

在步驟S301中，語音文字轉換模組121可對當前語音訊息進行前處理。具體來說，語音文字轉換模組121可對當前語音訊息進行降噪（noise reduction）。語音文字轉換模組121可通過單通道語音加強演算法或多通道語音加強演算法來對當前語音訊息進行降噪。單通道語音加強演算法可包含但不限於頻譜差減法。多通道語音加強演算法可包含但不限於自適應濾波（adaptive noise cancellation）。頻譜差減法可計算當前語音訊息的平均訊號頻譜與平均噪聲頻譜，並將平均訊號頻譜與平均噪聲頻譜相減，藉此提高當前語音訊息的平均訊號雜訊比（signal-to-noise ratio，SNR）。

在步驟S302中，語音文字轉換模組121可對經過前處理的當前語音訊息進行特徵提取。語音文字轉換模組121可根據例如梅爾頻率倒譜係數（Mel-frequency cepstral coefficients，MFCCs）演算法來對當前語音訊息進行特徵提取。MFCCs演算法可包含預強調（pre-emphasis）、窗函數（windowing）、離散傅立葉轉換（discrete Fourier transform，DFT）、梅爾標度濾波器組（Mel-scale filter bank）、取對數（log）以及離散餘弦轉換（discrete cosine transformation）等步驟。

具體來說，語音文字轉換模組121可利用滑動窗口（sliding window）將當前語音訊息分割成多個時間段，其中滑動窗口的寬度例如是25毫秒。語音文字轉換模組121可通過MFCCs提取當前語音訊息的每一個時間段的聲學特徵，其中聲學特徵可為39維的資料。

在步驟S303中，語音文字轉換模組121可解碼聲學特徵以產生對應於當前語音訊息的文字內容。具體來說，語音文字轉換模組121可包含詞組（phrase）與發音對照表、聲學模型以及語音模型。詞組與發音對照表可記載每一個詞組所對應的一或多個發音。由於現實中新詞組會不斷地出現，故語音文字轉換模組121可透過詞組與發音對照表使用統計的方式猜測新詞組與未知詞組的發音。表1為詞組與發音對照表的範例。表1

詞組	發音
爸爸	BA_4 BA_4；BA_4 BA_0
媽媽	MA_1 MA_1；MA_1 MA_0
聽歌	TING_1 GE_1
開啟	KAI_1 QI_3

聲學模型可用於預測對應於各個時間段的一或多個音素（phoneme）的機率。舉例來說，若當前語音訊息中的一時間段對應於文字「開」，則聲學模型可根據對應於該時間段的聲學特徵產生P(‘KAI_1’)=0.8、P(‘GAI_1’)=0.09等機率值。據此，聲學模型可根據當前語音訊息產生對應於多個音素以及當前語音訊息的多個時間段的第一機率矩陣。聲音模型例如是深層神經網路等機器學習模型。

語音模型可根據上下文來預測正確的文字（word）或詞組。語音模型可根據一時間段的聲學特徵產生二元（bigram）或三元（trigram）詞組的分組機率。例如，若當前語音訊息中的一時間段對應於文字「開啟」，則語音模型可根據對應於該時間段的聲學特徵產生P(‘開啟’)=0.7、P(‘開起’)=0.2等機率值。據此，語言模型可根據當前語音訊息產生對應於多個詞組以及當前語音訊息的多個文字的第二機率矩陣。語言模型例如是深層神經網路等機器學習模型。

語音文字轉換模組121可基於維特比演算法（Viterbi Algorithm）和集束搜尋（beam search）而根據詞組與發音對照表、第一機率矩陣以及第二機率矩陣產生文字內容。

回到圖2，在步驟S203中，多模態特徵抽取模組122可根據當前語音訊息和文字內容產生多模態特徵矩陣。圖4根據本發明的實施例繪示語音應答方法的步驟S203的詳細流程圖。

在步驟S401中，多模態特徵抽取模組122可根據當前語音訊息產生聲音特徵矩陣。聲音特徵矩陣例如包含關聯於時間領域（time domain）、頻譜領域（spectral domain）以及倒頻譜領域（cepstral domain）的34維聲音特徵。

在步驟S402中，多模態特徵抽取模組122可根據文字內容產生文字特徵矩陣。多模態特徵抽取模組122可通過基於變換器的雙向編碼器表示技術（bidirectional encoder representations from transformers，BERT）來將文字內容轉換成文字特徵矩陣。

在步驟S403中，多模態特徵抽取模組122可根據聲音特徵矩陣和文字特徵矩陣產生多模態特徵（multimodal feature）矩陣。具體來說，多模態特徵抽取模組122可將聲音特徵矩陣輸入至第一非監督式機器學習模型以產生第二聲音特徵矩陣，其中第一非監督式機器學習模型例如是基於卷積神經網路-雙向長短記憶網路（convolutional neural network-bidirectional long short term memory，CNN BiLSTM）的詞嵌入模型。由基於CNN BiLSTM的詞嵌入模型所產生的第二聲音特徵矩陣可包含全域和本地的資訊。

另一方面，多模態特徵抽取模組122可將文字特徵矩陣輸入至第二非監督式機器學習模型以產生第二文字特徵矩陣，其中第二非監督式機器學習模型例如是雙向長短記憶網路（BiLSTM）模型。由BiLSTM模型所產生的第二文字特徵矩陣可包含全域和本地的資訊。

接著，多模態特徵抽取模組122可將第二聲音特徵矩陣以及第二文字特徵矩陣輸入至監督式機器學習模型以產生多模態特徵矩陣，其中監督式機器學習模型例如是深層神經網路（deep neural network，DNN）。監督式機器學習模型可包含三個全連接（full connection，FC）層以獲取不同模態特徵之間的關聯。

回到圖2，在步驟S204中，情感辨識模組123可將多模態特徵矩陣輸入至情感辨識模型以產生對應於當前語音訊息的情感指標，其中情感辨識模型例如是預訓練的機器學習模型。情感指標可指示用戶的當前語音訊息對應於正面的或負面的情緒。舉例來說，情感指標可為介於1至10的數值。若數值越大，代表用戶的情緒越正面。相對來說，若數值越小，代表用戶的情緒越負面。

在步驟S205中，回應評選模組124可基於情感指標而從多個回話引擎中選擇受選回話引擎，並且使用受選回話引擎產生對應於當前語音訊息的當前回應訊息。接著，回應評選模組124可通過收發器130輸出當前回應訊息。回應評選模組124可將當前回應訊息傳送給用戶的終端裝置。圖5根據本發明的實施例繪示語音應答方法的步驟S205的詳細流程圖。

在步驟S501中，回應評選模組124可對文字內容執行自然語言處理（natural language processing，NLP）以產生對應文字內容的意圖（intent）標籤和命名實體（named entity）。具體來說，自然語言處理可對文字內容進行斷句（sentence segmentation）以產生多個句段（sentence segment），並根據各句段產生意圖標籤和命名實體。舉例來說，假設當前語音訊息為「台灣哪裡有好吃的小吃？」，則自然語言處理可將當前語音訊息轉換成「台灣」、「有」、「好」、「吃」和「小吃」等句段。接著，自然語言處理可根據句段「台灣」產生命名實體「地點」，並可根據句段「小吃」產生意圖標籤「美食」。

在步驟S502中，回應評選模組124可根據意圖標籤和命名實體以從多個回話引擎中選出受選回話引擎。具體來說，回應評選模組124可預存回話引擎列表，其中回話引擎列表可記載意圖標籤、命名實體以及與意圖標籤和命名實體相對應的回話引擎。回應評選模組124可根據意圖標籤和命名實體從回話引擎列表中選出受選回話引擎。表2為回話引擎列表的範例。舉例來說，假設對應當前語音訊息的意圖標籤和命名實體分別為「標籤2」和「名稱2」，則回應評選模組124可根據表2選擇對應於索引#2的任務型引擎以作為受選回話引擎。假設對應當前語音訊息的意圖標籤和命名實體分別為「標籤6」和「名稱2」，則回應評選模組124可根據表2選擇對應於索引#4的預設引擎以作為受選回話引擎。表2

索引	意圖標籤	命名實體	回話引擎（類型）
#1	標籤5	任意名稱	聊天型引擎（規則式或搜尋式）
#2	標籤1-3	名稱2	任務型引擎（規則式）
#3	標籤4	名稱3	聊天型引擎（模型式）
#4	任意標籤	任意名稱	預設引擎

在一實施例中，回應評選模組124可響應於情感指標或文字內容與預設規則匹配而切換受選回話引擎。舉例來說，若回應評選模組124所使用的受選回話引擎產生的回應訊息造成了用戶產生負面的情緒，則代表回應評選模組124應該選用其他的回話引擎來回覆用戶。據此，預設規則可指示回應評選模組124在情感指標代表負面的情緒時切換受選回話引擎。

舉另一例來說，若回應評選模組124所使用的受選回話引擎無法正確地回覆用戶，則用戶很可能重新發問。據此，預設規則可指示回應評選模組124在當前語音訊息的文字內容包含重複的問句時切換受選回話引擎。當文字內容包含第一問句和第二問句時，回應評選模組124可根據第一問句和第二問句之間歐式距離（Euclidean distance）來判斷第一問句和第二問句是否重複。

在步驟S503中，回應評選模組124可根據受選回話引擎產生當前回應訊息。

回到圖2，在步驟S206中，語音文字轉換模組121可判斷收發器130是否接收到用戶對當前回應訊息的回應。若語音文字轉換模組121判斷收發器130接收到回應，則將所述回應作為新的當前語音訊息以重新執行步驟S202。若語音文字轉換模組121判斷收發器130未接收到回應，則結束流程。

在步驟S207中，評核模組125可基於情感指標判斷是否更新（或重新訓練）儲存於儲存媒體120中的既有模型，其中所述既有模型可包含多個回話引擎的每一者、聲學模型、語言模型、第一非監督式機器學習模型、第二非監督式機器學習模型、監督式機器學習模型或情感辨識模型等。若評核模組125判斷需更新既有模型，則進入步驟S208。在步驟S208中，評核模組125可根據先前回應訊息和情感指標更新既有模型。

舉例來說，若情感指標指示用戶的情緒為負面的，則代表語音應答系統100中的既有模型並無法產生令客戶滿意的回應。因此，評核模型125可通過先前回應訊息和情感指標更新回話引擎（例如：將先前回應訊息從回話引擎的資料庫中刪除），以避免回話引擎在未來使用與先前回應訊息相似的訊息來回應用戶。相對來說，若情感指標指示用戶的情緒為正面的，則代表語音應答系統100中的既有模型可產生令客戶滿意的回應。因此，評核模型125可通過先前回應訊息和情感指標更新回話引擎（例如：將先前回應訊息添加至回話引擎的資料庫中），以增加回話引擎在未來使用與先前回應訊息相似的訊息來回應用戶的機率。

在步驟S208中，評核模組125可基於情感指標更新（或重新訓練）儲存於儲存媒體120中的既有模型，其中所述既有模型可包含多個回話引擎的每一者、聲學模型、語言模型、第一非監督式機器學習模型、第二非監督式機器學習模型、監督式機器學習模型或情感辨識模型等。

圖6根據本發明的實施例繪示另一種語音應答方法的流程圖，其中所述語音應答方法可由如圖1所示的語音應答系統實施。在步驟S601中，預存多個回話引擎。在步驟S602中，接收當前語音訊息，並且產生對應於當前語音訊息的文字內容。在步驟S603中，根據當前語音訊息產生聲音特徵矩陣，根據文字內容產生文字特徵矩陣，並且根據聲音特徵矩陣和文字特徵矩陣產生多模態特徵矩陣。在步驟S604中，將多模態特徵矩陣輸入至情感辨識模型以產生對應於當前語音訊息的情感指標。在步驟S605中，基於情感指標和文字內容而根據多個回話引擎的其中之一產生對應於當前語音訊息的當前回應訊息，並且輸出當前回應訊息。

綜上所述，本發明可通過聲學模型和語音模型以基於語音訊息的音素和文字內容來產生與語音訊息相對應的文字內容。本發明可通過關聯於文字內容和聲音的多模態特徵來辨識用戶的情緒，並且根據用戶的情緒挑選適當的回話引擎以作為受選回話引擎。當特定的事件發生時，本發明可切換受選回話引擎，藉以降低用戶的負面情緒。記錄了用戶與語音應答系統之對話的日誌可用於重新訓練本發明的各個模型。因此，隨著使用的次數累積，語音應答系統能變得更加地完善。

100:語音應答系統 110:處理器 120:儲存媒體 121:語音文字轉換模組 122:多模態特徵抽取模組 123:情感辨識模組 124:回應評選模組 125:評核模組 130:收發器 S201、S202、S203、S204、S205、S206、S207、S208、S301、S302、S303、S401、S402、S403、S501、S502、S503、S601、S602、S603、S604、S605:步驟

圖1根據本發明的實施例繪示一種語音應答系統的示意圖。圖2根據本發明的實施例繪示一種語音應答方法的流程圖。圖3、4和5根據本發明的實施例繪示語音應答方法的步驟的詳細流程圖。圖6根據本發明的實施例繪示另一種語音應答方法的流程圖。

S601、S602、S603、S604、S605:步驟

Claims

一種語音應答系統，包括：收發器；儲存媒體，儲存多個模組以及多個回話引擎；以及處理器，耦接所述儲存媒體以及所述收發器，並且存取和執行所述多個模組，其中所述多個模組包括：語音文字轉換模組，通過所述收發器接收當前語音訊息，並且產生對應於所述當前語音訊息的文字內容；多模態特徵抽取模組，根據所述當前語音訊息產生聲音特徵矩陣，根據所述文字內容產生文字特徵矩陣，並且根據所述聲音特徵矩陣和所述文字特徵矩陣產生多模態特徵矩陣；情感辨識模組，將所述多模態特徵矩陣輸入至情感辨識模型以產生對應於所述當前語音訊息的情感指標；以及回應評選模組，基於所述情感指標和所述文字內容而根據所述多個回話引擎的其中之一產生對應於所述當前語音訊息的當前回應訊息，並且通過所述收發器輸出所述當前回應訊息，其中，所述回應評選模組對所述文字內容執行自然語言處理以產生對應於所述文字內容的意圖標籤以及命名實體，並且根據所述意圖標籤以及所述命名實體以從所述多個回話引擎中選出受選回話引擎，其中所述回應評選模組根據所述受選回話引擎產生所述當前回應訊息，其中，所述回應評選模組響應於所述情感指標以及所述文字內容的至少其中之一與預設規則匹配而將所述受選回話引擎從所述多個回話引擎的其中之一切換至所述多個回話引擎的其中之另一，其中，所述預設規則指示所述回應評選模組響應於所述文字內容包括重複的問句而切換所述受選回話引擎。
如請求項1所述的語音應答系統，其中所述當前語音訊息對應於先前回應訊息，其中所述多個模組更包括：評核模組，基於所述情感指標而決定根據所述先前回應訊息更新所述多個回話引擎，並且基於所述情感指標而決定根據所述先前回應訊息和所述情感指標更新所述多個回話引擎。
如請求項1所述的語音應答系統，其中所述語音文字轉換模組包括：預定義字典，儲存詞組與發音對照表；聲學模型，根據所述當前語音訊息產生對應於多個音素以及所述當前語音訊息的多個時間段的第一機率矩陣；以及語言模型，根據所述當前語音訊息產生對應於多個詞組以及所述當前語音訊息的多個文字的第二機率矩陣，其中所述語音文字轉換模組基於維特比演算法而根據所述詞組與發音對照表、所述第一機率矩陣以及所述第二機率矩陣產生所述文字內容。
如請求項1所述的語音應答系統，其中所述多模態特徵抽取模組將所述聲音特徵矩陣輸入至第一非監督式機器學習模型以產生第二聲音特徵矩陣，將所述文字特徵矩陣輸入至第二非監督式機器學習模型以產生第二文字特徵矩陣，並且將所述第二聲音特徵矩陣以及所述第二文字特徵矩陣輸入至監督式機器學習模型以產生所述多模態特徵矩陣。
如請求項4所述的語音應答系統，其中所述第一非監督式機器學習模型為卷積神經網路-雙向長短記憶網路模型，其中所述第二非監督式機器學習模型為雙向長短記憶網路模型，其中所述監督式機器學習模型為深層神經網路。
如請求項1所述的語音應答系統，其中所述回應評選模組根據歐式距離判斷所述文字內容中的第一問句與第二問句是否重複。
一種語音應答方法，包括：預存多個回話引擎；接收當前語音訊息，並且產生對應於所述當前語音訊息的文字內容；根據所述當前語音訊息產生聲音特徵矩陣，根據所述文字內容產生文字特徵矩陣，並且根據所述聲音特徵矩陣和所述文字特徵矩陣產生多模態特徵矩陣；將所述多模態特徵矩陣輸入至情感辨識模型以產生對應於所述當前語音訊息的情感指標；以及基於所述情感指標和所述文字內容而根據所述多個回話引擎的其中之一產生對應於所述當前語音訊息的當前回應訊息，並且輸出所述當前回應訊息，其中，對所述文字內容執行自然語言處理以產生對應於所述文字內容的意圖標籤以及命名實體，並且根據所述意圖標籤以及所述命名實體以從所述多個回話引擎中選出受選回話引擎，其中所述回應評選模組根據所述受選回話引擎產生所述當前回應訊息，其中，響應於所述情感指標以及所述文字內容的至少其中之一與預設規則匹配而將所述受選回話引擎從所述多個回話引擎的其中之一切換至所述多個回話引擎的其中之另一，其中，所述預設規則指示響應於所述文字內容包括重複的問句而切換所述受選回話引擎。