TWI654600B

TWI654600B - 語音情緒辨識系統與方法以及使用其之智慧型機器人

Info

Publication number: TWI654600B
Application number: TW106141610A
Authority: TW
Inventors: 王柔雯; 郭紘賓; 尹永興
Original assignee: 隆宸星股份有限公司
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-03-21
Also published as: CN109841230A; US20190164566A1; TW201926324A

Abstract

本發明揭露一種語音情緒辨識系統與方法以及使用其之智慧型機器人，能透過以下步驟根據一聲音訊號辨識出一情緒狀態：將聲音訊號進行訊號處理以獲得聲紋檔案，並根據聲紋檔案識別發出聲音訊號之個體的身分；選擇使用一個體情緒資料庫或一預設情緒資料庫來做為辨識情緒狀態的依據；將聲紋檔案與一預設聲紋作比對，以擷取出複數個特徵值；將該些特徵值與儲存於個體情緒資料庫或預設情緒資料庫的多組樣本特徵值作比對，並判斷出一情緒狀態；以及將此情緒狀態與該些特徵值的對應關係新增至個體情緒資料庫與預設情緒資料庫。

Description

語音情緒辨識系統與方法以及使用其之智慧型機器人

本發明乃是關於一種語音情緒辨識系統與方法，以及使用其之智慧型機器人，特別是指一種透過聲紋比對以進行語音情緒辨識的語音情緒辨識系統與方法，以及使用此種語音情緒辨識系統與方法的智慧型機器人。

一般來說，機器人所指的是能自動執行任務的機器裝置，由簡單的邏輯電路或是更高階的電腦程式來控制。因此，通常機器人是個高度機電整合的裝置。近年來，機器人領域的相關技術發展越來越多元，如：工業型機器人、服務型機器人…等。

由於大眾對於生活便利的追求，服務型機器人開始被越來越多人接受。服務型機器人的種類很多，應用範圍也很廣泛。服務型機器人，如：專業服務機器人(Professional Service Robot)、個人/家庭用服務機器人(Personal/Domestic Use Robot)…等等，由於服務型機器人需與一般大眾接觸與互動，故其需具備對環境的感測與辨識能力。常見地，個人/家庭用服務機器人能夠辨識使用者的語意，並根據使用者的指令提供服務或與使用者互動。然而，此類型的機器人多半只能根據使用者的語音指令提供服務或與使用者互動，而無法將使用者當前的情緒納為提供服務或與使用者互動的根據。

為改善前述缺點，本發明提供了一種能根據一聲音訊號辨識出一情緒狀態的語音情緒辨識系統與方法，以及使用此種語音情緒辨識系統與方法的智慧型機器人。

本發明所提供之語音情緒辨識系統包括收音裝置、記憶體與處理器。收音裝置設置以接收聲音訊號。記憶體設置以儲存一辨識程式、一預設情緒資料庫與複數個個體情緒資料庫，其中不同的個體情緒資料庫對應於不同的個體。處理器連接於收音裝置與記憶體，且設置以執行該辨識程式以執行以下操作：將該聲音訊號進行訊號處理以獲得一聲紋檔案，並根據該聲紋檔案識別發出該聲音訊號之一個體的身分；判斷與該個體對應之個體情緒資料庫的完成度是否大於等於一預設百分比；將該聲紋檔案與一預設聲紋作比對，以擷取出複數個特徵值；將該些特徵值與儲存於個體情緒資料庫或預設情緒資料庫的多組樣本特徵值作比對，並辨識出一情緒狀態；以及將該情緒狀態與該些特徵值的一對應關係新增至該個體情緒資料庫。

須說明的是，若處理器判斷該個體對應之個體情緒資料庫的完成度大於等於該預設百分比，則選擇對應該個體之個體情緒資料庫作為辨識情緒狀態的依據，而若處理器判斷該個體對應之個體情緒資料庫的完成度小於該預設百分比，則選擇預設情緒資料庫作為辨識情緒狀態的依據。另外，儲存於該些個體情緒資料庫與預設情緒資料庫的多組樣本特徵值分別對應於不同的情緒狀態。

再者，本發明所提供之語音情緒辨識方法適用於前述之語音情緒辨識系統。本發明所提供之語音情緒辨識方法主要是以前述之語音情緒辨識系統中的辨識程式來實現。除此之外，本發明所提供之智慧型機器人主要包括中央處理器與前述之語音情緒辨識系統，以具備能根據一聲音訊號辨識出一情緒狀態的功能。須說明的是，本發明所提供之智慧型機器人中的中央處理器會根據語音情緒辨識系統所辨識出之情緒狀態產生一控制指令，使得智慧型機器人整體根據該控制指令執行一動作。

由於本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人能夠根據使用者所發出的聲音訊號辨識出使用者當前的情緒狀態，因此能夠將使用者當前的情緒納為提供服務或與使用者互動的根據。相較於只能根據使用者的語音指令提供服務或與使用者互動的機器人裝置，本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人能夠為使用者提供更符合其心境的服務與互動。

12‧‧‧收音裝置

14‧‧‧記憶體

15‧‧‧辨識程式

16‧‧‧處理器

S210~S260‧‧‧步驟

S310、S320、S330a、S330b、S340a、S340b、S350‧‧‧步驟

S312~S316、S332a~S336a、S332b、S342b‧‧‧步驟

圖1為根據本發明一例示性實施例繪示之語音情緒辨識系統的方塊圖；圖2為根據本發明一例示性實施例繪示之語音情緒辨識方法的流程圖；以及圖3為根據本發明另一例示性實施例繪示之語音情緒辨識方法的流程圖。

在下文將參看隨附圖式更充分地描述各種例示性實施例，在隨附圖式中展示一些例示性實施例。然而，本發明概念可能以許多不同形式來體現，且不應解釋為限於本文中所闡述之例示性實施例。確切而言，提供此等例示性實施例使得本發明將為詳盡且完整，且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中，類似數字始終指示類似元件。

大體而言，本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人最大的特點及在於能夠將使用者當前的情緒納為提供服務或與使用者互動的根據，以為使用者提供更符合其心境的服務與互動。以下將以數個實施例來說明本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人。

[語音情緒辨識系統的一實施例]

首先說明本發明之語音情緒辨識系統的架構，請參照圖1，圖1為根據本發明一例示性實施例繪示之語音情緒辨識系統的方塊圖。

如圖1所示，本實施例所提供之語音情緒辨識系統包括收音裝置12、記憶體14與處理器16。收音裝置12設置以接收聲音訊號。記憶體14設置以儲存一辨識程式15、一預設情緒資料庫、複數個個體情緒資料庫與一預設聲紋資料庫。本實施例所提供之語音情緒辨識系統中的收音裝置12可以一麥克風裝置來實現，且記憶體14與處理器16可以韌體的形式來實現，或者由任何適合之硬體、韌體、軟體、及/或軟體、韌體及硬體之組合來實現。

須說明地是，儲存於記憶體14中的複數個個體情緒資料庫分別對應不同個體的身分，且每個個體情緒資料庫中針對特定個體儲存有數筆情緒狀態與樣本特徵值之間的對應關係，其中一組樣本特徵值對應一種情緒狀態，但不同組的樣本特徵值可能對應到同一種情緒狀態。再者，儲存於記憶體14中的預設情緒資料庫則是針對不特定個體儲存有數筆情緒狀態與樣本特徵值之間的對應關係，其中一組樣本特徵值對應一種情緒狀態，但不同組的樣本特徵值可能對應到同一種情緒狀態。較詳細的說，預設情緒資料庫中的儲存的數筆情緒狀態與樣本特徵值之間的對應關係是由系統建置者針對不特定個體預先收集來。另外，預設聲紋資料庫則儲存有複數筆樣本聲紋與複數個個體之身分之間的對應關係。

[語音情緒辨識方法的一實施例]

請參照圖2，圖2為根據本發明一例示性實施例繪示之語音情緒辨識方法的方塊圖。

本實施例所提供之語音情緒辨識方法是由圖1所繪示之語音情緒辨識系統中的處理器16執行儲存於記憶體14中的一辨識程式15來實現，故請同時參照圖1與圖2以利瞭解。如圖2所示，大體而言，本實施例所提供之語音情緒辨識方法包括以下步驟：將聲音訊號進行訊號處理以獲得聲紋檔案，並根據聲紋檔案識別發出聲音訊號之個體的身分(步驟S210)；判斷與個體對應之個體情緒資料庫的完成度是否大於等於預設百分比(步驟S220)；選擇個體情緒資料庫作為辨識情緒狀態的依據(步驟S230a)；選擇預設情緒資料庫作為辨識情緒狀態的依據(步驟S230b)；將聲紋檔案與預設聲紋作比對，以擷取出複數個特徵值(步驟S240)；將該些特徵值與儲存於個體情緒資料庫或預設情緒資料庫的多組樣本特徵值作比對，並辨識出情緒狀態(步驟S250)；以及將情緒狀態與該些特徵值的對應關係新增至個體情緒資料庫與預設情緒資料庫(步驟S260)。

接著要說明的是本實施例所提供之語音情緒辨識方法中各步驟的細節。

在收音裝置12接收到一聲音訊號後，於步驟S210中，處理器16會將此聲音訊號進行訊號處理以獲得一聲紋檔案。舉例來說，處理器16可將所接收的聲音訊號轉換成聲譜圖(spectrogram)，以擷取聲譜圖中的特徵值作為聲紋檔案。接著，透過預設聲紋資料庫，處理器16便能識別發出聲音訊號之個體的身分。

識別發出聲音訊號之個體的身分後，於步驟S220中，處理器16會根據此個體的身分找出與此個體對應之個體情緒資料庫，並判斷此個體情緒資料庫的完成度是否大於等於一預設百分比。若處理器16判斷此個體情緒資料庫的完成度大於等於一預設百分比，則表示此個體情緒資料庫中的資料量與資料完整度應足夠用以作為辨識情緒狀態的依據，於此情況下便會進入步驟S230a，以選擇使用與此個體對應之個體情緒資料庫作為辨識情緒狀態的依據。另一方面，若處理器16判斷此個體情緒資料庫的完成度小於該預設百分比，則表示此個體情緒資料庫中的資料量與資料完整度尚不足以作為辨識情緒狀態的依據，於此情況下便會進入步驟S230b，以選擇使用預設情緒資料庫作為辨識情緒狀態的依據。

當處理器16決定選擇使用一個體情緒資料庫作為辨識情緒狀態的依據時，會進入步驟S240a，以將聲紋檔案與該個體情緒資料庫中之一預設聲紋作比對。於步驟S240a中，此預設聲紋所指的是由特定個體(即，對應該個體情緒資料庫之特定個體)在無情緒起伏下所發出的聲音訊號所獲得，且預先儲存於該個體情緒資料庫的預設聲紋，因此於比對後，處理器16便能擷取出能用以辨識此個體當前之情緒狀態的複數個特徵值。另一方面，當處理器16決定選擇使用預設情緒資料庫作為辨識情緒狀態的依據時，會進入步驟S240b，以將聲紋檔案與預設情緒資料庫中之一預設聲紋作比對。於步驟S240b中，此預設聲紋所指的是由不特定個體在無情緒起伏下所發出的聲音訊號所獲得，且預先儲存於該預設情緒資料庫的預設聲紋，因此於比對後，處理器16便能擷取出能用以辨識此個體當前之情緒狀態的複數個特徵值。

由於每個個體情緒資料庫中針對特定個體儲存有數筆情緒狀態與樣本特徵值之間的對應關係，且類似地，於預設情緒資料庫中針對不特定個體也儲存有數筆情緒狀態與樣本特徵值之間的對應關係，因此於步驟S250a中，處理器16將所擷取到的該些特徵值與儲存於個體情緒資料庫的多組樣本特徵值作比對後，便能辨識出此個體當前最有可能的情緒狀態，或者於步驟S250b中，處理器16將所擷取到的該些特徵值與儲存於預設情緒資料庫的多組樣本特徵值作比對後，便能辨識出此個體當前最有可能的情緒狀態。須說明的是，於預設情緒資料庫與每個個體情緒資料庫中，一組樣本特徵值對應一種情緒狀態，但不同組的樣本特徵值可能對應到同一種情緒狀態。

值得注意的是，於步驟S250a與步驟S250b中，處理器16是透過搜尋演算法來將該些特徵值與儲存於個體情緒資料庫或預設情緒資料庫的多組樣本特徵值作比對，並判斷出一情緒狀態。也就是說，處理器16是使用搜尋演算法來找出個體情緒資料庫或預設情緒資料庫中與該些特徵值最相似的一組樣本特徵值。舉例來說，處理器16所使用的搜尋演算法可為循序搜尋法(Sequential Search)、二分搜尋法(Binary Search)、二元樹搜尋法(Tree Search)、內插搜尋法(Interpolation Search)、雜湊搜尋法(Hashing Search)…等，本發明對於處理器16所使用的搜尋演算法並不限制。

最後，於辨識出此個體當前最有可能的情緒狀態之後，會進入步驟S260。於步驟S260中，處理器16會將所辨識出的情緒狀態與該些特徵值的對應關係同時新增至預設情緒資料庫以及與此個體對應之個體情緒資料庫。也就是說，處理器16會將該些特徵值新增為新的一組樣本特徵值並儲存至預設情緒資料庫以及與此個體對應之個體情緒資料庫，同時也會將所辨識出的情緒狀態與這組新的樣本特徵值的對應關係一併新增至預設情緒資料庫以及與此個體對應之個體情緒資料庫。因此，步驟S260即可視為本實施例所提供之語音情緒辨識系統的學習(learning)功能，透過此種學習功能，個體情緒資料庫與預設情緒資料庫的完成度便能不斷地被優化。

[語音情緒辨識方法的另一實施例]

接下來請參照圖3，圖3為根據本發明另一例示性實施例繪示之語音情緒辨識方法的流程圖。

本實施例所提供之語音情緒辨識方法也是由圖1所繪示之語音情緒辨識系統中的處理器16執行儲存於記憶體14中的一辨識程式15來實現，故請同時參照圖1與圖3以利瞭解。

本實施例所提供之語音情緒辨識方法中S320、S330a和S330b、S332a和S332b、S340a和S340b以及S350與圖2所繪示之實施例所提供之語音情緒辨識方法中步驟S220~S260類似，因此關於本實施例所提供之語音情緒辨識方法中步驟S320、S330a和S330b、S340a和S340b以及S350的細節可參照關於圖2所繪示之實施例所提供之語音情緒辨識方法中步驟S220~S260的描述，以下將僅就本實施例所提供之語音情緒辨識方法中其他步驟的細節作說明。

在收音裝置12接收到一聲音訊號後，與圖2所繪示之實施例類似地，於步驟S310中，處理器16會將此聲音訊號進行訊號處理以獲得一聲紋檔案。舉例來說，處理器16可將所接收的聲音訊號轉換成聲譜圖(spectrogram)，以擷取聲譜圖中的特徵值作為聲紋檔案，但本發明於此並不限制處理器16由聲音訊號中取得聲紋檔案的訊號處理方式。

然而，差別在於，如圖3所示，處理器16會進一步執行步驟S312~S316。由於預設聲紋資料庫儲存有複數筆樣本聲紋與複數個個體之身分之間的對應關係，故於步驟S312中，處理器16會將聲紋檔案與預設聲紋資料庫中的該些樣本聲紋作比對，以判斷是否存在有一樣本聲紋能夠與聲紋檔案匹配。舉例來說，處理器16在判斷是否存在有一樣本聲紋能夠與聲紋檔案匹配，可根據樣本聲紋能夠與聲紋檔案之間的相似度來做判斷。若某一樣本聲紋與聲紋檔案之間的相似度達到系統建置者所設定的一標準值，處理器16便能判斷此樣本聲紋與聲紋檔案匹配。

當處理器16找出有一樣本聲紋能夠與聲紋檔案匹配時，便進入步驟S314，以確認發出聲音訊號之個體就是與該樣本聲紋相對應之個體。相反地，當處理器16找不到有一樣本聲紋能夠與聲紋檔案匹配時，便表示預設聲紋資料庫中並沒有與此個體相對應的樣本聲紋，於是在步驟S316中，處理器16會將此聲紋檔案新增至預設聲紋資料庫中作為一個新的樣本聲紋。此時，一操作者可透過一介面(如：收音裝置12)輸入此個體之身分，處理器16便會將這個新的樣本聲紋與操作者所輸入之此個體之身分間的對應關係一併儲存至預設聲紋資料庫中。此外，處理器16還會在記憶體14中針對此個體新增一個體情緒資料庫。

於本實施例中，在確認發出聲音訊號之個體的身分後，若對應於此個體之個體情緒資料庫是於步驟S316中新增的，則處理器16便會透過步驟S320先判斷此個體情緒資料庫的完成度是否大於等於一預設百分比。於此情況下，由於此個體情緒資料庫是於步驟S316中新增的，因此其完成度必然會小於該預設百分比。於是，處理器16便會接著透過S330b、S332b、S340b根據聲紋檔案辨識出此個體當前最有可能的情緒狀態。由於步驟S330b、S332b、S340b相應於前述實施例中的步驟S230b、S240b、S250b，故於此不重複描述該些步驟的細節。另一方面，若對應於此個體之個體情緒資料庫原先即儲存於記憶體14(即，不是於步驟S316中新增的個體情緒資料庫)，便會步驟S320。於步驟S320中，處理器16會判斷此個體情緒資料庫的完成度是否大於等於一預設百分比。若此個體情緒資料庫的完成度小於預設百分比，便會進入步驟S330b、S332b、S340b，以根據聲紋檔案辨識出此個體當前最有可能的情緒狀態。然而，若此個體情緒資料庫的完成度大於等於預設百分比，便會進入步驟S330a。於步驟S330a中，處理器16會選擇使用與此個體對應之個體情緒資料庫作為辨識情緒狀態的依據。

首先，要說明的是處理器16使用與此個體對應之個體情緒資料庫來辨識聲紋檔案的流程。

於處理器16選擇使用與此個體對應之個體情緒資料庫作為辨識情緒狀態的依據後，於步驟S332a中，處理器16會將聲紋檔案與預設聲紋作比對，以擷取出複數個特徵值。此步驟類似於圖2所示之實施例中的步驟S240a，故關於此步驟的細節請參照前述針對圖 2所示之實施例中的步驟S240a所做的說明。接著於步驟S334a中，處理器16會將所擷取出的該些特徵值與儲存於個體情緒資料庫的多組樣本特徵值作比對，並產生一相似度百分比。舉例來說，處理器16從聲紋檔案中所擷取出的該些特徵值可為音高(Pitch)、共振峰(Formant)、音框能量(Frame Energy)…等等，其中音高與人類對音符基頻(Fundamental Frequency)的感受有關，共振峰與聲紋檔案中能量較集中的頻率位置有關，音框能量與聲音的強度變化有關，但本發明不限制處理器16從聲紋檔案中所擷取出之特徵值的類型。

接下來，於步驟S336a中，處理器16會判斷於步驟S334a中所得到的相似度百分比是否大於等於一門檻百分比。於此步驟中，處理器16會先找出是否存在相似度百分比大於等於一門檻百分比的一或多組樣本特徵值。若存在相似度百分比大於等於一門檻百分比的一組樣本特徵值，則於步驟S340a中，處理器16便會根據該組樣本特徵值判斷出對應之一情緒狀態。再者，若存在相似度百分比大於等於一門檻百分比的多組樣本特徵值，則於步驟S336a中，處理器16便會進一步將相似度百分比大於等於一門檻百分比的多組樣本特徵值作排序，以找出相似度百分比最高的該組樣本特徵值。接著，於步驟S340a中，處理器16便會根據相似度百分比最高的該組樣本特徵值判斷出對應之一情緒狀態。最後，於步驟S350中，處理器16會將所判斷出的情緒狀態與該組特徵值的對應關係新增至該個體的個體情緒資料庫與預設情緒資料庫中。

另一方面，於步驟S336a中，若該個體的個體情緒資料庫不存在相似度百分比大於等於一門檻百分比的一或多組樣本特徵值，則會進入步驟S330b，處理器16另行選擇預設情緒資料庫作為辨識情緒狀態的依據。

因此，接著要說明的是處理器16使用預設情緒資料庫來辨識聲紋檔案的流程。

於步驟S332b中，處理器16會將聲紋檔案與預設聲紋作比對，以擷取出複數個特徵值。此步驟類似於圖2所示之實施例中的步驟S240，故關於此步驟的細節請參照前述針對圖2所示之實施例中的步驟S240所做的說明。接著於步驟S340b中，處理器16會將所擷取出的該些特徵值與儲存於預設情緒資料庫的該些樣本特徵值作比對，並產生一相似度百分比。於此步驟中，本發明同樣不限制處理器16從聲紋檔案中所擷取出之特徵值的類型；也就是說，處理器16從聲紋檔案中所擷取出的該些特徵值可為前述舉例之特徵值，如：音高(Pitch)、共振峰(Formant)、音框能量(Frame Energy)…等等。

接下來，處理器16會判斷所得到的相似度百分比是否大於等於一門檻百分比。同樣地，處理器16會先找出是否存在相似度百分比大於等於一門檻百分比的一或多組樣本特徵值。若存在相似度百分比大於等於一門檻百分比的一組樣本特徵值，則處理器16便會根據該組樣本特徵值判斷出對應之一情緒狀態。再者，若存在相似度百分比大於等於一門檻百分比的多組樣本特徵值，則處理器16便會進一步將相似度百分比大於等於一門檻百分比的多組樣本特徵值作排序，以找出相似度百分比最高的該組樣本特徵值。接著，處理器16便會根據相似度百分比最高的該組樣本特徵值判斷出對應之一情緒狀態。

較不同於前述實施例中使用預設情緒資料庫來辨識聲紋檔案的流程的地方是，當處理器16於步驟S340b中辨識出一情緒狀態後，還會進入步驟S342b，以對該個體發出一語音訊號，來確認步驟S340b中辨識出的情緒狀態是否為個體當前的情緒狀態。此時，若處理器16根據收音裝置12所擷取到的一語音資訊判斷出步驟S340b中辨識出的情緒狀態確實為個體當前的情緒狀態，則進入步驟S350，以將所辨識出的情緒狀態與該組特徵值的對應關係新增至該個體的個體情緒資料庫與預設情緒資料庫中。然而，若處理器16根據收音裝置12所擷取到的一語音資訊判斷出步驟S340b中辨識出的情緒狀態並非個體當前的情緒狀態，則回到步驟S340b，以找出相似度百分比次高的該組樣本特徵值，根據相似度百分比次高的該組樣本特徵值判斷出對應之一情緒狀態，並接續前述之步驟S342b與步驟S350。

另一方面，於步驟S340b中，若不存在相似度百分比大於等於一門檻百分比的一或多組樣本特徵值，則處理器16還是會根據相似度百分比最高的該組樣本特徵值判斷出對應之一情緒狀態，並接續前述之步驟S342b與步驟S350。

最後值得注意的是，於步驟S334a與步驟S340b中，處理器16是透過搜尋演算法來將該些特徵值與儲存於個體情緒資料庫或預設情緒資料庫的複數個樣本特徵值作比對，並判斷出一情緒狀態。也就是說，處理器16是使用搜尋演算法來找出個體情緒資料庫或預設情緒資料庫中與該些特徵值最相似的一組樣本特徵值。舉例來說，處理器16所使用的搜尋演算法可為循序搜尋法(Sequential Search)、二分搜尋法(Binary Search)、二元樹搜尋法(Tree Search)、內插搜尋法(Interpolation Search)、雜湊搜尋法(Hashing Search)…等，本發明對於處理器16所使用的搜尋演算法並不限制。

[智慧型機器人的一實施例]

本實施例所提供之智慧型機器人包括中央處理器以及如前述任一實施例所描述之語音情緒辨識系統。舉例來說，本實施例所提供之智慧型機器人可由一個人/家庭用服務機器人來實現。本實施例所提供之智慧型機器人由於設置有如前述任一實施例所描述之語音情緒辨識系統，因此能根據使用者所發出的聲音訊號辨識出使用者當前的情緒狀態。此外，在根據使用者所發出的聲音訊號辨識出使用者當前的情緒狀態後，本實施例所提供之智慧型機器人中的中央處理器便會根據語音情緒辨識系統所辨識出之情緒狀態產生一控制指令，使得智慧型機器人根據此控制指令執行一動作。

舉例來說，若使用者以低落的語氣說出「播放音樂」，於本實施例中，智慧型機器人中的語音情緒辨識系統便能根據使用者所發出的聲音訊號辨識出「低落」的情緒狀態。由於語音情緒辨識系統所辨識出的情緒狀態為「低落」，因此智慧型機器人中的中央處理器便產生一控制指令來使得智慧型機器人發出一語音訊號，如：「要不要聽點輕鬆的音樂」，以確認是否播放輕鬆的音樂。

[實施例的可能功效]

首先，於本發明所提供之語音情緒辨識系統與方法中，處理器會將所辨識出的情緒狀態與個體聲紋之特徵值的對應關係新增至預設情緒資料庫以及與此個體對應之個體情緒資料庫。也就是說，本發明所提供之語音情緒辨識系統具有學習(learning)功能，透過此種學習功能，個體情緒資料庫與預設情緒資料庫的完成度便能不斷地被優化。

再者，由於本發明所提供之語音情緒辨識系統與方法是使用搜尋演算法來找出個體情緒資料庫或預設情緒資料庫中與個體聲紋之特徵值最相似的一組樣本特徵值，因此能夠較快捷地找出個體情緒資料庫或預設情緒資料庫中與個體聲紋之特徵值最相似的一組樣本特徵值。

此外，因為本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人能夠根據使用者所發出的聲音訊號辨識出使用者當前的情緒狀態，因此能夠將使用者當前的情緒納為提供服務或與使用者互動的根據。相較於只能根據使用者的語音指令提供服務或與使用者互動的機器人裝置，本發明所提供之語音情緒辨識系統與方法，以及使用其之智慧型機器人能夠為使用者提供更符合其心境的服務與互動。

最後須說明地是，於前述說明中，儘管已將本發明技術的概念以多個示例性實施例具體地示出與闡述，然而在此項技術之領域中具有通常知識者將理解，在不背離由以下申請專利範圍所界定的本發明技術的概念之範圍的條件下，可對其作出形式及細節上的各種變化。

Claims

一種語音情緒辨識系統，用以根據一聲音訊號辨識出一情緒狀態，包括：一收音裝置，設置以接收該聲音訊號；一記憶體，設置以儲存一辨識程式、一預設情緒資料庫、複數個個體情緒資料庫與一預設聲紋資料庫，其中不同的該個體情緒資料庫對應於不同的個體，且該預設聲紋資料庫儲存有複數筆樣本聲紋與複數個個體之身分之間的對應關係；以及一處理器，連接於該收音裝置與該記憶體，設置以執行該辨識程式以執行以下操作：將該聲音訊號進行訊號處理以獲得一聲紋檔案，並比對該聲紋檔案與該些樣本聲紋以識別發出該聲音訊號之一個體的身分；判斷與該個體對應之該個體情緒資料庫的完成度是否大於等於一預設百分比，其中若該個體對應之該個體情緒資料庫的完成度大於等於該預設百分比，則選擇該個體情緒資料庫作為辨識該情緒狀態的依據，而若該個體對應之該個體情緒資料庫的完成度小於該預設百分比，則選擇該預設情緒資料庫作為辨識該情緒狀態的依據；若選擇該個體情緒資料庫作為辨識該情緒狀態的依據，則將該聲紋檔案與儲存於該個體情緒資料庫中之一預設聲紋作比對，以擷取出複數個特徵值，而若選擇該預設情緒資料庫作為辨識該情緒狀態的依據，則將該聲紋檔案與儲存於該預設情緒資料庫中之一預設聲紋作比對，以擷取出複數個特徵值；若選擇該個體情緒資料庫作為辨識該情緒狀態的依據，則將該些特徵值與儲存於該個體情緒資料庫的多組樣本特徵值作比對，並辨識出該情緒狀態，而若選擇該預設情緒資料庫作為辨識該情緒狀態的依據，則將該些特徵值與儲存於該預設情緒資料庫的多組樣本特徵值作比對，並辨識出該情緒狀態，其中儲存於該個體情緒資料庫與該預設情緒資料庫的該多組樣本特徵值分別對應於不同的情緒狀態；以及將該情緒狀態與該些特徵值的一對應關係新增至該個體情緒資料庫與該預設情緒資料庫；其中，儲存於該個體情緒資料庫中之該預設聲紋是由對應該個體情緒資料庫之一特定個體在無情緒起伏下所發出的聲音訊號所獲得，而儲存於該預設情緒資料庫中之該預設聲紋是由一不特定個體在無情緒起伏下所發出的聲音訊號所獲得。
如請求項1所述之語音情緒辨識系統，其中該處理器透過一搜尋演算法將該些特徵值與儲存於該個體情緒資料庫或該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出該情緒狀態。
如請求項1所述之語音情緒辨識系統，其中當該處理器根據該聲紋檔案識別發出該聲音訊號之該個體的身分時，該處理器執行該辨識程式以進一步執行以下操作：判斷該些樣本聲紋之一是否與該聲紋檔案匹配；若該些樣本聲紋之一與該聲紋檔案匹配，則判斷發出該聲音訊號之該個體為與該些樣本聲紋之一相對應之該個體；以及若未有該些樣本聲紋之一與該聲紋檔案匹配，則根據該聲紋檔案於該預設聲紋資料庫中新增一樣本聲紋與一個體之間的對應關係，且於該記憶體中新增另一個體情緒資料庫。
如請求項1所述之語音情緒辨識系統，其中當該處理器將該些特徵值與儲存於該個體情緒資料庫的該些樣本特徵值作比對時，該處理器執行該辨識程式以進一步執行以下操作：將該些特徵值與儲存於該個體情緒資料庫的該多組樣本特徵值作比對，並產生一相似度百分比；若該相似度百分比大於等於一門檻百分比，則根據該多組樣本特徵值之一判斷出對應的該情緒狀態；以及若該相似度百分比小於該門檻百分比，則將該些特徵值與儲存於該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出該情緒狀態。
如請求項1所述之語音情緒辨識系統，其中於該處理器將該些特徵值與儲存於該預設情緒資料庫的該多組樣本特徵值作比對，並辨識出該情緒狀態後，該處理器執行該辨識程式以進一步執行以下操作：發出一語音訊號，用以確認所判斷出的該情緒狀態是否為該個體當前的情緒狀態；若確認所判斷出的該情緒狀態為該個體當前的情緒狀態，則將該情緒狀態與該些特徵值的該對應關係新增至該個體情緒資料庫與該預設情緒資料庫；以及若確認所判斷出的該情緒狀態並非該個體當前的情緒狀態，則再次將該些特徵值與儲存於該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出另一情緒狀態。
一種語音情緒辨識方法，用以根據一聲音訊號辨識出一情緒狀態，適用於一語音情緒辨識系統，其中該語音情緒辨識系統包括一收音裝置、一記憶體與一處理器，該收音裝置設置以接收該聲音訊號，該記憶體設置以儲存一辨識程式、一預設情緒資料庫、複數個個體情緒資料庫與一預設聲紋資料庫，不同的該個體情緒資料庫對應於不同的個體，該預設聲紋資料庫儲存有複數筆樣本聲紋與複數個個體之身分之間的對應關係，該處理器連接於該收音裝置與該記憶體，且該處理器設置以執行該辨識程式以執行該語音情緒辨識方法，包括：將該聲音訊號進行訊號處理以獲得一聲紋檔案，並比對該聲紋檔案與該些樣本聲紋以識別發出該聲音訊號之一個體的身分；判斷與該個體對應之該個體情緒資料庫的完成度是否大於等於一預設百分比，其中若該個體對應之該個體情緒資料庫的完成度大於等於該預設百分比，則選擇該個體情緒資料庫作為辨識該情緒狀態的依據，而若該個體對應之該個體情緒資料庫的完成度小於該預設百分比，則選擇該預設情緒資料庫作為辨識該情緒狀態的依據；若選擇該個體情緒資料庫作為辨識該情緒狀態的依據，則將該聲紋檔案與儲存於該個體情緒資料庫中之一預設聲紋作比對，以擷取出複數個特徵值，而若選擇該預設情緒資料庫作為辨識該情緒狀態的依據，則將該聲紋檔案與儲存於該預設情緒資料庫中之一預設聲紋作比對，以擷取出複數個特徵值；若選擇該個體情緒資料庫作為辨識該情緒狀態的依據，則將該些特徵值與儲存於該個體情緒資料庫的多組樣本特徵值作比對，並辨識出該情緒狀態，而若選擇該預設情緒資料庫作為辨識該情緒狀態的依據，則將該些特徵值與儲存於該預設情緒資料庫的多組樣本特徵值作比對，並辨識出該情緒狀態，其中儲存於該個體情緒資料庫與該預設情緒資料庫的該多組樣本特徵值分別對應於不同的情緒狀態；以及將該情緒狀態與該些特徵值的一對應關係新增至該個體情緒資料庫與該預設情緒資料庫；其中，儲存於該個體情緒資料庫中之該預設聲紋是由對應該個體情緒資料庫之一特定個體在無情緒起伏下所發出的聲音訊號所獲得，而儲存於該預設情緒資料庫中之該預設聲紋是由一不特定個體在無情緒起伏下所發出的聲音訊號所獲得。
如請求項6所述之語音情緒辨識方法，其中該處理器透過一搜尋演算法將該些特徵值與儲存於該個體情緒資料庫或該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出該情緒狀態。
如請求項6所述之語音情緒辨識方法，其中根據該聲紋檔案識別發出該聲音訊號之該個體的身分之步驟更包括：判斷該些樣本聲紋之一是否與該聲紋檔案匹配；若該些樣本聲紋之一與該聲紋檔案匹配，則判斷發出該聲音訊號之該個體為與該些樣本聲紋之一相對應之該個體；以及若未有該些樣本聲紋之一與該聲紋檔案匹配，則根據該聲紋檔案於該預設聲紋資料庫中新增一樣本聲紋與一個體之間的對應關係，且於該記憶體中新增另一個體情緒資料庫。
如請求項6所述之語音情緒辨識方法，其中將該些特徵值與儲存於該個體情緒資料庫的該多組樣本特徵值作比對之步驟更包括：將該些特徵值與儲存於該個體情緒資料庫的該多組樣本特徵值作比對，並產生一相似度百分比；若該相似度百分比大於等於一門檻百分比，則根據該多組樣本特徵值之一判斷出對應的該情緒狀態；以及若該相似度百分比小於該門檻百分比，則將該些特徵值與儲存於該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出該情緒狀態。
如請求項6所述之語音情緒辨識方法，其中於將該些特徵值與儲存於該個體情緒資料庫或該預設情緒資料庫的該多組樣本特徵值作比對，並辨識出該情緒狀態之步驟後，該語音情緒辨識方法更包括：發出一語音訊號，用以確認所判斷出的該情緒狀態是否為該個體當前的情緒狀態；若確認所判斷出的該情緒狀態為該個體當前的情緒狀態，則將該情緒狀態與該些特徵值的該對應關係新增至該個體情緒資料庫與該預設情緒資料庫；以及若確認所判斷出的該情緒狀態並非該個體當前的情緒狀態，則再次將該些特徵值與儲存於該個體情緒資料庫或該預設情緒資料庫的該多組樣本特徵值作比對，並判斷出另一情緒狀態。
一種智慧型機器人，包括：一中央處理器；以及一如請求項1所述之一語音情緒辨識系統，設置以根據一聲音訊號辨識出一情緒狀態；其中，該中央處理器根據該語音情緒辨識系統所辨識出之該情緒狀態產生一控制指令，使得該智慧型機器人根據該控制指令執行一動作。