TWI830385B

TWI830385B - 用於語音語句之情緒預測裝置、方法以及其電腦程式產品

Info

Publication number: TWI830385B
Application number: TW111135187A
Authority: TW
Inventors: 楊宗憲; 吳宗憲; 徐嘉昊
Original assignee: 中華電信股份有限公司
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2024-01-21
Also published as: TW202414392A

Abstract

本案揭示一種用於語音語句之情緒預測裝置、方法以及其電腦程式產品，所揭方法係包括接收語音語句，處理之以形成語音及其對應的文字，進而將語音及對應的文字輸入至訓練完成之情緒分類模型，俾輸出自情緒分類模型所獲得之語音語句的預測情緒分類。情緒分類模型係以語音文字情緒資料予以訓練，其中，語音文字情緒資料係經訓練完成之語音特徵抽取模型以及訓練完成之文字特徵抽取模型分別抽取出語音特徵向量和文字特徵向量，且語音特徵向量和文字特徵向量係經串接，而訓練完成之情緒分類模型係依據輸入的語音和文字輸出預測的情緒分類。藉此，本案可有效提升情緒辨識的準確率。

Description

用於語音語句之情緒預測裝置、方法以及其電腦程式產品

本案係關於一種情緒辨識技術，詳而言之，係關於一種用於語音語句之情緒預測裝置、方法以及電腦程式產品。

近年來人工智慧(artificial intelligence,AI)在自然語言處理(natural language processing,NLP)方面的應用快速發展，例如應用在情緒辨識技術上。所謂情緒辨識是對所收集的訊號進行分析或處理，藉此得知情緒是正向、負向、中性等。

一般而言，情緒辨識可分為文字部分和語音部分。語音部分可使用基本聲學特徵和頻譜圖，而文字部分可能使用分類器相關的模型，惟關於模型的訓練往往需要大量資料，其成本通常較多而時間通常較長。另外，情緒辨識通常專注於如何抽取及定義有用並能有效分類出情緒類別的特徵，而於市場應用上，因應不同的領域，可能收集的資料或在意的情緒亦不盡相同，導致成本與時間的增加。

因此，如何提出一套適合特定領域客戶的情緒辨識技術，並能經由少量資料微調訓練後在新的領域或資料上表現良好，且可有效提升其準確率，為目前待解決的議題。

為解決上述問題及其他問題，本案揭示一種用於語音語句之情緒預測裝置、方法以及其電腦程式產品。

本案所揭之情緒預測裝置係包括：情緒分類模型，係以語音文字情緒資料予以訓練，其中，該語音文字情緒資料係經訓練完成之語音特徵抽取模型以及訓練完成之文字特徵抽取模型分別抽取出語音特徵向量和文字特徵向量，且該語音特徵向量和該文字特徵向量係經串接以進行情緒分類，而訓練完成之該情緒分類模型係依據輸入的語音和文字，經處理以輸出預測的情緒分類；以及處理模組，係接收一語音語句，將該語音語句處理以形成語音及其對應的文字，進而將該語音及該對應的文字輸入至訓練完成之該情緒分類模型，俾輸出自該情緒分類模型所獲得之該語音語句的預測情緒分類。

於一實施例中，該文字特徵抽取模型係以文字情緒資料、關鍵術語集合及關鍵事件集合予以訓練。於另一實施例中，該語音特徵抽取模型係以語音情緒資料和語音資料予以訓練。

於一實施例中，該文字特徵抽取模型之訓練係包括：對該文字情緒資料進行斷詞前處理，以產生斷詞後的原始輸入語句；對該斷詞後的原始輸入語句進行關鍵術語抽取，以產生該關鍵術語集合；根據該斷詞後的原始輸入語句與該關鍵術語集合，產生斷詞後的關鍵術語語句；根據該斷詞後的原始輸入語句與該關鍵事件集合，產生斷詞後的關鍵事件語句；將該斷詞後的原始輸入語句、該斷詞後的關鍵術語語句、該斷詞後的關鍵事件語句置入三個基於轉換器的模型，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量；以及串接該原始輸入語句經基於轉換器的模型取得之特徵向量、該關鍵術語語句經基於轉換器的模型取得之特徵向量、該關鍵事件語句經基於轉換器的模型取得之特徵向量。

於一實施例中，該語音特徵抽取模型之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；將該分段後的語音頻譜特徵，置入訓練完成之向量置換變分自編碼器(VQVAE)，以取得經該向量置換變分自編碼器(VQVAE)置換之特徵向量；將該經該向量置換變分自編碼器(VQVAE)置換之特徵向量，置入預訓練完成之語音基於轉換器的模型以進行微調。

於一實施例中，對該語音情緒資料所進行之分段前處理係包括：對該語音情緒資料進行靜音段偵測、語句與非語句幀分類、韻律轉折偵測，以產生韻律分段音訊時域訊號，其中，利用訓練完成之支持向量機(SVM)模型進行該語句與非語句幀分類，其中，該支持向量機(SVM)模型係以分段中的幀的梅爾頻率倒譜系數(MFCC)特徵予以訓練；以及將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵。

於一實施例中，該向量置換變分自編碼器(VQVAE)之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；及將該分段後的語音頻譜特徵，置入該向量置換變分自編碼器(VQVAE)以進行訓練。

於一實施例中，該語音基於轉換器的模型之預訓練係包括：對該語音資料進行前處理，以產生語音頻譜特徵；將該語音頻譜特徵，置入訓練完成之該向量置換變分自編碼器(VQVAE)，以取得經該向量置換變分自編碼器(VQVAE)置換之特徵向量；及將該經該向量置換變分自編碼器(VQVAE)置換之特徵向量，置入該語音基於轉換器的模型以進行預訓練。

本案所揭之情緒預測方法係包括：接收一語音語句，處理該語音語句以形成語音及其對應的文字；以及將該語音及該對應的文字輸入至訓練完成之情緒分類模型，俾輸出自該情緒分類模型所獲得之該語音語句的預測情緒分類；其中，該情緒分類模型係以語音文字情緒資料予以訓練，其中，該語音文字情緒資料係經訓練完成之語音特徵抽取模型以及訓練完成之文字特徵抽取模型分別抽取出語音特徵向量和文字特徵向量，且該語音特徵向量和該文字特徵向量係經串接以進行情緒分類，而訓練完成之該情緒分類模型係依據輸入的語音和文字，經處理以輸出預測的情緒分類。

於一實施例中，該文字特徵抽取模型之訓練係包括：對該文字情緒資料進行斷詞前處理，以產生斷詞後的原始輸入語句；對該斷詞後的原始輸入語句進行關鍵術語抽取，以產生關鍵術語集合；根據該斷詞後的原始輸入語句與該關鍵術語集合，產生斷詞後的關鍵術語語句；根據該斷詞後的原始輸入語句與關鍵事件集合，產生斷詞後的關鍵事件語句；將該斷詞後的原始輸入語句、該斷詞後的關鍵術語語句、該斷詞後的關鍵事件語句置入三個基於轉換器的模型，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量；以及串接該原始輸入語句經基於轉換器的模型取得之特徵向量、該關鍵術語語句經基於轉換器的模型取得之特徵向量、該關鍵事件語句經基於轉換器的模型取得之特徵向量。

於一實施例中，該語音特徵抽取模型之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；將該分段後的語音頻譜特徵，置入訓練完成之向量置換變分自編碼器(VQVAE)，以取得經該向量置換變分自編碼器(VQVAE)置換之特徵向量；以及將該經該向量置換變分自編碼器(VQVAE)置換之特徵向量，置入預訓練完成之一語音基於轉換器的模型以進行微調；其中，對該語音情緒資料所進行之斷詞前處理係包括：對該語音情緒資料進行靜音段偵測、語句與非語句幀分類、韻律轉折偵測，以產生韻律分段音訊時域訊號，其中，利用訓練完成之支持向量機(SVM)模型進行該語句與非語句幀分類，其中，該支持向量機(SVM)模型係以分段中的幀的梅爾頻率倒譜系數(MFCC)特徵予以訓練；以及將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵；其中，對該向量置換變分自編碼器(VQVAE)之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；以及將該分段後的語音頻譜特徵，置入該向量置換變分自編碼器(VQVAE)以進行訓練；其中，該語音基於轉換器的模型之預訓練係包括：對語音資料進行前處理，以產生語音頻譜特徵；將該語音頻譜特徵，置入訓練完成之該向量置換變分自編碼器(VQVAE)，以取得經該向量置換變分自編碼器(VQVAE)置換之特徵向量；以及將該經該向量置換變分自編碼器(VQVAE)置換之特徵向量，置入該語音基於轉換器的模型以進行預訓練。

本案所揭之電腦程式產品，係經電腦載入後執行上述之情緒預測方法。

根據本案所揭之用於語音語句之情緒預測裝置、方法以及其電腦程式產品，係以轉換器為基礎的模型加上預訓練語言模型的訓練方式達到文字情緒識別上的較佳效能表現，並將此模型移植至語音辨識中亦能表現優異。換言之，本案主要在這些預訓練過的最佳轉換器為基礎的模型上提出改進，使模型在少量或特定領域資料(如電信客服資料)微調訓練後也能有優異表現。又，考慮到模型參數量過大可能無法以小型資料訓練完整，在訓練模型前對兩模態的輸入先進行較直觀且可解釋的特徵抽取，即，在文字部份抽取於特定領域中較為重要且看重的長短詞，並給予其更高的模型注意力，而在語音部分則先將原本輸入的語音進行韻律短語分段，並將分段後的語音頻譜經由向量置換的自動編碼器轉換過的固定維度及量級的隱藏層向量，來減少資料的變異度。另外，經由自動編碼器轉換的向量除了有固定量級外，本案也將編碼器訓練成能對輸入資訊做初步的韻律特徵抽取，壓縮輸入資訊且保留重要的韻律特徵。藉此，本案分別將兩模態訊號以可解釋性高的特徵抽取步驟進行處理，得到了情緒相關特徵再進行情緒分類。因此，串接語音和文字兩模態的特徵以得到較準確的情緒預測分類。

11:文字情緒資料庫

12:文字前處理模組

13:關鍵術語抽取模組

14:關鍵術語集合

15:關鍵術語匹配模組

16:關鍵事件集合

17:關鍵事件匹配模組

18:基於轉換器的模型

21:語音情緒資料庫

22:語音前處理模組

221:靜音段偵測單元

222:語句與非語句幀分類單元

223:韻律轉折偵測單元

23:VQVAE

24:語音基於轉換器的模型

25:語音資料庫

26:語音前處理模組

27:AALBERT

31:文字語音情緒資料庫

32:文字特徵抽取模型

33:語音特徵抽取模型

34:線性層分類器

5:情緒預測裝置

51:處理模組

52:情緒分類模型

S101~S105:步驟

S201~S203:步驟

S501~S505:步驟

圖1係為本案之用於語音語句之情緒預測裝置之方塊示意圖。

圖2係為本案之用於語音語句之情緒預測裝置之文字特徵抽取模組的訓練示意圖。

圖3係為本案之用於語音語句之情緒預測裝置之語音特徵抽取模組的訓練示意圖。

圖3A係為本案之用於語音語句之情緒預測裝置之語音特徵抽取模組的VQVAE的訓練示意圖。

圖3B係為本案之用於語音語句之情緒預測裝置之語音特徵抽取模組的AALBERT的預訓練示意圖。

圖4係為本案之用於語音語句之情緒預測裝置之情緒分類模型之訓練示意圖。

圖5係為本案之用於語音語句之情緒預測方法之流程示意圖。

圖6係為本案之用於語音語句之情緒預測方法之文字特徵抽取模組的訓練之流程示意圖。

圖7係為本案之用於語音語句之情緒預測方法之語音特徵抽取模組的訓練之流程示意圖。

以下藉由特定的實施例說明本案之實施方式，熟習此項技藝之人士可由本文所揭示之內容輕易地瞭解本案之其他優點及功效。本說明書所附圖式所繪示之結構、比值、大小等均僅用於配合說明書所揭示之內容，以供熟悉此技藝之人士之瞭解與閱讀，非用於限定本案可實施之限定條件，故任何修飾、改變或調整，在不影響本案所能產生之功效及所能達成之目的下，均應仍落在本案所揭示之技術內容得能涵蓋之範圍內。

於本文中所用之術語「包括」、「包含」、「具有」、「含有」或其任何其他變體都旨在涵蓋非排他性的包含。例如，由一系列元素組成的組合物、混合物、工藝或方法不一定只限於這些元素，還可能包括沒有明確列出的其他元素，或這些組合物、混合物、程序或方法所固有的元素。此外，除非另有說明，單數形式的措辭，如「一」、「一個」、「該」也適用於複數形式，而「或」、「及/或」等措辭可互換使用。

請參閱圖1，其顯示本案之情緒預測裝置之方塊示意圖。如圖1所示，情緒預測裝置5包括處理模組51和情緒分類模型52。於一實施例中，情緒預測裝置5可例如為電腦、伺服器或具有處理單元之電子裝置。

處理模組51係接收一語音語句、處理該語音語句以取得語音及其對應的文字、傳輸該語音及該對應的文字至情緒分類模型52以供情緒分類模型52對該語音及該對應的文字進行情緒分類、從情緒分類模型52取得預測情緒分類、輸出該語音語句經過情緒分類模型52預測後之預測情緒分類。於一實施例中，處理模組51可例如為音訊接收單元以及自動語音識別(automatic speech recognition)單元。

情緒分類模型52係為訓練完成的模型。情緒分類模型52係以語音文字情緒資料予以訓練，其中，該語音文字情緒資料係經訓練完成之語音特徵抽取模型抽取出語音特徵向量，且該語音文字情緒資料係經訓練完成之文字特徵抽取模型抽取出文字特徵向量，該語音特徵向量和該文字特徵向量係經串接以進行情緒分類。訓練收斂後，即訓練完成之情緒分類模型52，可依據輸入的語音和文字，經處理以輸出預測的情緒分類。換言之，本案之情緒預測裝置5可對一輸入的語音語句，進行語音和文字兩模態的情緒分類預測，相較於單純的以語音來預測情緒或單純的以文字來預測情緒，更為準確。

以下依序說明文字特徵抽取模型之訓練、語音特徵抽取模型之訓練、以及情緒分類模型52之訓練。

請參閱圖2，其顯示文字特徵抽取模型之訓練過程，對於文字特徵抽取模型的訓練所需之資料為文字情緒資料庫11，其中該文字情緒資料為已標註有情緒分類的文字資料，而文字特徵抽取模型的訓練所需之模組為文字前處理模組12、關鍵術語抽取模組13、關鍵術語匹配模組15、關鍵事件匹配模組17。

如圖2所示，文字前處理模組12係對文字情緒資料庫11中的文字情緒資料進行斷詞前處理，以產生斷詞後的原始輸入語句，其保留所有字詞當作後續文字嵌入模型的輸入。詳言之，所述斷詞(text segmentation)前處理主要用於正規化所有輸入語句，其中至少包含標點符號刪除、簡繁體中文轉換以及斷詞處理。一般而言，在輸入語句中常會出現不同的標點符號，其中可能因應不同時機代表特殊含義，或者代表斷句，又甚至只是誤植了標點符號於語句中，其中代表斷句的標點符號可能又因個人習慣不同而有所差異，因此前處理部份以空格代替所有標點符號，以免造成後續模型誤解或成為雜訊。而簡繁體轉換使用簡易簡繁體文字對照表將所有輸入語句統一轉換為繁體字，應變輸入語句中可能出現交錯的簡繁體字現象。又，斷詞系統使用結巴斷詞模型進行斷詞，以供後續的關鍵術語抽取模組13能從斷詞後的語句中進行抽取。

關鍵術語抽取模組13係對該斷詞後的原始輸入語句進行關鍵術語抽取，以產生關鍵術語集合14。於一實施例中，關鍵術語的抽取方式例如，由該術語在資料中出現的頻率進行計分並取高分術語當作關鍵術語。舉例來說，使用tf-idf計算公式計算每個術語在某特定情緒資料中的得分減去其在其他情緒語料中的得分，而術語即為斷詞後得到的詞，以n元語法(n-gram)方式進行組合得到新的術語再進行得分計算。以此方法用意為，除僅對單詞進行辨識外，亦考慮某些長詞(術語)能作為判斷情緒的依據。另外，可使用tf-idf公式以及斷詞系統製作一套可對文字資料進行關鍵術語抽取的工具，來取得情緒的關鍵術語集合。當取得n-gram長度的新術語時，計算其在這些n-gram術語中得到的tf-idf分數高低，於一實施例中，取前500高的術語挑選進關鍵術語集合14中，並檢驗n-gram中n為4時可得到最好的實驗結果。於一具體實施例中，關鍵術語集合14中的關鍵術語例如：想要解約、網路不穩定、沒有解決我的問題等、以及其他由多個詞組合而成的關鍵術語。

關鍵術語匹配模組15係根據該斷詞後的原始輸入語句與關鍵術語集合14，產生斷詞後的關鍵術語語句。詳言之，對於斷詞後的原始輸入語句中與關鍵術語集合14匹配到的術語，保留其在語句中的位置與文字，其餘字詞以[MASK]取代，即以類似遮蔽訊號的方法來減少其他字詞帶來的雜訊，藉此取得斷詞後的關鍵術語語句。

關鍵事件匹配模組17係根據該斷詞後的原始輸入語句與關鍵事件集合16，產生斷詞後的關鍵事件語句。詳言之，關鍵事件的定義與文字情緒資料有關聯，當語句中出現特定評價或特定詞語組合時，可直接將此語句標記或判定為指定的情緒。關鍵事件之匹配為文字特徵抽取中最直觀人工的方法，且最具彈性可輕易增減關鍵事件集合。換言之，關鍵事件之匹配可彌補關鍵術語方法遺漏的字詞，例如有些術語頻率低但是能清楚表達情緒，此類問題可由關鍵事件的人工幫助將此重要特徵保留。因此，經過關鍵事件匹配模組17的關鍵事件匹配後，遮蔽語句中非關鍵事件的字詞，藉此取得斷詞後的關鍵事件語句。

爾後，將文字前處理模組12所產生之該斷詞後的原始輸入語句、關鍵術語匹配模組15所產生之該斷詞後的關鍵術語語句、關鍵事件匹配模組17所產生之該斷詞後的關鍵事件語句，投入或置入不同的基於轉換器的模型18，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量，接著，串接該原始輸入語句經基於轉換器的模型取得之特徵向量、該關鍵術語語句經基於轉換器的模型取得之特徵向量、該關鍵事件語句經基於轉換器的模型取得之特徵向量。最後，將串接後的特徵向量，接上線性分類層以進行目標類別的分類，也就是情緒預測分類。

於一實施例中，所述不同的基於轉換器的模型係為三個獨立的(bidirectional encoder representation from transformers,BERT)模型，使各個BERT模型能專注訓練於上述三個不同的語句。在本文中，所使用的BERT為已由大量中文文本預訓練好的12層transformer層模型。例如，以BERT模型在使用大量中文語料進行預訓練時的tokenizer進行前章節取得的三種輸入語句的tokenize，再依預訓練時使用的中文詞彙簿進行文字編碼。使用三個BERT模型分別處理三種輸入語句形式取得的文字編碼，經由已預訓練好的12層transformer層參數進行語句的嵌入，最終使用起始token([CLS])在12層後得到的特徵向量表示(representation)作為語句經由BERT模型得到的特徵向量。最終串接三個BERT模型得到的特徵向量，接上線性分類層進行目標類別的分類，並使用交叉嫡損失函數計算模型分類上的損失，以損失值的梯度回修並微調BERT模型參數以及分類層參數。訓練收斂後，使用三個BERT模型得到的特徵向量並串接作為文字特徵抽取模型最終的輸出。

換言之，如同大多數使用預訓練BERT之下游任務一般，本文使用BERT將語句嵌入成向量，並使用一個分類層對嵌入向量進行分類，再以加權交叉嫡(cross)作為損失函數進行BERT模型調整。由於三個模型針對三種輸入語句進行語句嵌入，最後將得到的三個特徵向量，再串接作為文字情緒特徵向量。在原始語句中的關鍵術語與關鍵事件被保留了，所以其在此三個BERT模型中能表現出較多的語意含量，嵌入後得到的特徵向量也會有更多的注意力在這些字詞中。

是以，經過圖2所示內容及上述實施例說明，可知本案之文字特徵抽取模組係以文字情緒資料庫11、關鍵術語集合14及關鍵事件集合16予以訓練，訓練完成之文字特徵抽取模組32(如圖4所示)對於輸入的文字語句，能自動取得斷詞後的原始輸入語句、斷詞後的關鍵術語語句、斷詞後的關鍵事件語句、關鍵術語集合(含N個關鍵術語)、原始輸入語句經BERT模型取得的特徵向量、關鍵術語語句經BERT模型取得的特徵向量、關鍵事件語句經BERT模型取得的特徵向量，其中，N可視系統之複雜度或需求強度予以調整，N值越大代表系統判定之關鍵術語標準越寬鬆，可給予大量字詞高關注度，但同時也降低關鍵術語於分類時判別的敏感度。

請參閱圖3、3A和3B，其顯示語音特徵抽取模型之訓練過程，對於語音特徵抽取模型的訓練所需之資料為語音情緒資料庫21和語音資料庫25，其中該語音情緒資料為已標註有情緒分類的語音資料，而語音特徵抽取模型的訓練所需之模組為語音前處理模組22和26。

如圖3所示，語音前處理模組22將語音情緒資料庫21的該語音情緒資料進行分段前處理，以產生分段後的語音頻譜(spectrum)特徵。接著，將該分段後的語音頻譜特徵，投入或置入訓練完成之向量置換變分自編碼器(Vector Quantised-Variational AutoEncoder,VQVAE)23，以取得經VQVAE 23置換之特徵向量，接著，將該經VQVAE 23置換之特徵向量，投入或置入預訓練完成之語音基於轉換器的模型24以進行微調，其中，語音基於轉換器的模型24例如(audio a lite BERT,AALBERT)。訓練收斂後，使用AALBERT模型得到的起始token的representation作為語音特徵抽取模型最終的輸出。

如圖3A所示，語音前處理模組22主要用於正規化所有輸入語音，其中至少包含固定取樣率、限制通道數量、語音分段以及音訊頻譜轉換。一般而言，在輸入語音中常會出現不同收音工具造成音訊取樣率不同及通道數不同的現象，因此前處理部份固定取樣率為16k，通道數統一為單通道音訊，以免造成後續模型處理流程不一。而語音分段流程旨在將音訊分成數個長度不一的段落，並使每個段落包含一種情緒表現或聲音表現。於一實施例中，語音前處理模組22係包括進行靜音段偵測之靜音段偵測單元221、進行語句與非語句幀分類之語句與非語句幀分類單元222、進行韻律轉折偵測之韻律轉折偵測單元223，以產生韻律分段音訊時域訊號，其中，利用訓練完成之支持向量機(support vector machine，SVM)模型進行該語句與非語句幀分類，其中，該SVM模型係以分段中的幀的梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC)特徵予以訓練，將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵。於一具體實施例中，使用praat工具進行靜音段偵測、使用SVM模型進行語句及非語句幀分類、以及使用自動韻律分界演算法進行韻律轉折偵測。例如，SVM模型可使用標記好聲音表現的語音語料進行幀級別的分類訓練，SVM模型的輸入可為該幀使用如openSMILE等軟體取得的MFCC特徵，SVM模型的輸出則為該幀標記好的語句或非語句標記。最後，使用短時傅立葉轉換將各段落音訊時域訊號轉換為分段後的語音頻譜特徵。

經由語音前處理模組22所產生之分段後的語音頻譜特徵，投入或置入VQVAE 23進行模型訓練，以取得置換後的特徵向量以及編碼簿(codebook)。VQVAE 23的模型訓練如後，於一實施例中，使用VQVAE的基礎架構，以四層卷積層作為編碼器，將分段後的音訊頻譜圖壓縮至固定維度之向量空間，壓縮後的特徵向量於編碼簿中找尋其最接近的特徵向量進行置換，若其與最接近的特徵向量距離超過一個域值，則此特徵向量作為編碼簿中新的向量供後續其他編碼後的向量比對並置換，最後置換好的特徵向量經由四層卷積層的解碼器進行頻譜圖還原，以L1損失函數計算還原後的頻譜圖與輸入的頻譜圖之間差距作為損失值來調整編碼器、編碼簿以及解碼器。此VQVAE 23壓縮的頻譜圖為已經由韻律及情緒分段後的音訊特徵，其編碼簿中的每個向量皆含有不同的情緒或聲音表現，可經由編碼簿的聚類將語料中相似的情緒及聲音表現以同一個向量來置換代表，取得固定量級的特徵向量，特徵向量的種類固定，後續模型訓練不需依賴大量的訓練資料。

經由訓練好的VQVAE 23取得的特徵向量，將用來訓練AALBERT 27進行語音特徵抽取，但由於AALBERT 27需以大量語音資料進行預訓練才能有更好的語音嵌入能力，如圖3B所示，將大量的語音資料庫25的語音資料，同樣先進行語音前處理模組26的語音前處理以取得語音頻譜特徵，再經由VQVAE 23的特徵抽取取得特徵向量，再投入或置入AALBERT 27以進行預訓練。此時，AALBERT 27則被訓練為能識別音訊經過VQVAE 23後得到的特徵在時序上的前後關係，再使用語音情緒資料庫21的資料進行AALBERT的微調，如圖3所示，微調方式為取得AALBERT 27最終輸出的[CLS]起始token的representation，再使用線性分類層對此representation進行分類，以該音訊的情緒標記與分類結果計算交叉嫡損失來微調AALBERT中的transformer層參數以及分類層參數。訓練收斂後，使用AALBERT 27得到的起始token的representation作為語音特徵抽取模型最終的輸出。

是以，經過圖3、3A和3B所示內容及上述實施例說明，可知本案之語音特徵抽取模組係以語音情緒資料庫21、語音資料庫25予以訓練，訓練完成之語音特徵抽取模組33(如圖4所示)對於輸入的語音語句，能自動取得韻律分段後的語音頻譜特徵、VQVAE 23置換後的特徵向量、VQVAE編碼簿，含K的編碼特徵向量、以AALBERT 27抽取得到的考慮韻律及聲音表現之語音特徵向量，其中之K可視系統之複雜度或需求強度予以調整，K值越大代表系統自動聚類的情緒種類以及聲音表現種類越多，能細分更多音訊在韻律或情緒上的表現，實驗後得出K值最佳配置為512。

請參閱圖4，情緒分類模型52之訓練可利用訓練完成之文字特徵抽取模組32和語音特徵抽取模組33來進行。

文字語音情緒資料庫31中的語音和文字，分別使用訓練完成之文字特徵抽取模組32和語音特徵抽取模組33，取得文字特徵向量和語音特徵向量，再將兩模態的特徵向量串接，使用線性層分類器34對此兩模態混合特徵進行情緒分類，計算預測的情緒類別與該筆語音文字資料標註的情緒的交叉嫡損失來調整線性層分類器的參數。最終訓練收斂後，使用此分類器作為分類器輸出預測的文字語音兩模態情緒分類。藉此，獲得如圖1所示之訓練完成之情緒分類模型52。

請參閱圖5，本案之情緒預測方法主要包括步驟S501~S505。

於步驟S501中，接收語音語句。接著進至步驟S502。

於步驟S502中，處理語音語句以形成語音及其對應的文字。接著進至步驟S503。

於步驟S503中，將語音及對應的文字輸入至訓練完成之情緒分類模型。在一實施例中，所述訓練完成之情緒分類模型係經訓練完成之語音特徵抽取模型以及訓練完成之文字特徵抽取模型分別抽取出語音特徵向量和文字特徵向量，且該語音特徵向量和該文字特徵向量係經串接以進行情緒分類，而訓練完成之該情緒分類模型係依據輸入的語音和文字，經處理以輸出預測的情緒分類。接著進至步驟S504。

於步驟S504中，情緒分類模型產生根據語音語句的預測情緒分類。接著進至步驟S505。

於步驟S505中，輸出語音語句的預測情緒分類。

請參閱圖6，本案之情緒預測方法之文字抽取模型之訓練主要包括步驟S101~S105。

於步驟S101中，對文字情緒資料進行斷詞前處理以產生斷詞後的原始輸入語句。接著進至步驟S102。

於步驟S102中，對斷詞後的原始輸入語句進行關鍵術語抽取以產生關鍵術語集合，根據斷詞後的原始輸入語句該關鍵術語集合，產生斷詞後的關鍵術語語句。接著進至步驟S103。

於步驟S103中，根據斷詞後的原始輸入語句與關鍵事件集合，產生斷詞後的關鍵事件語句。接著進至步驟S104。

於步驟S104中，將斷詞後的原始輸入語句、斷詞後的關鍵術語語句、斷詞後的關鍵事件語句投入或置入三個基於轉換器的模型，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量。接著進至步驟S105。

於步驟S105中，串接原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量，之後接上線性分類層以進行情緒分類。

請參閱圖7，本案之情緒預測方法之語音抽取模型之訓練主要包括步驟S201~S203。

於步驟S201中，對語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵。在一實施例中，所述分段前處理係包括，例如，利用praat工具進行靜音段偵測、利用訓練完成之支持向量機(SVM)模型進行語句與非語句幀分類、利用自動韻律分界演算法進行韻律轉折偵測，以產生韻律分段音訊時域訊號，其中，該支持向量機(SVM)模型係以分段中的幀的梅爾頻率倒譜系數(MFCC)特徵予以訓練，以及將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵。接著進至步驟S202。

於步驟S202中，將分段後的語音頻譜特徵，投入或置入訓練完成之向量置換變分自編碼器(VQVAE)，以取得經VQVAE置換之特徵向量。在一實施例中，所述VQVAE之訓練係以語音情緒資料經分段前處理後所產生之分段後的語音頻譜特徵作為訓練資料，投入或置入該向量置換變分自編碼器(VQVAE)以進行訓練。接著進至步驟S203。

於步驟S203中，將經VQVAE置換之特徵向量，投入或置入預訓練完成之語音基於轉換器的模型(例如AALBERT)。在一實施例中，所述語音基於轉換器的模型之預訓練係將語音資料經前處理所產生之語音頻譜特徵，投入或置入訓練完成之VQVAE，以取得經VQVAE置換之特徵向量，再投入或置入該語音基於轉換器的模型以進行預訓練。

於一實施例中，語音特徵抽取模型之訓練過程中，將原始語音以韻律不同、聲音表現的不同來切段，旨在確定切完段後的各段落盡量只表現一種情緒或聲音表現。此處描述的情緒為較顯而易見的情緒，例如：高亢、低落、正向及負向等，而聲音表現為表現聲音的各種發聲方式，例如：語句、笑聲、啜泣聲、吶喊聲以及哭聲。切段詳細步驟分為三個步驟。首先使用praat工具進行語音訊號的靜音段偵測，由聲音的強落度進行偵測，需自定義靜音段最小時長，使用常用的預設值0.3秒。第二步為語句與非語句幀辨識，此處描述的語句與非語句差別為，發聲的內容是否為有文字文法之語句，若否則為非語句偵，如笑聲及哭聲等。使用openSMILE工具對語料中的每個音訊抽取MFCC特徵，並標記每個音訊的語句/非語句段，也同樣標記了分段中的每幀，以此資料訓練SVM模型，使此SVM模型能對音訊每幀的特徵做語句或非語句的分類，多個相同類別的幀合併成為語句段與非語句段。最後，使用自動韻律偵測演算法在語句段中檢查聲音強度的轉換點取得韻律轉折分界點。完成三個步驟後可得到音訊的段落分界點，並將各段落分開進行短時傅立葉轉換得到頻譜特徵。

於一實施例中，語音特徵抽取模型之訓練過程中，接著，將前述切完段的音訊進行短時傅立業轉換得到各分段頻譜特徵，投入或置入向量置換變分自編碼器(Vector Quantization Variational AutoEncoder,VQVAE)203進行特徵置換。VQVAE能對輸入的頻譜特徵進行降維編碼，並做向量置換，保留常用的向量，取代掉其他不常見的向量。其取代方式是在訓練過程中也訓練出一本編碼簿(或稱嵌入空間)，自編碼器編碼後的向量會在此編碼簿中找尋與自身最接近的向量進行取代。隨著訓練進行，編碼簿亦會跟著做微調使簿中向量能盡量匹配語料中出現的所有向量特徵。而因為本文在訓練VQVAE時是使用了經過韻律分段的音訊段，每個段僅表現一種情緒或聲音表現，編碼器將韻律分段進行編碼，編碼後的向量彼此會因為韻律或情緒不同而有不同的表現，因此此編碼器的編碼差異主要以情緒、聲音表現及韻律為主，最後的編碼簿也同樣受韻律及情緒不同影響，能將後續的音訊依照情緒或韻律進行向量置換，以此強化模型對韻律及情緒表現的理解。

於又一實施例中，語音特徵抽取模型之訓練過程中，接著，聲音ALBERT模型(Audio ALBERT,AALBERT)將轉換器(transformer)為基礎的模型運用在音訊任務上，沿用了預訓練中的遮蔽訓練方法以及自注意力機制，使模型能達到音訊前後資訊的推理。模型預訓練前先隨機遮蔽數個幀，在經過多個轉換器層與預測層後，訓練目標要將被遮蔽的那些幀準確預測回原本的幀。是而，將原版AALBERT的輸入由頻譜特徵改為前述VQVAE得到的韻律特徵，因此也需要重新預訓練AALBERT。將大量的語音資料先進行VQVAE模型取得音訊的韻律特徵，再將這些特徵對AALBERT進行預訓練，再使用語音情緒資料投入或置入預訓練好的AALBERT模型得到音訊嵌入特徵，AALBERT模型接上分類層將音訊嵌入特徵進行分類後得到的損失微調AALBERT模型，使其能將音訊嵌入至情緒空間中。

須說明的是，本案之方法可執行在例如伺服器、電腦或其他具有資料處理、運算、儲存、網路通聯等功能的一個單獨或多個集合之設備中，其中，該伺服器、電腦或設備包括中央處理器、硬碟、記憶體等。

此外，在一實施例中，上述之各個模組、單元均可為軟體、硬體或韌體；若為硬體，則可為具有資料處理與運算能力之處理單元、處理器、電腦或伺服器；若為軟體或韌體，則可包括處理單元、處理器、電腦或伺服器可執行之指令，且可安裝於同一硬體裝置或分布於不同的複數硬體裝置。

另外，本案之電腦程式產品係經由電腦載入程式後執行該方法。另外，電腦程式(產品)除可儲存於記錄媒體外，亦可在網路上直接傳輸提供，電腦程式(產品)係為載有電腦可讀取之程式且不限外在形式之物。

再者，本案還提供一種電腦可讀取記錄媒體，係應用於具有處理器及/或記憶體之計算設備或電腦中，且電腦可讀取記錄媒體儲存有指令，並可利用計算設備或電腦透過處理器及/或記憶體執行電腦可讀取記錄媒體，以於執行電腦可讀取記錄媒體時執行上述方法及/或內容。所述電腦可讀取紀錄媒體(例如硬碟、軟碟、光碟、USB隨身碟)係儲存有該電腦程式(產品)。

如上述，在文字部份，本案使用目前在文字分類任務上表現優異的ALBERT模型進行嵌入，不同一般的使用預訓練模型並加以新資料及分類目標進行微調訓練，本案對於ALBERT使用不同輸入型態語句，遮蔽非關鍵部分，保留重要字詞丟入多個ALBERT進行嵌入並串接得到最後的特徵向量。不同輸入型態語句包含了原始輸入語句、關鍵術語輸入語句以及關鍵事件輸入語句。使用遮蔽非關鍵部份的原因在於為保留每個關鍵字詞在語句中的位置資訊，並以多個ALBERT進行嵌入，可使每個模型能掌握不同型態的嵌入特性。區分關鍵術語及關鍵事件兩種輸入型態目的為能針對不同目標進行關鍵詞的定義。關鍵術語取得方式為自動化抽取，針對訓練資料中，使用重要程度公式進行術語的計分，並取較高分的術語當作關鍵術語。而關鍵事件則處理訓練資料中遺漏的重要字詞，其定義方式為人工定義，例如客服資料中客服人員常常用以判斷客戶情緒的重要依據，可解釋度高並且擴充方法簡易。另外，在語音部分，以轉換器為基礎的輸入特徵通常為頻譜形式，但由音訊得到的頻譜特徵通常不會完全相同，即使所表現的情感可能相同，得到的頻譜特徵也會有差距，這樣的差距可能使模型混淆，或視為雜訊干擾，因此需要於輸入模型前將重要特徵從中抽取出，以代表此音訊的情感表現。本案提出以向量置換的自動編碼器針對分段好的訊號進行向量置換，此自動編碼器亦可經由訓練取得較適當的置換向量集合，將原始訊號的頻譜特徵置換成特定大小的向量空間中。而在分段步驟中，也設計分段的目標為每段的音訊僅表達一種情緒或聲音表現，此動作可增進自動編碼器在訓練置換的向量集合時，將向量集合訓練成一套情緒導向的向量，每個集合中的向量僅表現特定情緒或聲音表現，使原本的頻譜特徵轉換為固定量級的向量特徵，且已包含了情緒表現的資訊於這些轉換後的向量中。

綜上所述，本案之用於語音語句之情緒預測裝置、方法以及執行該方法之電腦程式產品，能有效提升情緒辨識的準確率，並且在語音中能減少相同情緒表現卻呈現不同頻譜特徵的現象，以此方式處理後的輸入向量來進行深度學習(deep learning,DL)的模型訓練，使小型資料也能在大模型上做微調。因此，本案具有如下所述之深度模型的可解釋性、簡化深度模型輸入的變異度以及模型替換的靈活度等優點。

一、深度模型的可解釋性：深度模型的訓練往往依賴模型層數或廣度來進行資料與目標的擬合與投射，並以巨量資料來完善各個參數及權重配置，在設計複雜的模型時往往遺失了對於模型的解釋性，造成設計上產生許多不必要的參數。近期的研究致力於加大加深模型尺寸，使得深度學習模型訓練上需耗費大量計算資源，拉高了深度學習的門檻。本案的一大特點為以分類任務的可解釋資訊及特徵做為系統與模型設計的目標，在文字及語音兩模態上各自設計了適合情緒分類的特徵抽取，而並非加深模型層數依賴大量資料來進行深度學習模型的訓練。

二、深度模型輸入的特徵抽取：特徵抽取是分類任務中重要的一項工程，於分類前得到適合分類且具明顯差異的特徵值可有效提升模型準確率。過去研究中常以深度模型進行特徵抽取或進行嵌入來取得訊號的代表向量，此方法如前述同樣仰賴大量資料訓練才能使模型取得較佳的嵌入向量。本案於深度模型嵌入前先進行特徵抽取，保留訊號中與情緒有相關且較為關鍵的資訊，在文字模態中先進行關鍵輸入的抽取，而在語音中則先進行韻律特徵的替換，甚至在深度模型的預訓練中也加入這些前處理步驟再進行前處理，可減少深度模型對於嵌入所需的資料量，以少量資料便可完成下游任務訓練。

三、模型替換的靈活度：本案以轉換器(transformer)為基礎的模型進行研發，此模型主要進行文字詞嵌入(word embedding)及語音音訊嵌入(audio embedding)的工作，可替換成其他詞嵌入及音訊嵌入模型，意即當有更新更強的模型出現時，本案之情緒辨識方法及步驟可經由簡單的移植以套用在其他模型架構下。

上述實施例僅例示性說明本案之功效，而非用於限制本案，任何熟習此項技藝之人士均可在不違背本案之精神及範疇下對上述該些實施態樣進行修飾與改變。因此本案之權利保護範圍，應如後述之申請專利範圍所列。

5:情緒預測裝置

51:處理模組

52:情緒分類模型

Claims

一種情緒預測裝置，係包括：處理模組，係用於接收一語音語句，處理該語音語句以形成語音及其對應的文字；以及情緒分類模型，係用於接收該語音及其對應的該文字，以進行：根據該語音，由一語音特徵抽取模型取得前處理後之頻譜特徵圖、該頻譜特徵圖經置換後之頻譜向量，進而取得該置換後之頻譜向量經一基於語音轉換器的模型處理而產生之語音特徵向量；根據該文字，由一文字特徵抽取模型取得前處理後之原始輸入文字、關鍵術語文字和關鍵事件文字，進而取得該原始輸入文字經第一基於轉換器的模型取得之第一特徵向量、該關鍵術語文字經第二基於轉換器的模型取得之第二特徵向量、該關鍵事件文字經第三基於轉換器的模型取得的第三特徵向量，再串接該第一特徵向量、該第二特徵向量、該第三特徵向量以產生文字特徵向量；串接該語音特徵向量和該文字特徵向量；以及對於串接之該語音特徵向量和該文字特徵向量，利用一分類器進行情緒分類，俾輸出該語音語句的預測情緒分類。
如請求項1所述之情緒預測裝置，其中，該文字特徵抽取模型係以文字情緒資料、關鍵術語集合及關鍵事件集合予以訓練；以及該語音特徵抽取模型係以語音情緒資料和語音資料予以訓練。
如請求項2所述之情緒預測裝置，其中，該文字特徵抽取模型之訓練係包括：對該文字情緒資料進行斷詞前處理，以產生斷詞後的原始輸入語句；對該斷詞後的原始輸入語句進行關鍵術語抽取，以產生該關鍵術語集合；根據該斷詞後的原始輸入語句與該關鍵術語集合，產生斷詞後的關鍵術語語句；根據該斷詞後的原始輸入語句與該關鍵事件集合，產生斷詞後的關鍵事件語句；將該斷詞後的原始輸入語句、該斷詞後的關鍵術語語句、該斷詞後的關鍵事件語句置入三個基於轉換器的模型，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量；以及串接該原始輸入語句經基於轉換器的模型取得之特徵向量、該關鍵術語語句經基於轉換器的模型取得之特徵向量、該關鍵事件語句經基於轉換器的模型取得之特徵向量。
如請求項2所述之情緒預測裝置，其中，該語音特徵抽取模型之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；將該分段後的語音頻譜特徵，置入訓練完成之向量置換變分自編碼器，以取得經該向量置換變分自編碼器置換之特徵向量；將該經該向量置換變分自編碼器置換之特徵向量，置入預訓練完成之語音基於轉換器的模型以進行微調。
如請求項4所述之情緒預測裝置，其中，對該語音情緒資料所進行之分段前處理係包括：對該語音情緒資料進行靜音段偵測、語句與非語句幀分類、韻律轉折偵測，以產生韻律分段音訊時域訊號，其中，利用訓練完成之支持向量機模型進行該語句與非語句幀分類，其中，該支持向量機模型係以分段中的幀的梅爾頻率倒譜系數特徵予以訓練；以及將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵。
如請求項4所述之情緒預測裝置，其中，該向量置換變分自編碼器之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；及將該分段後的語音頻譜特徵，置入該向量置換變分自編碼器以進行訓練；以及其中，該語音基於轉換器的模型之預訓練係包括：對該語音資料進行前處理，以產生語音頻譜特徵；將該語音頻譜特徵，置入訓練完成之該向量置換變分自編碼器，以取得經該向量置換變分自編碼器置換之特徵向量；及將該經該向量置換變分自編碼器置換之特徵向量，置入該語音基於轉換器的模型以進行預訓練。
一種情緒預測方法，係包括：接收一語音語句，處理該語音語句以形成語音及其對應的文字；根據該語音，由一語音特徵抽取模型取得前處理後之頻譜特徵圖、該頻譜特徵圖經置換後之頻譜向量，進而取得該置換後之頻譜向量經一基於語音轉換器的模型處理而產生之語音特徵向量；根據該文字，由一文字特徵抽取模型取得前處理後之原始輸入文字、關鍵術語文字和關鍵事件文字，進而取得該原始輸入文字經第一基於轉換器的模型處理而產生之第一特徵向量、該關鍵術語文字經第二基於轉換器的模型處理而產生之第二特徵向量、該關鍵事件文字經第三基於轉換器的模型處理而產生之第三特徵向量，再串接該第一特徵向量、該第二特徵向量、該第三特徵向量以產生文字特徵向量；串接該語音特徵向量和該文字特徵向量；以及對於串接之該語音特徵向量和該文字特徵向量，利用一分類器進行情緒分類，俾輸出該語音語句的預測情緒分類。
如請求項7所述之情緒預測方法，其中，該文字特徵抽取模型之訓練係包括：對該文字情緒資料進行斷詞前處理，以產生斷詞後的原始輸入語句；對該斷詞後的原始輸入語句進行關鍵術語抽取，以產生關鍵術語集合；根據該斷詞後的原始輸入語句與該關鍵術語集合，產生斷詞後的關鍵術語語句；根據該斷詞後的原始輸入語句與關鍵事件集合，產生斷詞後的關鍵事件語句；將該斷詞後的原始輸入語句、該斷詞後的關鍵術語語句、該斷詞後的關鍵事件語句置入三個基於轉換器的模型，以取得原始輸入語句經基於轉換器的模型取得之特徵向量、關鍵術語語句經基於轉換器的模型取得之特徵向量、關鍵事件語句經基於轉換器的模型取得之特徵向量；以及串接該原始輸入語句經基於轉換器的模型取得之特徵向量、該關鍵術語語句經基於轉換器的模型取得之特徵向量、該關鍵事件語句經基於轉換器的模型取得之特徵向量。
如請求項7所述之情緒預測方法，其中，該語音特徵抽取模型之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；將該分段後的語音頻譜特徵，置入訓練完成之向量置換變分自編碼器，以取得經該向量置換變分自編碼器置換之特徵向量；以及將該經該向量置換變分自編碼器置換之特徵向量，置入預訓練完成之一語音基於轉換器的模型以進行微調。
如請求項9所述之情緒預測方法，其中，對該語音情緒資料所進行之斷詞前處理係包括：對該語音情緒資料進行靜音段偵測、語句與非語句幀分類、韻律轉折偵測，以產生韻律分段音訊時域訊號，其中，利用訓練完成之支持向量機模型進行該語句與非語句幀分類，其中，該支持向量機模型係以分段中的幀的梅爾頻率倒譜系數特徵予以訓練；以及將該韻律分段音訊時域訊號轉換為該分段後的語音頻譜特徵。
如請求項9所述之情緒預測方法，對該向量置換變分自編碼器之訓練係包括：對該語音情緒資料進行分段前處理，以產生分段後的語音頻譜特徵；以及將該分段後的語音頻譜特徵，置入該向量置換變分自編碼器以進行訓練。
如請求項9所述之情緒預測方法，其中，該語音基於轉換器的模型之預訓練係包括：對語音資料進行前處理，以產生語音頻譜特徵；將該語音頻譜特徵，置入訓練完成之該向量置換變分自編碼器，以取得經該向量置換變分自編碼器置換之特徵向量；以及將該經該向量置換變分自編碼器置換之特徵向量，置入該語音基於轉換器的模型以進行預訓練。
一種電腦程式產品，經電腦載入後執行請求項7至12任一項所述之情緒預測方法。