TWI746138B

TWI746138B - 構音異常語音澄析裝置及其方法

Info

Publication number: TWI746138B
Application number: TW109129711A
Authority: TW
Inventors: 林泰吉; 白哲嘉; 王璽喆; 葉經緯
Original assignee: 國立中正大學
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2021-11-11
Also published as: US20220068260A1; US11514889B2; TW202211212A

Abstract

本發明係揭露一種構音異常語音澄析裝置及其方法，首先，接收一異常語音訊號，並將其音框化以產生異常音框。接著，接收異常音框，並從異常音框中擷取異常特徵。最後，接收異常特徵，並在未接收異常特徵對應之相位下，根據一可理解語音轉換模型轉換異常特徵為一可理解語音訊號，其中可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。本發明避免語音訊號之相位失真，並提供更自然與低雜訊的澄析語音。

Description

構音異常語音澄析裝置及其方法

本發明係關於一種語音澄析技術，且特別關於一種構音異常語音澄析裝置及其方法。

構音異常是說話時因為肌肉無法正常控制，導致語速降低、音調異常，造成口齒不清，使他人無法理解等問題，進而影響生活品質，而較常見的疾病包括中風(stroke)、腦性麻痺(cerebral palsy)、帕金森氏症(Parkinson’s disease)等。雖然現今已經發展出改善肌肉控制相關藥物及復健治療，但效果仍因人而異，通常沒有實質上的改善。有鑑於此，後續有研究者提出藉由語音轉換相關技術，將患者的語音經由語音轉換技術藉此強化語音清晰度、理解度，轉換成正常人可理解程度的語音。

傳統語音轉換的作法是擷取來源與目標語者的語音特徵，例如基頻(Fundamental frequency)、梅爾頻譜(Mel spectrum)與非週期訊號(aperiodicity)，並求出特徵轉換函式將來源特徵轉換至目標特徵，最後轉換完的特徵以聲碼器(vocoder)來合成語音。由於構音異常的語音在計算語音特徵及求出轉換函式這方面有技術上的困難，因此用於改善構音異常語音轉換系統的特徵改由傅利葉轉換擷取出對數功率頻譜(log power spectrum，LPS)和相位(phase)來實作。將LPS輸入至預先訓練好的轉換模型轉換出理解度強化的LPS，另外剩下的phase則不經過任何處理，最後將二部分經由反傅立葉轉換合成出理解度改善的語音。在傳統作法上，實作出的結果有明顯提升語音理解度，但由轉換模型轉換出理解度強化的LPS會與原先未經處理的phase不匹配，導致合成出的語音在主觀聽覺上會有很多的噪音。

以下配合第1圖與第2圖描述傳統技術，以深度神經網路為基礎之語音轉換(DNN-based voice conversion)是種能有效改善構音異常的方法。請參閱第1圖與第2圖。第1圖為先前技術之構音異常語音澄析裝置之方塊圖，第2圖為先前技術之語音訓練系統之方塊圖。此構音異常語音澄析裝置1包含一正規化器(normalizer)10、一音框化(framing)電路11、一短時傅立葉轉換器(short time Fourier transformer)12、一正規化器13、一對數功率頻譜映射深度神經網路(log power spectrum mapping deep neural network, LPS mapping DNN)14、一反正規化器(denormalizer)15、一快速傅立葉反轉換器(Inverse fast Fourier transformer)16與一內插(interpolation)電路17。正規化器10正規化構音異常語音訊號D，音框化電路11將構音異常語音訊號D分割成互相重疊(overlapping)過的多個音框(frames)，其中每一音框具有256個取樣點與16毫秒之時間長度。短時傅立葉轉換器12從每一音框擷取頻域資訊作為構音異常特徵，其包含強度M與相位Φ，強度M即對數功率頻譜。預先訓練好的對數功率頻譜映射深度神經網路14將強度M轉換成正常人的參考特徵M’，參考特徵M’會具有較佳的語音理解度。快速傅立葉反轉換器16合成特徵M’與相位Φ，以產生時域上的語音訊號。因為音框互相覆蓋，所以內插電路17對語音訊號進行內插，以提升語音訊號之理解度，並產生一可理解語音訊號V。對數功率頻譜映射深度神經網路14是由一語音訓練系統2進行訓練，此語音訓練系統2包含一前置處理電路20、一短時傅立葉轉換器21、一正規化器22與一深度神經網路訓練器23。前置處理電路20利用動態時序規整(dynamic time warping, DTW)將構音異常語料d與正常人的參考語料r作對齊並音框化，以產生多個構音異常音框與多個參考音框，其中每個音框具有256個取樣點與16毫秒之時間長度。短時傅立葉轉換器21從構音異常音框與參考音框分別擷取構音異常特徵Md與參考特徵Mr，其中每個特徵具有129個取樣點。正規化器22正規化構音異常特徵Md與參考特徵Mr，使構音異常特徵Md與參考特徵Mr在訓練時更容易收斂。深度神經網路訓練器23根據構音異常特徵Md與參考特徵Mr訓練對數功率頻譜映射深度神經網路14。對數功率頻譜映射深度神經網路14學習如何將構音異常特徵Md轉換成參考特徵Mr。然而，上述構音異常語音澄析裝置1會造成相位失真(phase distortion)。目前相位Φ還沒有找到一個較佳的方法來搭配對數功率頻譜映射深度神經網路14轉換出改善理解度的參考特徵M’。在現有技術中，採用短時傅立葉轉換器12所擷取到的相位或者是將相位全部設為零來進行轉換，但效果都不好。快速傅立葉反轉換器16與內插電路17根據不匹配的相位與參考特徵M’合成出的可理解語音訊號V是帶有雜訊的，在聽覺方面有很明顯的噪音。在傳統技術中，另有一構音異常語音澄析裝置，其包含一音框化電路、一短時傅立葉轉換器與一預先訓練好的波遞迴神經網路(WaveRNN)。音框化電路對構音異常語音進行處理，以產生多個音框。短時傅立葉轉換器從每一音框擷取具有513個取樣點之對數功率頻譜作為構音異常特徵。波遞迴神經網路轉換此構音異常特徵為一可理解語音訊號。波遞迴神經網路由一語音訓練系統3訓練而成，其如第3圖所示。語音訓練系統3包含一前置處理電路30、一短時傅立葉轉換器31與一語音訓練器32。前置處理電路30接收構音異常語料d與正常人的參考語料r，構音異常語料d與正常人的參考語料r皆為319句，且前置處理電路30利用動態時間扭曲(dynamic time warping, DTW)對齊構音異常語料d與正常人的參考語料r，並根據構音異常語料d與正常人的參考語料r分別產生構音異常音框Xd與參考音框Xr。短時傅立葉轉換器31從構音異常音框Xd擷取對數功率頻譜作為構音異常特徵Md，語音訓練器32根據構音異常特徵Md與參考音框Xr訓練波遞迴神經網路。雖然波遞迴神經網路轉換構音異常特徵為可理解語音訊號能避免相位失真的問題，但對齊構音異常特徵Md與參考音框Xr之要求是非常嚴苛的。一般正常人的成對語音訊號使用DTW對齊是會有不錯的效果，但對齊構音異常語料d與參考語料r則不盡理想，因此無法直接根據構音異常特徵Md與參考音框Xr訓練波遞迴神經網路。

因此，本發明係在針對上述的困擾，提出一種構音異常語音澄析裝置及其方法，以解決習知所產生的問題。

本發明提供一種構音異常語音澄析裝置及其方法，其係避免相位失真，並提供更自然與低雜訊的澄析語音。

在本發明之一實施例中，提供一種構音異常語音澄析裝置，其係包含一第一音框化電路、一第一特徵擷取器與一可理解語音轉換器。第一音框化電路用以接收一構音異常語音訊號，並將其音框化以產生構音異常音框。第一特徵擷取器耦接第一音框化電路，第一特徵擷取器用以接收構音異常音框，並從構音異常音框中擷取構音異常特徵。可理解語音轉換器耦接第一特徵擷取器，其中可理解語音轉換器用以接收構音異常特徵，並在未接收構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換構音異常特徵為一可理解語音訊號。此外，可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。

在本發明之一實施例中，可理解語音轉換模型由一可理解語音訓練系統訓練而成，可理解語音訓練系統包含一第二音框化電路、一第二特徵擷取器、一特徵映射器、一語音合成器與一可理解語音訓練器。第二音框化電路用以接收對應構音異常語音訊號之一構音異常語料，並將其音框化以產生構音異常語料音框。第二特徵擷取器耦接第二音框化電路，其中第二特徵擷取器用以接收構音異常語料音框，並從構音異常語料音框中擷取對應構音異常特徵之構音異常語料特徵。特徵映射器耦接第二特徵擷取器，其中特徵映射器用以接收構音異常語料特徵，並根據一特徵映射模型轉換構音異常語料特徵為對應可理解語音訊號之參考語料特徵。語音合成器耦接特徵映射器，其中語音合成器用以接收參考語料特徵，並根據一語音合成模型轉換參考語料特徵為參考語料音框。可理解語音訓練器耦接第二特徵擷取器與語音合成器，其中可理解語音訓練器用以接收參考語料音框與構音異常語料特徵，並據此訓練可理解語音轉換模型。

在本發明之一實施例中，特徵映射模型由一特徵映射訓練系統訓練而成，特徵映射訓練系統包含一語料前置處理(pre-processing)電路、一映射特徵擷取器與一特徵映射訓練器。語料前置處理電路用以接收構音異常語料與一參考語料，並分別音框化且對齊構音異常語料與參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中參考語料對應可理解語音訊號。映射特徵擷取器耦接語料前置處理電路，其中映射特徵擷取器用以接收構音異常語料音框與參考語料音框，並從構音異常語料音框與參考語料音框分別擷取構音異常語料特徵與參考語料特徵。特徵映射訓練器耦接映射特徵擷取器，其中特徵映射訓練器用以接收構音異常語料特徵與參考語料特徵，並據此訓練特徵映射模型。

在本發明之一實施例中，語音合成模型由一語音合成訓練系統訓練而成，語音合成訓練系統包含一第三音框化電路、一第三特徵擷取器與一語音合成訓練器。第三音框化電路用以接收一參考語料，並將其音框化以產生該參考語料音框，其中參考語料對應可理解語音訊號。第三特徵擷取器耦接第三音框化電路，其中第三特徵擷取器用以接收參考語料音框，並從參考語料音框中擷取參考語料特徵。語音合成訓練器耦接第三音框化電路與第三特徵擷取器，其中語音合成訓練器用以接收參考語料音框與參考語料特徵，並據此訓練語音合成模型。

在本發明之一實施例中，可理解語音轉換模型包含一特徵映射模型與一語音合成模型，且可理解語音轉換器包含一特徵映射器與一語音合成器。特徵映射器耦接第一特徵擷取器，其中特徵映射器用以接收構音異常特徵，並根據特徵映射模型轉換構音異常特徵為參考特徵。語音合成器耦接特徵映射器，其中語音合成器用以接收參考特徵，並根據語音合成模型轉換參考特徵為可理解語音訊號。

在本發明之一實施例中，特徵映射模型由一特徵映射訓練系統訓練而成，特徵映射訓練系統包含一語料前置處理(pre-processing)電路、一映射特徵擷取器與一特徵映射訓練器。語料前置處理電路用以接收一構音異常語料與一參考語料，並分別音框化且對齊構音異常語料與參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中構音異常語料對應構音異常語音訊號，參考語料對應可理解語音訊號。映射特徵擷取器耦接語料前置處理電路，其中映射特徵擷取器用以接收構音異常語料音框與參考語料音框，並從構音異常語料音框與參考語料音框分別擷取構音異常語料特徵與參考語料特徵，構音異常語料特徵與參考語料特徵分別對應構音異常特徵與參考特徵。特徵映射訓練器耦接映射特徵擷取器，其中特徵映射訓練器用以接收構音異常語料特徵與參考語料特徵，並據此訓練特徵映射模型。

在本發明之一實施例中，語音合成模型由一語音合成訓練系統訓練而成，語音合成訓練系統包含一第二音框化電路、一第二特徵擷取器與一語音合成訓練器。第二音框化電路用以接收一參考語料，並將其音框化以產生參考語料音框，其中參考語料對應可理解語音訊號。第二特徵擷取器耦接第二音框化電路，其中第二特徵擷取器用以接收參考語料音框，並從參考語料音框中擷取對應參考特徵之參考語料特徵。語音合成訓練器耦接第二音框化電路與第二特徵擷取器，其中語音合成訓練器用以接收參考語料音框與參考語料特徵，並據此訓練語音合成模型。

在本發明之一實施例中，構音異常特徵包含對數功率頻譜(log power spectrum，LPS)、梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity)之其中至少一者，可理解語音轉換模型包含波網(WaveNet)或波遞迴神經網路(WaveRNN)。

在本發明之一實施例中，構音異常特徵包含對數功率頻譜(log power spectrum)，可理解語音轉換器採用反轉傅立葉轉換(Inverse Fourier Transform) 轉換構音異常特徵為可理解語音訊號。

在本發明之一實施例中，構音異常特徵包含梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity) ，可理解語音轉換器為聲碼器(vocoder)。

在本發明之一實施例中，提供一種構音異常語音澄析方法，其係包含下列步驟：接收一構音異常語音訊號，並將其音框化以產生構音異常音框；接收構音異常音框，並從構音異常音框中擷取構音異常特徵；以及接收構音異常特徵，並在未接收構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換構音異常特徵為一可理解語音訊號；其中可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。

在本發明之一實施例中，可理解語音轉換模型之訓練方法包含下列步驟：接收對應構音異常語音訊號之一構音異常語料，並將其音框化以產生構音異常語料音框；接收構音異常語料音框，並從構音異常語料音框中擷取對應構音異常特徵之構音異常語料特徵；接收構音異常語料特徵，並根據一特徵映射模型轉換構音異常語料特徵為對應可理解語音訊號之參考語料特徵；接收參考語料特徵，並根據一語音合成模型轉換參考語料特徵為參考語料音框；以及接收參考語料音框與構音異常語料特徵，並據此訓練可理解語音轉換模型。

在本發明之一實施例中，特徵映射模型之訓練方法包含下列步驟：接收構音異常語料與一參考語料，並分別音框化且對齊構音異常語料與參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中參考語料對應可理解語音訊號；接收構音異常語料音框與參考語料音框，並從構音異常語料音框與參考語料音框分別擷取構音異常語料特徵與參考語料特徵；以及接收構音異常語料特徵與參考語料特徵，並據此訓練特徵映射模型。

在本發明之一實施例中，語音合成模型之訓練方法包含下列步驟：接收一參考語料，並將其音框化以產生該參考語料音框，其中參考語料對應該可理解語音訊號；接收參考語料音框，並從參考語料音框中擷取參考語料特徵；以及接收參考語料音框與參考語料特徵，並據此訓練語音合成模型。

在本發明之一實施例中，可理解語音轉換模型包含一特徵映射模型與一語音合成模型，且在接收構音異常特徵，並在未接收相位下，根據可理解語音轉換模型轉換構音異常特徵為可理解語音訊號之步驟包含下列步驟：接收構音異常特徵，並根據特徵映射模型轉換構音異常特徵為參考特徵；以及接收參考特徵，並根據語音合成模型轉換參考特徵為可理解語音訊號。

在本發明之一實施例中，特徵映射模型之訓練方法包含下列步驟：接收一構音異常語料與一參考語料，並分別音框化且對齊構音異常語料與參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中構音異常語料對應構音異常語音訊號，參考語料對應可理解語音訊號；接收構音異常語料音框與參考語料音框，並從構音異常語料音框與參考語料音框分別擷取構音異常語料特徵與參考語料特徵，構音異常語料特徵與參考語料特徵分別對應構音異常特徵與參考特徵；以及接收構音異常語料特徵與參考語料特徵，並據此訓練特徵映射模型。

在本發明之一實施例中，語音合成模型之訓練方法包含下列步驟：接收一參考語料，並將其音框化以產生參考語料音框，其中參考語料對應可理解語音訊號；接收參考語料音框，並從參考語料音框中擷取對應參考特徵之參考語料特徵；以及接收參考語料音框與參考語料特徵，並據此訓練語音合成模型。

基於上述，構音異常語音澄析裝置及其方法捨棄反傅立葉轉換，並直接在未接收構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換構音異常特徵為一可理解語音訊號。

茲為使　貴審查委員對本發明的結構特徵及所達成的功效更有進一步的瞭解與認識，謹佐以較佳的實施例圖及配合詳細的說明，說明如後：

本發明之實施例將藉由下文配合相關圖式進一步加以解說。盡可能的，於圖式與說明書中，相同標號係代表相同或相似構件。於圖式中，基於簡化與方便標示，形狀與厚度可能經過誇大表示。可以理解的是，未特別顯示於圖式中或描述於說明書中之元件，為所屬技術領域中具有通常技術者所知之形態。本領域之通常技術者可依據本發明之內容而進行多種之改變與修改。

當一個元件被稱為『在…上』時，它可泛指該元件直接在其他元件上，也可以是有其他元件存在於兩者之中。相反地，當一個元件被稱為『直接在』另一元件，它是不能有其他元件存在於兩者之中間。如本文所用，詞彙『及/或』包含了列出的關聯項目中的一個或多個的任何組合。

於下文中關於“一個實施例”或“一實施例”之描述係指關於至少一實施例內所相關連之一特定元件、結構或特徵。因此，於下文中多處所出現之“一個實施例”或 “一實施例”之多個描述並非針對同一實施例。再者，於一或多個實施例中之特定構件、結構與特徵可依照一適當方式而結合。

第4圖為本發明之構音異常語音澄析裝置之一實施例之裝置方塊圖。以下請參閱第4圖，並介紹本發明之構音異常語音澄析裝置4之一實施例，其不使用快速傅立葉反轉換器與插入電路，以避免相位失真，進而提供更自然與低雜訊的澄析語音。此構音異常語音澄析裝置4包含一第一音框化電路41、一第一特徵擷取器42與一可理解語音轉換器43。第一特徵擷取器42耦接第一音框化電路41與可理解語音轉換器43。第一音框化電路41接收一構音異常語音訊號D，並將其音框化以產生構音異常音框FRD。第一特徵擷取器42接收構音異常音框FRD，並從構音異常音框FRD中擷取構音異常特徵FD。可理解語音轉換器43接收構音異常特徵FD，並在未接收構音異常特徵FD對應之相位下，根據一可理解語音轉換模型轉換構音異常特徵FD為正常人的一可理解語音訊號V。此外，可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。構音異常特徵FD包含對數功率頻譜(log power spectrum，LPS)、梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity)之其中至少一者，可理解語音轉換模型可以神經網路實現，例如波網(WaveNet)或波遞迴神經網路(WaveRNN)。舉例來說，當構音異常特徵FD包含對數功率頻譜(log power spectrum)時，可理解語音轉換器43採用反轉傅立葉轉換(Inverse Fourier Transform) 轉換構音異常特徵FD為可理解語音訊號V。當構音異常特徵FD包含梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity) ，可理解語音轉換器43為聲碼器(vocoder)。

可理解語音轉換模型由一可理解語音訓練系統訓練而成，第5圖為本發明之可理解語音訓練系統之一實施例之系統方塊圖。請參閱第4圖與第5圖，可理解語音訓練系統5可包含一第二音框化電路51、一第二特徵擷取器52、一特徵映射器53、一語音合成器54與一可理解語音訓練器55。第二特徵擷取器52耦接第二音框化電路51，特徵映射器53耦接第二特徵擷取器52，語音合成器54耦接特徵映射器53，可理解語音訓練器55耦接第二特徵擷取器52與語音合成器54。第二音框化電路51接收對應構音異常語音訊號D之一構音異常語料d，並將其音框化以產生構音異常語料音框frd。第二特徵擷取器52接收構音異常語料音框frd，並從構音異常語料音框frd中擷取對應構音異常特徵FD之構音異常語料特徵fd。特徵映射器53接收構音異常語料特徵fd，並根據一特徵映射模型轉換構音異常語料特徵fd為對應可理解語音訊號V之參考語料特徵fr。語音合成器54接收參考語料特徵fr，並根據一語音合成模型轉換參考語料特徵fr為參考語料音框frr。可理解語音訓練器55接收參考語料音框frr與構音異常語料特徵fd，並據此訓練可理解語音轉換模型。特徵映射模型與語音合成模型皆可以神經網路實現，例如波網(WaveNet)或波遞迴神經網路(WaveRNN)。

特徵映射模型由一特徵映射訓練系統訓練而成，第6圖為本發明之特徵映射訓練系統之一實施例之系統方塊圖。請參閱第4圖與第6圖，特徵映射訓練系統6可包含一語料前置處理(pre-processing)電路61、一映射特徵擷取器62與一特徵映射訓練器63，其中映射特徵擷取器62可為短時傅立葉轉換器(STFT)，但本發明並不以此為限。映射特徵擷取器62耦接語料前置處理電路61與特徵映射訓練器63。語料前置處理電路61接收構音異常語料d與一參考語料r，並分別音框化且對齊構音異常語料d與參考語料r，以產生互相對齊之構音異常語料音框frd與參考語料音框frr，其中參考語料r對應可理解語音訊號V。映射特徵擷取器62接收構音異常語料音框frd與參考語料音框frr，並從構音異常語料音框frd與參考語料音框frr分別擷取構音異常語料特徵fd與參考語料特徵fr。特徵映射訓練器63接收構音異常語料特徵fd與參考語料特徵fr，並據此訓練特徵映射模型。

語音合成模型由一語音合成訓練系統訓練而成，第7圖為本發明之語音合成訓練系統之一實施例之系統方塊圖。請參閱第4圖與第7圖，語音合成訓練系統7可包含一第三音框化電路71、一第三特徵擷取器72與一語音合成訓練器73。第三音框化電路71耦接第三特徵擷取器72與語音合成訓練器73，第三特徵擷取器72耦接語音合成訓練器73。第三音框化電路71接收參考語料r，並將其音框化以產生參考語料音框frr，其中參考語料r對應可理解語音訊號V。第三特徵擷取器72接收參考語料音框frr，並從參考語料音框frr中擷取參考語料特徵fr。語音合成訓練器73接收參考語料音框frr與參考語料特徵fr，並據此訓練語音合成模型。由於參考語料音框frr與參考語料特徵fr皆來自參考語料r，所以會自動對齊。

第8圖為本發明之可理解語音轉換器之方塊圖。請參閱第4圖與第8圖，在本發明之某些實施例中，可理解語音轉換器43可包含一特徵映射器431與一語音合成器432，且可理解語音轉換模型可包含一特徵映射模型與一語音合成模型，特徵映射模型與語音合成模型皆可以神經網路實現，例如波網(WaveNet)或波遞迴神經網路(WaveRNN)。特徵映射器431耦接第一特徵擷取器42與語音合成器432。特徵映射器431接收構音異常特徵FD，並根據特徵映射模型轉換構音異常特徵FD為正常人的參考特徵FR。語音合成器432接收參考特徵FR，並根據語音合成模型轉換參考特徵FR為可理解語音訊號V。

第9圖為本發明之特徵映射訓練系統之另一實施例之系統方塊圖，第8圖之特徵映射模型由一特徵映射訓練系統訓練而成。請參閱第8圖與第9圖。特徵映射訓練系統8可包含一語料前置處理(pre-processing)電路81、一映射特徵擷取器82與一特徵映射訓練器83，其中映射特徵擷取器82可以短時傅立葉轉換器(short time Fourier transformer)實現，但本發明不限於此。映射特徵擷取器82耦接語料前置處理電路81與特徵映射訓練器83。語料前置處理電路81接收一構音異常語料d與一參考語料r，並分別音框化且對齊構音異常語料d與參考語料r，以產生互相對齊之構音異常語料音框frd與參考語料音框frr，其中構音異常語料d對應構音異常語音訊號D，參考語料r對應可理解語音訊號V。映射特徵擷取器82接收構音異常語料音框frd與參考語料音框frr，並從構音異常語料音框frd與參考語料音框frr分別擷取構音異常語料特徵fd與參考語料特徵fr，構音異常語料特徵fd與參考語料特徵fr分別對應構音異常特徵FD與參考特徵FR。特徵映射訓練器83接收構音異常語料特徵fd與參考語料特徵fr，並據此訓練特徵映射模型。

第10圖為本發明之語音合成訓練系統之另一實施例之系統方塊圖，第8圖之語音合成模型由一語音合成訓練系統訓練而成。請參閱第8圖與第10圖，此語音合成訓練系統9與構音異常語音訊號D沒有關係，語音合成訓練系統9可包含一第二音框化電路91、一第二特徵擷取器92與一語音合成訓練器93。第二特徵擷取器92耦接第二音框化電路91與語音合成訓練器93。第二音框化電路91接收一參考語料r，並將其音框化以產生參考語料音框frr，其中參考語料r對應可理解語音訊號V。第二特徵擷取器92接收參考語料音框frr，並從參考語料音框frr中擷取對應參考特徵FR之參考語料特徵fr。語音合成訓練器93接收參考語料音框frr與參考語料特徵fr，並據此訓練語音合成模型。

以下比較四個實施方案之性能，其中構音異常特徵以對數功率頻譜為例，並以採樣率為16000採樣點/秒(sample point/s)音框化構音異常語音訊號，故每一構音異常音框包含1024個採樣點，每一構音異常音框之長度為2的整數次方，以便使用快速傅立葉轉換(FFT)。為了防止相鄰構音異常音框之間的資訊變化太大，故重疊(overlapping)構音異常音框，以計算下一個構音異常音框，構音異常音框之跳距(hop size)設定為256個採樣點。每個具有1024個採樣點之構音異常音框藉由短時傅立葉轉換器(short time Fourier transformer)擷取具有513個採樣點之LPS作為構音異常特徵。

第一實施方案為第1圖中的構音異常語音澄析裝置1，其中構音異常特徵為具有513個採樣點之LPS，對數功率頻譜映射深度神經網路14以全連結深度神經網路(fully-connected deep neural network，FCDNN)實現，其包含具有513個採樣點之一輸入層、具有1024個採樣點之三隱藏層(hiding layer)與具有513個採樣點之一輸出層。FCDNN是以由DTW對齊過的構音異常語料d與參考語料r來作訓練，訓練資料之每一音框的時間長度為64毫秒(ms)，且彼此重疊，其中音框之跳距為16個採樣點。

第二實施方案為第1圖中的構音異常語音澄析裝置1之快速傅立葉反轉換器16與內插電路17以第8圖的語音合成器432來取代，其中構音異常特徵為具有513個採樣點之LPS，對數功率頻譜映射深度神經網路14以513×1024×1024×1024×513之FCDNN實現。語音合成器432係以WaveRNN實現，其中WaveRNN是以319句的參考語料產生對齊的參考語料特徵與參考語料音框進行訓練，參考語料音框彼此重疊，每一參考語料音框之時間長度為64毫秒，參考語料音框之跳距為256個採樣點。

第三實施方案為一構音異常語音澄析裝置，其包含一音框化電路、一短時傅立葉轉換器與一預先訓練好的波遞迴神經網路(WaveRNN)。音框化電路對構音異常語音進行處理，以產生多個音框。短時傅立葉轉換器從每一音框擷取具有513個取樣點之對數功率頻譜作為構音異常特徵。波遞迴神經網路轉換此構音異常特徵為一可理解語音訊號。波遞迴神經網路由第3圖中的語音訓練系統3訓練而成。

第四實施方案為第4圖之構音異常語音澄析裝置4，其中可理解語音轉換模型係以第11圖之可理解語音訓練系統5訓練而成。第二特徵擷取器52以短時傅立葉轉換器521實現，特徵映射器53以對數功率頻譜映射深度神經網路531實現，語音合成器54以互相耦接之快速傅立葉反轉換器541與插入電路542實現。

第12圖為構音異常語音訊號之波形圖。第13圖為正常人之參考語音訊號之波形圖。第14圖為第一實施方案對應之可理解語音訊號之波形圖。第15圖為第二實施方案對應之可理解語音訊號之波形圖。第16圖為第三實施方案對應之可理解語音訊號之波形圖。第17圖為第四實施方案對應之可理解語音訊號之波形圖。第18圖為構音異常語音訊號之頻譜圖。第19圖為正常人之參考語音訊號之頻譜圖。第20圖為第一實施方案對應之可理解語音訊號之頻譜圖。第21圖為第二實施方案對應之可理解語音訊號之頻譜圖。第22圖為第三實施方案對應之可理解語音訊號之頻譜圖。第23圖為第四實施方案對應之可理解語音訊號之頻譜圖。從第12圖與第18圖可知，正常人難以理解構音異常語音訊號，但多聽幾次可能可以瞭解構音異常語音訊號。從第13圖與第19圖可知，正常人可以理解參考語音訊號。從第14圖與第20圖可知，第一實施方案改善構音異常語音訊號之語音理解度，但有許多雜訊與噪音在可理解語音訊號中，聽覺感受度不佳。從第15圖與第21圖可知，相對第一實施方案，第二實施方案之可理解語音訊號少了噪音與雜訊，故有更好的聽覺感受。從第16圖與第22圖可知，第三實施方案之可理解語音訊號像參考語音訊號，但正常人還是聽不懂第三實施方案之可理解語音訊號。這是因為DTW的對齊能力有限，導致WaveRNN的語音轉換效果不佳。從第17圖與第23圖可知，第四實施方案之可理解語音訊號與第二實施方案之可理解語音訊號有相似的聽覺效果。

根據上述實施例，構音異常語音澄析裝置及其方法捨棄反傅立葉轉換，並直接在未接收構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換構音異常特徵為一可理解語音訊號。

以上所述者，僅為本發明一較佳實施例而已，並非用來限定本發明實施之範圍，故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾，均應包括於本發明之申請專利範圍內。

1:構音異常語音澄析裝置 10:正規化器 11:音框化電路 12:短時傅立葉轉換器 13:正規化器 14:對數功率頻譜映射深度神經網路 15:反正規化器 16:快速傅立葉反轉換器 17:內插電路 2:語音訓練系統 20:前置處理電路 21:短時傅立葉轉換器 22:正規化器 23:深度神經網路訓練器 3:語音訓練系統 30:前置處理電路 31:短時傅立葉轉換器 32:語音訓練器 4:構音異常語音澄析裝置 41:第一音框化電路 42:第一特徵擷取器 43:可理解語音轉換器 431:特徵映射器 432:語音合成器 5:可理解語音訓練系統 51:第二音框化電路 52:第二特徵擷取器 521:短時傅立葉轉換器 53:特徵映射器 531:對數功率頻譜映射深度神經網路 54:語音合成器 541:快速傅立葉反轉換器 542:內插電路 55:可理解語音訓練器 6:特徵映射訓練系統 61:語料前置處理電路 62:映射特徵擷取器 63:特徵映射訓練器 7:語音合成訓練系統 71:第三音框化電路 72:第三特徵擷取器 73:語音合成訓練器 8:特徵映射訓練系統 81:語料前置處理電路 82:映射特徵擷取器 83:特徵映射訓練器 9:語音合成訓練系統 91:第二音框化電路 92:第二特徵擷取器 93:語音合成訓練器 D:構音異常語音訊號 M:強度 Φ:相位 M’:參考特徵 V:可理解語音訊號 d:構音異常語料 r:參考語料 Md:構音異常特徵 Mr:參考特徵 Xd:構音異常音框 Xr:參考音框 FRD:構音異常音框 FD:構音異常特徵 frd:構音異常語料音框 fd:構音異常語料特徵 fr:參考語料特徵 frr:參考語料音框 FR:參考特徵

第1圖為先前技術之構音異常語音澄析裝置之方塊圖。第2圖為先前技術之語音訓練系統之方塊圖。第3圖為先前技術之另一語音訓練系統之方塊圖。第4圖為本發明之構音異常語音澄析裝置之一實施例之裝置方塊圖。第5圖為本發明之可理解語音訓練系統之一實施例之系統方塊圖。第6圖為本發明之特徵映射訓練系統之一實施例之系統方塊圖。第7圖為本發明之語音合成訓練系統之一實施例之系統方塊圖。第8圖為本發明之可理解語音轉換器之方塊圖。第9圖為本發明之特徵映射訓練系統之另一實施例之系統方塊圖。第10圖為本發明之語音合成訓練系統之另一實施例之系統方塊圖。第11圖為本發明之可理解語音訓練系統之另一實施例之系統方塊圖。第12圖為構音異常語音訊號之波形圖。第13圖為正常人之參考語音訊號之波形圖。第14圖為第一實施方案對應之可理解語音訊號之波形圖。第15圖為第二實施方案對應之可理解語音訊號之波形圖。第16圖為第三實施方案對應之可理解語音訊號之波形圖。第17圖為第四實施方案對應之可理解語音訊號之波形圖。第18圖為構音異常語音訊號之頻譜圖。第19圖為正常人之參考語音訊號之頻譜圖。第20圖為第一實施方案對應之可理解語音訊號之頻譜圖。第21圖為第二實施方案對應之可理解語音訊號之頻譜圖。第22圖為第三實施方案對應之可理解語音訊號之頻譜圖。第23圖為第四實施方案對應之可理解語音訊號之頻譜圖。

4:構音異常語音澄析裝置

41:第一音框化電路

42:第一特徵擷取器

43:可理解語音轉換器

D:構音異常語音訊號

V:可理解語音訊號

FRD:構音異常音框

FD:構音異常特徵

Claims

一種構音異常語音澄析裝置，包含：一第一音框化電路，用以接收一構音異常語音訊號，並將其音框化以產生構音異常音框；一第一特徵擷取器，耦接該第一音框化電路，其中該第一特徵擷取器用以接收該構音異常音框，並從該構音異常音框中擷取構音異常特徵；以及一可理解語音轉換器，耦接該第一特徵擷取器，其中該可理解語音轉換器用以接收該構音異常特徵，並在未接收該構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換該構音異常特徵為一可理解語音訊號；其中該可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。
如請求項1所述之構音異常語音澄析裝置，其中該可理解語音轉換模型由一可理解語音訓練系統訓練而成，該可理解語音訓練系統包含：一第二音框化電路，用以接收對應該構音異常語音訊號之一構音異常語料，並將其音框化以產生構音異常語料音框；一第二特徵擷取器，耦接該第二音框化電路，其中該第二特徵擷取器用以接收該構音異常語料音框，並從該構音異常語料音框中擷取對應該構音異常特徵之構音異常語料特徵；一特徵映射器，耦接該第二特徵擷取器，其中該特徵映射器用以接收該構音異常語料特徵，並根據一特徵映射模型轉換該構音異常語料特徵為對應該可理解語音訊號之參考語料特徵；一語音合成器，耦接該特徵映射器，其中該語音合成器用以接收該參考語料特徵，並根據一語音合成模型轉換該參考語料特徵為參考語料音框；以及一可理解語音訓練器，耦接該第二特徵擷取器與該語音合成器，其中該可理解語音訓練器用以接收該參考語料音框與該構音異常語料特徵，並據此訓練該可理解語音轉換模型。
如請求項2所述之構音異常語音澄析裝置，其中該特徵映射模型由一特徵映射訓練系統訓練而成，該特徵映射訓練系統包含：一語料前置處理(pre-processing)電路，用以接收該構音異常語料與一參考語料，並分別音框化且對齊該構音異常語料與該參考語料，以產生互相對齊之該構音異常語料音框與該參考語料音框，其中該參考語料對應該可理解語音訊號；一映射特徵擷取器，耦接該語料前置處理電路，其中該映射特徵擷取器用以接收該構音異常語料音框與該參考語料音框，並從該構音異常語料音框與該參考語料音框分別擷取該構音異常語料特徵與該參考語料特徵；以及一特徵映射訓練器，耦接該映射特徵擷取器，其中該特徵映射訓練器用以接收該構音異常語料特徵與該參考語料特徵，並據此訓練該特徵映射模型。
如請求項2所述之構音異常語音澄析裝置，其中該語音合成模型由一語音合成訓練系統訓練而成，該語音合成訓練系統包含：一第三音框化電路，用以接收一參考語料，並將其音框化以產生該參考語料音框，其中該參考語料對應該可理解語音訊號；一第三特徵擷取器，耦接該第三音框化電路，其中該第三特徵擷取器用以接收該參考語料音框，並從該參考語料音框中擷取該參考語料特徵；以及一語音合成訓練器，耦接該第三音框化電路與該第三特徵擷取器，其中該語音合成訓練器用以接收該參考語料音框與該參考語料特徵，並據此訓練該語音合成模型。
如請求項1所述之構音異常語音澄析裝置，其中該可理解語音轉換模型包含一特徵映射模型與一語音合成模型，且該可理解語音轉換器包含：一特徵映射器，耦接該第一特徵擷取器，其中該特徵映射器用以接收該構音異常特徵，並根據該特徵映射模型轉換該構音異常特徵為參考特徵；以及一語音合成器，耦接該特徵映射器，其中該語音合成器用以接收該參考特徵，並根據該語音合成模型轉換該參考特徵為該可理解語音訊號。
如請求項5所述之構音異常語音澄析裝置，其中該特徵映射模型由一特徵映射訓練系統訓練而成，該特徵映射訓練系統包含：一語料前置處理(pre-processing)電路，用以接收一構音異常語料與一參考語料，並分別音框化且對齊該構音異常語料與該參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中該構音異常語料對應該構音異常語音訊號，該參考語料對應該可理解語音訊號；一映射特徵擷取器，耦接該語料前置處理電路，其中該映射特徵擷取器用以接收該構音異常語料音框與該參考語料音框，並從該構音異常語料音框與該參考語料音框分別擷取構音異常語料特徵與參考語料特徵，該構音異常語料特徵與該參考語料特徵分別對應該構音異常特徵與該參考特徵；以及一特徵映射訓練器，耦接該映射特徵擷取器，其中該特徵映射訓練器用以接收該構音異常語料特徵與該參考語料特徵，並據此訓練該特徵映射模型。
如請求項5所述之構音異常語音澄析裝置，其中該語音合成模型由一語音合成訓練系統訓練而成，該語音合成訓練系統包含：一第二音框化電路，用以接收一參考語料，並將其音框化以產生參考語料音框，其中該參考語料對應該可理解語音訊號；一第二特徵擷取器，耦接該第二音框化電路，其中該第二特徵擷取器用以接收該參考語料音框，並從該參考語料音框中擷取對應該參考特徵之參考語料特徵；以及一語音合成訓練器，耦接該第二音框化電路與該第二特徵擷取器，其中該語音合成訓練器用以接收該參考語料音框與該參考語料特徵，並據此訓練該語音合成模型。
如請求項1所述之構音異常語音澄析裝置，其中該構音異常特徵包含對數功率頻譜(log power spectrum，LPS)、梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity)之其中至少一者，該可理解語音轉換模型包含波網(WaveNet)或波遞迴神經網路(WaveRNN)。
如請求項1所述之構音異常語音澄析裝置，其中該構音異常特徵包含對數功率頻譜(log power spectrum)，該可理解語音轉換器採用反轉傅立葉轉換(Inverse Fourier Transform) 轉換該構音異常特徵為該可理解語音訊號。
如請求項1所述之構音異常語音澄析裝置，其中該構音異常特徵包含梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity) ，該可理解語音轉換器為聲碼器(vocoder)。
一種構音異常語音澄析方法，包含下列步驟：接收一構音異常語音訊號，並將其音框化以產生構音異常音框；接收該構音異常音框，並從該構音異常音框中擷取構音異常特徵；以及接收該構音異常特徵，並在未接收該構音異常特徵對應之相位下，根據一可理解語音轉換模型轉換該構音異常特徵為一可理解語音訊號；其中該可理解語音轉換模型並未採用動態時間扭曲(dynamic time warping, DTW)訓練而成。
如請求項11所述之構音異常語音澄析方法，其中該可理解語音轉換模型之訓練方法包含下列步驟：接收對應該構音異常語音訊號之一構音異常語料，並將其音框化以產生構音異常語料音框；接收該構音異常語料音框，並從該構音異常語料音框中擷取對應該構音異常特徵之構音異常語料特徵；接收該構音異常語料特徵，並根據一特徵映射模型轉換該構音異常語料特徵為對應該可理解語音訊號之參考語料特徵；接收該參考語料特徵，並根據一語音合成模型轉換該參考語料特徵為參考語料音框；以及接收該參考語料音框與該構音異常語料特徵，並據此訓練該可理解語音轉換模型。
如請求項12所述之構音異常語音澄析方法，其中該特徵映射模型之訓練方法包含下列步驟：接收該構音異常語料與一參考語料，並分別音框化且對齊該構音異常語料與該參考語料，以產生互相對齊之該構音異常語料音框與該參考語料音框，其中該參考語料對應該可理解語音訊號；接收該構音異常語料音框與該參考語料音框，並從該構音異常語料音框與該參考語料音框分別擷取該構音異常語料特徵與該參考語料特徵；以及接收該構音異常語料特徵與該參考語料特徵，並據此訓練該特徵映射模型。
如請求項12所述之構音異常語音澄析方法，其中該語音合成模型之訓練方法包含下列步驟：接收一參考語料，並將其音框化以產生該參考語料音框，其中該參考語料對應該可理解語音訊號；接收該參考語料音框，並從該參考語料音框中擷取該參考語料特徵；以及接收該參考語料音框與該參考語料特徵，並據此訓練該語音合成模型。
如請求項11所述之構音異常語音澄析方法，其中該可理解語音轉換模型包含一特徵映射模型與一語音合成模型，且在接收該構音異常特徵，並在未接收該相位下，根據該可理解語音轉換模型轉換該構音異常特徵為該可理解語音訊號之步驟包含下列步驟：接收該構音異常特徵，並根據該特徵映射模型轉換該構音異常特徵為參考特徵；以及接收該參考特徵，並根據該語音合成模型轉換該參考特徵為該可理解語音訊號。
如請求項15所述之構音異常語音澄析方法，其中該特徵映射模型之訓練方法包含下列步驟：接收一構音異常語料與一參考語料，並分別音框化且對齊該構音異常語料與該參考語料，以產生互相對齊之構音異常語料音框與參考語料音框，其中該構音異常語料對應該構音異常語音訊號，該參考語料對應該可理解語音訊號；接收該構音異常語料音框與該參考語料音框，並從該構音異常語料音框與該參考語料音框分別擷取構音異常語料特徵與參考語料特徵，該構音異常語料特徵與該參考語料特徵分別對應該構音異常特徵與該參考特徵；以及接收該構音異常語料特徵與該參考語料特徵，並據此訓練該特徵映射模型。
如請求項15所述之構音異常語音澄析方法，其中該語音合成模型之訓練方法包含下列步驟：接收一參考語料，並將其音框化以產生參考語料音框，其中該參考語料對應該可理解語音訊號；接收該參考語料音框，並從該參考語料音框中擷取對應該參考特徵之參考語料特徵；以及接收該參考語料音框與該參考語料特徵，並據此訓練該語音合成模型。
如請求項11所述之構音異常語音澄析方法，其中該構音異常特徵包含對數功率頻譜(log power spectrum)、梅爾頻譜(Mel spectrum)、基頻(Fundamental frequency)、梅爾頻率倒譜係數(MFCC)與非週期訊號(aperiodicity)之其中至少一者，該可理解語音轉換模型包含波網(WaveNet)或波遞迴神經網路(WaveRNN)。