TWI754804B

TWI754804B - 改善構音異常語音理解度之系統與方法

Info

Publication number: TWI754804B
Application number: TW108111066A
Authority: TW
Inventors: 林泰吉; 宋慶澔; 白哲嘉; 葉經緯
Original assignee: 國立中正大學
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2022-02-11
Also published as: US11328709B2; TW202036535A; US20200312302A1; JP2020166224A

Abstract

一種改善構音異常語音理解度之系統與方法，使用者只需提供一組包括來源語料與目標語料的成對語料，便可透過構音異常化模組自動生成一組與來源語料完全同步之新產生的語料，以作為構音異常語音轉換模型之訓練語料。因此，本發明不需要使用傳統的語料對齊技術或手動方式對訓練語料作前置處理，除了可節省人力和時間成本，還能確保訓練語料與來源語料完全地同步，進而可提昇語音轉換模型的訓練及轉換品質。

Description

改善構音異常語音理解度之系統與方法

本發明係關於一種構音異常語音轉換技術，特別是有關於一種改善構音異常語音理解度之系統與方法。

根據美國語言聲學學會（ASHA）之研究報告指出，構音異常患者在美國約有500多萬人，其中較為常見的有中風（stroke）、腦性麻痺（cerebral palsy）、帕金森氏症（Parkinson’s disease）。構音異常是種腦神經退化的疾病，其特徵為說話所需的力量、速度、穩定性、音調產生異常，造成口齒不清、無法理解語句，進而影響生活品質。經過長達百年以上的研究，現今雖然已經發展出延緩神經退化的相關藥物及改善肌肉控制能力的復健治療，但其效果會因人而異，通常沒有實質上的改善。

有鑑於此，後續有研究者提出藉由語音轉換相關技術，將患者的語音經由語音轉換模型轉換成正常人的語音，藉此強化病人語音清晰度、理解度。然而，過去語音轉換流程裡的前置處理用在構音異常這方面的效果很差；同時，為了訓練出一個語音轉換模型，需要使用大量成對語料，訓練語料這部分往往因患者體力及發聲上的困難而取得不易。

透過聲音轉換系統將病患的語音澄析化，藉此改善他們的溝通障礙，過去常見的作法為「高斯混合模型（GMM）」和「深度神經網路（DNN）」。其中，「高斯混合模型（GMM）」是藉由擷取出來源與目標語者的語音特徵（例如，語速、音調），並找出兩者其特徵的關聯性，藉此作為來源特徵映射至目標的特徵之依據；而為了找出關聯性，因此，需要將來源與目標語句去作對齊的動作。另外，「深度神經網路（DNN）」是藉由將語音做音框化處理，再經由神經網路學習來源與目標兩者相同時域所對上的音框其關聯性。由於音框單位精細到毫秒為單位，因此，來源與目標語音內容之音框上的對齊稍有偏差，則其轉換效果都會有明顯的影響。

由上述得知「語音模型之訓練資料對齊」是影響轉換效果要素之一。在過去常見的技術中，「語料內容對齊」大都是藉由分析兩者語料的時域關聯性來做。舉例來說，動態時間校正（Dynamic Time Warping，DTW）是一種計算兩個不同長度的時間序列相似度的方法，在時間軸上進行局部的縮放，使得兩個序列的狀態盡可能一致；而基週同步疊加法（Pitch Synchronous Overlap and Add，PSOLA）是一種用於語音合成的數位訊號處理技術，通過將語音訊號分成數個音框，再藉由重疊的方式來改變訊號的音調或持續時間。

在傳統的語音轉換系統中，訓練語料的對齊常能帶來更好的訓練與轉換品質，因此相關的語音對齊技術（如上述的DTW、PSOLA等）常被運用在訓練語料的前置處理上。然而，這類的語音對齊技術沒有辦法達到完全對齊，其所產出之非完全對齊語料，用於構音異常病患的語音轉換系統10上，如第1圖所示，由於病患的語音通常含糊不清，上述語音對齊技術40所能達到的轉換效果有限，容易出現爆音或者是缺漏的現象。因此，於實際應用上，常需要透過手動的方法將來源語料20與目標語料30內容作對齊，而付出很高的人力及時間成本。

本發明的主要目的在於提供一種改善構音異常語音理解度之系統與方法，使用者只需提供一組來源與目標語者的成對語料，透過構音異常化模組產生一組與來源語料完全同步之新的語料，以作為構音異常病患語音轉換系統之訓練語料，完成語音轉換模型的訓練，藉以提昇模型的訓練及轉換品質。

本發明的另一目的在於提供一種改善構音異常語音理解度之系統與方法，以構音異常化模組產生訓練用同步語料的方式，無須再透過傳統的語料對齊技術作前置處理，可以節省手動對齊的人力及時間成本，同時，使整個產生語料的過程可以達到自動化。

為了實現上述目的，本發明提出一種改善構音異常語音理解度之系統，其由構音異常化模組與語音轉換模型訓練器所構成。其中，構音異常化模組接收包含對應的來源語料與目標語料的一組成對語料，並將此組成對語料轉換為同步語料。而語音轉換模型訓練器則接收來源語料與同步語料以作為一組訓練語料，並使用此組訓練語料進行語音轉換模型之訓練。

另外，本發明也提出一種改善構音異常語音理解度之方法，其步驟是先提供包含對應的來源語料與目標語料的一組成對語料；再將此組成對語料轉換為同步語料；然後，將來源語料與同步語料作為一組訓練語料，使用此組訓練語料進行語音轉換模型之訓練。

根據本發明之實施例，將成對語料轉換為同步語料的方法是透過基於高斯混合模型（GMM）或深度神經網路（DNN）之語音轉換系統來實現，或者，也可藉由擷取複數語音特徵參數並透過語音合成技術來實現。

根據本發明之實施例，使用訓練語料進行語音轉換模型之訓練的方法是透過基於高斯混合模型（GMM）或深度神經網路（DNN）之語音轉換系統來實現。

根據本發明所提供的改善構音異常語音理解度之系統與方法，透過將來源語料加工而成的新的語料作為訓練語料的方式，能確保新的語料與來源語料完全同步，使得語音轉換模型的訓練及轉換品質得以提昇。再者，本發明不需要使用傳統的語料對齊技術進行前置處理，不僅節省了手動對齊的人力及時間成本，同時，也使整個語料的產生過程達到自動化。

底下藉由具體實施例配合所附的圖式詳加說明，當更容易瞭解本發明之目的、技術內容、特點及其所達成之功效。

本發明所提供的改善構音異常語音理解度之系統與方法，不同於傳統的語音轉換系統在進行轉換模型訓練之前，會先透過一般語音對齊技術（如DTW、PSOLA等）對訓練語料做對齊，而是採用了一個構音異常化模組取代了傳統的語音轉換系統中語音對齊的相關技術，可自動產生用於轉換模型訓練的同步語料，免於透過語音對齊技術或手動方式對訓練語料做對齊，除了節省了大量時間及人力成本，更可使訓練語料完全地同步。

請參照第2圖，為本發明實施例提供的改善構音異常語音理解度之方法的實現流程，其包括以下步驟：

在步驟S101中，提供包含對應的一來源語料與一目標語料的一組成對語料。

在本發明之實施例中，採集來自參考者的語音訊號作為來源語料，以及來自目標語者（即，構音異常病患）的語音訊號作為目標語料。

在步驟S102中，將採集到的成對語料轉換為一同步語料。

在本發明之實施例中，此同步語料為成對語料轉換後所產生的新語料，可說是由來源語料加工而來，保留了原來的語速，因而能確保所產生的新語料與來源語料在音框上完全同步。

在本發明之實施例中，將成對語料轉換為同步語料的步驟可透過基於高斯混合模型（GMM）之語音轉換系統來實現，也可透過基於深度神經網路（DNN）之語音轉換系統來實現，或者，更可藉由擷取複數語音特徵參數並透過語音合成技術來實現；這些語音特徵參數具體包括有頻率擾動度（jitter）和振幅擾動度（shimmer）等。

在步驟S103中，將原本的來源語料與新產生的同步語料作為一組訓練語料，並使用此組訓練語料進行語音轉換模型之訓練，透過訓練出來的語音轉換模型，達到改善構音異常語音理解度之目的。

在本發明之實施例中，使用訓練語料進行語音轉換模型之訓練的步驟可透過基於高斯混合模型（GMM）之語音轉換系統來實現，或者，也可透過基於深度神經網路（DNN）之語音轉換系統來實現。

請參照第3圖，為本發明實施例提供的改善構音異常語音理解度之系統架構；為了便於說明，僅示出了與本發明實施例相關的部份。此改善構音異常語音理解度之系統100包括一構音異常化模組110和一語音轉換模型訓練器120。

構音異常化模組110，用於接收來自參考者之語音訊號的來源語料111，以及來自目標語者（即，構音異常病患）之語音訊號的目標語料112，並將包含對應的來源語料111與目標語料112的一組成對語料轉換為一同步語料113。

在本發明之實施例中，構音異常化模組110可透過基於高斯混合模型（GMM）或深度神經網路（DNN）之語音轉換系統來實現，另外，亦可藉由擷取複數語音特徵參數並透過語音合成技術來實現；這些語音特徵參數具體包括頻率擾動度（jitter）和振幅擾動度（shimmer）等。

而語音轉換模型訓練器120，用於接收來源語料111與同步語料113以作為一組訓練語料，並使用此組訓練語料進行語音轉換模型之訓練，藉此提昇語音轉換模型的訓練與轉換品質。

在本發明之實施例中，語音轉換模型訓練器120可透過基於高斯混合模型（GMM）或深度神經網路（DNN）之語音轉換系統來實現。

請參照第4圖和第5圖，分別示意傳統的構音異常語音轉換系統和本發明之實施例如何將構音異常病患的來源語料進行轉換來獲得改良語料。如第4圖所示，在傳統用於構音異常病患的語音轉換系統中，通常要透過一般語音對齊技術（如DTW、PSOLA）的前置處理將來源語料與目標語料的特徵對齊，其語音轉換後的改良語料在音框上的對齊會有些微誤差。另如第5圖所示，本發明的使用者只需提供包括來源語料與目標語料的一對成對語料，系統便可產生一組和來源語料在音框上完全同步的新的語料，以作為語音轉換模型的訓練語料，使得語音轉換模型的訓練和轉換後的改良語料之品質得以大幅提昇。

綜上所述，根據本發明所揭露的改善構音異常語音理解度之系統與方法，透過構音異常化模組產生訓練用同步語料的方式，與傳統的方式相比，除了不再需要傳統的語音轉換系統中的語音對齊技術對訓練語料做前置處理，節省了手動對齊的人力及時間成本，更使得整個語料的產生過程可以達到自動化。此外，由於透過構音異常化模組生成的同步語料是由來源語料加工而來，保留了原來的語速，因而能確保新產生的同步語料與來源語料完全同步，系統便可將此同步語料和來源語料作為訓練語料，完成參考者和目標語者（構音異常病患）語音轉換模型的訓練，達到改善構音異常語音理解度。同時，本發明也證實了的確可進一步提昇語音轉換模型的訓練及轉換品質。

以上所述之實施例僅係為說明本發明之技術思想及特點，其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施，當不能以之限定本發明之專利範圍，即大凡依本發明所揭示之精神所作之均等變化或修飾，仍應涵蓋在本發明之專利範圍內。

10:語音轉換系統 20:來源語料 30:目標語料 40:語音對齊技術 100:改善構音異常語音理解度之系統 110:構音異常化模組 111:來源語料 112:目標語料 113:同步語料 120:語音轉換模型訓練器

第1圖為傳統的構音異常語音轉換系統的示意圖。第2圖為本發明實施例提供的改善構音異常語音理解度之方法的流程示意圖。第3圖為本發明實施例提供的改善構音異常語音理解度之系統的方塊示意圖。第4圖為傳統的構音異常語音轉換系統如何產生改良語料的示意圖。第5圖為本發明實施例之改善構音異常語音理解度之系統如何產生改良語料的示意圖。

100:改善構音異常語音理解度之系統

110:構音異常化模組

111:來源語料

112:目標語料

113:同步語料

120:語音轉換模型訓練器

Claims

一種改善構音異常語音理解度之系統，包含：一構音異常化模組，接收包含對應的一來源語料與一目標語料的一組成對語料，並將該組成對語料轉換為一同步語料，該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號；以及一語音轉換模型訓練器，接收該來源語料與該同步語料以作為一組訓練語料，使用該組訓練語料進行一語音轉換模型之訓練；其中，該構音異常化模組將該組成對語料轉換為該同步語料是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現，或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
如請求項1所述之改善構音異常語音理解度之系統，其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
如請求項1所述之改善構音異常語音理解度之系統，其中該語音轉換模型訓練器是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
如請求項1所述之改善構音異常語音理解度之系統，其中該語音轉換模型訓練器是透過基於深度神經網路(DNN)之語音轉換系統來實現。
一種改善構音異常語音理解度之方法，包含下列步驟：提供包含對應的一來源語料與一目標語料的一組成對語料，該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號；將該組成對語料轉換為一同步語料；以及將該來源語料與該同步語料作為一組訓練語料，使用該組訓練語料進行一語音轉換模型之訓練；其中，將該組成對語料轉換為該同步語料的步驟是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現，或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
如請求項5所述之改善構音異常語音理解度之方法，其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
如請求項5所述之改善構音異常語音理解度之方法，其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
如請求項5所述之改善構音異常語音理解度之方法，其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於深度神經網路(DNN)之語音轉換系統來實現。