TWI754804B - 改善構音異常語音理解度之系統與方法 - Google Patents

改善構音異常語音理解度之系統與方法 Download PDF

Info

Publication number
TWI754804B
TWI754804B TW108111066A TW108111066A TWI754804B TW I754804 B TWI754804 B TW I754804B TW 108111066 A TW108111066 A TW 108111066A TW 108111066 A TW108111066 A TW 108111066A TW I754804 B TWI754804 B TW I754804B
Authority
TW
Taiwan
Prior art keywords
corpus
speech
dysarthria
improving
training
Prior art date
Application number
TW108111066A
Other languages
English (en)
Other versions
TW202036535A (zh
Inventor
林泰吉
宋慶澔
白哲嘉
葉經緯
Original Assignee
國立中正大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立中正大學 filed Critical 國立中正大學
Priority to TW108111066A priority Critical patent/TWI754804B/zh
Priority to JP2019147606A priority patent/JP2020166224A/ja
Priority to US16/545,898 priority patent/US11328709B2/en
Publication of TW202036535A publication Critical patent/TW202036535A/zh
Application granted granted Critical
Publication of TWI754804B publication Critical patent/TWI754804B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Percussion Or Vibration Massage (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Prostheses (AREA)

Abstract

一種改善構音異常語音理解度之系統與方法,使用者只需提供一組包括來源語料與目標語料的成對語料,便可透過構音異常化模組自動生成一組與來源語料完全同步之新產生的語料,以作為構音異常語音轉換模型之訓練語料。因此,本發明不需要使用傳統的語料對齊技術或手動方式對訓練語料作前置處理,除了可節省人力和時間成本,還能確保訓練語料與來源語料完全地同步,進而可提昇語音轉換模型的訓練及轉換品質。

Description

改善構音異常語音理解度之系統與方法
本發明係關於一種構音異常語音轉換技術,特別是有關於一種改善構音異常語音理解度之系統與方法。
根據美國語言聲學學會(ASHA)之研究報告指出,構音異常患者在美國約有500多萬人,其中較為常見的有中風(stroke)、腦性麻痺(cerebral palsy)、帕金森氏症(Parkinson’s disease)。構音異常是種腦神經退化的疾病,其特徵為說話所需的力量、速度、穩定性、音調產生異常,造成口齒不清、無法理解語句,進而影響生活品質。經過長達百年以上的研究,現今雖然已經發展出延緩神經退化的相關藥物及改善肌肉控制能力的復健治療,但其效果會因人而異,通常沒有實質上的改善。
有鑑於此,後續有研究者提出藉由語音轉換相關技術,將患者的語音經由語音轉換模型轉換成正常人的語音,藉此強化病人語音清晰度、理解度。然而,過去語音轉換流程裡的前置處理用在構音異常這方面的效果很差;同時,為了訓練出一個語音轉換模型,需要使用大量成對語料,訓練語料這部分往往因患者體力及發聲上的困難而取得不易。
透過聲音轉換系統將病患的語音澄析化,藉此改善他們的溝通障礙,過去常見的作法為「高斯混合模型(GMM)」和「深度神經網路(DNN)」。其中,「高斯混合模型(GMM)」是藉由擷取出來源與目標語者的語音特徵(例如,語速、音調),並找出兩者其特徵的關聯性,藉此作為來源特徵映射至目標的特徵之依據;而為了找出關聯性,因此,需要將來源與目標語句去作對齊的動作。另外,「深度神經網路(DNN)」是藉由將語音做音框化處理,再經由神經網路學習來源與目標兩者相同時域所對上的音框其關聯性。由於音框單位精細到毫秒為單位,因此,來源與目標語音內容之音框上的對齊稍有偏差,則其轉換效果都會有明顯的影響。
由上述得知「語音模型之訓練資料對齊」是影響轉換效果要素之一。在過去常見的技術中,「語料內容對齊」大都是藉由分析兩者語料的時域關聯性來做。舉例來說,動態時間校正(Dynamic Time Warping,DTW)是一種計算兩個不同長度的時間序列相似度的方法,在時間軸上進行局部的縮放,使得兩個序列的狀態盡可能一致;而基週同步疊加法(Pitch Synchronous Overlap and Add,PSOLA)是一種用於語音合成的數位訊號處理技術,通過將語音訊號分成數個音框,再藉由重疊的方式來改變訊號的音調或持續時間。
在傳統的語音轉換系統中,訓練語料的對齊常能帶來更好的訓練與轉換品質,因此相關的語音對齊技術(如上述的DTW、PSOLA等)常被運用在訓練語料的前置處理上。然而,這類的語音對齊技術沒有辦法達到完全對齊,其所產出之非完全對齊語料,用於構音異常病患的語音轉換系統10上,如第1圖所示,由於病患的語音通常含糊不清,上述語音對齊技術40所能達到的轉換效果有限,容易出現爆音或者是缺漏的現象。因此,於實際應用上,常需要透過手動的方法將來源語料20與目標語料30內容作對齊,而付出很高的人力及時間成本。
本發明的主要目的在於提供一種改善構音異常語音理解度之系統與方法,使用者只需提供一組來源與目標語者的成對語料,透過構音異常化模組產生一組與來源語料完全同步之新的語料,以作為構音異常病患語音轉換系統之訓練語料,完成語音轉換模型的訓練,藉以提昇模型的訓練及轉換品質。
本發明的另一目的在於提供一種改善構音異常語音理解度之系統與方法,以構音異常化模組產生訓練用同步語料的方式,無須再透過傳統的語料對齊技術作前置處理,可以節省手動對齊的人力及時間成本,同時,使整個產生語料的過程可以達到自動化。
為了實現上述目的,本發明提出一種改善構音異常語音理解度之系統,其由構音異常化模組與語音轉換模型訓練器所構成。其中,構音異常化模組接收包含對應的來源語料與目標語料的一組成對語料,並將此組成對語料轉換為同步語料。而語音轉換模型訓練器則接收來源語料與同步語料以作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練。
另外,本發明也提出一種改善構音異常語音理解度之方法,其步驟是先提供包含對應的來源語料與目標語料的一組成對語料;再將此組成對語料轉換為同步語料;然後,將來源語料與同步語料作為一組訓練語料,使用此組訓練語料進行語音轉換模型之訓練。
根據本發明之實施例,將成對語料轉換為同步語料的方法是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或者,也可藉由擷取複數語音特徵參數並透過語音合成技術來實現。
根據本發明之實施例,使用訓練語料進行語音轉換模型之訓練的方法是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現。
根據本發明所提供的改善構音異常語音理解度之系統與方法,透過將來源語料加工而成的新的語料作為訓練語料的方式,能確保新的語料與來源語料完全同步,使得語音轉換模型的訓練及轉換品質得以提昇。再者,本發明不需要使用傳統的語料對齊技術進行前置處理,不僅節省了手動對齊的人力及時間成本,同時,也使整個語料的產生過程達到自動化。
底下藉由具體實施例配合所附的圖式詳加說明,當更容易瞭解本發明之目的、技術內容、特點及其所達成之功效。
本發明所提供的改善構音異常語音理解度之系統與方法,不同於傳統的語音轉換系統在進行轉換模型訓練之前,會先透過一般語音對齊技術(如DTW、PSOLA等)對訓練語料做對齊,而是採用了一個構音異常化模組取代了傳統的語音轉換系統中語音對齊的相關技術,可自動產生用於轉換模型訓練的同步語料,免於透過語音對齊技術或手動方式對訓練語料做對齊,除了節省了大量時間及人力成本,更可使訓練語料完全地同步。
請參照第2圖,為本發明實施例提供的改善構音異常語音理解度之方法的實現流程,其包括以下步驟:
在步驟S101中,提供包含對應的一來源語料與一目標語料的一組成對語料。
在本發明之實施例中,採集來自參考者的語音訊號作為來源語料,以及來自目標語者(即,構音異常病患)的語音訊號作為目標語料。
在步驟S102中,將採集到的成對語料轉換為一同步語料。
在本發明之實施例中,此同步語料為成對語料轉換後所產生的新語料,可說是由來源語料加工而來,保留了原來的語速,因而能確保所產生的新語料與來源語料在音框上完全同步。
在本發明之實施例中,將成對語料轉換為同步語料的步驟可透過基於高斯混合模型(GMM)之語音轉換系統來實現,也可透過基於深度神經網路(DNN)之語音轉換系統來實現,或者,更可藉由擷取複數語音特徵參數並透過語音合成技術來實現;這些語音特徵參數具體包括有頻率擾動度(jitter)和振幅擾動度(shimmer)等。
在步驟S103中,將原本的來源語料與新產生的同步語料作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練,透過訓練出來的語音轉換模型,達到改善構音異常語音理解度之目的。
在本發明之實施例中,使用訓練語料進行語音轉換模型之訓練的步驟可透過基於高斯混合模型(GMM)之語音轉換系統來實現,或者,也可透過基於深度神經網路(DNN)之語音轉換系統來實現。
請參照第3圖,為本發明實施例提供的改善構音異常語音理解度之系統架構;為了便於說明,僅示出了與本發明實施例相關的部份。此改善構音異常語音理解度之系統100包括一構音異常化模組110和一語音轉換模型訓練器120。
構音異常化模組110,用於接收來自參考者之語音訊號的來源語料111,以及來自目標語者(即,構音異常病患)之語音訊號的目標語料112,並將包含對應的來源語料111與目標語料112的一組成對語料轉換為一同步語料113。
在本發明之實施例中,構音異常化模組110可透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,另外,亦可藉由擷取複數語音特徵參數並透過語音合成技術來實現;這些語音特徵參數具體包括頻率擾動度(jitter)和振幅擾動度(shimmer)等。
而語音轉換模型訓練器120,用於接收來源語料111與同步語料113以作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練,藉此提昇語音轉換模型的訓練與轉換品質。
在本發明之實施例中,語音轉換模型訓練器120可透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現。
請參照第4圖和第5圖,分別示意傳統的構音異常語音轉換系統和本發明之實施例如何將構音異常病患的來源語料進行轉換來獲得改良語料。如第4圖所示,在傳統用於構音異常病患的語音轉換系統中,通常要透過一般語音對齊技術(如DTW、PSOLA)的前置處理將來源語料與目標語料的特徵對齊,其語音轉換後的改良語料在音框上的對齊會有些微誤差。另如第5圖所示,本發明的使用者只需提供包括來源語料與目標語料的一對成對語料,系統便可產生一組和來源語料在音框上完全同步的新的語料,以作為語音轉換模型的訓練語料,使得語音轉換模型的訓練和轉換後的改良語料之品質得以大幅提昇。
綜上所述,根據本發明所揭露的改善構音異常語音理解度之系統與方法,透過構音異常化模組產生訓練用同步語料的方式,與傳統的方式相比,除了不再需要傳統的語音轉換系統中的語音對齊技術對訓練語料做前置處理,節省了手動對齊的人力及時間成本,更使得整個語料的產生過程可以達到自動化。此外,由於透過構音異常化模組生成的同步語料是由來源語料加工而來,保留了原來的語速,因而能確保新產生的同步語料與來源語料完全同步,系統便可將此同步語料和來源語料作為訓練語料,完成參考者和目標語者(構音異常病患)語音轉換模型的訓練,達到改善構音異常語音理解度。同時,本發明也證實了的確可進一步提昇語音轉換模型的訓練及轉換品質。
以上所述之實施例僅係為說明本發明之技術思想及特點,其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施,當不能以之限定本發明之專利範圍,即大凡依本發明所揭示之精神所作之均等變化或修飾,仍應涵蓋在本發明之專利範圍內。
10:語音轉換系統 20:來源語料 30:目標語料 40:語音對齊技術 100:改善構音異常語音理解度之系統 110:構音異常化模組 111:來源語料 112:目標語料 113:同步語料 120:語音轉換模型訓練器
第1圖為傳統的構音異常語音轉換系統的示意圖。 第2圖為本發明實施例提供的改善構音異常語音理解度之方法的流程示意圖。 第3圖為本發明實施例提供的改善構音異常語音理解度之系統的方塊示意圖。 第4圖為傳統的構音異常語音轉換系統如何產生改良語料的示意圖。 第5圖為本發明實施例之改善構音異常語音理解度之系統如何產生改良語料的示意圖。
100:改善構音異常語音理解度之系統
110:構音異常化模組
111:來源語料
112:目標語料
113:同步語料
120:語音轉換模型訓練器

Claims (8)

  1. 一種改善構音異常語音理解度之系統,包含:一構音異常化模組,接收包含對應的一來源語料與一目標語料的一組成對語料,並將該組成對語料轉換為一同步語料,該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號;以及一語音轉換模型訓練器,接收該來源語料與該同步語料以作為一組訓練語料,使用該組訓練語料進行一語音轉換模型之訓練;其中,該構音異常化模組將該組成對語料轉換為該同步語料是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
  2. 如請求項1所述之改善構音異常語音理解度之系統,其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
  3. 如請求項1所述之改善構音異常語音理解度之系統,其中該語音轉換模型訓練器是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
  4. 如請求項1所述之改善構音異常語音理解度之系統,其中該語音轉換模型訓練器是透過基於深度神經網路(DNN)之語音轉換系統來實現。
  5. 一種改善構音異常語音理解度之方法,包含下列步驟:提供包含對應的一來源語料與一目標語料的一組成對語料,該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號;將該組成對語料轉換為一同步語料;以及將該來源語料與該同步語料作為一組訓練語料,使用該組訓練語料進行一語音轉換模型之訓練; 其中,將該組成對語料轉換為該同步語料的步驟是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
  6. 如請求項5所述之改善構音異常語音理解度之方法,其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
  7. 如請求項5所述之改善構音異常語音理解度之方法,其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
  8. 如請求項5所述之改善構音異常語音理解度之方法,其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於深度神經網路(DNN)之語音轉換系統來實現。
TW108111066A 2019-03-28 2019-03-28 改善構音異常語音理解度之系統與方法 TWI754804B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW108111066A TWI754804B (zh) 2019-03-28 2019-03-28 改善構音異常語音理解度之系統與方法
JP2019147606A JP2020166224A (ja) 2019-03-28 2019-08-09 構音障害の音声明瞭度の改善システム及びその方法
US16/545,898 US11328709B2 (en) 2019-03-28 2019-08-20 System for improving dysarthria speech intelligibility and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108111066A TWI754804B (zh) 2019-03-28 2019-03-28 改善構音異常語音理解度之系統與方法

Publications (2)

Publication Number Publication Date
TW202036535A TW202036535A (zh) 2020-10-01
TWI754804B true TWI754804B (zh) 2022-02-11

Family

ID=72604660

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108111066A TWI754804B (zh) 2019-03-28 2019-03-28 改善構音異常語音理解度之系統與方法

Country Status (3)

Country Link
US (1) US11328709B2 (zh)
JP (1) JP2020166224A (zh)
TW (1) TWI754804B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320736B (zh) * 2018-01-31 2023-09-01 常熟理工学院 脑瘫康复机器人语音语义训练系统及方法
US11335324B2 (en) * 2020-08-31 2022-05-17 Google Llc Synthesized data augmentation using voice conversion and speech recognition models
TWI780738B (zh) * 2021-05-28 2022-10-11 宇康生科股份有限公司 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置
JP2023036486A (ja) * 2021-09-02 2023-03-14 パナソニックホールディングス株式会社 構音異常検出方法、構音異常検出装置、及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170053665A1 (en) * 2015-08-19 2017-02-23 Massachusetts Institute Of Technology Assessing disorders through speech and a computation model
CN107045876A (zh) * 2016-12-30 2017-08-15 南京邮电大学 一种基于语音的帕金森症严重程度诊断方法
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
WO2017190674A1 (zh) * 2016-05-04 2017-11-09 腾讯科技(深圳)有限公司 一种音频数据的处理方法、装置及计算机存储介质
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
US20180254035A1 (en) * 2017-03-03 2018-09-06 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统
WO2016209888A1 (en) * 2015-06-22 2016-12-29 Rita Singh Processing speech signals in voice-based profiling
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170053665A1 (en) * 2015-08-19 2017-02-23 Massachusetts Institute Of Technology Assessing disorders through speech and a computation model
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
WO2017190674A1 (zh) * 2016-05-04 2017-11-09 腾讯科技(深圳)有限公司 一种音频数据的处理方法、装置及计算机存储介质
CN107045876A (zh) * 2016-12-30 2017-08-15 南京邮电大学 一种基于语音的帕金森症严重程度诊断方法
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
US20180254035A1 (en) * 2017-03-03 2018-09-06 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition

Also Published As

Publication number Publication date
US11328709B2 (en) 2022-05-10
TW202036535A (zh) 2020-10-01
US20200312302A1 (en) 2020-10-01
JP2020166224A (ja) 2020-10-08

Similar Documents

Publication Publication Date Title
TWI754804B (zh) 改善構音異常語音理解度之系統與方法
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN104867489B (zh) 一种模拟真人朗读发音的方法及系统
CN107301863A (zh) 一种聋哑儿童言语障碍康复方法及康复训练系统
US20160321953A1 (en) Pronunciation learning support system utilizing three-dimensional multimedia and pronunciation learning support method thereof
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN113436606B (zh) 一种原声语音翻译方法
Herbst et al. Using electroglottographic real-time feedback to control posterior glottal adduction during phonation
Hu et al. Exploiting cross domain acoustic-to-articulatory inverted features for disordered speech recognition
Wu et al. Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network.
TW202247138A (zh) 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置
TWI749447B (zh) 同步語音產生裝置及其產生方法
CN108417198A (zh) 一种基于频谱包络和基音周期的男女语音转换方法
Toutios et al. Illustrating the Production of the International Phonetic Alphabet Sounds Using Fast Real-Time Magnetic Resonance Imaging.
Zheng et al. Improving the efficiency of dysarthria voice conversion system based on data augmentation
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
CN114550701A (zh) 一种基于深度神经网络的汉语电子喉语音转换装置及方法
CN107825433A (zh) 一种儿童语音指令识别的卡片机器人
CN113241065A (zh) 基于视觉面部轮廓运动的构音障碍语音识别方法及系统
CN208335209U (zh) 听障生融合教育课堂辅助系统及装置
US10388184B2 (en) Computer implemented method and system for training a subject's articulation
TWI746138B (zh) 構音異常語音澄析裝置及其方法
Nguyen et al. A Linguistic-based Transfer Learning Approach for Low-resource Bahnar Text-to-Speech
CN112992118B (zh) 一种少语料的语音模型训练及合成方法
Govender et al. Multi-MelGAN voice conversion for the creation of under-resourced child speech synthesis