TWI754804B - 改善構音異常語音理解度之系統與方法 - Google Patents
改善構音異常語音理解度之系統與方法 Download PDFInfo
- Publication number
- TWI754804B TWI754804B TW108111066A TW108111066A TWI754804B TW I754804 B TWI754804 B TW I754804B TW 108111066 A TW108111066 A TW 108111066A TW 108111066 A TW108111066 A TW 108111066A TW I754804 B TWI754804 B TW I754804B
- Authority
- TW
- Taiwan
- Prior art keywords
- corpus
- speech
- dysarthria
- improving
- training
- Prior art date
Links
- 206010013887 Dysarthria Diseases 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000001360 synchronised effect Effects 0.000 claims abstract description 29
- 238000005516 engineering process Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004770 neurodegeneration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000018737 Parkinson disease Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 206010008129 cerebral palsy Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000026473 slurred speech Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Percussion Or Vibration Massage (AREA)
- Electrically Operated Instructional Devices (AREA)
- Prostheses (AREA)
Abstract
一種改善構音異常語音理解度之系統與方法,使用者只需提供一組包括來源語料與目標語料的成對語料,便可透過構音異常化模組自動生成一組與來源語料完全同步之新產生的語料,以作為構音異常語音轉換模型之訓練語料。因此,本發明不需要使用傳統的語料對齊技術或手動方式對訓練語料作前置處理,除了可節省人力和時間成本,還能確保訓練語料與來源語料完全地同步,進而可提昇語音轉換模型的訓練及轉換品質。
Description
本發明係關於一種構音異常語音轉換技術,特別是有關於一種改善構音異常語音理解度之系統與方法。
根據美國語言聲學學會(ASHA)之研究報告指出,構音異常患者在美國約有500多萬人,其中較為常見的有中風(stroke)、腦性麻痺(cerebral palsy)、帕金森氏症(Parkinson’s disease)。構音異常是種腦神經退化的疾病,其特徵為說話所需的力量、速度、穩定性、音調產生異常,造成口齒不清、無法理解語句,進而影響生活品質。經過長達百年以上的研究,現今雖然已經發展出延緩神經退化的相關藥物及改善肌肉控制能力的復健治療,但其效果會因人而異,通常沒有實質上的改善。
有鑑於此,後續有研究者提出藉由語音轉換相關技術,將患者的語音經由語音轉換模型轉換成正常人的語音,藉此強化病人語音清晰度、理解度。然而,過去語音轉換流程裡的前置處理用在構音異常這方面的效果很差;同時,為了訓練出一個語音轉換模型,需要使用大量成對語料,訓練語料這部分往往因患者體力及發聲上的困難而取得不易。
透過聲音轉換系統將病患的語音澄析化,藉此改善他們的溝通障礙,過去常見的作法為「高斯混合模型(GMM)」和「深度神經網路(DNN)」。其中,「高斯混合模型(GMM)」是藉由擷取出來源與目標語者的語音特徵(例如,語速、音調),並找出兩者其特徵的關聯性,藉此作為來源特徵映射至目標的特徵之依據;而為了找出關聯性,因此,需要將來源與目標語句去作對齊的動作。另外,「深度神經網路(DNN)」是藉由將語音做音框化處理,再經由神經網路學習來源與目標兩者相同時域所對上的音框其關聯性。由於音框單位精細到毫秒為單位,因此,來源與目標語音內容之音框上的對齊稍有偏差,則其轉換效果都會有明顯的影響。
由上述得知「語音模型之訓練資料對齊」是影響轉換效果要素之一。在過去常見的技術中,「語料內容對齊」大都是藉由分析兩者語料的時域關聯性來做。舉例來說,動態時間校正(Dynamic Time Warping,DTW)是一種計算兩個不同長度的時間序列相似度的方法,在時間軸上進行局部的縮放,使得兩個序列的狀態盡可能一致;而基週同步疊加法(Pitch Synchronous Overlap and Add,PSOLA)是一種用於語音合成的數位訊號處理技術,通過將語音訊號分成數個音框,再藉由重疊的方式來改變訊號的音調或持續時間。
在傳統的語音轉換系統中,訓練語料的對齊常能帶來更好的訓練與轉換品質,因此相關的語音對齊技術(如上述的DTW、PSOLA等)常被運用在訓練語料的前置處理上。然而,這類的語音對齊技術沒有辦法達到完全對齊,其所產出之非完全對齊語料,用於構音異常病患的語音轉換系統10上,如第1圖所示,由於病患的語音通常含糊不清,上述語音對齊技術40所能達到的轉換效果有限,容易出現爆音或者是缺漏的現象。因此,於實際應用上,常需要透過手動的方法將來源語料20與目標語料30內容作對齊,而付出很高的人力及時間成本。
本發明的主要目的在於提供一種改善構音異常語音理解度之系統與方法,使用者只需提供一組來源與目標語者的成對語料,透過構音異常化模組產生一組與來源語料完全同步之新的語料,以作為構音異常病患語音轉換系統之訓練語料,完成語音轉換模型的訓練,藉以提昇模型的訓練及轉換品質。
本發明的另一目的在於提供一種改善構音異常語音理解度之系統與方法,以構音異常化模組產生訓練用同步語料的方式,無須再透過傳統的語料對齊技術作前置處理,可以節省手動對齊的人力及時間成本,同時,使整個產生語料的過程可以達到自動化。
為了實現上述目的,本發明提出一種改善構音異常語音理解度之系統,其由構音異常化模組與語音轉換模型訓練器所構成。其中,構音異常化模組接收包含對應的來源語料與目標語料的一組成對語料,並將此組成對語料轉換為同步語料。而語音轉換模型訓練器則接收來源語料與同步語料以作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練。
另外,本發明也提出一種改善構音異常語音理解度之方法,其步驟是先提供包含對應的來源語料與目標語料的一組成對語料;再將此組成對語料轉換為同步語料;然後,將來源語料與同步語料作為一組訓練語料,使用此組訓練語料進行語音轉換模型之訓練。
根據本發明之實施例,將成對語料轉換為同步語料的方法是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或者,也可藉由擷取複數語音特徵參數並透過語音合成技術來實現。
根據本發明之實施例,使用訓練語料進行語音轉換模型之訓練的方法是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現。
根據本發明所提供的改善構音異常語音理解度之系統與方法,透過將來源語料加工而成的新的語料作為訓練語料的方式,能確保新的語料與來源語料完全同步,使得語音轉換模型的訓練及轉換品質得以提昇。再者,本發明不需要使用傳統的語料對齊技術進行前置處理,不僅節省了手動對齊的人力及時間成本,同時,也使整個語料的產生過程達到自動化。
底下藉由具體實施例配合所附的圖式詳加說明,當更容易瞭解本發明之目的、技術內容、特點及其所達成之功效。
本發明所提供的改善構音異常語音理解度之系統與方法,不同於傳統的語音轉換系統在進行轉換模型訓練之前,會先透過一般語音對齊技術(如DTW、PSOLA等)對訓練語料做對齊,而是採用了一個構音異常化模組取代了傳統的語音轉換系統中語音對齊的相關技術,可自動產生用於轉換模型訓練的同步語料,免於透過語音對齊技術或手動方式對訓練語料做對齊,除了節省了大量時間及人力成本,更可使訓練語料完全地同步。
請參照第2圖,為本發明實施例提供的改善構音異常語音理解度之方法的實現流程,其包括以下步驟:
在步驟S101中,提供包含對應的一來源語料與一目標語料的一組成對語料。
在本發明之實施例中,採集來自參考者的語音訊號作為來源語料,以及來自目標語者(即,構音異常病患)的語音訊號作為目標語料。
在步驟S102中,將採集到的成對語料轉換為一同步語料。
在本發明之實施例中,此同步語料為成對語料轉換後所產生的新語料,可說是由來源語料加工而來,保留了原來的語速,因而能確保所產生的新語料與來源語料在音框上完全同步。
在本發明之實施例中,將成對語料轉換為同步語料的步驟可透過基於高斯混合模型(GMM)之語音轉換系統來實現,也可透過基於深度神經網路(DNN)之語音轉換系統來實現,或者,更可藉由擷取複數語音特徵參數並透過語音合成技術來實現;這些語音特徵參數具體包括有頻率擾動度(jitter)和振幅擾動度(shimmer)等。
在步驟S103中,將原本的來源語料與新產生的同步語料作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練,透過訓練出來的語音轉換模型,達到改善構音異常語音理解度之目的。
在本發明之實施例中,使用訓練語料進行語音轉換模型之訓練的步驟可透過基於高斯混合模型(GMM)之語音轉換系統來實現,或者,也可透過基於深度神經網路(DNN)之語音轉換系統來實現。
請參照第3圖,為本發明實施例提供的改善構音異常語音理解度之系統架構;為了便於說明,僅示出了與本發明實施例相關的部份。此改善構音異常語音理解度之系統100包括一構音異常化模組110和一語音轉換模型訓練器120。
構音異常化模組110,用於接收來自參考者之語音訊號的來源語料111,以及來自目標語者(即,構音異常病患)之語音訊號的目標語料112,並將包含對應的來源語料111與目標語料112的一組成對語料轉換為一同步語料113。
在本發明之實施例中,構音異常化模組110可透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,另外,亦可藉由擷取複數語音特徵參數並透過語音合成技術來實現;這些語音特徵參數具體包括頻率擾動度(jitter)和振幅擾動度(shimmer)等。
而語音轉換模型訓練器120,用於接收來源語料111與同步語料113以作為一組訓練語料,並使用此組訓練語料進行語音轉換模型之訓練,藉此提昇語音轉換模型的訓練與轉換品質。
在本發明之實施例中,語音轉換模型訓練器120可透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現。
請參照第4圖和第5圖,分別示意傳統的構音異常語音轉換系統和本發明之實施例如何將構音異常病患的來源語料進行轉換來獲得改良語料。如第4圖所示,在傳統用於構音異常病患的語音轉換系統中,通常要透過一般語音對齊技術(如DTW、PSOLA)的前置處理將來源語料與目標語料的特徵對齊,其語音轉換後的改良語料在音框上的對齊會有些微誤差。另如第5圖所示,本發明的使用者只需提供包括來源語料與目標語料的一對成對語料,系統便可產生一組和來源語料在音框上完全同步的新的語料,以作為語音轉換模型的訓練語料,使得語音轉換模型的訓練和轉換後的改良語料之品質得以大幅提昇。
綜上所述,根據本發明所揭露的改善構音異常語音理解度之系統與方法,透過構音異常化模組產生訓練用同步語料的方式,與傳統的方式相比,除了不再需要傳統的語音轉換系統中的語音對齊技術對訓練語料做前置處理,節省了手動對齊的人力及時間成本,更使得整個語料的產生過程可以達到自動化。此外,由於透過構音異常化模組生成的同步語料是由來源語料加工而來,保留了原來的語速,因而能確保新產生的同步語料與來源語料完全同步,系統便可將此同步語料和來源語料作為訓練語料,完成參考者和目標語者(構音異常病患)語音轉換模型的訓練,達到改善構音異常語音理解度。同時,本發明也證實了的確可進一步提昇語音轉換模型的訓練及轉換品質。
以上所述之實施例僅係為說明本發明之技術思想及特點,其目的在使熟習此項技藝之人士能夠瞭解本發明之內容並據以實施,當不能以之限定本發明之專利範圍,即大凡依本發明所揭示之精神所作之均等變化或修飾,仍應涵蓋在本發明之專利範圍內。
10:語音轉換系統
20:來源語料
30:目標語料
40:語音對齊技術
100:改善構音異常語音理解度之系統
110:構音異常化模組
111:來源語料
112:目標語料
113:同步語料
120:語音轉換模型訓練器
第1圖為傳統的構音異常語音轉換系統的示意圖。
第2圖為本發明實施例提供的改善構音異常語音理解度之方法的流程示意圖。
第3圖為本發明實施例提供的改善構音異常語音理解度之系統的方塊示意圖。
第4圖為傳統的構音異常語音轉換系統如何產生改良語料的示意圖。
第5圖為本發明實施例之改善構音異常語音理解度之系統如何產生改良語料的示意圖。
100:改善構音異常語音理解度之系統
110:構音異常化模組
111:來源語料
112:目標語料
113:同步語料
120:語音轉換模型訓練器
Claims (8)
- 一種改善構音異常語音理解度之系統,包含:一構音異常化模組,接收包含對應的一來源語料與一目標語料的一組成對語料,並將該組成對語料轉換為一同步語料,該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號;以及一語音轉換模型訓練器,接收該來源語料與該同步語料以作為一組訓練語料,使用該組訓練語料進行一語音轉換模型之訓練;其中,該構音異常化模組將該組成對語料轉換為該同步語料是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
- 如請求項1所述之改善構音異常語音理解度之系統,其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
- 如請求項1所述之改善構音異常語音理解度之系統,其中該語音轉換模型訓練器是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
- 如請求項1所述之改善構音異常語音理解度之系統,其中該語音轉換模型訓練器是透過基於深度神經網路(DNN)之語音轉換系統來實現。
- 一種改善構音異常語音理解度之方法,包含下列步驟:提供包含對應的一來源語料與一目標語料的一組成對語料,該對應的該來源語料和該目標語料係分別來自一參考者和一構音異常病患誦讀相同語句所提供的語音訊號;將該組成對語料轉換為一同步語料;以及將該來源語料與該同步語料作為一組訓練語料,使用該組訓練語料進行一語音轉換模型之訓練; 其中,將該組成對語料轉換為該同步語料的步驟是透過基於高斯混合模型(GMM)或深度神經網路(DNN)之語音轉換系統來實現,或藉由擷取複數語音特徵參數並透過語音合成技術來實現。
- 如請求項5所述之改善構音異常語音理解度之方法,其中該些語音特徵參數包括頻率擾動度(jitter)和振幅擾動度(shimmer)。
- 如請求項5所述之改善構音異常語音理解度之方法,其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於高斯混合模型(GMM)之語音轉換系統來實現。
- 如請求項5所述之改善構音異常語音理解度之方法,其中使用該組訓練語料進行一語音轉換模型之訓練的步驟是透過基於深度神經網路(DNN)之語音轉換系統來實現。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108111066A TWI754804B (zh) | 2019-03-28 | 2019-03-28 | 改善構音異常語音理解度之系統與方法 |
JP2019147606A JP2020166224A (ja) | 2019-03-28 | 2019-08-09 | 構音障害の音声明瞭度の改善システム及びその方法 |
US16/545,898 US11328709B2 (en) | 2019-03-28 | 2019-08-20 | System for improving dysarthria speech intelligibility and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108111066A TWI754804B (zh) | 2019-03-28 | 2019-03-28 | 改善構音異常語音理解度之系統與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202036535A TW202036535A (zh) | 2020-10-01 |
TWI754804B true TWI754804B (zh) | 2022-02-11 |
Family
ID=72604660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108111066A TWI754804B (zh) | 2019-03-28 | 2019-03-28 | 改善構音異常語音理解度之系統與方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11328709B2 (zh) |
JP (1) | JP2020166224A (zh) |
TW (1) | TWI754804B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320736B (zh) * | 2018-01-31 | 2023-09-01 | 常熟理工学院 | 脑瘫康复机器人语音语义训练系统及方法 |
US11335324B2 (en) * | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
TWI780738B (zh) * | 2021-05-28 | 2022-10-11 | 宇康生科股份有限公司 | 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置 |
JP2023036486A (ja) * | 2021-09-02 | 2023-03-14 | パナソニックホールディングス株式会社 | 構音異常検出方法、構音異常検出装置、及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170053665A1 (en) * | 2015-08-19 | 2017-02-23 | Massachusetts Institute Of Technology | Assessing disorders through speech and a computation model |
CN107045876A (zh) * | 2016-12-30 | 2017-08-15 | 南京邮电大学 | 一种基于语音的帕金森症严重程度诊断方法 |
US20170258390A1 (en) * | 2016-02-12 | 2017-09-14 | Newton Howard | Early Detection Of Neurodegenerative Disease |
WO2017190674A1 (zh) * | 2016-05-04 | 2017-11-09 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置及计算机存储介质 |
US20180197438A1 (en) * | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
US20180254035A1 (en) * | 2017-03-03 | 2018-09-06 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101399044B (zh) * | 2007-09-29 | 2013-09-04 | 纽奥斯通讯有限公司 | 语音转换方法和系统 |
WO2016209888A1 (en) * | 2015-06-22 | 2016-12-29 | Rita Singh | Processing speech signals in voice-based profiling |
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
-
2019
- 2019-03-28 TW TW108111066A patent/TWI754804B/zh active
- 2019-08-09 JP JP2019147606A patent/JP2020166224A/ja active Pending
- 2019-08-20 US US16/545,898 patent/US11328709B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170053665A1 (en) * | 2015-08-19 | 2017-02-23 | Massachusetts Institute Of Technology | Assessing disorders through speech and a computation model |
US20170258390A1 (en) * | 2016-02-12 | 2017-09-14 | Newton Howard | Early Detection Of Neurodegenerative Disease |
WO2017190674A1 (zh) * | 2016-05-04 | 2017-11-09 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置及计算机存储介质 |
CN107045876A (zh) * | 2016-12-30 | 2017-08-15 | 南京邮电大学 | 一种基于语音的帕金森症严重程度诊断方法 |
US20180197438A1 (en) * | 2017-01-10 | 2018-07-12 | International Business Machines Corporation | System for enhancing speech performance via pattern detection and learning |
US20180254035A1 (en) * | 2017-03-03 | 2018-09-06 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
Also Published As
Publication number | Publication date |
---|---|
US11328709B2 (en) | 2022-05-10 |
TW202036535A (zh) | 2020-10-01 |
US20200312302A1 (en) | 2020-10-01 |
JP2020166224A (ja) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI754804B (zh) | 改善構音異常語音理解度之系統與方法 | |
WO2022048405A1 (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN104867489B (zh) | 一种模拟真人朗读发音的方法及系统 | |
CN107301863A (zh) | 一种聋哑儿童言语障碍康复方法及康复训练系统 | |
US20160321953A1 (en) | Pronunciation learning support system utilizing three-dimensional multimedia and pronunciation learning support method thereof | |
CN110070855A (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN113436606B (zh) | 一种原声语音翻译方法 | |
Herbst et al. | Using electroglottographic real-time feedback to control posterior glottal adduction during phonation | |
Hu et al. | Exploiting cross domain acoustic-to-articulatory inverted features for disordered speech recognition | |
Wu et al. | Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network. | |
TW202247138A (zh) | 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置 | |
TWI749447B (zh) | 同步語音產生裝置及其產生方法 | |
CN108417198A (zh) | 一种基于频谱包络和基音周期的男女语音转换方法 | |
Toutios et al. | Illustrating the Production of the International Phonetic Alphabet Sounds Using Fast Real-Time Magnetic Resonance Imaging. | |
Zheng et al. | Improving the efficiency of dysarthria voice conversion system based on data augmentation | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
CN114550701A (zh) | 一种基于深度神经网络的汉语电子喉语音转换装置及方法 | |
CN107825433A (zh) | 一种儿童语音指令识别的卡片机器人 | |
CN113241065A (zh) | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 | |
CN208335209U (zh) | 听障生融合教育课堂辅助系统及装置 | |
US10388184B2 (en) | Computer implemented method and system for training a subject's articulation | |
TWI746138B (zh) | 構音異常語音澄析裝置及其方法 | |
Nguyen et al. | A Linguistic-based Transfer Learning Approach for Low-resource Bahnar Text-to-Speech | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 | |
Govender et al. | Multi-MelGAN voice conversion for the creation of under-resourced child speech synthesis |