TWI765541B - 語音合成配音系統 - Google Patents

語音合成配音系統 Download PDF

Info

Publication number
TWI765541B
TWI765541B TW110102530A TW110102530A TWI765541B TW I765541 B TWI765541 B TW I765541B TW 110102530 A TW110102530 A TW 110102530A TW 110102530 A TW110102530 A TW 110102530A TW I765541 B TWI765541 B TW I765541B
Authority
TW
Taiwan
Prior art keywords
speech
acoustic
voice
synthesis
target
Prior art date
Application number
TW110102530A
Other languages
English (en)
Other versions
TW202230330A (zh
Inventor
柳有駿
蔡芳升
Original Assignee
賽微科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 賽微科技股份有限公司 filed Critical 賽微科技股份有限公司
Priority to TW110102530A priority Critical patent/TWI765541B/zh
Priority to CN202210026850.3A priority patent/CN114822486A/zh
Priority to US17/578,897 priority patent/US20220238095A1/en
Application granted granted Critical
Publication of TWI765541B publication Critical patent/TWI765541B/zh
Publication of TW202230330A publication Critical patent/TW202230330A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

一種語音合成配音系統,包括一語音輸入單元,係取得一語音資訊;一輸入單元,係取得一目標文字資訊及一參數調整指令;一處理單元,包括:一聲學模組,取得該語音資訊之一語音特徵向量及一聲學參數;一文字音素分析模組,依據該目標文字資訊以分析對應該目標文字資訊之一音素序列;一音訊合成單元,係依據該參數調整指令以調整該語音資訊之該聲學參數,並將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。

Description

語音合成配音系統
本發明是有關於一種將未知語者的音檔提取出其語者向量的演算法,並分離出聲學參數且將糾纏的聲學參數分離量化的演算法,並對聲學參數做可人為控制的語音合成配音系統。
現今的語音合成(Text-To-Speech,TTS)系統,在多語者方面,為了讓合成的語音能盡量與原語者相同,需要提取語者的語音特徵,如:音色、韻律、情緒、語速…等,其提取方式大致分為兩種,一種是利用長時間訓練完成的語者辨識模型,將其把語者的語音特徵編碼為一個語音特徵向量(Speaker Vector,SV)的演算法直接拿來使用。另一種則是將語者編號,透過長時間訓練語言模型後生成一個語者表格(speaking embedding lookup table),以查詢表格的形式,找到相對應的語者並取出其語音特徵向量(Speaker Vector,SV)。
其中第一種方法,由於語者辨識強調不論語者們的音色再相近,都要有能夠分辨語者的能力,因此利用此方法獲得的語音特徵向量(Speaker Vector,SV)即使是人耳分辨不出差異的聲音,都會被分類成截然不同的語音特徵向量(Speaker Vector,SV), 這便不利於語音合成的使用,因為要合成出相似的語者的聲音,所需要的語音特徵向量(Speaker Vector,SV)也該是相近的,這也代表此方法所得到的語音特徵向量(Speaker Vector,SV)並不完全包含這個語者的所有特徵。
第二種方法,由於訓練後的模型其表格是固定的,所以模型的擴充性非常低,只能合成出表格中已存在的語者的語音,如果需要有新的語者加入,則需再收集新語者的語音資料,並將整個模型重新訓練,這將會非常耗時,阻礙了客製化語音合成(Text-To-Speech,TTS)模型的發展。
另外現今客製化語音合成(Text-To-Speech,TTS)模型都是建立在神經網路之上,因為神經網路的自適應性,在語音資料沒有提供確切相對應的物理量的情況下,所得到的語音特徵參數是糾纏在一起的,亦即無法針對特定特徵(音色、韻律、情緒、語速…等)做個別調整。而其相對應的物理量又較難以量化,或者量化方式存在一定的誤差,故難以達成可調控的客製化語音合成(Text-To-Speech,TTS)模型系統。
本發明提供一種語音合成配音系統,透過固定的語音合成模型減少了收集語音資料已經訓練模型的時間和金錢成本並提高模型的泛用性。
本發明提出一種語音合成配音系統,包括:一語音輸入單元,係取得一語音資訊;一輸入單元,係取得一目標 文字資訊及一參數調整指令;一處理單元,包括:一聲學模組,取得該語音資訊之一語音特徵向量及一聲學參數;一文字音素分析模組,依據該目標文字資訊以分析對應該目標文字資訊之一音素序列;一音訊合成單元,係依據該參數調整指令以調整該語音資訊之該聲學參數,並將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。
在本發明之一實施例中,上述之處理單元更包括一語音特徵擷取模組、一語音狀態分析模組及一語音匹配模組。
在本發明之一實施例中,上述之語音特徵擷取模組依據該語音資訊,將對應該語音資訊的一語音特徵轉換為一語音特徵向量。
在本發明之一實施例中,上述之語音狀態分析模組係用以取得該聲學參數。
在本發明之一實施例中,上述之音訊合成單元導入一神經網路模型,並依據該語音特徵向量及該聲學參數,以訓練該神經網路模型,以建立一語音合成模型。
在本發明之一實施例中,上述之音訊合成單元將一語音資料庫之一目標語音檔案輸入該聲學模組中,並透過該神經網路模型正向傳播取得一目標語音特徵向量及一目標聲學參數。
在本發明之一實施例中,上述之音訊合成單元依據該目標語音特徵向量及該目標聲學參數,正向傳播一預測目標音檔。
在本發明之一實施例中,上述之處理單元計算該預測目標音檔及該目標語音檔案之一誤差值。
在本發明之一實施例中,上述之神經網路模型依據該誤差值以反向傳播該誤差值並依據該誤差值以調整該神經網路模型之該音訊合成單元及該聲學模組。
本發明提出一種語音合成配音系統,包括:一語音輸入單元,係取得一語音資訊;一輸入單元,係取得一目標文字資訊及一參數調整指令;一處理單元,包括:一聲學模組,取得該語音資訊之一語音特徵向量及一聲學參數;一文字音素分析模組,依據該目標文字資訊以分析對應該目標文字資訊之一音素序列;一音訊合成單元,係將該參數調整指令導入一語音合成模型以調整該語音資訊之該聲學參數,並結合該目標文字資訊形成一合成音訊。
本發明僅需訓練一個固定的語音合成模型,給予指定語者的少量語音資料(1至10句)或是自行設定一個語者語音特徵向量(Speaker Vector,SV)及相對應的語音特徵參數,就可在所有情境中使用,大量減少了收集語音資料已經訓練模型的時間和金錢成本並提高模型的泛用性,也提供語者做跨語言轉換的方式。
110:語音輸入單元
120:輸入單元
130:處理單元
140:音訊合成單元
141:合成語音
150:聲學模組
160:文字音素分析模組
211:音檔文字
270:資料庫
S310~S330:步驟流程
S410~S480:步驟流程
圖1是本發明之元件方塊示意圖。
圖2是本發明之語音合成模型之訓練架構示意圖。
圖3是本發明之聲學模組的步驟流程圖。
圖4是本發明之語音合成配音系統的較佳實施例之步驟流程圖。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式,作詳細說明如下。
圖1是本發明之元件方塊示意圖。在圖1中,語音合成配音系統,包括:一語音輸入單元110、一輸入單元120、一處理單元130及一音訊合成單元140。
語音輸入單元110透過音訊收集裝置以取得語者的語音資訊。輸入單元120可以是鍵盤、滑鼠、手寫板或其他各種可輸入文字之裝置,主要是用以取得一目標文字資訊以及在音訊合成最後階段時的一參數調整指令。
處理單元130至少包括:一聲學模組150及一文字音素分析模組160。聲學模組150更包括一語音特徵擷取模組、一語音狀態分析模組及一語音匹配模組,聲學模組150取得該語音資訊之一語音特徵向量及一聲學參數,更進一步來說,語音特徵擷取模組主要依據該語音資訊,將對應該語音資訊的一語音特徵轉換為該語音特徵向量;語音狀態分析模組係用以取得該聲學參數;文字音素分析模組160依據目標文字資訊以分析對應目標文 字資訊之一音素序列。
請同時參閱圖2,圖2是本發明之語音合成模型之訓練架構示意圖。音訊合成單元140係導入一神經網路模型,並依據語音特徵向量及聲學參數,訓練神經網路模型,以建立一語音合成模型,在該神經網路模型的訓練過程中,音訊合成單元140將一資料庫270之一目標語音檔案輸入聲學模組150中,並透過該神經網路模型正向傳播取得一目標語音特徵向量及一目標聲學參數,音訊合成單元140依據目標語音特徵向量、目標聲學參數及對應的音檔文字211,正向傳播一合成語音141,這裡的合成語音是一個預測目標音檔,處理單元130計算預測目標音檔及目標語音檔案之一誤差值,神經網路模型依據該誤差值以反向傳播該誤差值並依據該誤差值以調整音訊合成單元140及聲學模組150,更進一步來說,透過誤差值以在訓練神經網路模型的過程中調整各項參數,使訓練後的語音合成模型能將誤差降到最低。藉此,當音訊合成單元140所導入的語音資訊依據該參數調整指令調整該語音資訊之該聲學參數後,將調整該聲學參數後的該語音資訊結合該目標文字資訊形成一合成音訊。
訓練完成後語音合成器之接受語者特徵及聲學特徵包含:語音特徵提取模型之輸出特徵;語音特徵提取模型之輸出特徵以需求微調;依需求自訂義特徵。
圖3是本發明之聲學模組的音訊分析步驟流程 圖。
步驟S310:取得語音音檔;
步驟S320:導入語音特徵模型;
步驟S330:取得聲學參數及聲音特徵向量;
於本實施例中,聲學模組也可以透過導入神經網路模型的方式來進行聲音特徵擷取的模型,依據聲學參數及聲音特徵向量,以訓練深層神經網路模型,以建立語音特徵模型。
其中,聲學模組獲得訓練資料,包含大量的語者音檔;以其音檔資訊進行一機器學習程序,以訓練出一語音特徵提取模型;以及利用該語音特徵提取模型,針對一輸入音檔進行語音特徵提取,以提取出語者特徵及該音檔對應聲學特徵。其中該語音特徵提取模型包含複數個權重之摺積(Convolution)運算及注意力模型(Attention Model),訓練資料之語者音檔包含一種或以上的語言。
於本實施例中,語者音檔特徵為可分離獨立參數,語者音檔特徵包含但不限於,性別、音色、高亢程度、低沉程度、甜美程度、磁性程度、渾厚程度、頻譜包絡(Spectral Envelope)、平均頻率、頻譜質心(Spectral Centroid)、頻譜散布度(Spectral Spread)、頻譜平坦度(Spectral flatness)、頻譜滑動(Spectral rolloff)、頻譜變遷(Spectral flux),調音部位:唇、舌冠、舌背、喉音,調音方式:雙唇、唇齒、舌唇、齒、齒齦、齒後、捲舌、齦齶、硬齶、軟齶、小舌、咽、會厭、聲門等使用方式。
於本實施例中,聲學特徵為可分離獨立參數,聲學特徵包含但不限於音量、音高、語速、音長(duration)、速度、間隔、韻律、開心程度、難過程度、生氣程度、疑問程度、喜悅程度、憤怒程度、悲傷程度、恐懼程度、厭惡程度、驚奇程度、羨慕程度。
圖4是本發明之語音合成配音系統的較佳實施例之步驟流程圖。當模型已訓練完成後,僅需要單句音檔即可透過聲學處理器得到語音特徵向量(Speaker Vector,SV)和聲學參數,此時可以選擇使用音檔的聲學狀態或是自行設定參數,便能以該音檔之語者的聲音,合成出任意情緒、速度、音高…等等的句子且此音檔不須是屬於已知的語者。其主要步驟如下:
合成範例如:若想以第1位語者的聲音,以較慢的速度講出“防疫期間請確實遵守各項防疫措施”時,須包含下列步驟;
步驟S410:取得欲合成之音檔,即錄製一段第1位語者任意語言和句子的語音,如:“今天天氣很好”。
步驟S420:利用聲學處理器分析,即將語音轉換為頻譜或直接輸入至聲學處理器提取各項特徵;
步驟S430:取得第1位語者聲音的聲學參數;
步驟S450:調降速度項參數,其餘參數不變;
步驟S460:將欲合成文字轉換為音素(phone)的 形式;
步驟S470:將步驟S450之參數及步驟S460之音素輸入至TTS合成器中;
步驟S480:輸出合成語音。意即輸出一段以第1位語者的語音說(唸)出“防疫期間請確實遵守各項防疫措施”的標語。
綜上所述,本發明具有下列優點:
1.透過新型的語者編碼技術,從而得到可泛用的語音特徵向量(Speaker Vector,SV),並應用於語音合成(Text-To-Speech,TTS)模型,使語音合成(Text-To-Speech,TTS)模型可適應未知的語者,甚至可自行生成語者。
2.可使原始音檔與生成語音間做跨語言輸出。
3.可量化各項聲學特徵且可控制的語音合成(Text-To-Speech,TTS)模型。
雖然本發明以前述實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,所作更動與潤飾之等效替換,仍為本發明之專利保護範圍內。
110:語音輸入單元
120:輸入單元
130:處理單元
140:音訊合成單元
150:聲學模組
160:文字音素分析模組

Claims (9)

  1. 一種語音合成配音系統,包括:一語音輸入單元,係取得一語音資訊;一輸入單元,係取得一目標文字資訊及一參數調整指令;一處理單元,包括:一聲學模組,取得該語音資訊之一語音特徵向量及一聲學參數;一文字音素分析模組,依據該目標文字資訊以分析對應該目標文字資訊之一音素序列;一音訊合成單元,係依據該參數調整指令以調整該語音資訊之該聲學參數,並依據該目標文字資訊之該音素序列,與調整該聲學參數後的該語音資訊進行合成,以產生一合成音訊;其中,該音訊合成單元導入一神經網路模型,並依據該語音特徵向量及該聲學參數,訓練該神經網路模型,以建立一語音合成模型;其中,該聲學參數包含但不限於音量、音高、語速、音長、速度、間隔、韻律、開心程度、難過程度、生氣程度、疑問程度、喜悅程度、憤怒程度、悲傷程度、恐懼程度、厭惡程度、驚奇程度、羨慕程度。
  2. 如申請專利範圍第1項所述之語音合成配音系統,其中該聲學模組更包括一語音特徵擷取模組、一語音狀態分析模組及一語音匹配模組。
  3. 如申請專利範圍第2項所述之語音合成配音系統,其中該語音特徵擷取模組依據該語音資訊,將對應該語音資訊的一語音特徵轉換為該語音特徵向量。
  4. 如申請專利範圍第2項所述之語音合成配音系統,其中該語音狀態分析模組係用以取得該聲學參數。
  5. 如申請專利範圍第1項所述之語音合成配音系統,其中該音訊合成單元將一語音資料庫之一目標語音檔案輸入該聲學模組中,並透過該神經網路模型正向傳播取得一目標語音特徵向量及一目標聲學參數。
  6. 如申請專利範圍第5項所述之語音合成配音系統,其中該音訊合成單元依據該目標語音特徵向量及該目標聲學參數,正向傳播一預測目標音檔。
  7. 如申請專利範圍第6項所述之語音合成配音系統,其中該處理單元計算該預測目標音檔及該目標語音檔案之一誤差值。
  8. 如申請專利範圍第7項所述之語音合成配音系統,其中該神經網路模型依據該誤差值以反向傳播該誤差值,並依據該誤差值以調整該神經網路模型之該音訊合成單元及該聲學模組。
  9. 一種語音合成配音系統,包括:一語音輸入單元,係取得一語音資訊;一輸入單元,係取得一目標文字資訊及一參數調整指令;一處理單元,包括:一聲學模組,取得該語音資訊之一語音特徵向量及一聲 學參數;一文字音素分析模組,依據該目標文字資訊以分析對應該目標文字資訊之一音素序列;一音訊合成單元,係將該參數調整指令導入一語音合成模型以調整該語音資訊之該聲學參數,並結合該目標文字資訊形成一合成音訊;其中,該音訊合成單元導入一神經網路模型,並依據該語音特徵向量及該聲學參數,訓練該神經網路模型,以建立該語音合成模型;其中,該聲學參數包含但不限於音量、音高、語速、音長、速度、間隔、韻律、開心程度、難過程度、生氣程度、疑問程度、喜悅程度、憤怒程度、悲傷程度、恐懼程度、厭惡程度、驚奇程度、羨慕程度。
TW110102530A 2021-01-22 2021-01-22 語音合成配音系統 TWI765541B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW110102530A TWI765541B (zh) 2021-01-22 2021-01-22 語音合成配音系統
CN202210026850.3A CN114822486A (zh) 2021-01-22 2022-01-11 语音合成配音系统
US17/578,897 US20220238095A1 (en) 2021-01-22 2022-01-19 Text-to-speech dubbing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110102530A TWI765541B (zh) 2021-01-22 2021-01-22 語音合成配音系統

Publications (2)

Publication Number Publication Date
TWI765541B true TWI765541B (zh) 2022-05-21
TW202230330A TW202230330A (zh) 2022-08-01

Family

ID=82494875

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110102530A TWI765541B (zh) 2021-01-22 2021-01-22 語音合成配音系統

Country Status (3)

Country Link
US (1) US20220238095A1 (zh)
CN (1) CN114822486A (zh)
TW (1) TWI765541B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1280697A (zh) * 1998-02-03 2001-01-17 西门子公司 传输语音数据的方法
US20040120554A1 (en) * 2002-12-21 2004-06-24 Lin Stephen Ssu-Te System and method for real time lip synchronization
TW201612773A (en) * 2014-05-30 2016-04-01 Apple Inc Multi-command single utterance input method
US20200169591A1 (en) * 2019-02-01 2020-05-28 Ben Avi Ingel Systems and methods for artificial dubbing
TWM611494U (zh) * 2021-01-22 2021-05-01 賽微科技股份有限公司 語音合成配音系統

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1280697A (zh) * 1998-02-03 2001-01-17 西门子公司 传输语音数据的方法
US20040120554A1 (en) * 2002-12-21 2004-06-24 Lin Stephen Ssu-Te System and method for real time lip synchronization
TW201612773A (en) * 2014-05-30 2016-04-01 Apple Inc Multi-command single utterance input method
US20200169591A1 (en) * 2019-02-01 2020-05-28 Ben Avi Ingel Systems and methods for artificial dubbing
TWM611494U (zh) * 2021-01-22 2021-05-01 賽微科技股份有限公司 語音合成配音系統

Also Published As

Publication number Publication date
TW202230330A (zh) 2022-08-01
CN114822486A (zh) 2022-07-29
US20220238095A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
He et al. Open-source multi-speaker speech corpora for building Gujarati, Kannada, Malayalam, Marathi, Tamil and Telugu speech synthesis systems
CN106898340B (zh) 一种歌曲的合成方法及终端
US20140046667A1 (en) System for creating musical content using a client terminal
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
CN111161695B (zh) 歌曲生成方法和装置
KR20200145776A (ko) 음성보정 합성방법, 장치 및 프로그램
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
TWI605350B (zh) 文字轉語音方法以及多語言語音合成裝置
CN113470622A (zh) 一种可将任意语音转换成多个语音的转换方法及装置
TWM611494U (zh) 語音合成配音系統
TWI765541B (zh) 語音合成配音系統
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
TWI780738B (zh) 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
KR102457822B1 (ko) 자동 통역 장치 및 그 방법
KR101348906B1 (ko) 음성 합성기의 화속변경방법
TWI725608B (zh) 語音合成系統、方法及非暫態電腦可讀取媒體