TWI471854B - 引導式語者調適語音合成的系統與方法及電腦程式產品 - Google Patents
引導式語者調適語音合成的系統與方法及電腦程式產品 Download PDFInfo
- Publication number
- TWI471854B TWI471854B TW101138742A TW101138742A TWI471854B TW I471854 B TWI471854 B TW I471854B TW 101138742 A TW101138742 A TW 101138742A TW 101138742 A TW101138742 A TW 101138742A TW I471854 B TWI471854 B TW I471854B
- Authority
- TW
- Taiwan
- Prior art keywords
- model
- information
- phoneme
- document
- score
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000015572 biosynthetic process Effects 0.000 title claims description 52
- 238000003786 synthesis reaction Methods 0.000 title claims description 52
- 238000004590 computer program Methods 0.000 title claims description 19
- 230000003044 adaptive effect Effects 0.000 title description 3
- 230000006978 adaptation Effects 0.000 claims description 107
- 230000003595 spectral effect Effects 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001308 synthesis method Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000003066 decision tree Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本揭露係關於一種引導式語者調適(guided speaker adaptation)語音合成(speech synthesis)的系統與方法及電腦程式產品。
建立語者相關(speaker dependent)語音合成系統,不論是採用語料庫(corpus based)或是統計模型為主(statistical model based)等,通常需要在專業的錄音環境下,錄製大量、穩定且說話特性一致的聲音樣本,例如收錄大於2.5個小時,且聲音樣本控制在穩定一致的狀態的聲音樣本。基於隱藏式馬可夫模型(Hidden Markov Model,HMM)語音合成系統搭配語者調適技術可提供快速且穩定的個人化語音合成系統的建立方案。此技術藉由一預先建立好的初始語音模型,新的語者只要輸入少於約10分鐘的語料就可將一平均語音模型調適成具有個人音色特質的語音模型。
基於HMM架構的語音合成系統,如第一圖所示,一開始輸入一串文字,經過文本分析(Text Analysis)110可轉成文字轉語音(Text-To-Speech,TTS)系統可讀取的全標籤(full label)格式的字串112,例如sil-P14+P41/A:4^0/B:0+4/C:1=14/D:1@6。接著進行三種模型決策樹比對後,取得各個模型檔所對應的模型編號。此
三種模型決策樹為頻譜模型決策樹122、音長(duration)模型決策樹124、以及音高(pitch)模型決策樹126。每一模型決策樹決定出約有數百到數千個HMM模型,也就是說,頻譜模型決策樹決定出約有數百到數千個HMM頻譜模型、音高模型決策樹決定出約有數百到數千個HMM音高模型。例如,前述全標籤格式的字串sil-P14+P41/A:4^0/B:0+4/C:1=14/D:1@6轉成音素與模型資訊如下:音素:P14;狀態1至5的頻譜模型編號:123、89、22、232、12;狀態1至5的韻律模型編號:33、64、82、321、19。之後,參考這些音素與模型資訊來進行合成130。
語音合成技術不勝枚舉。一般的語者調適策略是語句越多越好,針對每個人說話特性不同並沒有設計最合適的調適內容。在現有的技術或文獻中,有些語者調適的演算法從少量的語料去調適全部的語音模型,並設計模型之間彼此共享調適資料的行為。理論上,每一語音模型代表了不同的聲音特性,所以過度共享不同特性的資料來進行語者調適,也會模糊化模型原本的特性而影響到合成的品質。
有的語音合成技術的語者調適策略是先區分語者相關特徵參數、以及語者無關特徵參數,再調整語者相關特徵後,整合之前的語者特徵無關參數後再進行合成。有的
語者調適策略是利用類似語音轉換技術來調適原始音高與共振峰。有的語者調適語音合成進行語者調適的演算法後,並無再探討相關的調適成果以及調適語句推薦的部分。有的語音合成技術在設計語料庫時,並無涉以涵蓋率與聲音失真度為準則的語句挑選方式。
有的語音合成技術如第二圖所示,在語者調適階段210中結合高層描述訊息,例如是上下文相關韻律訊息,共同來調適目標語者的頻譜、基頻與時長模型。此技術著重在加入高層描述訊息來進行語者調適,對於語者調適後的模型沒有進行任何評量或預測的動作。有的語音合成技術如第三圖所示,比較語者調適模型所合成的語音參數與真實語音的聽感誤差,並且採用基於生成參數聽感誤差最小化的準則回頭調整原始語者到目標語者的模型轉移矩陣。此技術是著重在改變語者調適演算法的估計法則,對於語者調適後的模型沒有進行任何評量或預測的動作。
上述或現有的語音合成技術中,有的僅由文字層面分析使用者應該輸入的資料,沒有考慮實際調適之後的結果。有的預設的文稿無法在事前就知道每一使用者(客戶端)最需要調適的地方在何處。文字層面的分析通常基於目標語言的音素類別而定,而非針對初始語音模型的架構而定。語音模型的分類常會使用到大量的語言學知識,僅基於音素的語音合成是無法窺探整個語音模型的全貌。所以該預設文稿無法讓語音模型間得到平均的語音資料來
進行估算,容易出現前述模型特性模糊化的現象。
因此,如何設計一種對於語者調適後的模型進行評量或預測、考量涵蓋率與聲音失真度為準則來挑選語句、以及可推薦調適語句的語音合成技術,來提供好的聲音品質與相似度,是一個重要的議題。
本揭露實施例可提供一種引導式語者調適語音合成系統與方法及電腦程式產品。
所揭露的一實施例是關於一種引導式語者調適語音合成系統。此系統包含一語者調適訓練模組(speaker adaptive training module)、一文字轉語音引擎(text to speech engine)、一成果評量模組(performance assessment module)、以及一調適建議模組(adaptation recommandation module)。此語者調適訓練模組根據輸入之錄音文稿(recording text)以及對應的錄音語句(recorded speech),輸出調適資訊以及語者調適模型。此文字轉語音合成引擎,接收此錄音文稿、此語者調適模型,輸出合成語句資訊。此成果評量模組,將參考調適資訊、此合成語句資訊,估算出評量資訊。此調適建議模組根據此錄音語句、此調適結果、以及此評量資訊,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
所揭露的另一實施例是關於一種引導式語者調適語音合成方法。此方法包含:輸入錄音文稿以及錄音語句,輸出一語者調適模型以及調適資訊;載入語者調適模型以及給定錄音文稿,輸出一合成語句資訊;輸入此調適資訊、此合成語句資訊,估算出評量資訊;以及根據此錄音語句、此調適資訊、以及此評量資訊,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
所揭露的又一實施例是關於一種引導式語者調適語音合成的電腦程式產品。此電腦程式產品包含備有多筆可讀取程式碼的一儲存媒體,並且藉由一硬體處理器讀取此多筆可讀取程式碼來執行:輸入錄音文稿以及錄音語句,輸出一語者調適模型以及調適資訊;載入語者調適模型以及給定錄音文稿,輸出一合成語句資訊;輸入此調適資訊、此合成語句資訊,估算出評量資訊;以及根據此錄音語句、此調適資訊、以及此評量資訊,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
茲配合下列圖示、實施例之詳細說明及申請專利範圍,將上述及本發明之其他優點詳述於後。
本揭露實施例之引導式語者調適語音合成技術是藉由輸入的錄音語句以及文稿內容等資料做出下一次調適語句的推薦,由此引導使用者針對前一次調適過程中的不
足之處再次輸入語料進行補強。其中資料的評量可分為涵蓋率以及頻譜失真度的評量。在本揭露實施例中,涵蓋率以及頻譜失真度的估算結果可搭配一演算法,例如貪婪式演算法等的設計,再從一文稿來源中挑選出最適合的調適語句並且將該評量結果回饋給使用者或客戶端、或一處理文稿與語音輸入的模組等。其中涵蓋率可根據輸入文稿轉換為可讀取的全標籤(full label)格式的字串後,分析對應到音素以及語者無關模型內容的涵蓋比例。頻譜失真度藉由比對錄音語句與調適後的合成語句兩者的頻譜參數,經過時間校正後所量測出的頻譜失真度而定。
語者調適基本上是利用調適語料來調整所有的語音模型,這些語音模型例如是採用基於HMM架構於進行合成時所參考的多個HMM頻譜模型、多個HMM音長模型、以及多個HMM音高模型。在本揭露實施例中,語者調適過程中被調適的語音模型例如是,但不限定於,採用基於HMM架構於進行合成時所參考的HMM頻譜模型、HMM音長模型、HMM音高模型。舉前述基於HMM模型為例來說明語者調適及訓練。理論上,當進行調適的錄音語料所轉成之可讀取的全標籤格式的字串所對應到的模型編號足夠廣泛,也就是說能包含原本TTS系統中的大部分模型分佈,那麼獲得的調適成果可以更好。基於此基本的理論點,本揭露實施例設計一種可利用演算法,例如貪婪演算法(greedy algorithm),進行最大化的模型涵蓋率的挑選方法,來選取出後續要錄製的錄音文稿,以更有效
率地進行語者調適。
既有的語者調適是根據輸入的錄音語句,進行語者無關(Speech Independent,SI)語音合成模型的調適訓練,產生語者調適的(Speech Adaptive,SA)語音合成模型,並且由一TTS引擎直接根據此SA語音合成模型來進行語音合成。與既有的語音合成技術不同的是,本揭露實施例之語音合成系統在進行既有的語者調適訓練後,還加入了一成果評量模組與一調適建議模組,使得語者調適過程中可以根據目前調適成果做不同後續文稿建議,以及提供目前調適語句的評量資訊供使用者(客戶端)參考。此成果評量模組可以估算出調適語句的音素涵蓋率、模型涵蓋率、以及頻譜失真度。此調適建議模組可以根據語者調適訓練後的調適結果、以及成果評量模組估算出的目前調適語句的評量資訊,從文稿來源中選取出後續要錄製的文稿,做為下一次調適的推薦。依此,經由不斷地調適與提供文稿建議的方式進行有效率的語者調適,使得此語音合成的系統可以提供好的聲音品質與相似度。
承上述,第四圖是根據本揭露一實施例,說明一種引導式語者調適語音合成系統。參考第四圖,語音合成系統400包含一語者調適訓練模組410、一文字轉語音(TTS)引擎440、一成果評量模組420、以及一調適建議模組430。語者調適訓練模組410根據錄音文稿411以及錄音語句412調適出一語者調適模型416。語者調適訓練模組410
根據錄音文稿411內容進行分析後,可收集到錄音文稿411所對應的音素與模型資訊。語者調適訓練模組410調適後的一調適資訊414至少包括輸入的錄音語句412、分析錄音語句412所產生的切音資訊、錄音文稿411所對應的音素與多種模型資訊。此多種模型資訊例如可採用頻譜模型資訊與韻律模型資訊。此韻律模型即前述的音高模型,因為頻譜決定了音色,而音高決定了韻律的大致趨勢。
一文字轉語音(TTS)引擎440根據錄音文稿411以及語者調適模型416,輸出合成語音資訊442。此合成語音資訊442至少包括合成語句以及合成語句的切音資訊。
成果評量模組420結合調適資訊414以及合成語句資訊442,估算出目前調適語句的評量資訊,此評量資訊包含如音素與模型涵蓋率424、以及一或多個語音差異評估參數(例如頻譜失真度422等)。音素與模型涵蓋率424包括如音素涵蓋率、頻譜模型涵蓋率、韻律型涵蓋率等。一旦有了音素和模型的統計資訊之後,套用音素涵蓋率公式以及模型涵蓋率公式即可求得音素與模型涵蓋率。此一或多個語音差異評估參數(如頻譜失真度及/或韻律失真度等)的估算可利用語者調適訓練模組410所輸入的錄音語句、錄音語句的切音資訊、以及TTS引擎440提供的合成語句和合成語句的切音資訊,並透過多個執行程序來求得。如何估算出音素與模型涵蓋率與語音差異評估參數的細節與範例說明將再描述。
調適建議模組430根據語者調適訓練模組410所輸出的調適資訊414、以及成果評量模組420估算出的目前錄音語句的評量資訊,例如頻譜失真度,從一文稿來源(例如文稿資料庫)450中選取出後續要錄製的錄音文稿,做為下一次調適的建議。調適建議模組430選取錄音文稿的策略例如是,能夠讓音素/模型的涵蓋率最大化。語音合成系統400可輸出成果評量模組420估算出的目前調適語句的評量資訊,如音素與模型涵蓋率、頻譜失真度等,以及調適建議模組430做出的下一次調適語句的建議,如錄音文稿的建議,至一調適結果輸出模組460。調適結果輸出模組460可將這些資訊,如評量資訊、錄音文稿的建議等,回饋給使用者或客戶端、或一處理文字與語音輸入的模組等。依此,經由不斷地調適與提供文稿建議的方式進行有效率的語者調適,使得語音合成系統400也可經由調適結果輸出模組460輸出調適後的語音合成聲音。
第五圖是根據本揭露一實施例,說明語者調適訓練模組從一輸入文稿收集到每一筆全標籤資訊所對應的音素與模型資訊的範例。在第五圖的例子中,語者調適訓練模組將輸入文稿轉成多筆全標籤資訊516,將此多筆全標籤資訊516進行比對後,收集到每一筆全標籤資訊所對應的音素資訊、狀態(state)1至5的頻譜模型編號、以及狀態1至5的韻律模型編號。當模型的種類收集越多(表示涵蓋率越高)時,則代表平均語音模型可能獲得更好的調適結
果。
從第五圖的例子中可窺知,當輸入一筆全標籤資訊到一語音合成系統後,經過如決策樹比對之後可獲得它的頻譜模型編號與韻律模型編號。從全標籤資訊本身也可看出它的音素資訊,以sil-P14+P41/A:4^0/B:0+4/C:1=14/D:1@6為例,它的音素即P14(注音為ㄒ),而左音素則為sil(代表靜音(silence)),右音素則為P41(注音為一)。因此收集調適語料的音素與模型資訊是相當直覺的,此資訊收集過程是執行於調適訓練模組之中。有了音素與模型的統計資訊之後,就可以套用音素涵蓋率公式以及模型涵蓋率公式來估算出音素與模型涵蓋率。
第六圖是根據本揭露一實施例,估算音素涵蓋率與模型涵蓋率的公式範例。在第六圖的涵蓋率計算公式610中,估算音素涵蓋率的公式中,分母的值(此例為50)代表TTS引擎有50種不同的音素;估算模型涵蓋率的公式中,假設頻譜或韻律模型皆有5個不同的狀態。當模型為頻譜模型時,模型涵蓋率的公式中,StateCoverRates
中的分母(即變數ModelCounts
)代表狀態s的頻譜模型種類數,分子(即變數Num_UniqueNodels
)代表狀態目前收集到的頻譜模型種類數,依此模型涵蓋率的公式估算出頻譜模型涵蓋率。類似地,當模型為韻律模型時,從模型涵蓋率的公式中,可估算出韻律模型涵蓋率。
成果評量模組420估算出的語音差異評估參數包含頻譜失真度時,相較於涵蓋率的估算是比較複雜的。如第七圖所示,在本揭露的實施例中,頻譜失真度的估算可利用調適訓練模組410所輸出錄音語句、錄音語句的切音資訊、以及TTS引擎440所提供的合成語句、合成語句的切音資訊,再執行特徵擷取(feature extraction)710、時間校正(time alignment)720、以及頻譜失真計算(spectral distortion calculation)730來求得。
特徵擷取是先求取語音的特徵參數,例如可採用梅爾倒頻譜(Mel-Cepstral)參數,或是線性預測編碼(Linear Prediction Coding,LPC)、或是線頻譜(Line Specturm Frequency,LSF)、或是感知線性預測(Perceptual Linear Prediction,PLP)等方法作為參考語音特徵,接著再進行錄音語句與合成語句的時間校正比對。錄音語句及合成語句的切音資訊雖然是已知的,但是錄音語句與合成語句之間,每一字的發音長度並不一致,因此進行頻譜失真度計算之前,需先進行時間校正。時間校正的做法可採用動態時間扭曲(Dynamic Time Warping,DTW)。最後利用如梅爾倒頻譜失真(Mel-Cepstral Distortion,MCD)作為頻譜失真度指標計算的基礎。MCD的計算公式如下:,其中mcp是梅爾倒頻譜參數,syn是來自調適語句(adapted speech)的合成音框(synthesized frame),tar是來自實際語句
(real speech)的目標音框(target frame),N是mcp維度(dimension)。每一語音單位(例如音素)的頻譜失真度(Distortion)可估算如下:,其中K是音框的個數。
當MCD值越高時,表示合成結果相似度越低。因此,系統目前的調適結果可採用此指標來表示。
調適建議模組430結合來自語者調適訓練模組410的調適資訊414、以及成果評量模組420估算出的評量資訊如頻譜失真度,從一文稿來源中選取出後續錄音文稿的建議。如第八圖所示,在本揭露的實施例中,調適建議模組430還利用基於音素與模型涵蓋率最大化(Phone/Model based coverage maximization)演算法820,例如貪婪演算法(greedy algorithm),來挑選最適合的錄音文稿,並且在執行此演算法的過程中,先參考權重重估算(weight re-estimation)810的結果;最後輸出後續錄音文稿的建議。
承上述之引導式語者調適語音合成系統及各模組的描述,第九圖是根據本揭露的一實施例,說明一種引導式語者調適語音合成方法。如第九圖所示,此語音合成方法900先輸入錄音文稿以及對應的錄音語句進行語者調適訓練,輸出語者調適模型以及調適資訊(步驟910)。接著將語者調適模型以及錄音文稿提供給一TTS引擎,輸出合成
語音資訊(步驟920)。此語音合成方法900再根據此調適資訊、以及此合成語音資訊,估算出目前錄音語句的評量資訊(步驟930)。最後再根據此調適資訊、以及此評量資訊,從一文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議(步驟940)。
承上述,此引導式語者調適語音合成方法可包含:輸入錄音文稿以及錄音語句,輸出一語者調適模型以及調適資訊;載入語者調適模型以及給定錄音文稿,輸出一合成語句資訊;輸入此調適資訊、此合成語句資訊,估算出評量資訊;以及根據此調適資訊、以及此評量資訊,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
此調適資訊至少包括錄音語句以及錄音語句的切音資訊以及錄音語句對應的該音素與模型資訊。此合成語音資訊至少包括合成語句以及合成語句的切音資訊。此評量資訊至少包括音素與模型涵蓋率、以及一或多個語音差異評估參數(如頻譜失真度)。
在語音合成方法900中,如何從一輸入文稿的錄音語句收集到所對應的音素與模型資訊、如何估算音素涵蓋率與模型涵蓋率、如何估算頻譜失真度、以及選取錄音文稿的策略等相關內容皆已描述於前述本揭露實施例中,此處不再重述。如之前所述,本揭露的實施例是先進行一權重
重估算後,再利用基於音素與模型涵蓋率最大化的演算法來挑選錄音文稿。第十圖與第十一圖是根據本揭露的實施例,分別說明基於音素與模型涵蓋率最大化的演算法的流程。
參考第十圖之演算法的流程,首先,此基於音素涵蓋率最大化演算法根據一當次的評量資訊,進行權重重估算(步驟1005)。進行權重重估算後可得到一音素之新的權重Weight(PhoneID)、以及此音素的一更新的影響力Influence(PhoneID),其中PhoneID是音素的識別碼(identifier)。此權重重估算的細節將於第十二圖中描述。然後,初始化一文稿來源中每一候選語句的分數為0(步驟1010);此演算法根據一分數函數(score function)的定義,計算文稿來源中每一句子的分數,並且將分數正規化(步驟1012);例如可根據此句子中音素的個數來進行此正規化(例如將總分數除以音素的個數)。定義一音素的分數函數的範例如下:Score
=Weigtht
(PhoneID
)×10 Influence
(PhoneID
)
在上述的分數函數中,一音素的分數是依此音素的權重和影響力來決定。音素的權重Weight(PhoneID)的系統初始值是取此音素出現次數的倒數當作此音素的權重(weight),所以在儲存媒體例如資料庫中出現越多次者,其權重越低。音素的影響力Influence(PhoneID)初始值假設定為20,表示每一音素最多出現20次,之後其分數影響
力可視為不計;當音素被挑選過1次之後,此音素的Influence(PhoneID)將被減1,對其分數的貢獻將變成1019
,以此類推,當此音素被挑選過j次之後,對其分數的貢獻將變成1020-j
。也就是說,一音素的Influence(PhoneID)與此音素被挑選過的次數有關,被挑選過的次數越多者,其影響力越低。
音素種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中(步驟1014),並且該挑選到的句子其所包含的音素之影響力將被降低(步驟1016),以利提高其他音素下次被挑選的機會。當被挑選出的句子的個數未超過一預定值時(步驟1018),則進行步驟1012,而重新計算該文稿來源中的所有剩下的候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
也就是說,此基於音素涵蓋率最大化演算法定義一音素的分數函數,對於一文稿來源中每一個候選語句進行分數估算,音素種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的音素之影響力將被降低,以利提高其他音素下次被挑選的機會。接著重新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
參考第十一圖之演算法的流程,首先,此基於模型涵蓋率最大化演算法根據一當次的評量資訊,進行權重重估算(步驟1105)。進行權重重估算後可得到兩模型之新的MCP權重和LF0權重以及此兩模型的兩更新影響力,即與,其中表示當狀態為S
且文稿標籤資訊為L
時所對應到的頻譜(MCP)模型,同理表示當狀態為S
且文稿標籤資訊為L
時所對應到的韻律(LF0)模型。此文稿標籤資訊定義為輸入的錄音文稿,經由語者調適訓練模組的文稿分析後所得的全標籤資訊,如圖五中的516。此權重重估算的細節將於第十二圖中描述。然後,初始化一文稿來源中每一候選語句的分數為0(步驟1110);此演算法根據一分數函數(score function)的定義,計算文稿來源中每一句子的分數,並且將分數正規化(步驟1112);例如可根據此句子中的L(文稿標籤)個數來進行此正規化(例如將總分數除以音素的個數)。定義一模型的分數函數的範例如下:
在上述的分數函數中,分數是依此一頻譜模型分數與一韻律模型分數來決定,並且一頻譜或韻律模型的分數是依此模型的權重和影響力來決定。在上述的模型分數函數中,頻譜模型的權重以及韻律模型的權重的系統初始值分別是取其出現次數的倒數分別當作MCP模型的權重與LF0模型的權重,所以模型在儲存媒體例如資料庫中出現越多次者,其模型權重越低。與的值一開始例如皆為5,每出現一次,其值減1。也就是說,及的值與其模型被挑選過的次數有關,被挑選過的次數越多者,其影響力越低。
MCP模型與LF0模型種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中(步驟1114),並且該挑選到的句子其所包含的模型之影響力將被降低(步驟1116),以利提高其他模型下次被挑選的機會。當被挑選出的句子的個數未超過一預定值時(步驟1118),則進行步驟1112,而重新計算該文稿來源中的所有剩下的候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
也就是說,此基於模型涵蓋率最大化演算法定義一模型的分數函數,對於一文稿來源中每一個候選語句進行分數估算,模型種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的模型之影響力將被降低,以利提高其他模型下次被挑選的機會。接著重新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
承上述第十圖與第十一圖的流程,在基於音素涵蓋率最大化或是基於模型涵蓋率最大化的演算中,權重重估算扮演了關鍵性角色。它根據頻譜失真度來決定新的音素權重、及模型權重,例如新的Weight
(PhoneID
)、及、,並且是利用一種音色相似度的方法來動態調整權重的高低。此權重重估算是利用音色相似度的方法來動態調整權重的高低,使得後續挑選文稿的參考不只是考量到涵蓋率(只根據文本參考),也能兼顧合成結果的回饋。而音色相似度通常是以頻譜失真度來估算,假如一語音單位(例如音素或音節或字)的頻譜失真度過高,表示它調適的結果不夠好,後續的文稿應該要加強此單位的挑選,因此它的權重應該要調升;反之,當一語音單位的頻譜失真度很低,表示它調適的結果已經夠好,後續應調降它的權重,讓其他語音單位被挑選的機會增加。依此,在本揭露實施例中,權重調整原則為,當一語音單位的頻譜失真度高於一高門檻值(例如,原始語句的平均失真度+原始語句的標準差)時,調升此語音單位的權重;當一語音單位的頻譜失真度低於一低門檻值(例如,原始語句的平均失真度-原始語句的標準差)時,調降此語音單位的權重。
第十二圖是根據本揭露一實施例,說明一種權重重估算的調整方式。在第十二圖之權重重估算的調整方式的公式1200中,Di
表示某一語音單位(例如以音素為單位)的第i
個失真度(distortion),D mean
表示調適語料的平均失真度,D std
表示調適語料的標準差失真度。N
表示參與此次
權重調整的單位個數(例如P14這個音素共有5個參與計算),同一種單位所估算的各個因子Factor i
不盡相同,因此求取這些Factor i
的平均(即平均因子F
)作為代表。最後,新權重是根據平均因子F
來進行調整,調整公式的範例為,新權重=權重×(1+F
),其中平均因子F
的值可能為正值或負值。
第十三圖是合成語句和原始語句的頻譜失真度分布的一個範例圖,其中橫軸代表不同的音素,縱軸代表其頻譜失真度(縱軸的單位為dB),計算頻譜失真度的語音單位為音素。因為音素5至音素8的頻譜失真度皆高於(D mean
+D std
),因此根據本揭露實施例之權重調整原則,可依第十二圖的調整方式來調升音素5、音素6、音素7、以及音素8的權重;而音素11、音素13、音素20、以及音素37的頻譜失真度皆低於(D mean
-D std
),因此根據本揭露實施例之權重調整原則,可依第十二圖的調整方式來調降音素11、音素13、音素20、以及音素37的權重。
上述本揭露實施例之引導式語者調適語音合成的方法可藉由一電腦程式產品來實現。此電腦程式產品可藉由至少一硬體處理器讀取內嵌於一儲存媒體的程式碼來執行此方法。依此,根據本揭露又一實施例,此電腦程式產品可包含備有多筆可讀取程式碼的一儲存媒體,並且藉由至少一硬體處理器讀取此多筆可讀取程式碼來執行:輸入錄音文稿以及錄音語句,輸出一語者調適模型以及調適資
訊;載入語者調適模型以及給定錄音文稿,輸出一合成語句資訊;輸入此調適資訊、此合成語句資訊,估算出評量資訊;以及根據此調適資訊、以及此評量資訊,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
綜上所述,本揭露實施例提供一種引導式語者調適語音合成系統與方法。其技術先輸入錄音文稿和錄音語句,輸出為調適資訊以及語者調適模型;一TTS引擎讀取此語者調適模型以及此錄音文稿,輸出合成語句資訊;接著結合此調適資訊以及此合成語句資訊,估算出評量資訊;再根據此調適資訊、以及此評量資訊,來選取出後續要錄製的錄音文稿,做為下一次調適的建議。此技術考量音素與模型涵蓋率,以聲音失真度為準則來挑選語句,以及做出下一次調適語句的推薦,由此引導使用者/客戶端針對前一次調適過程中的不足之處補強輸入語料,以提供好的聲音品質與相似度。
以上所述者僅為本揭露實施例,當不能依此限定本揭露實施之範圍。即大凡本發明申請專利範圍所作之均等變化與修飾,皆應仍屬本發明專利涵蓋之範圍。
110‧‧‧文本分析
112‧‧‧全標籤格式的字串
122‧‧‧頻譜模型決策樹
124‧‧‧音長模型決策樹
126‧‧‧音高模型決策樹
130‧‧‧合成
210‧‧‧語者調適階段
411‧‧‧錄音文稿
400‧‧‧語音合成系統
410‧‧‧語者調適訓練模組
420‧‧‧成果評量模組
430‧‧‧調適建議模組
440‧‧‧TTS引擎
412‧‧‧錄音語句
414‧‧‧調適資訊
416‧‧‧語者調適模型
442‧‧‧合成語句資訊
424‧‧‧音素與模型涵蓋率
422‧‧‧頻譜失真度
450‧‧‧文稿來源
460‧‧‧調適結果輸出模組
TTS‧‧‧文字轉語音
516‧‧‧多筆全標籤資訊
610‧‧‧涵蓋率計算公式
710‧‧‧特徵擷取
720‧‧‧時間調整
730‧‧‧頻譜失真計算
810‧‧‧權重重估算
820‧‧‧基於音素與模型涵蓋率最大化演算法
910‧‧‧輸入錄音文稿以及對應的錄音語句進行語者調適訓練,輸出語者調適模型以及調適資訊
920‧‧‧將語者調適模型以及錄音文稿提供給一TTS引擎,輸出合成語音資訊
930‧‧‧根據此調適資訊、以及此合成語音資訊,估算出目前錄音語句的評量資訊
940‧‧‧根據此調適資訊、以及此評量資訊,從一文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議
1005‧‧‧根據一當次的評量資訊,進行權重重估算
1010‧‧‧初始化一文稿來源中每一候選語句的分數為0
1012‧‧‧根據一分數函數的定義,計算文稿來源中每一句子的分數,並且將分數正規化
1014‧‧‧從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中
1016‧‧‧該挑選到的句子其所包含的音素之影響力將被降低
1018‧‧‧當被挑選出的句子的個數未超過一預定值時
1105‧‧‧根據一當次的錄音語料資訊,進行權重重估算
1110‧‧‧初始化一文稿來源中每一候選語句的分數為0
1112‧‧‧根據一分數函數的定義,計算文稿來源中每一句子的分數,並且將分數正規化
1114‧‧‧從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中
1116‧‧‧該挑選到的句子其所包含的模型之影響力將被降低
1118‧‧‧被挑選出的句子的個數未超過一預定值時
1200‧‧‧權重重估算的調整方式的公式
Di
‧‧‧某一語音單位(例如音素)的第i
個失真度
D mean
‧‧‧調適語料的平均失真度
D std
‧‧‧調適語料的標準差失真度
N
‧‧‧參與此次權重調整的單位個數
NewWeight
‧‧‧新權重
Weight
‧‧‧新權重
Factor i
‧‧‧各個因子
F
‧‧‧平均因子
第一圖是基於HMM架構的語音合成技術的一範例示意圖。
第二圖是一種結合高層描述信息和模型自適應的語者轉換技術的一範例示意圖。
第三圖是一種基於生成参數聽感誤差最小化的模型自適應技術的一範例示意圖。
第四圖是根據本揭露一實施例,說明一種引導式語者調適語音合成系統。
第五圖是根據本揭露一實施例,說明語者調適訓練模組從一輸入文稿的範例,收集到每一筆全標籤資訊所對應的音素與模型資訊。
第六圖是根據本揭露一實施例,估算音素涵蓋率與模型涵蓋率的公式範例。
第七圖是根據本揭露一實施例,說明成果評量模組估算頻譜失真度的運作。
第八圖是根據本揭露一實施例,說明調適建議模組的運作。
第九圖是根據本揭露的一實施例,說明一種引導式語者調適語音合成方法。
第十圖是根據本揭露的一實施例,說明基於音素涵蓋率最大演算法的流程。
第十一圖是根據本揭露的實施例,說明基於模型涵蓋率最大演算法的流程。
第十二圖是根據本揭露一實施例,說明一種權重重估算的
調整方式。
第十三圖是一個句子的範例代表圖,其頻譜失真度計算的單位為音素。
400‧‧‧語音合成系統
410‧‧‧語者調適訓練模組
420‧‧‧成果評量模組
430‧‧‧調適建議模組
440‧‧‧TTS引擎
412‧‧‧錄音語句
414‧‧‧調適資訊
416‧‧‧語者調適模型
442‧‧‧合成語句資訊
424‧‧‧音素與模型涵蓋率
422‧‧‧頻譜失真度
450‧‧‧文稿來源
460‧‧‧調適結果輸出模組
TTS‧‧‧文字轉語音
411‧‧‧錄音文稿
Claims (34)
- 一種引導式語者調適語音合成系統,包含:一語者調適訓練模組,根據輸入之錄音文稿與對應的錄音語句,輸出至少包含頻譜模型資訊與韻律模型資訊的調適資訊與語者調適模型;一文字轉語音合成引擎,接收該錄音文稿與該語者調適模型,輸出合成語句資訊;一成果評量模組,接收該調適資訊、該合成語句資訊,估算出評量資訊;以及一調適建議模組,根據該調適資訊與該評量資訊內容,從文稿來源中選取出後續要錄製的錄音文稿,以做為下一次調適的建議。
- 如申請專利範圍第1項所述之系統,其中該調適訓練模組所輸出的該調適資訊至少包括:該錄音文稿、該錄音語句、該錄音文稿對應的音素與模型資訊、以及該錄音語句對應的切音資訊。
- 如申請專利範圍第2項所述之系統,其中該模型資訊至少包括該頻譜模型資訊、與該韻律模型資訊。
- 如申請專利範圍第1項所述之系統,該文字轉語音合成引擎所輸出的該合成語句資訊至少包括:該錄音文稿的合成語句,以及該合成語句的切音資訊。
- 如申請專利範圍第1項所述之系統,其中該評量資訊至少包括該錄音語句的音素與模型涵蓋率。
- 如申請專利範圍第5項所述之系統,其中該音素與模型涵蓋率包括音素涵蓋率、頻譜模型涵蓋率、以及韻律模 型涵蓋率。
- 如申請專利範圍第1項所述之系統,其中該評量資訊至少包括一或多個語音差異評估參數。
- 如申請專利範圍第7項所述之系統,其中該一或多個語音差異評估參數至少包括該錄音語句和該合成語句的頻譜失真度。
- 如申請專利範圍第1項所述之系統,其中該調適建議模組選取錄音文稿的策略是能夠讓該音素與模型的涵蓋率最大化。
- 如申請專利範圍第1項所述之系統,其中該系統是採用基於隱藏式馬可夫模型或者隱藏式半馬可夫模型架構的語音合成系統。
- 如申請專利範圍第1項所述之系統,其中該系統經由不斷地調適與提供文稿建議的方式來進行語者調適。
- 如申請專利範圍第1項所述之系統,其中該系統輸出該合成語句、該成果評量模組估算出的該目前錄音語句的評量資訊、以及該調適建議模組做出的下一次調適語句的建議。
- 一種引導式語者調適語音合成方法,包含:輸入錄音文稿與對應的錄音語句,輸出語者調適模型與至少包含頻譜模型資訊與韻律模型資訊的調適資訊;載入該語者調適模型,輸入該錄音文稿,以合成出合成語音資訊;結合該調適資訊與該合成語音資訊,估算出評量資 訊;以及根據該調適資訊與該評量資訊內容,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
- 如申請專利範圍第13項所述之方法,其中該評量資訊包括該目前錄音語句的音素涵蓋率、頻譜模型涵蓋率、韻律模型涵蓋率、以及一或多個語音差異評估參數。
- 如申請專利範圍第13項所述之方法,其中該一或多個語音差異評估參數至少包括頻譜失真度。
- 如申請專利範圍第13項所述之方法,其中該方法先進行一權重重估算後,再利用一基於音素涵蓋率最大化的演算法與一基於模型涵蓋率最大化演算法來選取出後續要錄製的該錄音文稿,該音素涵蓋率係套用音素涵蓋率公式而求得,該模型涵蓋率係套用模型涵蓋率公式而求得。
- 如申請專利範圍第16項所述之方法,其中該權重重估算是根據頻譜失真度來決定新的音素權重、及模型權重,並且是利用一種音色相似度的方法來動態調整權重的高低。
- 如申請專利範圍第17項所述之方法,其中該調整權重的原則為,當一語音單位的頻譜失真度高於一高門檻值,調升該語音單位的權重;反之當一語音單位的頻譜失真度低於一低門檻值時,調降該語音單位的權重。
- 如申請專利範圍第18項所述之方法,其中該語音單位是字、音節、或音素的其中一種或多種組合。
- 如申請專利範圍第16項所述之方法,其中該基於音素涵蓋率最大化演算法定義一音素的分數函數,對於一文稿來源中每一個候選語句進行分數估算,音素種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的音素之影響力將被降低,以利提高其他音素下次被挑選的機會,接著重新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
- 如申請專利範圍第20項所述之方法,其中根據該音素的分數函數定義,一音素的分數是依該音素的權重和影響力來決定。
- 如申請專利範圍第16項所述之方法,其中該基於模型涵蓋率最大化演算法定義一模型的分數函數,對於一文稿來源中每一個候選語句進行分數估算,模型種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的模型之影響力將被降低,以利提高其他模型下次被挑選的機會,接著從新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
- 如申請專利範圍第22項所述之方法,其中根據該模型的分數函數定義,一模型的分數是依該一頻譜模型分 數與一韻律模型分數來決定,並且一頻譜或韻律模型的分數是依該頻譜或韻律模型的權重和影響力來決定。
- 一種引導式語者調適語音合成的電腦程式產品,包含備有多筆可讀取程式碼的一儲存媒體,並且藉由至少一硬體處理器讀取該多筆可讀取程式碼來執行:輸入錄音文稿與對應的錄音語句,輸出語者調適模型與至少包含頻譜模型資訊與韻律模型資訊的調適資訊;載入該語者調適模型,輸入該錄音文稿,以合成出合成語音資訊;結合該調適資訊、與合成語音資訊,估算出評量資訊;以及根據該調適資訊與該評量資訊內容,從文稿來源中選取出後續要錄製的錄音文稿,做為下一次調適的建議。
- 如申請專利範圍第24項所述之電腦程式產品,其中該評量資訊包括該目前錄音語句的音素涵蓋率、頻譜模型涵蓋率、韻律模型涵蓋率、以及一或多個語音差異評估參數。
- 如申請專利範圍第24項所述之電腦程式產品,其中該一或多個語音差異評估參數至少包括頻譜失真度。
- 如申請專利範圍第24項所述之電腦程式產品,其中該方法先進行一權重重估算後,再利用一基於音素涵蓋率最大化的演算法與一基於模型涵蓋率最大化的演算法來選取出後續要錄製的該錄音文稿。
- 如申請專利範圍第27項所述之電腦程式產品,其中該權重重估算是根據頻譜失真度來決定新的音素權重、及模型權重,並且是利用一種音色相似度的方法來動態調整權重的高低。
- 如申請專利範圍第28項所述之電腦程式產品,其中該調整權重的原則為,當一語音單位的頻譜失真度高於一高門檻值,調升該語音單位的權重;反之當一語音單位的頻譜失真度低於一低門檻值時,調降該語音單位的權重。
- 如申請專利範圍第29項所述之電腦程式產品,其中該語音單位是字、音節、或音素其中一種或多種組合。
- 如申請專利範圍第27項所述之電腦程式產品,其中該基於音素涵蓋率最大化演算法定義一音素的分數函數,對於一文稿來源中每一個候選語句進行分數估算,音素種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的音素之影響力將被降低,以利提高其他音素下次被挑選的機會,接著重新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
- 如申請專利範圍第31項所述之電腦程式產品,其中根據該音素的分數函數定義,一音素的分數是依該音素的權重和影響力來決定。
- 如申請專利範圍第27項所述之電腦程式產品,其中該 基於模型涵蓋率最大化演算法定義一模型的分數函數,對於一文稿來源中每一個候選語句進行分數估算,模型種類越多元的候選語句獲得的分數則越高,最後從中挑選分數最高者從該文稿來源移出到調適建議的句子集合中,並且該挑選到的句子其所包含的模型之影響力將被降低,以利提高其他模型下次被挑選的機會,接著從新計算該文稿來源中的所有候選語句的分數,重覆上述過程,直到挑選出的句子的個數超過一預定值為止。
- 如申請專利範圍第33項所述之電腦程式產品,其中根據該模型的分數函數定義,一模型的分數是依該一頻譜模型分數與一韻律模型分數來決定,並且一頻譜或韻律模型的分數是依該頻譜或韻律模型的權重和影響力來決定。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101138742A TWI471854B (zh) | 2012-10-19 | 2012-10-19 | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
CN201310127602.9A CN103778912A (zh) | 2012-10-19 | 2013-04-12 | 引导式说话人自适应语音合成的系统与方法及程序产品 |
US14/012,134 US20140114663A1 (en) | 2012-10-19 | 2013-08-28 | Guided speaker adaptive speech synthesis system and method and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101138742A TWI471854B (zh) | 2012-10-19 | 2012-10-19 | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201417092A TW201417092A (zh) | 2014-05-01 |
TWI471854B true TWI471854B (zh) | 2015-02-01 |
Family
ID=50486134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101138742A TWI471854B (zh) | 2012-10-19 | 2012-10-19 | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140114663A1 (zh) |
CN (1) | CN103778912A (zh) |
TW (1) | TWI471854B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016042626A1 (ja) * | 2014-09-17 | 2016-03-24 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
TWI605350B (zh) * | 2015-07-21 | 2017-11-11 | 華碩電腦股份有限公司 | 文字轉語音方法以及多語言語音合成裝置 |
US9865251B2 (en) | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
JP6523893B2 (ja) * | 2015-09-16 | 2019-06-05 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
CN105225658B (zh) * | 2015-10-21 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
CN107103900B (zh) * | 2017-06-06 | 2020-03-31 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
SG11202009556XA (en) * | 2018-03-28 | 2020-10-29 | Telepathy Labs Inc | Text-to-speech synthesis system and method |
US10418024B1 (en) * | 2018-04-17 | 2019-09-17 | Salesforce.Com, Inc. | Systems and methods of speech generation for target user given limited data |
CN108550363B (zh) * | 2018-06-04 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法及装置、计算机设备及可读介质 |
CN109101581A (zh) * | 2018-07-20 | 2018-12-28 | 安徽淘云科技有限公司 | 一种文本语料的筛选方法及装置 |
US10896689B2 (en) | 2018-07-27 | 2021-01-19 | International Business Machines Corporation | Voice tonal control system to change perceived cognitive state |
CN111048062B (zh) * | 2018-10-10 | 2022-10-04 | 华为技术有限公司 | 语音合成方法及设备 |
CN110751955B (zh) * | 2019-09-23 | 2022-03-01 | 山东大学 | 基于时频矩阵动态选择的声音事件分类方法及系统 |
CN110880327B (zh) * | 2019-10-29 | 2024-07-09 | 平安科技(深圳)有限公司 | 一种音频信号处理方法及装置 |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN111125432B (zh) * | 2019-12-25 | 2023-07-11 | 重庆能投渝新能源有限公司石壕煤矿 | 一种视频匹配方法及基于该方法的培训快速匹配系统 |
GB2598563B (en) * | 2020-08-28 | 2022-11-02 | Sonantic Ltd | System and method for speech processing |
CN112017698B (zh) * | 2020-10-30 | 2021-01-29 | 北京淇瑀信息科技有限公司 | 语音机器人采用的人工录音的优化方法、装置及电子设备 |
CN112669810B (zh) * | 2020-12-16 | 2023-08-01 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
CN113920979B (zh) * | 2021-11-11 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 语音数据的获取方法、装置、设备及计算机可读存储介质 |
CN116825117B (zh) * | 2023-04-06 | 2024-06-21 | 浙江大学 | 一种具有隐私保护功能的麦克风及其隐私保护方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200741645A (en) * | 2006-04-26 | 2007-11-01 | Mitac Res Shanghai Ltd | System and method to play the lyrics of a song and the song synchronously |
US7402745B2 (en) * | 2005-03-08 | 2008-07-22 | Oki Electric Industry Co., Ltd. | MIDI playing method |
US20100324901A1 (en) * | 2009-06-23 | 2010-12-23 | Autonomy Corporation Ltd. | Speech recognition system |
US20120116766A1 (en) * | 2010-11-07 | 2012-05-10 | Nice Systems Ltd. | Method and apparatus for large vocabulary continuous speech recognition |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962327B2 (en) * | 2004-12-17 | 2011-06-14 | Industrial Technology Research Institute | Pronunciation assessment method and system based on distinctive feature analysis |
CN101350195B (zh) * | 2007-07-19 | 2012-08-22 | 财团法人工业技术研究院 | 语音合成器产生系统与方法 |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
JP5159279B2 (ja) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
-
2012
- 2012-10-19 TW TW101138742A patent/TWI471854B/zh active
-
2013
- 2013-04-12 CN CN201310127602.9A patent/CN103778912A/zh active Pending
- 2013-08-28 US US14/012,134 patent/US20140114663A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7402745B2 (en) * | 2005-03-08 | 2008-07-22 | Oki Electric Industry Co., Ltd. | MIDI playing method |
TW200741645A (en) * | 2006-04-26 | 2007-11-01 | Mitac Res Shanghai Ltd | System and method to play the lyrics of a song and the song synchronously |
US20100324901A1 (en) * | 2009-06-23 | 2010-12-23 | Autonomy Corporation Ltd. | Speech recognition system |
US20120116766A1 (en) * | 2010-11-07 | 2012-05-10 | Nice Systems Ltd. | Method and apparatus for large vocabulary continuous speech recognition |
Non-Patent Citations (1)
Title |
---|
Yannis Stylianou, "A Simple and Fast Way of Generating a Harmonic Signal", IEEE Signal Processing Letters, Vol. 7, No. 5, May 2000 * |
Also Published As
Publication number | Publication date |
---|---|
US20140114663A1 (en) | 2014-04-24 |
TW201417092A (zh) | 2014-05-01 |
CN103778912A (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI471854B (zh) | 引導式語者調適語音合成的系統與方法及電腦程式產品 | |
US10540956B2 (en) | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus | |
JP5457706B2 (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
US9135910B2 (en) | Speech synthesis device, speech synthesis method, and computer program product | |
US7996222B2 (en) | Prosody conversion | |
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
US20050060155A1 (en) | Optimization of an objective measure for estimating mean opinion score of synthesized speech | |
JPWO2018159612A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
US9484045B2 (en) | System and method for automatic prediction of speech suitability for statistical modeling | |
US20170263239A1 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP2010224419A (ja) | 音声合成装置、方法およびプログラム | |
Han et al. | Speech emotion recognition system based on integrating feature and improved hmm | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JPH1185193A (ja) | 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置 | |
JP4622788B2 (ja) | 音韻モデル選択装置,音韻モデル選択方法およびコンピュータプログラム | |
JP6479637B2 (ja) | 文章セット生成装置、文章セット生成方法、プログラム | |
CN117765898A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 |