TWI721516B

TWI721516B - 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法

Info

Publication number: TWI721516B
Application number: TW108127279A
Authority: TW
Inventors: 江振宇; 劉冠廷; 王逸如; 陳信宏
Original assignee: 國立交通大學
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-03-11
Also published as: US11200909B2; US20210035598A1; TW202107448A

Abstract

一種用以產生局部倒語速之估計值的方法，包含：提供包括複數語句之初始語音語料庫；基於最大後驗估計(MAP)條件，依據給定之第k語句的音節長度、音節長度韻律狀態、音節聲調、基本音節型態及停頓類型的各個序列，以該第k語句的倒語速x _k的最大機率來估計該x _k的估計值

；以及透過該MAP條件，依據該給定第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的音節長度、音節長度韻律狀態、音節聲調、基本音節型態及停頓類型的各個序列，以該第k個語句裡第l個BG/PG的倒語速x _k,l的最大機率來估計該x _k,l的估計值

，其中該

為該局部倒語速之該估計值，且該

之先驗機率模式的平均值是該

Description

用以產生局部倒語速之估計值之方法與據以產生局部倒語速之預測值之裝置與方法

本發明涉及一種用以產生局部倒語速之估計值之方法，尤指一種用以產生局部倒語速之估計值之方法以及依據該方法所獲之估計值以產生局部倒語速之預測值之裝置與方法。

目前不管是應用於語音辨識、情緒辨識以及文字轉語音系統的語速估計，習知的方法都是以一整個語句語音的平均音節長度來進行語速的估計，這樣的習知方法除了沒有考慮韻律的架構，對影響語速的文字內容、強調、語法架構、情緒等的因素都沒有加以考慮，因此無法進行準確的局部語速估計。由於上述技術之缺失，目前文字轉語音系統中的韻律產生機制，在訓練(建立)階段因為只能以整個語句估計語速，所以在韻律產生時(測試階段)僅能讓合成語句以固定語速被產生出來，無法呈現語速在語句中的局域性變化，造成合成語音聽起來單調乏味，所以在訓練階段若能系統化地定義局部語速的估計範圍，且能正確扣除(或正規化)語音內容造成的偏差，便可以做強健的局部語速估計，進一步用於韻律產生，使得文字轉語音系統合成之語句有局部語速的變化，讓合成之語音聽起來更為生動逼真。

如何使得合成之語句有局部語速的變化，讓合成之語音聽起來更為生動逼真，是一值得深思的問題。職是之故，發明人鑒於習知技術之缺失，乃思及改良發明之意念，終能發明出本案之「用以產生局部倒語速之估計值之方法與據以產生局部倒語速之預測值之裝置與方法」。

本發明的主要目的在於提供一種以階層式架構方式結合韻律模型及韻律架構之倒語速估計方法，解決傳統方法因無法結合韻律架構提供一合理之語速估計範圍，導致無法求取小區域性局部倒語速的問題，也提供一不受文本及韻律架構等影響之乾淨倒語速的估計方式來解決傳統倒語速估計容易受到語速影響因子所造成的偏差影響的問題，讓倒語速的估計能夠更加精準符合聽覺上的倒語速，並且可以將局部倒語速估計應用於語音合成、語音辨識、自然語言處理等領域，做為訓練參數或是分析應用。

本案之另一主要目的在於提供一種用以產生一局部倒語速之一估計值之方法，包含：提供對應於複數語句的複數語言參數、複數未經處理的以語句為基礎的倒語速與複數觀察到的韻律聲學參數，以訓練一基礎的語速相依之階層式韻律模組，並將包括該複數語句之一初始語音語料庫中之各該語句均標註上具有一停頓類型與一韻律狀態之一韻律標籤而獲得一經首次韻律標註的語音語料庫；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x _k的一最大機率來估計該x _k的一估計值

；透過該MAP條件，依據給定該第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x _k,l的一最大機率來估計該x _k,l的一估計值

，且該

為該局部倒語速x _k,l之該估計值，其中該

之一先驗機率模式的平均值是該

；以及透過該MAP條件，依據給定該第k個語句裡第l個BG/PG中第m個韻律片語(PPh)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG中第m個PPh的一倒語速x _k,l,m的一最大機率來估計該x _k,l,m的一估計值

，且該

為該局部倒語速x _k,l,m之該估計值，其中該

之一先驗機率模式的平均值是該

。

本案之再一主要目的在於提供一種產生局部倒語速之一預測值之裝置，包含：一經二次韻律標註的語音語料庫，是將該經首次韻律標註的語音語料庫中各該語句均依該局部倒語速之該估計值標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤而得，一經重新訓練的語速相依之階層式韻律模組，接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，並據以重新訓練該基礎的語速相依之階層式韻律模組而得，一韻律標籤預測器，接收一第一參數、一以給定語句為基礎的倒語速與一給定語句之語言參數，以產生該給定語句之一具有一經預測的停頓類型與一經預測的韻律狀態之經估計的韻律標籤，一韻律片語倒語速預測模組(PPh ISR Prediction module)，接收複數輸入參數與各該局部倒語速之各該估計值，具有一類神經網路，使用該類神經網路訓練該韻律片語倒語速預測模組，且輸出產生該局部倒語速之該預測值所需之一預測參數，以及一局部倒語速預測器，接收該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值。

本案之又一主要目的在於提供一種產生局部倒語速之一預測值之方法，包含：依據各該局部倒語速之各該估計值將該經首次韻律標註的語音語料庫之各該語句均再次標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤以產生一經二次韻律標註的語音語料庫；接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，以將該基礎的語速相依之階層式韻律模組訓練成一經重新訓練的語速相依之階層式韻律模組；提供一第一參數、一給定語句(given utterance)之語言參數與一以給定語句為基礎的倒語速，以產生該給定語句之一具有一經預測的停頓類型及一經預測的韻律狀態之經估計的韻律標籤；提供一具有一類神經網路之韻律片語倒語速預測模組；使該韻律片語倒語速預測模組接收複數輸入參數與各該局部倒語速之各該估計值，使用該類神經網路以訓練該韻律片語倒語速預測模組，且藉由該韻律片語倒語速預測模組輸出產生該局部倒語速之該預測值所需之一預測參數；以及使用該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值。

本案之下一主要目的在於提供一種用以產生一局部倒語速之一估計值的方法，包含：提供包括複數語句之一初始語音語料庫；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x _k的一最大機率來估計該x _k的一估計值

；以及透過該MAP條件，依據該給定第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x _k,l的一最大機率來估計該x _k,l的一估計值

，其中該

為該局部倒語速之該估計值，且該

之一先驗機率模式的平均值是該

。

101‧‧‧訓練NFs及語速正規化

102‧‧‧訓練五個韻律主要子模型

103‧‧‧NFs

104‧‧‧五個韻律主要子模型

1041‧‧‧韻律語法模型

1042‧‧‧韻律狀態模型

1043‧‧‧音節韻律聲學模型

1044‧‧‧停頓聲學模型

1045‧‧‧韻律狀態語法模型

105‧‧‧語速反正規化

106‧‧‧產生語速正規化後的PAFs預測值

301‧‧‧初始語音語料庫

302‧‧‧建立SR-HPM模組

303‧‧‧經首次韻律標註的語音語料庫

304‧‧‧基礎的SR-HPM

305‧‧‧局部ISR估計

401‧‧‧以語句為基礎的ISR估計

402‧‧‧以BG/PG為基礎的ISR估計

403‧‧‧以PPh為基礎的ISR估計

501‧‧‧初始語音語料庫

502‧‧‧建立SR-HPM模組

503‧‧‧經首次韻律標註的語音語料庫

504‧‧‧基礎的SR-HPM

505‧‧‧局部ISR估計直

506‧‧‧重新訓練SR-HPM

507‧‧‧經二次韻律標註的語音語料庫

508‧‧‧經重新訓練的SR-HPM

509‧‧‧訓練PPh ISR預測模組

510‧‧‧PPh ISR預測模組

5101‧‧‧類神經網路

51011‧‧‧隱藏層

51012‧‧‧激發函數

51013‧‧‧輸出層

511‧‧‧韻律標籤預測

512‧‧‧產生語速正規化後的PAFs預測值

513‧‧‧預測局部ISR

514‧‧‧將語速正規化後的PAFs預測值反正規化

601‧‧‧經二次韻律標註的語音語料庫

602‧‧‧經重新訓練的SR-HPM

603‧‧‧韻律標籤預測器

604‧‧‧PPh ISR預測模組

605‧‧‧局部ISR預測器

606‧‧‧語速正規化後的PAFs預測值產生器

607‧‧‧合成的的PAFs產生器

608‧‧‧產生局部倒語速之預測值的裝置

第一圖(a)：其係顯示一依據本發明構想之較佳實施例的正規化函式以及五個主要韻律子模型之關係圖。

第一圖(b)：其係顯示一如第一圖(a)所示之五個主要韻律子模型的示意圖。

第二圖：其係顯示一依據本發明構想之較佳實施例的四層韻律架構的示意圖。

第三圖：其係顯示一依據本發明構想之較佳實施例的局部ISR估計方法之流程圖。

第四圖：其係顯示一依據本發明構想之較佳實施例的局部ISR採用最大後驗估計之條件的估計方法之示意圖。

第五圖(a)：其係顯示一依據本發明構想之較佳實施例的整體實驗流程圖。

第五圖(b)：其係顯示一如第五圖(a)所示之PPh ISR預測模組的示意圖。

第六圖：其係顯示一依據本發明構想之較佳實施例的產生局部倒語速之預測值的裝置之示意圖。

本發明提供一種估計局部倒語速(local inverse speaking rate(SR)、local ISR)的方法。基於現有的SR-HPM(speaking rate dependent hierarchical prosodic module)建模方法，透過既有的SR-HPM分析大量的訓練語料來標記出韻律結構並且提供音節長度韻律狀態、聲調影響因子、音節類型影響因子等參數做為協助局部語速估計的參數，將這些影響因子移除後能夠使語速的估計不會受到偏差影響。這將使得估計的語速能夠符合感官上的語速，並且提出與韻律架構相關之合理切割單元來進行語速的估計。運用合理的切割單元，可以使得估計語速時能夠符合人語速變化是以一個韻律範圍進行變化而非隨意變化，且提供可以估計合理語速的單元。最後，建立一階層式的倒語速估計模式進行小區域的語速估計方法，能夠透過上層大範圍倒語速的估計結果使小區域倒語速的估計能夠穩定。本發明所提出的方法主要解決傳統之倒語速估計方式無法定義合理的語速估計區間而無法估計小區域性倒語速，改善傳統倒語速估計方法並未考慮到文本內容及韻律架構之影響所造成語速估計偏差問題，使得倒語速的估計能夠更貼近實際語音的語速變化，及解決倒語速估計之偏差問題，並提出使用韻律資訊做為參數之局部倒語速估計方法。

第一圖(a)是顯示一依據本發明構想之較佳實施例的正規化函式以及五個主要韻律子模型之關係圖。在第一圖(a)中，包括：訓練NFs及語速正規化101、訓練五個韻律主要子模型102、NFs 103、五個韻律主要子模型104、語速反正規化105及產生語速正規化後的PAFs預測值106。其中NFs為正規化函式，且PAFs為韻律聲學參數(prosodic-acoustic features)。

如第一圖(a)所示，SR-HPM模組主要分成兩個部分，一個是正規化函式(NFs)103，另一個則是五個韻律主要子模型104。正規化函式103及五個韻律子模型104之間的關聯及其訓練所用的參數與韻律產生架構如第一圖(a)所示，且分為訓練SR-HPM及由SR-HPM產生PAFs等兩個階段。正規化函式集合103主要是對觀察到的語句的韻律聲學參數(PAFs)A進行去除語速影響的正規化，補償語速對於PAFs統計數據的影響。正規化函式103是由文本相關的語言參數L、觀察到的韻律聲學參數A及局部倒語速x所訓練而成。透過正規化函式103進行韻律聲學參數A的正規化，去除語速對韻律聲學參數A影響後，獲得語速正規化後的韻律聲學參數A’。由於A’不受語速影響且可使資料在同個準位上，這樣使得接下來訓練五個主要的韻律子模型102更為簡單。訓練五個韻律子模型102會產生標示韻律架構的韻律標籤T。五個主要的韻律子模型104可用於產生語速正規化後的PAFs預測值106，以在產生語速正規化後的PAFs預測值A”與經預測的韻律標籤T^*。正規化函式103也可被運用在語速反正規化105，對語速正規化後的PAFs預測值A”與經預測的韻律標籤T^*進行反正規化，以產生出目標語速的合成的韻律聲學參數A^*。五個韻律子模型104是由正規化後的韻律聲學參數A’、語言參數L及局部倒語速x訓練而成。

第一圖(b)是顯示一如第一圖(a)所示之五個主要韻律子模型的示意圖。如第一圖(b)所示，五個主要韻律子模型包括一韻律語法模型1041、一韻律狀態模型1042、一音節韻律聲學模型1043、一停頓聲學模型1044與一韻律狀態語法模型1045。

局部ISR估計架構

本發明提出一個使用四層韻律架構估計局部倒語速的方法。第二圖是顯示一依據本發明構想之較佳實施例的四層韻律架構的示意圖。在第二圖中，呼吸或韻律片語群組層次(Breath Group/Prosodic phrase Group(BG/PG)layer)，由單一或數個韻律片語組成的句子以及呼吸群組構成，其結尾通常帶有明顯長停頓，韻律片語層次(Prosodic Phrase(PPh)layer)，由一或多個韻律詞所組成，結尾常會帶有中等長度之停頓，韻律詞層次(Prosodic Word(PW)layer)，由多音節所構成的詞組，通常在句法和語意上關係緊密，最底層為音節層次(SYLlable(SYL)layer)，為漢語最基本的字義。由於一句話的韻律變化會受到此四種韻律階層影響，而實際上一句話的快慢變化除了受韻律架構影響也受到基本語速所影響，因此運用此四層韻律架構，能透過該四層韻律架構的配合，提供合理的語速估計區間，建立一個結合該四層韻律架構的局部倒語速的估計。本方法可避免單純透過文本或是語音訊號決定語速估計區間，造成語音訊號與文本估計區間無法配合的情形。

在本發明中，語速估計方法不使用語速(SR)(syllable/second)而改使用倒語速(ISR)(second/syllable)的理由是因為ISR較方便當作文句轉語音(Text-to-Speech,TTS)應用的韻律聲學參數。在此，我們使用PPh作為ISR估計的切割單元為例，進行局部ISR的估計，透過SR-HPM分析大量的訓練語料來抽取其韻律架構並且估計所有韻律片語(PPh)中各自的ISR，讓SR-HPM透過估計的PPh ISR更進一步加強模型的強健性。

第三圖是顯示一依據本發明構想之較佳實施例的局部ISR估計方法之流程圖。在第三圖中，包括：初始語音語料庫301、建立SR-HPM模組302、經首次韻律標註的語音語料庫303、基礎的SR-HPM304及局部ISR估計305，以產生局部ISR的估計值。首先我們使用初始語音語料庫301提供語言參數(L)及觀察到的PAFs(A)來建立SR-HPM模組(302)，其中基於以語句(Utterance)為單位估計的ISR當作語句的ISR(未經處理的以語句為基礎的ISR、raw utterance-based ISR)，以此未經處理的以語句為基礎的ISR作為一獨立變數來建立SR-HPM的模組302，此步驟同時將所有語料庫文本標記上具有停頓類型(break type)以及韻律狀態(prosodic state)的韻律標籤，來獲得經首次韻律標註的語音語料庫(prosody-labeled speech corpus)303。這些韻律標籤將每一個語句對應的四層韻律架構標示起來。而後，我們基於最大後驗估計(MAP)之條件並使用此標示好的四層韻律架構資訊來估計語音語料庫中所有的局部ISR。

以下我們詳細的敘述系統細節，就如第三圖所示，此系統包含以下兩個步驟：

1.訓練一個基礎的SR-HPM(304)並同時對語音語料庫標註具有停頓類型(break type)以及韻律狀態(prosodic state)的韻律標籤(303)。

2.估計局部語速(305)。

在第一步驟中，(參看第一圖(a))，首先我們使用語言參數L以及未經處理的以語句為基礎的ISR(raw utterance-based ISR)來訓練語速正規化函數(NFs)101，用語速正規化函數103來對觀察到的韻律聲學參數A進行語速正規化，得到語速正規化後的韻律聲學參數(PAFs)A’。然後採用聯合韻律標記和建模(Prosody Labeling and Modeling,PLM)演算法來建立SR-HPM模組302以及對所有語句進行具有停頓類型(break type)和韻律狀態(prosodic state)的韻律標籤的標註，得到韻律標籤T={B,P}。標籤B意指停頓類型序列(break type sequence)，是由七種停頓類型{B0、B1、B2-1、B2-2、B2-3、B3、B4}所組成，用來把語句建構成如第二圖所示的四層韻律架構。標籤P={p,q,r}為三種韻律狀態序列，各自分別代表著當前音節在SYL層次以上(也就是PW、PPh、以及BG/PG共同持有的)的韻律架構中音節音高(pitch contour level)、音節長度(syllable duration)與能量水準(energy level)的狀態。在本發明中，我們運用韻律狀態的資訊來估計出四層韻律架構對於觀察到的音節長度(syllable duration)的影響，進而能夠更精準地估計局部ISR。

在第二步驟中，基於最大後驗估計(Maximum a posteriori,MAP)之條件來估計PPh ISRs，也就是本發明定義的局部ISR。假設此局部ISR(PPh ISR)是一個偏離上層韻律單元(語句或BG/PG)的語速。直觀來看，可以透過一個PPh內所有音節的平均音節長度來估計出一個PPh的語速，此簡單方法估計出來的語速稱為未經處理的局部ISR(raw local ISR)，然而，通常因為PPh內的音節數少，容易造成語速估計不準確，所以未經處理的局部ISR較不能代表實際上的語速。因此，本發明提出一個階層式的MAP估計方法，從韻律架構的最高層到最低層循序式地估計局部ISRs，以確保此韻律單元估計出的ISR跟上層韻律單元(語句或BG/PG)的ISR不會相差太多。本方法亦考慮到音節聲調、基本音節型態以及由基本SR-HPM求出的韻律架構，來壓抑估計的偏移量。

第四圖是顯示一依據本發明構想之較佳實施例的局部ISR採用最大後驗估計之條件的估計方法之示意圖。在第四圖中包括：以語句為基礎的ISR估計401、以BG/PG為基礎的ISR估計402與以PPh為基礎的ISR估計403。如第四圖所示，整個循序估計方法簡述如下：首先估計第k句語句的ISR，即為

，或稱為以語句為基礎的ISR(Utterance-based ISR)估計401，接著估計第k句語句中第l個BG/PG的ISR，即為

，或稱以BG/PG為基礎的ISR(BG/PG-based ISR)估計402，此估計是透過MAP條件去估計，其先驗機率假設為高斯分佈，且此高斯分佈的先驗機率模型的平均值(prior mean)設為

。而先驗機率模型的變異量(prior variance)是設定為C個語句裡面包含的多個BG/PG之未經處理的以BG/PG為基礎的ISR(raw BG/PG-based ISR)之統計變異量，此C個語句的選擇條件為此C個語句為語音語料庫中以語句為基礎的ISR(utterance-based ISR)中最為接近

的C個語句。最後，在第k句語句中第l個BG/PG下的第m個PPh的ISR，即為

，稱為局部ISR或PPh ISR，也是使用MAP條件去估計，其先驗機率假設為高斯分佈，且此高斯分佈的先驗機率模型的平均值(prior mean)設為先前以MAP條件估計之BG/PG ISR

，而先驗機率模型的變異量(prior variance)是設定為D個BG/PG裡面包含的多個PPh之未經處理的以PPh為基礎的ISR(raw PPh-based ISR)之統計變異量，此D個BG/PG的選擇條件為此D個BG/PG為語音語料庫中以BG/PG為基礎的ISR最為接近x _k,l的D個BG/PG。詳細施作之數學式如後敘述說明。

局部ISR的估計方法

在此，我們首先估計以語句為基礎的ISR

；再以

之統計資訊做為先驗機率，來協助估計BG/PG為基礎的ISR

；最後，我們使用

之統計資訊做為先驗機率，來協助估計PPh為基礎的ISR，也就是本專利的局部ISR

，以下依順序詳述方法。

1.估計以語句為基礎的ISR

我們假設以語句為基礎的ISR的先驗機率密度函數為高斯分佈，所以採用最大相似(maximum likelihood)條件以下面數學式估計以語句為基礎的ISR

：

其中

，

，

，

分別為第k個語句的音節長度、音節聲調、基本音節型態以及停頓類型的序列；n為音節索引；N _k為第k個語句的音節數。機率p(sd _k|x _k,t _k,s _k,B _k)是相似函數(likelihood function)，是用來描述給定以語句為基礎的ISR、音節聲調、基本音節型態以及停頓類型(break type)下音節長度序列sd _k的機率分佈。基於音節長度為語速、音節聲調、基本音節型態以及音節長度韻律狀態(prosodic state)影響參數(affecting pattern,AP)的加成性(superposition)假設，音節長度可被表示為：

其中

、

以及

為音節聲調(t _k,n)、基本音節型態(s _k,n)和音節長度韻律狀態(q _k,n)的APs；

為平均值為0的高斯分佈模式剩餘值 (modeling residual)。注意其中音節長度韻律狀態q _k,n不在相似函數(1)裡，因此被視為一個潛在變數(Hidden variable)，且受停頓類型序列B _k影響。我們因此引入最大期望演算法(Expectation-Maximization Algorithm,EM演算法)去解決式(1)的求解問題，即為：

其中p(q _k|sd _k,

,t _k,s _k,B _k)表示為音節長度韻律狀態序列

的後驗機率；

為舊的以語句為基礎的ISR估計；p(sd _k|q _k,x _k,t _k,s _k,B _k) 為相似函數如式(4)所示：

為了簡化式子，假設音節長度韻律狀態q _k只與標示出韻律架構的停頓類型序列B _k有關，後驗機率就可以化簡為：

其中，機率p(q _k,n|B _k)可以透過機率p(q _k,n|q _k,n-1, B _k,n-1,B _k,n)用前向-後向演算法(forward-backward algorithm)來估計。

、

以及

等APs以及機率p(q _k,n|q _k,n-1,_Bk,n-1,B _k,n)可以透過使用第一步基本的SR-HPM標記好之停頓類型序列跟韻律狀態序列來求取。

2.估計以BG/PG為基礎的ISR

接下來，估計第k句語句中第l個BG/PG的以BG/PG為基礎的ISR(

)是透過MAP條件推導而出，使用第k句語句的以語句為基礎的ISR的估計值(

)為先驗機率函數的平均值，來估計第k句語句中第l個BG/PG的以BG/PG為基礎的ISR(

)，其數學式可表示成：

其中

，

，

，

分別為第k個語句裡第l個BG/PG的音節長度、音節聲調、基本音節型態以及停頓類型(break type)的序列；n為音節索引；N _k,l為第k個語句裡第l個BG/PG的音節數。機率p(sd _k,l|x _k,l,t _k,l,s _k,l,B _k,l)是相似函數(likelihood function)，是用來描述給定以BG/PG為基礎的ISR x _k,l、音節聲調、基本音節型態以及停頓類型(break type)下音節長度序列sd _k,l的機率分佈，如同以語句為基礎的ISR的求取，我們假設音節長度為倒語速、音節聲調、基本音節型態以及音節長度韻律狀態(prosodic state)影響參數(affecting pattern,AP)的加成性結果，音節長度可被表示為：

其中

、

以及

為音節聲調(t _k , _l,n)、基本音節型態(s _k,l,n)和韻律型態(q _k,l,n)的APs；

為平均值為0的高斯分佈模式剩餘值(modeling residual)。音節長度韻律狀態

被作為一個受停頓類型序列B _k,l影響的潛在變數，因此引入最大期望演算法(EM Algorithm)去解決數學式(6)的求解問題，即為：

其中p(q _k,l|sd _k,l,

,t _k,l,s _k,l,B _k,l)表示為音節長度韻律狀態的後驗機率，也假設音節長度韻律狀態只與標示出韻律架構的停頓類型序列有關，因此後驗機率就可以化簡為：

(9)

p(sd _k,l|q _k,l,x _k,l,t _k,l,s _k,l,B _k,l)為相似函數如式(10)所示：

其中，機率p(q _k,l,n|B _k,l)可以透過機率p(q _k,l,n|q _k,l,n-1,B _k,l,n-1,B _k,l,n)用前向-後向演算法(forward-backward algorithm)來估計。

，

，

等影響因子以及機率p(q _k,l,n|q _k,l,n-1,B _k,l,n-1,B _k,l,n)可以透過使用第一步基本的SR-HPM標記好之停頓類型序列跟韻律狀態序列來求取。

先驗機率p(x _k,l)是一個高斯分佈，即為x _k,l ~N(

,

)，其中

為先前以數學式(3)使用EM演算法估計出的以語句為基礎的ISR，為此先驗機率的平均值(mean)；

為此先驗機率的變異量(variance)，以下列數學式(11)-(13)求取：

其中

k _c代表與以語句為基礎的ISR

之間差異(

-

)第c個最小的語句指標(utterance index，而數學式(13)中

代表第k _c個語句下的第l個 BG/PG的未經處理的以BG/PG為基礎的ISR，所以式(11)便代表C個語句裡面包含的多個BG/PG之未經處理的以BG/PG為基礎的ISR之統計變異量，此C個語句的選擇條件為此C個語句為語音語料庫中以語句為基礎的ISR最為接近

的C個語句。

3.估計局部/以PPh為基礎的ISR

接下來，局部/以PPh為基礎的ISR的估計是透過MAP條件，使用以BG/PG為基礎的ISR的估計值(

)為先驗機率函數的平均值，來估計第k句語句中第l個BG/PG的第m個PPh的以PPh為基礎的ISR(

)，類似之前估計以BG/PG為基礎的ISR

的方法，估計

的數學式可表示成：

其中

，

，

，

分別為第k個語句裡第l個BG/PG中第m個PPh的音節長度、音節聲調、基本音節型態以及停頓類型的序列；n為音節索引；N _k,l,m為第k個語句裡第l個中第m個PPh的音節數。數學式(14)對於

的估計也是如同

的EM演算法估計方法，其中先驗機率p(x _k,l,m)是一個高斯分佈，即為x _k,l,m ~N(

,

)，其中

就是先前以數學式(8)使用EM演算法估計出的以BG/PG為基礎的ISR，為此先驗機率的平均值(mean)，

為此先驗機率的變異量(variance)，以下列數學式(15)-(17)求取：

其中

索引{

}代表與以BG/PG為基礎的ISR

之間差異(

-

)第d個最小的BG/PG指標(BG/PG index)，也就是第

語句中的第l _d個BG/PG，而數學式(17)中

代表第

個語句下第l _d個BG/PG中第m個PPh的未經處理的以PPh為基礎的ISR，所以式(15)便代表D個BG/PG裡面包含的多個PPh之未經處理的以PPh為基礎的ISR(raw PPh-based ISR)之統計變異量，此D個BG/PG的選擇條件為此D個BG/PG為語音語料庫中以BG/PG為基礎的ISR最為接近

的D個BG/PG。

局部ISR的實施例

第五圖(a)是顯示一依據本發明構想之較佳實施例的整體實驗流程圖。如第五圖(a)所示，本發明的整體實驗流程可分為訓練階段(training phase)和合成階段(synthesis phase)。在第五圖(a)中訓練階段包括：初始語音語料庫501、建立SR-HPM模組502、經首次韻律標註的語音語料庫503、基礎的SR-HPM504、局部ISR估計505、重新訓練SR-HPM506、經二次韻律標註的語音語料庫507、經重新訓練的SR-HPM508、訓練PPh ISR預測模組509與PPh ISR預測模組510；而合成階段包括：韻律標籤預測511、產生語速正規化後的PAFs預測值512、預測局部ISR513與將語速正規化後的PAFs預測值反正規化514。

在訓練階段方面，如第五圖(a)所示，首先提供一初始語音語料庫501，而後使用傳統習知之建立SR-HPM模組方法並輸入未經處理的以語句為基礎的ISR當作語速來建立SR-HPM模組502，並使用該等ISR、語言參數與觀察到的PAFs訓練出基礎的SR-HPM(baseline SR-HPM)504。同時，將所有初始語音語料庫501的文本標記上具有停頓類型以及韻律狀態的韻律標籤，以產生經首次語音標註的語音語料庫(prosody-labeled speech corpus)503。這些標籤便將每一個語句以如第二圖所示的四層韻律結構標示起來。前述使用未經處理的以語句為基礎的ISR當作語速來建立SR-HPM模組502，亦即假設整個語句是以同一個語速在控制其韻律變化。緊接著，使用本專利所提出的局部ISR估計方法，來進行局部ISR估計505，亦即依序使用數學式(1)、(6)、以及(14)估計出以語句為基礎的、以BG/PG為基礎的、以及以PPh為基礎的的ISR。接下來，利用估計出的以PPh為基礎的ISR以重新訓練SR-HPM506。在訓練過程中，用來壓抑韻律聲學參數受語速變化的影響的NFs會被重新訓練，並且被應用到每個局部的韻律單元(PPh)內進行韻律聲學參數的語速正規化，並據以重新標註語音語料庫而獲得一經二次韻律標註的語音語料庫507。此時，受語速影響的SR-HPM子模型(見第一圖(b)中該韻律語法模型1041、該韻律狀態模型1042、該音節韻律聲學模型1043與該停頓聲學模型1044)也會根據以PPh為基礎的ISR被重新訓練，進而得到經重新訓練的SR-HPM(Re-trained SR-HPM)508。最後，再(建立與)訓練一PPh ISR預測模組509。該PPh ISR預測模組510具有一類神經網路5101(參見第五圖(b))，且提供產生局部ISR/PPh為基礎的ISR的預測值所需之一預測參數(參見第六圖)。

如上所述，本發明在訓練階段提供一種用以產生一局部倒語速之一估計值之方法，該方法包含：提供對應於複數語句的複數語言參數、複數未經處理的以語句為基礎的倒語速與複數觀察到的韻律聲學參數，以訓練一基礎的語速相依之階層式韻律模組(參見第一圖(a))，並將包括該複數語句之一初始語音語料庫301/501(參見第三圖與第五圖(a))中之各該語句均標註上具有一停頓類型與一韻律狀態之一韻律標籤而獲得一經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x _k的一最大機率來估計該x _k的一估計值

(參見第四圖中401)；透過該MAP條件，依據給定該第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x _k,l的一最大機率來估計該x _k,l的一估計值

(參見第四圖中402)，其中該

之一先驗機率模式的平均值是該

(參見第四圖)；以及透過該MAP條件，依據給定該第k個語句裡第l個BG/PG中第m個韻律片語(PPh)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG中第m個PPh的一倒語速x _k,l,m的一最大機率來估計該x _k,l,m的一估計值

(參見第四圖中403)，且該

為該局部倒語速之該估計值，其中該

之一先驗機率模式的平均值是該

(參見第四圖)。

前述用以產生該局部倒語速之該估計值之方法中，該

之該先驗機率模式與該

之該先驗機率模式分別為一第一高斯分佈與一第二高斯分佈，該基礎的語速相依之階層式韻律模組304/504包括一語速正規化函式103與五個韻律主要子模型104(參見第一圖(a))，訓練該基礎的語速相依之階層式韻律模組的步驟(參見第一圖(a))更包括：以一聯合韻律標籤和建模演算法來建構該基礎的語速相依之階層式韻律模組(302/502，304/504，參見第三圖與第五圖(a))；以該複數語言參數L、該複數觀察到的韻律聲學參數A與該複數未經處理的以語句為基礎的倒語速x來訓練該語速正規化函式101；以經訓練的該語速正規化函式來進行對該複數觀察到的韻律聲學參數的正規化101以獲得複數語速正規化後的韻律聲學參數A’；以該複數語速正規化後的韻律聲學參數A’、該複數語言參數L與該複數未經處理以語句為基礎的倒語速x來訓練該五個韻律主要子模型102；以及使用該聯合韻律標籤和建模演算法來將該(初始)語音語料庫301/501(參見第三圖與第五圖(a))中之各該語句均標註上該停頓類型及該韻律狀態，以獲得各該語句之該韻律標籤T並產生該經首次標註韻律標註的語音語料庫503。

如第一圖(b)所示，該五個韻律主要子模型為一韻律語法模型、一韻律狀態模型、一音節韻律聲學模型、一停頓聲學模型與一韻律狀態語法模型；該停頓類型包括一停頓標記序列，該停頓標記序列中之每一個是選自由一呼吸或韻律片語群組邊界韻律斷點、一韻律片語邊界韻律斷點、一表示音高重置的第一類韻律詞韻律斷點、一表示短靜音停頓的第二類韻律詞韻律斷點、一表示音節拉長停頓的第三類韻律詞韻律斷點、一韻律詞內正常韻律斷點與一韻律詞內強連音韻律斷點所組成群組其中之一(參見第二圖)。該韻律狀態包括一基頻韻律狀態標記序列、一時長韻律狀態標記序列與一能量位階韻律狀態標記序列，該韻律標籤T用以將該初始語音語料庫301/501(參見第三圖與第五圖(a))中之每一個語句以一包括音節、韻律詞、韻律片語及呼吸或韻律片語群組等四種韻律成分之一四層韻律架構標示起來，據以描述該四層韻律架構，並獲得該經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))，該基礎的語速相依之階層式韻律模組304/504(參見第三圖與第五圖(a))是使用該複數未經處理的以語句為基礎的倒語速來建立的，也就是假設整個語句是以同一個語速在控制其韻律變化。

其中該第一高斯分佈之一先驗機率模式的變異量是設定為 C個語句裡面包含的多個BG/PG之一未經處理的以BG/PG為基礎的倒語速之統計變異量(參見第四圖中402)，該C個語句之一選擇條件為該C個語句為該經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))中以語句為基礎之倒語速中最為接近

的C個語句(參見第四圖中401)，且該第二高斯分佈之一先驗機率模式的變異量是設定為D個BG/PG裡面包含的多個PPh之一未經處理的以PPh為基礎的倒語速之統計變異量(參見第四圖中403)，該D個BG/PG之一選擇條件為該D個BG/PG為該經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))中以BG/PG為基礎之倒語速中最為接近

的D個BG/PG(參見第四圖中402)。

如第五圖(a)所示，在合成階段方面，首先透過經重新訓練的SR-HPM模型508及給定語句之ISR(以語句為基礎的ISR)進行韻律標籤預測511，預測局部ISR513則是透過PPh ISR預測模組輸出的預測參數與經預測的韻律標籤去預測，其中PPh ISR預測模組使用類神經網路的迴歸(regression)機制進行訓練。第五圖(b)是顯示一如第五圖(a)所示之PPh ISR預測模組的示意圖。如第五圖(b)所示，該PPh ISR預測模組510包括一類神經網路5101，而該類神經網路5101包括一隱藏層51011、一激發函數51012與一輸出層51013，其中該激發函數51012可為為一雙曲函數(hyperbolic tangent)，該輸出層51013為一個節點，且該節點輸出產生以PPh為基礎的ISR/局部ISR所需之一預測參數。此外，該類神經網路5101之輸入參數為語句的ISR(ISR_Utt)、語句的音節數(#S_Utt)、語句中的BG/PG數(#B_Utt)、目前BG/PG的音節數(#S_B)以及正規化後的BG/PG在語句中正數的位置(forward position,Pos_B，其被定義為(l-1)/(L-1)，L為文本中BG/PG的數目，而l為該BG/PG於語句中的正數位置)、當前BG/PG的PPh數目(#P_B)、當前PPh的音節數目(#S_P)以及正規化後的PPh在文本中正數的位置(Pos_P)，然後使用經重新訓練的SR-HPM模型508去進行韻律標籤(prosodic tag，包含break type和prosodic state)預測511以及產生語速正規化後的PAFs(SR-normalized PAFs)預測值512。最後，使用預測局部ISR513所獲得的局部ISR之預測值，將語速正規化後的PAFs預測值反正規化(514)，以符合該局部ISR的韻律聲學參數特性，也就是生成合成的PAFs(Synthesized PAFs)，這些合成的PAFs包含sp(音節音高輪廓)、sd(音節長度)、se(音節能量位階)以及pd(音節間靜音長度)。

在第五圖(a)中，在合成階段方面，該方法更包括：提供一第一參數、一給定語句(given utterance)之語言參數與一以給定語句為基礎的倒語速以產生該給定語句之一具有一經預測的停頓類型及一經預測的韻律狀態之經預測的韻律標籤511，其中該第一參數是產生該經預測的韻律標籤所需之參數，且由該經重新訓練的語速相依之階層式韻律模組508所提供；使用該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值513；提供一第二參數與該經預測的韻律標籤以產生一語速正規化後的韻律聲學參數預測值512，其中該第二參數是產生該語速正規化後的韻律聲學參數預測值所需之參數，且由該經重新訓練的語速相依之階層式韻律模組508所提供；以及提供一第三參數與該局部倒語速之該預測值513，將該語速正規化後的韻律聲學參數預測值反正規化514，以產生一合成的韻律聲學參數，其中該第三參數是將該語速正規化後的韻律聲學參數預測值反正規化514所需之參數，且由該經重新訓練的語速相依之階層式韻律模組508所提供，該合成的韻律聲學參數包括一音節音高輪廓、一音節長度、一音節能量位階與一音節間靜音長度。

如第五圖(a)所示之產生局部倒語速之一預測值之方法，包含：依據各該局部倒語速之各該估計值將該經首次韻律標註的語音語料庫503之各該語句均再次標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤以產生一經二次韻律標註的語音語料庫507；接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，以將該基礎的語速相依之階層式韻律模組504訓練成一經重新訓練的語速相依之階層式韻律模組508；提供一第一參數、一給定語句(given utterance)之語言參數與一以給定語句為基礎的倒語速，以產生該給定語句之一具有一經預測的停頓類型及一經預測的韻律狀態之經預測的韻律標籤511；提供一具有一類神經網路5101(參見第五圖(b))之韻律片語倒語速預測模組510；使該韻律片語倒語速預測模組510接收複數輸入參數與各該局部倒語速之各該估計值，使用該類神經網路5101以訓練該韻律片語倒語速預測模組509，且藉由該韻律片語倒語速預測模組510輸出產生該局部倒語速之該預測值所需之一預測參數；以及使用該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值513。

在第五圖(a)中所示之該方法，更包括：藉由一第二參數與該經預測的韻律標籤，以產生一語速正規化後的韻律聲學參數預測值512；以及藉由一第三參數與該局部倒語速之該預測值，將該語速正規化後的韻律聲學參數預測值反正規化514，以產生一合成的韻律聲學參數，其中該第一參數、該第二參數與該第三參數分別是產生該經預測的韻律標籤、產生該語速正規化後的韻律聲學參數預測值和將該語速正規化後的韻律聲學參數預測值反正規化所需之參數，且該第一參數至該第三參數是由該經重新訓練的語速相依之階層式韻律模組508所提供，且該合成的韻律聲學參數包括一音節音高輪廓、一音節長度、一音節能量位階與一音節間靜音長度。

如第三圖、第四圖與第五圖(a)所示之一種用以產生一局部倒語速之一估計值的方法，其包含：提供包括複數語句之一初始語音語料庫301/501(參見第三圖與第五圖(a))；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x _k的一最大機率來估計該x _k的一估計值

(參見第四圖401)；以及透過該MAP條件，依據該給定第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x _k , _l的一最大機率來估計該x _k,l的一估計值

(參見第四圖402)，其中該

為該局部倒語速之該估計值，且該

之一先驗機率模式的平均值是該

。

如第三圖、第四圖與第五圖(a)之該方法，更包括透過該MAP條件，依據該給定第k個語句裡之該第l個BG/PG中第m個韻律片語(PPh)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG中第m個PPh的一倒語速x _k,l,m的一最大機率來估計該x _k,l,m的一估計值

，且重新設定該局部倒語速之該估計值為該

，其中該

之一先驗機率模式的平均值是該

，該

之該先驗機率模式與該

之該先驗機率模式分別為一第一高斯分佈與一第二高斯分佈，該提供包括複數語句之該初始語音語料庫的步驟301/501(參見第三圖與第五圖(a))更包括：提供對應於該複數語句的複數語言參數、複數未經處理的以語句為基礎的倒語速與複數觀察到的韻律聲學參數，以訓練一基礎的語速相依之階層式韻律模組304/504(參見第三圖與第五圖(a))，並將該初始語音語料庫301/501(參見第三圖與第五圖(a))中之各該語句均標註上具有一停頓類型與一韻律狀態之一韻律標籤而獲得一經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))。

第六圖是顯示一依據本發明構想之較佳實施例的產生局部倒語速之預測值的裝置之示意圖。如第六圖所示，該產生局部倒語速之預測值的裝置608包括：經二次韻律標註的語音語料庫601、經重新訓練的SR-HPM602、韻律標籤預測器603、PPH ISR預測模組604、局部ISR預測器 605、語速正規化後的PAFs預測值產生器606與合成的的PAFs產生器607。

如第三圖、第五圖(a)與第六圖所示，該產生該局部倒語速之預測值之裝置608包含一經二次韻律標註的語音語料庫601，是將該經首次韻律標註的語音語料庫303/503(參見第三圖與第五圖(a))中各該語句均依該局部倒語速之該估計值標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤而得，一經重新訓練的語速相依之階層式韻律模組(SR-HPM)602，接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，並據以重新訓練該基礎的語速相依之階層式韻律模組304/504(參見第三圖與第五圖(a))而得，一韻律標籤預測器603，接收一第一參數、一以給定語句為基礎的倒語速與一給定語句之語言參數，以產生該給定語句之一具有一經預測的停頓類型與一經預測的韻律狀態之經預測的韻律標籤，一韻律片語倒語速預測模組604，接收複數輸入參數(參見第五圖(b)5101)與各該局部倒語速之各該估計值，具有一類神經網路(參見第五圖(b)5101)，使用該類神經網路5101訓練該韻律片語倒語速預測模組510/604(參見第五圖(a)與第六圖)，且輸出產生該局部倒語速之該預測值所需之一預測參數，以及一局部倒語速預測器605，接收該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值。

在第六圖中，該產生該局部倒語速之預測值之裝置608更包括一語速正規化後的韻律聲學參數預測值產生器606和一合成的韻律聲學參數產生器607，其中該語速正規化後的韻律聲學參數預測值產生器606接收該經預測的韻律標籤和一第二參數，以產生一語速(SR)正規化後的韻律聲學參數預測值，而該合成的韻律聲學參數產生器607接收該局部倒語速之該預測值、該語速正規化後的韻律聲學參數預測值與一第三參數，和將該語速正規化後的韻律聲學參數預測值反正規化，以產生一合成的韻律聲學參數，該第一參數、該第二參數與該第三參數分別是產生該經預測的韻律標籤、產生該語速正規化後的韻律聲學參數預測值和將該語速正規化後的韻律聲學參數預測值反正規化所需之參數，且該第一參數至該第三參數是由該經重新訓練的語速相依之階層式韻律模組602所提供，該類神經網路5101包括一隱藏層51011、一激發函數51012與一輸出層51013，該韻律片語倒語速預測模組604是使用該類神經網路5101之一迴歸機制進行訓練，該複數輸入參數包括一語句的倒語速(ISR_Utt)、一語句的音節數(#S_Utt)、一語句中的BG/PG數(#B_Utt)、一目前BG/PG的音節數(#S_B)以及一正規化後的BG/PG在語句中正數的位置(forward position,Pos_B)、當前BG/PG的PPh數目(#P_B)、當前PPh的音節數目(#S_P)以及一正規化後的PPh在該語句中正數的位置(Pos_P)，其中該激發函數為一雙曲函數，該輸出層為一節點，該Pos_B被定義為(l-1)/(L-1)，L為該語句中BG/PG的數目，而l為該BG/PG於該語句中的正數位置。

在本發明中，進行了多組韻律產生的實驗，來驗證估計局部ISR是具有意義且可以準確地描述語者說話語速的變化。本發明設計了兩種實驗：預想組和實際組。預想組的韻律產生是給定正確的停頓類型(break type)序列，再產生韻律聲學參數，此序列是給定訓練好的SR-HPM所產生的停頓類型標記，換句話說，就是給定正確的韻律架構再來合成韻律聲學參數。實際組的韻律聲學參數是透過實際完整的韻律產生(prosody generation)過程預測得到，其中(break type)序列是由停頓類型及韻律狀態預測(break type and prosodic state prediction)或韻律標籤預測511(參見第五圖(a))產生，韻律聲學參數再由前面獲得的參數進而產生。

預想組實驗的目的是測試估計出的局部ISR是否能夠準確地模擬目標量測的韻律變化。在此處使用的目標量測為均方根誤差(RMSE) 以及計算正確參數跟產生的韻律聲學參數之間的相關係數(correlation coefficient)。我們比較基於以語句為基礎的ISR、以BG/PG為基礎的ISR、以及以PPh為基礎的ISR的效果，並且也比較不同的ISR估計方法：RAW(未經處理的)、EM和EM-MAP。RAW方法是透過平均韻律單元的音節長度來去簡單地估計ISR。EM-MAP方法估計局部ISR是透過數學式(6)以及(14)，而EM方法估計局部ISR則是透過沒有先驗機率p(x)的數學式(6)以及(14)來估計。我們可以透過表1(a)觀察出，一般來說，EM-MAP的估計方法比起EM跟RAW於PAFs的產生更可以達到最低的RMSE跟最高的相關係數，尤其是利用EM-MAP得出的以PPh為基礎的ISR在sd(音節長度)、以及sp(音節音高輪廓)擁有最低的RMSE以及最高的相關係數。

表1(b)展示出實際韻律產生實驗所預測的韻律聲學參數以及正確韻律聲學參數之間的RMSE及其相關係數。我們比較三種組成的結果：以語句為基礎的RAW、以語句為基礎的EM、以及以PPh為基礎的EM-MAP。以語句為基礎的RAW的韻律聲學參數預測的結果是透過基礎的SR-HPM及未經處理的以語句為基礎的ISR所產生的韻律聲學參數。以語句為基礎的EM的韻律聲學參數預測的結果是以數學式(1)所估計的以語句為基礎的ISR以及使用此以語句為基礎的ISR重新訓練的SR-HPM所產生。以PPh為基礎的EM-MAP的韻律聲學參數預測是透過使用數學式(14)估計出的以PPh為基礎的ISR重新訓練的SR-HPM及局部ISR預測器以PPh ISR預測模組產生的以PPh為基礎的ISR所產生的結果。如表1(b)所示，以PPh為基礎的EM-MAP的表現最好，我們也進行了非正式的聽覺測試，驗證了新方法由以PPh為基礎的ISR來合成的語音，比起既存的給定以語句為基礎的ISR的SR-HPM方法更加的生動。

表2展示出PPh ISR預測模組的預測結果以及運用此架構來預測以BG/PG為基礎的ISR，並且測試不同韻律相關參數對於局部ISR的語速估計的影響。其中NN為類神經網路，且總殘餘誤差(TRE)包括訓練(training)與測試(test)兩項。結果顯示，加入預測單元所包含的音節數的確能夠幫助語速的預測，主要是因為，通常越快的語速預測單元所包含的音節會越多，而越慢的語速所包含的音節會越少，這說明了單元所包含的音節數與語速有關，而韻律也會受到語速影響，因此使用韻律相關之參數的確能夠協助語速的預測。

^a以語句為基礎的：由以語句為基礎的ISR訓練的SR-HPM

^b以BG/PG為基礎的：由以BG/PG為基礎的ISR訓練的SR-HPM

^cPPh為基礎的：由以PPh為基礎的ISR訓練的SR-HPM

^d未經處理的：未經處理的ISR(RAW ISR)是僅由平均音節長度而獲得

^eEM：以EM演算法未使用先驗機率p(x)而估計ISR

^fEM-MAP：由EM演算法以MAP標準估計ISR

^gsd：秒，^hsp：logHz,ⁱse：dB,^jpd：秒

^kCOR：相關函數(correlation coefficient)

^lsp：四維正交基底係數

綜上所述，本發明提供一種以階層式架構結合語者之韻律架構之語速估計方法，解決傳統方法因無法結合韻律架構提供一合理之語速估計範圍，導致無法求取小區域性局部語速的問題，也提供一不受文本及韻律架構等影響之乾淨語速的估計方式來解決傳統語速估計容易受到語速影響因子所造成的偏差影響的問題，讓語速的估計能夠更加精準符合聽覺上的語速，並且可以將局部語速估計應用於語音合成、語音辨識、自然語言處理等領域，做為訓練參數或是分析應用，故其確實具有新穎性與進步性。

是以，縱使本案已由上述之實施例所詳細敘述而可由熟悉本技藝之人士任施匠思而為諸般修飾，然皆不脫如附申請專利範圍所欲保護者。

401‧‧‧以語句為基礎的ISR估計

402‧‧‧以BG/PG為基礎的ISR估計

403‧‧‧以PPh為基礎的ISR估計

Claims

一種用以產生一局部倒語速之一估計值之方法，包含：提供對應於複數語句的複數語言參數、複數未經處理的以語句為基礎的倒語速與複數觀察到的韻律聲學參數，以訓練一基礎的語速相依之階層式韻律模組，並將包括該複數語句之一初始語音語料庫中之各該語句均標註上具有一停頓類型與一韻律狀態之一韻律標籤而獲得一經首次韻律標註的語音語料庫；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x_k的一最大機率來估計該x _k的一估計值
；透過該MAP條件，依據給定該第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x_k,l的一最大機率來估計該x_k,l的一估計值
，其中該
之一先驗機率模式的平均值是該
，其中該
之該先驗機率模式為一第一高斯分佈，該第一高斯分佈之一先驗機率模式的變異量是設定為C個語句裡面包含的多個BG/PG之一未經處理的以BG/PG為基礎的倒語速之統計變異量，該C個語句之一選擇條件為該C個語句為該經首次韻律標註的語音語料庫中以語句為基礎之倒語速中最為接近
的C個語句；以及透過該MAP條件，依據給定該第k個語句裡第l個BG/PG中第m個韻律片語(PPh)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG中第m個PPh的一倒語速x_k,l,m的一最大機率來估計該x_k,l,m的一估計值
，且該
為該局部倒語速之該估計值，其中該
之一先驗機率模式的平均值是該
，其中該
之該先驗機率模式為一第二高斯分佈，該第二高斯分佈之一先驗機率模式的變異量是設定為D個BG/PG裡面包含的多個PPh之一未經處理的以PPh為基礎的倒語速之統計變異量，該D個BG/PG之一選擇條件為該D個BG/PG為該經首次韻律標註的語音語料庫中以BG/PG為基礎之倒語速中最為接近
的D個BG/PG。
如申請專利範圍第1項所述之方法，其中該基礎的語速相依之階層式韻律模組包括一語速正規化函式與五個韻律主要子模型，訓練該基礎的語速相依之階層式韻律模組的步驟更包括：以一聯合韻律標籤和建模演算法來建構該基礎的語速相依之階層式韻律模組；以該複數語言參數、該複數觀察到的韻律聲學參數與該複數未經處理的以語句為基礎的倒語速來訓練該語速正規化函式；以經訓練的該語速正規化函式來進行對該複數觀察到的韻律聲學參數的正規化以獲得複數語速正規化後的韻律聲學參數；以該複數語速正規化後的韻律聲學參數、該複數語言參數與該複數未經處理以語句為基礎的倒語速來訓練該五個韻律主要子模型；以及使用該聯合韻律標籤和建模演算法來將該語音語料庫中之各該語句均標註上該停頓類型及該韻律狀態，以獲得各該語句之該韻律標籤並產生該經首次標註韻律標註的語音語料庫。
如申請專利範圍第2項所述之方法，其中該五個韻律主要子模型為一韻律語法模型、一韻律狀態模型、一音節韻律聲學模型、一停頓聲學模型與一韻律狀態語法模型，該停頓類型包括一停頓標記序列，該停頓標記序列中之每一個是選自由一呼吸或韻律片語群組邊界韻律斷點、一韻律片語邊界韻律斷點、一表示音高重置的第一類韻律詞韻律斷點、一表示短靜音停頓的第二類韻律詞韻律斷點、一表示音節拉長停頓的第三類韻律詞韻律斷點、一韻律詞內正常韻律斷點與一韻律詞內強連音韻律斷點所組成群組其中之一，該韻律狀態包括一基頻韻律狀態標記序列、一音節長度韻律狀態標記序列與一能量位階韻律狀態標記序列，該韻律標籤用以將該初始語音語料庫中之每一個語句以一包括音節、韻律詞、韻律片語及呼吸或韻律片語群組等四種韻律成分之一四層韻律架構標示起來，據以描述該四層韻律架構，並獲得該經首次韻律標註的語音語料庫，該基礎的語速相依之階層式韻律模組是使用該複數未經處理的以語句為基礎的倒語速來建立的，也就是假設整個語句是以同一個語速在控制其韻律變化。
如申請專利範圍第3項所述之方法，更包括：以該局部倒語速之該估計值重新訓練該基礎的語速相依之階層式韻律模組以獲得一經重新訓練的語速相依之階層式韻律模組，其中該語速正規化函式和受語速影響的該韻律語法模型、該韻律狀態模型、該音節韻律聲學模型與該停頓聲學模型會被重新訓練；依據該局部倒語速之該估計值以該聯合韻律標籤和建模演算法來將該經首次韻律標註的語音語料庫中之所有語句均重新標註上具有一經估計的停頓類型及一經估計的韻律狀態之一經估計的韻律標籤以獲得一經二次韻律標註的語音語料庫；以及使用該局部倒語速之該估計值與該經重新訓練的語速相依之階層式韻律模組來構建與訓練一韻律片語倒語速預測模組 (PPh ISR Prediction module)，其中該韻律片語倒語速預測模組提供產生一韻律片語為基礎的倒語速(PPh-based ISR)的一預測值所需的一預測參數，包括一類神經網路，且使用該類神經網路的一迴歸(regression)機制來訓練該韻律片語倒語速預測模組，該類神經網路具有一隱藏層、一激發函數與一輸出層，而該類神經網路之複數輸入參數包括一語句的ISR(ISR_Utt)、一語句的音節數(#S_Utt)、一語句中的BG/PG數(#B_Utt)、目前BG/PG的音節數(#S_B)以及正規化後的BG/PG在語句中正數的位置(forward position,Pos_B)、當前BG/PG的PPh數目(#P_B)、當前PPh的音節數目(#S_P)以及正規化後的PPh在該語句中正數的位置(Pos_P)，其中該預測值為該局部倒語速之一預測值，該激發函數為一雙曲函數(hyperbolic tangent)，該輸出層為一個節點，用以輸出該預測參數，該正數的位置被定義為(l-1)/(L-1)，L為該語句中BG/PG的數目，而l為該BG/PG於該語句中的正數位置。
如申請專利範圍第4項所述之方法，更包括：提供一第一參數、一給定語句(given utterance)之語言參數與一以給定語句為基礎的倒語速以產生該給定語句之一具有一經預測的停頓類型及一經預測的韻律狀態之經預測的韻律標籤，其中該第一參數是產生該經預測的韻律標籤所需之參數，且由該經重新訓練的語速相依之階層式韻律模組所提供；使用該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值；提供一第二參數與該經預測的韻律標籤以產生一語速正規化後的韻律聲學參數預測值，其中該第二參數是產生該語速正規化後的韻律聲學參數預測值所需之參數，且由該經重新訓練的語速相依之階層式韻律模組所提供；以及提供一第三參數與該局部倒語速之該預測值，將該語速正規化後的韻律聲學參數預測值反正規化，以產生一合成的韻律聲學參數，其中該第三參數是將該語速正規化後的韻律聲學參數預測值反正規化所需之參數，且由該經重新訓練的語速相依之階層式韻律模組所提供，該合成的韻律聲學參數包括一音節音高輪廓、一音節長度、一音節能量位階與一音節間靜音長度。
一種使用如申請專利範圍第1項所述之方法以產生該局部倒語速之一預測值之裝置，包含：一經二次韻律標註的語音語料庫，是將該經首次韻律標註的語音語料庫中各該語句均依該局部倒語速之該估計值標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤而得；一經重新訓練的語速相依之階層式韻律模組，接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，並據以重新訓練該基礎的語速相依之階層式韻律模組而得；一韻律標籤預測器，接收一第一參數、一以給定語句為基礎的倒語速與一給定語句之語言參數，以產生該給定語句之一具有一經預測的停頓類型與一經預測的韻律狀態之經預測的韻律標籤；一韻律片語倒語速預測模組，接收複數輸入參數與各該局部倒語速之各該估計值，具有一類神經網路，使用該類神經網路訓練該韻律片語倒語速預測模組，且輸出產生該局部倒語速之該預測值所需之一預測參數；以及一局部倒語速預測器，接收該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值。
如申請專利範圍第6項所述之裝置，更包括一語速正規化後的韻律聲學參數預測值產生器和一合成的韻律聲學參數產生器，其中該語速正規化後的韻律聲學參數預測值產生器接收該經預測的韻律標籤和一第二參數，以產生一語速正規化後的韻律聲學參數預測值，而該合成的韻律聲學參數產生器接收該局部倒語速之該預測值、該語速正規化後的韻律聲學參數預測值與一第三參數，和將該語速正規化後的韻律聲學參數預測值反正規化，以產生一合成的韻律聲學參數，該第一參數、該第二參數與該第三參數分別是產生該經預測的韻律標籤、產生該語速正規化後的韻律聲學參數預測值和將該語速正規化後的韻律聲學參數預測值反正規化所需之參數，且該第一參數至該第三參數是由該經重新訓練的語速相依之階層式韻律模組所提供，該類神經網路包括一隱藏層、一激發函數與一輸出層，該韻律片語倒語速預測模組是使用該類神經網路之一迴歸機制進行訓練，該複數輸入參數包括一語句的倒語速(ISR_Utt)、一語句的音節數(#S_Utt)、一語句中的BG/PG數(#B_Utt)、一目前BG/PG的音節數(#S_B)以及一正規化後的BG/PG在語句中正數的位置(forward position,Pos_B)、當前BG/PG的PPh數目(#P_B)、當前PPh的音節數目(#S_P)以及一正規化後的PPh在該語句中正數的位置(Pos_P)，其中該激發函數為一雙曲函數，該輸出層為一節點，該 Pos_B被定義為(l-1)/(L-1)，L為該語句中BG/PG的數目，而l為該BG/PG於該語句中的正數位置。
一種使用如申請專利範圍第1項所述之方法以產生該局部倒語速之一預測值之方法，包含：依據各該局部倒語速之各該估計值將該經首次韻律標註的語音語料庫之各該語句均再次標註上一具有一經估計的停頓類型及一經估計的韻律狀態之經估計的韻律標籤以產生一經二次韻律標註的語音語料庫；接收各該局部倒語速之各該估計值與各該經估計的韻律標籤，以將該基礎的語速相依之階層式韻律模組訓練成一經重新訓練的語速相依之階層式韻律模組；提供一第一參數、一給定語句(given utterance)之語言參數與一以給定語句為基礎的倒語速，以產生該給定語句之一具有一經預測的停頓類型及一經預測的韻律狀態之經預測的韻律標籤；提供一具有一類神經網路之韻律片語倒語速預測模組；使該韻律片語倒語速預測模組接收複數輸入參數與各該局部倒語速之各該估計值，使用該類神經網路以訓練該韻律片語倒語速預測模組，且藉由該韻律片語倒語速預測模組輸出產生該局部倒語速之該預測值所需之一預測參數；以及使用該預測參數與該經預測的韻律標籤以產生該局部倒語速之該預測值。
如申請專利範圍第8項所述之方法，更包括：藉由一第二參數與該經預測的韻律標籤，以產生一語速正規化後的韻律聲學參數預測值；以及藉由一第三參數與該局部倒語速之該預測值，將該語速正規化後的韻律聲學參數預測值反正規化，以產生一合成的韻律聲學參數，其中該第一參數、該第二參數與該第三參數分別是產生該經預測的韻律標籤、產生該語速正規化後的韻律聲學參數預測值和將該語速正規化後的韻律聲學參數預測值反正規化所需之參數，且該第一參數至該第三參數是由該經重新訓練的語速相依之階層式韻律模組所提供，且該合成的韻律聲學參數包括一音節音高輪廓、一音節長度、一音節能量位階與一音節間靜音長度。
一種用以產生一局部倒語速之一估計值的方法，包含：提供包括複數語句之一初始語音語料庫；基於一最大後驗估計(MAP)條件，依據給定之一第k語句的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k語句的一倒語速x_k的一最大機率來估計該x_k的一估計值
；以及透過該MAP條件，依據該給定第k個語句裡第l個呼吸或韻律片語群組(BG/PG)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG的一倒語速x_k,l的一最大機率來估計該x _k,l的一估計值
，其中該
為該局部倒語速之該估計值，且該
之一先驗機率模式的平均值是該
，其中該
之該先驗機率模式為一第一高斯分佈，該第一高斯分佈之一先驗機率模式的變異量是設定為C個語句裡面包含的多個BG/PG之一未經處理的以BG/PG為基礎的倒語速之統計變異量，該C個語句之一選擇條件為該C個語句為該經首次韻律標註的語音語料庫中以語句為基礎之倒語速中最為接近
的C個語句。
如申請專利範圍第10項所述之方法，更包括透過該MAP條件，依據該給定第k個語句裡之該第l個BG/PG中第m個韻律片語(PPh)的一音節長度、一音節聲調、一基本音節型態及一停頓類型的各個序列，以該第k個語句裡第l個BG/PG中第m個PPh的一倒語速x _k,l,m的一最大機率來估計該x _k,l,m的一估計值
，且重新設定該局部倒語速之該估計值為該
，其中該
之一先驗機率模式的平均值是該
，該
之該先驗機率模式與該
之該先驗機率模式分別為一第一高斯分佈與一第二高斯分佈，該提供包括複數語句之該初始語音語料庫的步驟更包括：提供對應於該複數語句的複數語言參數、複數未經處理的以語句為基礎的倒語速與複數觀察到的韻律聲學參數，以訓練一基礎的語速相依之階層式韻律模組，並將該初始語音語料庫中之各該語句均標註上具有一停頓類型與一韻律狀態之一韻律標籤而獲得一經首次韻律標註的語音語料庫。