TWI703556B - 語音合成方法及其系統 - Google Patents

語音合成方法及其系統 Download PDF

Info

Publication number
TWI703556B
TWI703556B TW107137546A TW107137546A TWI703556B TW I703556 B TWI703556 B TW I703556B TW 107137546 A TW107137546 A TW 107137546A TW 107137546 A TW107137546 A TW 107137546A TW I703556 B TWI703556 B TW I703556B
Authority
TW
Taiwan
Prior art keywords
chinese
information
speech
tone
foreign
Prior art date
Application number
TW107137546A
Other languages
English (en)
Other versions
TW202016921A (zh
Inventor
王文俊
陳保清
潘振銘
江振宇
張文陽
李武豪
林衍廷
林彥廷
江仁杰
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW107137546A priority Critical patent/TWI703556B/zh
Publication of TW202016921A publication Critical patent/TW202016921A/zh
Application granted granted Critical
Publication of TWI703556B publication Critical patent/TWI703556B/zh

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

一種語音合成方法,係先針對中文與外文之混用語句進行文字分析,以產生語言資訊,且該語言資訊包含該中文之詞性以及藉由整句之該中文的語法結構所決定之該外文之詞性的資訊,並藉由聲調預測之程序產生該外文之聲調資訊,再將該語言資訊經由斷點預測之程序產生該中文與該外文之混用語句的斷點資訊,之後整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。此外,本發明另揭露一種語音合成系統。

Description

語音合成方法及其系統
本發明係關於一種語音輸出,尤指一種中外文混用語句之語音合成方法及其系統。
對於以中文為母語之華人社會而言,中英混合(Mandarin-English)之語音合成系統(Text-To-Speech,簡稱TTS)之使用相對頻繁。所謂之中英混合TTS係指以中文為主,英語為輔,即於中文句子中嵌入英文詞彙或短語,且嵌入於中文詞句的英文詞彙可為專有名詞、縮寫、拗口中文詞彙之翻譯或慣用語等,因而使用英文詞彙取代對應之中文詞語,例如,「Facebook是著名的網路社群」、「物聯網IoT是這幾年Internet上熱門的搜尋關鍵字」、「此應用之implement難度相當高」、「好professor教出好student」、「我倆的想法不match,所以我不follow他的作法」等日常用語。
如同傳統單一語言之TTS,該混合語言類型之TTS之建置需錄製特定語者之語音資料庫,並建立文字分析、韻律生成及合成處理等相關程序,但於混合語言TTS之應用 需求中,上述各項程序均需有特殊考量。
有關語音資料庫的錄製,由於中英混合語音資料係以中文為主而英文為輔,使其所含中文與英文之比例極為懸殊,故要達到能包含兩種語言所需的充足語音合成單元與豐富的韻律變化並不容易,因而本發明係採用同一語者分別錄製所需之中文與英文之語音資料的方式及其系統。
另一方面,由於以中文為母語之語者所錄製之外文(第二語言或英文)之語音資料極易受到母語(第一語言或中文)之影響,此影響包括聲學、韻律與語法等不同特徵。
因此,本發明之系統建置係依據以下特徵:
第一、針對聲學而言,英文發音極易由相近的中文發音所取代。
第二,於韻律之變化中,中文之聲調(tone)資訊將取代英文之重音(stress)資訊,即聲調借用(tone borrowing)現象,且韻律之斷點的產生也大多會依據母語慣用習性。
第三,於習知以詞性(Part Of Speech)為例之語法資訊中,則是所嵌入之英文詞彙或短語之詞性宜藉由整個句子的中文語法結構決定,而非僅藉由各該英文詞彙或短語的原始詞性作判斷。
因此,依據上述特徵,本發明提供一種語音合成方法,係包括:針對中文與外文之混用語句進行文字分析,以產生包含中文詞性以及藉由整句之該中文的語法結構所決定 之該外文之詞性的外文詞性等語言資訊,並藉由聲調預測之程序產生該外文之聲調資訊;將該語言資訊經由斷點預測之程序產生該中文與該外文之混用語句的斷點資訊;以及經由語音合成之程序整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。
前述之語音合成方法中,該文字分析包括傳統文字分析與外文詞性標示處理,其中傳統文字分析係利用習知方法標示中文之詞性,至於外文詞性標示處理所需之模型,係利用中文與外文之混用文字資料經由傳統文字分析而產生輸入資訊,再將該輸入資訊藉由外文詞性標示訓練之程序而建置一外文詞性標示模型。
前述之語音合成方法中,其中,聲調預測處理之程序所需之模型,係利用中文與外文之混用文字資料經由該文字分析而產生輸入資訊,且將該中文與該外文之混用文字資料中的外文經由標註者採用默念方式所產生之聲調作為目標資訊,以結合該輸入資訊與該目標資訊,進行聲調預測訓練之程序而建置一聲調預測模型。
前述之語音合成方法中,其中,斷點預測處理之程序所需之模型,係利用中文文字資料產生該語言資訊,且將對應該中文文字資料之中文語音資料庫之斷點標示作為目標資訊,再結合該語言資訊與目標資訊而進行中文斷點預測訓練之程序而建置一斷點預測模型。
前述之語音合成方法中,其中,語音合成之程序所需之模型,係將中文語音資料與外文語音資料及中文與外文 對應之語言、聲調、斷點的資訊進行整合訓練而建置一HTS模型。此外文語音資料庫之聲調資訊須藉助聲調辨識模型經由聲調標示處理而產生,該聲調辨識模型之建置係藉由中文語音資料庫與其對應之中文文字資料進行聲調辨識訓練之程序而成。
此外,本發明另提供一種語音合成系統,係包括:文字分析模組,係針對中文與外文之混用語句進行文字分析,以產生包含中文詞性以及藉由整句之該中文的語法結構所決定之該外文之詞性的外文詞性等語言資訊;聲調預測模組,係針對中文與外文之混用語句之外文產生聲調資訊;斷點預測模組,係利用該語言資訊產生該中文與該外文之混用語句的斷點資訊;以及HTS模組,係整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。
由上可知,本發明之語音合成方法及其系統中,主要藉由文字分析,以產生包含中文詞性及外文詞性等語言資訊,並藉由聲調預測之程序產生該外文之聲調資訊;將該語言資訊經由斷點預測之程序產生該中文與外文之混用語句的斷點資訊;以及整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與外文之混用語句的合成語音。
101‧‧‧中外文混用文字資料
102‧‧‧中文文字資料
103‧‧‧外文文字資料
104‧‧‧中文語音資料庫
105‧‧‧外文語音資料庫
111‧‧‧文字分析
112‧‧‧外文詞性標示訓練
121‧‧‧外文聲調標註(標註者默念方式)
122‧‧‧聲調預測訓練
131‧‧‧文字分析處理
132‧‧‧中文斷點預測訓練
141‧‧‧聲調辨識訓練
151‧‧‧聲調標示處理
152‧‧‧斷點標示處理
153‧‧‧整合訓練
161‧‧‧外文詞性標示模型
162‧‧‧聲調預測模型
163‧‧‧斷點預測模型
164‧‧‧聲調辨識模型
165‧‧‧HTS模型
200‧‧‧輸入文句訊號
201‧‧‧文字分析
202‧‧‧聲調預測
203‧‧‧斷點預測
204‧‧‧語音合成標示產生器
205‧‧‧語音合成
206‧‧‧輸出合成語音
第1圖係為本發明之語音合成方法之訓練處理作業之架構示意圖。
第2圖係為本發明之語音合成方法之合成處理作業之 架構示意圖。
第3圖係為本發明之語音合成方法之斷點預測模型之韻律架構與斷點類型之關係圖。
以下藉由特定的具體實施例說明本發明之實施方式,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。
須知,本說明書所附圖式所繪示之結構、比例、大小等,均僅用以配合說明書所揭示之內容,以供熟悉此技藝之人士之瞭解與閱讀,並非用以限定本發明可實施之限定條件,故不具技術上之實質意義,任何結構之修飾、比例關係之改變或大小之調整,在不影響本發明所能產生之功效及所能達成之目的下,均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。同時,本說明書中所引用之如「前」、「後」及「一」等之用語,亦僅為便於敘述之明瞭,而非用以限定本發明可實施之範圍,其相對關係之改變或調整,在無實質變更技術內容下,當視為本發明可實施之範疇。
一般中外混用語句中,可發現一些有趣現象。例如,中英文混用語句係以中文的語法結構為主,故在決定所嵌入的英文詞彙或片語之詞性時,不應受限於其原始可能之詞性,此作法也可修正一般英文詞彙之誤用問題。例如,前述「此應用之implement難度相當高」之例句中,「implement」應依據中文語法結構被標示為名詞或形容詞,而非動詞。
再者,有關強調聲調(tone)的中文語言與強調重音(stress)的英文語言於中英語詞交接處的交互影響中,由於以中文為母語的語者在英語發音上會受母語之影響,故傾向以聲調資訊取代英文詞彙或短語之重音資訊。例如,「好professor教出好student」與「我倆的想法不match,所以我不follow他的作法」之例句中,兩個「好」字與兩個「不」字都會受到其後所接續之英文詞彙發音之影響,而產生不同的變調結果。對「好」字而言,依序為二聲發音及三聲發音,對「不」字而言,依序為二聲發音及四聲發音,此表示英文詞彙可定義出聲調資訊,進而對鄰近之中文字詞產生變調之影響。
本發明係包含語音資料庫之需求、詞性資訊、聲調資訊與韻律斷點資訊等特徵。
於該語音資料庫之需求中,語音合成所需之語音資料庫的基本要求係具有充足的合成單元與豐富的韻律變化,使用中英混用語音資料雖能避免訓練與測試間的不匹配現象,但由於所含之中文與英文之比例懸殊,導致上述兩項語料庫之基本要求並不易達成,且由於以中文為母語之語者於英語發音表現時會有變異性極大之不一致問題,此現象在中英混用語句中更明顯,故本發明係採用由同一語者分別錄製中文與英文之語音資料的方式。
於該詞性資訊中,因使用者誤用或習慣簡化用語,致使中英混合文句中所嵌入之英文詞彙或片語容易出錯,本發明之作法係為藉由整個語句的中文語法結構決定所嵌入 之英文詞彙或片語之詞性。具體地,本發明用以取代習知TTS的方法係為針對所嵌入之英文詞彙或片語給予外語的特殊分類;或者,僅利用英文詞典中之欲嵌入之英文詞彙或片語的可能詞性作為判斷依據。
於該聲調資訊中,由於以中文為母語的語者在英語發音上會受母語之影響而產生聲調借用(tone borrowing)現象,故本發明係以聲調資訊取代英文語系之詞彙或短語之重音資訊。對於中英混合TTS而言,該聲調資訊之調整係關於兩項處理程序,第一項係為文字分析之程序,其需針對輸入文句中之英文詞彙或短語產生對應之聲調資訊,第二項係為用於韻律分析與合成參數模型訓練之英文語音資料庫,其需提供聲調資訊,致能結合中文語音資料庫而採用一致性的特徵進行中英混合TTS之相關處理。
於該韻律斷點資訊中,習知TTS之方法係僅針對文字資料進行分析,再結合斷詞與詞性等資訊,進而建立基礎片語之語法架構並決定韻律邊界。然而,由於語法邊界與韻律邊界並不必然一致,故本發明之方法係藉由統計語音資料中的韻律斷點分佈取代基礎片語所代表的習知語法邊界,即利用訓練語音資料所呈現的韻律斷點變化建置一斷點預測模型,且由於錄製語者係以中文為母語,其所錄製之英文語音資料易受母語影響,因而在中文語音資料所呈現之韻律變化較為穩定,致使於相較下,在英文語音資料所呈現之韻律變化則有變異性大之不一致問題,故本發明係以中文語音資料建置該斷點預測模型。
第1及2圖係為本發明之中外文混合語音合成方法,其包含訓練處理作業與合成處理作業。於本實施例中,所述之外文係以英文為例,但不限於英文。
此外,該中外文混合語音合成方法亦可利用硬體、軟體及/或韌體實作為一中外文混合語音合成系統,包括有外文詞性標示模組可實作如第1圖所示之外文詞性標示模型161,聲調預測模組可實作如第1圖所示之聲調預測模型162,斷點預測模組可實作如第1圖所示之斷點預測模型163,聲調辨識模組可實作如第1圖所示之聲調辨識模型164,HTS模組可實作如第1圖所示之HTS模型165,文字分析模組可實作如第1圖所示之文字分析111。但本發明不以此為限。
如第1圖所示,本發明之訓練處理作業之相關程序包括:建置針對中英混用文句中之英文詞彙或片語的外文詞性標示模型161;建置針對中英混用文句中之英文詞彙或片語的聲調預測模型162;建置中文語音資料庫104之斷點預測模型163;建置用於針對如英文之外文語音資料庫105提供聲調資訊之聲調辨識模型164;以及整合中文與英文語音資料及其語言、聲調、斷點等資訊而建置一以隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)為基礎之語音合成系統(HMM-based speech synthesis system,簡稱H-Triple-S,即HTS)模型165,且建置該些模型所需之資料係包括中外文混用文字資料101、中文語音資料庫104及其對應之中文文字資料102、外文語音資料庫105及其 對應之外文文字資料103,其中,該些模型之建置可視為本發明之訓練處理作業之核心處理程序。
所述之外文詞性標示模型161係針對中英混用文句中之英文詞彙或片語而建置,其利用中外文混用文字資料101經由文字分析111後所產生之語言資訊作為輸入訊號,再藉由條件式隨機場域(conditional random field,簡稱CRF)之外文詞性標示訓練112之技術,以針對所嵌入之英文詞彙或片語建立該外文詞性標示模型161,其中,該文字分析111屬於傳統文字處理程序,其包含斷詞、基本詞性標示、正規化及變調處理等程序,且該外文詞性標示模型161係為本發明針對傳統文字分析新增之詞性調整程序所需之模型,以用於第2圖所示之合成處理作業中之文字分析201之處理程序,故該詞性調整程序可視為傳統文字分析處理之後續處理,且藉由此項程序將可提升中英混用文句中之英文詞彙或片語的詞性標示正確率。
於本實施例中,針對中英混用文句中之英文詞彙或片語,利用CRF技術進行該外文詞性標示模型161之建置,其係將該中外文混用文字資料101作為訓練資料,且其輸入訊號包括待處理英文詞彙之可能詞性、前綴資訊、後綴資訊及此英文詞彙之相鄰詞彙之詞資訊與詞性資訊,而輸出標記之訊號係為待處理英文詞彙根據文句之中文語法結構所決定之詞性資訊。
所述之聲調預測模型162係針對中英混用文句中之英文詞彙或片語而建置,其所需之資訊係為中外文混用文字 資料101經由該文字分析111之處理後之語言資訊(輸入資訊)、以及該中外文混用文字資料101中的英文詞彙或片語的聲調資訊(目標資訊),再結合該兩資訊並利用CRF技術進行聲調預測訓練122之程序,以建置該聲調預測模型162。具體地,所嵌入的英文詞彙或片語的外文聲調標註121之程序係採用標註者默念方式121產生該聲調資訊,該標註者係為以中文為母語且英文話語流利者,且建置完成之模型將應用於第2圖之合成處理作業中之聲調預測202之程序,尤其是,該聲調預測202之處理之對象係為中英文混用的文字資料,而非全部英文的文字資料。
於本實施例中,針對中英混用文句中之英文詞彙或片語,再利用CRF技術建置該聲調預測模型162,其係將該中外文混用文字資料101作為訓練資料,且其輸入資訊包括:詞資訊;音節資訊;音節在詞中的位置資訊;詞性資訊;目前音節後接之標點符號資訊;原聲調資訊;前一個音節與目前音節之原聲調組合資訊;前一個音節、目前音節與下一個音節之音節組合資訊;以及前一個音節、目前音節與下一個音節在詞中的位置組合資訊等。
再者,於該原聲調之資訊中,對於中文詞彙而言,該原聲調之資訊係為各音節之聲調,而對於英文詞彙而言,該原聲調之資訊係為該英文詞彙之原始重音資訊。
又,該聲調預測訓練122之訓練資料所需之輸出標記係為待處理英文詞彙之音節經由人工標示之聲調資訊,再利用CRF技術完成該聲調預測模型162之建置。
所述之斷點預測模型163之建置係由於提供訓練語音資料之錄製語者係以中文為母語,其所錄製之外文(或英語)語音資料易受母語影響,致使中文語音資料所呈現之韻律變化較穩定,另一方面由於本發明之中英混用文句係以中文為主,英文為輔,故本發明係利用獨立之中文語音資料建置該斷點預測模型163。
如第1圖所示,建置該斷點預測模型163之輸入資訊係為中文文字資料102經由文字分析處理131後之語言資訊,且對應之中文語音資料庫104經由統計式斷點標示處理152所產出之斷點標示係作為目標資訊,再結合該語言資訊與目標資訊後運用深度類神經網路(Deep Neural Network,簡稱DNN)技術進行中文斷點預測訓練132之程序。具體地,該斷點標示處理152之作用係針對該中文語音資料庫104進行音長、音高、音量與停頓之統計以產生適當之閥值(threshold),再利用這些閥值針對語音資料進行韻律斷點之標註,以建置完成該斷點預測模型163,供應用於第2圖所示之合成處理作業之斷點預測203之程序。
於本實施例中,建置該斷點預測模型163之中文斷點預測訓練132所使用之訓練資料係為該中文語音資料庫104及其對應之中文文字資料102,其中,運用該斷點標示處理152針對該中文語音資料庫104進行斷點標註之方法如下:
第一點,如第3圖所示,定義四階層之韻律架構與相關之七類斷點B0,B1,B2-1,B2-2,B2-3,B3,B4,其中,第一階 層係為音節(syllable,標示為SYL),其具有對應之斷點B0,B1,第二階層係為韻律詞(prosodic word,標示為PW),其具有對應之斷點B2-1,B2-2,B2-3,第三階層係為韻律短語(prosodic phrase,標示為PPh),其具有對應之斷點B3,第四階層係為呼吸句群(breath group,標示為BG)或韻律句群(prosodic group,標示為PG),其具有對應之斷點B4。
第二點,針對該中文語音資料庫104進行各種韻律參數之統計以產生適當之閥值(threshold),再利用這些閥值針對語音資料標註七種韻律之斷點B0,B1,B2-1,B2-2,B2-3,B3,B4之處。例如,該韻律參數係包括音節停頓長度、音節能量低點、正規化基頻跳躍值、正規化音節延長因子以及音節間之基頻停頓長度等。
第三點,所述之述韻律參數與斷點標記之間的關聯性係如下所述:音節停頓長度係影響斷點標記最重要的韻律參數,大多數出現標點符號的詞邊界會有較長的停頓,如斷點B3,B4,且斷點B4較斷點B3具有更長的停頓長度,故可利用音節停頓長度區分斷點B3與斷點B4。其它非屬詞語邊界之音節位置通常會有較短的停頓或不停頓,如斷點B0與斷點B1,此兩類斷點B0,B1可進一步利用音節之間基頻停頓與音節能量低點兩特性進行區分。非屬標點符號之詞語邊界係包括中等程度以上的音節停頓長度、基頻跳躍與音節延長等三種特性,以分別歸類為斷點B2-2,B2-1,B2-3。
再者,該斷點B0,B1,B2-1,B2-2,B2-3,B3,B4之標記將作為建置該斷點預測模型163所需之輸出目標值,至於該斷點預測模型163之輸入特徵係包括:音素類別;目前斷點是否為詞語邊界;標點符號類別;以音節為單位的當前語句長度;以音節為單位的前一語句的長度;以音節為單位的下一語句的長度;以音節為單位,到前一個標點符號的距離;以音節為單位,到下一個標點符號的距離;當前詞與其前p個詞之詞性;當前字詞與其前p個字詞所含音節數量;當前字詞之後q個字詞之詞性;當前字詞之後q個字詞所含音節數量。
又,p與q可依據系統複雜度之需求予以調整,再利用DNN之架構完成該斷點預測模型163之建置。
所述之聲調辨識模型164係針對英文語音資料提供聲調資訊。為了使用一致性之特徵進行中文與外文語音資料之韻律分析與該HTS模型165之整合訓練153之程序,故在外文語音資料之韻律特徵之擷取係以聲調資訊取代重音資訊。
如第1圖所示,該聲調辨識模型164係藉由中文語音資料庫104與其對應之中文文字資料102配合DNN技術進行聲調辨識訓練141而建置者,供用於後續之聲調標示處理151,以針對英文語音資料提供聲調資訊。尤其是,該聲調標示處理151之對象係為全部英文的資料,故該聲調標示處理151所需之模型與設定對象為中英文混用資料之聲調預測模型162並不相同。
於本實施例中,建置該聲調辨識模型164所使用之訓練資料係為中文語音資料庫104及其對應之中文文字資料102,且輸入參數包括針對音節的對數基頻軌跡所求得之正交係數、音節長度、音節能量以及音節間之停頓長度,其中,該些特徵之輸入參數之涵蓋區間可依據系統複雜度之需求予以調整,通常會選擇當前音節與其前後各一共計三個音節之區間,再利用DNN之架構完成該聲調辨識模型164之建置。
所述之HTS模型165之建置係將中文與英文語音資料及其語言、聲調、斷點等資訊進行整合訓練153而獲得,其中,該資訊係包含獨立的中文語音資料庫104與外文語音資料庫105,且訓練所需之HTS標示(HTS label)資料係整合兩種語音資料庫之語言資訊、斷點標示處理152之資訊及聲調資訊等所產生,以應用於第2圖之合成處理作業中之語音合成205之程序。因此,在該HTS模型165之訓練過程中,所需之標註檔案與問題集合(question set)具有以下特點:其中一特點係為兩種不同語言之語音資料可採用一致的標註格式,而另一特點係為模型訓練所使用之問題集合可共享聲調與斷點等相關之韻律資訊。
於本實施例中,該HTS模型165係利用HTS-2.3 toolkit進行建置,且訓練語音資料包括個別的中文語音資料與英文語音資料,並搭配整合文字分析處理後的語言資訊、斷點預測處理後的斷點資訊及有關嵌入英文詞或片語的聲調資訊所產生的HTS標註,該HTS標註係包括:音素類別 (考慮當前與前後各二共計五個音素);聲調類別(考慮當前與前後各一共計三個音節);當前音節之母音類別;當前韻律單元之前後斷點類別;當前音節之音素位置;當前PW、PPh與BG/PG之音節位置;當前PPh與BG/PG之PW位置;當前BG/PG之PPh位置。
本發明亦揭露一種合成處理作業,如第2圖所示,其包括:將中英文混用的輸入文句訊號200經過文字分析(text analysis)201產生對應的語言資訊,該文字分析包含中文之分析處理與針對該文句訊號中之英文詞彙或片語所建置之詞性標示處理;該文句訊號中之英文詞彙或片語藉由聲調預測(tone prediction)202之程序以產生對應之聲調資訊;該語言資訊經過斷點預測(break prediction)203之程序以產生對應的斷點資訊;整合該語言資訊、聲調資訊與斷點資訊,並經由以HMM為基礎之語音合成標示產生器(HTS label generator)204產生對應之HTS標註;以及利用該HTS標註,透過以HMM為基礎之語音合成(speech synthesis)205之處理,以產生及輸出合成語音206。
於本實施例中,該合成處理作業與該訓練處理作業係相關聯,即所述之文字分析201、聲調預測202、斷點預測203與語音合成205等四種處理程序均需藉由該訓練處理作業所建置之模型進行。
於該文字分析201之程序中,該詞性標示處理需使用該訓練處理作業之CRF技術所建置之外文詞性標示模型161,且使用相同之輸入樣版,並根據文句之中文語法結構 決定所嵌入之英文詞彙或片語的詞性。
於該聲調預測202之程序中,其需使用該訓練處理作業之CRF技術所建置之聲調預測模型162,且使用相同之輸入樣版,以產生對應之聲調資訊。
於該斷點預測203之程序中,其需使用該訓練處理作業之DNN技術所建置之斷點預測模型163,且使用相同之輸入特徵以產生對應之斷點資訊。
於該語音合成標示產生器204中,係整合該語言資訊、聲調資訊與斷點資訊,並產生對應之HTS標註,其中,該HTS標註之格式係依據該訓練處理作業之HTS模型165。
於該語音合成205之程序中,依據該HTS標註,藉由該訓練處理作業之HTS模型165,並透過該語音合成205之程序產生合成語音。
綜上所述,本發明之語音合成方法及其系統中,係藉由文字分析,以產生包含中文詞性及外文詞性等語言資訊,並藉由聲調預測之程序產生該外文之聲調資訊;將該語言資訊經由斷點預測之程序產生中文與外文之混用語句的斷點資訊;以及整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。
上述實施例係用以例示性說明本發明之原理及其功效,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施例進行修改。因此本發明之權利保護範圍,應如後述之申請專利範圍所列。
200‧‧‧輸入文句訊號
201‧‧‧文字分析
202‧‧‧聲調預測
203‧‧‧斷點預測
204‧‧‧語音合成標示產生器
205‧‧‧語音合成
206‧‧‧輸出合成語音

Claims (10)

  1. 一種語音合成方法,係包括:針對中文與外文之混用語句進行文字分析,以產生包含中文詞性及外文詞性的語言資訊,並藉由聲調預測程序產生該外文之聲調資訊,其中,該外文詞性之標註係藉由整個該混用語句之中文語法結構而決定,且建置該聲調預測程序所需之模型係以中文為母語的標註者於訓練程序時,針對中文與外文之混用文字訓練資料採用默念方式進行外文發音以產生該外文之聲調資訊作為目標值;將該語言資訊經由斷點預測之程序產生該中文與該外文之混用語句的斷點資訊,其中,建置該斷點預測程序所需之模型係僅以中文語音資料作為訓練語音資料,而不用外文語音資料作為訓練語音資料;以及經由語音合成之程序整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。
  2. 如申請專利範圍第1項所述之語音合成方法,其中,該文字分析包括傳統文字分析與外文詞性標示處理。
  3. 如申請專利範圍第2項所述之語音合成方法,其中,該外文詞性標示處理所需之模型係利用中文與外文之混用文字訓練資料經由傳統文字分析而產生輸入資訊,再將該輸入資訊藉由外文詞性標示訓練而建置。
  4. 如申請專利範圍第1項所述之語音合成方法,其中,該 聲調預測之程序所需之模型係利用中文與外文之混用文字訓練資料經由文字分析而產生輸入資訊,且將該中文與該外文之混用文字訓練資料中的外文經由該標註者採用默念方式所產生之聲調作為目標資訊,以結合該輸入資訊與該目標資訊,進行聲調預測訓練之程序而建置。
  5. 如申請專利範圍第1項所述之語音合成方法,其中,該斷點預測之程序所需之模型係利用中文文字資料產生該語言資訊,且將對應該中文文字資料之中文語音資料庫之斷點標示作為目標資訊,再結合該語言資訊與目標資訊而進行中文斷點預測訓練之程序而建置。
  6. 如申請專利範圍第1項所述之語音合成方法,其中,該語音合成之程序所需之模型係將中文語音資料與外文語音資料及該中文與該外文對應之語言、聲調、斷點的資訊進行整合訓練而建置。
  7. 如申請專利範圍第6項所述之語音合成方法,其中,該外文語音資料庫之聲調資訊須藉助聲調辨識模型經由聲調標示處理而產生,該聲調辨識模型之建置係藉由中文語音資料庫與其對應之中文文字資料進行聲調辨識訓練之程序而成。
  8. 一種語音合成系統,係包括:文字分析模組,係針對中文與外文之混用語句進行文字分析,以產生包含中文詞性及外文詞性的語言資訊,其中,該外文詞性之標註係藉由整個該混用語句之 中文語法結構而決定;聲調預測模組,係針對該中文與該外文之混用語句之外文產生聲調資訊,其中,建置該聲調預測模組所需之模型係以中文為母語的標註者於訓練程序時,針對中文與外文之混用文字訓練資料採用默念方式進行外文發音以產生該外文之聲調資訊作為目標值;斷點預測模組,係利用該語言資訊產生該中文與該外文之混用語句的斷點資訊,其中,該斷點預測模組所需之模型係僅以中文語音資料而不用外文語音資料建置者;以及HTS模組,係整合該語言資訊、聲調資訊與斷點資訊,以產生該中文與該外文之混用語句的合成語音。
  9. 如申請專利範圍第8項所述之語音合成系統,其中,該文字分析包括傳統文字分析與外文詞性標示處理。
  10. 如申請專利範圍第9項所述之語音合成系統,其中,該外文詞性標示處理所需之模型係利用中文與外文之混用文字訓練資料經由傳統文字分析而產生輸入資訊,再將該輸入資訊藉由外文詞性標示訓練而建置。
TW107137546A 2018-10-24 2018-10-24 語音合成方法及其系統 TWI703556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107137546A TWI703556B (zh) 2018-10-24 2018-10-24 語音合成方法及其系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107137546A TWI703556B (zh) 2018-10-24 2018-10-24 語音合成方法及其系統

Publications (2)

Publication Number Publication Date
TW202016921A TW202016921A (zh) 2020-05-01
TWI703556B true TWI703556B (zh) 2020-09-01

Family

ID=71895591

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107137546A TWI703556B (zh) 2018-10-24 2018-10-24 語音合成方法及其系統

Country Status (1)

Country Link
TW (1) TWI703556B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863483B (zh) * 2021-01-05 2022-11-08 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045289A1 (en) 1999-01-29 2000-08-03 Sony Electronics, Inc. A method and apparatus for example-based spoken language translation with examples having grades of specificity
US20090055162A1 (en) * 2007-08-20 2009-02-26 Microsoft Corporation Hmm-based bilingual (mandarin-english) tts techniques
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
KR101394839B1 (ko) * 2013-05-28 2014-05-13 정진철 표준어한글 음절 학습기 및 그 학습 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045289A1 (en) 1999-01-29 2000-08-03 Sony Electronics, Inc. A method and apparatus for example-based spoken language translation with examples having grades of specificity
US20090055162A1 (en) * 2007-08-20 2009-02-26 Microsoft Corporation Hmm-based bilingual (mandarin-english) tts techniques
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
KR101394839B1 (ko) * 2013-05-28 2014-05-13 정진철 표준어한글 음절 학습기 및 그 학습 방법

Also Published As

Publication number Publication date
TW202016921A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
Lee The structure of Korean prosody
CN108470024A (zh) 一种融合句法语义语用信息的汉语韵律结构预测方法
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
Terken Synthesizing natural-sounding intonation for Dutch: rules and perceptual evaluation
Wu et al. Videodubber: Machine translation with speech-aware length control for video dubbing
Raza et al. Design and development of phonetically rich Urdu speech corpus
TWI605350B (zh) 文字轉語音方法以及多語言語音合成裝置
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
Delmonte et al. An Expressive Poetry Reader
TWI703556B (zh) 語音合成方法及其系統
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
Liang et al. A Taiwanese text-to-speech system with applications to language learning
Kolář Automatic segmentation of speech into sentence-like units
Cao et al. Syntactic and lexical constraint in prosodic segmentation and grouping
Chiang et al. The Speech Labeling and Modeling Toolkit (SLMTK) Version 1.0
JP2023005583A (ja) 信号処理装置およびプログラム
Xydas et al. Modeling prosodic structures in linguistically enriched environments
Kominek Tts from zero: Building synthetic voices for new languages
Sridhar et al. Enriching machine-mediated speech-to-speech translation using contextual information
Ekpenyong et al. Towards an unrestricted domain TTS system for African tone languages
Yang et al. Improving fluency of spoken mandarin for nonnative speakers by prosodic boundary prediction based on deep learning
Nguyen Hmm-based vietnamese text-to-speech: Prosodic phrasing modeling, corpus design system design, and evaluation
Huang et al. An Experimental Study on Declarative and Interrogative Sentences in Shanghai Chinese
Grayson Russian Lyric Diction: A practical guide with introduction and annotations and a bibliography with annotations on selected sources
Ramya et al. Implementation of telugu speech synthesis system