TWI574254B

TWI574254B - 用於電子系統的語音合成方法及裝置

Info

Publication number: TWI574254B
Application number: TW101144555A
Authority: TW
Inventors: 陳玉潔; 游智凱; 吳松燊; 龐台銘
Original assignee: 華碩電腦股份有限公司
Priority date: 2012-01-20
Filing date: 2012-11-28
Publication date: 2017-03-11
Also published as: US20130191130A1; TW201331930A; US9087512B2

Description

用於電子系統的語音合成方法及裝置

本案是有關於一種用於電子系統的語音合成機制，且特別是有關於一種基於韻律的語音合成方法及裝置。

近幾年，由於科技的日新月異，人們與電腦之間的溝通模式，已不再是過去以指令輸入電腦，而電腦再以文字回應的方式所能滿足。因此，如何發展一種人機之間更直接更為人性化的語音溝通方式，已是一個相當重要的課題。為了使電腦能夠以語音作為與人類溝通的媒介，所需的技術就是語音辨識和語音合成。其中，文字轉語音(text-to-speech，TTS)是一種用以將輸入的文字轉換為人類語音輸出的技術。

對於應用在大多數應用的文字轉語音技術而言，韻律語音的生成為不可缺少的一點。例如，為孩子們設計的互動機器人在說故事時，可能需要與人一樣富有節奏感和情緒韻律。可以對於不同的文字內容結合適當的韻律，使得合成的語音更為豐富生動。然而，一般作法是需透過手動方式來設定韻律資訊，為了獲得滿意的成效，使用者需要重複進行測試，來調整合成語音的韻律資訊。

本案提供一種用於電子系統的語音合成方法及裝置，可自動擷取韻律資訊，使得合成的語音能夠與人類的發音更相似。

本案提出一種適用於電子系統的語音合成方法。本方法包括執行文稿標記程序以及執行韻律套用程序。上述執行文稿標記程序的步驟包括：接收語音訊號檔，其中語音訊號檔包括文字內容與韻律資訊；分析語音訊號檔，以獲得語音訊號檔的文字內容與韻律資訊；以及對文字內容與所對應的韻律資訊執行自動標記動作，藉此獲得文稿標記檔。另外，上述執行韻律套用程序的步驟包括：依據人聲設定檔與文稿標記檔，合成出語音合成檔，其中人聲設定檔中包括文字內容對應使用的人聲模型。

本案提出一種語音合成裝置，包括文稿標記裝置與韻律套用裝置。文稿標記裝置用以接收一語音訊號檔，文稿標記裝置包括：文字辨識器，用以分析語音訊號檔，以獲得語音訊號檔的文字內容；韻律分析器，用以分析語音訊號檔，以獲得語音訊號檔的韻律資訊；以及標記器，用以對文字內容與所對應的韻律資訊執行自動標記動作，藉此獲得文稿標記檔。而韻律套用裝置接收文稿標記檔，韻律套用裝置包括：解析器，用以分析文稿標記檔而獲得文字內容與韻律資訊；以及語音合成器，依據人聲設定檔、文字內容與韻律資訊，合成出語音合成檔。

基於上述，本案可自動擷取語音訊號檔中的韻律資訊，進而將韻律資訊套用至語音合成檔，使得合成語檔音能夠與真人的發音方式更相似。

為讓本案之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

一般透過文字轉語音(text-to-speech，TTS)系統所獲得的合成語音檔的聲調仍然與真實人聲有所區隔。為此，本案提出一種用於電子裝置的語音合成方法及裝置，可檢測真人的語音韻律變化，將韻律資訊套用至機械式的語音合成系統。為了使本案之內容更為明瞭，以下特舉實施例作為本案確實能夠據以實施的範例。

圖1是依照本案一實施例的電子系統語音合成方法的流程圖。在本實施例中，應用本語音合成方法的電子系統可以是個人電腦、筆記型電腦、手機、智慧型手機、個人數位助理(Personal Digit Assistant，PDA)、電子辭典、自動說故事機或機器人等。並且，電子系統包括輸入單元、處理單元以及輸出單元，以透過處理單元來執行語音合成方法。

在此，語音合成方法可分為文稿標記程序與韻律套用程序兩部分。請參照圖1，文稿標記程序包括步驟S105~步驟S115，韻律套用程序包括步驟S120。在文稿標記程序中，將文字內容與韻律資訊進行自動標記動作之後，便可在語音合成程序中，直接套用文稿標記檔中的韻律資訊。詳細說明如下所述。

首先，執行文稿標記程序，以獲得文稿標記檔。在步驟S105中，接收語音訊號檔。在此，語音訊號檔是藉由由使用者按照文稿中的文字內容來朗讀，並透過收音器等輸入單元進行錄製而成的。在步驟S110中，分析語音訊號檔，以分別獲得語音訊號檔的韻律資訊及文字內容。其中，韻律資訊至少包括音強、音量、音高及音長其中之一或其組合者。在步驟S115中，對文字內容與所對應的韻律資訊執行自動標記動作，藉此獲得文稿標記檔。並且，還可進一步儲存文稿標記檔，以待後續的韻律套用程序來使用。

舉例來說，文稿標記檔例如為可擴展標記語言(Extensible Markup Language，XML)文件。以範例“<pitch middle="6">This text should be spoken at pitch five.</pitch>”而言，屬性“middle”則是用以決定聲音的相對音高(relative pitch)。據此，藉由XML文件的標籤(tag)來對文字內容中的各文句進行標記動作。

在獲得文稿標記檔之後，便可執行韻律套用程序。在步驟S120中，依據人聲設定檔與文稿標記檔，合成出語音合成檔。另外，在合成出語音合成檔之後，還可進一步透過音訊輸出單元來輸出語音合成檔。在此，人聲設定檔中可對應文字內容中不同人物角色及情境使用不同的人聲模型。舉例來說，一般語音合成器包括多種人聲模型，例如6組男聲的人聲模型以及6組女聲的人聲模型，在此人聲模型的數量僅為舉例說明，並不以此為限。而在人聲設定檔中設定了文字內容中的各個文句所對應使用的人聲模型。假設文字內容包括6個文句A~F，則在人聲設定檔中分別設定了這6個文句A~F分別所對應的人聲模型。在此，可由使用者自行來決定人聲設定檔中各文句與其所對應的人聲模型。

另外，在此，電子系統中包括文稿標記裝置與韻律套用裝置，透過文稿標記裝置執行文稿標記程序，且透過韻律套用裝置執行韻律套用程序。上述文稿標記裝置與韻律套用裝置可同時實施於同一實體裝置中，或者分別實施於不同的實體裝置中。

關於文稿標記裝置與韻律套用裝置，底下各舉一例來說明。

圖2是依照本案一實施例的文稿標記裝置200的示意圖。圖3是依照本案一實施利的韻律套用裝置300的示意圖。請參照圖2及圖3，文稿標記裝置200用以接收語音訊號檔，以轉換此語音訊號檔為一文稿標記檔。文稿標記裝置200包括文字辨識器201、韻律分析器203以及標記器205。韻律套用裝置300用以接收文稿標記檔，以依據韻律資訊來產生語音合成檔。韻律套用裝置300包括解析器301以及語音合成器303。上述文字辨識器201、韻律分析器203、標記器205、解析器301以及語音合成器303例如可由多個數位邏輯閘所組成的晶片來實現，或者亦可是由程式語言所撰寫而成的程式碼片段，儲存於儲存單元或韌體中，而由處理單元來執行之。

文字辨識器201在接收語音訊號檔之後，利用語音辨識演算法來獲得語音訊號檔中的文字內容。韻律分析器203在接收語音訊號檔之後，自語音訊號檔中取出韻律資訊。例如，韻律分析器203分析語音訊號檔的波形，以擷取出如音強、音高、音長、音量等韻律資訊。

而文字辨識器201與韻律分析器203在分別獲得文字內容及韻律資訊之後，將文字內容及韻律資訊分別輸入至標記器205。標記器205在自文字辨識器201與韻律分析器203接收到文字內容及韻律資訊，執行自動標記動作，藉此獲得文稿標記檔。

在獲得文稿標記檔之後，文稿標記裝置200便將文稿標記檔傳送至韻律套用裝置300中。在文稿標記裝置200與韻律套用裝置300實施於不同實體系統的情況下，文稿標記裝置200可將文稿標記檔上傳至一雲端伺服器中，而韻律套用裝置300再自雲端伺服器中下載文稿標記檔；或者，透過外接式儲存裝置在文稿標記裝置200與韻律套用裝置300之間傳送文稿標記檔。另外，在文稿標記裝置200與韻律套用裝置300實施相同實體系統的情況下，即由文稿標記裝置200直接將文稿標記檔傳送至韻律套用裝置300。

在韻律套用裝置300中，解析器301在接收到文稿標記檔之後，會分析出當中的文字內容與韻律資訊，並將文字內容與韻律資訊傳送至語音合成器303。語音合成器303則會接收到人聲設定檔與解析器301所傳送的文字內容與韻律資訊，依據人聲設定檔來選擇對應的人聲模型，並且依據韻律資訊來調整語音合成檔。

也就是說，由真人來錄製一語音訊號檔，在分析出語音訊號檔的韻律資訊之後，產生具有韻律資訊的文稿標記檔，進而將文稿標記檔輸入至韻律套用裝置300中進行套用，使得語音合成檔更符合真實人聲發音。

而在文稿標記裝置200還可提供一使用者介面，以供使用者來使用。圖4是依照本案一實施例的使用者介面的示意圖。請參照圖4，使用者介面400包括頁面401、頁面403以及頁面405。頁面401用以顯示文字內容，頁面403用以顯示在經由錄製人聲之後所產生的文稿標記檔的內容，頁面405用以顯示確定要輸出的文稿標記檔的內容。

在使用者介面400中還包括錄製功能411、播放功能413以及學習功能415。在此，錄製功能411、播放功能413以及學習功能415例如以按鈕的形式來呈現。在錄製功能411被致能時，接收語音訊號檔，也就是開始進行人聲錄製。在學習功能415被致能時，分析語音訊號檔，以擷取語音訊號檔的韻律資訊，並且自動標記文字內容所對應的韻律資訊，藉此獲得文稿標記檔；以及依據人聲設定檔與文稿標記檔，合成出語音合成檔。在播放功能413被致能時，播放語音合成檔。例如，透過揚聲器等音訊輸出單元來輸出語音合成檔。

另外，使用者介面400還包括播放TTS功能421、下一個功能423、儲存功能425以及離開功能427。播放TTS功能421是用以直接播放在頁面401中所選擇的文句，即未經調整韻律資訊的語音合成檔。下一個功能423是用以選擇下一個文句。儲存功能425用以將經由錄製後所獲得的文稿標記檔的內容(即頁面403所顯示的內容)儲存下來。離開功能427用以結束此使用者介面400。

以文句“今天天氣真好”為例，使用者可致能錄製功能411而對著麥克風等輸入單元進行錄音，完成錄音即可獲得語音訊號檔。接著，致能學習功能415，藉此獲得文句的文稿標記檔，並將文稿標記檔的內容顯示於頁面403中，例如為“[pronun cs="69 65 68 69 61 62" cp="84 84 84 94 94 84" ct="443412" cv="75 75 75 75 75 75"]今天天氣真好[/pronun]”，其中屬性“cs”代表音強、屬性“cp”代表音高、屬性“ct”代表音長、屬性“cv”代表音量，且上述屬性的值皆為相對值。

而藉由上述的方法，在語音合成器303中包含了各種不同人物的聲音模組的情況下，只需要由一位使用者來朗讀文稿，便可讓電子系統擷取所錄下的語音訊號檔中的韻律資訊，進而由電子系統來模仿真人說話的韻律資訊，而自動來產生具有多種角色聲音的有聲書。

綜上所述，在上述實施例中，先進行文稿標記程序，以自動擷取語音訊號檔中的韻律資訊，再進行韻律套用程序，以將韻律資訊套用至語音合成檔，使得合成語音檔能夠與真人的發音更相似。並且，提供使用者介面讓使用者可以直接針對各個文句來進行調整。

雖然本案已以實施例揭露如上，然其並非用以限定本案，任何所屬技術領域中具有通常知識者，在不脫離本案之精神和範圍內，當可作些許之更動與潤飾，故本案之保護範圍當視後附之申請專利範圍所界定者為準。

200‧‧‧文稿標記裝置

201‧‧‧文字辨識器

203‧‧‧韻律分析器

205‧‧‧標記器

300‧‧‧韻律套用裝置

301‧‧‧解析器

305‧‧‧語音合成器

400‧‧‧使用者介面

401、403、405‧‧‧頁面

411‧‧‧錄製功能

413‧‧‧播放功能

415‧‧‧學習功能

421‧‧‧播放TTS功能

423‧‧‧下一個功能

425‧‧‧儲存功能

427‧‧‧離開功能

S105~S120‧‧‧語音合成方法各步驟

圖1是依照本案一實施例的語音合成方法的流程圖。

圖2是依照本案一實施例的文稿標記裝置的示意圖。

圖3是依照本案一實施利的韻律套用裝置的示意圖。

圖4是依照本案一實施例的使用者介面的示意圖。

S105~S120‧‧‧語音合成方法各步驟

Claims

一種適用於一電子系統的語音合成方法，該方法包括：執行一文稿標記程序，包括：接收一語音訊號檔，其中該語音訊號檔包括一文字內容及一韻律資訊；分析該語音訊號檔，以分別獲得該語音訊號檔的該韻律資訊及該文字內容；以及對該文字內容與所對應的該韻律資訊執行一自動標記動作，藉此獲得一文稿標記檔；以及執行一韻律套用程序，包括：依據一人聲設定檔與該文稿標記檔，合成出一語音合成檔。
如申請專利範圍第1項所述之語音合成方法，其中該韻律資訊包括音強、音量、音高及音長其中之一或其組合者。
如申請專利範圍第1項所述之語音合成方法，其中該韻律套用程序更包括：自該文稿標記檔分析出該文字內容與該韻律資訊。
如申請專利範圍第1項所述之語音合成方法，其中在自該文稿標記檔分析出該文字內容與該韻律資訊的步驟之後更包括：依據該人聲設定檔、該文字內容以及該韻律資訊，合成出該語音合成檔。
如申請專利第圍第1項所述之語音合成方法，其中該人聲設定檔具有多種人聲模型。
如申請專利範圍第5項所述之語音合成方法，其中該人聲設定檔依據該文字內容中不同的人物角色及情境使用該些人聲模型。
如申請專利範圍第1項所述之語音合成方法，其中在合成出該語音合成檔的步驟之後，更包括：透過一音訊輸出單元輸出該語音合成檔。
一種語音合成裝置，包括：一文稿標記裝置，接收一語音訊號檔，其中該語音訊號檔包括一文字內容及一韻律資訊，該文稿標記裝置包括：一文字辨識器，分析該語音訊號檔，以獲得該語音訊號檔的該文字內容；一韻律分析器，分析該語音訊號檔，以獲得該語音訊號檔的該韻律資訊；以及一標記器，對該文字內容與所對應的該韻律資訊執行一自動標記動作，藉此獲得一文稿標記檔；以及一韻律套用裝置，接收該文稿標記檔，該韻律套用裝置包括：一解析器，分析該文稿標記檔而獲得該文字內容與該韻律資訊；以及一語音合成器，依據一人聲設定檔、該文字內容與該韻律資訊，合成出一語音合成檔。
如申請專利範圍第8項所述之語音合成裝置，其中該文稿標記裝置更包括：一使用者介面，顯示該文字內容，其中該使用者介面包括一播放功能、一錄製功能以及一學習功能；其中，在該錄製功能被致能時，接收該語音訊號檔；在該學習功能被致能時，分析該語音訊號檔，以擷取該語音訊號檔的該韻律資訊；自動標記該文字內容所對應的該韻律資訊，藉此獲得該文稿標記檔；以及依據該人聲設定檔與該文稿標記檔，合成出該語音合成檔；在該播放功能被致能時，播放該語音合成檔。
如申請專利範圍第8項所述之語音合成裝置，其中該韻律資訊包括音強、音量、音高及音長其中之一或其組合者。