TW202009924A

TW202009924A - 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體

Info

Publication number: TW202009924A
Application number: TW107128649A
Authority: TW
Inventors: 林其禹; 古鴻炎
Original assignee: 國立臺灣科技大學
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2020-03-01
Also published as: JP2020056996A; US20200058288A1; CN110867177A

Abstract

一種音色可選之人聲播放系統及其播放方法。此系統包括揚聲器、儲存器及處理裝置。儲存器記錄文篇資料庫。處理裝置耦接聲音輸入裝置、揚聲器及儲存器。處理裝置取得真實人聲信號，並將文篇資料庫中的文篇以文字轉語音技術轉換成原始合成人聲信號，再將此原始合成人聲信號依據音色轉換模型轉換成特定音色之人聲信號。而此音色轉換模型是使用從特定人士所收集的真實人聲信號去作訓練而得到。接著，處理裝置即可透過揚聲器播放此特定音色之轉換出的人聲信號。藉此，使用者即可隨時隨地聆聽喜好的人聲音色及含有選定文篇內容的人聲語音。

Description

音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體

本發明是有關於一種人聲轉換應用技術，且特別是有關於一種音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體。

特定人士的語音能對部分人產生心理上的共鳴。因此，很多人希望能由指定人說故事給他們聽，例如，小孩希望他們喜歡的爸爸、媽媽、甚至爺爺或奶奶，讀故事書(說故事)給他們聽。如果這些被希望讀故事的人在小孩旁邊，或許他們就可以親自讀給小孩聽。但實際情況是，既使這些人跟小孩在一起，也不見得有時間讀給他們聽。更不用說，當父母不在家時，或是根本沒跟爺爺奶奶住在一起，那就更無法由這些人來講故事給小孩聽了。

雖然現有技術可透過聲音錄製來記錄特定人士的語音，並透過播放錄音檔來講述指定的故事內容，但並非所有人都有空閒時間來錄製五本甚至更多本故事書的內容。此外，雖然人們可透過文字轉語音(Text-to-Speech，TTS)技術將特定文篇內容轉換成合成人聲，但現有相關產品中並沒有提供友善的操作介面來選擇文篇內容，亦無法提供所欲聆聽人士的語音音色。

有鑑於此，本發明提供一種音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體，其可播放所欲聆聽之人士的語音音色、及由選定文篇文字所轉換出的說話語音，讓使用者可隨時隨地聆聽熟悉的人聲音色及語音。

本發明的音色可選之人聲播放系統，其包括揚聲器、儲存器及處理裝置。揚聲器用於播放聲音。儲存器用於記錄人聲信號及文篇資料庫。處理裝置耦接聲音輸入裝置、揚聲器及儲存器。處理裝置取得真實人聲資料，並將文篇資料庫中的文篇以文字轉語音技術轉換成原始合成人聲信號，再將此原始合成人聲信號帶入音色轉換模型以轉換成特定音色之合成人聲信號。而此音色轉換模型是使用從特定人士所收集的人聲信號去作訓練而得到。接著，處理裝置即可透過揚聲器播放此特定音色之轉換出的合成人聲信號。

在本發明的一實施例中，上述的處理裝置自所收集的人聲信號求取聲學(acoustic)特徵；再依據收集的人聲信號所對應的文字腳本，令文字轉語音技術產生合成的人聲信號，並自合成的人聲信號求取聲學特徵；然後使用兩種語音信號(真實的語音、合成的語音)之平行的聲學特徵，去訓練出人聲信號作音色轉換的模型。

在本發明的一實施例中，上述的處理裝置提供使用者介面以呈現收集到的人聲信號及文篇資料庫的文篇，接收使用者介面上對於人聲信號中的一者及文篇資料庫其中一文篇的選擇操作。而反應於此選擇操作，處理裝置將選擇的文篇內的一序列文句轉換成合成的人聲信號。

在本發明的一實施例中，上述的儲存器更記錄數個人物於數個時間錄音之真實人聲信號。處理裝置提供使用者介面呈現這些人物及對應錄音時間，並接收使用者介面上對於這些人物及對應錄音時間之選擇操作。而反應於此選擇操作，處理裝置取得選擇的真實人聲信號所對應的音色轉換模型。

在本發明的一實施例中，上述的人聲播放系統更包括耦接處理裝置的顯示器。處理裝置收集至少一個真實人臉影像，依據此合成人聲信號生成嘴型變化數據，將一個真實人臉影像依據嘴型變化數據合成為合成人臉影像，並分別透過顯示器及揚聲器同步播放合成人臉影像及合成人聲信號。

在本發明的一實施例中，上述的人聲播放系統更包括耦接處理裝置的機械頭顱。處理裝置依據合成人聲信號生成嘴型變化數據，並依據此嘴型變化數據控制機械頭顱的嘴部動作並同步透過揚聲器播放合成人聲信號。

本發明的人聲播放方法，其包括下列步驟。收集真實的人聲信號。將一文篇內各文句以文字轉語音技術轉換成原始合成人聲信號。將原始合成人聲信號帶入音色轉換模型而轉換成特定音色之合成人聲信號，而此音色轉換模型是使用配對的人聲信號(真實人聲與合成人聲信號)作訓練之後所產生。接著，播放此轉換出的合成人聲信號。

在本發明的一實施例中，上述將原始合成的人聲信號帶入音色轉換模型而轉換成特定音色之人聲信號的步驟之前，更包括下列步驟。自收集的真實人聲信號求取聲學特徵。依據收集的真實人聲信號所對應的文字腳本，令文字轉語音技術產生合成的人聲信號。自合成的人聲信號求取聲學特徵。使用所收集語音的聲學特徵及所合成語音的聲學特徵來訓練音色轉換模型。

在本發明的一實施例中，上述依據收集的真實人聲所對應的文字腳本令文字轉語音技術轉換出合成的人聲信號的步驟之前，更包括下列步驟。提供使用者介面呈現收集的真實人聲信號及記錄人聲內容的文字腳本資料庫。接收使用者介面上對於真實人聲信號及文字腳本的選擇操作。反應於選擇操作，將選擇的文字腳本內各文句轉換成合成的人聲信號。

在本發明的一實施例中，上述收集真實人聲信號包括下列步驟。記錄數個人物於數個時間所錄音之真實人聲信號。提供使用者介面呈現那些人物及對應的錄音時間。接收使用者介面上對於那些人物及對應錄音時間之選擇操作。反應於選擇操作，取得選擇的真實人聲信號所對應的音色轉換模型。

在本發明的一實施例中，上述的文篇資料庫中的文篇內容相關於郵件、訊息、書籍、廣告及新聞中的至少一者。

在本發明的一實施例中，上述轉換成合成人聲信號之後更包括下列步驟。取得真實人臉影像。依據合成人聲信號生成嘴型變化數據。將真實人臉影像依據此嘴型變化數據合成為合成人臉影像。同步播放合成人臉影像及合成人聲信號。

在本發明的一實施例中，上述轉換成合成人聲信號之後更包括下列步驟。依據合成人聲信號生成嘴型變化數據。依據嘴型變化數具控制機械頭顱的嘴部動作並同步播放合成人聲信號。

本發明的電腦可讀取記錄媒體，其記錄一程式碼，並經由裝置的處理器載入以執行下列步驟。收集真實的人聲信號。將一文篇內各文句以文字轉語音技術轉換成原始合成人聲信號。將原始合成人聲信號帶入音色轉換模型而轉換成特定音色之合成人聲信號，而此音色轉換模型是使用配對的人聲信號(真實人聲與合成人聲信號)作訓練之後所產生。接著，播放此轉換出的合成人聲信號。

基於上述，本發明實施例的音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體，只要事先錄製或收集特定音色之真實人聲信號及其對應的文字腳本，並且建立可供選取文篇以作播放的文篇資料庫，使用者便能隨時隨地選擇所欲聆聽的語音音色與文篇文字，而不是聽到毫無感情的未知音色所播放出的語音。此外，使用者可挑選過去的歷史人聲信號，即時回憶熟悉的聲音。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

下文中，音色可選之人聲播放系統簡稱為人聲播放系統，音色可選之人聲播放方法簡稱為人聲播放方法。

圖1是依據本發明一實施例之人聲播放系統1的元件方塊圖。請參照圖1，人聲播放系統1至少包括但不僅限於聲音輸入裝置110、顯示器120、揚聲器130、操作輸入裝置140、儲存器150及處理裝置170。

聲音輸入裝置110可以是全向性麥克風、指向性麥克風或其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音信號的收音裝置(可能包括電子元件、類比至數位轉換器、濾波器、及音訊處理器)、通訊收發器(支援第四代(4G)行動網路、Wi-Fi等通訊標準)或傳輸介面(例如，通用串列匯流排(USB)、thunderbolt等)，於本實施例中，聲音輸入裝置110可能反應於聲波之接收而產生數位的真實人聲信號1511，亦可能透過外部裝置(例如，隨身碟、光碟等)或網際網路直接輸入真實人聲信號1511。

顯示器120可以是液晶顯示器(Liquid Crystal Display，LCD)、發光二極體(Light-Emitting Diode，LED)、有機發光二極體(Organic Light-Emitting Diode，OLED)等各類型顯示器。於本發明實施例中，顯示器120用於呈現使用者介面，而此使用者介面的內容待後續實施例詳述。

揚聲器130或稱為喇叭，其係由電磁鐵、線圈、振膜等電子元件所組成，從而將電壓信號轉換成聲音信號。

操作輸入裝置140可以是各類型(例如，電容式、電阻式、光學式等)的觸控面板、鍵盤、滑鼠等用於接收使用者輸入操作(例如，觸碰、按壓、滑動等)的裝置。於本發明實施例中，操作輸入裝置140用於接收使用者對於顯示器120所呈現之使用者介面上的操作。

儲存器150可以是任何型態的固定或可移動隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash Memory）或類似元件或上述元件之組合的儲存媒介，儲存器150並用於儲存軟體程式、人聲信號151(包括真實人聲信號1511、合成人聲信號1512)、模型訓練之文字腳本153、文篇資料庫155、影像資料157(包括真實人臉影像1571、合成人臉影像1572)、真實人聲之聲學特徵、合成人聲之聲學特徵、音色轉換模型、嘴型變化數據等資料或檔案，而這些軟體程式、資料、檔案待後續實施例詳述。

處理裝置170耦接聲音輸入裝置110、顯示器120、揚聲器130、操作輸入裝置140、及儲存器150，處理裝置170並可以是桌上型電腦、筆記型電腦、伺服器或工作站等裝置(至少包括中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processing，DSP)、可程式化控制器、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)或其他類似元件或上述元件組合的處理器)。在本發明實施例中，處理裝置170用以執行人聲播放系統1的所有作業，例如，存取儲存器150所記錄的資料或檔案，取得且處理聲音輸入裝置110所收集的真實人聲信號1511，取得操作輸入裝置140所接收使用者的輸入操作，透過顯示器120呈現使用者介面，或透過揚聲器130播經過音色轉換之放合成人聲信號1512。

需說明的是，依據不同應用需求，人聲播放系統1中的多台裝置可能整合成一台裝置。例如，聲音輸入裝置110、顯示器120、揚聲器130及操作輸入裝置140整合以形成供使用者使用的智慧型手機、平板電腦、桌上型電腦或筆記型電腦；而儲存器150與處理裝置170則是雲端伺服器，透過網路來傳送及接收人聲信號151。或者，人聲播放系統1中的所有裝置整合一台裝置，本發明不加以限制。

為了方便理解本發明實施例的操作流程，以下將舉諸多實施例詳細說明本發明實施例中人聲播放系統1的運作流程。下文中，將搭配人聲播放系統1的各項元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例說明一種人聲播放方法之流程圖。請參照圖2，處理裝置170收集至少一筆真實人聲信號1511(步驟S210)。在一實施例中，處理裝置170可透過諸如揚聲器130播放提示文字、或顯示器120(例如，LCD、LED、OLED等顯示器)呈現提示文字，來導引使用者說出指定的文字，而處理裝置170即可透過聲音輸入裝置110錄製人類所發出的語音信號。例如，家中成員分別透過麥克風說一段故事，以錄製數筆真實人聲信號1511，而此真實人聲信號1511可被上傳到雲端伺服器中的儲存器150。需說明的是，人聲播放系統1亦可能不限制使用者所講的內容，僅需要透過聲音輸入裝置110錄製足夠時間長度(例如，10、30秒鐘等)的人聲。在另一實施例中，處理裝置170可透過聲音輸入裝置110經由擷取網路封包、用戶上傳、透過外部或內建儲存媒介(例如，隨身碟、光碟、外接硬碟等)取得真實人聲信號1511(可能是包含在演講內容、談話內容、演唱內容等)。例如，使用者透過使用者介面輸入喜愛歌手，而聲音輸入裝置110自網際網路搜尋並取得此特定歌手的講話內容或演唱音樂。使用者介面呈現廣播員的照片或姓名，供年長者挑選，而聲音輸入裝置110經由網際網路錄製此廣播員在線上廣播電台的聲音。真實人聲信號1511可能是原始聲音振幅資料、或是經壓縮/編碼處理的音訊檔案，本發明不加以限制。

處理裝置170接著自真實人聲信號1511求取聲學特徵(步驟S220)。具體而言，處理裝置170可依據不同語言(例如，華語、英語、法語等)的發音單元(例如，韻母、聲母、母音、子音等)而自各真實人聲信號1511取得對應發音的語音片段(可能記錄有音高、振幅及音色等)，或者處理裝置170直接取得各真實人聲信號1511反應於頻譜的特性等方式，從而求得後續音色轉換模型所需聲學特徵。

另一方面，處理裝置170可選擇模型訓練之文字腳本153(步驟S230)。而此模型訓練之文字腳本153可能是步驟S210所用提示文字相同或不同的內容、或其他經設計方便後續音色轉換模型訓練的文字資料(例如，包括所有韻母、母音的字句)，本發明不加以限制。例如，真實人聲信號1511的內容是關於廣告口號，而文字腳本是關於唐詩。需說明的是，文字腳本153可能是內建或自外部自動取得的，或者顯示器120亦可呈現使用者介面以供使用者挑選文字腳本153。接著，處理裝置170利用模型訓練之文字腳本153而使用文字轉語音技術產生合成的人聲信號(步驟S240)。具體而言，處理裝置170對挑選的模型訓練之文字腳本153作斷詞、變調、符號發音等文字分析後，產生韻律參數(例如，音高(pitch)、音長(duration)、音強、停頓等)，並透過諸如共振峰、正弦波、隱馬爾可夫模型(Hidden Markov Model，HMM)或直截(straight)等訊號波形合成器去作語音信號合成，以產生合成的人聲信號。在其他實施例中，處理裝置170亦可能直接將模型訓練之文字腳本153輸入至外部或內建的文字轉語音引擎(例如，Google、工研院、AT&T自然語音(Natural Voices)等)，以產生合成的人聲信號。而此合成的人聲信號可能是原始聲音振幅資料、或是經壓縮/編碼處理的音訊檔案，本發明不加以限制。需說明的是，在一些實施例中，合成的人聲信號亦可能是經網路、外部儲存媒介所取得之有聲書、音訊檔案、錄音檔等資料，本發明不加以限制。例如，聲音輸入裝置110自線上圖書館取得供有聲書、影音網站所記錄的合成語音信號等。

處理裝置170接著自合成的人聲信號求取合成語音的聲學特徵(步驟S250)。具體而言，處理裝置170可以步驟S220相同或相似方式取得各發音單元對應發音的語音片段、或者各合成語音信號反應於頻譜的特性等方式，從而得出後續音色轉換模型所需的聲學特徵。需說明的是，真實人聲之聲學特徵及合成人聲之聲學特徵的類型可能還有很多種變化，可視實際需求而調整，本發明不加以限制。

接著，處理裝置170即可使用真實人聲之聲學特徵及合成人聲之聲學特徵去訓練音色轉換模型(步驟S260)。具體而言，處理裝置170可將真實人聲之聲學特徵及合成人聲之聲學特徵作為訓練樣本，並將合成的人聲信號1512作為來源聲音而真實人聲信號1511作為目標聲音，來訓練諸如高斯混合模型(Gaussian Mixture Model，GMM)、人工神經網路(Artificial Neural Network，ANN)等模型，並將訓練得到的模型作為音色轉換模型，使任何合成的人聲信號可被轉換成特定音色的合成人聲信號1512。

需說明的是，在另一實施例中，此音色轉換模型亦可能透過分析真實人聲信號1511與合成的人聲信號的頻譜、或音色上的差異而生成，而此時生成合成的人聲信號所用的模型訓練之文字腳本153的內容應與真實人聲信號1511中所念出的字句相同或相似。原則上，音色轉換模型是基於真實人聲信號1511所產生。

音色轉換模型建立後，處理裝置170可選擇文篇資料庫155中的文篇內容(步驟S270)。具體而言，處理裝置170可透過顯示器120或揚聲器130呈現或發出文篇內容之選擇提示，而文篇資料庫155中的文篇內容可以是郵件、訊息、書籍、廣告及/或新聞中的文句，或者是其他變化態樣。值得注意的是，依據需求，人聲播放系統1可隨時取得使用者輸入的文篇內容，甚至是連線到特定網站存取文篇內容。處理裝置170再透過諸如觸控螢幕、鍵盤或滑鼠等操作輸入裝置140接收使用者對於文篇內容的選擇操作，並基於選擇操作來決定文篇內容。

舉例而言，手機的顯示器120呈現數筆童話故事的題目或圖案，經使用者選擇特定童話故事後，處理裝置170會自儲存器150或經由網路取得童話故事的故事內容(即，文篇內容)。電腦的顯示器120呈現數個新聞頻道，經使用者選擇特定新聞頻道後，處理裝置170會即時錄製或取得此新聞頻道中主播或記者的講話內容(即，文篇內容)。

處理裝置170接著將選擇的文篇內容中的文句以文字轉語音技術轉換成原始合成人聲信號 (步驟S280)。於本實施例中，處理裝置170可利用與步驟S240相同或相似的方法(例如，文字分析、產生韻律參數、訊號合成、文字轉語音引擎等)來產生原始合成人聲信號。而此原始合成人聲信號可能是原始聲音振幅資料、或是經壓縮/編碼處理的音訊檔案，本發明不加以限制。

處理裝置170再將原始合成人聲信號帶入步驟S260所訓練出的音色轉換模型，以轉換成特定音色的合成人聲信號1512(步驟S280)。具體而言，處理裝置170可先透過步驟S220及S250相同或相似方法而對原始合成人聲信號求取合成人聲的聲學特徵，再將求得的原始合成人聲的聲學特徵透過GMM、ANN等模型去作頻譜映射、及/或音高調整等方式，而改變原始合成人聲信號的音色。或者，處理裝置170可直接基於真實人聲信號1511及合成的人聲信號1512之間的差異來調整原始合成人聲信號，從而模擬真實人聲的音色。處理裝置170即可透過揚聲器130來播放此經過音色轉換的合成人聲信號1512。此時，轉換出的合成人聲信號1512所具有的音色、音調將貼近真實人聲信號1511。藉此，使用者可隨時隨地聽到其熟悉的語音音色，而希望被聆聽的對象也不需要錄製大量語音信號。

舉例而言，當小孩們想聽某人講故事給他們聽時，可以馬上聽到由他們聲音音色說出的故事。媽媽出差前先錄製講話聲音，而在媽媽出差過程中，嬰兒仍可隨時透過揚聲器130聆聽故事。此外，爺爺過世後，處理裝置170可基於爺爺生前錄製影片或聲音建立音色轉換模型，讓孫子仍可透過人聲播放系統1聆聽以爺爺生前聲音音色來唸故事書。

而為了更加符合實際需求，在一實施例中，處理裝置170還可提供使用者介面(例如，透過顯示器120、實體按鍵等)呈現對應於不同人員的數個真實人聲信號1511及文篇資料庫155。處理裝置170可透過操作輸入裝置140接收使用者介面上對於任一真實人聲信號1511及文篇資料庫155中任一筆文篇的選擇操作。而反應於此選擇操作，處理裝置170透過前述步驟S270至S290使用選取的真實人聲信號1511所訓練出的音色轉換模型，將選擇的文篇文字轉換成特定音色的合成人聲信號1512。

舉例而言，使用者可設定家中年長者喜歡的播報員，處理裝置170建立此播報員對應的音色轉換模型。此外，使用者介面可呈現國內新聞、國外新聞、體育新聞、影藝新聞等選項。待年長者選擇國內新聞後，處理裝置170可自網路取得國內新聞的新聞內容，並透過音色轉換模型來生成具有特定播放員音色的合成人聲信號1512，使年長者可聆聽喜好播報員來唸動態新聞。或者，使用者可透過手機輸入偶像姓名，處理裝置170建立此偶像對應的音色轉換模型。當廣告業者欲宣傳商品時，可對處理裝置170輸入其廣告宣傳內容，經由偶像的音色轉換模型產生具有特定偶像音色的合成人聲信號1512之後，讓使用者可聽到喜愛偶像宣傳商品。

此外，人聲音色可能會隨著年齡增長而改變，而使用者可能希望聽到過往的人聲音色。在一實施例中，處理裝置170透過聲音輸入裝置110記錄真實人聲信號1511後，會註記錄製或收集時間、以及錄製真實人聲信號1511之人的識別資料。儲存器150即可記錄數個人物於數個錄製時間之真實人聲信號1511。而處理裝置170依據所有記錄的真實人聲信號1511與對應的合成的人聲信號分別訓練各自的音色轉換模型。接著，處理裝置170提供使用者介面以呈現這些人物及他們錄音的時間，並透過輸入裝置接收使用者介面上對於這些人物及錄音時間之選擇操作。而反應於此選擇操作，處理裝置170取得選擇的真實人聲信號1511對應的音色轉換模型，再透過音色轉換模型來對原始合成人聲信號作轉換。

舉例而言，使用者透過麥克風錄製聲音時，處理裝置170會對每筆自己的真實人聲信號1511註記錄音時間。或者，聲音輸入裝置110自網路取得特定偶像的真實人聲信號1511時，會搜尋此真實人聲信號1511的錄音時間或此偶像當時年紀。

此外，在一實施例中，在揚聲器130播放某一真實人聲信號1511對應的音色轉換模型所轉換出的合成人聲信號1512的過程中，反應於使用者對於其他真實人聲信號1511的選擇操作，處理裝置170可及時挑選對應的音色轉換模型，選擇適當的切換時間點，將當前播放的轉換出之人聲信號1512，切換成使用後選擇之真實人聲信號1511對應的音色轉換模型，使語音信號的播放不間斷，且讓使用者馬上聽到另一人物的聲音音色。

舉例而言，當小孩們想聽某人講故事給他們聽時，可以馬上聽到由他們聲音音色說出的故事。一個故事可以指定由爸爸或媽媽輪流講，或是爸爸、媽媽、爺爺和奶奶輪流講，都是可以臨時選定的。此人聲播放系統1可將故事內容直接轉換成爸爸或媽媽的說話聲音。小孩們會真的覺得這人聲播放系統1裡傳出他們父母在讀故事給他們聽。

除此之外，透過即時更新真實人聲信號1511及擴充文篇資料庫155，將能讓人聲播放系統1更符合使用者的需求。例如，聲音輸入裝置110定時會自網路搜尋指定明星、主播的錄音檔案。處理裝置170定時自線上圖書館下載有聲書。使用者自網路購買電子書。

此外，本發明另提供一種非暫態電腦可讀取記錄媒體(例如，硬碟、光碟、快閃記憶體、固態硬碟(Solid State Disk，SSD)等儲存媒體)，此電腦可讀取記錄媒體可儲存多數個程式碼片段（例如偵測儲存空間程式碼片段、空間調整選項呈現程式碼片段、維持作業程式碼片段、以及畫面呈現程式碼片段等），並且這些程式碼片段在載入處理裝置170的處理器中並執行之後，即可完成上述音色可選之人聲播放方法的所有步驟。換句而言，前述人聲播放方法可透過應用程式(APP)來執行，裝載在手機、平板或電腦後即可供使用者操作。

舉例而言，手機APP提供使用者介面選擇喜好明星，而位於雲端的處理裝置170基於選擇的明星搜尋錄音檔案或具聲音的影像檔案，並據以建立此明星的音色轉換模型。當使用者透過手機的揚聲器130聆聽線上電台時，處理裝置170可將廣告業者所提供的宣傳內容經由音色轉換模型轉換以生成此明星的合成人聲信號。此合成人聲信號可在廣告時段插入，從而讓使用者聆聽喜愛明星宣傳商品。

另一方面，為了提升真實性及體驗感，本發明實施例更可結合視覺影像技術。圖3是依據本發明一實施例之結合影像之人聲播放方法的流程圖。請參照圖3，處理裝置170收集至少一個真實人臉影像1571(步驟S310)。在一實施例中，在前述步驟S210錄製真實人聲信號1511的過程中，處理裝置170可透過影像擷取裝置(例如，相機、錄影機等)對使用者同步錄製真實人臉影像。例如，家中成員對影像擷取裝置及聲音輸入裝置110說一段演講稿，以同時取得真實人聲信號1511及真實人臉影像1571。需說明的是，真實人聲信號1511及真實人臉影像1571可能整合成具有聲音及影像的真實人臉影片或是分別的兩筆數據，本發明不加以限制。在另一實施例中，處理裝置170可經由擷取網路封包、用戶上傳、透過外部或內建儲存媒介(例如，隨身碟、光碟、外接硬碟等)取得真實人臉影像1571(可能是影像平台的影片、廣告片段、談話節目影片、電影片段等)。例如，使用者透過使用者介面輸入喜愛演員，而處理裝置170自網際網路搜尋並取得此特定演員在講話的影片。

在前述步驟S290轉換出特定音色之合成人聲信號1512之後，處理裝置170會依據此合成人聲信號1512生成嘴型變化數據(步驟S330)。具體而言，處理裝置170例如是透過機器學習演算所訓練的嘴型轉換模型而依據時間順序依序得出合成人聲信號1512對應的嘴部形狀(可能包括嘴唇、牙齒、舌頭、或其組合的輪廓)，並將這些依時間順序排列的嘴部形狀作為嘴型變化數據。例如，處理裝置170依據真實人臉影像1571建立對應於不同人員的嘴型轉換模型，經使用者選擇某一電影明星及特定武俠小說後，處理裝置170會對轉換出具有此電影明星的嘴部動作的嘴型變化數據，而此嘴型變化數據記錄著此電影明星唸武俠小說的嘴部動作。

接著，處理裝置170將真實人臉影像1571依據嘴型變化數據合成為合成人臉影像1572(步驟S350)。處理裝置170依據嘴型變化數據所記錄的嘴部形狀來改變真實人臉影像1571中的嘴部區域，並使嘴部區域的影像能隨著嘴型變化數據所記錄的時間順序而變化。最後，處理裝置170即可分別透過顯示器120及揚聲器130同步播放合成人臉影像1572及合成人聲信號1512(合成人臉影像1572及合成人聲信號1512可能整合成一個影片或是分開的兩筆數據)。例如，使用者介面上呈現爸爸和媽媽的照片、以及故事書封面，小朋友選擇媽媽及小紅帽故事之後，顯示器120將呈現媽媽講故事的畫面，同時揚聲器130會播放媽媽講故事的聲音。

此外，近年來機器人技術發展迅速，市面上已可見許多擬真人機器。圖4是依據本發明另一實施例之人聲播放系統2的元件方塊圖。請參照圖4，與圖1相同之裝置於此不加贅述，而與圖1之人聲播放系統1不同之處在於，人聲播放系統2更包括機械頭顱190。此機械頭顱190的臉部表情可受處理裝置170控制。例如，處理裝置170可控制機械頭顱190微笑、說話及張大嘴巴等表情。

圖5是依據本發明一實施例之結合機械頭顱190之人聲播放方法的流程圖。請參照圖5，在前述步驟S290轉換出特定音色之合成人聲信號1512之後，處理裝置170會依據此合成人聲信號1512生成嘴型變化數據(步驟S510)，此步驟之詳細說明可參酌步驟S330，於此不贅述。接著，處理裝置170依據此嘴型變化數據控制機械頭顱190的嘴部動作並同步透過揚聲器130播放合成人聲信號1512(步驟S530)。處理裝置170係依據嘴型變化數據所記錄的嘴部形狀來改變機械頭顱190中的嘴部機械構件，並使嘴部機械構件能隨著嘴型變化數據所記錄的時間順序而變化。例如，青少年選擇偶像及愛情小說之後，機械頭顱190將模擬偶像講話，同時揚聲器130會播放偶像唸愛情小說的聲音。

綜上所述，本發明實施例的人聲播放系統、其人聲播放方法及非暫態電腦可讀取記錄媒體，對選擇的文篇以文字轉語音技術轉換成原始合成人聲信號，再透過基於真實人聲信號及其對應的合成的人聲信號所訓練得到的音色轉換模型，將此原始合成人聲信號轉換成具有目標對象音色的合成人聲信號，讓使用者可隨心所欲聆聽喜好的語音音色及文篇內容。此外，本發明實施例還能將合成人聲信號結合合成人臉影像或機械頭顱，以增加使用體驗。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1‧‧‧人聲播放系統110‧‧‧聲音輸入裝置120‧‧‧顯示器130‧‧‧揚聲器140‧‧‧操作輸入裝置150‧‧‧儲存器151‧‧‧人聲資料1511‧‧‧真實人聲信號1512‧‧‧合成人聲信號153‧‧‧真實人聲之文字腳本155‧‧‧文篇資料庫157‧‧‧影像資料1571‧‧‧真實人臉影像1572‧‧‧合成人臉影像170‧‧‧處理裝置190‧‧‧機械頭顱S210~S295、S310~S350、S510~S530‧‧‧步驟

圖1是依據本發明一實施例之人聲播放系統的元件方塊圖。圖2是依據本發明一實施例之人聲播放方法的流程圖。圖3是依據本發明一實施例之結合影像之人聲播放方法的流程圖。圖4是依據本發明另一實施例之人聲播放系統的元件方塊圖。圖5是依據本發明一實施例之結合機械頭顱之人聲播放方法的流程圖。

S210~S295‧‧‧步驟

Claims

一種人聲播放系統，包括：一揚聲器，播放聲音；一儲存器，記錄一文篇資料庫；以及一處理裝置，耦接該揚聲器及該儲存器，該處理裝置取得至少一真實人聲資料，並將該文篇資料庫中的一文篇以一文字轉語音技術轉換成一原始合成人聲信號，將該原始合成人聲信號帶入一音色轉換模型而轉換成一合成人聲信號，其中該音色轉換模型是使用該至少一真實人聲信號去訓練而得到，且該處理裝置透過該揚聲器播放該合成人聲信號。
如申請專利範圍第1項所述的人聲播放系統，其中該處理裝置自該至少一真實人聲信號取得至少一第一聲學(acoustic)特徵，依據該至少一真實人聲信號所對應的文字腳本，令該文字轉語音技術產生一合成人聲信號，自該合成人聲信號取得至少一第二聲學特徵，並使用該至少一第一聲學特徵及該至少一第二聲學特徵來訓練該音色轉換模型。
如申請專利範圍第1項所述的人聲播放系統，其中該處理裝置提供一使用者介面呈現該至少一真實人聲信號及該文篇資料庫所記錄的多個該文篇，接收該使用者介面上對於該至少一真實人聲信號中的一者及該文篇資料庫其中一該文篇的選擇操作，並反應於該選擇操作，該處理裝置將選擇的文篇內的一文句轉換成該合成人聲信號。
如申請專利範圍第1項所述的人聲播放系統，其中該儲存器更記錄多個人物於多個錄音時間之該至少一真實人聲信號，且該處理裝置提供一使用者介面呈現該些人物及對應錄音時間，並接收該使用者介面上對於該些人物及對應該些錄音時間之選擇操作，並反應於該選擇操作，該處理裝置取得選擇的真實人聲信號對應的音色轉換模型。
如申請專利範圍第1項所述的人聲播放系統，其中該文篇資料庫中的文篇內容相關於郵件、訊息、書籍、廣告及新聞中的至少一者。
如申請專利範圍第1項所述的人聲播放系統，更包括：一顯示器，耦接該處理裝置；而該處理裝置收集至少一真實人臉影像，依據該合成人聲信號生成一嘴型變化數據，將該至少一真實人臉影像中的一者依據該嘴型變化數據合成為一合成人臉影像，並分別透過該顯示器及該揚聲器同步播放該合成人臉影像及該合成人聲信號。
如申請專利範圍第1項所述的人聲播放系統，更包括：一機械頭顱，耦接該處理裝置；而該處理裝置依據該合成人聲信號生成一嘴型變化數據，並依據該嘴型變化數據控制該機械頭顱的嘴部動作並同步透過該揚聲器播放該合成人聲信號。
一種人聲播放方法，包括：收集至少一真實人聲信號；將一文篇以一文字轉語音技術轉換成一原始合成人聲信號；將該原始合成人聲信號帶入一音色轉換模型而轉換成一合成人聲信號，其中該音色轉換模型是使用該至少一真實人聲信號去訓練而得到；以及播放轉換出的該合成人聲信號。
如申請專利範圍第8項所述的人聲播放方法，其中將該原始合成人聲信號帶入該轉換模型而轉換成該合成人聲信號的步驟之前，更包括：自該至少一真實人聲信號求取至少一第一聲學(acoustic)特徵；依據該至少一真實人聲信號所對應的文字腳本，令該文字轉語音技術產生一合成人聲信號；自該合成人聲信號求取至少一第二聲學特徵；以及使用該至少一第一聲學特徵及該至少一第二聲學特徵來訓練該音色轉換模型。
如申請專利範圍第8項所述的人聲播放方法，其中將該原始合成人聲信號帶入該轉換模型而轉換成該合成人聲信號的步驟之前，更包括：提供一使用者介面呈現收集的該至少一真實人聲信號及一文篇資料庫記錄的多個該文篇；接收該使用者介面上對於一該真實人聲信號及該文篇資料庫其中一該文篇的選擇操作；以及反應於該選擇操作，將選擇的文篇內的一文句轉換成該合成人聲信號。
如申請專利範圍第8項所述的人聲播放方法，其中取得該人聲資料的步驟，包括：記錄多個人物於多個錄音時間之真實人聲信號；提供一使用者介面呈現該些人物及對應錄音時間；接收該使用者介面上對於該些人物及對應該些錄音時間之選擇操作；以及反應於該選擇操作，取得選擇的真實人聲信號對應的音色轉換模型。
如申請專利範圍第8項所述的人聲播放方法，其中該文篇內容相關於郵件、訊息、書籍、廣告及新聞中的至少一者。
如申請專利範圍第8項所述的人聲播放方法，其中轉換成該合成人聲信號的步驟之後，更包括：取得一真實人臉影像；依據該合成人聲信號生成一嘴型變化數據；將該真實人臉影像依據該嘴型變化數據合成為一合成人臉影像；以及同步播放該合成人臉影像及該合成人聲信號。
如申請專利範圍第8項所述的人聲播放方法，其中轉換成該合成人聲信號的步驟之後，更包括：依據該合成人聲信號生成一嘴型變化數據；以及依據該嘴型變化數據控制一機械頭顱的嘴部動作並同步播放該合成人聲信號。
一種非暫態電腦可讀取記錄媒體，記錄一程式碼，並經由一裝置的處理器載入以執行下列步驟：收集至少一真實人聲信號；將一文篇以一文字轉語音技術轉換成一原始合成人聲信號；將該原始合成人聲信號帶入一音色轉換模型而轉換成一合成人聲信號，其中該音色轉換模型是使用該至少一真實人聲信號去訓練而得到；以及播放轉換出的該合成人聲信號。