TWI616870B

TWI616870B - 文字轉語音系統以及文字轉語音方法

Info

Publication number: TWI616870B
Application number: TW106101478A
Authority: TW
Inventors: 黃宏吉
Original assignee: 晨星半導體股份有限公司
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2018-03-01
Also published as: TW201828286A

Abstract

一種文字轉語音方法，適用於一文字轉語音系統，其包含：(a) 接收一生物特徵資訊或地理資訊；(b) 根據生物特徵資訊或地理資訊決定一設定值；以及 (c) 根據設定值將一文字資訊轉換為一輸出語音。

Description

文字轉語音系統以及文字轉語音方法

本發明係有關於文字轉語音系統以及文字轉語音方法，特別有關於可根據語音產生輔助資訊自動調整輸出語音之語言種類或語速的文字轉語音系統以及文字轉語音方法。

目前有些智慧電視會提供視障輔助功能，其利用文字轉語音(TTS，text to speech)技術將操作介面之文字資訊轉換成輸出語音，輔助視障人士便於使用電視。

請參閱第1圖，其繪示了習知技術的文字轉語音系統的方塊圖。如第1圖所示，文字轉語音系統100包含一文字轉語音模組101。文字轉語音模組101用以將文字資訊TXT轉換成輸出語音SP，而使用者可透過語音使用者介面設定輸出語音的語言種類或語速。然而，對視障者而言，透過語音使用者介面進行設定仍較為不便，因此需要一更為友善的設定方式。

因此，本案一目的為提供一種文字轉語音方法，其可自動調整輸出語音之語言種類或語速。

本案另一目的為提供一種文字轉語音系統，其可自動調整輸出語音之語言種類或語速。

本發明一實施例揭露了一種文字轉語音方法，適用於一文字轉語音系統，其包含：(a)接收一生物特徵資訊；(b)根據一生物特徵資訊，決定一設定值；以及(c)根據該設定值將一文字資訊轉換為一輸出語音。

本發明另一實施例揭露了一種文字轉語音方法，適用於一文字轉語音系統，其包含：(a)接收一地理資訊；(b)根據該地理資訊，決定一語言種類；以及(c)根據該語言種類將一文字資訊轉換為一輸出語音。

本發明亦揭露了跟前述方法相對應的文字轉語音系統，但於此不再贅述。

根據前述實施例，可根據不同的資訊來決定輸出語音的語言種類或是語速，可避免習知技術中須自行調整語言種類或語速的問題，可讓使用者在使用文字轉語音的系統或方法時更為便利。

以下將以不同實施例來說明本發明的內容。然請留意，以下實施例所提及的各種系統、裝置、模組等，可以硬體方式實現 (例如電路)，亦可以軟體方式實現 (例如微處理器中寫入程式)。以下實施例將以電視來說明，但本發明所提供的系統以及方法亦可運用在電視以外的電子裝置。

第2圖繪示了根據本發明一實施例的文字轉語音系統的示意圖。如第2圖所示，文字轉語音系統200會根據輸入文字TXT產生輸出語音SP。此處的輸入文字TXT可為使用者輸入的文字，但亦可為圖像檔案內、文字檔案內或是網頁上的文字。舉例來說，當文字轉語音系統200使用於電視上，文字轉語音系統200可將電視的節目表或是操作介面轉換為語音。此外，文字轉語音系統200可整合於一電腦內，當使用者以電腦讀取一文字檔案或一網頁時，可透過文字轉語音系統200產生文字檔案上或網頁上之文字的輸出語音。文字轉語音系統200不限制以硬體方式整合在各種電子裝置上，其亦可以軟體方式安裝於各種電子裝置。

於第2圖所示的實施例中，文字轉語音系統200會接收生物特徵資訊提供裝置207提供的生物特徵資訊BS，並根據生物特徵資訊BS產生一設定值，其中，生物特徵資訊BS可包含下列資訊至少其一：使用者人種或使用者年齡，此設定值決定該輸出語音的語言種類或是語速。詳細言之，於一實施例中，文字轉語音系統200包含一文字轉語音模組201、一設定模組203以及一資料庫SD。設定模組203會將生物特徵資訊BS與資料庫SD中的資料進行比對，以設定語言種類或語速。而文字轉語音模組201會根據所設定的語言種類或語速來將文字資訊TXT轉換成輸出語音SP。資料庫SD可以儲存在文字轉語音系統200內部的儲存裝置，亦可儲存在文字轉語音系統200外部的儲存裝置，例如可移除的記憶卡、光碟或是雲端硬碟。

以下將詳細說明當生物特徵資訊BS為不同資訊時的運作方式。然請留意以下實施例僅用以舉例說明，並非用以限定本發明的範圍，任何可達到相同功能的系統或方法均應涵蓋於本發明的範圍之內。

第3(a)圖、第3(b)圖、第4(a)圖、第4(b)圖、第5(a)圖、第5(b)圖、第6(a)圖和第6(b)圖繪示了第2圖所示的文字轉語音系統之不同實施例。第3(a)圖、第4(a)圖、第5(a)圖和第6(a)圖繪示了不同實施例的流程圖，而第3(b)圖、第4(b)圖、第5(b)圖和第6(b)圖繪示了相對應的示意圖。

第3(a)圖繪示了如何根據生物特徵資訊BS決定語言種類的一實施例，其包含了步驟301和303。於此實施例中，生物特徵資訊BS為使用者影像資訊。

步驟301

分析生物特徵資訊BS的影像特徵，來決定使用者的使用者人種。

步驟303

根據使用者人種，決定語言種類。

第3(b)圖為第3(a)圖相對應的示意圖。如前所述，此實施例中生物特徵資訊BS為使用者影像資訊，因此生物特徵資訊提供裝置207為一影像擷取裝置(例如攝影機)。設定模組203在接收到使用者影像資訊後，可進行影像分析，並將影像特徵，例如使用者的膚色、臉部骨格比例或是五官等判斷使用者的人種與資料庫SD中預先儲存的人種之影像特徵來進行比對，以判斷使用者的人種。且於此實施例中，前述第2圖中資料庫SD儲存有人種/語言種類查找表300，設定模組203可根據此查找出適當的語言種類並據以控制語言種類。如第3(b)圖的人種/語言種類查找表300所示，不同的人種會對應不同的語言。舉例來說，若依生物特徵資訊BS判斷使用者為俄羅斯人，則語言種類會被調整為俄語，而若依生物特徵資訊BS判斷使用者為中國人，則語言種類會被調整為中文。

除了前述第3(a)圖、第3(b)圖所示的，對使用者影像資訊直接進行影像分析來得知使用者人種並決定語言種類外，亦可以其他方法決定語言種類。

第4(a)圖繪示了本發明決定語言種類的另一實施例，其包含下列步驟：

步驟401

分析生物特徵資訊BS，來決定使用者的使用者身份。

步驟403

根據使用者身份，得知使用者人種。

步驟405

根據使用者身份，決定語言種類。

於一實施例中，是將生物特徵資訊BS與一預定使用者之生物特徵資訊做比對，以產生一使用者身份。舉例來說，於一實施例中，生物特徵資訊BS為使用者影像資訊，因此可根據使用者的膚色、臉部骨格比例或是五官等影像特徵是否符合預先儲存的預定使用者之生物特徵資訊來判斷使用者身份。但生物特徵資訊BS亦可為其他可用以判斷使用者身份的生物特徵資訊，例如指紋、聲紋、虹膜資訊等。而生物特徵資訊提供裝置207為相對應的身份辨識裝置 (例如指紋偵測裝置、聲紋偵測裝置或是虹膜偵測裝置)或是先前所述的影像擷取裝置。以上僅為舉例，任何可以用來判斷使用者身份的生物特徵資訊均應包含在本發明的範圍內。

第4(b)圖繪示了跟第4(a)圖相對應的示意圖。如第4(b)圖所示，資料庫SD儲存了各使用者的使用者人種，例如儲存了使用者/人種查找表400。因此，比對生物特徵資訊BS便可得知是那一使用者 (即確認使用者身份)，並得知是那一使用者人種。舉例來說，若由生物特徵資訊BS得知使用者為使用者A，因此亦可相對應的得知使用者是中國人，而若由生物特徵資訊BS得知使用者為C，可相對應的得知使用者是歐洲人。在得知了使用者人種後，便可根據使用者人種來決定語言種類。

前述第3(a)圖、第3(b)圖、第4(a)圖以及第4(b)圖描述了如何調整語言種類的實施例，而以下的第5(a)圖、第5(b)圖、第6(a)圖以及第6(b)圖則描述了如何調整語速的實施例。

第5(a)圖繪示了如何決定語速之一實施例，其包含下列步驟：

步驟501

分析生物特徵資訊BS的影像特徵，以產生一使用者年齡。

步驟503

根據使用者年齡決定語速。

於此實施例中，生物特徵資訊BS為使用者影像資訊，而第2圖中所述的生物特徵資訊提供裝置207為一影像擷取裝置。設定模組203在接收到使用者影像資訊後，可進行影像分析，並根據使用者的髮色灰白程度、臉上皺紋、五官比例或身形比例等影像特徵判斷使用者年齡。且於此實施例中，資料庫SD儲存有年齡/語速查找表，設定模組203可根據此查找出適當的語速並據以控制語速。如第5(b)圖的年齡/語速查找表500所示，當使用者年齡根據使用者影像資訊被判斷為是屬於幼童或兒童的年齡區間0-11歲時，因為使用者可能對語言的判斷力較差，因此會將語速設定為最慢的速度1。而當使用者被判斷為是屬於青少年的年齡區間12-24歲時，因為對語言已有一定程度的了解，因此會將語速設定為次慢的速度2。而當使用者被判斷為是屬於成年的年齡區間25-45歲時，對語言的熟悉度已趨完善，因此會將語速設定為最快的速度3。而當使用者被判斷為是屬於中年的年齡區間46-60歲時，因為聽力可能已開始減弱，因此會將語速設定為較慢的速度2。

除了前述第5(a)圖、第5(b)圖所示的，對使用者影像資訊直接進行影像分析來得到使用者年齡以決定語速外，亦可以其他方法得知使用者年齡來決定語速。

第6(a)圖繪示了本發明決定語速的另一實施例，其包含下列步驟：

步驟601

分析生物特徵資訊BS，來決定使用者的使用者身份。

步驟603

根據使用者身份，決定使用者年齡。

步驟605

根據此使用者年齡，決定語速。

於一實施例中，生物特徵資訊BS為使用者影像資訊，因此可根據使用者的膚色、臉部骨格比例或是五官等影像特徵是否符合預先儲存的預定使用者之生物特徵資訊，來判斷使用者身份。但生物特徵資訊BS亦可為其他生物特徵資訊，例如指紋、聲紋、虹膜資訊等。而生物特徵資訊提供裝置207為為相對應的身份辨識裝置 (例如指紋偵測裝置、聲紋偵測裝置或是虹膜偵測裝置)或是先前所述的影像擷取裝置。以上僅為舉例，任何可以用來判斷使用者身份的生物特徵資訊均應包含在本發明的範圍內。

第6(b)圖繪示了跟第6(a)圖相對應的示意圖。如第6(b)圖所示，資料庫SD儲存了使用者/年齡查找表600。因此，比對生物特徵資訊BS便可得知是那一使用者，並得知使用者的年齡。舉例來說，若由生物特徵資訊BS得知使用者是使用者A，因此亦可相對應的得知使用者年齡為50，而若根據生物特徵資訊BS得知使用者是使用者C，因此亦可相對應的得知使用者年齡為26。在得知了使用者年齡後，可根據使用者年齡來設定語速。

第7圖繪示了根據本發明一實施例的文字轉語音系統的方塊圖。第7圖與第2圖部份相同，其差別之處在於在第7圖的實施例中，第2圖中的生物特徵資訊提供裝置207被地理資訊提供裝置701所取代。接收介面205用以接收地理資訊提供裝置701所產生的地理資訊GI並傳送給設定模組203。設定模組203根據地理資訊GI來產生設定值以設定語言種類。亦即，第7圖中的文字轉語音系統700的動作可簡述如下：接收一地理資訊GI；根據地理資訊GI決定一語言種類；以及根據此語言種類將一文字資訊TXT轉換為一輸出語音SP。

第8(a)圖、第8(b)圖以及第9(a)圖圖繪示了根據地理資訊來決定語言種類的不同實施例。

於第8(a)圖的實施例中，地理資訊提供裝置701為一定位裝置。此定位裝置可為各種類型的定位裝置，例如全球衛星導航系統. (Global Navigation Satellite System)，亦可為手機基地台定位系統，或是無線網路定位系統 (例如Wifi 定位系統)。第8(a)圖的流程圖包含下列步驟：

步驟801

根據地理資訊決定一使用地區。

步驟803

根據使用地區決定語言種類。

於此實施例中，地理資訊GI係為一經緯度，設定模組203可根據經緯度決定一使用地區。此外，資料庫SD儲存有使用者地區/語言種類查找表，設定模組203可根據使用者地區與資料庫SD找出適當的語言種類。以第8(b)圖所示的使用者地區/語言種類查找表800為例，當位置資訊表示文字轉語音系統是位於屬於英文區的加拿大A區時，設定模組203會將語言種類設定為英文。而當位置資訊表示文字轉語音系統是位於屬於法文區的加拿大A區時，設定模組203會將語言種類設定為法文。同樣的，在另一個例子中，澳洲的主要語言是英文，因此無論位置資訊表示文字轉語音系統是位於澳洲的C區或是D區，設定模組203均會將語言種類設定成英文。

而在另一實施例中，設定模組203直接利用經緯度查找出語言種類，而不先轉換成使用地區。於此實施例中，資料庫SD儲存有經緯度/語言種類查找表，設定模組203可根據此查找出適當的語言種類。以第9(a)圖所示的經緯度/語言種類查找表900為例，不同的經緯度會對應到不同的語言種類。以較實際的例子來說明，當緯度為49°16′N， 123°7′W時，此位置對應為加拿大的溫哥華，因此資料庫SD中會將此經緯度設定為英文。

根據前述實施例，可根據不同的資訊來決定輸出語音的語言種類或是語速，可避免習知技術中須自行調整語言種類或語速的問題，可讓使用者在使用文字轉語音的系統或方法時更為便利。以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。

101、200、700‧‧‧文字轉語音系統

201‧‧‧文字轉語音模組

203‧‧‧設定模組

207‧‧‧生物特徵資訊提供裝置

SD‧‧‧資料庫

300‧‧‧人種/語言種類查找表

400‧‧‧使用者/人種查找表

500‧‧‧年齡/語速查找表

600‧‧‧使用者/年齡查找表

701‧‧‧地理資訊提供裝置

800‧‧‧使用者地區/語言種類查找表

900‧‧‧經緯度/語言種類查找表

第1圖繪示了習知技術的文字轉語音系統的方塊圖。

第2圖繪示了根據本發明一實施例的文字轉語音系統的方塊圖。

第3(a)圖、第3(b)圖、第4(a)圖、第4(b)圖、第5(a)圖、第5(b)圖、第6(a)圖和第6(b)圖繪示了對應第2圖所示的文字轉語音系統之不同實施例。

第7圖繪示了根據本發明一實施例的文字轉語音系統的方塊圖。

第8(a)圖、第8(b)圖、第9(a)圖圖繪示了對應第7圖所示的文字轉語音系統之不同實施例。

Claims

一種文字轉語音方法，適用於一文字轉語音系統，包含：(a)接收一生物特徵資訊；(b)根據該生物特徵資訊，決定一設定值；以及(c)根據該設定值將一文字資訊轉換為一輸出語音。
如請求項1所述的文字轉語音方法，其中該設定值包含一語言種類，根據該生物特徵資訊，決定該設定值之步驟(b)包含：分析該生物特徵資訊，以產生一使用者人種；以及根據該使用者人種，決定該語言種類。
如請求項2所述的文字轉語音方法，其中分析該生物特徵資訊，以產生該使用者人種之步驟包含：將該生物特徵資訊與一預定使用者之生物特徵資訊做比對，以產生一使用者身份；以及根據該使用者身份，決定該使用者人種。
如請求項2所述的文字轉語音方法，其中該設定值包含一語速，根據該生物特徵資訊，決定該設定值之步驟(b)包含：分析該生物特徵資訊，以產生一使用者年齡；以及根據該使用者年齡，決定該語速。
如請求項4所述的文字轉語音方法，其中分析該生物特徵資訊，以產生該使用者年齡之步驟包含：將該生物特徵資訊與一預定使用者之生物特徵資訊做比對，以產生一使用者身份；以及根據該使用者身份，決定該使用者年齡。
一種文字轉語音系統，包含：一設定模組，根據一生物特徵資訊，決定一設定值；以及一文字轉語音模組，根據該設定值將一文字資訊轉換為一輸出語音。
如請求項6所述的文字轉語音系統，其中該設定值包含一語言種類，根據該生物特徵資訊，決定該設定值之該步驟包含：分析該生物特徵資訊，以產生一使用者人種；以及根據該使用者人種，決定該語言種類。
如請求項7所述的文字轉語音系統，其中分析該生物特徵資訊，以產生該使用者人種之步驟包含：將該生物特徵資訊與一預定使用者之生物特徵資訊做比對，以產生一使用者身份；以及根據該使用者身份，決定該使用者人種。
如請求項7所述的文字轉語音系統，其中該設定值包含一語速，根據該生物特徵資訊，決定該設定值之該步驟包含：分析該生物特徵資訊，以產生一使用者年齡；以及根據該使用者年齡，決定該語速。
如請求項9所述的文字轉語音系統，其中分析該生物特徵資訊，以產生該使用者年齡之步驟包含：將該生物特徵資訊與一預定使用者之生物特徵資訊做比對，以產生一使用者身份；以及根據該使用者身份，決定該使用者年齡。