TWI470620B - 文字到語音轉換之方法和系統 - Google Patents

文字到語音轉換之方法和系統 Download PDF

Info

Publication number
TWI470620B
TWI470620B TW100124607A TW100124607A TWI470620B TW I470620 B TWI470620 B TW I470620B TW 100124607 A TW100124607 A TW 100124607A TW 100124607 A TW100124607 A TW 100124607A TW I470620 B TWI470620 B TW I470620B
Authority
TW
Taiwan
Prior art keywords
book
text
client
converted
speech
Prior art date
Application number
TW100124607A
Other languages
English (en)
Other versions
TW201225064A (en
Inventor
Ling Jun Wong
True Xiong
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of TW201225064A publication Critical patent/TW201225064A/zh
Application granted granted Critical
Publication of TWI470620B publication Critical patent/TWI470620B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Description

文字到語音轉換之方法和系統
按照本發明的實施例一般係與文字到語音轉換有關,尤其與用於數位式閱讀器的文字到語音轉換有關。
文字到音頻系統可將輸入的文字轉換成輸出模擬自然語音的聲響信號。文字到音頻系統係廣泛地用於各式各樣的應用中。例如,文字到音頻系統可用於自動化資訊服務、自動語音應答、電腦輔助教學、視障用電腦系統、及數位式閱讀器。
某些簡單的文字到音頻系統對純文字輸入操作,並產生對應的語音輸出,對所接收到的文字只做很少的處理或分析或不做任何的處理或分析。另一些較複雜的文字到音頻系統處理所接收到的文字輸入,以決定會影響文字之發音之文字的各種語意及語法之屬性。此外,另一些較複雜的文字到音頻系統但處理所接收之具有註解的文字輸入。註解文字輸入指定供文字到音頻系統使用的發音資訊,以產生更流暢且更像人聲的語音。
某些文字到音頻系統將文字近乎即時地轉換成高品質、自然發聲的語音。不過,產生高品質語音需要大量的潛在聲學單元、複雜的規則、及除了結合該等單元之外。因此,這類系統典型上需要大量的儲存容量及強大的計算能力,且典型上會消耗大量的電力。
通常,文字到音頻系統會多次接收到相同的文字輸入。這類系統完全地處理每一個所接收到的文字輸入,將該文字轉換成語音輸出。因此,文字到音頻系統處理所接收到的每一個文字以建構對應的口語輸出,而無視於先前已轉換成語音之相同的文字輸入,也無視於有多麼經常接收到相同的文字輸入。
例如,在數位式閱讀器的情況中,單一的文字到音頻系統於讀者第一次收聽書時接收文字輸入,當讀者於另一時間決定再收聽該書時又再次接收。此外,在多位讀者的情況中,同一本書可能被很多不同的數位式閱讀器轉換數千次。此些冗餘的處理造成能源無效率,消耗處理資源及浪費時間。
本發明的實施例係針對用於高效率文字到語音轉換的方法和系統。在一個實施例中,在可攜式裝置上施行文字到語音轉換之方法包括:辨識部分文字以供轉換到語音格式用,其中,辨識包括根據與讀者相關之資訊來實施預測;在可攜式裝置被連接到電源的同時,對該部分文字實施文字到語音轉換,以產生經轉換的語音;將經轉換的語音儲存到可攜式裝置的記憶體裝置內;執行閱讀器應用程式,其中,為該部分文字之旁白而接收讀者請求;以及;在執行期間,回應讀者請求,從該記憶體裝置存取該經轉換的語音,並在該可攜式裝置上顯現該經轉換的語音。
在一個實施例中,該部分文字包括經音頻轉換的書。在某些實施例中,該資訊包括新增書的辨識,且其中,該部分文字係取自新增的書中。在各不同的實施例中,該文字包括經音頻轉換的書,且實施預測包括根據經音頻轉換之書的特徵來預期後續的書。
在又一實施例中,該資訊包含書的播放清單。在某些實施例中,書的播放清單為讀者所創建的。在另一實施例中,書的播放清單係由與該讀者之屬性類似的其他讀者所創建的。
在另一實施例中,文字到語音轉換法包括:辨識書,以供轉換成該書的音頻版本用,其中,該辨識包括根據與該書有關的資訊來實施預測;在數位式閱讀器被連接到電源的同時,存取該書的音頻版本;將該音頻版本儲存到該數位式閱讀器的記憶體裝置內;執行閱讀器應用程式,其中,讀者為了旁白而請求該書;以及,在執行期間,從數位式閱讀器之記憶體裝置中之音頻版本中產生模擬自然語音的聲響信號。
在某些實施例中,該資訊包括儲存在伺服器上之書單,且其中,書單包含書的辨識。在各不同的實施例中,該資訊包括書之主題、類型、標題、作者、日期的其中之一。
在一個實施例中,該存取包括透過網際網路而從伺服器接收串流通信。在又一實施例中,該存取包括透過網際網路而從伺服器下載音頻版本。在某些實施例中,該存取包含透過網際網路而從另一數位式閱讀器下載音頻版本。在各不同的實施例中,該存取包括直接從另一數位式閱讀器下載音頻版本。
在另一實施例中,文字到語音轉換系統包括:處理器;顯示器,係耦接至處理器;輸入裝置,係耦接至處理器;音頻輸出裝置,係耦接到處理器;以及記憶體,係耦接至處理器。記憶體包括指令,而當該等指令被執行時,致使系統在可攜式裝置上實施文字到語音轉換。該方法包括:辨識部分文字以供轉換到語音格式用,其中,該辨識包含根據與讀者相關之資訊實施預測;在可攜式裝置被連接到電源的同時,對部分文字實施文字到語音轉換,以產生經轉換的語音;將經轉換的語音儲存到可攜式裝置的記憶體裝置內;執行閱讀器應用程式,其中,為了部分文字的旁白而接收讀者請求;以及,在執行期間,回應讀者請求,從記憶體裝置存取經轉換的語音,並顯現經轉換的語音於可攜式裝置上。
在某些實施例中,該部分文字包含經音頻轉換的書。在其它實施例中,該資訊包括新增書的辨識,且部分文字係取自新增書中。在各不同的實施例中,文字包括經音頻轉換的書,且實施預測包括根據該經音頻轉換之書的特徵來預期後續的書。在又一實施例中,該資訊包括讀者所創建之書的播放清單,或由與該讀者之屬性類似之其他讀者所創建之書的播放清單。
現在將詳細參考按照本發明的各個實施例,這些例子將配合附圖來做說明。雖然本發明係結合這些實施例來做描述,但須瞭解,本發明並無意受限於這些實施例。反之,本發明意欲涵蓋替代、修改、及等同物,這些都包括在所附申請專利範圍所定義之本發明的精神與範圍內。此外,在以下對本發明之各實施例的詳細描述中,為了能對本發明做徹底的瞭解,提出了很多特定的細節。不過,熟悉一般技術之人士將可明瞭,本發明之實行並不需要這些特定的細節。在其它的例中,並未詳細描述吾人所習知的方法、程序、組件、及電路,以免對本發明之實施例的各態樣造成不必要的混淆。
顯示系統之實施例的各圖式為半概略的圖,並未按比例來予以繪製,特別是,為清楚呈現的某些尺寸在所繪製的圖中被誇大。此外,所揭示及描述的多個實施例具有某共同的特徵,為清楚且易於對其說明、描述、及理解,慣常地以相同的參考編號來描述各實施例中相同的特徵。
實施方式中的某些部分(例如,圖9與圖10)是以電腦系統中對資料之操作的程序、步驟、模擬、計算、邏輯方塊、處理、及其它的符號表示法來予以呈現。這些描述及表示法為熟悉資料處理技術之人士所使用的工具,以使他們工作的實質內容能對其它技術人士做最有效的傳達。在此,通常,程序、電腦執行的步驟、邏輯方塊、處理等被構想成可導致所想要之結果之步驟或指令之自相容的序列。該些步驟為需要物理量之物理操作的那些步驟。通常,雖非必要,但這些量是採電或磁信號形式,在電腦系統內具有儲存、傳送、結合、比較、及其它方面操作能力。有時被證實為方便,但主要是為通用之理由,將這些信號稱為位元、值、元素、符號、字元、項、數字、等等。
不過,須記住,所有這些及類似的名詞都與適當的物理量相關,且僅是加諸於這些量的方便符號而已。除非特別說明,否則,從以下的討論將可明白,須理解,本發明從頭到尾所論及之電腦系統或類似的電子計算裝置的動作及處理,其操作及轉換電腦系統記憶體或暫存器內代表這些物理(電子)量的資料,使其成為在電腦系統之記憶體或暫存器或其它這類資訊儲存、傳送、或顯示裝置內同樣代表物理量的其它資料。
圖1為按照本發明之實施例之例示性的文字到語音系統100。文字到語音系統100將輸入的文字102轉換成模擬自然語音的聲響信號114。輸入的文字102通常包含標點符號、縮寫、首字母縮略字(acronym)、及非字符號。文字正規化單元104將輸入的文字102轉換成包含非縮寫字序列的正規化文字。大部分的標點符號在建議適當的語韻方面很有用處。因此,文字正規化單元104過濾出標點符號做為語韻產生單元106的輸入。在一個實施例中,某些無關的標點符號被濾除。
縮寫及首字母縮略字被轉換成它們的相等字序列,其可能與也可能不與上下文相關。文字正規化單元104也將符號轉換成字序列。例如,文字正規化單元104偵測數字、貨幣量、日期、時間、及電子郵件地址。文字正規化單元104可視句子中符號的位置而將符號轉換成文字。
經正規化的文字被送到發音單元108,其分析每一個字以決定它的語形表示。對英語來說此通常並不困難,但對於文字被長串在一起的語言,例如德文,就必須將字分割成基本字、字首、及字尾。接著,將所得到字轉換成音位序列或它的發音。
發音可視字在句子中的位置或它的上下文而定,例如前後的字。在一個實施例中,發音單元108使用3項資源來施行轉換:字母到發聲規則;統計表示法,其根據語言統計學,將字母序列轉換成最可能的音位序列;以及字典,其為字與發音對。
少了統計表示法仍可施行轉換,但典型上所有3項資源都會被使用。規則可視上下文來區別相同字的不同發音。另一些規則用來根據人類知識來預測未曾見過之字母組合的發音。字典包含無法從規則或統計法來產生語音的例外。規則、統計法、及字典的集合形成發音單元108所需要的資料庫。在一個實施例中,此資料庫很大,特別是高品質的文字到語音轉換。
所得到的音位與提取自文字正規化單元104的標點符號一同被送到語韻產生單元106。語韻產生單元106從句子結構、標點符號、特定的字、及文字之前後的句子來產生語音合成所需的時序及音調資訊。在一例中,音調從某音階開始,並朝向句子的尾端下降。音調的輪廓也可在此平均之軌線的附近改變。
日期、時間、及貨幣為句子之一部分的例子,其被辨識為一特殊的片段。每一個音調都是由為該類型資訊所精心製作的規則集或統計模型來決定。一序列數字中之最後一個數字的音調,通常都比前面的數字為低。
例如日期及電話號碼,節奏或音位的持續時間典型上彼此不同。在一個實施例中,規則集或統計模型係根據組成句子之實際的字及前後句來決定音位的持續時間。這些規則集或統計模型構成語韻產生單元106所需的資料庫。在一個實施例中,供較自然之聲音合成所用的資料庫十分龐大。
聲響信號合成單元110結合來自發音單元108與語韻產生單元106之音調、持續時間、及音位資訊,用來產生模擬自然語音的聲響信號114。按照本發明的實施例,聲響信號114係從智慧快取單元112中被預快取出。智慧快取單元112儲存聲響信號114,直到讀者請求聆聽模擬自然語音的聲響信號114為止。
按照本發明的實施例,伺服器-用戶端系統可以使用各種的智慧快取技術。在一個實施例中,最近播放之經音頻轉換的書可被儲存在伺服器或用戶端。在某些實施例中,新增書可被預轉換成音頻格式。在其它實施例中,在伺服器上準備有書單,其然後可直接串流傳送到用戶端或預下載到用戶端。在各不同的實施例中,用戶端或伺服器可根據書或讀者的某些特徵做智慧猜測,例如主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。在另一實施例中,讀者可把書的播放清單組合在一起,或其它讀者可在伺服器或用戶端上預快取。
圖2為按照本發明之實施例的例示性伺服器-用戶端系統200的圖示。伺服器-用戶端系統200在伺服器機器202上將文字轉換成語音,使用智慧快取技術來準備經轉換的文字以供輸出,在伺服器機器202上儲存經轉換的文字,並將經轉換的文字從伺服器機器202分配到用戶端機器204以供輸出。在一個實施例中,用戶端機器204可以是可攜行的數位式閱讀器,但也可以是可攜式電腦系統。當用戶端機器204被連接到電源時,或當用戶端機器以電池供電運作時,伺服器機器202與用戶端機器204可通信。在一個實施例中,伺服器機器202與用戶端機器204藉由諸如XML、HTTP、TCP/IP等協定而通信。伺服器-用戶端系統200可包括多部伺服器與多個用戶端機器,該等機器透過網際網路或區域網路而相連接。
伺服器202的伺服器處理器206在伺服器程式碼208的指揮下操作。用戶端204的用戶端處理器210在用戶端程式碼212的指揮下操作。伺服器202的伺服器傳輸模組214與用戶端204的用戶端傳輸模組216互相通信。在一個實施例中,伺服器202完成文字到語音系統100(圖1)之聲響信號合成的所有步驟。用戶端204完成文字到語音系統100(圖1)之智慧快取與聲響信號之產生。
伺服器202的發音資料庫218儲存以下用來決定發音之3種資料類型的至少其中之一:字母到發聲規則,其包括以上下文為基礎的規則以及用於未知文字的發音預測;統計模型,其根據語言統計,將字母序列轉換成最可能的音位序列;以及字典,其包含無法從規則或統計法得到語音的例外。伺服器202的語韻資料庫220包含用來根據該字與其上下文來決定音位之持續時間與音調的規則集或統計模型。聲響單元資料庫222儲存次語音、語音、及較大的多語音聲響單元,其被選擇以得到所要的音位。
伺服器202使用發音資料庫218、語韻資料庫220、及聲響單元資料庫222來施行文字正規化、發音、產生語韻、及聲響信號合成。在一個實施例中,該等資料庫可被組合、分隔、或也可使用額外的資料庫。在模擬自然語音的聲響信號被合成之後,該聲響信號被儲存到儲存器224中,例如伺服器202的硬式磁碟機。在一個實施例中,聲響信號可能被壓縮。
因此,伺服器機器202將文字(例如,書)轉換成合成的自然語音。伺服器機器202儲存該經合成的自然語音,並在請求之後,將經合成的自然語音傳送給一或多個用戶端機器204。伺服器機器202可儲存很多的書轉換。
用戶端機器204經由用戶端傳輸模組216接收來自伺服器傳輸模組214的聲響信號。聲響信號被儲存在用戶端機器204的快取記憶體226內。當讀者請求收聽書時,用戶端機器204從快取記憶體226提取聲響信號,並經由語音輸出單元228(例如,喇叭)產生模擬自然語音的聲響信號。在某些實施例中,閱讀器應用程式旁白書的聲響信號。
在一個實施例中,伺服器202可將最近播放之經音頻轉換的書的聲響信號儲存到儲存器224中。在其它實施例中,用戶端204可將最近播放之經音頻轉換的書儲存到快取記憶體226內。在某些實施例中,伺服器202將新增書預轉換成音頻格式。例如,讀者最近購買的書,新發行的書,或可供音頻轉換的新書。
在一個實施例中,伺服器202可具有根據各種標準而被群組在一起之經音頻轉換之書的書單。該些標準例如包括主題、類型、標題、作者、日期、讀者先前閱讀過的書、先前被其它讀者閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組係在用戶端204上包括一或多本書的書單。經音頻轉換的書可被下載到用戶端204,或經音頻轉換的書可直接串流傳送到用戶端204。在各不同的實施例中,伺服器202或用戶端204可根據該些標準做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,用戶端204可預快取被讀者或其它讀者放在一起之書的播放清單。
圖3為按照本發明之實施例的例示性用戶端到用戶端系統300的圖示。用戶端到用戶端系統300在各用戶端機器204之間透過網際網路傳送代表已經過轉換之語音的聲響信號。用戶端機器204,例如經由用戶端傳輸模組216、透過網際網路來發送及接收聲響信號。聲響信號被儲存在用戶端機器204的快取記憶體226內。當讀者請求從其中一台用戶端機器204收聽書時,對應的用戶端機器204從快取記憶體226提取出聲響信號,並經由語音輸出單元228(例如,喇叭)而產生模擬自然語音的聲響信號。
在一個實施例中,用戶端機器204將最近播放之經音頻轉換的書的聲響信號儲存在快取記憶體226內。在某些實施例中,用戶端204具有根據各種標準而被群組在一起之經音頻轉換之書的清單。例如,這些標準可包括主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組係為在用戶端204上包括一或多本書的書單。經音頻轉換的書可透過網際網路而在各用戶端204之間被下載,或經音頻轉換的書可透過網際網路而在各用戶端204之間串流傳送。在各不同的實施例中,用戶端204可根據該些標準而做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,用戶端204可預快取被讀者或其它讀者放在一起之書的播放清單。
圖4為按照本發明另一實施例的例示性用戶端到用戶端系統400的圖示。用戶端到用戶端系統400在各用戶端機器204之間直接傳送代表已經過轉換之語音的聲響信號。例如,各用戶端機器204之間經由用戶端傳輸模組216而直接互相發送及接收聲響信號。例如,用戶端機器可藉由任何習知的技術而直接通信,例如,Wi-Fi、紅外線、USB、火線(FireWire)、SCSI、乙太網路等。聲響信號係儲存在用戶端機器204的快取記憶體226內。當讀者請求從其中一台用戶端機器204收聽書時,對應的用戶端機器204從快取記憶體226提取出聲響信號,並經由語音輸出單元228(例如,喇叭)而產生模擬自然語音的聲響信號。
在一個實施例中,用戶端機器204可將最近播放之經音頻轉換的書的聲響信號儲存在快取記憶體226內。在某些實施例中,用戶端204具有根據各種標準而被群組在一起之經音頻轉換之書的清單。例如,這些標準可包括主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組係為在用戶端204上包括一或多本書的書單。經音頻轉換的書可在各用戶端204之間被直接傳送,或經音頻轉換的書可在各用戶端204之間串流傳送。在各不同的實施例中,用戶端204可根據該些標準而做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,用戶端204可預快取被讀者或其它讀者放在一起之書的播放清單。
圖5為按照本發明之實施例的例示性伺服器-用戶端系統500的圖示。伺服器-用戶端系統500在用戶端機器204上將文字轉換成語音,使用智慧快取技術來準備經轉換的文字以供輸出,在伺服器機器202上儲存經轉換的文字,並將經轉換的文字從伺服器機器202分配到用戶端機器204以供輸出。在一個實施例中,用戶端機器204可以是可攜行的數位式閱讀器,但也可以是可攜式電腦系統。當用戶端機器204被連接到電源時,或當用戶端機器以電池供電運作時,伺服器機器202與用戶端機器204可通信。在一個實施例中,伺服器機器202與用戶端機器204藉由諸如XML、HTTP、TCP/IP等協定而通信。伺服器-用戶端系統500可包括多部伺服器與多個用戶端機器,該等機器透過網際網路或區域網路而相連接。
伺服器202的伺服器處理器206在伺服器程式碼208的指揮下操作。用戶端204的用戶端處理器210在用戶端程式碼212的指揮下操作。伺服器202的伺服器傳輸模組214與用戶端204的用戶端傳輸模組216互相通信。在一個實施例中,用戶端204完成文字到語音系統100(圖1)的所有步驟。伺服器202儲存代表經轉換之書之聲響信號的大型資料庫。
因此,例如,用戶端機器204使用發音資料庫218、語韻資料庫220、及聲響單元資料庫222而將例如書的文字轉換成合成的自然語音。伺服器機器202儲存經合成的自然語音,且在請求之後,將經合成的自然語音傳送給一或多台用戶端機器204。伺服器機器202可在儲存器224中儲存很多書轉換。
用戶端機器204經由用戶端傳輸模組216而將聲響信號傳送給伺服器傳輸模組214,或接收來自伺服器傳輸模組214的聲響信號。聲響信號被儲存在用戶端機器204的快取記憶體226內。當讀者請求收聽書時,用戶端機器204從快取記憶體226提取出聲響信號,並經由語音輸出單元228(例如,喇叭)而產生模擬自然語音的聲響信號。在某些實施例中,閱讀器應用程式旁白書的聲響信號。
在一個實施例中,伺服器202可將最近播放之經音頻轉換的書的聲響信號儲存到儲存器224。在其它實施例中,用戶端204可將最近播放之經音頻轉換的書儲存到快取記憶體226內。在某些實施例中,伺服器202將新增書預轉換成音頻格式。例如,讀者最近購買的書、新發行的書、或可供音頻轉換的新書。
在一個實施例中,伺服器202可具有根據各種標準而被群組在一起之經音頻轉換之書的書單。該些標準例如包括主題、類型、標題、作者、日期、讀者先前閱讀過的書、先前被其它讀者閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組為在用戶端204上包括一或多本書的書單。經音頻轉換的書可被下載到用戶端204,或經音頻轉換的書而可直接串流傳送到用戶端204。在各不同的實施例中,伺服器202或用戶端204可根據該些標準而做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,用戶端204可預快取被讀者或其它讀者放在一起之書的播放清單。
圖6為按照本發明之實施例的例示性用戶端到用戶端系統600的圖示。用戶端到用戶端系統600在各用戶端機器204上將文字轉換成語音,且各用戶端機器之間透過網際網路傳送經過轉換之語音。用戶端機器204使用發音資料庫218、語韻資料庫220、及聲響單元資料庫222將例如書的文字轉換成合成的自然語音。在一個實施例中,各用戶端機器204可合作來轉換書。例如,不同的用戶端機器204可轉換書中不同的部分。
各用戶端機器204經由用戶端傳輸模組216透過網際網路330來發送及接收聲響信號。聲響信號被儲存在用戶端機器204的快取記憶體226內。當讀者請求從其中一台用戶端機器204收聽書時,對應的用戶端機器204從快取記憶體226提取出聲響信號,並經由語音輸出單元228(例如,喇叭)而產生模擬自然語音的聲響信號。
在一個實施例中,各用戶端機器204將最近播放之經音頻轉換的書的聲響信號儲存在快取記憶體226內。在某些實施例中,各用戶端204具有根據各種標準而被群組在一起之經音頻轉換之書的清單。例如,這些標準可包括主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組為在用戶端204上包括一或多本書的書單。經音頻轉換的書可透過網際網路而在各用戶端204之間被下載,或經音頻轉換的書可透過網際網路而在各用戶端204之間串流傳送。在各不同的實施例中,端204可根據該些標準而做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,各用戶端204可預快取由讀者或其它讀者所創建之書的播放清單。
圖7為按照本發明另一實施例之例示性用戶端到用戶端系統700的圖示。用戶端到用戶端系統700在各用戶端機器204上將文字轉換成語音,且在各用戶端機器之間直接傳送經過轉換的語音。例如,各用戶端機器204使用發音資料庫218、語韻資料庫220、及聲響單元資料庫222將例如書的文字轉換成合成的自然語音。在一個實施例中,各用戶端機器204可合作來轉換書。例如,不同的用戶端機器204可轉換書中不同的部分。
各用戶端機器204之間經由用戶端傳輸模組216而直接互相發送及接收聲響信號。例如,用戶端機器可藉由任何習知的技術來直接通信,例如,Wi-Fi、紅外線、USB、火線、SCSI、乙太網路等。聲響信號係儲存在用戶端機器204的快取記憶體226內。當讀者請求從其中一台用戶端機器204收聽書時,對應的用戶端機器204從快取記憶體226提取出聲響信號,並經由語音輸出單元228(例如,喇叭)而產生模擬自然語音的聲響信號。
在一個實施例中,各用戶端機器204可將最近播放之經音頻轉換的書的聲響信號儲存在快取記憶體226內。在某些實施例中,各用戶端204具有根據各種標準而被群組在一起之經音頻轉換之書的清單。例如,這些標準可包括主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。在某些實施例中,該群組係為在各用戶端204上包括一或多本書的書單。經音頻轉換的書可在各用戶端204之間被直接傳送,或經音頻轉換的書可在各用戶端204之間串流傳送。在各不同的實施例中,各用戶端204可根據該些標準而做出關於讀者接著會閱讀哪本書的智慧猜測。在另一些實施例中,用戶端204可預快取由讀者或其它讀者所創建之書的播放清單。
圖8為其內可實施按照本發明之文字到語音系統之通用電腦系統800之例子的方塊圖。在圖8的例中,系統包括經由匯流排806而被耦接至圖形處理單元(GPU)804的主中央處理單元(CPU)802。可使用一或多個CPU及一或多個GPU。
CPU 802與GPU 804兩者皆被耦接至記憶體808。在圖8的例中,記憶體808可以是共享的記憶體,因此,該記憶體儲存CPU 802與GPU 804兩者的指令與資料。或者,其也可以是分別供CPU 802與GPU 804專用的獨立記憶體。在一個實施例中,記憶體808包括按照本發明的文字到語音系統。記憶體808也可包括視訊框緩衝器,供儲存用來驅動所耦接之顯示器810的像素資料。
系統800也包括讀者介面812,在一個實施中,其包括控制螢幕上之游標的裝置。讀者介面可包括鍵盤、滑鼠、搖桿、遊戲控制器、及/或觸控螢幕裝置(觸控板)。
一般言之,系統800包括電腦系統平台的基本組件,其實施按照本發明之實施例的功能。例如,系統800可實施為任何不同型式的電腦系統(例如,伺服器、膝上型電腦、桌上型電腦、筆記型電腦、及遊戲機系統)及家庭娛樂系統(例如,DVD播放器),諸如機上盒或數位電視、或可攜式或手持式電子裝置(例如,行動電話、個人數位助理、手持式遊戲機、或數位式閱讀器)。
圖9描繪按照本發明之實施例之高效率文字到語音轉換之例示性電腦控制法的流程圖900。雖然在流程圖900中所揭示的是特定的步驟,但這些步驟係例示性的。亦即,本發明的各實施例也非常適合施行其它不同的步驟,或流程圖900中所詳述之步驟的變化步驟。
在步驟902,辨識部分文字以供轉換到語音格式用,其中的辨識包括根據與讀者相關之資訊來實施預測。在一個實施例中,該部分文字包括經音頻轉換的書。例如,在圖2中,書被合成為自然語音,且智慧快取技術預期讀者可能請求之後續的書。
在某些實施例中,該資訊包括新增書的辨識,且該部分文字係取自新增的書中。例如,在圖2中,伺服器辨識讀者最近購買的書,新發行的書,或可供音頻轉換的新書。伺服器可將該等書轉換成音頻格式,並將預期讀者請求的書的音頻格式傳送給用戶端。
在各個不同的實施例中,文字包括經音頻轉換的書,且施行預測包括根據經音頻轉換之書的特徵來預期後續的書。例如,在圖2中,預測可根據的標準包括主題、類型、標題、作者、日期、先前閱讀過的書、閱讀人口統計資訊等。此外,該資訊可包括讀者所創建之書的播放清單,及/或由與該讀者之屬性類似的其他讀者所創建之書的播放清單。
在步驟904,在可攜式裝置被連接到電源的同時,對該部分文字實施文字到語音轉換,以產生經轉換的語音。例如,在圖2中,伺服器將書轉換成經合成的自然語音。在用戶端被連接到電源的同時,經轉換的書為被傳送給用戶端的書。
在步驟906,將經轉換的語音儲存到可攜式裝置的記憶體裝置內。例如,在圖2中,聲響信號被儲存在用戶端機器的快取記憶體內。在步驟908,執行閱讀器應用程式,其中,為該部分文字之旁白而接收讀者請求。例如,在圖2中,讀者請求從用戶端機器收聽書。當用戶端機器接收到請求時,用戶端機器上的閱讀器應用程式旁白該經音頻轉換的書。在步驟910,在執行期間,回應讀者請求,從記憶體裝置存取經轉換的語音,並在可攜式裝置上顯現經轉換的語音。例如,在圖2中,從用戶端機器的快取記憶體存取聲響信號。閱讀器應用程式經由語音輸出單元(喇叭)來播放聲響信號。
圖10描繪按照本發明之實施例之文字到語音轉換之例示性電腦控制法的流程圖1000。雖然在流程圖1000中所揭示的是特定的步驟,但這些步驟係例示性的。亦即,本發明的各實施例也非常適合施行其它不同的步驟,或流程圖1000中所詳述之步驟的變化步驟。
在步驟1002,辨識書以供轉換到書的音頻版本,其中,辨識包括根據與該書相關之資訊來實施預測。在一個實施例中,該資訊包括儲存在伺服器上的書單,其中,該書單包括該書的辨識。例如,在圖2中,伺服器儲存書單及經音頻轉換的書。在用戶端機器上之經音頻轉換的書可包括伺服器中的一或多個書單內。在某些實施例中,該資訊包括書之主題、類型、標題、作者、日期。
在步驟1004,在數位式閱讀器被連接到電源之同時,書的音頻版本被存取。在某些實施例中,該存取包括透過網際網路而從伺服器接收串流通信。例如,在圖2中,經音頻轉換的書可透過網際網路而從伺服器串流傳送到用戶端。在某些實施例中,該存取包括透過網際網路而從伺服器下載音頻版本。例如,在圖2中,可透過網際網路而將經音頻轉換的書下載到用戶端。
在各不同的實施例中,該存取包括透過網際網路而從另一數位式閱讀器下載音頻版本。例如,在圖3中的用戶端到用戶端系統透過網際網路而將經音頻轉換的書從用戶端傳送到用戶端。在另一些實施例中,該存取包括從另一數位式閱讀器直接下載音頻版本。例如,在圖4中的用戶端到用戶端系統可直接藉由Wi-Fi、紅外線、USB、火線、SCSI等,將經音頻轉換的書從用戶端傳送給用戶端。
在步驟1006,將音頻版本儲存到數位式閱讀器的記憶體裝置中。例如,在圖2中,聲響信號被儲存到用戶端機器的快取記憶體中。在步驟1008,執行閱讀器應用程式,其中,讀者為旁白而請求該書。例如,在圖2中,讀者從用戶端機器請求收聽書。當用戶端機器接收到請求時,用戶端機器上的閱讀器應用程式旁白該經音頻轉換的書。在步驟1010,當在執行期間,從數位式閱讀器之記憶體裝置中的音頻版本產生聲響信號模擬的自然語音。例如,在圖2中,從用戶端機器的快取記憶體存取聲響信號。閱讀器應用程式經由語音輸出單元(喇叭)播放聲響信號。
以上基於解釋之目的描述,已參考了特定的實施例加以描述。不過,以上例證的討論並無意包羅全部或將本發明限制在與所揭示之完全相同的形式。由於以上所教,可做到很多的修改及變化。為了對本發明之原理及其實際應用做最佳的解釋,各實施例都經過挑選及描述,藉此使其它方面技術之人士能夠對本發明及做了各樣修改之實施例可能適合其特定用途做最佳利用的思量。
100...文字到語音系統
102...輸入的文字
104...文字正規化單元
106...語韻產生單元
108...發音單元
110...聲響信號合成單元
114...聲響信號
112...智慧快取單元
200...伺服器-用戶端系統
202...伺服器機器
204...用戶端機器
206...伺服器處理器
208...伺服器程式碼
210...用戶端處理器
212...用戶端程式碼
214...伺服器傳輸模組
216...用戶端傳輸模組
218...發音資料庫
220...語韻資料庫
222...聲響單元資料庫
224...儲存器
226...快取記憶體
228...語音輸出單元
300...用戶端到用戶端系統
400...用戶端到用戶端系統
500...伺服器-用戶端系統
600...伺服器-用戶端系統
330...網際網路
700...伺服器-用戶端系統
800...通用電腦系統
802...主中央處理單元
806...匯流排
804...圖形處理單元
808...記憶體
810...顯示器
812...使用者介面
熟悉一般技術之人士在閱讀了以下對說明於各不同圖式之各實施例的詳細描述後,將可明瞭本發明之各不同實施例的這些與其它目的和優點。
藉由實例來說明本發明的實施例而非限制,在附圖的各圖中,相同的參考編號指示類似的元件。
圖1係按照本發明之實施例之例示性文字到語音系統的圖式。
圖2係按照本發明之實施例之例示性伺服器到用戶端系統的圖式。
圖3係按照本發明之實施例之例示性用戶端到用戶端系統的圖式。
圖4係按照本發明之實施例之例示性用戶端到用戶端系統的圖式。
圖5係按照本發明之實施例之例示性伺服器到用戶端系統的圖式。
圖6係按照本發明之實施例之例示性用戶端到用戶端系統的圖式。
圖7係按照本發明之實施例之例示性用戶端到用戶端系統的圖式。
圖8係通用電腦系統例的方塊圖,在該電腦系統內實施按照本發明的文字到語音系統。
圖9描繪的流程圖係按照本發明之實施例之文字到語音轉換的例示性方法。
圖10描繪的流程圖係按照本發明之實施例之文字到語音轉換的另一例示性方法。
100...文字到語音系統
102...輸入的文字
104...文字正規化單元
106...語韻產生單元
108...發音單元
110...聲響信號合成單元
114...聲響信號
112...智慧快取單元

Claims (11)

  1. 一種在可攜式裝置上實施文字到語音轉換的方法,該方法包含:至少部分根據至少一第二本書之先前的使用者選擇和新發行的第一本書並且在收聽該第一本書之音頻版本的使用者選擇之前,而該第一本書與該第二本書不同,藉由根據該第一本書的至少一特徵來預期該第一本書,該至少一特徵為該第一本書的新發行,以預測該第一本書而供轉換到語音格式用;回應該預測並且在收聽該第一本書之該音頻版本的使用者選擇之前,對該本書實施文字到語音轉換,以產生經轉換的語音;將該經轉換的語音儲存到該可攜式裝置的記憶體裝置內;執行閱讀器應用程式,其中,接收使用者請求而為該本書做旁白;以及在該執行期間,回應該使用者請求,從該記憶體裝置中存取該經轉換的語音,並在該可攜式裝置上顯現該經轉換的語音。
  2. 如申請專利範圍第1項的方法,其中,該至少一特徵另包含新增書的辨識,且其中,該第一本書係取自該新增書中。
  3. 如申請專利範圍第1項的方法,其中,該至少一特徵另包含書的播放清單。
  4. 如申請專利範圍第3項的方法,其中,該書的播放清單係由使用者所建立的。
  5. 如申請專利範圍第3項的方法,其中,該書的播放清單係由具有與該使用者之屬性類似的屬性之其他使用者所建立的。
  6. 一種在可攜式裝置上實施文字到語音轉換的系統,該系統包含:處理器;顯示器,係耦接至該處理器;輸入裝置,係耦接至該處理器;音頻輸出裝置,係耦接到該處理器;閱讀器,係耦接到該處理器;記憶體,係耦接至該處理器,其中,該記憶體包含指令,而當該等指令被執行時,致使該系統實施進行文字到語音轉換之方法,該方法包含:在播放部分文字之可聽見版本的使用者選擇之前,預測地辨識該部分文字以供轉換到語音格式用,其中,該辨識包含根據與使用者先前閱讀至少一本先前閱讀過的書相關之資訊以及根據係新發行以供存取之該部分文字來實施預測,而該先前閱讀過的書與係新發行以供存取之該部分文字不同;對該部分文字實施文字到語音轉換,以產生經轉換的語音;將該經轉換的語音儲存到該可攜式裝置的記憶體裝置 內;藉由該閱讀器來執行閱讀器應用程式,其中,接收使用者請求而為該部分文字做旁白;以及在該執行期間,回應該使用者請求,從該可攜式裝置的該記憶體裝置中存取該經轉換的語音,並顯現該經轉換的語音於該音頻輸出裝置上。
  7. 如申請專利範圍第6項的系統,其中,該部分文字包含經音頻轉換的書。
  8. 如申請專利範圍第6項的系統,其中,該資訊包含新增書的辨識,且其中,該部分文字係取自該新增書中。
  9. 如申請專利範圍第6項的系統,其中,該文字包含經音頻轉換的書,且該實施預測包含根據該經音頻轉換之書的特徵來預期後續的書。
  10. 如申請專利範圍第6項的系統,其中,該資訊包含由使用者所建立之書的播放清單,其係由外部的使用者所建立並且藉由該輸入裝置來予以輸入。
  11. 如申請專利範圍第6項的系統,其中,包含書之播放清單的該資訊係由具有與該使用者之屬性類似的屬性之其他使用者所建立的。
TW100124607A 2010-09-14 2011-07-12 文字到語音轉換之方法和系統 TWI470620B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/881,979 US8645141B2 (en) 2010-09-14 2010-09-14 Method and system for text to speech conversion

Publications (2)

Publication Number Publication Date
TW201225064A TW201225064A (en) 2012-06-16
TWI470620B true TWI470620B (zh) 2015-01-21

Family

ID=45807562

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100124607A TWI470620B (zh) 2010-09-14 2011-07-12 文字到語音轉換之方法和系統

Country Status (6)

Country Link
US (1) US8645141B2 (zh)
EP (1) EP2601652A4 (zh)
KR (1) KR101426214B1 (zh)
CN (1) CN103098124B (zh)
TW (1) TWI470620B (zh)
WO (1) WO2012036771A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9240180B2 (en) 2011-12-01 2016-01-19 At&T Intellectual Property I, L.P. System and method for low-latency web-based text-to-speech without plugins
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
CN104978121A (zh) * 2015-04-30 2015-10-14 努比亚技术有限公司 一种桌面控制应用软件的方法及设备
US10489110B2 (en) * 2016-11-22 2019-11-26 Microsoft Technology Licensing, Llc Implicit narration for aural user interface
US11347733B2 (en) * 2019-08-08 2022-05-31 Salesforce.Com, Inc. System and method for transforming unstructured numerical information into a structured format

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150456A1 (en) * 2005-12-27 2007-06-28 Hon Hai Precision Industry Co., Ltd. Search system and method
US20070276667A1 (en) * 2003-06-19 2007-11-29 Atkin Steven E System and Method for Configuring Voice Readers Using Semantic Analysis
US20080155129A1 (en) * 2003-10-01 2008-06-26 Musicgremlin, Inc. Remotely configured media device
US20100082349A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for selective text to speech synthesis

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US6600814B1 (en) * 1999-09-27 2003-07-29 Unisys Corporation Method, apparatus, and computer program product for reducing the load on a text-to-speech converter in a messaging system capable of text-to-speech conversion of e-mail documents
US6886036B1 (en) 1999-11-02 2005-04-26 Nokia Corporation System and method for enhanced data access efficiency using an electronic book over data networks
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
US7401020B2 (en) 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US20040133908A1 (en) * 2003-01-03 2004-07-08 Broadq, Llc Digital media system and method therefor
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
CN101088085A (zh) 2004-12-22 2007-12-12 皇家飞利浦电子股份有限公司 便携式音频播放设备及其操作方法
US7490775B2 (en) * 2004-12-30 2009-02-17 Aol Llc, A Deleware Limited Liability Company Intelligent identification of multimedia content for synchronization
US20080189099A1 (en) * 2005-01-12 2008-08-07 Howard Friedman Customizable Delivery of Audio Information
US7457915B2 (en) * 2005-04-07 2008-11-25 Microsoft Corporation Intelligent media caching based on device state
US8065157B2 (en) * 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US20070100631A1 (en) * 2005-11-03 2007-05-03 Bodin William K Producing an audio appointment book
US7653761B2 (en) * 2006-03-15 2010-01-26 Microsoft Corporation Automatic delivery of personalized content to a portable media player with feedback
WO2008072045A2 (en) * 2006-12-11 2008-06-19 Hari Prasad Sampath A method and system for personalized content delivery for wireless devices
US20080306909A1 (en) * 2007-06-08 2008-12-11 Microsoft Corporation Intelligent download of media files to portable device
KR20090003533A (ko) * 2007-06-15 2009-01-12 엘지전자 주식회사 사용자 손수 저작물의 생성과 운용을 위한 방법 및 시스템
KR101445869B1 (ko) * 2007-07-11 2014-09-29 엘지전자 주식회사 미디어 인터페이스
CN101354840B (zh) * 2008-09-08 2011-09-28 众智瑞德科技(北京)有限公司 一种对电子书进行语音阅读控制的方法及装置
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8239201B2 (en) 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US20100088746A1 (en) 2008-10-08 2010-04-08 Sony Corporation Secure ebook techniques
US9104670B2 (en) * 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070276667A1 (en) * 2003-06-19 2007-11-29 Atkin Steven E System and Method for Configuring Voice Readers Using Semantic Analysis
US20080155129A1 (en) * 2003-10-01 2008-06-26 Musicgremlin, Inc. Remotely configured media device
US20070150456A1 (en) * 2005-12-27 2007-06-28 Hon Hai Precision Industry Co., Ltd. Search system and method
US20100082349A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for selective text to speech synthesis

Also Published As

Publication number Publication date
EP2601652A4 (en) 2014-07-23
TW201225064A (en) 2012-06-16
CN103098124B (zh) 2016-06-01
CN103098124A (zh) 2013-05-08
US20120065979A1 (en) 2012-03-15
KR20130059408A (ko) 2013-06-05
US8645141B2 (en) 2014-02-04
WO2012036771A1 (en) 2012-03-22
KR101426214B1 (ko) 2014-08-01
EP2601652A1 (en) 2013-06-12

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
TWI470620B (zh) 文字到語音轉換之方法和系統
CN110797006B (zh) 端到端的语音合成方法、装置及存储介质
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
JP2003517158A (ja) 分散型リアルタイム音声認識システム
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
CN101504643A (zh) 声音处理系统、声音处理程序以及声音处理方法
WO2020046387A1 (en) Dynamic adjustment of story time special effects based on contextual data
WO2010059191A1 (en) Stochastic phoneme and accent generation using accent class
JP2022133392A (ja) 音声合成方法、装置、電子機器及び記憶媒体
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
CN113870833A (zh) 语音合成相关系统、方法、装置及设备
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
Păiş et al. Human-machine interaction speech corpus from the robin project
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
CN109903594A (zh) 口语练习辅助方法、装置、设备及存储介质
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
CN112951204B (zh) 语音合成方法和装置
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
JP6993034B1 (ja) コンテンツ再生方法、及びコンテンツ再生システム
CN110942775B (zh) 数据处理方法、装置、电子设备及存储介质
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム