TW201034002A - Method and system for speech synthesis - Google Patents
Method and system for speech synthesis Download PDFInfo
- Publication number
- TW201034002A TW201034002A TW98106707A TW98106707A TW201034002A TW 201034002 A TW201034002 A TW 201034002A TW 98106707 A TW98106707 A TW 98106707A TW 98106707 A TW98106707 A TW 98106707A TW 201034002 A TW201034002 A TW 201034002A
- Authority
- TW
- Taiwan
- Prior art keywords
- client
- corpus
- sound
- unit
- sound unit
- Prior art date
Links
Landscapes
- Telephonic Communication Services (AREA)
Description
201034002 六、發明說明: 【發明所屬之技術領域】 本發明概略關於一種文字轉語音(TTS,“Text to speech”)技術,特別是一種在一客戶端處針對一文字性内 容執行語音合成之方法及系統。 【先前技術】 一種文字棒語音(TTS)系統係為使人透過語音存取 所需要資訊的一種廣為使用的技術。一種典型的應用係 要將一可由一使用者經由網際網路存取的一文字性内 容,改變成位在一客戶端的語音,該客戶端像是桌上型 電腦、膝上型電腦或一掌上型裝置,例如行動電話、個 人數位助理或類似者。因此,該使用者可以不需要讀取 該文字而取得資訊。對於這種應用,該使用者需要載入 一 TTS系統到他的客戶端中。現今有愈來愈多的使用者 想要經由網際網路下載一 TTS系統,而非使用記錄在一 儲存媒體上的一複本。 目前,大多數的TTS系統基於聲音單元的選擇及串 連而執行語音合成。基於多個單元的選擇及串連之語音 合成需要大量的聲音單元,藉以得到令人滿意的語音。 例如,一 IBM中文TTS系統使用25,000個句子做為一語 料庫來合成良好品質的語音,其約為4GB。當然,這些 聲音單元可利用一些語音編碼演算法被壓縮成200MB, 而不會影響該語音品質太多。但是,對於透過網路下載 語音資料的使用者而言,一次下載200MB的語音資料是 非常大的下載量。使用者必須等待相當長的時間才能開 201034002 始使用該語音資料。
基於上述的問題’因此提出一種解決方案如下:儘可 能地縮小一語料庫來取得一較小的TTS系統(例如 20MB )用於語音合成’以促進成功地合成多種文字性内 谷’並確保一可接受的語音品質。在此例中,使用者僅 需要等待非常短的時間(例如下載20MB資料的時間)來 開始使用TTS系統。因為該下載的TTS系統之語料庫有 限’在使用TTS系統期間由使用者取得的語音合成品質 將會很差。從使用者之使用心理來看,這種不^的=音 合成品質在剛開始使用該系統的短期内可能被接受但 在長期使用之後將無法被接受。 歐洲專利申請案W006128480A1,其揭示一 通訊網路上提供使用者終端上語音合成的方法與系統。 在此專利中’ sf音合成的基本資料庫先被下載到一使用 者終端上,且在該TTS飼服器側上根據可能的主題事先 產生多個增值語料庫資料庫,例如經濟、運動、漫畫等 等。當一使用者利用此ττς会 々W用此11 b系統存取一文字性内容時, 該系統擷取該文字性内容的主題,根據該主題選擇一相 對應增值語料座誉制_ -, m . ή資科庫並加入該增值語料庫資料庫到 =立 端上之基本資料庫來進行該文字性内容之 語成。相較於先前的解 J秤决方案,此解決方案可使得 使用者快速地下載一較4、的 ^ m .. m J的TTS系統,並可很快地開始 使用。利用此解決方索,掛括$ w 士 餅以贫纽立人1 增值資料庫可一點一點地增加, 所以該音合成品質可拉链认# ¥ 意程度。 持續地改善,並增進使用者的滿 基於此解決方案 内谷(主題)(例如經濟 每個客戶端需要指定該等既有的 運動、漫畫等等)之一到要被合成 201034002 文字,選擇存在於該TTS伺服器側上的一 動貝等'選擇-增值語料庫資料庫’例如濟:運 曼畫等等)’然後下載該增值語料庫資料庫。 決方Γ中洲有專Γ…_28480Αι所揭示的技術解 Η Λ / 制。此係因為在實際的語音合成期 二要二成類似的内容(主題)之内容可能需要一完全不同 關於即音節)組。例如,以運動為主題的文字可以 在簦立i籃球藉此這兩個實際内容在語音合成期間 在睪3單中有很大的不同。因此,在指定一特定内容(主 到該文字來根據該特定内容下載—預先產生的特定語 之&種解決方案對於基於該選擇及串連的TTS系統 而言並不準確。因此’湘此解決方案根據—主題來下 f一語料庫資料庫將不會使得一客戶端有效地改善該語 曰0成βο質,且使用者仍可能不滿意該合成品質的這種 改善。 因此,需要一種TTS系統式之文字轉語音解決方案 及方法,其不僅可支援一使用者在短時間内下載及使用 Φ 一文字轉語音系統,亦可有效地由使用者進一步使用該 系統來改善該語音合成品質,藉此可增進該系統之文字 轉語音之服務效能。 【發明内容】 為了克服先前技術的限制,本發明係要提供一種在 一客戶端執行語音合成成為一文字内容之方法與系統, 其不僅可支援一使用者在短時間内下載及使用一文字轉 語音系統’亦可適應性地當該使用者進一步使用該系統 時改善譚語音合成品質。因此,該系統之文字轉語音服 201034002 務效能可以有效地增進。 :據本發明一種態樣’其提供一種用於在_戶 m文字性内容執行語音合成的方法。該方法包含端 :客戶端處—語料庫中的一目前聲音單 否對該文字性内容執行語音合成;回應於判斷是 -組,分析該文字性内容並產生具有相對應内 目標單元的列表,基 T愿円今将徵之一 v 4® '聲曰單元組st〇u丨根據該等内容 ❹母個目標單元的多個聲音單元候選者,該;: 单疋組st。…會比在該客戶處 聲曰 單元組S 尸端處該語枓庫中的該目前聲音 適…二内:’且根據該等多個單元候選者決定 迥口仄该文字性内容之語音合 等決定的聲音單S更新在 並基於該 前聲音單MS_ent。 端處該語料庫中的該目 端處2本發明另—種態樣’其提供-種用於在一客戶 含:語音合成構件,其二Γ:成的系統。該系統包 .…目前::單元:S成基:f該客戶端處-語料庫 ❹音合成•獻立e -、、 eurrent針對該文字性内容執行語 要更新在=π決定構件’其組態$回應力判斷是否 行以下的=戶端處該語料庫中的該目前聲音單元而執 容特徵之目:ί析的該二字性内容並產生一具有相對應内 該等内容特徵選擇每個目椤單組St—根據 者,今麻立抵- 標單兀的多個聲音單元候選 前聲;單:疋組St〇ta,比在該客卢端處語料庫中的該目 者“、奋:’且SC—要豐富;且根據該等多個單元候選 ΐΐ::Γ文字性内容之語音合成的聲音單元,·及 、組態成基於該等決定的聲音單元更新在該 201034002 客戶端處語料庫中目前聲音單元組Scu_nt。 本發明的技術解決方案可以支援該使用者在短時間 内下載並使用一文字轉語音系統。因為本發明直接選擇 及下載對於在該客戶端處歷史文字性内容之語音合成最 為重要的聲音單元’其使得關於該文字性内容之語料庫 更為準確地在該客戶端處被下载及更新。當該使用者進 二步使用該系統時,根據本發明之客戶端可以在語音合 成〇〇質K取得一有的故¥ „ 令双的改善’所以可以增進該文字轉語 音服務效能。
阁本發明的其匕特徵及好處將可由以下配合該等附 圖面之本發明的具體實施例之詳細說明而更加瞭解。 【實施方式】 方索:使用者不能夠利用該等既有的技術解決 行的文字轉語音取得語音合成的 案動態地更新由-客戶該等既有的技術解決方 由使用根據主題之增值語料庫資料庫(例如藉 音合成的增值語料庫資料庫並不人::類:内容來選擇語 料庫成為目前被合成之内容。《’其無法調整-語 本發明的發明人已經注 處執行語音合成,特別是在2一使用者正在-客戶端 為網路内容文字,其在一 戶端處執行語音合成成 前合成的文字性内容之間成的文2性内容與一先 此,本發明的原理為:在開始有較高的關連性。因 語料庫到一客戶端當中,,一使用者下載一較小的 ,其可確保一可接受的語音品 9 201034002 1得::該客戶端的目前語料庫來執行語音合成,藉以 使侍該使用者儘快地使用一 TTS系統來針對一網路文 性內容執行語音合成·终後,+兮 ’
έ站吐 百口珉,然谩田该使用者正在使用該TTS ;字性内:經執行語音合成的-文字性内容,即-歷史 談冇服器二之聲音單元即基於—語料庫來選擇(例如在 =服m㈣的—龍語料庫,㈣w s分所得到的一攻注粗 _ 精 目料庫會㈣客戶端處的 目別》»科庫要豐富,其中通常可由 的 單元的該語音合成達到哕爲步令全ω ^等選擇的聲音 合成品質;接著,今客内Κ較佳:的語音 擇的眷立留-處前語料庫即基於該選 ::聲…而更新。例如,決定未包括在該客戶端之 到該客卢…由 %擇的聲“疋,且該組合被下載 括對於丄且該客戶端的目前語料庫被更新來包 =端=語料庫即被用於一後續文字性内容3 已:執mi此程序’該客戶端的目前語料庫根據 ❹
St: 成的該文字性内容(歷史文字性内容】 所以該語音合成品質可持續地改善,且可); 進使用者的滿意程度。 夂且r增 以下將參照該等附屬圖面對於本發明之且體實施 進行詳細的說明。 货Λι八體實施例 首先參照第1圖。嗜阁团如β 實施例中於-客戶端處d示根據本發明-具難 功能的-使用者裝置,t如客λ端,其可為需要使用咖 行動電話、個人數位助理等5!電腦、膝上型電腦、 其可為能夠提供該客戶端τ 11代表tts伺服器, 磲TTS服務之任何遠端或近蠕伺 10 201034002 艮:’ 12代表一内容伺服器’其可為能夠提供該客戶端 所有種類的網路㈣資訊之任何遠端或近❹服器· Μ ::-連接個別裝置之通訊網路,其可為一區域網路、 廣域網路、企業内網路、網際網路等等。在帛 的TTS系統中,多個客戶端(藉由範例方式僅例示_ = 戶端,即客戶端1〇) ’其透過通訊網路13連接到内容伺 服器12來取得網路文字性内容。該等多個客戶端可以直 接(如第1圖所示)或透過一通訊網路(未示出)連接至tts ❹ ❿ 伺服器11,藉以取得服務,例如下載該TTs系統。 如第1圖所示,客戶端10包含:收發器1〇1、語音合 成構件102、語料庫管理1〇3及一語料庫1〇4。客戶端 透過收發H HH與其它網路單元⑷服器)通訊。語 構件1G2基於在—目前語料庫中聲音單元的選擇及 轉換:文字性内容到語音,並經由一剩π八輸出該語音。 语料庫管理構件103係用於維護語料庫1〇4之 案,並管理在語料4 104中聲音單元的取得及更新。扭 ::1〇4具有一組儲存用於語音合成之客戶端的本地‘ 音單元。 TTS伺服器U包含:收發器lu、聲音單元決定構 m、語料庫管理構件113及一語料庫U[TTS伺服器 11透過收發胃111與其它網路單元(客戶端)進行通訊。 聲音單元決定構件112係用於決定一聲音單元組 於更新一客戶端的本地語料庫。語料庫管理構# 113、 於在該伺服器側上維護語㈣114的一索引播宰,並 理語料庫m中聲音單元的取得。語料庫114儲存一組 該祠服器的聲音單元。該伺服器提供該聲音單元組的— 次組合或通用組合到該客戶端做為該客戶端的本地 11 201034002
的語料庫。因此’位於該伺服器側的語料庫114通常比 該客戶端本地儲存的語料庫104要具有更多的聲音資 源。根據本發明一具體實施例,聲音單元決定構件i 12 包含文字分析構件1121與單元選擇構件U22 «3在一種實 施中,文字分析構件丨121係用於分析一文字性内容並 產生一具一相對應内容特徵之目標單元的列表。單元選 擇構件1122基於在該TTS伺服器侧上的語料庫113決定 適合於該文字性内容之目標單元的語音合成之聲音單元 候選者,所以語音合成的一聲音單元可自該等聲音單元 候選者中選出》TTS伺服器11基於該等選擇的聲音單元 更新該客戶端的目前語料庫。 以下將對於第1圖所示的架構中每個網路元件之作 業程序進行詳細的解釋。| 了例示起見,對於以下的符 號具有定義如下: 1. seurrent: —語音合成的聲音單元組,其係本地性儲 存在該客戶端處,即在該客戶端處一本地語料庫中一 音單元組。 2· S〇:-聲音單元組’其為該客戶端在—初始狀態 下自該TTS伺服器下載者。在一較佳具體實施例中, 可為-少量的聲音單元組,其為實施所有種類的文字性 到語音合成,並確保-使用者可接收的語音合成品質所 需要者。當S。被下載到該客戶端的語料庫中,s—4 於S〇。 3. Stotal:儲存在TTS伺服器上一語料庫中之一聲音 單元組。St〇tal通常比於該客戶端處本地儲存的^ 具有豐富的聲音資源。也就是說,該客戶端的語料庫為 tts飼服器之語料庫的次組合,即s_ 3 12 201034002 出:是雖然在TTS飼服器上該語料庫中的聲 戶:處W其要瞭解到、1係相對於在該客 維護的整li次組合Scurrent。St〇tal可為由TTS伺服器 之二一個語料庫,或由TTS伺服器維護的整個語料庫 ·所得^的部份(例如根據某個規則等等區分整個語料庫 ·. Π多:::定部份),只要其比該客戶端的語料庫要具 發明之例資Γ本技藝專業人士可瞭解到在閱讀本 整個語料庫之二聲:ί佳:是為該TTS伺服器所維護的 Ο 的级立人聲0單兀組。依此方式,於該客戶端處 π a σ成品質可更為有效地改善。 卢通H·自該聲音單元決定構件所決定要下载到該客 端中藉以豐富該客戶端的語料庫之聲音單元組。 操二將藉由實際範例例示如第1圖所示之該系統的 在一初始狀態下,客戶端1〇的使用者開啟該tts服 務功能,且客戶端10自TTS伺服器u下载s〇做為 sgcurrent,並將其儲存到本地語料庫1〇4中用於語音合成。 β 客戶端10經由通訊網路13自内容伺服器12取得一 文字性内容C!。而客戶端1〇的收發器1〇1傳送該接收到 的文字性内容〇到語音合成構件1〇2。然後,語音合成 構件102透過語料庫管理構件1〇3取得語料庫1〇4中 scurrent(此時Scurrent=s〇)的聲音單元來合成語音並透過 一 t八輪出該語音。語音合成構件1G2可包含基於爪 技術之語音合成所需要的個別功能性模組,其中包括例 如文字分析構件及單元選擇構#。這些功能性模組之操 作原理及操作程序為人所熟知,並可以用於串連的文字 轉語音系統之任何方法來實施。本發明的說明僅著重在 13 201034002 關於本發明之語音合成構件的功能及效果,並省略其詳 細實施。與先前技藝不同的是’根據本發明之具體實施 例的技術解決方案甲,當該使用者基於語料庫104的目 前聲音單元組心^^…取得文字性内容ci的合成之語音 時’客戶端10經由收發器1〇1傳送文字性内容C1到 飼服器11,藉以可調整式地更新客戶端1〇上的本地語料 庫 1 04。 在TTS伺服器11側上,收發器u丨自客戶端1 〇接 ❿ 收文子性内容C1’並將其傳送到聲音單元決定構件I!〗。 以操作原理與操作程序的角度類似於一傳統TTS系統之 語音合成構件’雖然聲音單元決定構件112並不執行實 際的語音合成,但透過單元選擇決定聲音單元候選者, 藉以更新相對應的客戶端處的語料庫。在如第丨圓所示 的具體實施例中,聲音單元決定構件112包含文字分析 構件1121與單元選擇構件1122〇文字分析構件“Η分 析該文字性内容C1 ’並產生一具有相對應的内容特徵之 目標單元的列表。單元選擇構件1122基於語料庫ιΐ4中 ❿的Swal選擇適合於文字性内容C1之目標單元的語音合 =多個聲音單元候選者1單元選擇可基於目標單元 =内容特徵(例如目前單元)、在詩體單字(字頭、字 广中的位置’在句子中的位置、左音節、 來 m聲音單元決定構件112基〜其比客戶端 餘、有更多的聲音資源)選擇文字性内容C1之 义選聲音單元,以藉由使用該 2成為文字性内容C1,其通常要比在該;;=二 種^之效能要具有一更 I端處的& 定構件112基於來自嗲單开二曰°成°°質。聲音單元決 來自料70選擇的結果決定要用於更新 14 201034002 在客戶端】〇上的本地語料庫之一聲音 施中,眷立—早凡組。在一種實 Μ聲《 h決定構件U2直接決 ’ 元候選者做為用於更新客户端有聲音早 g, * 尸觸V上本地語料庫之一簦立 早兀組。聲音單元決定構件亦可使用聲印 • #化評等結果來決定用於更新在客戶端10上太:Γ的最 1-聲音單元組。例如,每個目伊單端乂0ί本地語料庫 -候選者可全部一起坪蓉2 單70的多個聲音單元 起评等,或個別地評等⑼如根 早r已經被選擇的數目),藉以決定用於更新的: 聲曰單70組。本技藝專業人士要瞭解到雖裨聲音單 •定構件m執行在TTS系統中之該單元=;早= 非要做為實際語音合成。因此, 爽竇# Λ 語料庫索引標案(圖中未示出) 而不舍括該語料庫的所有聲音單元之性f索引, 形。會造成儲存在該語料庫中聲音單元之實際音訊波 =下來’聲音單元決定構件112通知該決定的聲音 單70 ^之語料庫管理構件η〗。語料庫管理構件I"自 參TTS词服器u上的語料庫114取得相對應聲音單元(音訊 波,),藉以更新在客戶端10上的本地語料庫10心較佳 地疋’ #料庫管理構件113僅取得屬於該決定的聲音單 疋組且未包括在客戶端10上的Scurrent中之一組聲音單 π ’即SA(在-種實際實施中,該單元組s△可藉由查詢 在_s伺服器u上維護的該客戶端語料庫之一組態檔案 (未不出)所決定)°TTS伺服器11經由收發器111傳送SA 到客户4 10進行語料庫更新。TTS祠服器1〇可更新由 其對於客戶端10所維護的該組態檔案,藉以記錄更新的 語料庫104之組態在客戶端1〇上。 15 201034002 客戶端10之收發器101接收S△,並將其傳送到客戶 端10處的本地語料庫管理構件103。然後,語料庫管理 構件103加入到語料庫1 〇4,藉以更新語料庫1 〇4, 以使知Scurrent = S〇 + S△,並進一步更新語料庫丨〇4的索 引檔案。 當客戶端10透過通訊網路13自内容伺服器12取得 一新的文字性内容C2(未示出)時,語音合成將基於語料 庫104中更新的Scurrent,即s〇 + SA來實施。因為通常在 目前合成的文字性内容與先前合成的文字性内容之間有 較高的關連性,基於對於C1的單元選擇所擴充的語料庫 對於C2執行的語音合成通常可有效地增近該語音合成品 質。類似地,C2亦被傳送到TTS伺服器u做為一歷史 文字性内容來決定,以進一步更新該客戶端的本地語 料庫104。此適應性更新客戶端1〇之語料庫ι〇4的程序 在當該使用者持續地使用該客戶端TTS系統時以循環方 式實施。最後’在TTS祠服器n上的整個語料庫被下載 到客戶端10中。依此方式’語音合成的歷史文字性内容 漸漸地增補到該客戶端之語料庫的聲音單元組中,藉以 確保在更短的時間内可以有效地改善在該客戶端處的笋 音合成品質。當然’終止該可適應性更新程序的 ^ 以人工地設定,藉以停止更新該客戶端的語料庫。 根據第1 ®所示的該具體實施例,基於在 處歷史文字性内容來決定要被更新之聲音單元的 在該TTS飼服器側處實施。在此具體實施例中、 服器以中央化的方式管理在每個客戶端上的語料 r 新,因A需要執行決定對於每個客戶端所要 單元的作業。顯㈣TTS伺服器將要承受巨量的運算: 16 201034002 在該TTS㈣器側處的操作成本。在本發明另 二:實施例中,決定要對一客戶端更新之聲音單元的 作業亦可用-分散式方式在每個客戶端上本地性地 施。以下將參照第2圖提供此具體實施例之說明。 .第2圖為根據本發明另一具體實施例中於一客 =對^字性内容執行語音合成之系統。參考編號2〇 =表-客戶端’其可為需要錢阳㈣的—使用 置,例如桌上型電腦、膝上型電腦、行動電話個人數
:::等等’ 21代表一 TTS伺服器,其可為能夠提供該 ,戶端TTS服務之任何遠端或近端伺服器;22代表 服器’其可為能夠提供該客戶端所有種類的網路内 t資訊之任何遠端或近端伺服器;23代表—連接個別裝 之通訊網路,其可為一區域網路、廣域網路、企業内 :路、網際網路等等。類似於第i圖㈣TTS系統, 第2圖所不的TTS系統中’多個客戶端(藉由範例方式
,例示-個客戶端,即客戶冑2〇)’其透過通訊網路U 連接到内容祠服器12來取得網路文字性内容。該等多個 客戶端可以直接(如第2圖所示)或透過一通訊網路(未示 出)連接至TTS伺服器21,藉以取得服務,例如下載該 TTS系統。 如第2圖所示,客戶端2〇包含:收發器2〇1、語音合 j構件202、語料庫管理2〇3、語料庫2〇4及(特別是)聲 音單元決定構件205。利用類似於第1圖所示之具體實施 例中的tts伺服器10之聲音單元決定構件112者之構造 與功能,聲音單元決定構件2〇5可以包含文字分析構件 05 1與單元選擇構件2052。TTS伺服器21包含收發器 211、語料庫管理構件213與語料庫214。 17 201034002 以下將提供第2圖所示之架構的每個網路元件之操 作程序的詳細說明。為了例示的目的,該等符號Scurrent,S〇, Stotal及S△係參照前述定義來介紹。 現在將藉由實際範例例示如第2圖所示之該系統的 操作程序。 在一初始狀態下,客戶端2〇的使用者開啟該TTS服 務功能,且客戶端20自TTS伺服器u下載%做為 sgcurrent,並將其儲存到本地語料庫2〇4中用於語音合成。
…客戶端20經由通訊網路23自内容伺服器22取得一 文子性内容C卜而客戶端20的收發器2〇1傳送該接收到 的文字性内容ci到語音合成構件202。然後,語音合成 構件202透過語料庫管理構件2〇3取得語料庫2〇4中
Scurrent(此時Seurrent=SQ)的聲音單元來合成語音並透過 喇叭輸出該語音。語音合成構# 2〇2之操作原理及操 =序為人所熟知,並可以用於串聯的文字轉語音系統 之任何方法來實施。 其在當該使 current取得文字 與參照第1圖所述之具體實施例不同 於語料庫204中目前聲音單元組Sc—… t C1之合成的語音時,客戶端2〇之聲音單元決突 ^件205進—步基於文字性内容^決u於更新客戶对 2〇上語料庫204之一聲音單元組。 以操作原理與操作程序的肖度類似於—傳統爪% 統:語音合成構件,然而聲音單元決定料2〇5並不彰 :實:语音合成,而是經由單元選擇決定聲音單元候遥 元沐Ϊ以更新在-相對應客戶端上該語料庫。在聲音身 :決2件205中,文字分析構件則分析文字性内笔 幻’並產生一具有相對應内容特徵之目標單元 18 201034002 早兀選擇構件2052基於TTS飼服 S—選擇適合於文字性内容〇 亡“斗庫214中 之多個聲音單元候選者。此處必須;語音合成 由川飼服器21取得其語料庫2 _的疋二端^可 ,&括U所有聲音單元的性”引“丨檔案,其可 決定構件205可執行基於、… 早凡 S-中聲音單元之實際音訊波形。聲音== 基於來自該單元選擇的二構件205 •罝分法-接I 聲曰單"°組。在—種實施中,聲音 單/0決疋構件205直接決定該 為用於更新客戶端"擎曰單疋候選者做 端0上本地語料庫之一聲音單元纟ae| 音單元決定構件205亦可使 :曰單70組。聲 果來決定用於争齡产分的最佳化評等結 果來決疋用於更新在客戶# 2〇上本地語 …例如,每個目標單元的多個聲音單元候選 部一起評等,或個別地評等(例如根據每個候選聲音單元 已經被選擇的數目),藉以決定用於更新的一聲音單元单二 抑一接下來聲日單元決定構件2G5通知該決定的聲音 參單元組之語料庫管理構件203。語料庫管理構件2〇3取 屬於該決一定的聲音單元組但未包括在客戶端20上的 Scurrent之一組聲音單元,即δΔ。語料庫管理構件2〇3藉 由查詢該客戶端的語料庫之索引檔案(Scurrent的索引檔案) 來決定S△的索引檔案。然後,客戶端2〇經由收發器 傳送S△的索引槽案到tts伺服器21。 在tts飼服器21側,收發器211自客戶端2〇接收 對應於Sa的索引檔案,並將其傳送到語料庫管理構件 213。然後,語料庫管理構件213自語料庫214(^。^丨)取 得S△’藉以取得S△中聲音單元的音訊波形。藉由收發器 19 201034002 211得到的SA被傳送到客戶端2〇。 於客戶端20側,收發器21〇傳送該接收的s△到語 料庫管理構件203。且語料庫管理構件2〇3加入s△到語 料庫204,藉以更新語料庫2〇4來使得= % +心, 並進一步更新正在被維護的語料庫2〇4之索引檔案。 當客戶端20透過通訊網路23自内容伺服器22取得 一新的文字性内容C2(未示出)時,語音合成將基於語料 庫204中更新的scurrent(即S〇 + d來實施。因為通常在 目則a成的文字性内容與先前合成的文字性内容之間有 較高的關連性,基於對於C1的單元選擇所擴充的語料庫 對於C2執行的語音合成通常可有效地增近該語音合成品 質。類似地,客戶端20之聲音單元決定構件2〇5基於做 為歷史文字性内容之C2決定%來進一步更新該客戶端 的本地語料庫204。客戶端20自TTS伺服器21下载
並再一次更新語料庫204用於一後續新的文字性内容之 語音合成。此可適應性更新客戶端2〇上的語料庫2〇4之 程序係當該使用者使用該客戶端TTS系統時以循環方式 實施。最後,在TTS伺服器21上的整個語料庫被下載^ 客戶端20中。依此方式,語音合成的歷史文字性内容逐 漸地增補到該客戶端之語料庫的聲音單元組中,藉以確 保在更短的時間内可以有效地改善在該客戶端處的語立 合成品質。當然’終止該可適應性更新㈣的條件^ 人工地設定’藉以停止更新該客戶端的語料庫。 第3圖顯示根據本發明一具體實施例中於—客戶 處針對一文字性内容執行語音合成之方法的流程圓。 為了例示的目的,該等符號s〇, &。…及 係參照前述說明來引用。 Λ 20 201034002 使用者開啟該TTS服務功能,因 在步驟S301中, 此開始該流程。 在步驟S302中,該基本語料庫被下載來使得 Scurrent = s0。此步驟可在當例如一客戶端正在初始化一 ===來執订。該客戶端自一 TTS伺服器下載該預 先疋義的基本語料庫so,且使用so做為該客戶端語料庫 scurrent來進行語音合成。此使得該使用者使用該TTS 統,而不需要等待很久。 、 ❿ ❹ 戚可i3s303中’接收到一新的文字性内容。該客戶 "透過一通訊網路自一内容伺服器揍收 容之所有種類的資訊。 又子性内 在步驟S304中,基於Scurrent針對該文字性 語音合成。該文字性内容經由在目前語料庫中的 π Seurrent之選擇及串連被轉換到語音,且該語音 喇叭輪出》 ’ 2驟S305中’其判斷是否要更新該客戶端語料 庫。對於該判斷可利用多種條件。 代表:ί,ί 一典型的狀況下,如果S—= s_,此 q客戶端#料庫已經取得所有可使用的聲音單元, 以其決定該客戶端語料庫並不需要被更新。 範例中,可經由預設的條件(例如預設的參 Ϊ判合成品f等等)或甚至經由該使用者的指示
系统要更㈣客戶端語料庫。由該客戶端TTS 糸統所執行的語音合成品皙肱 庫更新解決方宏沾、f將在執订根據本發明之語料 新解決方案的初始階段中明顯地增加且這種扭立 二成品f的增加將在稍後的階段中減慢或甚至停止。二 時’如果該使用者認為該語音合成品質已經滿足他 21 201034002 望,則該客戶端語料庫並不需要被更新。依此方式,在 該客戶端處及/或在TTS伺服器侧的運算資源可以被節 省。 根據不同的具體實施例,在步驟S305中的判斷可以 • 實施在TTS伺服器側處或在該客戶端當地。 如果該判斷的結果係要更新該客戶端語料庫該流 程進ρ到步驟S306。如果該判斷的結果係不要更新該客 戶端語料庫,該流程進行到步驟S308。 • 在步驟S306中,語音合成的一聲音單元組基於stotal 對該文子性内容來決定。根據不同的具體實施例,步 驟S306可實施在TTS伺服器側(如第1圖所示的具體實 施例)或在該客戶端處(如第2圖所示的具體實施例)。 在步驟S307中,該客戶端的目前語料庫係基於所決 的聲音單7L來更新。例如,在一種實施中,僅取得一 組聲3單元sA’其屬於在步驟S306中決定的該聲音單元 組,但並未下載到該客戶端語料庫,且該組s△被加入到 ^ 客戶端浯料庫 scurrent(即 Scurrent = Scurrent + D,所以 參 I客戶端的目前語料庫對於後續語音合成來更新以 它。 在步驟S3 08中,其作出是否要繼續取得一文字性内 容的判斷。 如果該判斷的結果係要繼續取得一文字性内容該 流程回到步驟S303,否則該流程進入步驟S3〇9。 該流程結束於步驟S309。 請參照第4圖。將參照第4圖對於基於第3圖中的 ^〇tai決定文予性内容之聲音單元的步驟s3〇6進行更為 詳細的說明。 22 201034002 該流程開始於步驟S40 1。 在步驟S402中,該文字性内容 有相對應内容特徵之目標單元的列刀,產生一具 特徵包括:該目前單元、在該詩體等内容 中或字尾),在該句子中的位置,左2的位置(子頭、字 在步驟S403中,基於s郎、右子音等。 每個目垆罝ia # / 1據該等内容特徵對於 每個目標單兀選擇多個聲音單元候選者。該
參 於該裝置之資料處理速率及—卫作,程序基 如果該裝置㈣_或客作;端工裝 :率足夠•’該裝置可用於選擇最佳的聲音單 者。其類似於該TTS系統之單元選擇程序。 選 如果該裝置(TTS飼服器或客戶端裝置)的資料處理 速率不夠快,僅使用-目標成本方法來選擇最佳的聲音 單7L候選者》該裝置的文字分析構件將基於該等目標内 f特徵來預測該目標詩體。該估計的詩體包括該目標音 高及目標持續時S。然後’該裝置的單元選擇構件將比 較該目標詩體與該單元候選者的詩體之間的差異來取得 目標成本’藉以選擇該最佳聲音單元候選者。 如果該裝置(TTS伺服器或客戶端裝置)之資料處理 速率較慢,該等内容特徵即直接做為過濾條件。在此例 中,有解決方案I及解決方案11: 解決方案I。該等聲音單元候選者藉由比較該等目標 單70與該等聲音單元候選者之間的内容特徵來評等。例 如,可使用一組距離表。每個表格描述一特徵之兩個特 徵之間的距離。此表格可以人工設計或自動訓練(請參照 「基於修改的語料庫之小型中文TTS系統」("A Miniature Chinese TTS System Based On Tailored Corpus") > Zhiwei 23 201034002
ShUang 等人所發表,ICSLP 2002) β 一解決方案11。可使用一過濾處理來留下少數的聲音 單兀候選者。該過濾處理可節省評等的成本。在此藉由 範例說明兩個解決方案. 1 ·該過澹程序可利用對於每個特徵手動定義地順 完成。例如對於中文,要找到該單字中的位置對於 音節選擇非常重要所以在該單字巾的位置可以做為該 第一過濾條件,利用與該等目標單元具有相同「單字中 Φ 位置J的組聲音單元候選者。然後,其它特徵用於過 慮該等聲音單元候選者’直到留下一預先定義數目的聲 音單元候選者。 2.該過濾程序亦可利用一自動訓練的決策樹來完 成。該決策樹根據該詩體特徵的熵降低來訓練。該第一 選擇的分開條件通常為最重要的特徵。該決策樹根據該 目標單元往下走,直到留下一預先定義的單元候選者數 目° 本技藝專業人士可瞭解到雖然上述已經提供聲音單 ^ 元候選者基於St〇tal對於歷史文字性資訊之目標單元來選 擇的多個具截實施例之範例,這些範例僅為例示性而不 能視為限制本發明。事實上,在本技藝中任何已知的方 法可用來執行此步驟,因為本發明之技術性解決方案僅 針對基於Stoui對於歷史文字性資訊的目標單元選擇聲音 單元候選者之結果,該結果將做為更新該等客戶端扭= 庫之基礎。 在步驟S404中,所選擇的該等多個聲音單元候選者 被評等,並決定用於更新的一聲音單元組。基於先前的 單元選擇程序,該等多個聲音單元候選者被評等來指明 24 201034002 該歷史文字性内容之每個單元候選者之重要性具 要Γ:Γ元候選者較佳地是包括在用於更新的該 二:如前Ν個聲音單元候選者)。例如,該 此處例:兩:固早70候選者已經被選擇多少次來實施。 此處例不兩種可能的評等解決方案ί及π: 解決方案I.不同目標單元的多個聲音單元候 ❿ 參 等其ί種程序可確保最常使用的單元被優先評 面呼等疋而:險在於一些經常發生的單元永遠在最前 方一二:常發生的單元永遠在後面評等。因此, 解、方案對於一非常有限的領域可以良好地 例如股票市場報告、銀行服務等等。但對於一般性的領 域無法良好適用,例如新聞。 U的領 解決方案II:不同目樟簞矛Μ皮 個別地坪冑多聲音單元候選者被 = :字Ci中第i個目標單元之發生數 目了用於決疋留下的聲音單元候選者^的數目。… (CiWOO T為-線性函數,一對數函數或其它 同的函數可對於不同的使用方案來選擇。、 的是.在步驟_中,係包裝了屬於用於更新 立單元:广但尚未被下載到該客戶端語料庫中的聲 曰單兀組Sr該伺服器下載該 =二料庫仏,聲音單元之語音戶資端:(= Φ)及内谷資訊將被包括在此包裝甲。 該流程結束於步驟S406。 本技藝專業人士將可瞭解到雖然語 二r轉換:語音資料(例如轉換二 者,以執扞競:j日編碼々算法,例如amr_ wb或類似 執行轉換語音資料的語音遷縮,且語音資料在該 25 201034002 接收端側處被解壓縮之後使用。 第5圖圖解顯示可以實施根據本發明具體實施例之 一電腦裝置。 第5圖所不的電腦糸統包含一 CPU(中央處理單 元)5〇 1、一 RAM(隨機存取記憶體)5〇2、一 r〇m(唯讀記 憶體)503、一系統匯流排504、一硬碟機控制器5〇5、— 鍵盤控制器506、一序列介面控制器507、一並列介面控 制器508、一顯示控制器509、一硬碟機510、一鍵盤511、 一序列外部裝置5 1 2、一並列外部裝置5〖3及一顯示器 5 14。在這些組件當中,連接到系統匯流排5〇4的是cpu 501、RAM 502、ROM 503、HD控制器5〇5、鍵盤控制器 506、序列介面控制器507、並列介面控制器5〇8及顯示 控制器509。硬碟機510連接至HD控制器505 '而鍵盤 5 11連接至鍵盤控制器506、序列外部裝置512連接至序 列介面控制器507、並列外部裝置513連接至並列 制器508,而顯示器514連接至顯示控制器5〇9。 第5圖中每個組件的功能皆為本技藝中所熟知,且 φ 第5圖所不之架構為常見。這種架構不僅應用到個人電 腦,但亦可應用到掌上型裝置,例如palm pc、pDA(個 人資料助理)、行動電話等。在不同的應用中,一些組件 可被加入到第5圖所示的架構中,或可省略第5圖所示 的部份組件。第5 ®所示的整個系、统由電腦可讀取指令 二控制,其通常以軟體儲存在硬碟機51〇、或其 匕非揮發性記憶體。該軟體亦可由網路下載(未示於圖 中)。該軟體可儲存在硬碟機51〇中或自網路下載其可 ,入到RAM 502,並由CPU5〇1執行來實施該軟體^定 26 201034002 ▲因為第5圖所示的電腦系統能夠支援根據本發明之 浯音合成解決方案,該電腦系統僅做為電腦系統的範 例。本技藝專業人士將可瞭解到許多其它電腦系統設計 亦可執行本發明之具體實施例。 本發明可進一步實施成例如第5圖所示之電腦系統 所使用的電腦程式產品,其中包含實施根據本發明之語 音合成方法的程式碼。該程式碼可在使用之前儲存在其 它電腦系統之記憶體中。例如’該程式碼可储存在硬碟
機中或疋像疋一光碟片或軟碟片之可移除記憶體中, 或可經由網際網路或電腦網路下載。 當本發明之具體實施例 明時’本技藝專業人士可在 範_内進行多種修改或變化 已經參照該等附屬圖面做說 附屬申請專利範圍所定義的 【圖式簡單說明】 為了詳細例示木發明夕, 將參照到該等附屬= =與好處, m 參考編號代矣所古θ 如果可能的話,相同或類似的 中 圖面及說明中相同或類似的組件,其 戶丄對圖圖二顯示根據本發明-具體實施例中於-客 . 性内容執行語音合成之系統; 第2 @圖解顯示根 處針對一文字性示内根容據執本發r具體實施例中於一客戶端 第4圖顯示第仃所:音合成之方法的流程圖; 的流程圖丨及 圖所不之方法的一步驟之更為詳細 27 201034002 第5圖圖解顯示可 的一電腦裝置。 【主要元件符號說明】 - 10客戶端 11 TTS伺服器 a 12内容伺服器 13通訊網路 φ 20客戶端 21 TTS伺服器 22内容伺服器 2 3通訊網路 1〇1收發器 102語音合成構件 103語料庫管理構件 1 04語料庫 ill收發器 Ο 112聲音單元決定構件 113 #§·料庫管理構件 114語料庫 201收發器 • 202語音合成構件 • 203語料庫管理構件 204語料庫 205聲音單元決定構件 以實施根據本發明之具體實施例 211收發器 213語料庫管理構件 214語料庫 501中央處理單元 502隨機存取記憶體 503唯讀記憶體 5 04系統匯流排 505硬碟機控制器 506鍵盤控制器 507序列介面控制器 508並列介面控制器 509顯示控制器 510硬碟機 511鍵盤 5 12序列外部裝置 5 13並列外部裝置 514顯示器 112 1文字分析構件 1122單元選擇構件 2051文字分析構件 2052早元選擇構件 28
Claims (1)
- 201034002 七、申請專利範圍: 種在I戶端處針對__文字纟内容執行華音合$ 之方法,該方法包含下列步驟: a.基於該客戶端處一語料庫(⑶吓^)中的一目 刖聲曰單兀組Scurrent針對該文字性内容執行語音合 成; b·目應於判斷是否要更新在該客戶端處該語料 庫中的該目前聲音單元組, M)分析該文字性内容並產生具有相對 徵之一目標單元的列表; 饤 b 2)基於一整去里sΛ 單7°組Stotal根據該等内容特徵 選擇每個目標單元的多钿躲 干几扪夕個聲音单几候選者,該聲音單 組U Λ在該客戶端處該語料庫中的該目前聲音 單元組scurrent要豐富;及 穿it二:等多個單元候選者決定適合於該文 字性内令之BD a合成的聲音單元;以及 參 2. :基於該等決定的聲音單元更新該 語料庫中的該目前聲音單元組s_ente 如申請專利範圍第丨項所述 步驟: I <〈万忐,該方法包含下列 下f組;量的聲音單元So,其可針對所有種 類的文字性内容執行語音合成,且其可確保一可接受 的逢音合成品質’做為在該客戶端上該語料庫中的一 初始目前聲音單元組而使得Scurrent=s0。 如申請專利範圍第i項所述 另包含下列步驟: 之方去’其中該步驟b3 根據該文字性内容的重要性來評等該等多個聲 29 3. 201034002 音單元候選者,以決定用於更新該客戶端處該語料庫 中的該目前聲音單元組的一聲音單元組。 4. 5. 6. 8 如申請專利範圍第3項所述之方法,其中該步驟b 另包含下列步驟: b4.下載屬於用於更新的該聲音單元組且未包 括在該客戶端處該語料庫中的該目前聲音單元組之 一聲音單元組到該客戶端中;及 其中在該步驟c中 藉由使Scurrent = scurrent + 而更新在該完卢诚 上該語料庫中的該目前聲音單ment„客戶端 如申請專利範圍第3項所述之方法,其中該等單元候 選者係基於每個單元候選者已被選擇多少次來評等 如申請專利範圍第5項所述之方法,其中不同目標單 儿之多個聲音單元候選者係一起評等。 如申請專利範圍第5項所述之方法,其中每個目標單 70之多個聲音單元候選者係分別評等》 :::得在-客戶端處可針對一文字性内容執行語 曰〇成之系統,該系統包含: 2音合成構件,其組態成基於在該客戶端上語料 勃—扭立目刖聲音單兀組S<:Urrent針對該文字性内容 執仃sf音合成; -叙,1早兀決定構件,其組態成回應於判斷是否要 客戶端上該語料庫中的該目前聲音單元組 而執行以下步驟: 徵之:::文:性内容並產生一具有相對應内容特 试I目粮單几的列表; ^ 聲g單元組St()tal根據該等内容特徵選擇 30 201034002 每個目標單元的多個聲音單元候選者,該聲音單元组 St°tal比在該客戶端處該語料庫中的該目前聲音單元 組scurrent要豐富; 军日早兀 根據該等多個單元候選者 %可厌疋適合於該文字性 内容之語音合成的聲音單元;及 更新構件,其組態成基於該等決定的聲音單元更 新該客戶$上該語料冑中的肖目冑聲音單元組 Scurrent °9.如申請專利範圍第8項所述之系統,另包含. 組態以下载一組少量的聲音單元%之構件,其 可針對所有種類的文字性内容執行語音合成且其可 碟保-可接受的語音合成品質,做為在該客戶端上該 語料庫中的一初始目前聲音單元組而使得 Scurrent=S〇 ° A如申請專利範圍帛8項所述之系统,其中該聲 決定構件進一步組態成: 根據該文字性内容的重要性來評等該等多個聲 音單元候選者,以決定用於更新於該客戶端處該語料 庫中的該目前聲音單元組的一聲音單元組。 11.如申請專利範圍第10項所述之系統,其中該聲音 元決定構件進一步組態成: 9 決定屬於用於更新的該聲音單元組且未包括 該客戶端處該語料庫中的該目前聲音單元組之一 音單元組Sa ;及 其中該更新構件係組態成 藉由使得Scurrent = scurrent +呂八而更新在該客戶 端上該語料庫中的該目前聲音單元組Seui^ent。 31 201034002 1 2.如申請專利範圍第1 0項所述之系統 元決定構件係組態成基於每個單元 擇多少次來評等該等單元候選者。 1 3 .如申請專利範圍第1 2項所述之系統 元決定構件係組態成一起評等不同 聲音單元候選者。 14.如申請專利範圍第12項所述之系統 元決定構件係組態成分別評等每個 聲音單元候選者。 ,其中該聲音單 I選者已經被選 ,其中該聲音單 3標單元之多個 ,其中該聲音單 Ϊ標單元之多個32
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98106707A TWI415110B (zh) | 2009-03-02 | 2009-03-02 | 用於語音合成之方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98106707A TWI415110B (zh) | 2009-03-02 | 2009-03-02 | 用於語音合成之方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201034002A true TW201034002A (en) | 2010-09-16 |
TWI415110B TWI415110B (zh) | 2013-11-11 |
Family
ID=44855380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW98106707A TWI415110B (zh) | 2009-03-02 | 2009-03-02 | 用於語音合成之方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI415110B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9812121B2 (en) | 2014-08-06 | 2017-11-07 | Lg Chem, Ltd. | Method of converting a text to a voice and outputting via a communications terminal |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6728708B1 (en) * | 2000-06-26 | 2004-04-27 | Datria Systems, Inc. | Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data |
US8056070B2 (en) * | 2007-01-10 | 2011-11-08 | Goller Michael D | System and method for modifying and updating a speech recognition program |
TWI336879B (en) * | 2007-06-23 | 2011-02-01 | Ind Tech Res Inst | Speech synthesizer generating system and method |
-
2009
- 2009-03-02 TW TW98106707A patent/TWI415110B/zh not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9812121B2 (en) | 2014-08-06 | 2017-11-07 | Lg Chem, Ltd. | Method of converting a text to a voice and outputting via a communications terminal |
TWI613641B (zh) * | 2014-08-06 | 2018-02-01 | Lg化學股份有限公司 | 將文字資料之內容輸出成發送者之語音的方法與系統 |
Also Published As
Publication number | Publication date |
---|---|
TWI415110B (zh) | 2013-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210327409A1 (en) | Systems and methods for name pronunciation | |
US8321223B2 (en) | Method and system for speech synthesis using dynamically updated acoustic unit sets | |
US11922924B2 (en) | Multilingual neural text-to-speech synthesis | |
CN108962217B (zh) | 语音合成方法及相关设备 | |
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
JP2021103328A (ja) | 音声変換方法、装置及び電子機器 | |
CN113892135A (zh) | 多语言语音合成和跨语言话音克隆 | |
US9812120B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system | |
US20150149149A1 (en) | System and method for translation | |
US20190034542A1 (en) | Intelligent agent system and method of accessing and delivering digital files | |
US9190049B2 (en) | Generating personalized audio programs from text content | |
TWI276046B (en) | Distributed language processing system and method of transmitting medium information therefore | |
US10824664B2 (en) | Method and apparatus for providing text push information responsive to a voice query request | |
JP2019533212A (ja) | 音声放送方法及び装置 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN1675681A (zh) | 客户机-服务器语音定制 | |
US20220215827A1 (en) | Audio synthesis method and apparatus, computer readable medium, and electronic device | |
Dethlefs et al. | Conditional random fields for responsive surface realisation using global features | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
TW201034002A (en) | Method and system for speech synthesis | |
JP2022117756A (ja) | タグ付け方法およびタグ付け装置 | |
CN113868445A (zh) | 续播位置确定方法、续播系统 | |
JP2020204683A (ja) | 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |