TW201034002A - Method and system for speech synthesis - Google Patents

Method and system for speech synthesis Download PDF

Info

Publication number
TW201034002A
TW201034002A TW98106707A TW98106707A TW201034002A TW 201034002 A TW201034002 A TW 201034002A TW 98106707 A TW98106707 A TW 98106707A TW 98106707 A TW98106707 A TW 98106707A TW 201034002 A TW201034002 A TW 201034002A
Authority
TW
Taiwan
Prior art keywords
client
corpus
sound
unit
sound unit
Prior art date
Application number
TW98106707A
Other languages
English (en)
Other versions
TWI415110B (zh
Inventor
Zhi-Wei Shuang
fan-ping Meng
Qin Shi
Yong Qin
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Priority to TW98106707A priority Critical patent/TWI415110B/zh
Publication of TW201034002A publication Critical patent/TW201034002A/zh
Application granted granted Critical
Publication of TWI415110B publication Critical patent/TWI415110B/zh

Links

Landscapes

  • Telephonic Communication Services (AREA)

Description

201034002 六、發明說明: 【發明所屬之技術領域】 本發明概略關於一種文字轉語音(TTS,“Text to speech”)技術,特別是一種在一客戶端處針對一文字性内 容執行語音合成之方法及系統。 【先前技術】 一種文字棒語音(TTS)系統係為使人透過語音存取 所需要資訊的一種廣為使用的技術。一種典型的應用係 要將一可由一使用者經由網際網路存取的一文字性内 容,改變成位在一客戶端的語音,該客戶端像是桌上型 電腦、膝上型電腦或一掌上型裝置,例如行動電話、個 人數位助理或類似者。因此,該使用者可以不需要讀取 該文字而取得資訊。對於這種應用,該使用者需要載入 一 TTS系統到他的客戶端中。現今有愈來愈多的使用者 想要經由網際網路下載一 TTS系統,而非使用記錄在一 儲存媒體上的一複本。 目前,大多數的TTS系統基於聲音單元的選擇及串 連而執行語音合成。基於多個單元的選擇及串連之語音 合成需要大量的聲音單元,藉以得到令人滿意的語音。 例如,一 IBM中文TTS系統使用25,000個句子做為一語 料庫來合成良好品質的語音,其約為4GB。當然,這些 聲音單元可利用一些語音編碼演算法被壓縮成200MB, 而不會影響該語音品質太多。但是,對於透過網路下載 語音資料的使用者而言,一次下載200MB的語音資料是 非常大的下載量。使用者必須等待相當長的時間才能開 201034002 始使用該語音資料。
基於上述的問題’因此提出一種解決方案如下:儘可 能地縮小一語料庫來取得一較小的TTS系統(例如 20MB )用於語音合成’以促進成功地合成多種文字性内 谷’並確保一可接受的語音品質。在此例中,使用者僅 需要等待非常短的時間(例如下載20MB資料的時間)來 開始使用TTS系統。因為該下載的TTS系統之語料庫有 限’在使用TTS系統期間由使用者取得的語音合成品質 將會很差。從使用者之使用心理來看,這種不^的=音 合成品質在剛開始使用該系統的短期内可能被接受但 在長期使用之後將無法被接受。 歐洲專利申請案W006128480A1,其揭示一 通訊網路上提供使用者終端上語音合成的方法與系統。 在此專利中’ sf音合成的基本資料庫先被下載到一使用 者終端上,且在該TTS飼服器側上根據可能的主題事先 產生多個增值語料庫資料庫,例如經濟、運動、漫畫等 等。當一使用者利用此ττς会 々W用此11 b系統存取一文字性内容時, 該系統擷取該文字性内容的主題,根據該主題選擇一相 對應增值語料座誉制_ -, m . ή資科庫並加入該增值語料庫資料庫到 =立 端上之基本資料庫來進行該文字性内容之 語成。相較於先前的解 J秤决方案,此解決方案可使得 使用者快速地下載一較4、的 ^ m .. m J的TTS系統,並可很快地開始 使用。利用此解決方索,掛括$ w 士 餅以贫纽立人1 增值資料庫可一點一點地增加, 所以該音合成品質可拉链认# ¥ 意程度。 持續地改善,並增進使用者的滿 基於此解決方案 内谷(主題)(例如經濟 每個客戶端需要指定該等既有的 運動、漫畫等等)之一到要被合成 201034002 文字,選擇存在於該TTS伺服器側上的一 動貝等'選擇-增值語料庫資料庫’例如濟:運 曼畫等等)’然後下載該增值語料庫資料庫。 決方Γ中洲有專Γ…_28480Αι所揭示的技術解 Η Λ / 制。此係因為在實際的語音合成期 二要二成類似的内容(主題)之内容可能需要一完全不同 關於即音節)組。例如,以運動為主題的文字可以 在簦立i籃球藉此這兩個實際内容在語音合成期間 在睪3單中有很大的不同。因此,在指定一特定内容(主 到該文字來根據該特定内容下載—預先產生的特定語 之&種解決方案對於基於該選擇及串連的TTS系統 而言並不準確。因此’湘此解決方案根據—主題來下 f一語料庫資料庫將不會使得一客戶端有效地改善該語 曰0成βο質,且使用者仍可能不滿意該合成品質的這種 改善。 因此,需要一種TTS系統式之文字轉語音解決方案 及方法,其不僅可支援一使用者在短時間内下載及使用 Φ 一文字轉語音系統,亦可有效地由使用者進一步使用該 系統來改善該語音合成品質,藉此可增進該系統之文字 轉語音之服務效能。 【發明内容】 為了克服先前技術的限制,本發明係要提供一種在 一客戶端執行語音合成成為一文字内容之方法與系統, 其不僅可支援一使用者在短時間内下載及使用一文字轉 語音系統’亦可適應性地當該使用者進一步使用該系統 時改善譚語音合成品質。因此,該系統之文字轉語音服 201034002 務效能可以有效地增進。 :據本發明一種態樣’其提供一種用於在_戶 m文字性内容執行語音合成的方法。該方法包含端 :客戶端處—語料庫中的一目前聲音單 否對該文字性内容執行語音合成;回應於判斷是 -組,分析該文字性内容並產生具有相對應内 目標單元的列表,基 T愿円今将徵之一 v 4® '聲曰單元組st〇u丨根據該等内容 ❹母個目標單元的多個聲音單元候選者,該;: 单疋組st。…會比在該客戶處 聲曰 單元組S 尸端處該語枓庫中的該目前聲音 適…二内:’且根據該等多個單元候選者決定 迥口仄该文字性内容之語音合 等決定的聲音單S更新在 並基於該 前聲音單MS_ent。 端處該語料庫中的該目 端處2本發明另—種態樣’其提供-種用於在一客戶 含:語音合成構件,其二Γ:成的系統。該系統包 .…目前::單元:S成基:f該客戶端處-語料庫 ❹音合成•獻立e -、、 eurrent針對該文字性内容執行語 要更新在=π決定構件’其組態$回應力判斷是否 行以下的=戶端處該語料庫中的該目前聲音單元而執 容特徵之目:ί析的該二字性内容並產生一具有相對應内 該等内容特徵選擇每個目椤單組St—根據 者,今麻立抵- 標單兀的多個聲音單元候選 前聲;單:疋組St〇ta,比在該客卢端處語料庫中的該目 者“、奋:’且SC—要豐富;且根據該等多個單元候選 ΐΐ::Γ文字性内容之語音合成的聲音單元,·及 、組態成基於該等決定的聲音單元更新在該 201034002 客戶端處語料庫中目前聲音單元組Scu_nt。 本發明的技術解決方案可以支援該使用者在短時間 内下載並使用一文字轉語音系統。因為本發明直接選擇 及下載對於在該客戶端處歷史文字性内容之語音合成最 為重要的聲音單元’其使得關於該文字性内容之語料庫 更為準確地在該客戶端處被下载及更新。當該使用者進 二步使用該系統時,根據本發明之客戶端可以在語音合 成〇〇質K取得一有的故¥ „ 令双的改善’所以可以增進該文字轉語 音服務效能。
阁本發明的其匕特徵及好處將可由以下配合該等附 圖面之本發明的具體實施例之詳細說明而更加瞭解。 【實施方式】 方索:使用者不能夠利用該等既有的技術解決 行的文字轉語音取得語音合成的 案動態地更新由-客戶該等既有的技術解決方 由使用根據主題之增值語料庫資料庫(例如藉 音合成的增值語料庫資料庫並不人::類:内容來選擇語 料庫成為目前被合成之内容。《’其無法調整-語 本發明的發明人已經注 處執行語音合成,特別是在2一使用者正在-客戶端 為網路内容文字,其在一 戶端處執行語音合成成 前合成的文字性内容之間成的文2性内容與一先 此,本發明的原理為:在開始有較高的關連性。因 語料庫到一客戶端當中,,一使用者下載一較小的 ,其可確保一可接受的語音品 9 201034002 1得::該客戶端的目前語料庫來執行語音合成,藉以 使侍該使用者儘快地使用一 TTS系統來針對一網路文 性內容執行語音合成·终後,+兮 ’
έ站吐 百口珉,然谩田该使用者正在使用該TTS ;字性内:經執行語音合成的-文字性内容,即-歷史 談冇服器二之聲音單元即基於—語料庫來選擇(例如在 =服m㈣的—龍語料庫,㈣w s分所得到的一攻注粗 _ 精 目料庫會㈣客戶端處的 目別》»科庫要豐富,其中通常可由 的 單元的該語音合成達到哕爲步令全ω ^等選擇的聲音 合成品質;接著,今客内Κ較佳:的語音 擇的眷立留-處前語料庫即基於該選 ::聲…而更新。例如,決定未包括在該客戶端之 到該客卢…由 %擇的聲“疋,且該組合被下載 括對於丄且該客戶端的目前語料庫被更新來包 =端=語料庫即被用於一後續文字性内容3 已:執mi此程序’該客戶端的目前語料庫根據 ❹
St: 成的該文字性内容(歷史文字性内容】 所以該語音合成品質可持續地改善,且可); 進使用者的滿意程度。 夂且r增 以下將參照該等附屬圖面對於本發明之且體實施 進行詳細的說明。 货Λι八體實施例 首先參照第1圖。嗜阁团如β 實施例中於-客戶端處d示根據本發明-具難 功能的-使用者裝置,t如客λ端,其可為需要使用咖 行動電話、個人數位助理等5!電腦、膝上型電腦、 其可為能夠提供該客戶端τ 11代表tts伺服器, 磲TTS服務之任何遠端或近蠕伺 10 201034002 艮:’ 12代表一内容伺服器’其可為能夠提供該客戶端 所有種類的網路㈣資訊之任何遠端或近❹服器· Μ ::-連接個別裝置之通訊網路,其可為一區域網路、 廣域網路、企業内網路、網際網路等等。在帛 的TTS系統中,多個客戶端(藉由範例方式僅例示_ = 戶端,即客戶端1〇) ’其透過通訊網路13連接到内容伺 服器12來取得網路文字性内容。該等多個客戶端可以直 接(如第1圖所示)或透過一通訊網路(未示出)連接至tts ❹ ❿ 伺服器11,藉以取得服務,例如下載該TTs系統。 如第1圖所示,客戶端10包含:收發器1〇1、語音合 成構件102、語料庫管理1〇3及一語料庫1〇4。客戶端 透過收發H HH與其它網路單元⑷服器)通訊。語 構件1G2基於在—目前語料庫中聲音單元的選擇及 轉換:文字性内容到語音,並經由一剩π八輸出該語音。 语料庫管理構件103係用於維護語料庫1〇4之 案,並管理在語料4 104中聲音單元的取得及更新。扭 ::1〇4具有一組儲存用於語音合成之客戶端的本地‘ 音單元。 TTS伺服器U包含:收發器lu、聲音單元決定構 m、語料庫管理構件113及一語料庫U[TTS伺服器 11透過收發胃111與其它網路單元(客戶端)進行通訊。 聲音單元決定構件112係用於決定一聲音單元組 於更新一客戶端的本地語料庫。語料庫管理構# 113、 於在該伺服器側上維護語㈣114的一索引播宰,並 理語料庫m中聲音單元的取得。語料庫114儲存一組 該祠服器的聲音單元。該伺服器提供該聲音單元組的— 次組合或通用組合到該客戶端做為該客戶端的本地 11 201034002
的語料庫。因此’位於該伺服器側的語料庫114通常比 該客戶端本地儲存的語料庫104要具有更多的聲音資 源。根據本發明一具體實施例,聲音單元決定構件i 12 包含文字分析構件1121與單元選擇構件U22 «3在一種實 施中,文字分析構件丨121係用於分析一文字性内容並 產生一具一相對應内容特徵之目標單元的列表。單元選 擇構件1122基於在該TTS伺服器侧上的語料庫113決定 適合於該文字性内容之目標單元的語音合成之聲音單元 候選者,所以語音合成的一聲音單元可自該等聲音單元 候選者中選出》TTS伺服器11基於該等選擇的聲音單元 更新該客戶端的目前語料庫。 以下將對於第1圖所示的架構中每個網路元件之作 業程序進行詳細的解釋。| 了例示起見,對於以下的符 號具有定義如下: 1. seurrent: —語音合成的聲音單元組,其係本地性儲 存在該客戶端處,即在該客戶端處一本地語料庫中一 音單元組。 2· S〇:-聲音單元組’其為該客戶端在—初始狀態 下自該TTS伺服器下載者。在一較佳具體實施例中, 可為-少量的聲音單元組,其為實施所有種類的文字性 到語音合成,並確保-使用者可接收的語音合成品質所 需要者。當S。被下載到該客戶端的語料庫中,s—4 於S〇。 3. Stotal:儲存在TTS伺服器上一語料庫中之一聲音 單元組。St〇tal通常比於該客戶端處本地儲存的^ 具有豐富的聲音資源。也就是說,該客戶端的語料庫為 tts飼服器之語料庫的次組合,即s_ 3 12 201034002 出:是雖然在TTS飼服器上該語料庫中的聲 戶:處W其要瞭解到、1係相對於在該客 維護的整li次組合Scurrent。St〇tal可為由TTS伺服器 之二一個語料庫,或由TTS伺服器維護的整個語料庫 ·所得^的部份(例如根據某個規則等等區分整個語料庫 ·. Π多:::定部份),只要其比該客戶端的語料庫要具 發明之例資Γ本技藝專業人士可瞭解到在閱讀本 整個語料庫之二聲:ί佳:是為該TTS伺服器所維護的 Ο 的级立人聲0單兀組。依此方式,於該客戶端處 π a σ成品質可更為有效地改善。 卢通H·自該聲音單元決定構件所決定要下载到該客 端中藉以豐富該客戶端的語料庫之聲音單元組。 操二將藉由實際範例例示如第1圖所示之該系統的 在一初始狀態下,客戶端1〇的使用者開啟該tts服 務功能,且客戶端10自TTS伺服器u下载s〇做為 sgcurrent,並將其儲存到本地語料庫1〇4中用於語音合成。 β 客戶端10經由通訊網路13自内容伺服器12取得一 文字性内容C!。而客戶端1〇的收發器1〇1傳送該接收到 的文字性内容〇到語音合成構件1〇2。然後,語音合成 構件102透過語料庫管理構件1〇3取得語料庫1〇4中 scurrent(此時Scurrent=s〇)的聲音單元來合成語音並透過 一 t八輪出該語音。語音合成構件1G2可包含基於爪 技術之語音合成所需要的個別功能性模組,其中包括例 如文字分析構件及單元選擇構#。這些功能性模組之操 作原理及操作程序為人所熟知,並可以用於串連的文字 轉語音系統之任何方法來實施。本發明的說明僅著重在 13 201034002 關於本發明之語音合成構件的功能及效果,並省略其詳 細實施。與先前技藝不同的是’根據本發明之具體實施 例的技術解決方案甲,當該使用者基於語料庫104的目 前聲音單元組心^^…取得文字性内容ci的合成之語音 時’客戶端10經由收發器1〇1傳送文字性内容C1到 飼服器11,藉以可調整式地更新客戶端1〇上的本地語料 庫 1 04。 在TTS伺服器11側上,收發器u丨自客戶端1 〇接 ❿ 收文子性内容C1’並將其傳送到聲音單元決定構件I!〗。 以操作原理與操作程序的角度類似於一傳統TTS系統之 語音合成構件’雖然聲音單元決定構件112並不執行實 際的語音合成,但透過單元選擇決定聲音單元候選者, 藉以更新相對應的客戶端處的語料庫。在如第丨圓所示 的具體實施例中,聲音單元決定構件112包含文字分析 構件1121與單元選擇構件1122〇文字分析構件“Η分 析該文字性内容C1 ’並產生一具有相對應的内容特徵之 目標單元的列表。單元選擇構件1122基於語料庫ιΐ4中 ❿的Swal選擇適合於文字性内容C1之目標單元的語音合 =多個聲音單元候選者1單元選擇可基於目標單元 =内容特徵(例如目前單元)、在詩體單字(字頭、字 广中的位置’在句子中的位置、左音節、 來 m聲音單元決定構件112基〜其比客戶端 餘、有更多的聲音資源)選擇文字性内容C1之 义選聲音單元,以藉由使用該 2成為文字性内容C1,其通常要比在該;;=二 種^之效能要具有一更 I端處的& 定構件112基於來自嗲單开二曰°成°°質。聲音單元決 來自料70選擇的結果決定要用於更新 14 201034002 在客戶端】〇上的本地語料庫之一聲音 施中,眷立—早凡組。在一種實 Μ聲《 h決定構件U2直接決 ’ 元候選者做為用於更新客户端有聲音早 g, * 尸觸V上本地語料庫之一簦立 早兀組。聲音單元決定構件亦可使用聲印 • #化評等結果來決定用於更新在客戶端10上太:Γ的最 1-聲音單元組。例如,每個目伊單端乂0ί本地語料庫 -候選者可全部一起坪蓉2 單70的多個聲音單元 起评等,或個別地評等⑼如根 早r已經被選擇的數目),藉以決定用於更新的: 聲曰單70組。本技藝專業人士要瞭解到雖裨聲音單 •定構件m執行在TTS系統中之該單元=;早= 非要做為實際語音合成。因此, 爽竇# Λ 語料庫索引標案(圖中未示出) 而不舍括該語料庫的所有聲音單元之性f索引, 形。會造成儲存在該語料庫中聲音單元之實際音訊波 =下來’聲音單元決定構件112通知該決定的聲音 單70 ^之語料庫管理構件η〗。語料庫管理構件I"自 參TTS词服器u上的語料庫114取得相對應聲音單元(音訊 波,),藉以更新在客戶端10上的本地語料庫10心較佳 地疋’ #料庫管理構件113僅取得屬於該決定的聲音單 疋組且未包括在客戶端10上的Scurrent中之一組聲音單 π ’即SA(在-種實際實施中,該單元組s△可藉由查詢 在_s伺服器u上維護的該客戶端語料庫之一組態檔案 (未不出)所決定)°TTS伺服器11經由收發器111傳送SA 到客户4 10進行語料庫更新。TTS祠服器1〇可更新由 其對於客戶端10所維護的該組態檔案,藉以記錄更新的 語料庫104之組態在客戶端1〇上。 15 201034002 客戶端10之收發器101接收S△,並將其傳送到客戶 端10處的本地語料庫管理構件103。然後,語料庫管理 構件103加入到語料庫1 〇4,藉以更新語料庫1 〇4, 以使知Scurrent = S〇 + S△,並進一步更新語料庫丨〇4的索 引檔案。 當客戶端10透過通訊網路13自内容伺服器12取得 一新的文字性内容C2(未示出)時,語音合成將基於語料 庫104中更新的Scurrent,即s〇 + SA來實施。因為通常在 目前合成的文字性内容與先前合成的文字性内容之間有 較高的關連性,基於對於C1的單元選擇所擴充的語料庫 對於C2執行的語音合成通常可有效地增近該語音合成品 質。類似地,C2亦被傳送到TTS伺服器u做為一歷史 文字性内容來決定,以進一步更新該客戶端的本地語 料庫104。此適應性更新客戶端1〇之語料庫ι〇4的程序 在當該使用者持續地使用該客戶端TTS系統時以循環方 式實施。最後’在TTS祠服器n上的整個語料庫被下載 到客戶端10中。依此方式’語音合成的歷史文字性内容 漸漸地增補到該客戶端之語料庫的聲音單元組中,藉以 確保在更短的時間内可以有效地改善在該客戶端處的笋 音合成品質。當然’終止該可適應性更新程序的 ^ 以人工地設定,藉以停止更新該客戶端的語料庫。 根據第1 ®所示的該具體實施例,基於在 處歷史文字性内容來決定要被更新之聲音單元的 在該TTS飼服器側處實施。在此具體實施例中、 服器以中央化的方式管理在每個客戶端上的語料 r 新,因A需要執行決定對於每個客戶端所要 單元的作業。顯㈣TTS伺服器將要承受巨量的運算: 16 201034002 在該TTS㈣器側處的操作成本。在本發明另 二:實施例中,決定要對一客戶端更新之聲音單元的 作業亦可用-分散式方式在每個客戶端上本地性地 施。以下將參照第2圖提供此具體實施例之說明。 .第2圖為根據本發明另一具體實施例中於一客 =對^字性内容執行語音合成之系統。參考編號2〇 =表-客戶端’其可為需要錢阳㈣的—使用 置,例如桌上型電腦、膝上型電腦、行動電話個人數
:::等等’ 21代表一 TTS伺服器,其可為能夠提供該 ,戶端TTS服務之任何遠端或近端伺服器;22代表 服器’其可為能夠提供該客戶端所有種類的網路内 t資訊之任何遠端或近端伺服器;23代表—連接個別裝 之通訊網路,其可為一區域網路、廣域網路、企業内 :路、網際網路等等。類似於第i圖㈣TTS系統, 第2圖所不的TTS系統中’多個客戶端(藉由範例方式
,例示-個客戶端,即客戶冑2〇)’其透過通訊網路U 連接到内容祠服器12來取得網路文字性内容。該等多個 客戶端可以直接(如第2圖所示)或透過一通訊網路(未示 出)連接至TTS伺服器21,藉以取得服務,例如下載該 TTS系統。 如第2圖所示,客戶端2〇包含:收發器2〇1、語音合 j構件202、語料庫管理2〇3、語料庫2〇4及(特別是)聲 音單元決定構件205。利用類似於第1圖所示之具體實施 例中的tts伺服器10之聲音單元決定構件112者之構造 與功能,聲音單元決定構件2〇5可以包含文字分析構件 05 1與單元選擇構件2052。TTS伺服器21包含收發器 211、語料庫管理構件213與語料庫214。 17 201034002 以下將提供第2圖所示之架構的每個網路元件之操 作程序的詳細說明。為了例示的目的,該等符號Scurrent,S〇, Stotal及S△係參照前述定義來介紹。 現在將藉由實際範例例示如第2圖所示之該系統的 操作程序。 在一初始狀態下,客戶端2〇的使用者開啟該TTS服 務功能,且客戶端20自TTS伺服器u下載%做為 sgcurrent,並將其儲存到本地語料庫2〇4中用於語音合成。
…客戶端20經由通訊網路23自内容伺服器22取得一 文子性内容C卜而客戶端20的收發器2〇1傳送該接收到 的文字性内容ci到語音合成構件202。然後,語音合成 構件202透過語料庫管理構件2〇3取得語料庫2〇4中
Scurrent(此時Seurrent=SQ)的聲音單元來合成語音並透過 喇叭輸出該語音。語音合成構# 2〇2之操作原理及操 =序為人所熟知,並可以用於串聯的文字轉語音系統 之任何方法來實施。 其在當該使 current取得文字 與參照第1圖所述之具體實施例不同 於語料庫204中目前聲音單元組Sc—… t C1之合成的語音時,客戶端2〇之聲音單元決突 ^件205進—步基於文字性内容^決u於更新客戶对 2〇上語料庫204之一聲音單元組。 以操作原理與操作程序的肖度類似於—傳統爪% 統:語音合成構件,然而聲音單元決定料2〇5並不彰 :實:语音合成,而是經由單元選擇決定聲音單元候遥 元沐Ϊ以更新在-相對應客戶端上該語料庫。在聲音身 :決2件205中,文字分析構件則分析文字性内笔 幻’並產生一具有相對應内容特徵之目標單元 18 201034002 早兀選擇構件2052基於TTS飼服 S—選擇適合於文字性内容〇 亡“斗庫214中 之多個聲音單元候選者。此處必須;語音合成 由川飼服器21取得其語料庫2 _的疋二端^可 ,&括U所有聲音單元的性”引“丨檔案,其可 決定構件205可執行基於、… 早凡 S-中聲音單元之實際音訊波形。聲音== 基於來自該單元選擇的二構件205 •罝分法-接I 聲曰單"°組。在—種實施中,聲音 單/0決疋構件205直接決定該 為用於更新客戶端"擎曰單疋候選者做 端0上本地語料庫之一聲音單元纟ae| 音單元決定構件205亦可使 :曰單70組。聲 果來決定用於争齡产分的最佳化評等結 果來決疋用於更新在客戶# 2〇上本地語 …例如,每個目標單元的多個聲音單元候選 部一起評等,或個別地評等(例如根據每個候選聲音單元 已經被選擇的數目),藉以決定用於更新的一聲音單元单二 抑一接下來聲日單元決定構件2G5通知該決定的聲音 參單元組之語料庫管理構件203。語料庫管理構件2〇3取 屬於該決一定的聲音單元組但未包括在客戶端20上的 Scurrent之一組聲音單元,即δΔ。語料庫管理構件2〇3藉 由查詢該客戶端的語料庫之索引檔案(Scurrent的索引檔案) 來決定S△的索引檔案。然後,客戶端2〇經由收發器 傳送S△的索引槽案到tts伺服器21。 在tts飼服器21側,收發器211自客戶端2〇接收 對應於Sa的索引檔案,並將其傳送到語料庫管理構件 213。然後,語料庫管理構件213自語料庫214(^。^丨)取 得S△’藉以取得S△中聲音單元的音訊波形。藉由收發器 19 201034002 211得到的SA被傳送到客戶端2〇。 於客戶端20側,收發器21〇傳送該接收的s△到語 料庫管理構件203。且語料庫管理構件2〇3加入s△到語 料庫204,藉以更新語料庫2〇4來使得= % +心, 並進一步更新正在被維護的語料庫2〇4之索引檔案。 當客戶端20透過通訊網路23自内容伺服器22取得 一新的文字性内容C2(未示出)時,語音合成將基於語料 庫204中更新的scurrent(即S〇 + d來實施。因為通常在 目則a成的文字性内容與先前合成的文字性内容之間有 較高的關連性,基於對於C1的單元選擇所擴充的語料庫 對於C2執行的語音合成通常可有效地增近該語音合成品 質。類似地,客戶端20之聲音單元決定構件2〇5基於做 為歷史文字性内容之C2決定%來進一步更新該客戶端 的本地語料庫204。客戶端20自TTS伺服器21下载
並再一次更新語料庫204用於一後續新的文字性内容之 語音合成。此可適應性更新客戶端2〇上的語料庫2〇4之 程序係當該使用者使用該客戶端TTS系統時以循環方式 實施。最後,在TTS伺服器21上的整個語料庫被下載^ 客戶端20中。依此方式,語音合成的歷史文字性内容逐 漸地增補到該客戶端之語料庫的聲音單元組中,藉以確 保在更短的時間内可以有效地改善在該客戶端處的語立 合成品質。當然’終止該可適應性更新㈣的條件^ 人工地設定’藉以停止更新該客戶端的語料庫。 第3圖顯示根據本發明一具體實施例中於—客戶 處針對一文字性内容執行語音合成之方法的流程圓。 為了例示的目的,該等符號s〇, &。…及 係參照前述說明來引用。 Λ 20 201034002 使用者開啟該TTS服務功能,因 在步驟S301中, 此開始該流程。 在步驟S302中,該基本語料庫被下載來使得 Scurrent = s0。此步驟可在當例如一客戶端正在初始化一 ===來執订。該客戶端自一 TTS伺服器下載該預 先疋義的基本語料庫so,且使用so做為該客戶端語料庫 scurrent來進行語音合成。此使得該使用者使用該TTS 統,而不需要等待很久。 、 ❿ ❹ 戚可i3s303中’接收到一新的文字性内容。該客戶 "透過一通訊網路自一内容伺服器揍收 容之所有種類的資訊。 又子性内 在步驟S304中,基於Scurrent針對該文字性 語音合成。該文字性内容經由在目前語料庫中的 π Seurrent之選擇及串連被轉換到語音,且該語音 喇叭輪出》 ’ 2驟S305中’其判斷是否要更新該客戶端語料 庫。對於該判斷可利用多種條件。 代表:ί,ί 一典型的狀況下,如果S—= s_,此 q客戶端#料庫已經取得所有可使用的聲音單元, 以其決定該客戶端語料庫並不需要被更新。 範例中,可經由預設的條件(例如預設的參 Ϊ判合成品f等等)或甚至經由該使用者的指示
系统要更㈣客戶端語料庫。由該客戶端TTS 糸統所執行的語音合成品皙肱 庫更新解決方宏沾、f將在執订根據本發明之語料 新解決方案的初始階段中明顯地增加且這種扭立 二成品f的增加將在稍後的階段中減慢或甚至停止。二 時’如果該使用者認為該語音合成品質已經滿足他 21 201034002 望,則該客戶端語料庫並不需要被更新。依此方式,在 該客戶端處及/或在TTS伺服器侧的運算資源可以被節 省。 根據不同的具體實施例,在步驟S305中的判斷可以 • 實施在TTS伺服器側處或在該客戶端當地。 如果該判斷的結果係要更新該客戶端語料庫該流 程進ρ到步驟S306。如果該判斷的結果係不要更新該客 戶端語料庫,該流程進行到步驟S308。 • 在步驟S306中,語音合成的一聲音單元組基於stotal 對該文子性内容來決定。根據不同的具體實施例,步 驟S306可實施在TTS伺服器側(如第1圖所示的具體實 施例)或在該客戶端處(如第2圖所示的具體實施例)。 在步驟S307中,該客戶端的目前語料庫係基於所決 的聲音單7L來更新。例如,在一種實施中,僅取得一 組聲3單元sA’其屬於在步驟S306中決定的該聲音單元 組,但並未下載到該客戶端語料庫,且該組s△被加入到 ^ 客戶端浯料庫 scurrent(即 Scurrent = Scurrent + D,所以 參 I客戶端的目前語料庫對於後續語音合成來更新以 它。 在步驟S3 08中,其作出是否要繼續取得一文字性内 容的判斷。 如果該判斷的結果係要繼續取得一文字性内容該 流程回到步驟S303,否則該流程進入步驟S3〇9。 該流程結束於步驟S309。 請參照第4圖。將參照第4圖對於基於第3圖中的 ^〇tai決定文予性内容之聲音單元的步驟s3〇6進行更為 詳細的說明。 22 201034002 該流程開始於步驟S40 1。 在步驟S402中,該文字性内容 有相對應内容特徵之目標單元的列刀,產生一具 特徵包括:該目前單元、在該詩體等内容 中或字尾),在該句子中的位置,左2的位置(子頭、字 在步驟S403中,基於s郎、右子音等。 每個目垆罝ia # / 1據該等内容特徵對於 每個目標單兀選擇多個聲音單元候選者。該
參 於該裝置之資料處理速率及—卫作,程序基 如果該裝置㈣_或客作;端工裝 :率足夠•’該裝置可用於選擇最佳的聲音單 者。其類似於該TTS系統之單元選擇程序。 選 如果該裝置(TTS飼服器或客戶端裝置)的資料處理 速率不夠快,僅使用-目標成本方法來選擇最佳的聲音 單7L候選者》該裝置的文字分析構件將基於該等目標内 f特徵來預測該目標詩體。該估計的詩體包括該目標音 高及目標持續時S。然後’該裝置的單元選擇構件將比 較該目標詩體與該單元候選者的詩體之間的差異來取得 目標成本’藉以選擇該最佳聲音單元候選者。 如果該裝置(TTS伺服器或客戶端裝置)之資料處理 速率較慢,該等内容特徵即直接做為過濾條件。在此例 中,有解決方案I及解決方案11: 解決方案I。該等聲音單元候選者藉由比較該等目標 單70與該等聲音單元候選者之間的内容特徵來評等。例 如,可使用一組距離表。每個表格描述一特徵之兩個特 徵之間的距離。此表格可以人工設計或自動訓練(請參照 「基於修改的語料庫之小型中文TTS系統」("A Miniature Chinese TTS System Based On Tailored Corpus") > Zhiwei 23 201034002
ShUang 等人所發表,ICSLP 2002) β 一解決方案11。可使用一過濾處理來留下少數的聲音 單兀候選者。該過濾處理可節省評等的成本。在此藉由 範例說明兩個解決方案. 1 ·該過澹程序可利用對於每個特徵手動定義地順 完成。例如對於中文,要找到該單字中的位置對於 音節選擇非常重要所以在該單字巾的位置可以做為該 第一過濾條件,利用與該等目標單元具有相同「單字中 Φ 位置J的組聲音單元候選者。然後,其它特徵用於過 慮該等聲音單元候選者’直到留下一預先定義數目的聲 音單元候選者。 2.該過濾程序亦可利用一自動訓練的決策樹來完 成。該決策樹根據該詩體特徵的熵降低來訓練。該第一 選擇的分開條件通常為最重要的特徵。該決策樹根據該 目標單元往下走,直到留下一預先定義的單元候選者數 目° 本技藝專業人士可瞭解到雖然上述已經提供聲音單 ^ 元候選者基於St〇tal對於歷史文字性資訊之目標單元來選 擇的多個具截實施例之範例,這些範例僅為例示性而不 能視為限制本發明。事實上,在本技藝中任何已知的方 法可用來執行此步驟,因為本發明之技術性解決方案僅 針對基於Stoui對於歷史文字性資訊的目標單元選擇聲音 單元候選者之結果,該結果將做為更新該等客戶端扭= 庫之基礎。 在步驟S404中,所選擇的該等多個聲音單元候選者 被評等,並決定用於更新的一聲音單元組。基於先前的 單元選擇程序,該等多個聲音單元候選者被評等來指明 24 201034002 該歷史文字性内容之每個單元候選者之重要性具 要Γ:Γ元候選者較佳地是包括在用於更新的該 二:如前Ν個聲音單元候選者)。例如,該 此處例:兩:固早70候選者已經被選擇多少次來實施。 此處例不兩種可能的評等解決方案ί及π: 解決方案I.不同目標單元的多個聲音單元候 ❿ 參 等其ί種程序可確保最常使用的單元被優先評 面呼等疋而:險在於一些經常發生的單元永遠在最前 方一二:常發生的單元永遠在後面評等。因此, 解、方案對於一非常有限的領域可以良好地 例如股票市場報告、銀行服務等等。但對於一般性的領 域無法良好適用,例如新聞。 U的領 解決方案II:不同目樟簞矛Μ皮 個別地坪冑多聲音單元候選者被 = :字Ci中第i個目標單元之發生數 目了用於決疋留下的聲音單元候選者^的數目。… (CiWOO T為-線性函數,一對數函數或其它 同的函數可對於不同的使用方案來選擇。、 的是.在步驟_中,係包裝了屬於用於更新 立單元:广但尚未被下載到該客戶端語料庫中的聲 曰單兀組Sr該伺服器下載該 =二料庫仏,聲音單元之語音戶資端:(= Φ)及内谷資訊將被包括在此包裝甲。 該流程結束於步驟S406。 本技藝專業人士將可瞭解到雖然語 二r轉換:語音資料(例如轉換二 者,以執扞競:j日編碼々算法,例如amr_ wb或類似 執行轉換語音資料的語音遷縮,且語音資料在該 25 201034002 接收端側處被解壓縮之後使用。 第5圖圖解顯示可以實施根據本發明具體實施例之 一電腦裝置。 第5圖所不的電腦糸統包含一 CPU(中央處理單 元)5〇 1、一 RAM(隨機存取記憶體)5〇2、一 r〇m(唯讀記 憶體)503、一系統匯流排504、一硬碟機控制器5〇5、— 鍵盤控制器506、一序列介面控制器507、一並列介面控 制器508、一顯示控制器509、一硬碟機510、一鍵盤511、 一序列外部裝置5 1 2、一並列外部裝置5〖3及一顯示器 5 14。在這些組件當中,連接到系統匯流排5〇4的是cpu 501、RAM 502、ROM 503、HD控制器5〇5、鍵盤控制器 506、序列介面控制器507、並列介面控制器5〇8及顯示 控制器509。硬碟機510連接至HD控制器505 '而鍵盤 5 11連接至鍵盤控制器506、序列外部裝置512連接至序 列介面控制器507、並列外部裝置513連接至並列 制器508,而顯示器514連接至顯示控制器5〇9。 第5圖中每個組件的功能皆為本技藝中所熟知,且 φ 第5圖所不之架構為常見。這種架構不僅應用到個人電 腦,但亦可應用到掌上型裝置,例如palm pc、pDA(個 人資料助理)、行動電話等。在不同的應用中,一些組件 可被加入到第5圖所示的架構中,或可省略第5圖所示 的部份組件。第5 ®所示的整個系、统由電腦可讀取指令 二控制,其通常以軟體儲存在硬碟機51〇、或其 匕非揮發性記憶體。該軟體亦可由網路下載(未示於圖 中)。該軟體可儲存在硬碟機51〇中或自網路下載其可 ,入到RAM 502,並由CPU5〇1執行來實施該軟體^定 26 201034002 ▲因為第5圖所示的電腦系統能夠支援根據本發明之 浯音合成解決方案,該電腦系統僅做為電腦系統的範 例。本技藝專業人士將可瞭解到許多其它電腦系統設計 亦可執行本發明之具體實施例。 本發明可進一步實施成例如第5圖所示之電腦系統 所使用的電腦程式產品,其中包含實施根據本發明之語 音合成方法的程式碼。該程式碼可在使用之前儲存在其 它電腦系統之記憶體中。例如’該程式碼可储存在硬碟
機中或疋像疋一光碟片或軟碟片之可移除記憶體中, 或可經由網際網路或電腦網路下載。 當本發明之具體實施例 明時’本技藝專業人士可在 範_内進行多種修改或變化 已經參照該等附屬圖面做說 附屬申請專利範圍所定義的 【圖式簡單說明】 為了詳細例示木發明夕, 將參照到該等附屬= =與好處, m 參考編號代矣所古θ 如果可能的話,相同或類似的 中 圖面及說明中相同或類似的組件,其 戶丄對圖圖二顯示根據本發明-具體實施例中於-客 . 性内容執行語音合成之系統; 第2 @圖解顯示根 處針對一文字性示内根容據執本發r具體實施例中於一客戶端 第4圖顯示第仃所:音合成之方法的流程圖; 的流程圖丨及 圖所不之方法的一步驟之更為詳細 27 201034002 第5圖圖解顯示可 的一電腦裝置。 【主要元件符號說明】 - 10客戶端 11 TTS伺服器 a 12内容伺服器 13通訊網路 φ 20客戶端 21 TTS伺服器 22内容伺服器 2 3通訊網路 1〇1收發器 102語音合成構件 103語料庫管理構件 1 04語料庫 ill收發器 Ο 112聲音單元決定構件 113 #§·料庫管理構件 114語料庫 201收發器 • 202語音合成構件 • 203語料庫管理構件 204語料庫 205聲音單元決定構件 以實施根據本發明之具體實施例 211收發器 213語料庫管理構件 214語料庫 501中央處理單元 502隨機存取記憶體 503唯讀記憶體 5 04系統匯流排 505硬碟機控制器 506鍵盤控制器 507序列介面控制器 508並列介面控制器 509顯示控制器 510硬碟機 511鍵盤 5 12序列外部裝置 5 13並列外部裝置 514顯示器 112 1文字分析構件 1122單元選擇構件 2051文字分析構件 2052早元選擇構件 28

Claims (1)

  1. 201034002 七、申請專利範圍: 種在I戶端處針對__文字纟内容執行華音合$ 之方法,該方法包含下列步驟: a.基於該客戶端處一語料庫(⑶吓^)中的一目 刖聲曰單兀組Scurrent針對該文字性内容執行語音合 成; b·目應於判斷是否要更新在該客戶端處該語料 庫中的該目前聲音單元組, M)分析該文字性内容並產生具有相對 徵之一目標單元的列表; 饤 b 2)基於一整去里sΛ 單7°組Stotal根據該等内容特徵 選擇每個目標單元的多钿躲 干几扪夕個聲音单几候選者,該聲音單 組U Λ在該客戶端處該語料庫中的該目前聲音 單元組scurrent要豐富;及 穿it二:等多個單元候選者決定適合於該文 字性内令之BD a合成的聲音單元;以及 參 2. :基於該等決定的聲音單元更新該 語料庫中的該目前聲音單元組s_ente 如申請專利範圍第丨項所述 步驟: I <〈万忐,該方法包含下列 下f組;量的聲音單元So,其可針對所有種 類的文字性内容執行語音合成,且其可確保一可接受 的逢音合成品質’做為在該客戶端上該語料庫中的一 初始目前聲音單元組而使得Scurrent=s0。 如申請專利範圍第i項所述 另包含下列步驟: 之方去’其中該步驟b3 根據該文字性内容的重要性來評等該等多個聲 29 3. 201034002 音單元候選者,以決定用於更新該客戶端處該語料庫 中的該目前聲音單元組的一聲音單元組。 4. 5. 6. 8 如申請專利範圍第3項所述之方法,其中該步驟b 另包含下列步驟: b4.下載屬於用於更新的該聲音單元組且未包 括在該客戶端處該語料庫中的該目前聲音單元組之 一聲音單元組到該客戶端中;及 其中在該步驟c中 藉由使Scurrent = scurrent + 而更新在該完卢诚 上該語料庫中的該目前聲音單ment„客戶端 如申請專利範圍第3項所述之方法,其中該等單元候 選者係基於每個單元候選者已被選擇多少次來評等 如申請專利範圍第5項所述之方法,其中不同目標單 儿之多個聲音單元候選者係一起評等。 如申請專利範圍第5項所述之方法,其中每個目標單 70之多個聲音單元候選者係分別評等》 :::得在-客戶端處可針對一文字性内容執行語 曰〇成之系統,該系統包含: 2音合成構件,其組態成基於在該客戶端上語料 勃—扭立目刖聲音單兀組S<:Urrent針對該文字性内容 執仃sf音合成; -叙,1早兀決定構件,其組態成回應於判斷是否要 客戶端上該語料庫中的該目前聲音單元組 而執行以下步驟: 徵之:::文:性内容並產生一具有相對應内容特 试I目粮單几的列表; ^ 聲g單元組St()tal根據該等内容特徵選擇 30 201034002 每個目標單元的多個聲音單元候選者,該聲音單元组 St°tal比在該客戶端處該語料庫中的該目前聲音單元 組scurrent要豐富; 军日早兀 根據該等多個單元候選者 %可厌疋適合於該文字性 内容之語音合成的聲音單元;及 更新構件,其組態成基於該等決定的聲音單元更 新該客戶$上該語料冑中的肖目冑聲音單元組 Scurrent °
    9.如申請專利範圍第8項所述之系統,另包含. 組態以下载一組少量的聲音單元%之構件,其 可針對所有種類的文字性内容執行語音合成且其可 碟保-可接受的語音合成品質,做為在該客戶端上該 語料庫中的一初始目前聲音單元組而使得 Scurrent=S〇 ° A如申請專利範圍帛8項所述之系统,其中該聲 決定構件進一步組態成: 根據該文字性内容的重要性來評等該等多個聲 音單元候選者,以決定用於更新於該客戶端處該語料 庫中的該目前聲音單元組的一聲音單元組。 11.如申請專利範圍第10項所述之系統,其中該聲音 元決定構件進一步組態成: 9 決定屬於用於更新的該聲音單元組且未包括 該客戶端處該語料庫中的該目前聲音單元組之一 音單元組Sa ;及 其中該更新構件係組態成 藉由使得Scurrent = scurrent +呂八而更新在該客戶 端上該語料庫中的該目前聲音單元組Seui^ent。 31 201034002 1 2.如申請專利範圍第1 0項所述之系統 元決定構件係組態成基於每個單元 擇多少次來評等該等單元候選者。 1 3 .如申請專利範圍第1 2項所述之系統 元決定構件係組態成一起評等不同 聲音單元候選者。 14.如申請專利範圍第12項所述之系統 元決定構件係組態成分別評等每個 聲音單元候選者。 ,其中該聲音單 I選者已經被選 ,其中該聲音單 3標單元之多個 ,其中該聲音單 Ϊ標單元之多個
    32
TW98106707A 2009-03-02 2009-03-02 用於語音合成之方法及系統 TWI415110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW98106707A TWI415110B (zh) 2009-03-02 2009-03-02 用於語音合成之方法及系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW98106707A TWI415110B (zh) 2009-03-02 2009-03-02 用於語音合成之方法及系統

Publications (2)

Publication Number Publication Date
TW201034002A true TW201034002A (en) 2010-09-16
TWI415110B TWI415110B (zh) 2013-11-11

Family

ID=44855380

Family Applications (1)

Application Number Title Priority Date Filing Date
TW98106707A TWI415110B (zh) 2009-03-02 2009-03-02 用於語音合成之方法及系統

Country Status (1)

Country Link
TW (1) TWI415110B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9812121B2 (en) 2014-08-06 2017-11-07 Lg Chem, Ltd. Method of converting a text to a voice and outputting via a communications terminal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728708B1 (en) * 2000-06-26 2004-04-27 Datria Systems, Inc. Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
TWI336879B (en) * 2007-06-23 2011-02-01 Ind Tech Res Inst Speech synthesizer generating system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9812121B2 (en) 2014-08-06 2017-11-07 Lg Chem, Ltd. Method of converting a text to a voice and outputting via a communications terminal
TWI613641B (zh) * 2014-08-06 2018-02-01 Lg化學股份有限公司 將文字資料之內容輸出成發送者之語音的方法與系統

Also Published As

Publication number Publication date
TWI415110B (zh) 2013-11-11

Similar Documents

Publication Publication Date Title
US20210327409A1 (en) Systems and methods for name pronunciation
US8321223B2 (en) Method and system for speech synthesis using dynamically updated acoustic unit sets
US11922924B2 (en) Multilingual neural text-to-speech synthesis
CN108962217B (zh) 语音合成方法及相关设备
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
JP2021103328A (ja) 音声変換方法、装置及び電子機器
CN113892135A (zh) 多语言语音合成和跨语言话音克隆
US9812120B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US20150149149A1 (en) System and method for translation
US20190034542A1 (en) Intelligent agent system and method of accessing and delivering digital files
US9190049B2 (en) Generating personalized audio programs from text content
TWI276046B (en) Distributed language processing system and method of transmitting medium information therefore
US10824664B2 (en) Method and apparatus for providing text push information responsive to a voice query request
JP2019533212A (ja) 音声放送方法及び装置
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN1675681A (zh) 客户机-服务器语音定制
US20220215827A1 (en) Audio synthesis method and apparatus, computer readable medium, and electronic device
Dethlefs et al. Conditional random fields for responsive surface realisation using global features
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
TW201034002A (en) Method and system for speech synthesis
JP2022117756A (ja) タグ付け方法およびタグ付け装置
CN113868445A (zh) 续播位置确定方法、续播系统
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees