TW201034002A

TW201034002A - Method and system for speech synthesis

Info

Publication number: TW201034002A
Application number: TW98106707A
Authority: TW
Inventors: Zhi-Wei Shuang; fan-ping Meng; Qin Shi; Yong Qin
Original assignee: Ibm
Priority date: 2009-03-02
Filing date: 2009-03-02
Publication date: 2010-09-16
Also published as: TWI415110B

Description

201034002 六、發明說明：【發明所屬之技術領域】本發明概略關於一種文字轉語音（TTS，“Text to speech”）技術，特別是一種在一客戶端處針對一文字性内容執行語音合成之方法及系統。【先前技術】一種文字棒語音（TTS)系統係為使人透過語音存取所需要資訊的一種廣為使用的技術。一種典型的應用係要將一可由一使用者經由網際網路存取的一文字性内容，改變成位在一客戶端的語音，該客戶端像是桌上型電腦、膝上型電腦或一掌上型裝置，例如行動電話、個人數位助理或類似者。因此，該使用者可以不需要讀取該文字而取得資訊。對於這種應用，該使用者需要載入一 TTS系統到他的客戶端中。現今有愈來愈多的使用者想要經由網際網路下載一 TTS系統，而非使用記錄在一儲存媒體上的一複本。目前，大多數的TTS系統基於聲音單元的選擇及串連而執行語音合成。基於多個單元的選擇及串連之語音合成需要大量的聲音單元，藉以得到令人滿意的語音。例如，一 IBM中文TTS系統使用25，000個句子做為一語料庫來合成良好品質的語音，其約為4GB。當然，這些聲音單元可利用一些語音編碼演算法被壓縮成200MB，而不會影響該語音品質太多。但是，對於透過網路下載語音資料的使用者而言，一次下載200MB的語音資料是非常大的下載量。使用者必須等待相當長的時間才能開 201034002 始使用該語音資料。

基於上述的問題’因此提出一種解決方案如下：儘可能地縮小一語料庫來取得一較小的TTS系統（例如 20MB )用於語音合成’以促進成功地合成多種文字性内谷’並確保一可接受的語音品質。在此例中，使用者僅需要等待非常短的時間（例如下載20MB資料的時間）來開始使用TTS系統。因為該下載的TTS系統之語料庫有限’在使用TTS系統期間由使用者取得的語音合成品質將會很差。從使用者之使用心理來看，這種不^的=音合成品質在剛開始使用該系統的短期内可能被接受但在長期使用之後將無法被接受。歐洲專利申請案W006128480A1，其揭示一通訊網路上提供使用者終端上語音合成的方法與系統。在此專利中’ sf音合成的基本資料庫先被下載到一使用者終端上，且在該TTS飼服器側上根據可能的主題事先產生多個增值語料庫資料庫，例如經濟、運動、漫畫等等。當一使用者利用此ττς会々W用此11 b系統存取一文字性内容時，該系統擷取該文字性内容的主題，根據該主題選擇一相對應增值語料座誉制_ -, m . ή資科庫並加入該增值語料庫資料庫到 =立端上之基本資料庫來進行該文字性内容之語成。相較於先前的解 J秤决方案，此解決方案可使得使用者快速地下載一較4、的 ^ m .. m J的TTS系統，並可很快地開始使用。利用此解決方索，掛括$ w 士餅以贫纽立人1 增值資料庫可一點一點地增加，所以該音合成品質可拉链认# ¥ 意程度。持續地改善，並增進使用者的滿基於此解決方案内谷（主題）（例如經濟每個客戶端需要指定該等既有的運動、漫畫等等）之一到要被合成 201034002 文字，選擇存在於該TTS伺服器側上的一動貝等'選擇-增值語料庫資料庫’例如濟：運曼畫等等）’然後下載該增值語料庫資料庫。決方Γ中洲有專Γ…_28480Αι所揭示的技術解 Η Λ / 制。此係因為在實際的語音合成期二要二成類似的内容(主題)之内容可能需要一完全不同關於即音節)組。例如，以運動為主題的文字可以在簦立i籃球藉此這兩個實際内容在語音合成期間在睪3單中有很大的不同。因此，在指定一特定内容（主到該文字來根據該特定内容下載—預先產生的特定語之&種解決方案對於基於該選擇及串連的TTS系統而言並不準確。因此’湘此解決方案根據—主題來下 f一語料庫資料庫將不會使得一客戶端有效地改善該語曰0成βο質，且使用者仍可能不滿意該合成品質的這種改善。因此，需要一種TTS系統式之文字轉語音解決方案及方法，其不僅可支援一使用者在短時間内下載及使用 Φ 一文字轉語音系統，亦可有效地由使用者進一步使用該系統來改善該語音合成品質，藉此可增進該系統之文字轉語音之服務效能。【發明内容】為了克服先前技術的限制，本發明係要提供一種在一客戶端執行語音合成成為一文字内容之方法與系統，其不僅可支援一使用者在短時間内下載及使用一文字轉語音系統’亦可適應性地當該使用者進一步使用該系統時改善譚語音合成品質。因此，該系統之文字轉語音服 201034002 務效能可以有效地增進。 :據本發明一種態樣’其提供一種用於在_戶 m文字性内容執行語音合成的方法。該方法包含端 :客戶端處—語料庫中的一目前聲音單否對該文字性内容執行語音合成；回應於判斷是 -組，分析該文字性内容並產生具有相對應内目標單元的列表，基 T愿円今将徵之一 v 4® '聲曰單元組st〇u丨根據該等内容 ❹母個目標單元的多個聲音單元候選者，該；: 单疋組st。…會比在該客戶處聲曰單元組S 尸端處該語枓庫中的該目前聲音適…二内：’且根據該等多個單元候選者決定迥口仄该文字性内容之語音合等決定的聲音單S更新在並基於該前聲音單MS_ent。端處該語料庫中的該目端處2本發明另—種態樣’其提供-種用於在一客戶含:語音合成構件，其二Γ:成的系統。該系統包 .…目前：:單元:S成基:f該客戶端處-語料庫 ❹音合成•獻立e -、、 eurrent針對該文字性内容執行語要更新在=π決定構件’其組態$回應力判斷是否行以下的=戶端處該語料庫中的該目前聲音單元而執容特徵之目：ί析的該二字性内容並產生一具有相對應内該等内容特徵選擇每個目椤單組St—根據者，今麻立抵- 標單兀的多個聲音單元候選前聲;單：疋組St〇ta,比在該客卢端處語料庫中的該目者“、奋:’且SC—要豐富；且根據該等多個單元候選 ΐΐ::Γ文字性内容之語音合成的聲音單元，·及、組態成基於該等決定的聲音單元更新在該 201034002 客戶端處語料庫中目前聲音單元組Scu_nt。本發明的技術解決方案可以支援該使用者在短時間内下載並使用一文字轉語音系統。因為本發明直接選擇及下載對於在該客戶端處歷史文字性内容之語音合成最為重要的聲音單元’其使得關於該文字性内容之語料庫更為準確地在該客戶端處被下载及更新。當該使用者進二步使用該系統時，根據本發明之客戶端可以在語音合成〇〇質K取得一有的故¥ „ 令双的改善’所以可以增進該文字轉語音服務效能。

阁本發明的其匕特徵及好處將可由以下配合該等附圖面之本發明的具體實施例之詳細說明而更加瞭解。【實施方式】方索：使用者不能夠利用該等既有的技術解決行的文字轉語音取得語音合成的案動態地更新由-客戶該等既有的技術解決方由使用根據主題之增值語料庫資料庫(例如藉音合成的增值語料庫資料庫並不人：：類：内容來選擇語料庫成為目前被合成之内容。《’其無法調整-語本發明的發明人已經注處執行語音合成，特別是在2一使用者正在-客戶端為網路内容文字，其在一戶端處執行語音合成成前合成的文字性内容之間成的文2性内容與一先此，本發明的原理為：在開始有較高的關連性。因語料庫到一客戶端當中，，一使用者下載一較小的，其可確保一可接受的語音品 9 201034002 1得：：該客戶端的目前語料庫來執行語音合成，藉以使侍該使用者儘快地使用一 TTS系統來針對一網路文性內容執行語音合成·终後，+兮 ’

έ站吐百口珉，然谩田该使用者正在使用該TTS ;字性内：經執行語音合成的-文字性内容，即-歷史談冇服器二之聲音單元即基於—語料庫來選擇(例如在 =服m㈣的—龍語料庫，㈣w s分所得到的一攻注粗 _ 精目料庫會㈣客戶端處的目別》»科庫要豐富，其中通常可由的單元的該語音合成達到哕爲步令全ω ^等選擇的聲音合成品質；接著，今客内Κ較佳：的語音擇的眷立留-處前語料庫即基於該選 ::聲…而更新。例如，決定未包括在該客戶端之到該客卢…由％擇的聲“疋，且該組合被下載括對於丄且該客戶端的目前語料庫被更新來包 =端=語料庫即被用於一後續文字性内容3 已：執mi此程序’該客戶端的目前語料庫根據 ❹

St: 成的該文字性内容(歷史文字性内容】所以該語音合成品質可持續地改善，且可)；進使用者的滿意程度。夂且r增以下將參照該等附屬圖面對於本發明之且體實施進行詳細的說明。货Λι八體實施例首先參照第1圖。嗜阁团如β 實施例中於-客戶端處d示根據本發明-具難功能的-使用者裝置，t如客λ端，其可為需要使用咖行動電話、個人數位助理等5!電腦、膝上型電腦、其可為能夠提供該客戶端τ 11代表tts伺服器，磲TTS服務之任何遠端或近蠕伺 10 201034002 艮：’ 12代表一内容伺服器’其可為能夠提供該客戶端所有種類的網路㈣資訊之任何遠端或近❹服器· Μ ::-連接個別裝置之通訊網路，其可為一區域網路、廣域網路、企業内網路、網際網路等等。在帛的TTS系統中，多個客戶端（藉由範例方式僅例示_ = 戶端，即客戶端1〇) ’其透過通訊網路13連接到内容伺服器12來取得網路文字性内容。該等多個客戶端可以直接（如第1圖所示）或透過一通訊網路（未示出）連接至tts ❹ ❿ 伺服器11，藉以取得服務，例如下載該TTs系統。如第1圖所示，客戶端10包含：收發器1〇1、語音合成構件102、語料庫管理1〇3及一語料庫1〇4。客戶端透過收發H HH與其它網路單元⑷服器)通訊。語構件1G2基於在—目前語料庫中聲音單元的選擇及轉換：文字性内容到語音，並經由一剩π八輸出該語音。语料庫管理構件103係用於維護語料庫1〇4之案，並管理在語料4 104中聲音單元的取得及更新。扭 ::1〇4具有一組儲存用於語音合成之客戶端的本地‘ 音單元。 TTS伺服器U包含:收發器lu、聲音單元決定構 m、語料庫管理構件113及一語料庫U[TTS伺服器 11透過收發胃111與其它網路單元（客戶端）進行通訊。聲音單元決定構件112係用於決定一聲音單元組於更新一客戶端的本地語料庫。語料庫管理構# 113、於在該伺服器側上維護語㈣114的一索引播宰，並理語料庫m中聲音單元的取得。語料庫114儲存一組該祠服器的聲音單元。該伺服器提供該聲音單元組的— 次組合或通用組合到該客戶端做為該客戶端的本地 11 201034002

的語料庫。因此’位於該伺服器側的語料庫114通常比該客戶端本地儲存的語料庫104要具有更多的聲音資源。根據本發明一具體實施例，聲音單元決定構件i 12 包含文字分析構件1121與單元選擇構件U22 «3在一種實施中，文字分析構件丨121係用於分析一文字性内容並產生一具一相對應内容特徵之目標單元的列表。單元選擇構件1122基於在該TTS伺服器侧上的語料庫113決定適合於該文字性内容之目標單元的語音合成之聲音單元候選者，所以語音合成的一聲音單元可自該等聲音單元候選者中選出》TTS伺服器11基於該等選擇的聲音單元更新該客戶端的目前語料庫。以下將對於第1圖所示的架構中每個網路元件之作業程序進行詳細的解釋。| 了例示起見，對於以下的符號具有定義如下： 1. seurrent: —語音合成的聲音單元組，其係本地性儲存在該客戶端處，即在該客戶端處一本地語料庫中一音單元組。 2· S〇:-聲音單元組’其為該客戶端在—初始狀態下自該TTS伺服器下載者。在一較佳具體實施例中，可為-少量的聲音單元組，其為實施所有種類的文字性到語音合成，並確保-使用者可接收的語音合成品質所需要者。當S。被下載到該客戶端的語料庫中，s—4 於S〇。 3. Stotal:儲存在TTS伺服器上一語料庫中之一聲音單元組。St〇tal通常比於該客戶端處本地儲存的^ 具有豐富的聲音資源。也就是說，該客戶端的語料庫為 tts飼服器之語料庫的次組合，即s_ 3 12 201034002 出：是雖然在TTS飼服器上該語料庫中的聲戶：處W其要瞭解到、1係相對於在該客維護的整li次組合Scurrent。St〇tal可為由TTS伺服器之二一個語料庫，或由TTS伺服器維護的整個語料庫 ·所得^的部份（例如根據某個規則等等區分整個語料庫 ·. Π多:：：定部份)，只要其比該客戶端的語料庫要具發明之例資Γ本技藝專業人士可瞭解到在閱讀本整個語料庫之二聲：ί佳：是為該TTS伺服器所維護的 Ο 的级立人聲0單兀組。依此方式，於該客戶端處 π a σ成品質可更為有效地改善。卢通H·自該聲音單元決定構件所決定要下载到該客端中藉以豐富該客戶端的語料庫之聲音單元組。操二將藉由實際範例例示如第1圖所示之該系統的在一初始狀態下，客戶端1〇的使用者開啟該tts服務功能，且客戶端10自TTS伺服器u下载s〇做為 sgcurrent，並將其儲存到本地語料庫1〇4中用於語音合成。 β 客戶端10經由通訊網路13自内容伺服器12取得一文字性内容C!。而客戶端1〇的收發器1〇1傳送該接收到的文字性内容〇到語音合成構件1〇2。然後，語音合成構件102透過語料庫管理構件1〇3取得語料庫1〇4中 scurrent(此時Scurrent=s〇)的聲音單元來合成語音並透過一 t八輪出該語音。語音合成構件1G2可包含基於爪技術之語音合成所需要的個別功能性模組，其中包括例如文字分析構件及單元選擇構#。這些功能性模組之操作原理及操作程序為人所熟知，並可以用於串連的文字轉語音系統之任何方法來實施。本發明的說明僅著重在 13 201034002 關於本發明之語音合成構件的功能及效果，並省略其詳細實施。與先前技藝不同的是’根據本發明之具體實施例的技術解決方案甲，當該使用者基於語料庫104的目前聲音單元組心^^…取得文字性内容ci的合成之語音時’客戶端10經由收發器1〇1傳送文字性内容C1到飼服器11，藉以可調整式地更新客戶端1〇上的本地語料庫 1 04。在TTS伺服器11側上，收發器u丨自客戶端1 〇接 ❿ 收文子性内容C1’並將其傳送到聲音單元決定構件I!〗。以操作原理與操作程序的角度類似於一傳統TTS系統之語音合成構件’雖然聲音單元決定構件112並不執行實際的語音合成，但透過單元選擇決定聲音單元候選者，藉以更新相對應的客戶端處的語料庫。在如第丨圓所示的具體實施例中，聲音單元決定構件112包含文字分析構件1121與單元選擇構件1122〇文字分析構件“Η分析該文字性内容C1 ’並產生一具有相對應的内容特徵之目標單元的列表。單元選擇構件1122基於語料庫ιΐ4中 ❿的Swal選擇適合於文字性内容C1之目標單元的語音合 =多個聲音單元候選者1單元選擇可基於目標單元 =内容特徵（例如目前單元）、在詩體單字（字頭、字广中的位置’在句子中的位置、左音節、來 m聲音單元決定構件112基〜其比客戶端餘、有更多的聲音資源）選擇文字性内容C1之义選聲音單元，以藉由使用該 2成為文字性内容C1，其通常要比在該；;=二種^之效能要具有一更 I端處的& 定構件112基於來自嗲單开二曰°成°°質。聲音單元決來自料70選擇的結果決定要用於更新 14 201034002 在客戶端】〇上的本地語料庫之一聲音施中，眷立—早凡組。在一種實 Μ聲《 h決定構件U2直接決 ’ 元候選者做為用於更新客户端有聲音早 g, * 尸觸V上本地語料庫之一簦立早兀組。聲音單元決定構件亦可使用聲印 • #化評等結果來決定用於更新在客戶端10上太：Γ的最 1-聲音單元組。例如，每個目伊單端乂0ί本地語料庫 -候選者可全部一起坪蓉2 單70的多個聲音單元起评等，或個別地評等⑼如根早r已經被選擇的數目)，藉以決定用於更新的：聲曰單70組。本技藝專業人士要瞭解到雖裨聲音單 •定構件m執行在TTS系統中之該單元=;早= 非要做為實際語音合成。因此，爽竇# Λ 語料庫索引標案（圖中未示出）而不舍括該語料庫的所有聲音單元之性f索引，形。會造成儲存在該語料庫中聲音單元之實際音訊波 =下來’聲音單元決定構件112通知該決定的聲音單70 ^之語料庫管理構件η〗。語料庫管理構件I"自參TTS词服器u上的語料庫114取得相對應聲音單元（音訊波，），藉以更新在客戶端10上的本地語料庫10心較佳地疋’ #料庫管理構件113僅取得屬於該決定的聲音單疋組且未包括在客戶端10上的Scurrent中之一組聲音單 π ’即SA(在-種實際實施中，該單元組s△可藉由查詢在_s伺服器u上維護的該客戶端語料庫之一組態檔案 (未不出）所決定）°TTS伺服器11經由收發器111傳送SA 到客户4 10進行語料庫更新。TTS祠服器1〇可更新由其對於客戶端10所維護的該組態檔案，藉以記錄更新的語料庫104之組態在客戶端1〇上。 15 201034002 客戶端10之收發器101接收S△，並將其傳送到客戶端10處的本地語料庫管理構件103。然後，語料庫管理構件103加入到語料庫1 〇4，藉以更新語料庫1 〇4，以使知Scurrent = S〇 + S△，並進一步更新語料庫丨〇4的索引檔案。當客戶端10透過通訊網路13自内容伺服器12取得一新的文字性内容C2(未示出）時，語音合成將基於語料庫104中更新的Scurrent，即s〇 + SA來實施。因為通常在目前合成的文字性内容與先前合成的文字性内容之間有較高的關連性，基於對於C1的單元選擇所擴充的語料庫對於C2執行的語音合成通常可有效地增近該語音合成品質。類似地，C2亦被傳送到TTS伺服器u做為一歷史文字性内容來決定，以進一步更新該客戶端的本地語料庫104。此適應性更新客戶端1〇之語料庫ι〇4的程序在當該使用者持續地使用該客戶端TTS系統時以循環方式實施。最後’在TTS祠服器n上的整個語料庫被下載到客戶端10中。依此方式’語音合成的歷史文字性内容漸漸地增補到該客戶端之語料庫的聲音單元組中，藉以確保在更短的時間内可以有效地改善在該客戶端處的笋音合成品質。當然’終止該可適應性更新程序的 ^ 以人工地設定，藉以停止更新該客戶端的語料庫。根據第1 ®所示的該具體實施例，基於在處歷史文字性内容來決定要被更新之聲音單元的在該TTS飼服器側處實施。在此具體實施例中、服器以中央化的方式管理在每個客戶端上的語料 r 新，因A需要執行決定對於每個客戶端所要單元的作業。顯㈣TTS伺服器將要承受巨量的運算： 16 201034002 在該TTS㈣器側處的操作成本。在本發明另二：實施例中，決定要對一客戶端更新之聲音單元的作業亦可用-分散式方式在每個客戶端上本地性地施。以下將參照第2圖提供此具體實施例之說明。 .第2圖為根據本發明另一具體實施例中於一客 =對^字性内容執行語音合成之系統。參考編號2〇 =表-客戶端’其可為需要錢阳㈣的—使用置，例如桌上型電腦、膝上型電腦、行動電話個人數

:::等等’ 21代表一 TTS伺服器，其可為能夠提供該，戶端TTS服務之任何遠端或近端伺服器；22代表服器’其可為能夠提供該客戶端所有種類的網路内 t資訊之任何遠端或近端伺服器；23代表—連接個別裝之通訊網路，其可為一區域網路、廣域網路、企業内 :路、網際網路等等。類似於第i圖㈣TTS系統，第2圖所不的TTS系統中’多個客戶端（藉由範例方式

，例示-個客戶端，即客戶冑2〇)’其透過通訊網路U 連接到内容祠服器12來取得網路文字性内容。該等多個客戶端可以直接（如第2圖所示）或透過一通訊網路（未示出）連接至TTS伺服器21，藉以取得服務，例如下載該 TTS系統。如第2圖所示，客戶端2〇包含：收發器2〇1、語音合 j構件202、語料庫管理2〇3、語料庫2〇4及（特別是）聲音單元決定構件205。利用類似於第1圖所示之具體實施例中的tts伺服器10之聲音單元決定構件112者之構造與功能，聲音單元決定構件2〇5可以包含文字分析構件 05 1與單元選擇構件2052。TTS伺服器21包含收發器 211、語料庫管理構件213與語料庫214。 17 201034002 以下將提供第2圖所示之架構的每個網路元件之操作程序的詳細說明。為了例示的目的，該等符號Scurrent，S〇, Stotal及S△係參照前述定義來介紹。現在將藉由實際範例例示如第2圖所示之該系統的操作程序。在一初始狀態下，客戶端2〇的使用者開啟該TTS服務功能，且客戶端20自TTS伺服器u下載％做為 sgcurrent，並將其儲存到本地語料庫2〇4中用於語音合成。

…客戶端20經由通訊網路23自内容伺服器22取得一文子性内容C卜而客戶端20的收發器2〇1傳送該接收到的文字性内容ci到語音合成構件202。然後，語音合成構件202透過語料庫管理構件2〇3取得語料庫2〇4中

Scurrent(此時Seurrent=SQ)的聲音單元來合成語音並透過喇叭輸出該語音。語音合成構# 2〇2之操作原理及操 =序為人所熟知，並可以用於串聯的文字轉語音系統之任何方法來實施。其在當該使 current取得文字與參照第1圖所述之具體實施例不同於語料庫204中目前聲音單元組Sc—… t C1之合成的語音時，客戶端2〇之聲音單元決突 ^件205進—步基於文字性内容^決u於更新客戶对 2〇上語料庫204之一聲音單元組。以操作原理與操作程序的肖度類似於—傳統爪% 統：語音合成構件，然而聲音單元決定料2〇5並不彰 :實：语音合成，而是經由單元選擇決定聲音單元候遥元沐Ϊ以更新在-相對應客戶端上該語料庫。在聲音身 :決2件205中，文字分析構件則分析文字性内笔幻’並產生一具有相對應内容特徵之目標單元 18 201034002 早兀選擇構件2052基於TTS飼服 S—選擇適合於文字性内容〇亡“斗庫214中之多個聲音單元候選者。此處必須；語音合成由川飼服器21取得其語料庫2 _的疋二端^可，&括U所有聲音單元的性”引“丨檔案，其可決定構件205可執行基於、… 早凡 S-中聲音單元之實際音訊波形。聲音== 基於來自該單元選擇的二構件205 •罝分法-接I 聲曰單"°組。在—種實施中，聲音單/0決疋構件205直接決定該為用於更新客戶端"擎曰單疋候選者做端0上本地語料庫之一聲音單元纟ae| 音單元決定構件205亦可使 :曰單70組。聲果來決定用於争齡产分的最佳化評等結果來決疋用於更新在客戶# 2〇上本地語 …例如，每個目標單元的多個聲音單元候選部一起評等，或個別地評等（例如根據每個候選聲音單元已經被選擇的數目)，藉以決定用於更新的一聲音單元单二抑一接下來聲日單元決定構件2G5通知該決定的聲音參單元組之語料庫管理構件203。語料庫管理構件2〇3取屬於該決一定的聲音單元組但未包括在客戶端20上的 Scurrent之一組聲音單元，即δΔ。語料庫管理構件2〇3藉由查詢該客戶端的語料庫之索引檔案（Scurrent的索引檔案）來決定S△的索引檔案。然後，客戶端2〇經由收發器傳送S△的索引槽案到tts伺服器21。在tts飼服器21側，收發器211自客戶端2〇接收對應於Sa的索引檔案，並將其傳送到語料庫管理構件 213。然後，語料庫管理構件213自語料庫214(^。^丨）取得S△’藉以取得S△中聲音單元的音訊波形。藉由收發器 19 201034002 211得到的SA被傳送到客戶端2〇。於客戶端20側，收發器21〇傳送該接收的s△到語料庫管理構件203。且語料庫管理構件2〇3加入s△到語料庫204，藉以更新語料庫2〇4來使得= % +心，並進一步更新正在被維護的語料庫2〇4之索引檔案。當客戶端20透過通訊網路23自内容伺服器22取得一新的文字性内容C2(未示出）時，語音合成將基於語料庫204中更新的scurrent(即S〇 + d來實施。因為通常在目則a成的文字性内容與先前合成的文字性内容之間有較高的關連性，基於對於C1的單元選擇所擴充的語料庫對於C2執行的語音合成通常可有效地增近該語音合成品質。類似地，客戶端20之聲音單元決定構件2〇5基於做為歷史文字性内容之C2決定％來進一步更新該客戶端的本地語料庫204。客戶端20自TTS伺服器21下载

並再一次更新語料庫204用於一後續新的文字性内容之語音合成。此可適應性更新客戶端2〇上的語料庫2〇4之程序係當該使用者使用該客戶端TTS系統時以循環方式實施。最後，在TTS伺服器21上的整個語料庫被下載^ 客戶端20中。依此方式，語音合成的歷史文字性内容逐漸地增補到該客戶端之語料庫的聲音單元組中，藉以確保在更短的時間内可以有效地改善在該客戶端處的語立合成品質。當然’終止該可適應性更新㈣的條件^ 人工地設定’藉以停止更新該客戶端的語料庫。第3圖顯示根據本發明一具體實施例中於—客戶處針對一文字性内容執行語音合成之方法的流程圓。為了例示的目的，該等符號s〇, &。…及係參照前述說明來引用。 Λ 20 201034002 使用者開啟該TTS服務功能，因在步驟S301中，此開始該流程。在步驟S302中，該基本語料庫被下載來使得 Scurrent = s0。此步驟可在當例如一客戶端正在初始化一 ===來執订。該客戶端自一 TTS伺服器下載該預先疋義的基本語料庫so，且使用so做為該客戶端語料庫 scurrent來進行語音合成。此使得該使用者使用該TTS 統，而不需要等待很久。、 ❿ ❹ 戚可i3s303中’接收到一新的文字性内容。該客戶 "透過一通訊網路自一内容伺服器揍收容之所有種類的資訊。又子性内在步驟S304中，基於Scurrent針對該文字性語音合成。該文字性内容經由在目前語料庫中的 π Seurrent之選擇及串連被轉換到語音，且該語音喇叭輪出》 ’ 2驟S305中’其判斷是否要更新該客戶端語料庫。對於該判斷可利用多種條件。代表：ί,ί 一典型的狀況下，如果S—= s_，此 q客戶端#料庫已經取得所有可使用的聲音單元，以其決定該客戶端語料庫並不需要被更新。範例中，可經由預設的條件（例如預設的參 Ϊ判合成品f等等）或甚至經由該使用者的指示

系统要更㈣客戶端語料庫。由該客戶端TTS 糸統所執行的語音合成品皙肱庫更新解決方宏沾、f將在執订根據本發明之語料新解決方案的初始階段中明顯地增加且這種扭立二成品f的增加將在稍後的階段中減慢或甚至停止。二時’如果該使用者認為該語音合成品質已經滿足他 21 201034002 望，則該客戶端語料庫並不需要被更新。依此方式，在該客戶端處及/或在TTS伺服器侧的運算資源可以被節省。根據不同的具體實施例，在步驟S305中的判斷可以 • 實施在TTS伺服器側處或在該客戶端當地。如果該判斷的結果係要更新該客戶端語料庫該流程進ρ到步驟S306。如果該判斷的結果係不要更新該客戶端語料庫，該流程進行到步驟S308。 • 在步驟S306中，語音合成的一聲音單元組基於stotal 對該文子性内容來決定。根據不同的具體實施例，步驟S306可實施在TTS伺服器側（如第1圖所示的具體實施例）或在該客戶端處（如第2圖所示的具體實施例）。在步驟S307中，該客戶端的目前語料庫係基於所決的聲音單7L來更新。例如，在一種實施中，僅取得一組聲3單元sA’其屬於在步驟S306中決定的該聲音單元組，但並未下載到該客戶端語料庫，且該組s△被加入到 ^ 客戶端浯料庫 scurrent(即 Scurrent = Scurrent + D，所以參 I客戶端的目前語料庫對於後續語音合成來更新以它。在步驟S3 08中，其作出是否要繼續取得一文字性内容的判斷。如果該判斷的結果係要繼續取得一文字性内容該流程回到步驟S303，否則該流程進入步驟S3〇9。該流程結束於步驟S309。請參照第4圖。將參照第4圖對於基於第3圖中的 ^〇tai決定文予性内容之聲音單元的步驟s3〇6進行更為詳細的說明。 22 201034002 該流程開始於步驟S40 1。在步驟S402中，該文字性内容有相對應内容特徵之目標單元的列刀，產生一具特徵包括：該目前單元、在該詩體等内容中或字尾），在該句子中的位置，左2的位置（子頭、字在步驟S403中，基於s郎、右子音等。每個目垆罝ia # / 1據該等内容特徵對於每個目標單兀選擇多個聲音單元候選者。該

參於該裝置之資料處理速率及—卫作，程序基如果該裝置㈣_或客作;端工裝 :率足夠•’該裝置可用於選擇最佳的聲音單者。其類似於該TTS系統之單元選擇程序。選如果該裝置（TTS飼服器或客戶端裝置）的資料處理速率不夠快，僅使用-目標成本方法來選擇最佳的聲音單7L候選者》該裝置的文字分析構件將基於該等目標内 f特徵來預測該目標詩體。該估計的詩體包括該目標音高及目標持續時S。然後’該裝置的單元選擇構件將比較該目標詩體與該單元候選者的詩體之間的差異來取得目標成本’藉以選擇該最佳聲音單元候選者。如果該裝置（TTS伺服器或客戶端裝置）之資料處理速率較慢，該等内容特徵即直接做為過濾條件。在此例中，有解決方案I及解決方案11: 解決方案I。該等聲音單元候選者藉由比較該等目標單70與該等聲音單元候選者之間的内容特徵來評等。例如，可使用一組距離表。每個表格描述一特徵之兩個特徵之間的距離。此表格可以人工設計或自動訓練（請參照「基於修改的語料庫之小型中文TTS系統」（"A Miniature Chinese TTS System Based On Tailored Corpus") > Zhiwei 23 201034002

ShUang 等人所發表，ICSLP 2002) β 一解決方案11。可使用一過濾處理來留下少數的聲音單兀候選者。該過濾處理可節省評等的成本。在此藉由範例說明兩個解決方案. 1 ·該過澹程序可利用對於每個特徵手動定義地順完成。例如對於中文，要找到該單字中的位置對於音節選擇非常重要所以在該單字巾的位置可以做為該第一過濾條件，利用與該等目標單元具有相同「單字中 Φ 位置J的組聲音單元候選者。然後，其它特徵用於過慮該等聲音單元候選者’直到留下一預先定義數目的聲音單元候選者。 2.該過濾程序亦可利用一自動訓練的決策樹來完成。該決策樹根據該詩體特徵的熵降低來訓練。該第一選擇的分開條件通常為最重要的特徵。該決策樹根據該目標單元往下走，直到留下一預先定義的單元候選者數目° 本技藝專業人士可瞭解到雖然上述已經提供聲音單 ^ 元候選者基於St〇tal對於歷史文字性資訊之目標單元來選擇的多個具截實施例之範例，這些範例僅為例示性而不能視為限制本發明。事實上，在本技藝中任何已知的方法可用來執行此步驟，因為本發明之技術性解決方案僅針對基於Stoui對於歷史文字性資訊的目標單元選擇聲音單元候選者之結果，該結果將做為更新該等客戶端扭= 庫之基礎。在步驟S404中，所選擇的該等多個聲音單元候選者被評等，並決定用於更新的一聲音單元組。基於先前的單元選擇程序，該等多個聲音單元候選者被評等來指明 24 201034002 該歷史文字性内容之每個單元候選者之重要性具要Γ:Γ元候選者較佳地是包括在用於更新的該二:如前Ν個聲音單元候選者)。例如，該此處例：兩：固早70候選者已經被選擇多少次來實施。此處例不兩種可能的評等解決方案ί及π: 解決方案I.不同目標單元的多個聲音單元候 ❿ 參等其ί種程序可確保最常使用的單元被優先評面呼等疋而：險在於一些經常發生的單元永遠在最前方一二:常發生的單元永遠在後面評等。因此，解、方案對於一非常有限的領域可以良好地例如股票市場報告、銀行服務等等。但對於一般性的領域無法良好適用，例如新聞。 U的領解決方案II:不同目樟簞矛Μ皮個別地坪冑多聲音單元候選者被 = :字Ci中第i個目標單元之發生數目了用於決疋留下的聲音單元候選者^的數目。… (CiWOO T為-線性函數，一對數函數或其它同的函數可對於不同的使用方案來選擇。、的是.在步驟_中，係包裝了屬於用於更新立單元：广但尚未被下載到該客戶端語料庫中的聲曰單兀組Sr該伺服器下載該 =二料庫仏，聲音單元之語音戶資端:(= Φ)及内谷資訊將被包括在此包裝甲。該流程結束於步驟S406。本技藝專業人士將可瞭解到雖然語二r轉換:語音資料(例如轉換二者，以執扞競：j日編碼々算法，例如amr_ wb或類似執行轉換語音資料的語音遷縮，且語音資料在該 25 201034002 接收端側處被解壓縮之後使用。第5圖圖解顯示可以實施根據本發明具體實施例之一電腦裝置。第5圖所不的電腦糸統包含一 CPU(中央處理單元）5〇 1、一 RAM(隨機存取記憶體）5〇2、一 r〇m(唯讀記憶體）503、一系統匯流排504、一硬碟機控制器5〇5、— 鍵盤控制器506、一序列介面控制器507、一並列介面控制器508、一顯示控制器509、一硬碟機510、一鍵盤511、一序列外部裝置5 1 2、一並列外部裝置5〖3及一顯示器 5 14。在這些組件當中，連接到系統匯流排5〇4的是cpu 501、RAM 502、ROM 503、HD控制器5〇5、鍵盤控制器 506、序列介面控制器507、並列介面控制器5〇8及顯示控制器509。硬碟機510連接至HD控制器505 '而鍵盤 5 11連接至鍵盤控制器506、序列外部裝置512連接至序列介面控制器507、並列外部裝置513連接至並列制器508,而顯示器514連接至顯示控制器5〇9。第5圖中每個組件的功能皆為本技藝中所熟知，且 φ 第5圖所不之架構為常見。這種架構不僅應用到個人電腦，但亦可應用到掌上型裝置，例如palm pc、pDA(個人資料助理）、行動電話等。在不同的應用中，一些組件可被加入到第5圖所示的架構中，或可省略第5圖所示的部份組件。第5 ®所示的整個系、统由電腦可讀取指令二控制，其通常以軟體儲存在硬碟機51〇、或其匕非揮發性記憶體。該軟體亦可由網路下載（未示於圖中）。該軟體可儲存在硬碟機51〇中或自網路下載其可，入到RAM 502,並由CPU5〇1執行來實施該軟體^定 26 201034002 ▲因為第5圖所示的電腦系統能夠支援根據本發明之浯音合成解決方案，該電腦系統僅做為電腦系統的範例。本技藝專業人士將可瞭解到許多其它電腦系統設計亦可執行本發明之具體實施例。本發明可進一步實施成例如第5圖所示之電腦系統所使用的電腦程式產品，其中包含實施根據本發明之語音合成方法的程式碼。該程式碼可在使用之前儲存在其它電腦系統之記憶體中。例如’該程式碼可储存在硬碟

機中或疋像疋一光碟片或軟碟片之可移除記憶體中，或可經由網際網路或電腦網路下載。當本發明之具體實施例明時’本技藝專業人士可在範_内進行多種修改或變化已經參照該等附屬圖面做說附屬申請專利範圍所定義的【圖式簡單說明】為了詳細例示木發明夕, 將參照到該等附屬= =與好處， m 參考編號代矣所古θ 如果可能的話，相同或類似的中圖面及說明中相同或類似的組件，其戶丄對圖圖二顯示根據本發明-具體實施例中於-客 . 性内容執行語音合成之系統；第2 @圖解顯示根處針對一文字性示内根容據執本發r具體實施例中於一客戶端第4圖顯示第仃所:音合成之方法的流程圖；的流程圖丨及圖所不之方法的一步驟之更為詳細 27 201034002 第5圖圖解顯示可的一電腦裝置。【主要元件符號說明】 - 10客戶端 11 TTS伺服器 a 12内容伺服器 13通訊網路 φ 20客戶端 21 TTS伺服器 22内容伺服器 2 3通訊網路 1〇1收發器 102語音合成構件 103語料庫管理構件 1 04語料庫 ill收發器 Ο 112聲音單元決定構件 113 #§·料庫管理構件 114語料庫 201收發器 • 202語音合成構件 • 203語料庫管理構件 204語料庫 205聲音單元決定構件以實施根據本發明之具體實施例 211收發器 213語料庫管理構件 214語料庫 501中央處理單元 502隨機存取記憶體 503唯讀記憶體 5 04系統匯流排 505硬碟機控制器 506鍵盤控制器 507序列介面控制器 508並列介面控制器 509顯示控制器 510硬碟機 511鍵盤 5 12序列外部裝置 5 13並列外部裝置 514顯示器 112 1文字分析構件 1122單元選擇構件 2051文字分析構件 2052早元選擇構件 28

Claims

201034002 七、申請專利範圍：種在I戶端處針對__文字纟内容執行華音合$ 之方法，該方法包含下列步驟： a.基於該客戶端處一語料庫（⑶吓^)中的一目刖聲曰單兀組Scurrent針對該文字性内容執行語音合成； b·目應於判斷是否要更新在該客戶端處該語料庫中的該目前聲音單元組， M)分析該文字性内容並產生具有相對徵之一目標單元的列表；饤 b 2)基於一整去里sΛ 單7°組Stotal根據該等内容特徵選擇每個目標單元的多钿躲干几扪夕個聲音单几候選者，該聲音單組U Λ在該客戶端處該語料庫中的該目前聲音單元組scurrent要豐富；及穿it二：等多個單元候選者決定適合於該文字性内令之BD a合成的聲音單元；以及參 2. :基於該等決定的聲音單元更新該語料庫中的該目前聲音單元組s_ente 如申請專利範圍第丨項所述步驟： I <〈万忐，該方法包含下列下f組；量的聲音單元So，其可針對所有種類的文字性内容執行語音合成，且其可確保一可接受的逢音合成品質’做為在該客戶端上該語料庫中的一初始目前聲音單元組而使得Scurrent=s0。如申請專利範圍第i項所述另包含下列步驟：之方去’其中該步驟b3 根據該文字性内容的重要性來評等該等多個聲 29 3. 201034002 音單元候選者，以決定用於更新該客戶端處該語料庫中的該目前聲音單元組的一聲音單元組。 4. 5. 6. 8 如申請專利範圍第3項所述之方法，其中該步驟b 另包含下列步驟： b4.下載屬於用於更新的該聲音單元組且未包括在該客戶端處該語料庫中的該目前聲音單元組之一聲音單元組到該客戶端中；及其中在該步驟c中藉由使Scurrent = scurrent + 而更新在該完卢诚上該語料庫中的該目前聲音單ment„客戶端如申請專利範圍第3項所述之方法，其中該等單元候選者係基於每個單元候選者已被選擇多少次來評等如申請專利範圍第5項所述之方法，其中不同目標單儿之多個聲音單元候選者係一起評等。如申請專利範圍第5項所述之方法，其中每個目標單 70之多個聲音單元候選者係分別評等》 :::得在-客戶端處可針對一文字性内容執行語曰〇成之系統，該系統包含： 2音合成構件，其組態成基於在該客戶端上語料勃—扭立目刖聲音單兀組S<：Urrent針對該文字性内容執仃sf音合成； -叙，1早兀決定構件，其組態成回應於判斷是否要客戶端上該語料庫中的該目前聲音單元組而執行以下步驟：徵之：：：文：性内容並產生一具有相對應内容特试I目粮單几的列表； ^ 聲g單元組St()tal根據該等内容特徵選擇 30 201034002 每個目標單元的多個聲音單元候選者，該聲音單元组 St°tal比在該客戶端處該語料庫中的該目前聲音單元組scurrent要豐富；军日早兀根據該等多個單元候選者 %可厌疋適合於該文字性内容之語音合成的聲音單元；及更新構件，其組態成基於該等決定的聲音單元更新該客戶$上該語料冑中的肖目冑聲音單元組 Scurrent °

9.如申請專利範圍第8項所述之系統，另包含. 組態以下载一組少量的聲音單元％之構件，其可針對所有種類的文字性内容執行語音合成且其可碟保-可接受的語音合成品質，做為在該客戶端上該語料庫中的一初始目前聲音單元組而使得 Scurrent=S〇 ° A如申請專利範圍帛8項所述之系统，其中該聲決定構件進一步組態成：根據該文字性内容的重要性來評等該等多個聲音單元候選者，以決定用於更新於該客戶端處該語料庫中的該目前聲音單元組的一聲音單元組。 11.如申請專利範圍第10項所述之系統，其中該聲音元決定構件進一步組態成： 9 決定屬於用於更新的該聲音單元組且未包括該客戶端處該語料庫中的該目前聲音單元組之一音單元組Sa ;及其中該更新構件係組態成藉由使得Scurrent = scurrent +呂八而更新在該客戶端上該語料庫中的該目前聲音單元組Seui^ent。 31 201034002 1 2.如申請專利範圍第1 0項所述之系統元決定構件係組態成基於每個單元擇多少次來評等該等單元候選者。 1 3 .如申請專利範圍第1 2項所述之系統元決定構件係組態成一起評等不同聲音單元候選者。 14.如申請專利範圍第12項所述之系統元決定構件係組態成分別評等每個聲音單元候選者。，其中該聲音單 I選者已經被選，其中該聲音單 3標單元之多個，其中該聲音單 Ϊ標單元之多個

32