TW305990B

TW305990B -

Info

Publication number: TW305990B
Application number: TW085109787A
Authority: TW
Original assignee: At & T Corp
Priority date: 1995-08-16
Filing date: 1996-08-13
Publication date: 1997-05-21
Also published as: CA2222582C; AU6645096A; DE69627865D1; US5751907A; EP0845139B1; JP2000509157A; EP0845139A1; EP0845139A4; WO1997007500A1; MX9801086A; JP3340748B2; DE69627865T2; BR9612624A; CA2222582A1

Description

d05Q3〇 A7 B7 五、發明説明（發明領域 -:二：略關於语音合成’更明確地説，本發明係關於吾音合成中包含聲音元件的資料庫。發明背景見則爲基礎的語音合成被使用於各種型式的語音合成 Γ，中丨括文字轉語音及聲音回應系統。典型的以规則礎的b曰合成技術涉及將取自錄音語音之雙音音標序，連貫以形成新字句。此種文字轉語音合成器的-個範例是由本發明讓受者之關係企業製造的TTS系統，該系統描述於由 R.W. sproat與 J p 〇live所著"Tex卜t〇 Speech

SyiUheS1S —文中，該文在 AT&T Technical Journal, V〇1.74’ Νο·2,叩，35_44(1995年3月/4月）中發表並在此附上供卓參。經濟部中央橾準局負工消費合作社印製一音素（phoneme)相當於語音聲音的最小單位而其作用疋分辨各個發音（utterance)。譬如，在英語中，/r/音素相备於^子的聲音。音節（phonetic segment)是一音素的特定發音3同樣地，音標序列（ph〇netic sequence)係相鄰音節的浯音間隔。一雙音（diphoiie)音標序列是一約啓始於—音節的中央邵份且約終止於次一音節的中央部份之音標序列。結果，一雙音相當於從一音素至次一音素的轉換。一般而言，一對應於一音素之音節的中央部份有大致穩定的聲音特性而不會隨時間做大幅變化。所以，形成於二連貫的音標序列之間的接合點處之任何不連續應相當小。但從不同發音取得之連貫音標序列常會產生可察覺的不連續而有害於結果聲音信號之可理解性》本紙張尺度適用中國國家橾準（CNS ) a4規格（2丨0X297公釐） A7 B7 3C5G30 五、發明説明（2 ) 解決此不連續問題的語音合成方法包括（Academic Press Limited. 1995) Computer Speech and Language—書 1-16 頁由 Ν· Iwahashi與 Y. Sagisaka所著"Speech Segment Network Approach for an Optimal Synthesis Unit Set"(Iwahashi等人文獻）及 IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, No.2, 264-271 頁（1986 年 4 月）由 Η. Kaeslin 所著"A Systematic Approach to the Extraction of Diphone Elements from NaturalSpeech"(Kaeslin文獻）中，該二文獻在此附上供卓參。

Iwahashi文獻的方法使用最佳化技術從預錄語音中選擇可重新合併的雙音音標序列而有較少的不連續或音節間失 … ·· ~ -- 眞。更明確地説，此方法判斷從錄製的語音中抽取之不同音標序列眾多组合的音節間失眞値。其結果的諸失眞値接著被利用數學最佳化方法評估以選擇在特定語音内使用的各雙音之整體最佳序列。但此種方法在運算上太過複雜且需特殊的電腦或爲人所不愛的長計算時間期間。而且，雖然雙音音標啓始於一音節的穩態中心並終止於次_音節的穩態中心，經常會在中心區域内有特殊點在被當作切斷點時會產生造成較差連貫連續性之序列。所以，音節間失眞的降低大幅依賴各音標序列特殊啓始及終止切斷點的選擇品質。這些切斷點一般由人工操作員決定，該操作員從錄音s吾音中抽離序列而不知那些切斷點會提供顯著的優點。

Kaeslin文獻揭橥一種方法意圖決定最佳啓始及終止切斷點以便降低連貫不連續性。此方法產生所有包含一對應於一特殊音素的音節之雙音音標序列的格式頻率軌跡。格式 ------------- 5 __ 本紙法尺度適用中國國豕樣^(〇奶）八4規格（210/297公釐） _—'' - ---------^裝------.-訂 ί.Γ--^——^泉 (請先閱背面之心意事項再填寫本頁) 經濟部中央橾準局貝工消費合作社印製經濟部中央標準局員工消費合作社印製 3G5930 五、發明説明（3 ) 軚跡爲構成一發音之測量t皆波頻率的隨時間而變的圖示β 該方法接著接著根據這些軌跡決定—形心向量。該文獻界定一形心向量爲「使在一組軌跡上其本身與最接近點之間的平方和最小...，距離係藉對數區域比率距離測量」的向量。該方法接著從錄音磚音中切斷音標序列以左斟廄於碁接近量之軌跡的點之時間點處形成雙音資料庫元件 0 但形心向量之決定非常困難且在開始時是靠一人工操作員的最佳猜測。基於軌跡的特性，若做了一個不對的"最佳猜測"，則一形心向量會不適當地被決定接近一组區域軌跡，而事實上全部軌跡的眞實形心向量卻在別處，使用不適當的形心向量會造成序列J刀斷點產生完全沒有或無法接拿地小的不連續降低度胃0 所以有一種需要，要有一種聲音音節資料庫建構方法，該方法可自動決定各音節之適當切斷點而大幅降低結果連貫音節之不連續性。發明概述一種語音合成器採用一種聲音元件資料庫，該種資料庫包括從一語音信號在特殊切斷點抽出之被選定音標序列形，之聲音元件。根據本發明，這些切斷點對應於在一誤差谷許範圍内或與其靠近的軌跡時間點。誤差容許範圍應事先選定，使得一最低的期望聲音品質可在一連貫聲音元件内達成，一接合音節之該元件的切斷點對應於該誤差容許範圍的極端部份内之時間.點。誤差範圍之定位係屬對應於不同音標序列之軌跡的集中度而定。譬如，誤差容許範 ( cns ) A4^ ( •lT-l—lf 裝—丨 (請先Μ$背面之：#意事項再填寫本1) r'訂 305930

五、發明説明（4 經濟部中央標準局員工消費合作社印裝，可把爲一表達空間的一個範圍，諸軌跡形成於其中，該範，對應於相當於不同音標序列軌跡之最高集中度範圍^ 換舌疋，該範圍與此等軌跡中約最大數目個軌跡交叉或靠近。六所以，本發明依賴藉採用—增強的多樣軌跡來判斷誤差容許範圍之位置而獲致的重大且未預期的益處。此多樣性使本發明能更正確地選擇特殊的音標序列及切斷點以形成聲音元件而達成降低連貫不連續。、根據本發明的一種具體實例，軌跡的表現空白由許多個連續格子覆蓋4此種具㈣例中，有可能採用格子的栖格尋找以藉找出至少_格子的範圍而決定誤差容許範圍，丄至V格子文又於斜應於不同音素序列的大於平均數個軌跡。根據本發明的另—種具體實例，圍繞沿著一軌跡的各點之範圍内的格子被找出。對每個被找出的格子而言，爲該格子=護的表列被用該軌跡之音素序列的本身更新。但若該特定ΕΪ素序列之本身已出現在該表列内，則其不應被加到格子表列内。由於该方法僅檢查並更新軌跡時間點之解析範圍内的格子，所以其較栅格尋找法快，柵格尋找法各別檢查表達空間内的各格子。此外，一音素序列的本身僅加至表列一次’故在判斷誤差容許範圍中可達成軌跡多樣性而且’格子表列可具有特性爲一經索引的資料結構可肩助於更新在圍繞一軌跡時間點之特定誤差容許範圍内的相子表列。依此方法，軌跡時間點可利用一轉換因數轉換治本紙乐尺度適用中國國家標率（CNS )八4^77^^7公釐 (請先閱請背面之..¾意事項再填寫本頁) -裝

、1T 3C5G30 A7 — B7 五、發明説日~ --— 索引値。然後，解析度値可加或減到經轉換之索引値以判斷格子表列中對應於該特定範圍内諸格子之索引値。接著，表列最長的格子可輕易地被找出以決定誤差容許範圍。如此，根據本發明可用一在運算上簡單且快速的方法產生聲g元件資料庫而不需特殊電腦或長的處理時間。此種資料庫的記憶體需求相當小且包含可被連貫成聽來相當自然的合成語音的聲音元件。由於該等聲音元件係使用根據一相關誤差容許範圍決定之切斷點從語音信號中選出，故在連貫期間發生之可察覺不連續數得以減少。本發明的其他特徵及優點可從下文中的詳細敘述及附圖更清楚地了解。圖式簡述圖1顯示採用根據本發明之聲音元件資料庫的範例性文字轉語音合成器之示意方塊圖；圖2 A - 2 C顯示一音節的範例性格式的語音頻譜圖；圖3顯示根據本發明用來形成圖丨之聲音元件資料庫之範例性方法的流程圖；圖4顯示圖3之方法中使用的音標序列之範例性軌跡圖；且圖5顯示決定圖3之方法中使用的誤差容許範圍之範例性方法的流程圖。詳細敘述圖1顯示採用根據本發明之聲音元件資料庫5的範例性文字轉語音合成器1 =>爲解釋清楚起見，文字轉語音合成器1 本紙張尺度適用中國國家標準（CNS ) A4規格（2丨〇 x 297公釐） -Ι—-ΙΙΓ 裝！ (請先閲沐背面之：·/»«意事項再填寫本I) 1-訂經濟部中央標準局貝工消費合作社印製 Ου Α7 Β7 五、發明説明（6 經濟部中央標準局員工消费合作社印製的功能組件在圖1中以方塊表示。在這些方塊内執行的功能可藉使用共用或包括-但不侷限於-特定功能積禮電路（ASIC) 之專用硬體而提供’該硬體包括-但不侷限於-特定用途積趙電路（ASIC)或執行軟體的一個處理器或多個處理器。使用，，處理器”一詞及其形式不應被視爲僅專指能夠執行软體的硬體，而可爲執行對應功能並彼此通訊連絡的各別軟體常式〇在圖1中，資料庫5可能駐在一諸如電腦可讀取記憶趙之儲存媒體上，該電腦可讀取記憶體包括類如CD-ROM、軟式磁碟機、硬式磁碟機、唯讀記憶體（ROM)及隨機存取記憶體（RAM)。資料庫5包含有對應於不同的音素序列或包括異音（allophone)之多音的聲音元件。（異音是根據環境語音聲音之音素變體。例如，pit-字的氣音/p/與spiit一字的非氣音/p/是音素/P/的異音。）爲使資料庫5的大小不致過大’聲音元件~般應對應於有限個音素序列’譬如1到3個音素。聲音元件是音標序列，該等音標序列開始於一音素的約穩態之中心且結束於另一音素的約穩態之中心3有可能將聲音元件以線性預測编碼器（linear predictive coder LPC)參數或數位化語音的形式儲存在資料庫5内，此等形式詳述於例如J.P. Olive所著在1990年 ESCA Workshop on Speech Synthesi s 中提出（25-30 頁）的文獻 "A New Algorithm for a Concatenative Speech Synthesis System Using an Augmented Acoustic Inventory of Speech Sounds ” 内，該文獻在此附上供卓參。本紙張尺度適用中國國家標準（CNS ) Α4規格（210Χ297公釐）請先閲讀- 背之注- 意事項再填·· 本頁裝訂表經濟部中央標準局員工消费合作社印策 A7 B7 五、發明説明（7 ) 文字轉語音合成器1包括一文字分析器10、聲音元件取回處理器15、元件處理及連貫（element processing and concatenation EPC)處理器20、數位語音合成器25及數位轉類比（D/A)轉換器30。文字分析器10以諸如ASCII格式等可讀取格式接收文字並將文字做語法分析成字且進一步將縮寫與數字轉換成字。然後該等字被根據資料庫5内可用的聲音元件分離成音素序列。這些音素序列接著被傳送至聲音元件取回處理器15。將字剖析成音素序列及縮寫與數字擴展的方法描述在藷如 K. Church於 Proceedings of the Second Conference on Applied Natural Language Processing (Morristown，NJ 1988)之 1 3 6- 1 43 頁的"A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text"、 J. Hirschberg户斤著 Artificial Intelligence) 1993)第 63 卷第 305-340 頁的"Pitch Accent in Context: Predicting International Prominence From Text"; R. Sproat 户斤著 Computer Speech and Language (1994)第 8 卷第 79-94 頁"English Noun-Phrase Accent Prediction for Text-to-Speech"; C. Coker 等人在 Proceedings oftheESCA Workshop on Speech Synthesis( 1990)之第 83-86 頁的”Morphology and Rhyming: Two Powerful Alternatives to Letter-to~s〇und Rules for Speech"中，這些文獻均在此附上供卓參》文字分析器1 〇進一步判斷各個音素序列的期間長度、幅度及基本頻率並將這些資訊傳送給EPC處理器20=»判斷期間長度的方法包括在諸如J. van Santen所著Computer 本紙張尺度適用中國國家橾準（CNS ) A4規格（210X 297公釐） (請先閲济背面之vir意事項再填寫本頁) .裝. 1-訂經濟部中央標準局員工消費合作社印策 Μ B7 五、發明説明（8 )

Speech and Language (1994)第 8 卷第 95-128 頁之"Assignment of Segmental Duration in Text-to-Speech Synthesis"中所述的方法，該文獻在此附上供卓參。判斷一音素序列之振幅的方法描述於諸如 L. Oliveira在 ESC A EUROS PEECH-93 (1993)的第 99-102 頁之"Estimation of Source Parameters by Frequency Analysis "中，該文獻亦在此附上供卓參。一音素的基本頻率亦可稱爲音調或該音節的音調抑揚。決定基本頻率或音調的方法描述於諸如M. Anderson等人在 Proceedings of the International Conference on Acoustics,

Speech and Signal Processing (聖地牙哥 1984)第 1卷第2.8.1-2.8.4 的"Synthesis by Rule of English Intonation Patterns "中，該文獻也在此附上供卓參》聲音元件取回處理器15從文字分析器10接收音素序列，然後由資料庫5中選擇並取回對應的適當聲音元件》聲音元件選擇方法敘述於諸如上文所提Olive參考文獻中》被取回的聲音元件接著被聲音元件取回處理器15傳送至EPC處理器20。EPC處理器20修改各個接收到的聲音元件，其修改方法是根據從文字分析器1 0接收到的對應資訊調整聲音元件之基本頻率及振幅，並插入適當的期間長度* EPC處理器2 〇接著將經修改的聲音元件連貫成對應於文字分析器1 0 的文字輸入之聲音元件串。EPC處理器20的連貫方法描述於上文所提的Oliveira參考文獻中。由EPC處理器20產生之聲音元件串被提供予數位語音合成器25以產生對應於該聲音元件串之自然語音的數位信號 ________- 11 -____ 本紙張尺度適用中國國家樣準（CNS ) A4规格（210X297公釐） (請先聞沐背面之·.¾意事項再填寫本瓦) 裝. 1-.訂，東 A7 305930 —__ B7 五、發明説明（9 ) 。數位語音合成的範例性方法亦描述於上文所提的 Oliveira參考文獻中。由數位語音合成器25產生的數位信號被提供予D/A轉換器30以產生對應的類比信號。此等類比信號可被提供予放大器及揚聲器（未顯示）以產生聽來自然的合成語音。音標序列隨時間而變的特性曲線可用數種表示法表示，包括話音素（formant)、振幅及否定頻譜表示法，包括逆頻譜表示法或任何由LPC導出之參數。圖2Α·2<：顯示對應於從音fp/p-i /的錄音語音中取出之音素/ i/的音節之不同話音素頻率或話音素FI、F2及F3的語音頻譜圖100A、100B及 10 0C ^話音素F1-F3是表現人類發話者的發音部位之不同測量諧振頻率的軌跡。不同測量諧振頻率的話音素—般是根據被相關話音素包含之頻譜能量而命名爲FI、F2、...。話音素頻率視發音部位的形狀和大小而定。改變發音部位之形狀可形成不同的聲音。所以，當發音部位形狀在音節的發音期間改變時，語音信號之頻譜特性隨時間而變，如圖2A-C所示般。音素/i/的三個話音素fi、F2及F3的顯示僅爲舉例説明用。請注意根據_特定語音音節的發音部位形狀可有不同數目種發音《發音和語音的其他表示法的更詳細敘述請見L.R. Rabiner與R.w. Schafer所著 "Digital rocessing of Speech Signals" (Prentice-Hall, Inc. NJ, 1978)中’該文獻在此附上供卓參。如上文中有關圖1之説明，儲存在資料庫5内之聲音元件對應於音標序列，該等音標序列開始於一音素的約中心部 ____- 12 - 本纸張尺度適用中@國1 標準（CNS ) A4規格（2丨0X297公廣) " -- (請先閱沐背面之‘，¾意事項再填寫本頁) -裝. V泉經濟部中央橾準局員工消費合作社印製

Mmo五、發明説明（10 A7 B7 經濟部中央揉準局員工消費合作社印製份且終止於另-音素的約中心部份。在二連貫的聲音元件的接合音素處諸如頻譜成份等特性差異會產生不連續而造成合成的語音易理解或難以了解。但在對應於音素中心範圍的音節範内常有特別的切斷點在穩態特性範圍内可被用來產生聲音元件而獲致連貫不連續的降低。圖之八^内各個軌跡F1-F3代表在特殊音素中央範圍處之音標序列特性。有需要要在音標序列内選擇切斷點以形成可使連貫不連續爲最小的聲音元件。圖3顯示一種根據本發明之範例性方法2〇〇，本方法從一語音信號中選擇特別的音標序列並決定被選出.之音標序列的對應切斷點以形成資料庫5的聲音元件。根據該方法2〇〇，包含一對應於一特別音素之音節的音標序列在步驟21〇中被從一語音信號的一間隔中找出。每一音標序列應對應於一至少有二音素之序列。語音信號有可能從綠音語音或直接由人類發聲者獲得◊此外，若語音信號的來源是錄音語音’則該錄音語音可進一步加以處理以產生—分段且加標籤的語音信號而有助於方法200的運作。一分段且加標藏的語音信號是一語音信號，其對應音標序列被加標籤且諸序列間的約略邊界被找出。然後在步驟2 2 0内對對應於該特定音素之各個音標序列的至少一部份決定軌跡。軌跡是該音標序列之該部份的至少一個聲音特性隨時間變化的一種表示法。軌跡可能是表示該聲音特性的一獨立序列或該聲音特性在—段期間内的連續表示法。可被用做軌跡之適當聲音特性範例包括頻譜表 13 ΜΛ張尺度適用中國國家榇準（CNS ) Α4規格（210Χ297公釐） I----. 111 裝！ (請先閲济背面之>±-意ί項再填寫本f) Τ-訂 -7 泉 :法丄例如像話音素頻率、振幅與頻譜傾斜表示法及LPC 根：太恭其他不論是以頻率爲基礎的或其他的聲音特性可 2本發明被雜軌跡12A_C中各M —單獨話音素頻牛表不法的範例性軌跡。在步驟220中’軌跡依表示空間(rep⑽…“⑽I 二Pace)法決定。如本處所使用者，一表示空間是一區域， —軟赫可在該區域中被料爲可表現該執跡特性之參數的函數：譬如，圖2A中所示的單一話音素軌跡的表示空間被描述爲頻率的時間函《。有可能根據-特定音標序列的二個或更多個話音素頻率形成—單一軌跡。對此一軌跡而言 ’、表示空間對每一被表示的正式頻率都有一軸。沿著各軌跡的頻率有可能被對應時間標示於此等頻率在音標序列發生的時間。分如，一二話纟素頻率軌跡會被形成於二度空間中的曲線，其中曲線點的對應時間以5毫秒間隔標示。軌跡在表示空間内決定之後，在步驟23〇中根據對應於不同音素序列之軌跡的集中度決定一誤差容許範圍的位置。經濟部中央標準局員工消费合作社印製 5吳差谷許範固是—在N度表示空間内之n度空間範圍，其交又或最靠近於一對應於不同音素序列的相當高集中度的軌跡。譬如，誤差容許範圍可能是一交叉或最靠近於一對應於不同音素序列的最大數目個軌跡的範圍β誤差容許範圍的大小應予事先決定以在連貫聲音元件時達成—最低可用的聲音品質’其中一接合音素之切斷點對應於誤差容許範圍的極端點内之時間點。決定適當誤差容許範圍的特別方法在下文中參照圖4及5詳述。 _ - 14 - 本紙張尺度適用中國國家標準（CNS ) Α4_ ( 21〇χ297公釐）、發明説明（12 ) 殊的音標二二:了：圍位置疋後’接著在步樣240中選擇特 1以艮據對應軟跡與誤差容許11圍接近的程度 ^ “件。例如’若在語音職中有數個音標序列對相同的g素序列’則其對應軌鉢最接近或在誤差容許範圍内之音標序列被選擇以便形成聲音元件。 β 當音標序列在步驟240内被選擇之後，接著在步骤250中相關切斷點被決疋於音標序列中以獲得期望的聲音元件 °^寺=斷點對應於沿著大致最接近誤差容許範圍或在誤差谷許範圍内之軌跡的時間點。最後，在步驟26〇中，根據被選擇的音標序列及其對應切斷點形成聲音元件。若在步驟2 1 〇内找出的所有音標序列都要形成聲音元件，則不論是否因爲僅有—個音標序列存在各期望之音素序列的語音信號内，步驟240均可予省略。經濟部中央標準局員工消費合作枉印製根據本發明，誤差容許範圍的位置係根據對應於不同音素序列之軌跡決定。依此方式，本發明藉使用少於來自語音信號之音標序列的總軌跡數之軌跡決定誤差容許範圍之位置而獲致較高的多樣性。此多樣性使本發明能更正確地選擇特殊音標序列及切斷點以形成聲音元件而達成較低的連貫不連續。若一誤差容許範圍的位置是一對應於不同音素序列之軌跡的最高集中度，則該聲音元件會產生相當高聲音品質的合成語音》但若稍差一點的聲音品質可接受，則根據本發明可使用較最高軌跡集中度爲低的誤差容許範圍。根據方法2 0 0決定誤差容許範圍的一種範例性技術是將軟 -15 本紙張尺度適用中國國家榡準（CNS ) Α4规格（210X 297公釐 A7 B7 g〇§930 五、發明説明（13 跡被決定於其内的表示空間分割成各個相關格子，並且找出具有至少一最低期望軌跡集中度位準的特別格子或範圍 9根據本技術之方法200的範例性作業現將參照圖4中所示範例性軌跡圖300加以描述。參考圖3，包含對應於音素/i7 之音節的音標序列於步驟2 10中在錄音語音的一時段中被找出。音標序列對應於音素序列/lid/，/lik/，/mik/，/gim/ ，/din/且5個音標序列對應於音素序列/kit/ ^可由這些音標序列形成之聲音元件包括[U]，[ιη ί]> [g-i]，[i-m]，[d-i], [i-n]，[k-i]及[i-t]。雖然圖 4 之討論考量的是雙音聲音元件的建構，但請注意更大音素序列的聲音元件可根據本發明藉執行圖3之方法2〇〇於對應較大音標序列的特定邊界音素上而建構。經濟部中央標準局員工消費合作社印製對在步驟2 10内找出的各個音標序列而言，各個音標序列在步驟22 0中形成二話音素軌跡β圖4中所示軌跡圖3〇〇舉例説明這些軌跡在一二話音素表示空間中被分割成許多個格子310。在圖4中’每個軌跡被標示以其對應音素序列的同質體3譬如’軌跡305被由對應於音素序列/lid/之音標序列決定，故被標示爲"LID"。來自被用來產生圖1之資料庫 5的語音信號之部份的音素序列/kit/之5種狀況被標示爲 "ΚΙ T 1"到"ΚΙ T5 "以利討論β該圖所示各個二話音素軌跡表示在一特定時點上相關音標序列之話音素F 1的頻率値相對於對應話音素F 2的頻率値的續圖β 話音素F1與F2之頻率分別顯示於X與γ軸上。沿著軌跡的時間特定點可被表示爲對應標示如軌跡3 0 5上所示般。圖4 私紙張尺度適用中國國家橾準（〇奶）八4規格（210\297公董）

五、發明説明（U 中一維軚跡表示法僅爲方便討論及舉例 =何限!;有可能使用其他心表示法，包括例如: 素的音節，及振幅及頻譜傾斜表示法來表亍曰爲該料音素的音^ 子音做僅爲了易於顏示及説明，表示空間内格子3 10的格子大小被^爲誤差容許範圍期望大小的1/4。當誤差容許範固大 :坪範大於格子大小時’設定格子大小爲期望誤差容命範圍大小的倍數就很方便。根據圖3之方法200的步驟 230，誤差容許㈣之決定是根據被對應衫同音素序列之軌跡交又的範圍決定。所以’若_由2χ2陣列格子31〇構成的,吳差谷許範圍被判定其大小足以產生期望的最低聲音品質，則被最大數目個此種軌跡交又的範圍32G即爲誤差容許範圍。決定具有最大數目個此種軌跡交又之格小的一種方法例如是執行在表示空間内的格子柵格尋找。根據此種方法，圖4之各格子3 1〇被檢查，且與該格子交叉對應於不同音素序列之軌跡數目，或圍繞該格子31〇之預定格子解析範圍被決定。例如，對軌跡LID與MIK而言，對應於格子33〇之不同音素序列的軌跡交又數爲2。下文中將參考圖5詳述一種在計算上較簡單且較快速之決定具有對應於不同音標序列的最大數目個此種軌跡交又之格子的方法。回頭參考圖3之方法200。在軌跡決定之後，接著在步骤 240中，根據靠近誤差容許範圍320之對應軌跡選擇特別的 -17 本紙乐尺度適用中國國家標準（CNS ) A4規格（210X297公釐） ————1丁 (請先閲济背面之：¾意事項再填寫本頁) 1訂經濟部中央標準局員工消費合作社印裝 • 3v)&53 ❹ A7 B7 經濟部中央標準局員工消费合作社印製五、發明説明（) 音標序列以形成聲音元件°若對一特定音素序列僅含入資料庫5内的一個聲音元件以使資料庫所需空間極小又使語音合成器設計能簡化將是很有利的β所以，音標序列川k/或 /lid /二者之一可被選擇來形成聲音元件[Ι-i]，且音標序列 /lik/或/mik/二者之一可被選擇來形成聲音元件[i-k]。此外，音素序列/kit/的5個音標序列之一可被選擇來形成聲音元件[k-i]與[i-t]。但一採用更大資料庫之更複雜語音合成器有可能根據語音合成應用用途而使用多重音標序列於一特定音素序列上3在建構此種資料庫時，可從對應於一特定音素序列之從語音信號析出之一個以上及多達全部的音標序列選擇出來以形成聲音元件。若一特定音素序列要有一聲音元件存在於資料庫5内，則從對應於形成該聲音元素之相同音素序列的許多個音標序列中找出特別的一個可根據對應軌跡靠近誤差容許範圍的程度決定。譬如’對聲音元件[Ι-i]而言，會選擇其軌道 LID與誤差容許範圍320交叉之"LID"音標序列，而不會選擇其軌道LIK不與誤差容許範圍320交又之"LIK"音標序列。同樣地，聲音元件[i-k]會選擇音標序列"MIK”而不選擇音標序列"LIK "，其原因大致相同。依相同的方法，對聲音元件[k-i]與[i-t]二者而言，會選擇對應於軌跡κΙΤ5的音標序列而不選擇其他相關的音標序列"KIT"。同時’由於聲音元件一般可在二邊界性音素處連貫，故選擇用來形成聲音元件的特定音標序列應根據該二邊界性音素之軌跡接近程度。所以，特別的音標序列"M丨κ，，或

——*I.llf 裝丨| (請先閲本背面之>±*意事項再填寫本f) I-訂 I — =1 A7 B7 805930 ----- 五、發明説明（l6 ) LIK會被選擇以形成聲音元件[丨^]，因爲該二音標序列 (軌跡在整體上最接近邊界性音素與邊界性音素/k/的誤差容許範圍》有時候對應於相同音素序列之音標序列的軌跡不會是最靠近其邊界性音素的二相關誤差容許範圍者，此種情況發生於^ θ k序列之來源爲包含該音素序列的二個不同字時。在此情況下，較佳的方法是選擇其軌跡具有整體最佳品虞的音標序列。選擇此種音標序列的一種範例性方法是根據特殊免衡量値各指定一値予各個音標序列以評量諸音標序列有關對應的邊界性音素，評量爲整體.最佳的音標序列將會被用來形成該聲音元件。再回頭參考圖3之方法2〇〇，聲音元件之音標序列被選擇 (後，在步驟250中選擇被用以形成該聲音元件之音標序列切斷點。例如在圖4中，切斷點之選擇係根據在誤差容許範圍j20内之相關軌跡中的時間點決定。對那些與誤差容許範圍320交叉的軌跡而言，被選擇之切斷點應宜爲沿著軌跡大約最靠近誤差容許範圍3 2 0之中央點3 4 0的時間點。譬如，圖4中軌跡305上最靠近中央點34〇的時間點是j6〇毫秒，所以經濟部中央標準局員工消費合作社印製 ’聲音元件/i-k/是根據開始於時間16〇毫秒的對應音標序列〇對於諸如軌跡UK等不與誤差容許範圍32〇交又之軌跡而言，切斷點仍應爲沿著軌跡最靠近誤差容許範固中央點34〇之時間點。故若選擇音標序列"LIK"來形成聲音元件，則適當的切斷點將對應於軌跡LIK上時間點3 5 0。請注意冬使用 -19 本紙張尺度適用中國國家標準（CNS ) A4規格（21〇X297公慶）經濟部中央標準局貝工消費合作社印製 SO&QdO at _______B7 五、發明説明（I7 ) 此音標序列來形成聲音元件時，將會在音素n/處產生相對較大的不連續。所以，最好是能獲得音素序列/nk/的其他 L k段落以決定其疋否爲形成該聲音元件的較佳待選語音段落》在圖3的方法200中，在切斷點於步驟25〇中被決定之後 ’聲音元件根據被選定的音節和被決定的切斷點形成。聲音元件可留存在圖1之資料庫5中，其形式可類如數位語音 k號或對應於開始及結束於相關切斷點之音標序列的L p c 參數。而且，較長的序列可連同對應於相關聲音元件之特別切斷點的開始及結束値餘存在資料庫5中。圖1之聲音元件讀回處理器丨5則會根據這些値從這些較長序列之抽出適當的聲音元件。請特別注意的是用於資料庫5之特別组織性方法不應被視爲一種限制’ 1任何組織均可被用以儲存根據本發明形成之聲音元件。爲了要合成一特別語言的多種話音素，應產生該種語言的所有基本音素序列之聲音元件〇根據本發明的新穎的使用高度多樣化軌跡來決定誤差容許範圍的位置結果造成在連貫時產生較小不連續的聲音元件。例如在圖4中’範圍3 6 0對應於根據所有軌跡之範圍，且交又於或最靠近於源自音素序列/kit/的5個軌跡之整體最大數目個此種軌跡》但可見到軌跡LTD與MIK上最靠近範圍360的時間點在連貫相關聲音元件時會產生相當大的不連續。相對地’誤差容許範圍320未被音素序列/kit/的多重狀況扭曲’且所有被選擇之轨跡至誤差容許範圍3 2 0間的對應 ____ - 20 - 本紙伕尺度適用中國國家標準（CNS ) M規格（2K5X 297公釐} ll-lTIlT (請先閱參背面之以意事項再填寫本頁)

*1T 五發明説明（is A7 B7 經濟部中央橾準局員工消費合作社印製距離遠較小而將使任何相關不連續極小化。圖5顯示根據本發明使用於圖3中步驟23〇内決定對應於不同音標序列之具有最大數目個軌跡交叉的格子之範例性方法400。爲了便於討論起見，每個轨跡在圖5中用一獨特的整數稱呼而不像圖4中使用相關音標序列標示法。例如，圖 4中所示的9個軌跡在圖5中被稱爲軌跡丨_9。此種軌跡標示法符合使用於資料結構表示法中諸如陣列中或表列中的慣用指向器。根據方法400 ’ 一整數N與許多個表列LIST_i在步驟410 中被初始化爲零。該等許多個表列LI S T _ i中表列的數目i對應於表示空間中的格子數。接著整數N在步驟420中被增加數値。然後，對軌跡N内的各時間點，在步骤430中找出在圍繞相關時間點之解析知圍内的格子。爲方便起見，解析範園的大小可相同於誤差容許範圍者。但根據本發明，解析範圍的大小亦可依需要而爲不同的大小。若選擇的解析範圍是由一 2x2格子陣列涵蓋的區域，則圖4中圍繞軌跡 3 0 5在時間0 _ 〇 9 5毫秒處之時間點5 0 5的解析範圍將包括被外框線510圍繞的格子511、512、513及514。在解析範圍内的格子於步驟430内找出之後，被找出的格子之相關表列LI S T_i被用對應軌跡N的音素序列名稱更新。而且，在步驟440中，若該音素序列名稱不是已出現在該格子的表列上’則其僅被加至表列。所以，假設在上述範例中名稱"LID"未出現在格子5 1 1-5 14的表列LIST」中，則這些格子的表列LI S T_i，將被用該名稱更新。沿著軌跡 21 - 本紙伕尺度適用中國國家標準（CNS〉A4規格（210x297公釐〉 I—叫.ΙΙΓ 裝—— (請先聞秦背面之❼意事項再填寫本頁) 訂一-.1

T 泉經濟部令央裙準局員工消費合作社印製 A7 Γ--------- 五、發明说明（l9 ) 3 05的其他時間點在解析範圍内的格子之表列LiST_i亦會依大致類似方法用名稱，，LID ”更新。當一特定軌跡N被找出之解析範圍内所有格子均在步驟 440中更新之後，本方法在步驟45〇中判斷整數^^是否等於軌跡的總數》若本方法判定N不等於軌跡總數，則方法4 〇〇根據次一軌跡N的時間點執行步驟420-440以更新表列 LIST_i ^若本方法判定N等於軌跡總數，則所有的軌跡均已處理完成，且解析範圍内全部表列LiST_i均已更新完成，方法400前進到步驟46〇。在步驟46〇中，誤差容許範圍由在對應表列或諸表列L丨S T — i中具有最大數目個名稱的格子或諸格子的範圍決定。因爲方法4〇〇僅檢驗並更新在軌跡時間點之解析範圍内的諸格子，所以其在運算上較分別檢驗每個格子的栅格尋找方法便簡單且快速。在方法4 0 0中，步骤4 3 〇首先檢驗一特定軌跡的時間點在解析範固内所有的格子，然後在步驟44〇中更新對應的格子表列。但請注意圖4中所示諸步驟的順序僅爲舉例說明用而非對本發明之限制。這些步驟的順序可用各種不同方式施行，包括在一表列LIST_i的相關格子被判定爲在—特定軌赫時間點的解析範圍内之後，立刻更新該表列。伙在一替代性具體實.例中，具有最長表列LIST_i之格子的等位體可藉儲存並更新具有最長表列LIST — i之等位體及對應最大表列長度而在整個格子表列更新程序中被維護一各格子表列被更新時，包含在該表列中的名稱之總數目: 過被儲存格子同位體之名稱數目，則被像存之格子同位趙 I 丨「—— 1裝！ (請先閲济背面之纪意事項再填寫本頁) Ά------ Z紙張尺度標準(CNS) A4規格(210><297公釐五、發明説明（2〇 ) 經濟部中央標準局貝工消費合作社印製 ::大表列長度可據以被更新。依此方式，對應於誤差容了圍<格子的同位體可在處理前一軌跡的最後一個時間 ^即已知而不需任何進—步的處理步驟。右諸格子表列被加索引，加索引的形式譬如是具有整數値的資料結構指派格子位置於表示空間内，然後可採用— 在運算上簡單且較快速的方法。例如，@4中格子3 10之格子表歹J可依-對應於其χ與γ座帛之方法加索引。然後，轉換値可j用W將軌跡時間點料換成表示根據被加索引之格子該等時間點的相對座標位置㈣引値。接著，解析度被加n轉換的索引値及由其減去以找出該點解析範圍内諸格子之索引數目。然後，解析範圍内各個格子之表列 LIST_i被據以更新。所以，對圖4中所示範例而言，圖4中軌跡3 〇5之時間點 505的話音素F1&F2^率値可乘以轉換因素以獲得經轉換的値x-3.5及y = 3,5，表示其分別在)(與¥方向的第三與第四格子之間。所以，若解析範圍是一 2χ2格子陣列，則±1的解析値頊被加至經轉換的値並四捨五入到要產生之最靠近位置’以使解析·51()内諸格子的格子表列具有分別對應於格子5 1丨-514的座標（33)，（34)，（43)及（44)，且會被用音素序列名稱，，LID"更新。雖然上文中詳細描述本發明的數種具體實例，但可在不背離其敎導的情形下做許多修改。所有這些修改均旨在包含於下文中申請專利範圍Α。譬如，雖然上文中用二維矩形格子及誤差容許範圍來描述本發明，但是有可能使用任 __________一 23 - 本紙伕尺度適财酬家料（CNS) A4規格（21();><297公瘦） (請先閱株背面之：zi-意事項再填寫本I) .裝. 七訂 V泉 A7 __B7 五、發明説明（21 ) 何N維封閉形狀於格子及範圍上，而符合包括立方體、盒狀體、球狀體及偏球狀體等的N維表示空間。而且，本發明在包含文字轉語音及聲音回應系統的各種語音合成應用中特別有用。 ,^丨「裝！ (請先閲—背面之Vi*意事項再填寫本頁) I-訂

T 經濟部中央標準局員工消費合作社印製本纸張尺度適用中國國家標準（CNS ) A4規格（210X 297公釐）

Claims

ABCD 中請專利範圍 •種產生合成語音的方法，該種方法包括—聲音元件資科庫，該資料庫包含用來連貫以產生合成語音的聲音元件，該聲音元件資料庫藉下列諸步驟建立：對於對應於包含在發生於一語音信號的一期間内之許夕個音標序列中的特定音節的至少一個音素而言，根據對應於和一誤差容許範圍交又的不同音素序列之音標序列的軌跡集中度，決定一表示空間内—誤差容許範圍之相對位置，其中每一軌跡代表包含該特定音節之相關音標序列的至少一部份之聲音特性；及根據諸時間點與誤差容許範圍接近的程度，藉著找出沿著對應軌跡上各相關時間點處之音標序列内的切斷點，由音標序列形成聲音元件。 2. 根據申請專利範圍第丨項之方法，該方法尚包括根據對應諸軌跡接近誤差容許範的程度從許多個音標序列中選擇至少一個音標序列的步驟，該等許多個音標序列有對應於一特定音素序列的部份，其中一聲音元件由被選定之音標序列的部份形成》經濟部中央標準局貝工消费合作社印策 3. 根據申請專利範圍第1項之方法，其中該形成聲音元件之步驟沿著對應軌跡的相關時間點處找出每一音標序列約略最靠近誤差容許範圍或在誤差容許範圍内的切斷點〇 4. 根據申請專利範圍第3項之方法’其中該形成聲音元件之步驟沿著對應軌跡的相關時間點處找出每一音標序列約略最靠近誤差容許範圍中心點的切斷點β 尺度逋用中國國家標準（CNS ) A4規格（21〇Χ297公釐〉

申請專利範圍經濟部中央榡準局貝工消費合作社印製 5·根據申請專利第！項之方法，其中—特別語言之每一預測的音素序列均形成一聲音元件。 H中請㈣第丨項之方法，其中純㈣根據諸音 ^序列的諸話音素形成s Z根據中請專利範㈣1項之方法，其中該等軌㈣根據- 種二逢音素表示法，且該表示空間爲_三話音素空間。 Μ艮據中請專利範圍第β之方法，其中該表示空間爲_包括許多個連續Ν維格子_維空間，且其中該決定誤差容許範圍之步驟尚包括執行一拇格尋找以決定—與對應於不同a素序列之約最大數目個軌跡交又的至少一個格子之範圍。 9·根據中請專利第！項之方法，其中該表示空間爲一包括許多個連續N維格子的N維空間，且其中該決定誤差容許範圍之步驟包括：找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍内的格子；對在解析範園内被找出的每—格子，若一對應於該軌跡之音素序列的識別體未出現於該格子的表列内，則用該識別體更新一爲該格子維護的表列；及決定對應於至少一個具有大於其表列上識別體平均數個識別體之格子的誤差容許範圍。 10.根據申請專利範固第9項之方法，其中該找出那些在一解析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間點及更新關聯於在對應解析範圍内的諸格子之表列。本紙承尺度適用中國國家標準（CNS ) A4%# ( 21GX297公釐 — 「裝丨_ (請先聞^背面之_注意事項再填寫本頁) 訂 H旅六、申請專利範圍 A8 B8 C8 D8 經濟部中央揉準局貝工消費合作社印装 11. 根據申請專利範圍第9項之方法，其中該解析範圍與該誤差容許範圍的大小相同。 12. 根據中請專利範圍第i項之方法，其中該表示空間爲—包括許多個連續N維格子的N維空間，且其中該決定誤差容許範圍之步驟包括：找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍内的格子；對在解析範固内被找出的每—格子，㈣應於該執跡，之音素序列的識別體更新一爲該格子維護的表列；從各格子表列中移除多重識別體；及決定對應於至少-個具有大於其表列上識別體平均個數.識別體之格子的誤差容許範圍。根據申請專利範圍第12項之方法，纟中該找出那些在_ 解析範圍内之格子的步骤包括處理沿著純跡之諸時間點及更新關聯於在對應解析範固内的諸格子之表列。 R根據中請專利㈣第12項之方法，其中該解㈣_該誤差容許範圍的大小相同。既根據中請專利範圍第1之方法，其中該等許多個立列中的至少兩個音標序列具有對應於—特別音素^ 部份，該方法尚包括下列步驟：根據對應軌跡接近誤差容許範圍的程度決定該序列之各部份的値，其中該特別音素序列之聲根據該等被決定的隸料音標序狀料^份= 一個形成。 J 27 * 表紙張尺度適用中國國家標準（CNS ) A4規格（210X29?^" ---「參-- .-· { (請先聞货背面^注意事項再填寫本頁) 、1T Τ 旅 A8 B8 C8 ---—___________D8 六、+請專利範圍經濟部中央標準局貝工消費合作社印裝 16. 根據申請專利範圍第15項之方法，其中該決定諸値的步驟尚根據該對應音標序列的品質衡量値。 17. 根據申請專利範園第16項之方法，其中該品質衡量値係由一軌跡接近一對應於一不同的邊界性音素之音標序列的誤差容許範圍之程度決定。 18. —種產生合成語音的裝置，該裝置包括一聲音元件資料庫，該資料庫包含用來連貫以產生合成語音的聲音元件，該聲音元件資料庫藉下列諸步驟建立：對於對應於包含在發生於一語音信號的一期間内之許多個Ε»彳承序列中的特定音節的至少—個音素而言，根據對應於和一誤差容許範圍交又的不同音素序列之音標序列的軌跡集中度，決定一表示空間内一誤差容許範圍之相對位置，其中每一軌跡代表包含該特定音節之相關音標序列的至少一部份之聲音特性；及根據諸時間點與誤差容許範圍接近的程度，藉著找出沿著對應軌跡上各相關時間點處之音標序列内的切斷點，由音標序列形成聲音元件。 19. 根據申請專利範圍第18項之裝置，其中該表示空間爲一包括許多個連續N維格子的\維空間，且其中該決定誤差容許範圍之步驟包括：找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍内的格子；對在解析範圍内被找出的每一格子，若一對應於該軌跡之音素序列的識別體未出現於該格子的表列内，則用 -28 - --------「裝—--* { (請先閲贫背面之注意事項再填寫本頁) 訂 7 旅 (CNS ) ( 210x297公着） ABCD 六、申請專利範圍 '--- 該識別體更新一爲該格子維護的表列；及決定對應於至少一個具有大於其表列上識別體平均數個識別體之格子的誤差容許範圍β 20. 根據申請專利範圍第19項之裝置，其中該找出那些在— 解析範園内之格子的步驟包括處理沿著諸軌跡之諸時間點及更新關聯於在對應解析範圍内的諸格子之表列。 21. 根據申請專利範圍第1 8項之裝置，其中該表示空間爲— 包括許多個連續Ν維格子的Ν維空間，且其中該決定誤差容許範圍之步驟包括：找出那些沿著每一軌跡在一圍繞諸時間點之解析範内的格子；對在解析範圍内被找出的每一格子，用對應於該轨跡之音素序列的識別體更新一爲該格子維護的表列；、從各格子表列中移除多重識別體；及決定對應於至少一個具有大於其表列上識別體平均個數識別體之格子的誤差容許範圍。經濟部中央標準局貝工消費合作社印裝 22. 根據申請專利範圍第21項之裝置，其中該找出那些在— 解析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間點及更新關聯於在對應解析範圍内的諸格子之表列。’ 本紙張尺度適用中國國家梯準（CNS ) Α4規格（210Χ297公釐）丨公告本申請曰期 85. 8. 1J ------ - 〇 < t _ ,· 案號 0Jiuy/0/ -- 鋇1邊 _,，l Μ 丄.t· tv t士㈠、

發明型專利説明書中文具有一聲音元件資料庫之語音合成器發明名稱英文 SPEECH SYNTHESIZER HAVING AN ACOUST DATABASE" 1C T ENΜ 姓名國籍 1. 伯德摩比斯 2. 約瑟夫菲利浦歐里維 3. 麥克亞雷罕譚伯特 4. 珍皮耶特文生特 -1·德國 2.3.4.美國 -裝· 發明住、居所 1 _美國新澤西州查坦市希克里廣場25號C6 2. 美國新澤西州華成市維利道1〇 1號 3. 美國紐約州紐約市西71街3 09號1B 4. 美國紐約州布魯克林市魯比路293號訂姓名 (名稱）美商AT&T公司經濟部中央橾準局貝工消费合作社印製國籍美國三、申請人住、居所 (事務所）代表人姓名美國紐約州紐約市美國大道32號約翰· J ·吉桑本紙张尺度適用中國國家棣準（CNS〉Α4洗格（210Χ297公釐）