TW305990B - - Google Patents
Download PDFInfo
- Publication number
- TW305990B TW305990B TW085109787A TW85109787A TW305990B TW 305990 B TW305990 B TW 305990B TW 085109787 A TW085109787 A TW 085109787A TW 85109787 A TW85109787 A TW 85109787A TW 305990 B TW305990 B TW 305990B
- Authority
- TW
- Taiwan
- Prior art keywords
- range
- sequence
- grid
- phonetic
- phoneme
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Description
d05Q3〇 A7 B7 五、發明説明( 發明領域 -:二:略關於语音合成’更明確地説,本發明係關於 吾音合成中包含聲音元件的資料庫。 發明背景 見則爲基礎的語音合成被使用於各種型式的語音合成 Γ,中丨括文字轉語音及聲音回應系統。典型的以规則 礎的b曰合成技術涉及將取自錄音語音之雙音音標序 ,連貫以形成新字句。此種文字轉語音合成器的-個範例 是由本發明讓受者之關係企業製造的TTS系統,該系統描述 於由 R.W. sproat與 J p 〇live所著"Tex卜t〇 Speech
SyiUheS1S —文中,該文在 AT&T Technical Journal, V〇1.74’ Νο·2,叩,35_44(1995年3月/4月)中發表並在此 附上供卓參。 經濟部中央橾準局負工消費合作社印製 一音素(phoneme)相當於語音聲音的最小單位而其作用 疋分辨各個發音(utterance)。譬如,在英語中,/r/音素相 备於^子的聲音。音節(phonetic segment)是一音素的特定 發音3同樣地,音標序列(ph〇netic sequence)係相鄰音節的 浯音間隔。一雙音(diphoiie)音標序列是一約啓始於—音節 的中央邵份且約終止於次一音節的中央部份之音標序列。 結果,一雙音相當於從一音素至次一音素的轉換。 一般而言,一對應於一音素之音節的中央部份有大致穩 定的聲音特性而不會隨時間做大幅變化。所以,形成於二 連貫的音標序列之間的接合點處之任何不連續應相當小。 但從不同發音取得之連貫音標序列常會產生可察覺的不連 續而有害於結果聲音信號之可理解性》 本紙張尺度適用中國國家橾準(CNS ) a4規格(2丨0X297公釐) A7 B7 3C5G30 五、發明説明(2 ) 解決此不連續問題的語音合成方法包括(Academic Press Limited. 1995) Computer Speech and Language—書 1-16 頁由 Ν· Iwahashi與 Y. Sagisaka所著"Speech Segment Network Approach for an Optimal Synthesis Unit Set"(Iwahashi等人文 獻 )及 IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, No.2, 264-271 頁(1986 年 4 月)由 Η. Kaeslin 所著"A Systematic Approach to the Extraction of Diphone Elements from NaturalSpeech"(Kaeslin文獻)中,該二文獻 在此附上供卓參。
Iwahashi文獻的方法使用最佳化技術從預錄語音中選擇 可重新合併的雙音音標序列而有較少的不連續或音節間失 … ·· ~ -- 眞。更明確地説,此方法判斷從錄製的語音中抽取之不同 音標序列眾多组合的音節間失眞値。其結果的諸失眞値接 著被利用數學最佳化方法評估以選擇在特定語音内使用的 各雙音之整體最佳序列。但此種方法在運算上太過複雜且 需特殊的電腦或爲人所不愛的長計算時間期間。而且,雖 然雙音音標啓始於一音節的穩態中心並終止於次_音節的 穩態中心,經常會在中心區域内有特殊點在被當作切斷點 時會產生造成較差連貫連續性之序列。所以,音節間失眞 的降低大幅依賴各音標序列特殊啓始及終止切斷點的選擇 品質。這些切斷點一般由人工操作員決定,該操作員從錄 音s吾音中抽離序列而不知那些切斷點會提供顯著的優點。
Kaeslin文獻揭橥一種方法意圖決定最佳啓始及終止切斷 點以便降低連貫不連續性。此方法產生所有包含一對應於 一特殊音素的音節之雙音音標序列的格式頻率軌跡。格式 ------------- 5 __ 本紙法尺度適用中國國豕樣^(〇奶)八4規格(210/297公釐) _—'' - ---------^裝------.-訂 ί.Γ--^——^泉 (請先閱背面之心意事項再填寫本頁) 經濟部中央橾準局貝工消費合作社印製 經濟部中央標準局員工消費合作社印製 3G5930 五、發明説明(3 ) 軚跡爲構成一發音之測量t皆波頻率的隨時間而變的圖示β 該方法接著接著根據這些軌跡決定—形心向量。該文獻界 定一形心向量爲「使在一組軌跡上其本身與最接近點之間 的平方和最小...,距離係藉對數區域比率距離測量」的向 量。該方法接著從錄音磚音中切斷音標序列以左斟廄於碁 接近量之軌跡的點之時間點處形成雙音資料庫元件 0 但形心向量之決定非常困難且在開始時是靠一人工操作 員的最佳猜測。基於軌跡的特性,若做了一個不對的"最 佳猜測",則一形心向量會不適當地被決定接近一组區域軌 跡,而事實上全部軌跡的眞實形心向量卻在別處,使用不 適當的形心向量會造成序列J刀斷點產生完全沒有或無法接 拿地小的不連續降低度胃0 所以有一種需要,要有一種聲音音節資料庫建構方法, 該方法可自動決定各音節之適當切斷點而大幅降低結果連 貫音節之不連續性。 發明概述 一種語音合成器採用一種聲音元件資料庫,該種資料庫 包括從一語音信號在特殊切斷點抽出之被選定音標序列形 ,之聲音元件。根據本發明,這些切斷點對應於在一誤差 谷許範圍内或與其靠近的軌跡時間點。誤差容許範圍應事 先選定,使得一最低的期望聲音品質可在一連貫聲音元件 内達成,一接合音節之該元件的切斷點對應於該誤差容許 範圍的極端部份内之時間.點。誤差範圍之定位係屬對應 於不同音標序列之軌跡的集中度而定。譬如,誤差容許範 ( cns ) A4^ ( •lT-l—lf 裝—丨 (請先Μ$背面之:#意事項再填寫本1) r'訂 305930
五、發明説明(4 經濟部中央標準局員工消費合作社印裝 ,可把爲一表達空間的一個範圍,諸軌跡形成於其中,該 範,對應於相當於不同音標序列軌跡之最高集中度範圍^ 換舌疋,該範圍與此等軌跡中約最大數目個軌跡交叉或靠 近。 六所以,本發明依賴藉採用—增強的多樣軌跡來判斷誤差 容許範圍之位置而獲致的重大且未預期的益處。此多樣性 使本發明能更正確地選擇特殊的音標序列及切斷點以形成 聲音元件而達成降低連貫不連續。 、根據本發明的一種具體實例,軌跡的表現空白由許多個 連續格子覆蓋4此種具㈣例中,有可能採用格子的栖 格尋找以藉找出至少_格子的範圍而決定誤差容許範圍, 丄至V格子文又於斜應於不同音素序列的大於平均數個 軌跡。 根據本發明的另—種具體實例,圍繞沿著一軌跡的各點之 範圍内的格子被找出。對每個被找出的格子而言,爲該格 子=護的表列被用該軌跡之音素序列的本身更新。但若該 特定ΕΪ素序列之本身已出現在該表列内,則其不應被加到 格子表列内。由於该方法僅檢查並更新軌跡時間點之解析 範圍内的格子,所以其較栅格尋找法快,柵格尋找法各別 檢查表達空間内的各格子。此外,一音素序列的本身僅加 至表列一次’故在判斷誤差容許範圍中可達成軌跡多樣性 而且’格子表列可具有特性爲一經索引的資料結構可肩 助於更新在圍繞一軌跡時間點之特定誤差容許範圍内的相 子表列。依此方法,軌跡時間點可利用一轉換因數轉換治 本紙乐尺度適用中國國家標率(CNS )八4^77^^7公釐 (請先閱請背面之..¾意事項再填寫本頁) -裝
、1T 3C5G30 A7 — B7 五、發明説日~ --— 索引値。然後,解析度値可加或減到經轉換之索引値以判 斷格子表列中對應於該特定範圍内諸格子之索引値。接著 ,表列最長的格子可輕易地被找出以決定誤差容許範圍。 如此,根據本發明可用一在運算上簡單且快速的方法產 生聲g元件資料庫而不需特殊電腦或長的處理時間。此 種資料庫的記憶體需求相當小且包含可被連貫成聽來相當 自然的合成語音的聲音元件。由於該等聲音元件係使用根 據一相關誤差容許範圍決定之切斷點從語音信號中選出, 故在連貫期間發生之可察覺不連續數得以減少。 本發明的其他特徵及優點可從下文中的詳細敘述及附圖 更清楚地了解。 圖式簡述 圖1顯示採用根據本發明之聲音元件資料庫的範例性文字 轉語音合成器之示意方塊圖; 圖2 A - 2 C顯示一音節的範例性格式的語音頻譜圖; 圖3顯示根據本發明用來形成圖丨之聲音元件資料庫之範 例性方法的流程圖; 圖4顯示圖3之方法中使用的音標序列之範例性軌跡圖; 且 圖5顯示決定圖3之方法中使用的誤差容許範圍之範例性 方法的流程圖。 詳細敘述 圖1顯示採用根據本發明之聲音元件資料庫5的範例性文 字轉語音合成器1 =>爲解釋清楚起見,文字轉語音合成器1 本紙張尺度適用中國國家標準(CNS ) A4規格(2丨〇 x 297公釐) -Ι—-ΙΙΓ 裝! (請先閲沐背面之:·/»«意事項再填寫本I) 1-訂 經濟部中央標準局貝工消費合作社印製 Ου Α7 Β7 五、發明説明(6 經濟部中央標準局員工消费合作社印製 的功能組件在圖1中以方塊表示。在這些方塊内執行的功能 可藉使用共用或包括-但不侷限於-特定功能積禮電路(ASIC) 之專用硬體而提供’該硬體包括-但不侷限於-特定用途積趙 電路(ASIC)或執行軟體的一個處理器或多個處理器。使用,, 處理器”一詞及其形式不應被視爲僅專指能夠執行软體的硬 體,而可爲執行對應功能並彼此通訊連絡的各別軟體常式 〇 在圖1中,資料庫5可能駐在一諸如電腦可讀取記憶趙之 儲存媒體上,該電腦可讀取記憶體包括類如CD-ROM、軟 式磁碟機、硬式磁碟機、唯讀記憶體(ROM)及隨機存取記 憶體(RAM)。資料庫5包含有對應於不同的音素序列或包括 異音(allophone)之多音的聲音元件。(異音是根據環境語 音聲音之音素變體。例如,pit-字的氣音/p/與spiit一字的 非氣音/p/是音素/P/的異音。) 爲使資料庫5的大小不致過大’聲音元件~般應對應於有 限個音素序列’譬如1到3個音素。聲音元件是音標序列, 該等音標序列開始於一音素的約穩態之中心且結束於另一 音素的約穩態之中心3有可能將聲音元件以線性預測编碼 器(linear predictive coder LPC)參數或數位化語音的形式儲存 在資料庫5内,此等形式詳述於例如J.P. Olive所著在1990年 ESCA Workshop on Speech Synthesi s 中提出(25-30 頁)的文獻 "A New Algorithm for a Concatenative Speech Synthesis System Using an Augmented Acoustic Inventory of Speech Sounds ” 内, 該文獻在此附上供卓參。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 請 先 閲 讀- 背 之 注- 意 事 項 再 填·· 本 頁 裝 訂 表 經濟部中央標準局員工消费合作社印策 A7 B7 五、發明説明(7 ) 文字轉語音合成器1包括一文字分析器10、聲音元件取回 處理器15、元件處理及連貫(element processing and concatenation EPC)處理器20、數位語音合成器25及數 位轉類比(D/A)轉換器30。文字分析器10以諸如ASCII格 式等可讀取格式接收文字並將文字做語法分析成字且進一 步將縮寫與數字轉換成字。然後該等字被根據資料庫5内可 用的聲音元件分離成音素序列。這些音素序列接著被傳送 至聲音元件取回處理器15。 將字剖析成音素序列及縮寫與數字擴展的方法描述在藷 如 K. Church於 Proceedings of the Second Conference on Applied Natural Language Processing (Morristown,NJ 1988)之 1 3 6- 1 43 頁 的"A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text"、 J. Hirschberg户斤著 Artificial Intelligence) 1993)第 63 卷第 305-340 頁的"Pitch Accent in Context: Predicting International Prominence From Text"; R. Sproat 户斤著 Computer Speech and Language (1994)第 8 卷第 79-94 頁"English Noun-Phrase Accent Prediction for Text-to-Speech"; C. Coker 等人在 Proceedings oftheESCA Workshop on Speech Synthesis( 1990)之第 83-86 頁的”Morphology and Rhyming: Two Powerful Alternatives to Letter-to~s〇und Rules for Speech"中, 這些文獻均在此附上供卓參》 文字分析器1 〇進一步判斷各個音素序列的期間長度、幅 度及基本頻率並將這些資訊傳送給EPC處理器20=»判斷期 間長度的方法包括在諸如J. van Santen所著Computer 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X 297公釐) (請先閲济背面之vir意事項再填寫本頁) .裝. 1-訂 經濟部中央標準局員工消費合作社印策 Μ B7 五、發明説明(8 )
Speech and Language (1994)第 8 卷第 95-128 頁之"Assignment of Segmental Duration in Text-to-Speech Synthesis"中所述的方 法,該文獻在此附上供卓參。判斷一音素序列之振幅的方 法描述於諸如 L. Oliveira在 ESC A EUROS PEECH-93 (1993)的第 99-102 頁之"Estimation of Source Parameters by Frequency Analysis "中,該文獻亦在此附上供卓參。一音素 的基本頻率亦可稱爲音調或該音節的音調抑揚。決定基本 頻率或音調的方法描述於諸如M. Anderson等人在 Proceedings of the International Conference on Acoustics,
Speech and Signal Processing (聖地牙哥 1984)第 1卷第2.8.1-2.8.4 的"Synthesis by Rule of English Intonation Patterns "中, 該文獻也在此附上供卓參》 聲音元件取回處理器15從文字分析器10接收音素序列, 然後由資料庫5中選擇並取回對應的適當聲音元件》聲音元 件選擇方法敘述於諸如上文所提Olive參考文獻中》被取回 的聲音元件接著被聲音元件取回處理器15傳送至EPC處理 器20。EPC處理器20修改各個接收到的聲音元件,其修改 方法是根據從文字分析器1 0接收到的對應資訊調整聲音元 件之基本頻率及振幅,並插入適當的期間長度* EPC處理 器2 〇接著將經修改的聲音元件連貫成對應於文字分析器1 0 的文字輸入之聲音元件串。EPC處理器20的連貫方法描述 於上文所提的Oliveira參考文獻中。 由EPC處理器20產生之聲音元件串被提供予數位語音合 成器25以產生對應於該聲音元件串之自然語音的數位信號 ________- 11 -____ 本紙張尺度適用中國國家樣準(CNS ) A4规格(210X297公釐) (請先聞沐背面之·.¾意事項再填寫本瓦) 裝. 1-.訂 ,東 A7 305930 —__ B7 五、發明説明(9 ) 。數位語音合成的範例性方法亦描述於上文所提的 Oliveira參考文獻中。由數位語音合成器25產生的數位信 號被提供予D/A轉換器30以產生對應的類比信號。此等類 比信號可被提供予放大器及揚聲器(未顯示)以產生聽來自然 的合成語音。 音標序列隨時間而變的特性曲線可用數種表示法表示, 包括話音素(formant)、振幅及否定頻譜表示法,包括逆頻 譜表示法或任何由LPC導出之參數。圖2Α·2<:顯示對應於 從音fp/p-i /的錄音語音中取出之音素/ i/的音節之不同話音 素頻率或話音素FI、F2及F3的語音頻譜圖100A、100B及 10 0C ^話音素F1-F3是表現人類發話者的發音部位之不同 測量諧振頻率的軌跡。不同測量諧振頻率的話音素—般是 根據被相關話音素包含之頻譜能量而命名爲FI、F2、...。 話音素頻率視發音部位的形狀和大小而定。改變發音部 位之形狀可形成不同的聲音。所以,當發音部位形狀在音 節的發音期間改變時,語音信號之頻譜特性隨時間而變 ,如圖2A-C所示般。音素/i/的三個話音素fi、F2及F3的 顯示僅爲舉例説明用。請注意根據_特定語音音節的發音 部位形狀可有不同數目種發音《發音和語音的其他表示法 的更詳細敘述請見L.R. Rabiner與R.w. Schafer所著 "Digital rocessing of Speech Signals" (Prentice-Hall, Inc. NJ, 1978)中’該文獻在此附上供卓參。 如上文中有關圖1之説明,儲存在資料庫5内之聲音元件 對應於音標序列,該等音標序列開始於一音素的約中心部 ____- 12 - 本纸張尺度適用中@國1 標準(CNS ) A4規格(2丨0X297公廣) " -- (請先閱沐背面之‘,¾意事項再填寫本頁) -裝. V泉 經濟部中央橾準局員工消費合作社印製
Mmo五、發明説明(10 A7 B7 經濟部中央揉準局員工消費合作社印製 份且終止於另-音素的約中心部份。在二連貫的聲音元件 的接合音素處諸如頻譜成份等特性差異會產生不連續而造 成合成的語音易理解或難以了解。但在對應於音素中心範 圍的音節範内常有特別的切斷點在穩態特性範圍内可被用 來產生聲音元件而獲致連貫不連續的降低。圖之八^内各個 軌跡F1-F3代表在特殊音素中央範圍處之音標序列特性。有 需要要在音標序列内選擇切斷點以形成可使連貫不連續爲 最小的聲音元件。 圖3顯示一種根據本發明之範例性方法2〇〇,本方法從一 語音信號中選擇特別的音標序列並決定被選出.之音標序列 的對應切斷點以形成資料庫5的聲音元件。根據該方法2〇〇 ,包含一對應於一特別音素之音節的音標序列在步驟21〇中 被從一語音信號的一間隔中找出。每一音標序列應對應於 一至少有二音素之序列。語音信號有可能從綠音語音或直 接由人類發聲者獲得◊此外,若語音信號的來源是錄音語 音’則該錄音語音可進一步加以處理以產生—分段且加標 籤的語音信號而有助於方法200的運作。一分段且加標藏的 語音信號是一語音信號,其對應音標序列被加標籤且諸序 列間的約略邊界被找出。 然後在步驟2 2 0内對對應於該特定音素之各個音標序列的 至少一部份決定軌跡。軌跡是該音標序列之該部份的至少 一個聲音特性隨時間變化的一種表示法。軌跡可能是表示 該聲音特性的一獨立序列或該聲音特性在—段期間内的連 續表示法。可被用做軌跡之適當聲音特性範例包括頻譜表 13 ΜΛ張尺度適用中國國家榇準(CNS ) Α4規格(210Χ297公釐) I----. 111 裝! (請先閲济背面之>±-意ί項再填寫本f) Τ-訂 -7 泉 :法丄例如像話音素頻率、振幅與頻譜傾斜表示法及LPC 根:太恭其他不論是以頻率爲基礎的或其他的聲音特性可 2本發明被雜軌跡12A_C中各M —單獨話音素頻 牛表不法的範例性軌跡。 在步驟220中’軌跡依表示空間(rep⑽…“⑽I 二Pace)法決定。如本處所使用者,一表示空間是一區域, —軟赫可在該區域中被料爲可表現該執跡特性之參數的 函數:譬如,圖2A中所示的單一話音素軌跡的表示空間被 描述爲頻率的時間函《。有可能根據-特定音標序列的二 個或更多個話音素頻率形成—單一軌跡。對此一軌跡而言 ’、表示空間對每一被表示的正式頻率都有一軸。沿著各軌 跡的頻率有可能被對應時間標示於此等頻率在音標序列發 生的時間。分如,一二話纟素頻率軌跡會被形成於二度空 間中的曲線,其中曲線點的對應時間以5毫秒間隔標示。 軌跡在表示空間内決定之後,在步驟23〇中根據對應於不 同音素序列之軌跡的集中度決定一誤差容許範圍的位置。 經濟部中央標準局員工消费合作社印製 5吳差谷許範固是—在N度表示空間内之n度空間範圍,其交 又或最靠近於一對應於不同音素序列的相當高集中度的軌 跡。譬如,誤差容許範圍可能是一交叉或最靠近於一對應 於不同音素序列的最大數目個軌跡的範圍β誤差容許範圍 的大小應予事先決定以在連貫聲音元件時達成—最低可用 的聲音品質’其中一接合音素之切斷點對應於誤差容許範 圍的極端點内之時間點。決定適當誤差容許範圍的特別方 法在下文中參照圖4及5詳述。 _ - 14 - 本紙張尺度適用中國國家標準(CNS ) Α4_ ( 21〇χ297公釐) 、發明説明(12 ) 殊的音標二二:了:圍位置疋後’接著在步樣240中選擇特 1以艮據對應軟跡與誤差容許11圍接近的程度 ^ “件。例如’若在語音職中有數個音標序列對 相同的g素序列’則其對應軌鉢最接近或在誤差容許 範圍内之音標序列被選擇以便形成聲音元件。 β 當音標序列在步驟240内被選擇之後,接著在步骤250中 相關切斷點被決疋於音標序列中以獲得期望的聲音元件 °^寺=斷點對應於沿著大致最接近誤差容許範圍或在誤 差谷許範圍内之軌跡的時間點。最後,在步驟26〇中,根據 被選擇的音標序列及其對應切斷點形成聲音元件。若在步 驟2 1 〇内找出的所有音標序列都要形成聲音元件,則不論是 否因爲僅有—個音標序列存在各期望之音素序列的語音信 號内,步驟240均可予省略。 經濟部中央標準局員工消費合作枉印製 根據本發明,誤差容許範圍的位置係根據對應於不同音 素序列之軌跡決定。依此方式,本發明藉使用少於來自語 音信號之音標序列的總軌跡數之軌跡決定誤差容許範圍之 位置而獲致較高的多樣性。此多樣性使本發明能更正確地 選擇特殊音標序列及切斷點以形成聲音元件而達成較低的 連貫不連續。若一誤差容許範圍的位置是一對應於不同音 素序列之軌跡的最高集中度,則該聲音元件會產生相當高 聲音品質的合成語音》但若稍差一點的聲音品質可接受, 則根據本發明可使用較最高軌跡集中度爲低的誤差容許範 圍。 根據方法2 0 0決定誤差容許範圍的一種範例性技術是將軟 -15 本紙張尺度適用中國國家榡準(CNS ) Α4规格(210X 297公釐 A7 B7 g〇§930 五、發明説明(13 跡被決定於其内的表示空間分割成各個相關格子,並且找 出具有至少一最低期望軌跡集中度位準的特別格子或範圍 9根據本技術之方法200的範例性作業現將參照圖4中所示 範例性軌跡圖300加以描述。參考圖3,包含對應於音素/i7 之音節的音標序列於步驟2 10中在錄音語音的一時段中被找 出。音標序列對應於音素序列/lid/,/lik/,/mik/,/gim/ ,/din/且5個音標序列對應於音素序列/kit/ ^可由這些音 標序列形成之聲音元件包括[U],[ιη ί]> [g-i],[i-m],[d-i], [i-n],[k-i]及[i-t]。雖然圖 4 之討論 考量的是雙音聲音元件的建構,但請注意更大音素序列的 聲音元件可根據本發明藉執行圖3之方法2〇〇於對應較大音 標序列的特定邊界音素上而建構。 經濟部中央標準局員工消費合作社印製 對在步驟2 10内找出的各個音標序列而言,各個音標序列 在步驟22 0中形成二話音素軌跡β圖4中所示軌跡圖3〇〇舉 例説明這些軌跡在一二話音素表示空間中被分割成許多個 格子310。在圖4中’每個軌跡被標示以其對應音素序列的 同質體3譬如’軌跡305被由對應於音素序列/lid/之音標序 列決定,故被標示爲"LID"。來自被用來產生圖1之資料庫 5的語音信號之部份的音素序列/kit/之5種狀況被標示爲 "ΚΙ T 1"到"ΚΙ T5 "以利討論β該圖所示各個二話音素軌跡表 示在一特定時點上相關音標序列之話音素F 1的頻率値相對 於對應話音素F 2的頻率値的續圖β 話音素F1與F2之頻率分別顯示於X與γ軸上。沿著軌跡的 時間特定點可被表示爲對應標示如軌跡3 0 5上所示般。圖4 私紙張尺度適用中國國家橾準(〇奶)八4規格(210\297公董)
五、發明説明(U 中一維軚跡表示法僅爲方便討論及舉例 =何限!;有可能使用其他心表示法,包括例如: 素的音節,及振幅及頻譜傾斜表示法來表亍曰 爲該料音素的音^ 子音做 僅爲了易於顏示及説明,表示空間内格子3 10的格子大小 被^爲誤差容許範圍期望大小的1/4。當誤差容許範固大 :坪範大於格子大小時’設定格子大小爲期望誤差容 命範圍大小的倍數就很方便。根據圖3之方法200的步驟 230,誤差容許㈣之決定是根據被對應衫同音素序列之 軌跡交又的範圍決定。所以’若_由2χ2陣列格子31〇構成 的,吳差谷許範圍被判定其大小足以產生期望的最低聲音品 質,則被最大數目個此種軌跡交又的範圍32G即爲誤差容許 範圍。 決定具有最大數目個此種軌跡交又之格小的一種方法例 如是執行在表示空間内的格子柵格尋找。根據此種方法, 圖4之各格子3 1〇被檢查,且與該格子交叉對應於不同音素 序列之軌跡數目,或圍繞該格子31〇之預定格子解析範圍被 決定。例如,對軌跡LID與MIK而言,對應於格子33〇之不 同音素序列的軌跡交又數爲2。下文中將參考圖5詳述一種 在計算上較簡單且較快速之決定具有對應於不同音標序列 的最大數目個此種軌跡交又之格子的方法。 回頭參考圖3之方法200。在軌跡決定之後,接著在步骤 240中,根據靠近誤差容許範圍320之對應軌跡選擇特別的 -17 本紙乐尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ————1丁 (請先閲济背面之:¾意事項再填寫本頁) 1訂 經濟部中央標準局員工消費合作社印裝 • 3v)&53 ❹ A7 B7 經濟部中央標準局員工消费合作社印製 五、發明説明() 音標序列以形成聲音元件°若對一特定音素序列僅含入資 料庫5内的一個聲音元件以使資料庫所需空間極小又使語音 合成器設計能簡化將是很有利的β所以,音標序列川k/或 /lid /二者之一可被選擇來形成聲音元件[Ι-i],且音標序列 /lik/或/mik/二者之一可被選擇來形成聲音元件[i-k]。此 外,音素序列/kit/的5個音標序列之一可被選擇來形成聲音 元件[k-i]與[i-t]。但一採用更大資料庫之更複雜語音合成 器有可能根據語音合成應用用途而使用多重音標序列於一 特定音素序列上3在建構此種資料庫時,可從對應於一特 定音素序列之從語音信號析出之一個以上及多達全部的音 標序列選擇出來以形成聲音元件。 若一特定音素序列要有一聲音元件存在於資料庫5内,則 從對應於形成該聲音元素之相同音素序列的許多個音標序 列中找出特別的一個可根據對應軌跡靠近誤差容許範圍的 程度決定。譬如’對聲音元件[Ι-i]而言,會選擇其軌道 LID與誤差容許範圍320交叉之"LID"音標序列,而不會選 擇其軌道LIK不與誤差容許範圍320交又之"LIK"音標序列 。同樣地,聲音元件[i-k]會選擇音標序列"MIK”而不選擇 音標序列"LIK ",其原因大致相同。依相同的方法,對聲音 元件[k-i]與[i-t]二者而言,會選擇對應於軌跡κΙΤ5的音標 序列而不選擇其他相關的音標序列"KIT"。 同時’由於聲音元件一般可在二邊界性音素處連貫,故 選擇用來形成聲音元件的特定音標序列應根據該二邊界性 音素之軌跡接近程度。所以,特別的音標序列"M丨κ,,或
——*I.llf 裝丨| (請先閲本背面之>±*意事項再填寫本f) I-訂 I — =1 A7 B7 805930 ----- 五、發明説明(l6 ) LIK會被選擇以形成聲音元件[丨^],因爲該二音標序列 (軌跡在整體上最接近邊界性音素與邊界性音素/k/的誤 差容許範圍》 有時候對應於相同音素序列之音標序列的軌跡不會是最 靠近其邊界性音素的二相關誤差容許範圍者,此種情況發 生於^ θ k序列之來源爲包含該音素序列的二個不同字時 。在此情況下,較佳的方法是選擇其軌跡具有整體最佳品 虞的音標序列。選擇此種音標序列的一種範例性方法是根 據特殊免衡量値各指定一値予各個音標序列以評量諸 音標序列有關對應的邊界性音素,評量爲整體.最佳的音標 序列將會被用來形成該聲音元件。 再回頭參考圖3之方法2〇〇,聲音元件之音標序列被選擇 (後,在步驟250中選擇被用以形成該聲音元件之音標序列 切斷點。例如在圖4中,切斷點之選擇係根據在誤差容許範 圍j20内之相關軌跡中的時間點決定。對那些與誤差容許範 圍320交叉的軌跡而言,被選擇之切斷點應宜爲沿著軌跡大 約最靠近誤差容許範圍3 2 0之中央點3 4 0的時間點。譬如, 圖4中軌跡305上最靠近中央點34〇的時間點是j6〇毫秒,所以 經濟部中央標準局員工消費合作社印製 ’聲音元件/i-k/是根據開始於時間16〇毫秒的對應音標序列 〇 對於諸如軌跡UK等不與誤差容許範圍32〇交又之軌跡而 言,切斷點仍應爲沿著軌跡最靠近誤差容許範固中央點34〇 之時間點。故若選擇音標序列"LIK"來形成聲音元件,則適 當的切斷點將對應於軌跡LIK上時間點3 5 0。請注意冬使用 -19 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇X297公慶) 經濟部中央標準局貝工消費合作社印製 SO&QdO at _______B7 五、發明説明(I7 ) 此音標序列來形成聲音元件時,將會在音素n/處產生相對 較大的不連續。所以,最好是能獲得音素序列/nk/的其他 L k段落以決定其疋否爲形成該聲音元件的較佳待選語音 段落》 在圖3的方法200中,在切斷點於步驟25〇中被決定之後 ’聲音元件根據被選定的音節和被決定的切斷點形成。聲 音元件可留存在圖1之資料庫5中,其形式可類如數位語音 k號或對應於開始及結束於相關切斷點之音標序列的L p c 參數。而且,較長的序列可連同對應於相關聲音元件之特 別切斷點的開始及結束値餘存在資料庫5中。圖1之聲音元 件讀回處理器丨5則會根據這些値從這些較長序列之抽出適 當的聲音元件。請特別注意的是用於資料庫5之特別组織性 方法不應被視爲一種限制’ 1任何組織均可被用以儲存根 據本發明形成之聲音元件。爲了要合成一特別語言的多種 話音素,應產生該種語言的所有基本音素序列之聲音元件 〇 根據本發明的新穎的使用高度多樣化軌跡來決定誤差容 許範圍的位置結果造成在連貫時產生較小不連續的聲音元 件。例如在圖4中’範圍3 6 0對應於根據所有軌跡之範圍, 且交又於或最靠近於源自音素序列/kit/的5個軌跡之整體最 大數目個此種軌跡》但可見到軌跡LTD與MIK上最靠近範 圍360的時間點在連貫相關聲音元件時會產生相當大的不連 續。相對地’誤差容許範圍320未被音素序列/kit/的多重狀 況扭曲’且所有被選擇之轨跡至誤差容許範圍3 2 0間的對應 ____ - 20 - 本紙伕尺度適用中國國家標準(CNS ) M規格(2K5X 297公釐} ll-lTIlT (請先閱參背面之以意事項再填寫本頁)
*1T 五 發明説明(is A7 B7 經濟部中央橾準局員工消費合作社印製 距離遠較小而將使任何相關不連續極小化。 圖5顯示根據本發明使用於圖3中步驟23〇内決定對應於不 同音標序列之具有最大數目個軌跡交叉的格子之範例性方 法400。爲了便於討論起見,每個轨跡在圖5中用一獨特的 整數稱呼而不像圖4中使用相關音標序列標示法。例如,圖 4中所示的9個軌跡在圖5中被稱爲軌跡丨_9。此種軌跡標示 法符合使用於資料結構表示法中諸如陣列中或表列中的慣 用指向器。 根據方法400 ’ 一整數N與許多個表列LIST_i在步驟410 中被初始化爲零。該等許多個表列LI S T _ i中表列的數目i對 應於表示空間中的格子數。接著整數N在步驟420中被增加 數値。然後,對軌跡N内的各時間點,在步骤430中找出在 圍繞相關時間點之解析知圍内的格子。爲方便起見,解析 範園的大小可相同於誤差容許範圍者。但根據本發明,解 析範圍的大小亦可依需要而爲不同的大小。若選擇的解析 範圍是由一 2x2格子陣列涵蓋的區域,則圖4中圍繞軌跡 3 0 5在時間0 _ 〇 9 5毫秒處之時間點5 0 5的解析範圍將包括被 外框線510圍繞的格子511、512、513及514。 在解析範圍内的格子於步驟430内找出之後,被找出的格 子之相關表列LI S T_i被用對應軌跡N的音素序列名稱更新 。而且,在步驟440中,若該音素序列名稱不是已出現在該 格子的表列上’則其僅被加至表列。所以,假設在上述範 例中名稱"LID"未出現在格子5 1 1-5 14的表列LIST」中, 則這些格子的表列LI S T_i,將被用該名稱更新。沿著軌跡 21 - 本紙伕尺度適用中國國家標準(CNS〉A4規格(210x297公釐〉 I—叫.ΙΙΓ 裝—— (請先聞秦背面之❼意事項再填寫本頁) 訂一-.1
T 泉 經濟部令央裙準局員工消費合作社印製 A7 Γ--------- 五、發明说明(l9 ) 3 05的其他時間點在解析範圍内的格子之表列LiST_i亦會 依大致類似方法用名稱,,LID ”更新。 當一特定軌跡N被找出之解析範圍内所有格子均在步驟 440中更新之後,本方法在步驟45〇中判斷整數^^是否等於 軌跡的總數》若本方法判定N不等於軌跡總數,則方法4 〇 〇 根據次一軌跡N的時間點執行步驟420-440以更新表列 LIST_i ^若本方法判定N等於軌跡總數,則所有的軌跡均 已處理完成,且解析範圍内全部表列LiST_i均已更新完成 ,方法400前進到步驟46〇。在步驟46〇中,誤差容許範圍 由在對應表列或諸表列L丨S T — i中具有最大數目個名稱的格 子或諸格子的範圍決定。因爲方法4〇〇僅檢驗並更新在軌跡 時間點之解析範圍内的諸格子,所以其在運算上較分別檢 驗每個格子的栅格尋找方法便簡單且快速。 在方法4 0 0中,步骤4 3 〇首先檢驗一特定軌跡的時間點在 解析範固内所有的格子,然後在步驟44〇中更新對應的格子 表列。但請注意圖4中所示諸步驟的順序僅爲舉例說明用而 非對本發明之限制。這些步驟的順序可用各種不同方式施 行,包括在一表列LIST_i的相關格子被判定爲在—特定軌 赫時間點的解析範圍内之後,立刻更新該表列。 伙在一替代性具體實.例中,具有最長表列LIST_i之格子的 等位體可藉儲存並更新具有最長表列LIST — i之等位體及對 應最大表列長度而在整個格子表列更新程序中被維護一 各格子表列被更新時,包含在該表列中的名稱之總數目: 過被儲存格子同位體之名稱數目,則被像存之格子同位趙 I 丨「—— 1裝! (請先閲济背面之纪意事項再填寫本頁) Ά------ Z紙張尺度 標準(CNS) A4規格(210><297公釐 五、發明説明(2〇 ) 經濟部中央標準局貝工消費合作社印製 ::大表列長度可據以被更新。依此方式,對應於誤差容 了圍<格子的同位體可在處理前一軌跡的最後一個時間 ^即已知而不需任何進—步的處理步驟。 右諸格子表列被加索引,加索引的形式譬如是具有整數 値的資料結構指派格子位置於表示空間内,然後可採用— 在運算上簡單且較快速的方法。例如,@4中格子3 10之格 子表歹J可依-對應於其χ與γ座帛之方法加索引。然後,轉 換値可j用W將軌跡時間點料換成表示根據被加索引之 格子該等時間點的相對座標位置㈣引値。接著,解析度 被加n轉換的索引値及由其減去以找出該點解析範圍 内諸格子之索引數目。然後,解析範圍内各個格子之表列 LIST_i被據以更新。 所以,對圖4中所示範例而言,圖4中軌跡3 〇5之時間點 505的話音素F1&F2^率値可乘以轉換因素以獲得經轉換 的値x-3.5及y = 3,5,表示其分別在)(與¥方向的第三與第四 格子之間。所以,若解析範圍是一 2χ2格子陣列,則±1的 解析値頊被加至經轉換的値並四捨五入到要產生之最靠近 位置’以使解析·51()内諸格子的格子表列具有分別對應 於格子5 1丨-514的座標(33),(34),(43)及(44),且會 被用音素序列名稱,,LID"更新。 雖然上文中詳細描述本發明的數種具體實例,但可在不 背離其敎導的情形下做許多修改。所有這些修改均旨在包 含於下文中申請專利範圍Α。譬如,雖然上文中用二維矩 形格子及誤差容許範圍來描述本發明,但是有可能使用任 __________一 23 - 本紙伕尺度適财酬家料(CNS) A4規格(21();><297公瘦) (請先閱株背面之:zi-意事項再填寫本I) .裝. 七訂 V泉 A7 __B7 五、發明説明(21 ) 何N維封閉形狀於格子及範圍上,而符合包括立方體、盒狀 體、球狀體及偏球狀體等的N維表示空間。而且,本發明在 包含文字轉語音及聲音回應系統的各種語音合成應用中特 別有用。 ,^丨「裝! (請先閲—背面之Vi*意事項再填寫本頁) I-訂
T 經濟部中央標準局員工消費合作社印製 本纸張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐)
Claims (1)
- ABCD 中請專利範圍 •種產生合成語音的方法,該種方法包括—聲音元件資 科庫,該資料庫包含用來連貫以產生合成語音的聲音元 件,該聲音元件資料庫藉下列諸步驟建立: 對於對應於包含在發生於一語音信號的一期間内之許 夕個音標序列中的特定音節的至少一個音素而言, 根據對應於和一誤差容許範圍交又的不同音素序列之 音標序列的軌跡集中度,決定一表示空間内—誤差容許 範圍之相對位置,其中每一軌跡代表包含該特定音節之 相關音標序列的至少一部份之聲音特性;及 根據諸時間點與誤差容許範圍接近的程度,藉著找出 沿著對應軌跡上各相關時間點處之音標序列内的切斷點 ,由音標序列形成聲音元件。 2. 根據申請專利範圍第丨項之方法,該方法尚包括根據對應 諸軌跡接近誤差容許範的程度從許多個音標序列中選擇 至少一個音標序列的步驟,該等許多個音標序列有對應 於一特定音素序列的部份,其中一聲音元件由被選定之 音標序列的部份形成》 經濟部中央標準局貝工消费合作社印策 3. 根據申請專利範圍第1項之方法,其中該形成聲音元件之 步驟沿著對應軌跡的相關時間點處找出每一音標序列約 略最靠近誤差容許範圍或在誤差容許範圍内的切斷點 〇 4. 根據申請專利範圍第3項之方法’其中該形成聲音元件之 步驟沿著對應軌跡的相關時間點處找出每一音標序列約 略最靠近誤差容許範圍中心點的切斷點β 尺度逋用中國國家標準(CNS ) A4規格(21〇Χ297公釐〉申請專利範圍 經濟部中央榡準局貝工消費合作社印製 5·根據申請專利第!項之方法,其中—特別語言之每一 預測的音素序列均形成一聲音元件。 H中請㈣第丨項之方法,其中純㈣根據諸音 ^序列的諸話音素形成s Z根據中請專利範㈣1項之方法,其中該等軌㈣根據- 種二逢音素表示法,且該表示空間爲_三話音素空間。 Μ艮據中請專利範圍第β之方法,其中該表示空間爲_包 括許多個連續Ν維格子_維空間,且其中該決定誤差容 許範圍之步驟尚包括執行一拇格尋找以決定—與對應於 不同a素序列之約最大數目個軌跡交又的至少一個格子 之範圍。 9·根據中請專利第!項之方法,其中該表示空間爲一包 括許多個連續N維格子的N維空間,且其中該決定誤差容 許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範園内被找出的每—格子,若一對應於該軌 跡之音素序列的識別體未出現於該格子的表列内,則用 該識別體更新一爲該格子維護的表列;及 決定對應於至少一個具有大於其表列上識別體平均數 個識別體之格子的誤差容許範圍。 10.根據申請專利範固第9項之方法,其中該找出那些在一解 析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間點 及更新關聯於在對應解析範圍内的諸格子之表列。 本紙承尺度適用中國國家標準(CNS ) A4%# ( 21GX297公釐 — 「裝丨_ (請先聞^背面之_注意事項再填寫本頁) 訂 H旅 六、申請專利範圍 A8 B8 C8 D8 經濟部中央揉準局貝工消費合作社印装 11. 根據申請專利範圍第9項之方法,其中該解析範圍與該誤 差容許範圍的大小相同。 12. 根據中請專利範圍第i項之方法,其中該表示空間爲—包 括許多個連續N維格子的N維空間,且其中該決定誤差容 許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範固内被找出的每—格子,㈣應於該執跡, 之音素序列的識別體更新一爲該格子維護的表列; 從各格子表列中移除多重識別體;及 決定對應於至少-個具有大於其表列上識別體平均個 數.識別體之格子的誤差容許範圍。 根據申請專利範圍第12項之方法,纟中該找出那些在_ 解析範圍内之格子的步骤包括處理沿著純跡之諸時間 點及更新關聯於在對應解析範固内的諸格子之表列。 R根據中請專利㈣第12項之方法,其中該解㈣_該 誤差容許範圍的大小相同。 既根據中請專利範圍第1之方法,其中該等許多個立 列中的至少兩個音標序列具有對應於—特別音素^ 部份,該方法尚包括下列步驟: 根據對應軌跡接近誤差容許範圍的程度決定該 序列之各部份的値,其中該特別音素序列之聲 根據該等被決定的隸料音標序狀料^份= 一個形成。 J 27 * 表紙張尺度適用中國國家標準(CNS ) A4規格(210X29?^" ---「參-- .-· { (請先聞货背面^注意事項再填寫本頁) 、1T Τ 旅 A8 B8 C8 ---—___________D8 六、+請專利範圍 經濟部中央標準局貝工消費合作社印裝 16. 根據申請專利範圍第15項之方法,其中該決定諸値的步 驟尚根據該對應音標序列的品質衡量値。 17. 根據申請專利範園第16項之方法,其中該品質衡量値係 由一軌跡接近一對應於一不同的邊界性音素之音標序列 的誤差容許範圍之程度決定。 18. —種產生合成語音的裝置,該裝置包括一聲音元件資料 庫,該資料庫包含用來連貫以產生合成語音的聲音元件 ,該聲音元件資料庫藉下列諸步驟建立: 對於對應於包含在發生於一語音信號的一期間内之許 多個Ε»彳承序列中的特定音節的至少—個音素而言, 根據對應於和一誤差容許範圍交又的不同音素序列之 音標序列的軌跡集中度,決定一表示空間内一誤差容許 範圍之相對位置,其中每一軌跡代表包含該特定音節之 相關音標序列的至少一部份之聲音特性;及 根據諸時間點與誤差容許範圍接近的程度,藉著找出 沿著對應軌跡上各相關時間點處之音標序列内的切斷點 ,由音標序列形成聲音元件。 19. 根據申請專利範圍第18項之裝置,其中該表示空間爲一 包括許多個連續N維格子的\維空間,且其中該決定誤差 容許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範圍内被找出的每一格子,若一對應於該軌 跡之音素序列的識別體未出現於該格子的表列内,則用 -28 - --------「裝—--* { (請先閲贫背面之注意事項再填寫本頁) 訂 7 旅 (CNS ) ( 210x297公着) ABCD 六、申請專利範圍 '--- 該識別體更新一爲該格子維護的表列;及 決定對應於至少一個具有大於其表列上識別體平均數 個識別體之格子的誤差容許範圍β 20. 根據申請專利範圍第19項之裝置,其中該找出那些在— 解析範園内之格子的步驟包括處理沿著諸軌跡之諸時間 點及更新關聯於在對應解析範圍内的諸格子之表列。 21. 根據申請專利範圍第1 8項之裝置,其中該表示空間爲— 包括許多個連續Ν維格子的Ν維空間,且其中該決定誤差 容許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範 内的格子; 對在解析範圍内被找出的每一格子,用對應於該轨跡 之音素序列的識別體更新一爲該格子維護的表列; 、 從各格子表列中移除多重識別體;及 決定對應於至少一個具有大於其表列上識別體平均個 數識別體之格子的誤差容許範圍。 經濟部中央標準局貝工消費合作社印裝 22. 根據申請專利範圍第21項之裝置,其中該找出那些在— 解析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間 點及更新關聯於在對應解析範圍内的諸格子之表列。’ 本紙張尺度適用中國國家梯準(CNS ) Α4規格(210Χ297公釐) 丨公告本 申請曰期 85. 8. 1J ------ - 〇 < t _ ,· 案 號 0Jiuy/0/ -- 鋇1邊 _,,l Μ 丄.t· tv t士㈠、發明 型專利説明書 中 文 具有一聲音元件資料庫之語音合成器 發明 名稱 英 文 SPEECH SYNTHESIZER HAVING AN ACOUST DATABASE" 1C T ENΜ 姓 名 國 籍 1. 伯德摩比斯 2. 約瑟夫菲利浦歐里維 3. 麥克亞雷罕譚伯特 4. 珍皮耶特文生特 -1·德國 2.3.4.美國 -裝· 發明 住、居所 1 _美國新澤西州查坦市希克里廣場25號C6 2. 美國新澤西州華成市維利道1〇 1號 3. 美國紐約州紐約市西71街3 09號1B 4. 美國紐約州布魯克林市魯比路293號 訂 姓 名 (名稱) 美商AT&T公司 經濟部中央橾準局貝工消费合作社印製 國 籍 美國 三、申請人 住、居所 (事務所) 代表人 姓 名 美國紐約州紐約市美國大道32號 約翰· J ·吉桑 本紙张尺度適用中國國家棣準(CNS〉Α4洗格(210Χ297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/515,887 US5751907A (en) | 1995-08-16 | 1995-08-16 | Speech synthesizer having an acoustic element database |
Publications (1)
Publication Number | Publication Date |
---|---|
TW305990B true TW305990B (zh) | 1997-05-21 |
Family
ID=24053185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW085109787A TW305990B (zh) | 1995-08-16 | 1996-08-13 |
Country Status (10)
Country | Link |
---|---|
US (1) | US5751907A (zh) |
EP (1) | EP0845139B1 (zh) |
JP (1) | JP3340748B2 (zh) |
AU (1) | AU6645096A (zh) |
BR (1) | BR9612624A (zh) |
CA (1) | CA2222582C (zh) |
DE (1) | DE69627865T2 (zh) |
MX (1) | MX9801086A (zh) |
TW (1) | TW305990B (zh) |
WO (1) | WO1997007500A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251314B2 (en) * | 1994-10-18 | 2007-07-31 | Lucent Technologies | Voice message transfer between a sender and a receiver |
JP3349905B2 (ja) * | 1996-12-10 | 2002-11-25 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP2000075878A (ja) * | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
US6202049B1 (en) | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
US6178402B1 (en) * | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US6618699B1 (en) | 1999-08-30 | 2003-09-09 | Lucent Technologies Inc. | Formant tracking based on phoneme information |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6625576B2 (en) | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
US7010488B2 (en) * | 2002-05-09 | 2006-03-07 | Oregon Health & Science University | System and method for compressing concatenative acoustic inventories for speech synthesis |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7542903B2 (en) | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
JP4878538B2 (ja) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | 音声合成装置 |
US8103506B1 (en) * | 2007-09-20 | 2012-01-24 | United Services Automobile Association | Free text matching system and method |
JP2011180416A (ja) * | 2010-03-02 | 2011-09-15 | Denso Corp | 音声合成装置、音声合成方法およびカーナビゲーションシステム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4831654A (en) * | 1985-09-09 | 1989-05-16 | Wang Laboratories, Inc. | Apparatus for making and editing dictionary entries in a text to speech conversion system |
JPS63501603A (ja) * | 1985-10-30 | 1988-06-16 | セントラル インステイチユ−ト フオ ザ デフ | スピ−チ処理装置および方法 |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
GB2207027B (en) * | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
US4979216A (en) * | 1989-02-17 | 1990-12-18 | Malsheen Bathsheba J | Text to speech synthesis system and method using context dependent vowel allophones |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
-
1995
- 1995-08-16 US US08/515,887 patent/US5751907A/en not_active Expired - Lifetime
-
1996
- 1996-08-02 DE DE69627865T patent/DE69627865T2/de not_active Expired - Lifetime
- 1996-08-02 AU AU66450/96A patent/AU6645096A/en not_active Abandoned
- 1996-08-02 MX MX9801086A patent/MX9801086A/es not_active IP Right Cessation
- 1996-08-02 WO PCT/US1996/012628 patent/WO1997007500A1/en active IP Right Grant
- 1996-08-02 EP EP96926228A patent/EP0845139B1/en not_active Expired - Lifetime
- 1996-08-02 CA CA002222582A patent/CA2222582C/en not_active Expired - Fee Related
- 1996-08-02 JP JP50931697A patent/JP3340748B2/ja not_active Expired - Fee Related
- 1996-08-02 BR BR9612624-8A patent/BR9612624A/pt not_active Application Discontinuation
- 1996-08-13 TW TW085109787A patent/TW305990B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CA2222582C (en) | 2001-09-11 |
AU6645096A (en) | 1997-03-12 |
DE69627865D1 (de) | 2003-06-05 |
US5751907A (en) | 1998-05-12 |
EP0845139B1 (en) | 2003-05-02 |
JP2000509157A (ja) | 2000-07-18 |
EP0845139A1 (en) | 1998-06-03 |
EP0845139A4 (en) | 1999-10-20 |
WO1997007500A1 (en) | 1997-02-27 |
MX9801086A (es) | 1998-04-30 |
JP3340748B2 (ja) | 2002-11-05 |
DE69627865T2 (de) | 2004-02-19 |
BR9612624A (pt) | 2000-05-23 |
CA2222582A1 (en) | 1997-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW305990B (zh) | ||
Rodet | Musical sound signal analysis/synthesis: Sinusoidal+ residual and elementary waveform models | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US6535852B2 (en) | Training of text-to-speech systems | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
EP0833304B1 (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
CN1758330B (zh) | 用于通过交互式话音响应系统防止语音理解的方法和设备 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
EP2462586B1 (en) | A method of speech synthesis | |
Turk et al. | Robust processing techniques for voice conversion | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
JP2006084715A (ja) | 素片セット作成方法および装置 | |
Panda et al. | A waveform concatenation technique for text-to-speech synthesis | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
KR20190048371A (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
Louw et al. | A general-purpose IsiZulu speech synthesizer | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
US20070203706A1 (en) | Voice analysis tool for creating database used in text to speech synthesis system | |
KR100759172B1 (ko) | 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체 | |
Rodet | Musical sound signal analysis/synthesis: Sinusoidal+ residual and elementary waveform models | |
BE1011892A3 (fr) | Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation. | |
EP1589524A1 (en) | Method and device for speech synthesis | |
EP1640968A1 (en) | Method and device for speech synthesis | |
Eady et al. | Pitch assignment rules for speech synthesis by word concatenation | |
JP2001249678A (ja) | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |