TW305990B - - Google Patents

Download PDF

Info

Publication number
TW305990B
TW305990B TW085109787A TW85109787A TW305990B TW 305990 B TW305990 B TW 305990B TW 085109787 A TW085109787 A TW 085109787A TW 85109787 A TW85109787 A TW 85109787A TW 305990 B TW305990 B TW 305990B
Authority
TW
Taiwan
Prior art keywords
range
sequence
grid
phonetic
phoneme
Prior art date
Application number
TW085109787A
Other languages
English (en)
Original Assignee
At & T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by At & T Corp filed Critical At & T Corp
Application granted granted Critical
Publication of TW305990B publication Critical patent/TW305990B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Description

d05Q3〇 A7 B7 五、發明説明( 發明領域 -:二:略關於语音合成’更明確地説,本發明係關於 吾音合成中包含聲音元件的資料庫。 發明背景 見則爲基礎的語音合成被使用於各種型式的語音合成 Γ,中丨括文字轉語音及聲音回應系統。典型的以规則 礎的b曰合成技術涉及將取自錄音語音之雙音音標序 ,連貫以形成新字句。此種文字轉語音合成器的-個範例 是由本發明讓受者之關係企業製造的TTS系統,該系統描述 於由 R.W. sproat與 J p 〇live所著"Tex卜t〇 Speech
SyiUheS1S —文中,該文在 AT&T Technical Journal, V〇1.74’ Νο·2,叩,35_44(1995年3月/4月)中發表並在此 附上供卓參。 經濟部中央橾準局負工消費合作社印製 一音素(phoneme)相當於語音聲音的最小單位而其作用 疋分辨各個發音(utterance)。譬如,在英語中,/r/音素相 备於^子的聲音。音節(phonetic segment)是一音素的特定 發音3同樣地,音標序列(ph〇netic sequence)係相鄰音節的 浯音間隔。一雙音(diphoiie)音標序列是一約啓始於—音節 的中央邵份且約終止於次一音節的中央部份之音標序列。 結果,一雙音相當於從一音素至次一音素的轉換。 一般而言,一對應於一音素之音節的中央部份有大致穩 定的聲音特性而不會隨時間做大幅變化。所以,形成於二 連貫的音標序列之間的接合點處之任何不連續應相當小。 但從不同發音取得之連貫音標序列常會產生可察覺的不連 續而有害於結果聲音信號之可理解性》 本紙張尺度適用中國國家橾準(CNS ) a4規格(2丨0X297公釐) A7 B7 3C5G30 五、發明説明(2 ) 解決此不連續問題的語音合成方法包括(Academic Press Limited. 1995) Computer Speech and Language—書 1-16 頁由 Ν· Iwahashi與 Y. Sagisaka所著"Speech Segment Network Approach for an Optimal Synthesis Unit Set"(Iwahashi等人文 獻 )及 IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, No.2, 264-271 頁(1986 年 4 月)由 Η. Kaeslin 所著"A Systematic Approach to the Extraction of Diphone Elements from NaturalSpeech"(Kaeslin文獻)中,該二文獻 在此附上供卓參。
Iwahashi文獻的方法使用最佳化技術從預錄語音中選擇 可重新合併的雙音音標序列而有較少的不連續或音節間失 … ·· ~ -- 眞。更明確地説,此方法判斷從錄製的語音中抽取之不同 音標序列眾多组合的音節間失眞値。其結果的諸失眞値接 著被利用數學最佳化方法評估以選擇在特定語音内使用的 各雙音之整體最佳序列。但此種方法在運算上太過複雜且 需特殊的電腦或爲人所不愛的長計算時間期間。而且,雖 然雙音音標啓始於一音節的穩態中心並終止於次_音節的 穩態中心,經常會在中心區域内有特殊點在被當作切斷點 時會產生造成較差連貫連續性之序列。所以,音節間失眞 的降低大幅依賴各音標序列特殊啓始及終止切斷點的選擇 品質。這些切斷點一般由人工操作員決定,該操作員從錄 音s吾音中抽離序列而不知那些切斷點會提供顯著的優點。
Kaeslin文獻揭橥一種方法意圖決定最佳啓始及終止切斷 點以便降低連貫不連續性。此方法產生所有包含一對應於 一特殊音素的音節之雙音音標序列的格式頻率軌跡。格式 ------------- 5 __ 本紙法尺度適用中國國豕樣^(〇奶)八4規格(210/297公釐) _—'' - ---------^裝------.-訂 ί.Γ--^——^泉 (請先閱背面之心意事項再填寫本頁) 經濟部中央橾準局貝工消費合作社印製 經濟部中央標準局員工消費合作社印製 3G5930 五、發明説明(3 ) 軚跡爲構成一發音之測量t皆波頻率的隨時間而變的圖示β 該方法接著接著根據這些軌跡決定—形心向量。該文獻界 定一形心向量爲「使在一組軌跡上其本身與最接近點之間 的平方和最小...,距離係藉對數區域比率距離測量」的向 量。該方法接著從錄音磚音中切斷音標序列以左斟廄於碁 接近量之軌跡的點之時間點處形成雙音資料庫元件 0 但形心向量之決定非常困難且在開始時是靠一人工操作 員的最佳猜測。基於軌跡的特性,若做了一個不對的"最 佳猜測",則一形心向量會不適當地被決定接近一组區域軌 跡,而事實上全部軌跡的眞實形心向量卻在別處,使用不 適當的形心向量會造成序列J刀斷點產生完全沒有或無法接 拿地小的不連續降低度胃0 所以有一種需要,要有一種聲音音節資料庫建構方法, 該方法可自動決定各音節之適當切斷點而大幅降低結果連 貫音節之不連續性。 發明概述 一種語音合成器採用一種聲音元件資料庫,該種資料庫 包括從一語音信號在特殊切斷點抽出之被選定音標序列形 ,之聲音元件。根據本發明,這些切斷點對應於在一誤差 谷許範圍内或與其靠近的軌跡時間點。誤差容許範圍應事 先選定,使得一最低的期望聲音品質可在一連貫聲音元件 内達成,一接合音節之該元件的切斷點對應於該誤差容許 範圍的極端部份内之時間.點。誤差範圍之定位係屬對應 於不同音標序列之軌跡的集中度而定。譬如,誤差容許範 ( cns ) A4^ ( •lT-l—lf 裝—丨 (請先Μ$背面之:#意事項再填寫本1) r'訂 305930
五、發明説明(4 經濟部中央標準局員工消費合作社印裝 ,可把爲一表達空間的一個範圍,諸軌跡形成於其中,該 範,對應於相當於不同音標序列軌跡之最高集中度範圍^ 換舌疋,該範圍與此等軌跡中約最大數目個軌跡交叉或靠 近。 六所以,本發明依賴藉採用—增強的多樣軌跡來判斷誤差 容許範圍之位置而獲致的重大且未預期的益處。此多樣性 使本發明能更正確地選擇特殊的音標序列及切斷點以形成 聲音元件而達成降低連貫不連續。 、根據本發明的一種具體實例,軌跡的表現空白由許多個 連續格子覆蓋4此種具㈣例中,有可能採用格子的栖 格尋找以藉找出至少_格子的範圍而決定誤差容許範圍, 丄至V格子文又於斜應於不同音素序列的大於平均數個 軌跡。 根據本發明的另—種具體實例,圍繞沿著一軌跡的各點之 範圍内的格子被找出。對每個被找出的格子而言,爲該格 子=護的表列被用該軌跡之音素序列的本身更新。但若該 特定ΕΪ素序列之本身已出現在該表列内,則其不應被加到 格子表列内。由於该方法僅檢查並更新軌跡時間點之解析 範圍内的格子,所以其較栅格尋找法快,柵格尋找法各別 檢查表達空間内的各格子。此外,一音素序列的本身僅加 至表列一次’故在判斷誤差容許範圍中可達成軌跡多樣性 而且’格子表列可具有特性爲一經索引的資料結構可肩 助於更新在圍繞一軌跡時間點之特定誤差容許範圍内的相 子表列。依此方法,軌跡時間點可利用一轉換因數轉換治 本紙乐尺度適用中國國家標率(CNS )八4^77^^7公釐 (請先閱請背面之..¾意事項再填寫本頁) -裝
、1T 3C5G30 A7 — B7 五、發明説日~ --— 索引値。然後,解析度値可加或減到經轉換之索引値以判 斷格子表列中對應於該特定範圍内諸格子之索引値。接著 ,表列最長的格子可輕易地被找出以決定誤差容許範圍。 如此,根據本發明可用一在運算上簡單且快速的方法產 生聲g元件資料庫而不需特殊電腦或長的處理時間。此 種資料庫的記憶體需求相當小且包含可被連貫成聽來相當 自然的合成語音的聲音元件。由於該等聲音元件係使用根 據一相關誤差容許範圍決定之切斷點從語音信號中選出, 故在連貫期間發生之可察覺不連續數得以減少。 本發明的其他特徵及優點可從下文中的詳細敘述及附圖 更清楚地了解。 圖式簡述 圖1顯示採用根據本發明之聲音元件資料庫的範例性文字 轉語音合成器之示意方塊圖; 圖2 A - 2 C顯示一音節的範例性格式的語音頻譜圖; 圖3顯示根據本發明用來形成圖丨之聲音元件資料庫之範 例性方法的流程圖; 圖4顯示圖3之方法中使用的音標序列之範例性軌跡圖; 且 圖5顯示決定圖3之方法中使用的誤差容許範圍之範例性 方法的流程圖。 詳細敘述 圖1顯示採用根據本發明之聲音元件資料庫5的範例性文 字轉語音合成器1 =>爲解釋清楚起見,文字轉語音合成器1 本紙張尺度適用中國國家標準(CNS ) A4規格(2丨〇 x 297公釐) -Ι—-ΙΙΓ 裝! (請先閲沐背面之:·/»«意事項再填寫本I) 1-訂 經濟部中央標準局貝工消費合作社印製 Ου Α7 Β7 五、發明説明(6 經濟部中央標準局員工消费合作社印製 的功能組件在圖1中以方塊表示。在這些方塊内執行的功能 可藉使用共用或包括-但不侷限於-特定功能積禮電路(ASIC) 之專用硬體而提供’該硬體包括-但不侷限於-特定用途積趙 電路(ASIC)或執行軟體的一個處理器或多個處理器。使用,, 處理器”一詞及其形式不應被視爲僅專指能夠執行软體的硬 體,而可爲執行對應功能並彼此通訊連絡的各別軟體常式 〇 在圖1中,資料庫5可能駐在一諸如電腦可讀取記憶趙之 儲存媒體上,該電腦可讀取記憶體包括類如CD-ROM、軟 式磁碟機、硬式磁碟機、唯讀記憶體(ROM)及隨機存取記 憶體(RAM)。資料庫5包含有對應於不同的音素序列或包括 異音(allophone)之多音的聲音元件。(異音是根據環境語 音聲音之音素變體。例如,pit-字的氣音/p/與spiit一字的 非氣音/p/是音素/P/的異音。) 爲使資料庫5的大小不致過大’聲音元件~般應對應於有 限個音素序列’譬如1到3個音素。聲音元件是音標序列, 該等音標序列開始於一音素的約穩態之中心且結束於另一 音素的約穩態之中心3有可能將聲音元件以線性預測编碼 器(linear predictive coder LPC)參數或數位化語音的形式儲存 在資料庫5内,此等形式詳述於例如J.P. Olive所著在1990年 ESCA Workshop on Speech Synthesi s 中提出(25-30 頁)的文獻 "A New Algorithm for a Concatenative Speech Synthesis System Using an Augmented Acoustic Inventory of Speech Sounds ” 内, 該文獻在此附上供卓參。 本紙張尺度適用中國國家標準(CNS ) Α4規格(210Χ297公釐) 請 先 閲 讀- 背 之 注- 意 事 項 再 填·· 本 頁 裝 訂 表 經濟部中央標準局員工消费合作社印策 A7 B7 五、發明説明(7 ) 文字轉語音合成器1包括一文字分析器10、聲音元件取回 處理器15、元件處理及連貫(element processing and concatenation EPC)處理器20、數位語音合成器25及數 位轉類比(D/A)轉換器30。文字分析器10以諸如ASCII格 式等可讀取格式接收文字並將文字做語法分析成字且進一 步將縮寫與數字轉換成字。然後該等字被根據資料庫5内可 用的聲音元件分離成音素序列。這些音素序列接著被傳送 至聲音元件取回處理器15。 將字剖析成音素序列及縮寫與數字擴展的方法描述在藷 如 K. Church於 Proceedings of the Second Conference on Applied Natural Language Processing (Morristown,NJ 1988)之 1 3 6- 1 43 頁 的"A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text"、 J. Hirschberg户斤著 Artificial Intelligence) 1993)第 63 卷第 305-340 頁的"Pitch Accent in Context: Predicting International Prominence From Text"; R. Sproat 户斤著 Computer Speech and Language (1994)第 8 卷第 79-94 頁"English Noun-Phrase Accent Prediction for Text-to-Speech"; C. Coker 等人在 Proceedings oftheESCA Workshop on Speech Synthesis( 1990)之第 83-86 頁的”Morphology and Rhyming: Two Powerful Alternatives to Letter-to~s〇und Rules for Speech"中, 這些文獻均在此附上供卓參》 文字分析器1 〇進一步判斷各個音素序列的期間長度、幅 度及基本頻率並將這些資訊傳送給EPC處理器20=»判斷期 間長度的方法包括在諸如J. van Santen所著Computer 本紙張尺度適用中國國家橾準(CNS ) A4規格(210X 297公釐) (請先閲济背面之vir意事項再填寫本頁) .裝. 1-訂 經濟部中央標準局員工消費合作社印策 Μ B7 五、發明説明(8 )
Speech and Language (1994)第 8 卷第 95-128 頁之"Assignment of Segmental Duration in Text-to-Speech Synthesis"中所述的方 法,該文獻在此附上供卓參。判斷一音素序列之振幅的方 法描述於諸如 L. Oliveira在 ESC A EUROS PEECH-93 (1993)的第 99-102 頁之"Estimation of Source Parameters by Frequency Analysis "中,該文獻亦在此附上供卓參。一音素 的基本頻率亦可稱爲音調或該音節的音調抑揚。決定基本 頻率或音調的方法描述於諸如M. Anderson等人在 Proceedings of the International Conference on Acoustics,
Speech and Signal Processing (聖地牙哥 1984)第 1卷第2.8.1-2.8.4 的"Synthesis by Rule of English Intonation Patterns "中, 該文獻也在此附上供卓參》 聲音元件取回處理器15從文字分析器10接收音素序列, 然後由資料庫5中選擇並取回對應的適當聲音元件》聲音元 件選擇方法敘述於諸如上文所提Olive參考文獻中》被取回 的聲音元件接著被聲音元件取回處理器15傳送至EPC處理 器20。EPC處理器20修改各個接收到的聲音元件,其修改 方法是根據從文字分析器1 0接收到的對應資訊調整聲音元 件之基本頻率及振幅,並插入適當的期間長度* EPC處理 器2 〇接著將經修改的聲音元件連貫成對應於文字分析器1 0 的文字輸入之聲音元件串。EPC處理器20的連貫方法描述 於上文所提的Oliveira參考文獻中。 由EPC處理器20產生之聲音元件串被提供予數位語音合 成器25以產生對應於該聲音元件串之自然語音的數位信號 ________- 11 -____ 本紙張尺度適用中國國家樣準(CNS ) A4规格(210X297公釐) (請先聞沐背面之·.¾意事項再填寫本瓦) 裝. 1-.訂 ,東 A7 305930 —__ B7 五、發明説明(9 ) 。數位語音合成的範例性方法亦描述於上文所提的 Oliveira參考文獻中。由數位語音合成器25產生的數位信 號被提供予D/A轉換器30以產生對應的類比信號。此等類 比信號可被提供予放大器及揚聲器(未顯示)以產生聽來自然 的合成語音。 音標序列隨時間而變的特性曲線可用數種表示法表示, 包括話音素(formant)、振幅及否定頻譜表示法,包括逆頻 譜表示法或任何由LPC導出之參數。圖2Α·2<:顯示對應於 從音fp/p-i /的錄音語音中取出之音素/ i/的音節之不同話音 素頻率或話音素FI、F2及F3的語音頻譜圖100A、100B及 10 0C ^話音素F1-F3是表現人類發話者的發音部位之不同 測量諧振頻率的軌跡。不同測量諧振頻率的話音素—般是 根據被相關話音素包含之頻譜能量而命名爲FI、F2、...。 話音素頻率視發音部位的形狀和大小而定。改變發音部 位之形狀可形成不同的聲音。所以,當發音部位形狀在音 節的發音期間改變時,語音信號之頻譜特性隨時間而變 ,如圖2A-C所示般。音素/i/的三個話音素fi、F2及F3的 顯示僅爲舉例説明用。請注意根據_特定語音音節的發音 部位形狀可有不同數目種發音《發音和語音的其他表示法 的更詳細敘述請見L.R. Rabiner與R.w. Schafer所著 "Digital rocessing of Speech Signals" (Prentice-Hall, Inc. NJ, 1978)中’該文獻在此附上供卓參。 如上文中有關圖1之説明,儲存在資料庫5内之聲音元件 對應於音標序列,該等音標序列開始於一音素的約中心部 ____- 12 - 本纸張尺度適用中@國1 標準(CNS ) A4規格(2丨0X297公廣) " -- (請先閱沐背面之‘,¾意事項再填寫本頁) -裝. V泉 經濟部中央橾準局員工消費合作社印製
Mmo五、發明説明(10 A7 B7 經濟部中央揉準局員工消費合作社印製 份且終止於另-音素的約中心部份。在二連貫的聲音元件 的接合音素處諸如頻譜成份等特性差異會產生不連續而造 成合成的語音易理解或難以了解。但在對應於音素中心範 圍的音節範内常有特別的切斷點在穩態特性範圍内可被用 來產生聲音元件而獲致連貫不連續的降低。圖之八^内各個 軌跡F1-F3代表在特殊音素中央範圍處之音標序列特性。有 需要要在音標序列内選擇切斷點以形成可使連貫不連續爲 最小的聲音元件。 圖3顯示一種根據本發明之範例性方法2〇〇,本方法從一 語音信號中選擇特別的音標序列並決定被選出.之音標序列 的對應切斷點以形成資料庫5的聲音元件。根據該方法2〇〇 ,包含一對應於一特別音素之音節的音標序列在步驟21〇中 被從一語音信號的一間隔中找出。每一音標序列應對應於 一至少有二音素之序列。語音信號有可能從綠音語音或直 接由人類發聲者獲得◊此外,若語音信號的來源是錄音語 音’則該錄音語音可進一步加以處理以產生—分段且加標 籤的語音信號而有助於方法200的運作。一分段且加標藏的 語音信號是一語音信號,其對應音標序列被加標籤且諸序 列間的約略邊界被找出。 然後在步驟2 2 0内對對應於該特定音素之各個音標序列的 至少一部份決定軌跡。軌跡是該音標序列之該部份的至少 一個聲音特性隨時間變化的一種表示法。軌跡可能是表示 該聲音特性的一獨立序列或該聲音特性在—段期間内的連 續表示法。可被用做軌跡之適當聲音特性範例包括頻譜表 13 ΜΛ張尺度適用中國國家榇準(CNS ) Α4規格(210Χ297公釐) I----. 111 裝! (請先閲济背面之>±-意ί項再填寫本f) Τ-訂 -7 泉 :法丄例如像話音素頻率、振幅與頻譜傾斜表示法及LPC 根:太恭其他不論是以頻率爲基礎的或其他的聲音特性可 2本發明被雜軌跡12A_C中各M —單獨話音素頻 牛表不法的範例性軌跡。 在步驟220中’軌跡依表示空間(rep⑽…“⑽I 二Pace)法決定。如本處所使用者,一表示空間是一區域, —軟赫可在該區域中被料爲可表現該執跡特性之參數的 函數:譬如,圖2A中所示的單一話音素軌跡的表示空間被 描述爲頻率的時間函《。有可能根據-特定音標序列的二 個或更多個話音素頻率形成—單一軌跡。對此一軌跡而言 ’、表示空間對每一被表示的正式頻率都有一軸。沿著各軌 跡的頻率有可能被對應時間標示於此等頻率在音標序列發 生的時間。分如,一二話纟素頻率軌跡會被形成於二度空 間中的曲線,其中曲線點的對應時間以5毫秒間隔標示。 軌跡在表示空間内決定之後,在步驟23〇中根據對應於不 同音素序列之軌跡的集中度決定一誤差容許範圍的位置。 經濟部中央標準局員工消费合作社印製 5吳差谷許範固是—在N度表示空間内之n度空間範圍,其交 又或最靠近於一對應於不同音素序列的相當高集中度的軌 跡。譬如,誤差容許範圍可能是一交叉或最靠近於一對應 於不同音素序列的最大數目個軌跡的範圍β誤差容許範圍 的大小應予事先決定以在連貫聲音元件時達成—最低可用 的聲音品質’其中一接合音素之切斷點對應於誤差容許範 圍的極端點内之時間點。決定適當誤差容許範圍的特別方 法在下文中參照圖4及5詳述。 _ - 14 - 本紙張尺度適用中國國家標準(CNS ) Α4_ ( 21〇χ297公釐) 、發明説明(12 ) 殊的音標二二:了:圍位置疋後’接著在步樣240中選擇特 1以艮據對應軟跡與誤差容許11圍接近的程度 ^ “件。例如’若在語音職中有數個音標序列對 相同的g素序列’則其對應軌鉢最接近或在誤差容許 範圍内之音標序列被選擇以便形成聲音元件。 β 當音標序列在步驟240内被選擇之後,接著在步骤250中 相關切斷點被決疋於音標序列中以獲得期望的聲音元件 °^寺=斷點對應於沿著大致最接近誤差容許範圍或在誤 差谷許範圍内之軌跡的時間點。最後,在步驟26〇中,根據 被選擇的音標序列及其對應切斷點形成聲音元件。若在步 驟2 1 〇内找出的所有音標序列都要形成聲音元件,則不論是 否因爲僅有—個音標序列存在各期望之音素序列的語音信 號内,步驟240均可予省略。 經濟部中央標準局員工消費合作枉印製 根據本發明,誤差容許範圍的位置係根據對應於不同音 素序列之軌跡決定。依此方式,本發明藉使用少於來自語 音信號之音標序列的總軌跡數之軌跡決定誤差容許範圍之 位置而獲致較高的多樣性。此多樣性使本發明能更正確地 選擇特殊音標序列及切斷點以形成聲音元件而達成較低的 連貫不連續。若一誤差容許範圍的位置是一對應於不同音 素序列之軌跡的最高集中度,則該聲音元件會產生相當高 聲音品質的合成語音》但若稍差一點的聲音品質可接受, 則根據本發明可使用較最高軌跡集中度爲低的誤差容許範 圍。 根據方法2 0 0決定誤差容許範圍的一種範例性技術是將軟 -15 本紙張尺度適用中國國家榡準(CNS ) Α4规格(210X 297公釐 A7 B7 g〇§930 五、發明説明(13 跡被決定於其内的表示空間分割成各個相關格子,並且找 出具有至少一最低期望軌跡集中度位準的特別格子或範圍 9根據本技術之方法200的範例性作業現將參照圖4中所示 範例性軌跡圖300加以描述。參考圖3,包含對應於音素/i7 之音節的音標序列於步驟2 10中在錄音語音的一時段中被找 出。音標序列對應於音素序列/lid/,/lik/,/mik/,/gim/ ,/din/且5個音標序列對應於音素序列/kit/ ^可由這些音 標序列形成之聲音元件包括[U],[ιη ί]> [g-i],[i-m],[d-i], [i-n],[k-i]及[i-t]。雖然圖 4 之討論 考量的是雙音聲音元件的建構,但請注意更大音素序列的 聲音元件可根據本發明藉執行圖3之方法2〇〇於對應較大音 標序列的特定邊界音素上而建構。 經濟部中央標準局員工消費合作社印製 對在步驟2 10内找出的各個音標序列而言,各個音標序列 在步驟22 0中形成二話音素軌跡β圖4中所示軌跡圖3〇〇舉 例説明這些軌跡在一二話音素表示空間中被分割成許多個 格子310。在圖4中’每個軌跡被標示以其對應音素序列的 同質體3譬如’軌跡305被由對應於音素序列/lid/之音標序 列決定,故被標示爲"LID"。來自被用來產生圖1之資料庫 5的語音信號之部份的音素序列/kit/之5種狀況被標示爲 "ΚΙ T 1"到"ΚΙ T5 "以利討論β該圖所示各個二話音素軌跡表 示在一特定時點上相關音標序列之話音素F 1的頻率値相對 於對應話音素F 2的頻率値的續圖β 話音素F1與F2之頻率分別顯示於X與γ軸上。沿著軌跡的 時間特定點可被表示爲對應標示如軌跡3 0 5上所示般。圖4 私紙張尺度適用中國國家橾準(〇奶)八4規格(210\297公董)
五、發明説明(U 中一維軚跡表示法僅爲方便討論及舉例 =何限!;有可能使用其他心表示法,包括例如: 素的音節,及振幅及頻譜傾斜表示法來表亍曰 爲該料音素的音^ 子音做 僅爲了易於顏示及説明,表示空間内格子3 10的格子大小 被^爲誤差容許範圍期望大小的1/4。當誤差容許範固大 :坪範大於格子大小時’設定格子大小爲期望誤差容 命範圍大小的倍數就很方便。根據圖3之方法200的步驟 230,誤差容許㈣之決定是根據被對應衫同音素序列之 軌跡交又的範圍決定。所以’若_由2χ2陣列格子31〇構成 的,吳差谷許範圍被判定其大小足以產生期望的最低聲音品 質,則被最大數目個此種軌跡交又的範圍32G即爲誤差容許 範圍。 決定具有最大數目個此種軌跡交又之格小的一種方法例 如是執行在表示空間内的格子柵格尋找。根據此種方法, 圖4之各格子3 1〇被檢查,且與該格子交叉對應於不同音素 序列之軌跡數目,或圍繞該格子31〇之預定格子解析範圍被 決定。例如,對軌跡LID與MIK而言,對應於格子33〇之不 同音素序列的軌跡交又數爲2。下文中將參考圖5詳述一種 在計算上較簡單且較快速之決定具有對應於不同音標序列 的最大數目個此種軌跡交又之格子的方法。 回頭參考圖3之方法200。在軌跡決定之後,接著在步骤 240中,根據靠近誤差容許範圍320之對應軌跡選擇特別的 -17 本紙乐尺度適用中國國家標準(CNS ) A4規格(210X297公釐) ————1丁 (請先閲济背面之:¾意事項再填寫本頁) 1訂 經濟部中央標準局員工消費合作社印裝 • 3v)&53 ❹ A7 B7 經濟部中央標準局員工消费合作社印製 五、發明説明() 音標序列以形成聲音元件°若對一特定音素序列僅含入資 料庫5内的一個聲音元件以使資料庫所需空間極小又使語音 合成器設計能簡化將是很有利的β所以,音標序列川k/或 /lid /二者之一可被選擇來形成聲音元件[Ι-i],且音標序列 /lik/或/mik/二者之一可被選擇來形成聲音元件[i-k]。此 外,音素序列/kit/的5個音標序列之一可被選擇來形成聲音 元件[k-i]與[i-t]。但一採用更大資料庫之更複雜語音合成 器有可能根據語音合成應用用途而使用多重音標序列於一 特定音素序列上3在建構此種資料庫時,可從對應於一特 定音素序列之從語音信號析出之一個以上及多達全部的音 標序列選擇出來以形成聲音元件。 若一特定音素序列要有一聲音元件存在於資料庫5内,則 從對應於形成該聲音元素之相同音素序列的許多個音標序 列中找出特別的一個可根據對應軌跡靠近誤差容許範圍的 程度決定。譬如’對聲音元件[Ι-i]而言,會選擇其軌道 LID與誤差容許範圍320交叉之"LID"音標序列,而不會選 擇其軌道LIK不與誤差容許範圍320交又之"LIK"音標序列 。同樣地,聲音元件[i-k]會選擇音標序列"MIK”而不選擇 音標序列"LIK ",其原因大致相同。依相同的方法,對聲音 元件[k-i]與[i-t]二者而言,會選擇對應於軌跡κΙΤ5的音標 序列而不選擇其他相關的音標序列"KIT"。 同時’由於聲音元件一般可在二邊界性音素處連貫,故 選擇用來形成聲音元件的特定音標序列應根據該二邊界性 音素之軌跡接近程度。所以,特別的音標序列"M丨κ,,或
——*I.llf 裝丨| (請先閲本背面之>±*意事項再填寫本f) I-訂 I — =1 A7 B7 805930 ----- 五、發明説明(l6 ) LIK會被選擇以形成聲音元件[丨^],因爲該二音標序列 (軌跡在整體上最接近邊界性音素與邊界性音素/k/的誤 差容許範圍》 有時候對應於相同音素序列之音標序列的軌跡不會是最 靠近其邊界性音素的二相關誤差容許範圍者,此種情況發 生於^ θ k序列之來源爲包含該音素序列的二個不同字時 。在此情況下,較佳的方法是選擇其軌跡具有整體最佳品 虞的音標序列。選擇此種音標序列的一種範例性方法是根 據特殊免衡量値各指定一値予各個音標序列以評量諸 音標序列有關對應的邊界性音素,評量爲整體.最佳的音標 序列將會被用來形成該聲音元件。 再回頭參考圖3之方法2〇〇,聲音元件之音標序列被選擇 (後,在步驟250中選擇被用以形成該聲音元件之音標序列 切斷點。例如在圖4中,切斷點之選擇係根據在誤差容許範 圍j20内之相關軌跡中的時間點決定。對那些與誤差容許範 圍320交叉的軌跡而言,被選擇之切斷點應宜爲沿著軌跡大 約最靠近誤差容許範圍3 2 0之中央點3 4 0的時間點。譬如, 圖4中軌跡305上最靠近中央點34〇的時間點是j6〇毫秒,所以 經濟部中央標準局員工消費合作社印製 ’聲音元件/i-k/是根據開始於時間16〇毫秒的對應音標序列 〇 對於諸如軌跡UK等不與誤差容許範圍32〇交又之軌跡而 言,切斷點仍應爲沿著軌跡最靠近誤差容許範固中央點34〇 之時間點。故若選擇音標序列"LIK"來形成聲音元件,則適 當的切斷點將對應於軌跡LIK上時間點3 5 0。請注意冬使用 -19 本紙張尺度適用中國國家標準(CNS ) A4規格(21〇X297公慶) 經濟部中央標準局貝工消費合作社印製 SO&QdO at _______B7 五、發明説明(I7 ) 此音標序列來形成聲音元件時,將會在音素n/處產生相對 較大的不連續。所以,最好是能獲得音素序列/nk/的其他 L k段落以決定其疋否爲形成該聲音元件的較佳待選語音 段落》 在圖3的方法200中,在切斷點於步驟25〇中被決定之後 ’聲音元件根據被選定的音節和被決定的切斷點形成。聲 音元件可留存在圖1之資料庫5中,其形式可類如數位語音 k號或對應於開始及結束於相關切斷點之音標序列的L p c 參數。而且,較長的序列可連同對應於相關聲音元件之特 別切斷點的開始及結束値餘存在資料庫5中。圖1之聲音元 件讀回處理器丨5則會根據這些値從這些較長序列之抽出適 當的聲音元件。請特別注意的是用於資料庫5之特別组織性 方法不應被視爲一種限制’ 1任何組織均可被用以儲存根 據本發明形成之聲音元件。爲了要合成一特別語言的多種 話音素,應產生該種語言的所有基本音素序列之聲音元件 〇 根據本發明的新穎的使用高度多樣化軌跡來決定誤差容 許範圍的位置結果造成在連貫時產生較小不連續的聲音元 件。例如在圖4中’範圍3 6 0對應於根據所有軌跡之範圍, 且交又於或最靠近於源自音素序列/kit/的5個軌跡之整體最 大數目個此種軌跡》但可見到軌跡LTD與MIK上最靠近範 圍360的時間點在連貫相關聲音元件時會產生相當大的不連 續。相對地’誤差容許範圍320未被音素序列/kit/的多重狀 況扭曲’且所有被選擇之轨跡至誤差容許範圍3 2 0間的對應 ____ - 20 - 本紙伕尺度適用中國國家標準(CNS ) M規格(2K5X 297公釐} ll-lTIlT (請先閱參背面之以意事項再填寫本頁)
*1T 五 發明説明(is A7 B7 經濟部中央橾準局員工消費合作社印製 距離遠較小而將使任何相關不連續極小化。 圖5顯示根據本發明使用於圖3中步驟23〇内決定對應於不 同音標序列之具有最大數目個軌跡交叉的格子之範例性方 法400。爲了便於討論起見,每個轨跡在圖5中用一獨特的 整數稱呼而不像圖4中使用相關音標序列標示法。例如,圖 4中所示的9個軌跡在圖5中被稱爲軌跡丨_9。此種軌跡標示 法符合使用於資料結構表示法中諸如陣列中或表列中的慣 用指向器。 根據方法400 ’ 一整數N與許多個表列LIST_i在步驟410 中被初始化爲零。該等許多個表列LI S T _ i中表列的數目i對 應於表示空間中的格子數。接著整數N在步驟420中被增加 數値。然後,對軌跡N内的各時間點,在步骤430中找出在 圍繞相關時間點之解析知圍内的格子。爲方便起見,解析 範園的大小可相同於誤差容許範圍者。但根據本發明,解 析範圍的大小亦可依需要而爲不同的大小。若選擇的解析 範圍是由一 2x2格子陣列涵蓋的區域,則圖4中圍繞軌跡 3 0 5在時間0 _ 〇 9 5毫秒處之時間點5 0 5的解析範圍將包括被 外框線510圍繞的格子511、512、513及514。 在解析範圍内的格子於步驟430内找出之後,被找出的格 子之相關表列LI S T_i被用對應軌跡N的音素序列名稱更新 。而且,在步驟440中,若該音素序列名稱不是已出現在該 格子的表列上’則其僅被加至表列。所以,假設在上述範 例中名稱"LID"未出現在格子5 1 1-5 14的表列LIST」中, 則這些格子的表列LI S T_i,將被用該名稱更新。沿著軌跡 21 - 本紙伕尺度適用中國國家標準(CNS〉A4規格(210x297公釐〉 I—叫.ΙΙΓ 裝—— (請先聞秦背面之❼意事項再填寫本頁) 訂一-.1
T 泉 經濟部令央裙準局員工消費合作社印製 A7 Γ--------- 五、發明说明(l9 ) 3 05的其他時間點在解析範圍内的格子之表列LiST_i亦會 依大致類似方法用名稱,,LID ”更新。 當一特定軌跡N被找出之解析範圍内所有格子均在步驟 440中更新之後,本方法在步驟45〇中判斷整數^^是否等於 軌跡的總數》若本方法判定N不等於軌跡總數,則方法4 〇 〇 根據次一軌跡N的時間點執行步驟420-440以更新表列 LIST_i ^若本方法判定N等於軌跡總數,則所有的軌跡均 已處理完成,且解析範圍内全部表列LiST_i均已更新完成 ,方法400前進到步驟46〇。在步驟46〇中,誤差容許範圍 由在對應表列或諸表列L丨S T — i中具有最大數目個名稱的格 子或諸格子的範圍決定。因爲方法4〇〇僅檢驗並更新在軌跡 時間點之解析範圍内的諸格子,所以其在運算上較分別檢 驗每個格子的栅格尋找方法便簡單且快速。 在方法4 0 0中,步骤4 3 〇首先檢驗一特定軌跡的時間點在 解析範固内所有的格子,然後在步驟44〇中更新對應的格子 表列。但請注意圖4中所示諸步驟的順序僅爲舉例說明用而 非對本發明之限制。這些步驟的順序可用各種不同方式施 行,包括在一表列LIST_i的相關格子被判定爲在—特定軌 赫時間點的解析範圍内之後,立刻更新該表列。 伙在一替代性具體實.例中,具有最長表列LIST_i之格子的 等位體可藉儲存並更新具有最長表列LIST — i之等位體及對 應最大表列長度而在整個格子表列更新程序中被維護一 各格子表列被更新時,包含在該表列中的名稱之總數目: 過被儲存格子同位體之名稱數目,則被像存之格子同位趙 I 丨「—— 1裝! (請先閲济背面之纪意事項再填寫本頁) Ά------ Z紙張尺度 標準(CNS) A4規格(210><297公釐 五、發明説明(2〇 ) 經濟部中央標準局貝工消費合作社印製 ::大表列長度可據以被更新。依此方式,對應於誤差容 了圍<格子的同位體可在處理前一軌跡的最後一個時間 ^即已知而不需任何進—步的處理步驟。 右諸格子表列被加索引,加索引的形式譬如是具有整數 値的資料結構指派格子位置於表示空間内,然後可採用— 在運算上簡單且較快速的方法。例如,@4中格子3 10之格 子表歹J可依-對應於其χ與γ座帛之方法加索引。然後,轉 換値可j用W將軌跡時間點料換成表示根據被加索引之 格子該等時間點的相對座標位置㈣引値。接著,解析度 被加n轉換的索引値及由其減去以找出該點解析範圍 内諸格子之索引數目。然後,解析範圍内各個格子之表列 LIST_i被據以更新。 所以,對圖4中所示範例而言,圖4中軌跡3 〇5之時間點 505的話音素F1&F2^率値可乘以轉換因素以獲得經轉換 的値x-3.5及y = 3,5,表示其分別在)(與¥方向的第三與第四 格子之間。所以,若解析範圍是一 2χ2格子陣列,則±1的 解析値頊被加至經轉換的値並四捨五入到要產生之最靠近 位置’以使解析·51()内諸格子的格子表列具有分別對應 於格子5 1丨-514的座標(33),(34),(43)及(44),且會 被用音素序列名稱,,LID"更新。 雖然上文中詳細描述本發明的數種具體實例,但可在不 背離其敎導的情形下做許多修改。所有這些修改均旨在包 含於下文中申請專利範圍Α。譬如,雖然上文中用二維矩 形格子及誤差容許範圍來描述本發明,但是有可能使用任 __________一 23 - 本紙伕尺度適财酬家料(CNS) A4規格(21();><297公瘦) (請先閱株背面之:zi-意事項再填寫本I) .裝. 七訂 V泉 A7 __B7 五、發明説明(21 ) 何N維封閉形狀於格子及範圍上,而符合包括立方體、盒狀 體、球狀體及偏球狀體等的N維表示空間。而且,本發明在 包含文字轉語音及聲音回應系統的各種語音合成應用中特 別有用。 ,^丨「裝! (請先閲—背面之Vi*意事項再填寫本頁) I-訂
T 經濟部中央標準局員工消費合作社印製 本纸張尺度適用中國國家標準(CNS ) A4規格(210X 297公釐)

Claims (1)

  1. ABCD 中請專利範圍 •種產生合成語音的方法,該種方法包括—聲音元件資 科庫,該資料庫包含用來連貫以產生合成語音的聲音元 件,該聲音元件資料庫藉下列諸步驟建立: 對於對應於包含在發生於一語音信號的一期間内之許 夕個音標序列中的特定音節的至少一個音素而言, 根據對應於和一誤差容許範圍交又的不同音素序列之 音標序列的軌跡集中度,決定一表示空間内—誤差容許 範圍之相對位置,其中每一軌跡代表包含該特定音節之 相關音標序列的至少一部份之聲音特性;及 根據諸時間點與誤差容許範圍接近的程度,藉著找出 沿著對應軌跡上各相關時間點處之音標序列内的切斷點 ,由音標序列形成聲音元件。 2. 根據申請專利範圍第丨項之方法,該方法尚包括根據對應 諸軌跡接近誤差容許範的程度從許多個音標序列中選擇 至少一個音標序列的步驟,該等許多個音標序列有對應 於一特定音素序列的部份,其中一聲音元件由被選定之 音標序列的部份形成》 經濟部中央標準局貝工消费合作社印策 3. 根據申請專利範圍第1項之方法,其中該形成聲音元件之 步驟沿著對應軌跡的相關時間點處找出每一音標序列約 略最靠近誤差容許範圍或在誤差容許範圍内的切斷點 〇 4. 根據申請專利範圍第3項之方法’其中該形成聲音元件之 步驟沿著對應軌跡的相關時間點處找出每一音標序列約 略最靠近誤差容許範圍中心點的切斷點β 尺度逋用中國國家標準(CNS ) A4規格(21〇Χ297公釐〉
    申請專利範圍 經濟部中央榡準局貝工消費合作社印製 5·根據申請專利第!項之方法,其中—特別語言之每一 預測的音素序列均形成一聲音元件。 H中請㈣第丨項之方法,其中純㈣根據諸音 ^序列的諸話音素形成s Z根據中請專利範㈣1項之方法,其中該等軌㈣根據- 種二逢音素表示法,且該表示空間爲_三話音素空間。 Μ艮據中請專利範圍第β之方法,其中該表示空間爲_包 括許多個連續Ν維格子_維空間,且其中該決定誤差容 許範圍之步驟尚包括執行一拇格尋找以決定—與對應於 不同a素序列之約最大數目個軌跡交又的至少一個格子 之範圍。 9·根據中請專利第!項之方法,其中該表示空間爲一包 括許多個連續N維格子的N維空間,且其中該決定誤差容 許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範園内被找出的每—格子,若一對應於該軌 跡之音素序列的識別體未出現於該格子的表列内,則用 該識別體更新一爲該格子維護的表列;及 決定對應於至少一個具有大於其表列上識別體平均數 個識別體之格子的誤差容許範圍。 10.根據申請專利範固第9項之方法,其中該找出那些在一解 析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間點 及更新關聯於在對應解析範圍内的諸格子之表列。 本紙承尺度適用中國國家標準(CNS ) A4%# ( 21GX297公釐 — 「裝丨_ (請先聞^背面之_注意事項再填寫本頁) 訂 H旅 六、申請專利範圍 A8 B8 C8 D8 經濟部中央揉準局貝工消費合作社印装 11. 根據申請專利範圍第9項之方法,其中該解析範圍與該誤 差容許範圍的大小相同。 12. 根據中請專利範圍第i項之方法,其中該表示空間爲—包 括許多個連續N維格子的N維空間,且其中該決定誤差容 許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範固内被找出的每—格子,㈣應於該執跡, 之音素序列的識別體更新一爲該格子維護的表列; 從各格子表列中移除多重識別體;及 決定對應於至少-個具有大於其表列上識別體平均個 數.識別體之格子的誤差容許範圍。 根據申請專利範圍第12項之方法,纟中該找出那些在_ 解析範圍内之格子的步骤包括處理沿著純跡之諸時間 點及更新關聯於在對應解析範固内的諸格子之表列。 R根據中請專利㈣第12項之方法,其中該解㈣_該 誤差容許範圍的大小相同。 既根據中請專利範圍第1之方法,其中該等許多個立 列中的至少兩個音標序列具有對應於—特別音素^ 部份,該方法尚包括下列步驟: 根據對應軌跡接近誤差容許範圍的程度決定該 序列之各部份的値,其中該特別音素序列之聲 根據該等被決定的隸料音標序狀料^份= 一個形成。 J 27 * 表紙張尺度適用中國國家標準(CNS ) A4規格(210X29?^" ---「參-- .-· { (請先聞货背面^注意事項再填寫本頁) 、1T Τ 旅 A8 B8 C8 ---—___________D8 六、+請專利範圍 經濟部中央標準局貝工消費合作社印裝 16. 根據申請專利範圍第15項之方法,其中該決定諸値的步 驟尚根據該對應音標序列的品質衡量値。 17. 根據申請專利範園第16項之方法,其中該品質衡量値係 由一軌跡接近一對應於一不同的邊界性音素之音標序列 的誤差容許範圍之程度決定。 18. —種產生合成語音的裝置,該裝置包括一聲音元件資料 庫,該資料庫包含用來連貫以產生合成語音的聲音元件 ,該聲音元件資料庫藉下列諸步驟建立: 對於對應於包含在發生於一語音信號的一期間内之許 多個Ε»彳承序列中的特定音節的至少—個音素而言, 根據對應於和一誤差容許範圍交又的不同音素序列之 音標序列的軌跡集中度,決定一表示空間内一誤差容許 範圍之相對位置,其中每一軌跡代表包含該特定音節之 相關音標序列的至少一部份之聲音特性;及 根據諸時間點與誤差容許範圍接近的程度,藉著找出 沿著對應軌跡上各相關時間點處之音標序列内的切斷點 ,由音標序列形成聲音元件。 19. 根據申請專利範圍第18項之裝置,其中該表示空間爲一 包括許多個連續N維格子的\維空間,且其中該決定誤差 容許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範圍 内的格子; 對在解析範圍内被找出的每一格子,若一對應於該軌 跡之音素序列的識別體未出現於該格子的表列内,則用 -28 - --------「裝—--* { (請先閲贫背面之注意事項再填寫本頁) 訂 7 旅 (CNS ) ( 210x297公着) ABCD 六、申請專利範圍 '--- 該識別體更新一爲該格子維護的表列;及 決定對應於至少一個具有大於其表列上識別體平均數 個識別體之格子的誤差容許範圍β 20. 根據申請專利範圍第19項之裝置,其中該找出那些在— 解析範園内之格子的步驟包括處理沿著諸軌跡之諸時間 點及更新關聯於在對應解析範圍内的諸格子之表列。 21. 根據申請專利範圍第1 8項之裝置,其中該表示空間爲— 包括許多個連續Ν維格子的Ν維空間,且其中該決定誤差 容許範圍之步驟包括: 找出那些沿著每一軌跡在一圍繞諸時間點之解析範 内的格子; 對在解析範圍内被找出的每一格子,用對應於該轨跡 之音素序列的識別體更新一爲該格子維護的表列; 、 從各格子表列中移除多重識別體;及 決定對應於至少一個具有大於其表列上識別體平均個 數識別體之格子的誤差容許範圍。 經濟部中央標準局貝工消費合作社印裝 22. 根據申請專利範圍第21項之裝置,其中該找出那些在— 解析範圍内之格子的步驟包括處理沿著諸軌跡之諸時間 點及更新關聯於在對應解析範圍内的諸格子之表列。’ 本紙張尺度適用中國國家梯準(CNS ) Α4規格(210Χ297公釐) 丨公告本 申請曰期 85. 8. 1J ------ - 〇 < t _ ,· 案 號 0Jiuy/0/ -- 鋇1邊 _,,l Μ 丄.t· tv t士㈠、
    發明 型專利説明書 中 文 具有一聲音元件資料庫之語音合成器 發明 名稱 英 文 SPEECH SYNTHESIZER HAVING AN ACOUST DATABASE" 1C T ENΜ 姓 名 國 籍 1. 伯德摩比斯 2. 約瑟夫菲利浦歐里維 3. 麥克亞雷罕譚伯特 4. 珍皮耶特文生特 -1·德國 2.3.4.美國 -裝· 發明 住、居所 1 _美國新澤西州查坦市希克里廣場25號C6 2. 美國新澤西州華成市維利道1〇 1號 3. 美國紐約州紐約市西71街3 09號1B 4. 美國紐約州布魯克林市魯比路293號 訂 姓 名 (名稱) 美商AT&T公司 經濟部中央橾準局貝工消费合作社印製 國 籍 美國 三、申請人 住、居所 (事務所) 代表人 姓 名 美國紐約州紐約市美國大道32號 約翰· J ·吉桑 本紙张尺度適用中國國家棣準(CNS〉Α4洗格(210Χ297公釐)
TW085109787A 1995-08-16 1996-08-13 TW305990B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/515,887 US5751907A (en) 1995-08-16 1995-08-16 Speech synthesizer having an acoustic element database

Publications (1)

Publication Number Publication Date
TW305990B true TW305990B (zh) 1997-05-21

Family

ID=24053185

Family Applications (1)

Application Number Title Priority Date Filing Date
TW085109787A TW305990B (zh) 1995-08-16 1996-08-13

Country Status (10)

Country Link
US (1) US5751907A (zh)
EP (1) EP0845139B1 (zh)
JP (1) JP3340748B2 (zh)
AU (1) AU6645096A (zh)
BR (1) BR9612624A (zh)
CA (1) CA2222582C (zh)
DE (1) DE69627865T2 (zh)
MX (1) MX9801086A (zh)
TW (1) TW305990B (zh)
WO (1) WO1997007500A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251314B2 (en) * 1994-10-18 2007-07-31 Lucent Technologies Voice message transfer between a sender and a receiver
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
US6202049B1 (en) 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US6178402B1 (en) * 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6618699B1 (en) 1999-08-30 2003-09-09 Lucent Technologies Inc. Formant tracking based on phoneme information
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6625576B2 (en) 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4831654A (en) * 1985-09-09 1989-05-16 Wang Laboratories, Inc. Apparatus for making and editing dictionary entries in a text to speech conversion system
JPS63501603A (ja) * 1985-10-30 1988-06-16 セントラル インステイチユ−ト フオ ザ デフ スピ−チ処理装置および方法
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system

Also Published As

Publication number Publication date
CA2222582C (en) 2001-09-11
AU6645096A (en) 1997-03-12
DE69627865D1 (de) 2003-06-05
US5751907A (en) 1998-05-12
EP0845139B1 (en) 2003-05-02
JP2000509157A (ja) 2000-07-18
EP0845139A1 (en) 1998-06-03
EP0845139A4 (en) 1999-10-20
WO1997007500A1 (en) 1997-02-27
MX9801086A (es) 1998-04-30
JP3340748B2 (ja) 2002-11-05
DE69627865T2 (de) 2004-02-19
BR9612624A (pt) 2000-05-23
CA2222582A1 (en) 1997-02-27

Similar Documents

Publication Publication Date Title
TW305990B (zh)
Rodet Musical sound signal analysis/synthesis: Sinusoidal+ residual and elementary waveform models
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
US6535852B2 (en) Training of text-to-speech systems
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
EP0833304B1 (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
CN1758330B (zh) 用于通过交互式话音响应系统防止语音理解的方法和设备
US20200410981A1 (en) Text-to-speech (tts) processing
EP2462586B1 (en) A method of speech synthesis
Turk et al. Robust processing techniques for voice conversion
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JP2006084715A (ja) 素片セット作成方法および装置
Panda et al. A waveform concatenation technique for text-to-speech synthesis
US7280969B2 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
KR20190048371A (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
Louw et al. A general-purpose IsiZulu speech synthesizer
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
KR100759172B1 (ko) 음성 합성 장치, 음성 합성 방법, 및 음성 합성 프로그램을기억한 기억 매체
Rodet Musical sound signal analysis/synthesis: Sinusoidal+ residual and elementary waveform models
BE1011892A3 (fr) Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
EP1589524A1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis
Eady et al. Pitch assignment rules for speech synthesis by word concatenation
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees