TW422967B - Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word - Google Patents

Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word Download PDF

Info

Publication number
TW422967B
TW422967B TW088106840A TW88106840A TW422967B TW 422967 B TW422967 B TW 422967B TW 088106840 A TW088106840 A TW 088106840A TW 88106840 A TW88106840 A TW 88106840A TW 422967 B TW422967 B TW 422967B
Authority
TW
Taiwan
Prior art keywords
text
pronunciation
tree
sequence
phoneme
Prior art date
Application number
TW088106840A
Other languages
English (en)
Inventor
Roland Kuhn
Jean-Claude Junqua
Matteo Contolini
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/067,764 external-priority patent/US6016471A/en
Priority claimed from US09/069,308 external-priority patent/US6230131B1/en
Priority claimed from US09/070,300 external-priority patent/US6029132A/en
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW422967B publication Critical patent/TW422967B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

642296 7 A7 B7 五、發明説明(1 ) 經濟部智慧財產局w:工消費合作社印製 本發明之背景和概要 本發明一般係論及一種語音處理程序。詳言之,本發 明係論及-種利以產域特字之語音的线。本發明 可被採用在各種包括語音辨識、語音合成、和詞典編寫等 多種不同之上下文意中。 在語音處理之業界中,彼等伴隨發音之拼字係出現 在許多不同之上下文意中。在語音辨識中,其字典内每一 字詞有關之音標拼字,在使用前有必要被用來訓練其辨識 器。傳統之音標拼字,係由彼等熟悉相關特定語言之音標 拼字之絲毫差異的詞典編寫者親手建立。一字典要開發其 每一字有關之良好音標拼字,將會是十分費時,以及需要 大量之技術。若有一可靠之系統,可基於彼等之拼字來產 生彼等字詞之音標拼字,則該等人力和特殊技能,大部份 將可得以免除。該種系統可擴展彼等當前之辨識系統, 其可辨識現有字典内目前不能找到之地理位置和姓氏等 詞。 彼等拼字亦會經常發生在語音合成之業界中。今曰 語音合成器,係藉著自一字典取出數位取樣之聲音單元 以及將此等聲音單元鏈結形成語句子,而將本文轉換成語 音。 誠如以上諸例所展現,上述語音處理之語音辨識和 音合成,均可因其能自拼字產生精確發音之能力而得以一 利。然而,此一技術之需求則並非僅限於語音處理。詞典 編寫者今曰業已完成了許多主要世界語言相當大量及精碑 使 字 之 語獲 Ϊ^. —1T.^ (請先閲讀背面之注意事項再填寫本頁) t纸張尺度適用中國國家揉準(CNS ) Α4規格(210X297公釐) 4 7 · 經濟部智慧財產局貝工消費合作杜印製 A7 -—---!Z____ 五、發明説明(2 ) 之發音字典。然而,其中仍有數以百計之地方語言,缺乏 良好之音標拼字。由於其生產一良好音標拼字之任務,迄 今大部份仍屬人工做成,某些地方語言之轉譯,縱使有亦 可能須要歷經數年方得以完成。若能有一良好之電腦具現 技術,來評定轉譯之精確性,其轉譯程序將可得到大幅加 速。此種評定系統,可使用一現有之語言轉譯資料集,來 辨識其轉譯原射發音錢之字項。此將可大幅提昇一高 品質轉泽成品之產生速率β 迄今在拼字發音之轉譯工作中的大部份嘗試,係單仰 賴於彼等字母本身。此等技術離所希望者尚有_大段之距 離。舉例而言,一唯文字發音產生器,要正確地發出字詞 Bible之音,將會大有困難。僅基於字母之序列上述之 唯文字系統,將很可能會發出"Bib-Γ之音,很像一學習認 字之學齡兒童有可能發出之音。彼等傳统式系統中之難題 ,在於天生加諸在許多語言之發音規則上面之模糊性。以 英語為例,其具有數以百計之發音規則,使得其逐字處理 問題上自有其困難,以及在計算上所費不貲。 本發明係以一不同之角度來針對此一問題β本發明係 使用特別構成之混合決定樹,其涵蓋了文字序列和音素 序列之決定下達法則。詳言之,此種混合決定樹在其樹之 内部節點處,蘊含有一系列是-否之疑問。某些此等疑問 涉及一拼字序列内之文字和彼等相鄰文字;其他疑問則涉 及上述字序列中之音素和彼等相鄰音素;彼等内部節點最 '、將行至彼等之葉卽點處,其將包含一所給文字,在彼等 本紙張尺度適用中嶋(210χ297公釐) ϋ^— · I ^-- (請先聞讀背面之注意事項再填寫本頁) 訂 線 fe- 4 2 2 9 6 7 -: A7 B7 五、發明説明( 文字序列所界定之字詞的發音上,最有可能之正確發音有 關的概率。 本發明之發音產生器,係使用其混合決定樹來評定不 同之發音侯選者,而容許其能就一所給拼字選擇其最有可 能之侯選者,做為其最佳之發音。此最佳發音之產生,最 好係屬一兩階段之程序,其中之第一階段,係使用一唯文 字樹,來產生多數之發音侯選者。此等侯選者復在第二階 段中,使用上述之混合決定樹,來選擇其最佳之侯選者。 雖然其混合決定樹,係有利地使用在一兩階發音產生 器中’其混合樹在解決某些並不需要唯文字之第一階段處 理程序的問題中,係屬有用。舉例而言,其混合決定樹, 可用以s平疋語§學者使用人工技術所產生之發音。 為更完全瞭解本發明、其諸目地和優點,可參照下列 之說明和所附諸圖。. 圖示之簡要說明 第1圖係一可例示本發明之組件和步驟的方塊圖· 第2圖係一可例示一唯文字樹之樹狀圖; 第3圊係一可例示一依本發明所成之混合樹的樹狀圖
V 第4圖係一可例示一可用以產生上述依本發明所成之 混合樹的當前較佳系統的方塊围; 第5圖係一可例示一可用以經由—對齊程序而產生訓 練資料的流程圈; 第6圖係一可例示其決定樹在一範例性發音產生器中 本紙張尺度適用中國國家揉準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注f項再填寫本I) .裝 線 經濟部智慧財產局員工消費合作社印製 42296 A7 B7 經濟部智慧財產局負工消費合作社印製 五、發明説明(4 ) 之用法的方塊圖; 第7圓係例示Gini準則在評估使用何者疑問聚居在一 節點中之應用例; 第8圏係一依本發明所製文字聲音之發音產生器的方 塊圖;而 第9圖則係一可例示一文字-語法-上下文意-方言之混 合決定樹的樹狀圖。 較佳實施例之詳細說明 為例示本發明之原理,第1圚之範例性實施例,係顯 示一拼字發音產生器。本發明之混合決定樹,誠如下文更 詳細之解釋’可用於除本說明書所例示之發音產生器外之 多種不同應用例中。此發音產生器被選來倣例示說明,係 由於其可強調出其混合決定樹結構之特徵和利益故也。 該發音產生器係採用兩個階段,其第一階段係採用一 組唯文字決定樹1 〇 ’以及其第二階段係採用一組混合決定 樹12。一類似文宇B-I-B-L-E序列之輪入序列14,係錄至 一動態程式規劃音素序列產生器16*該發音產生器,係使 用其唯文字決定樹10,來產生一表列發音18,其係表示上 述拼字輸入序列之可能發音侯選者。 該序列產生器,可依序檢查上述序列之每一文字,應 用該文字相關之決定樹’基於其唯文字樹内所含有之概率 資料,來選擇該文字所需之一音素發音。 上組唯文字決定樹,最好能包含每一字毋文字有關之 決定樹。第2圖係顯示文字E有關之唯文字決定樹的一個 本紙張尺度遴用中國國家揉準(CNS) Μ規格(2丨Οχ 297公复) ¾-------IT------^ (請先閲讀背面之注#^項再填寫本頁) 經濟部智慧財產局月工消费合作社印製 422967 , A7 _____B7 五、發明説明(5 ) 範例·此決定樹係包含多數之内部節點(圊中例示為橢圓 形)和多數之葉節點(圖中例示為矩形)。每一内部節點 聚居有一是-否之疑問。在上述之唯文字樹中,此等疑問 係針對所給之文字(此一情況中之E文字),和彼等在上 述輸入序列内之相鄰文字。注意在第2圖中,每一内部節 點係依據相關疑問為是或否,而向左或向右分支。 第2圖中所用之縮寫符號如下:疑問中之數字,諸如 "+1 或Γ,係指稱相對於當前文字之拼字位置。舉例而 言,”+1L==’R|?"意謂『當前文字(此一情況中之文字E) 後之文字是否為一 R』。彼等縮寫符號C〇NS和VOW,係表 不彼等文字之類別,亦即,子音和母音β 一相鄰文字之缺 乏,或零文字,係以符號表示,其係用做一可使某些 文字與彼等對應音素發音對齊之填充字或佔位文字。符號 係表示一字詞之邊界。 彼等之葉節點,係聚居有概率資料,彼等可使彼等可 能之音素發音,與彼等代表特定音素表示所給文字之正確 發音的概率的數值相聯結。舉例而言,記號,,iy=>〇 51,,意 謂r此葉節點内之音素,iy,的概率係〇 51』。其零音素,亦 即靜音,係以來表示。 其序列產生器16 (第1圊),因而係使用其唯文字決定 樹10,來構成其表列18内所儲存之一個或多個發音臆測。 每一發音最好能聯結一使用其決定樹1〇所選定各個音素之 概率點數所達成之數值點數。彼等之字詞發音,可藉建立 一可能組合之矩陣,以及接著使用動態程式規劃,而選擇 本纸張从適用中國國家揉準(CNS) A4^ (2i〇>7^i7 — — I— I裝—— I 訂 I 線 (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局W工消費合作社印製 2296 7 ί Α7 ____Β7 i、發明説明(6 ) 其η個最佳侯選者,來加以計點。或者,彼等最佳侯 選者,可使用一可先辨識其最有可能之字詞侯選者,以及 接著經由反覆取代,而產生額外之侯選者的取代技術,來 加以選擇。 藉著乘以其最馬計點之音素(檢查彼等之葉節點辨得 )的對應點數’首先選出其具有最高概率點數之發音,以 及接著使用此一選出者,做為其最有可能之侯選者,或第 一最佳字詞侯選者。藉著再次檢查彼等之葉節點内之音素 資料’以辨識其先前未被選出,而與一最初選出之音素差 異最小之音素’而接著選出彼等之額外(η個最佳之)侯 選者。此一最小差異之音素*接著取代上述之最初選出者 ,藉以產生其第二最佳字詞侯選者。上述之程序可反覆重 複’直至所需數目之η個最佳侯選者被選出為止。其表列18 可依漸小點數之順序來排序,以便其唯文字分析程序可判 斷出之最佳發音,將會在該表列内首先出現。 誠如上文可注意到的,一唯文字分析程序,經常會產 生不良之結果。此係由於上述之唯文字分析程序,在各文 字處’無法決定因彼等後繼之文字將會產生之音素故也。 因此,一唯文字分析程序,將會產生一自然語言中實際上 不會發生之音素。舉例而言,一普通之名字Achilies,很 有可能產生一標出11之音的發音:ah-k-ih-ll_iy-z。在自然 語言中’其第二個1實際上是.不發音的:ah-k-ih-My-z。上 述使用唯文字樹之序列產生器,並不具有可篩選掉自然語 言中決不會發生之字詞發音的機構》 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) I^1τI ^ (請先Η讀背面之注$項再填寫本頁) 9 經 智 慧 財 產 局 η 工 消 費 合 作 社 Α7 Β7 a^2967t 五、發明説明(7 ) 上述發音系統之第二階段,係針對上述之問題。一混 合樹點數預估器20,係使用上組混合決定樹12,來評估表 列18内之每一發音的生命力。上述之點數預估器在工作上 ,係依序檢查上述輸入序列之每一文字,外加其序列產生 器16指定給每一文字之音素。 如同上組之唯文字樹,上組混合樹係具有每—文字字 母有關之混合樹。第3圓顯示一範例性混合樹。如同上述 之唯文字樹,此混合樹具有一些内部節點和葉節點。在第 3圖中,彼等之内部節點係例示成橢圓形,以及彼等葉節 點係例示成矩形。彼等内部節點各係聚居有一是否之疑 問,以及彼等葉節點各係聚居有一些概率資料。雖然此混 合樹之樹結構,係與上述唯文字樹者相類似,其中有一重 要之差異。此混合樹之内部節點,可包含兩不同類別之疑 問。一内部節點可包含一所給文字和其序列中相鄰文字有 關之疑'問,或者,其可包含該文字相關聯之音素,和彼等 與其序列相對應之相鄰音素。其決定樹因而係混合成的, 其將包含混合類別之疑問。 第3囷中所用之縮寫符號,係與第2圖中所用者相類似 °其符號L係表示一文字和其相鄰文字有關之疑問β其符 號Ρ係表示一音素和其相鄰音素有關之疑問。舉例而言, 其疑問"+ α==’Ε>_?"意謂『在+1位置處之文字是否為一,D,? 』。彼等縮寫符號CONS和SYL·,係彼等音素之類別’亦即 ’子音和音節。舉例而言,"+1P==C0NS?"意謂r在+ 1位 置處之音素是否為一子音?』。彼等葉節點中之數字,係如 本紙張遑用中國國家樣车(CNS )八视^ (训X撕公羡 ^------?τ-------^ (請先閎讀背面之注意事項再填寫本頁) Α7 Β7 ^422967 五、發明説明(8 ) 同彼等在唯文字樹中一樣,表示彼等音素之概率。 上述之混合樹點數預估器,可基於彼等混合樹之疑問 ,以及使用彼等混合樹之葉節點中的概率資料,重新計點 其表列18内之每一發音。若有需要,彼等表列之發音,可 如同表列22—樣’聯結其對應之點數一起被儲存β若有需 要’該表列22可依漸小點數之順序來排序,以便其第一之 表列發音,係其具有最高之點數者。 在許多案例中’其在表列22中含有最高點數位置之發 音’將會不同於其在表列18中含有最高點數位置之發音^ 其發生係由於上述之混合樹點數預枯器,使用其混合樹12 ,篩選掉該等未含有自相一致之音素序列的發音,或者彼 等代表自然語言中決不會發生之發音故也。 若有需要’ 一選擇器模組24,可自由使用其表列22, 以便自該表列’取出一個或多個發音《通常,該選擇器24 係取出其具有最高點數之發音,以及將其提供做為輸出發 音26。 誠如前文所應注意的,第1圖中所描緣之發音產生器 ,僅代表採用本發明之混合樹的一種可能實施例<·以另一 種實施例而言,其動態程式規劃音素序列產生器16,和其 相關聯之唯文字決定樹10,在彼等一所給拼字序列早已有 一個或多個現成之發音可用的應用例中,將可加以免除, 此種情況係發生在現有一先前開發出之發音字典時。在此 種情況下,其混合樹點數預估器20,和其混合決定樹12, 可用來評定上述發音字典内之字項,辨識彼等具有低點數 本紙張尺度適用中國國家標準(CNS ) Α4规格(210X297公釐) (請先閱讀背面之注$項再填寫本頁) J's 經濟部智慧財產局員工消費合作社印製 ί4^2967 Α7 --—______Β7_ 五、發9 ) ' ~~ - 者,藉以對所建字典内有疑問之發音加上旗標。此一系統 舉例而言,可合併進一詞典編寫者之製造工具内β 上述之輸出發音或彼等選自表列22之發音,可用以形 成語音辨識和語音合成兩者應用例有關之發音字典。在語 音辨識之上下文意中,在其辨識器訓練片語期間,可使用 上述之發音字典,來提供其辨識器字彙中未曾找到之字詞 有關之發音。在語音合成之上下文意中,該等發音字典可 用來產生彼等鏈結播放所需之音素聲音·此系統舉例而言 ,可用來增強一 E-mai丨讀取器或其他本文轉換語音應用例 之特徵。 本發明之混合樹評定系統,可用於希望單一或表列之 "T食b發音的多種應用例中。舉例而言,在一動態線上字典 中,其使用者可鍵入一字詞,以及該系統可提供一表列按 概率順序排列之可能發音。該評定系統,亦可用做彼等語 言學習系統所需之一使用者回授工具。一具有語音辨識能 力之3吾言學習系統’係用來顯示—拼字,以及用來分析一 說話者在發上述新語言中之該字詞的音時的企圖,以及該 系統將會告訴該使用者,其對該字詞之發音係有多大之可 能性或多大之不可能性。 篮等決定榭之產碌 第4圖顯示上述可產生唯文字樹和混合樹之系統。在 此決定樹產生系統之中央,係樹產生器40。此樹產生器係 採用一樹成長演算法,其可在該系統開發者所提供預定组 之訓練資料42上面運作。通常,該訓練資料係包含對齊之 本紙張尺度適用中國國家揉率(CNS ) A4規格(210X297公釐) f-- (請先聞讀背面之注意事項再填寫本頁) 訂_ 線 經濟部智慧財產局負工消費合作社印製 12 五、發明説明(10) •裝· 文字、音素對,彼等係對應於字詞已知之適當發音β該訓 練資料可經由第5圖中所例示之對齊程序來產生β第5圖例 示一正在一範例性字詞BIBLE上面執行之對齊程序。其拼 字44和其發音46,係饋至一動態程式規劃對齊模組48,其 可使該拼字之文字與其對應發音之音素對齊。理應注意的 是,在所例示之範例中,其最後之E係不發音。該等文字 音素對,接著便會儲存做為資料42。 回顧第4圖’該樹產生器在工作上係配合三個額外之 組件:一組可能之是-否疑問50 ' —組可就每一文字選擇 最佳疑問或可決定該節點是-否應為一葉節點之規則52、 和一可防止訓練過度之刪除法53。
•1T 該組可能之是-否疑問’依據正在成長的,係—唯文 字樹,或一混合樹而定,可包含彼等文字疑問54和音素疑 問56。當成長一唯文字樹時,將僅有文字疑問54被使用; 當成長一混合樹時’彼等文字疑問54和音素疑問56,將同 被使用。 經濟部智慧財產局員工消費合作社印製 在此一當前較佳實施例中,彼等選擇其聚居在每一節 點處之最佳疑問’在設計上係遵從上述之Gini準則^其他 之分割準則可代而用之。進一步有關分割準則之資訊,可 參考 Breiman,Friedman et al,之”ClassificaU〇n and
Regression Trees”。基本上,上述之⑴以準則,係用來自 上組可能之是-否疑問50選擇一疑問,以及採用一決定何 時一節點係一葉節點之停止規則β上述之Gini準則,係採 用一稱做『雜度』之觀念。此一雜度永遠係一非負數之數 本紙張尺度適用令國國家樣準(CNS ) A4规格(210X297公董) 13 經濟部智慧財產局貝工消費合作社印製 14^2967 A7 .________B7_ 五、發明説明(11) 目子。其應用在一節點上,係使一包括等比例之所有可能 範_之節點’係具有最大之雜度,而一僅包括彼等可能範 嘴中之一範疇的節點,係具有零值之雜度(最小之可能值 )°在此有數種函數可滿足上述之條件。彼等係依一節點 内每一範疇之計數而定。上述之Gini準則,可界定如下。 若C係資料項目可隸屬之類別組,以及τ係當前之樹節點 ’令f( 1丨T)為在τ節點中隸屬類別1之訓練資料項目,f(2|T) 為在T節點中隸屬類別2之訓練資料項目,等等,則 Σ/〇'/7,)/(^/^=ιΣ[/〇7:〇]2 j 藉範例來例示說明,假定該系統係就_·Ε"成長一樹β 在該樹之一所給之節點τ中,該系統舉例而言,可能具有 "Ε"在該字詞中如何發音之1〇個範例。舉例而言,在此等 範例之5中’ ’Έ1,係發,Ύ (,,cheeZe”中之”ee,,音)之音;在 此等範例之3中,”E"係發"eh" ("bed"中之"e”音)之音; 以及^^等範例之中’ "E,1係發(如同"maple"中_,e"之 不發音)<* 假定該系統正在考慮兩個可應用在上述1〇個範例中之 可能的是-否疑問,(^和匕。彼等對回答f是』之項目 ,將包含四個”iy”之範例,和一個"_,,之範例(其他五個項 目對回答『否』)。彼等對I回答F是』之項目,將包 含二個’ iy”之範例’和三個’Ieh"之範例(其他四個項目對 Q!回答Γ否』)。第6圖係以示意圖比較此兩種情況。 上述之Gini準則’可回答該系統應就此一節點選擇何 者疑問’ Q!或Q2。上述用以選擇正確疑問之Gini準則是: 本紙張Α/t適用中國國家棣準(CNS )八4胁(210x297公釐) --- ----------¢------1T------0 (請先閲讀背面之注意事項再填寫本頁) 鏖Α7 Β7 經濟部智慧財產局員工消«-合作社印製 五、發明説明(I2) 找出自父節點行至子節點其雜度下降最大之疑問。此一雜 度下降」T 係界定為」1 = i(T)- Pyes * i(yes) - Pn。* i(no), 此處’ Pyes係彼等行至『是』子節點之項目的比例值,以 &Pn。係彼等行至r否』子節點之項目的比例值。 應用Gini準則至上述之範例: ί·(Γ) = 1 -Y^fU/Γ)]2 = 1 -〇.52 -0.32 -0.22 = ο.62 就仏而言,dl因而成為: KT)- (a) = 1 - 0.82 - 0.22 = 0.32 1(^-^,(0,) = 1-0^-0.62 =0.56 故」1(Q,) = 0.62-0.5*0.32-0.5*0.56 = 0.18。 就Q2而言’吾等可得」l(yes, Q2)= 1-〇.52-〇.52 = 〇.5, 以及i(no, Q2)=(同式)=0.5。故」1(Q2) = 0.62-(0.6)*(0.5)-(0.4)*(0.5) = 0.12。 在此一情況下,Q!在雜度上將會產生最大之下降。 所以,其將會被選擇而非Q2。 上述之規則組52將可就一節點,聲明其自父節點行至 子節點而招致雜度下降最大之疑問,為一最佳之疑問。 上述之樹產生器,可應用彼等之規則52,以成長一選 自上組50之是-否疑問的決定樹。該產生器將會使該樹繼 讀成長,直至其最佳尺寸之樹已成長為止》彼等之規則52 包含一組停止規則,彼等可在該樹已成長至一預定尺寸時 ’使該樹停止成長。在此一較佳之實施例中,該樹可成長 至一大於最終所希望之尺寸。接著,彼等修剪法53,可用 ----------^------1Τ------il (請先閲讀背面之注意事項再填寫本頁> 15 經濟部智慧財產局貝工消費合作社印製 7 Α7 —--Β7_____ 五、發明説明(U) 以將該樹修剪回其所希望之尺寸。上述之修剪法,可具現 上述所引用之參考文獻中所描述之Breiman技術, 上述之樹產生器’因而可依據上组可能之是,否疑問5〇 ,係單獨包含唯文字疑問,亦或包含結合音素疑問之唯文 字疑問,來產生60處一般所示之數組嗓文字樹,或處一 般所示之混合樹。其訓練資料42之資料集,係如上文所述 ,包含有文字、音素對。在一唯文字樹之成長中,僅有彼 等成對之文字部分,被用來聚居彼等之内部節點β反之, 當成長彼等之混合樹時,彼等訓練資料對之文字和音素兩 成分,均可能被用來聚居彼等之内部節點。在兩者情況中 ,彼等成對之音素部分,係被用來聚居彼等之葉節點。彼 等與葉節點内之音素資料相關聯之概率資料,係藉計數在 整個訓練資料之資料集中,一所給音素與一所給文字發生 對齊之次數,來加以產生。 上述方法所產生之文字發音決定樹,可儲存在記憶體 内,以供各種不同語音處理應用例使用β雖然此等應用例 為數眾多及多樣化’下文將出示數例,以凸顯此等樹之某 些能力和優點。 第6圖係例示彼等唯文字樹和混合樹,兩者均被用來 自拼字文字序列產生出彼等之發音。雖然所例示之實施例 ,係對唯文字樹和混合樹兩者一起加以採用,其他之應用 例則可能僅使用到一成分,而用不到另一成分。在所例示 之實施例中,其唯文字樹組係儲存在8〇處之記憶體内,以 及其混合樹係儲存在82處之記憶體内。在許多應用例中, 本紙張尺度適用中國圉家揉率{ CNS ) A4規格(210X297公瘦) ----------^.------tr------^ (請先閲讀背面之注意事項再填寫本頁) 16 A7 B7 42296 7 五、發明説明(14) 其每一字母文字將會有一樹。其動態程式規劃序列產生器 84,可對輸入序列86運作,以基於其唯文字樹80’而產生 一 88處之發音。基本上,上述輸入序列内之每一文字,係 各別做考慮,以及上述之唯文字樹,係用來選擇該文字最 有可能之發音。誠如前文所述,其唯文字樹將會就上述序 列内之所給文字和其相鄰文字,尋問一系列之是-否疑問 。在該序列内之所有文字均考慮過後,其最後之發音將可 藉鏈結上述序列產生器所選定之音素而產生出。 欲改進其發音,可使用上述之混合樹組82。其唯文字 樹雖僅能尋問有關文字之疑問,其混合樹則可尋問有關文 字及有關音素之疑問。其計點器90可自其序列產生器84之 輸出,接收到音素資訊。就此點而言,其序列產生器84, 使用其唯文字樹80,可產生多數之不同發音,而基於彼等 各自之概率點數’來排序該等發音。此一排序過之發音表 列,可儲存在92處,以供其計點器9〇自由使用。 其計點器90可接收上述同時供應至序列產生器84之輸 入序列86 ’而做為其輸入β其評定器90可將彼等混合樹82 之疑問,應用至上述之文字序列,而在被尋及嚮應一音素 疑問時,使用上述來自儲存器92之資料。其94處之最後輸 出,通常,係一較88處所供應者為佳之發音。其理由在於 彼等之混合樹易於筛選掉自然語言中不會發生之發音》舉 例而。上述之普通名字,Achilles,將很有可能產生一 標出11之曰的發音·· ah-k_ih-u-iy-z。在自然語言中,其第 二個丨實際上是不發音的:ah-k-ih-1-iy-z。 一本紙峨適用中國國 -----------餐------,π------^ (請先閲讀背面之注$項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 17 銨濟部智慈財產局員工消贫合作社印製 4 2 2 9 6 7、 A7 _____B7______ 五 '發明説明(I5) 若有需要,其點數產生器90,亦可製造一如同在96處 之一排序過之η個可能發音的表列。彼等與各發音相關聯 之點數’係代表該發音内指定給每一音素之個別概率點數 的合成值。此等點數本身,可被用在有疑問之發音需要被 辨識的應用例中。舉例而言,一詞典編寫團隊所提供之音 標拼字,可使用該等混合樹迅速辨識任何有疑問之發音, 來加以檢核》 文字-聲_音發音轰生器 為例示本發明之原理,第8圓之範例性實施例,顯示 有一兩階段拼字文字-發音產生器β誠如下文更詳細之解 釋*本發明之混合決定樹的處理方法,可用於除本說明書 所例示之發音產生器外之多種不同之應用例中。此一兩階 段發音產生器被選來做例示說明,係由於其可強調出其混 合決定樹結構之特徵和利益故也。 上述之兩階段發音產生器包含:一第一階段1 1 6,其 最好係採用一組文字-語法-上下文意_方言之決定樹no ; 和一第二階段120,其係採用一組可在一音素水平下檢查 其輸入序列114之音素混合決定樹丨丨2 ^彼等文字-語法-上 下文意_方言之決定樹,可檢查一拼字序列中彼等涉及文 字和彼等相鄰文字之疑問(亦即,文字相關之疑問);其 他受到檢查之疑問有,一特定字詞前接或後接者為何字詞 (亦即’上下文意相關之疑問);再一其他受到檢查之疑 問有,該字詞在一句子内為語言之何一部分,加上其他字 在該句子内具有何種語法(亦即,語法相關之疑問); 本紙浪纽刺tSU家縣(CNS ) ( 2丨0X297公釐 - ---:------^.------tr----- {請先聞讀背面之注意事項再填寫本萸) 18 ® 4 2 2 9 6 7 - A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(16) 再一其他受到檢查之疑問有,其所希望說出為何種方言。 一使用者最好藉方言選擇裝置150,來選擇所要說出為何 種方言。 本發明之另一實施例包含:使用彼等文字相關之疑問 ,和至少一字詞水平特性(亦即,語法相關之疑問,或上 下文意相關之疑問)。舉例而言,一實施例在其第一階段 係利用一組文字-語法決定樹。另一實施例係利用一組不 檢查其輸入序列之語法的文字-上下文意-方言決定樹。 理應瞭解的是’本發明並非僅限於彼等發生在一句子 中之字詞’而係包括其他呈現語法之語言結構,諸如片段 之句子或片語等。 一輸入序列Π 4 ’諸如一句子之文字序列,係餚送至 其基於本文之發音產生器116。舉例而言,該輸入序列114 ’可能會是下列之句子:_'Did you know who read the autobiography ?" 0 一語法資料115’係其基於本文之發音產生器u 6之輸 入。此一輸入可提供其基於本文之發音產生器116有關之 資訊,藉以正確地循經其文字-語法-上下文意-方言之決 定樹110 。該語法資料115,可宣告其輸入序列114中之每 一字詞,具有語音之何一部分。舉例而言,上述輸入序列 範例中之字詞"read",將會被其語法標記器軟體模組129 ’標記為一動詞(而非一名詞或一形容詞)。上述之語法 標記器軟體技術,可得自”Xtag"計劃下類似賓州大學等之 機構》此外’以下之參考資料亦討論到語法標記器軟體技 I mu n n I —i 訂I I —' I I 線 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家梯準(CNS ) A4規格(2丨0X297公釐) 19 經濟部智慧財產局員工消骨合作社印製 422967 A7 B7 五、發明説明(π) 術:1991年11月11日加拿大蒙特利爾McGill大學所出版 George Foster 電腦科學之碩 士論文"statistical Lexical
Disambiguation" ° 其基於本文之發音產生器116,係使用上述之決定樹 Π〇 ’來產生一表列發音118,其係代表上述拼字輸入序列 之可能發音侯選者。該表列118之每一發音(例如,發音 A)’係表示上述最好能包含每一字詞如何標出重音之輸 入序列114的發音《此外,此一實施例可決定出每一字詞 說出之速率。 其句子速率計算器軟體模組152,係被其基於本文之 發音產生器Π6,用來決定每一字詞應說出多快。舉例而 言’其句子速率計算器152,可檢査句子之上下文意,以 決定該句子中之某些字詞,應以較正常者說出的較快些或 較慢些。舉例而言,一在尾部具有一感嘆符號之句子,其 將會提出該句子結尾前一預定數目之字詞,當較正常者具 有較短之期間的速率資料,以便表達出一感嘆陳述之影嚮 力。 其基於本文之發音產生器116,可依次檢查上述序列 之每一文字和字詞,應用其與該文字或字詞之語法(或字 詞之上下文意)相關聯之決定樹,基於該混合樹内所包含 之概率資料,來選擇該文字有關之—音素發音,該組決定 樹110’最好包含所涉及語言之字母和語法内之每—文字 有關的決定樹。 第9囷顯示一可應用至上述字詞"READ "令之文字"E,t 本紙張収適用中國( CNS ) ( 210X297^4 )
----I-------Μ------訂-------^ (请先閲讀背面之注意^項再填寫本頁J 20 經濟部智慧財產局負工消費合作社印製 ^ 42296 7 Λ7 Α7 Β7 五、發明説明(18) 的範例性文字-語法-上下文意-方言之決定樹14〇 4此混合 樹包含多數之内部節點(圖中以橢囷形例示)和多數之葉 節點(圖中以矩形例示各内部節點聚居有一是否之疑 問。此等是-否之疑問,係一些可回答是或否之疑問。在 該文字-語法-上下文意-方言之決定樹中,此等疑問係 針對··上述輸入序列中之一所給文字(例如,此一情況下 中之文字"E")和其相鄰之文字;或該句子中字詞之語法 (例如’名詞、動詞、等等);或該句子之方言。在第9圖 中理應注意的是,各内部節點依據對其相關聯疑問之回答 係是亦否而定’將會向左或向右分支。 其第一内部f卩點最好訊問要說出之方言。其内部節點 13 8係此種訊問之代表。若要說出的是南部方言,則其將 循經一南部方言混合樹139,其最終在彼等葉節點處,將 會呈現一更具南部方言之特色的音素值3 第9圖中所用之縮寫符號如下:疑問中之數字,諸如 "+1”或”-1",係指稱相對於當前文字之拼字位置a符號L 係表示一文字和其相鄰文字有關之疑問β舉例而言,"d =='R’ or _L’?”意謂『當前文字(其為Έ,)前之文字係,1_亦 或R』。彼等縮寫符號CONS和VOW’係表示彼等文字之 類別,亦即,子音和母音。符號"#"係表示一字詞之邊界 。術語'tag(i)’係表示—有關其第丨個字詞之語法標記的疑 問’其中,i=〇係表示當前之字詞,丨=_〗係表示其前接之 字詞’ i=+l係表示其後接之字詞,等等β因此,"tag(〇)== PRES?”係表示『當前之字詞是否為一現在式動詞?』。 本紙張纽適用中國國家揉準(CNS )八4胁(210X297公釐) ' *- ----[I.I.^---裝------訂------線 (請先閩讀背面之注f項再填寫本莧) 42296 7 ^ a? ---- B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(l9) 彼等葉節點聚居肴一些可使彼等可能之音素發音,與 彼等表不該特定音素代表所給文字之正確發音之概率的數 子值相結合。其零音素,亦即不發音’係以符號表示 〇 舉例而言’現在式動詞"READ"和”LEAD”中之,Έ”, 被其決定樹140在葉節點142處’指定其具有概率1.〇之正 確發音”丨广,過去式動詞"READ"中之,Έ",則會在葉節點 144處’被指定具有概率〇 9之發音"eh"。 其決定樹110 (第8圊者),最好包含上下文意相關之 疑問。舉例而言,彼等内部節點之上下文意相關疑問,可 檢查字詞_’y0ll"是-否前接字詞"did"。在此種上下文意中 "you"中之"y",在俗語中通常係發成"ja"之音。 本發明亦可產生詩體性質之資料,藉以表達說出一句 子時之重音、揚音、抑音、或停頓等特徵β此等語法相關 之疑問’將有助於決定該音素如何表達出重音、或揚音或 抑音。舉例而言’其内部節點141 (第9圖者),將會訊問 該句中之第一字是否為一疑問代名詞,諸如範例性句子 "Who read a book?"中之”who"。由於在此一範例中,此一 範例中之第一字為一疑問代名詞,故選擇其具有音素重音 之葉郎點144。其葉節點146係例示其他不加重音之音素的 選擇項。 就另一範例而言,在一疑問句中,其最後一字之最後 一音節的音素,該具有一揚音符號,以便更能表達出該句 之疑問特徵》再一範例可使本發明包括能在說出一句子時 ----;------^------1T------.^ (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標率(CNS ) A4规格(2丨0X291公釐) 4^296 7 ^ 經濟部智慧財產局貝工消費合作社印製 A7 B7五、發明説明(20) 能容有一自然停頓。本發明係藉尋求有關標點符號,諸如 逗點和句點之疑問’而納入此種停頻之細節。 其基於本文之發音產生器116 (第8圖),因而可使用 決定樹110’來建立一個或多個發音之假設,而將其儲存 進其表列118中。每一發音最好能與一藉著結合該等使用 決定樹110所選擇之各個音素的概率點數所達成之數字點 數相關聯。彼等字詞發音可藉建立一可能結合之矩陣,再 使用動態程式規劃,選出η個最佳侯選者,而加以計點。 或者,彼等η個最佳侯選者在選擇上,可使用一取代 技術’其將會在下列之方式中’首先辨識出最有可能之字 詞侯選者’以及接著經由反覆取代而產生額外之侯選者。 藉著乘以其最高計點之音素(檢查彼等之葉節點辨識 出的)的對應點數,首先選出其具有最高概率點數之發音 ,以及接著使用此一選出者,做為其最有可能之侯選者, 或第一最佳字詞侯選者。藉著再次檢查彼等之葉節點内之 音素資料,以辨識其先前未被選出而與一最初選出之音素 差異最小之音素,而接著選出彼等之額外(η個最佳之) 侯選者。此一最小差異之音素,接著取代上述之最初選出 者,藉以產生其第二最佳字詞侯選者.上述之程序可反覆 重複,直至所需數目之η個最佳侯選者被選出為止。其表 歹1Π18可依漸小點數之順序來排序’以便其唯文字分析程 序可判斷出之最佳發音,將會在該表列内首先出現。 其決定樹110,經常僅能製造出中適成功之結果。此 係由於此等混合樹無法在每一文字處,決定出彼等後繼之 本纸張级通用中關家橾率{CNS) Α· (2獻297公6 --------:---^------1Τ------^ (請先聞讀背面之注意事項再嗔寫本頁) 23 經濟部智慧財產局員工消費合作社印製 4 2 2 9 6 7 ' at ______B7 五、發明説明(21 ) 文字將會產生何種音素故也。因此,其決定樹11〇,有可 月b產生一南計點之發音’其實際上卻不會發生在自然語言 中。舉例而言’上述之普通名字Achilles,很有可能產生 一標出11之音:ah-k-ih-Ι丨-iy-z ♦在自然語言中,其第二個1 實際上是不發音的:ah-k-ih-l-iy-z »上述使用決定樹11〇 之發音產生器’並不具有可篩選掉自然語言中決不會發生 之字詞發音的機構。 上述發音系統108之第二階段120,係針對上述之問題 。一音素現合樹點數預估器120*係使用上組音素混合決 定樹112,來評估表列118内之每一發音的生命力。上述之 點數預估器120在工作上,係依序檢查上述輸入序列114之 每一文字,外加其基於本文之發音產生器U6指定給每一 文字之音素。 上述之音素混合樹點數預估器120,可基於彼等音素 昆合樹之疑問Π 2 ’以及使用彼等混合樹之葉節點中的概 率資料’重新評定其表列118内之每一發音。若有需要, 彼等表列之發音,可如同表列122 —樣,聯結其對應之點 數一起做儲存。若有需要’該表列122可依漸小點數之順 序來排序,以便其第一之表列發音,係其具有最高點數者 〇 在許多案例中’其在表列122中含有最高點數位置之 發音’將會不同於其在表列118中含有最高點數位置之發 音。其之發生係由於上述之音素混合樹點數預估器120, 使用其音素混合樹112,篩選掉該等未含有自相一致之音 (请先聞讀背面之注意事項再填寫本頁) .装· ,11 本紙張尺度遑用中囷國家樣準(CNS ) A4规格(210X297公着) 142296 7 A7 _____ B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(22) 素序列的發音’或者彼等代表自然語言中決不會發生之發 音故也。 在此一較佳實施例中,其音素混合樹點數預估器120 ,係依序使用其句子速率計算器152,來決定其表列122中 之發音有關的資料。此外,該預估器12〇,係在類似於上 述處理方法之方式下’來利用彼等可容有要檢查方言有關 之疑問’和彼等亦可在葉節點處容有用以決定重音與其他 詩體特徵之疑問的音素混合樹。 若有需要,一選擇器模組124可自由使用其表列122, 以便自該表列取出一個或多個發音。通常,該選擇器124 係取出其具有最高點數之發音,以及將其提供做為輸出發 音 126。 誠如前文所應注意的,第8圊中所描繪之發音產生器 ’僅代表採用本發明之混合樹處理方法的一種可能實施例 。在另一種實施例中’上述之輸出發音或彼等選自表列22 之發音’可用以形成語音辨識和語音合成兩者應用例有關 之發音字典。在語音辨識之上下文意中,在其辨識器訓練 片語期間’可使用上述之發音字典,來提供其辨識器字彙 中未曾找到之字詞有關之發音。在語音合成之上下文意中 ’該等發音字典可用來產生彼等鏈結播放所需之音素聲音 。此系統舉例而言’可用來增強一E_mail讀取器或其他本 文轉換語音應用例之特徵。 本發明之混合樹評定系統(亦即,文字、語法、上下 文意' 和音素),可用於希望單一或表列之可能發音的多 本紙張又度通用中囷國家橾準(CNS ) A4規格(21〇χ297公釐) 25 (請先閲讀背面之注意事項再填寫本頁) 裝 訂 -線 ^296 7'^ 42296 A7 B7 五、發明説明(23) 種應用例中。舉例而言,在__動態線上語言學習系統中, -使用者可鍵入—句子,以及該系統可提供一表列有關該 句子按概率順序排列之可能發音。該評定线,亦可用做 彼等語言學習系統所需之一使用者回授工具。一具有語音 辨識能力之語言學習系统,係用來顯示一拼字,以及用來 匀析說話者在發出上述新語言中該句子之音時的企囷。該 系統將會指不上述之使用者,其對該句子之發音係有多大 之可能或多大之不可能。 雖然本發明業已在其當前之較佳形式中做了說明,理 應瞭解的是’其混合樹發音系統係有數目眾多之應用例。 因此’本發明在不違離本發明之精神下,依據其所附之申 請專利範圍,將可有某些之修飾體和變更形式。 (請先聞讀背面之注意事項再填寫本頁} 裝.
-1T 經濟部智慧財產局貝工消贫合作社印* 本紙張尺度逋用中國國家標準(CNS ) A4规格(2丨0X297公釐) 26 42296 7 A7 B7 五、發明説明(24 ) 元件編號對照 經濟部智慧財產局8工消費合作社印製 10…唯文字決定樹 92…儲存器 12…混合決定樹 84…動態程式規劃序列產生器 14…輸入序列 86…輸入序列 16…動態程式規劃音素序列 88…發音 產生器 90…計點器 18,22…表列發音 110,140…文字-語法-上下文意- 20…混合樹點數預估器 方言之決定樹 24…選擇器模組 112…音素混合決定樹 26…輸出發音 114…輸入序列 40…樹產生器 115…語法資料 42…訓練資料 116…基於本文之發音產生器 44…拼字 118…表列發音 46…發音 120…音素混合樹點數預估器 48…動態程式規劃校準模組 122…表列發音 50…可能之是-否疑問 124…選擇器模組 52…規則 126…輸出發音 53…修剪法 129…語法標記器軟體模組 54…文字疑問 138,141…内部節點 56…音素疑問 139…南部方言混合樹 60,80…唯文字樹 142,M4,146…葉節點 70,82…混合樹 150…方言選擇裝置 80,82…記憶體 152…句子速率計算器軟體模組 ----.------^------1T------^ (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Λ4規格(210X297公釐) 27

Claims (1)

  1. 42296 8 00008 A»aD 經濟部智慧財產局員工消費合作杜印製 六、申請專利範圍 1. 一種可就自一預定字母所選出之文字輸入序列產生至 少一發音之裝置,其包含: 一記憶體,其可用以儲存與該字母相對應之多數 唯文字決定樹, 該等唯文字決定樹,係具有彼等可代表一所給序 列中之所給文字和其相鄰文字有關之是·否疑問的内部 節點; 該記憶體尚可儲存與該字母相對應之多數混合決 定樹, 此等混合決定樹’係具有第一多數可代表上述所 給序列中之所給文字和其相鄰文字有關之是·否疑問的 内部節點,以及具有第二多數可代表上述所給序列中 之所給音素和其相鄰音素有關之是-否疑問的内部節點 τ 彼等唯文字決定樹和混合決定樹,尚具有彼等可 代表一些可使上述所給文字與多數音素發音相關聯之 概率資料的葉節點; 一音素序列產生器,其係與該唯文字決定樹相耦 合,可用以處理一文字輸入序列,以及可用以產生第 一組與該文字輸入序列相對應之發音;和 一點數預估器,其係與該混合決定樹相耦合,可 用以處理上述之第一組,以產生一第二组計點之發音 ,此等計點之發音,係代表該文字輸入序列至少之一 發音。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 28 ! — !!·裝-- ---訂---------線 (請先閱讀背面之注意事項再填寫本頁) 42296 ; cl
    、申請專利範圍 經濟部智慧財產局員工消費合作社印製 9-如申請專利範圍第丨項所申請之袭置,其中尚包含一語 S辨識系統,其具有一可用以做其辨識器訓練用之發 音字典,以及此字典至少聚居有上述第二組之一部分 ,以便提供彼等字詞基於彼等拼字之發音β 1(>.如申請專利範圍第1項所申請之裝置’其中尚包含一語 音合成系統,其可用以接收至少上述第二組之—部分 ,以便產生彼等字詞基於彼等拼字之聲音合成發音。 11. 如申請專利範圍第10項所申請之裝置,其中之語音合 成系統’係合併在一 E-mail讀取器内β 12. 如申請專利範圍第1〇項所申請之裝置,其中之語音合 成系統’係合併在一字典内,以便提供一表列按概率 順序排列之可能發音。 13. 如申請專利範圍第1項所申請之裝置,其中尚包含一語 言學習系統’其可用以顯示一拼字,以及可使用該等 唯文字決定樹和混合決定樹,來分析一說話者在發出 上述字詞之音時的企圖,以便告訴該說話者,其對該 字詞之發音有多大之可能性。 14. 一種製造拼字-發音資料之方法,其包含之步驟有: 提供一第一組有關一__輪入序列之文字和彼等與相 鄰文字之關係的是-否疑問; 提供一第二組有關一輸入序列之音素和彼等與相 鄰音素之關係的是-否疑問; 提供一可代表多數不同組對之訓練資料集,彼等 每一對係包含一文字序列和一音素序列,該文字序列 本紙張尺度適用中囷國家標準(CNS)A4規格(210 * 297公釐) 30 !ιιι!ιί* - I ! II 訂。! I ! 1 1 . (請先閱讀背面之注意事項再填寫本頁) 422967 A8 B8 C8 D8 申請專利範圍 上述基於本文之決定樹,係具有一些代表彼等與 上述輸入序列之預定特性有關之疑問的内部節點; 上述基於本文之決定樹,尚具有·一些代表彼等可 使每文子與多數音素發音相關聯之概率資料的葉節 點;和 —基於本文之發音產生器,其係與上述基於本文 之決定樹相連接,可用以處理上述之文字輸入序列, 以及可基於上述基於本文之決定樹,來產生一第一組 與上述之文字輸入序列相對應之發音。 23.如申請專利範圍第22項所申請之裝置,其中尚包含一 音素混合樹點數預估器,③係與上述基於本文之發音 產生器相連接,」可用以處理上述之第一組,以產生一 第二組計點之發音,此等計點之發音,係代表該文字 輸入序列至少之一發音。 -----!:----裝 (請先閲請背面之注意事項再填寫本頁) 訂· -線 經濟邨智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱)
TW088106840A 1998-04-29 1999-04-28 Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word TW422967B (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/067,764 US6016471A (en) 1998-04-29 1998-04-29 Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US09/069,308 US6230131B1 (en) 1998-04-29 1998-04-29 Method for generating spelling-to-pronunciation decision tree
US09/070,300 US6029132A (en) 1998-04-30 1998-04-30 Method for letter-to-sound in text-to-speech synthesis

Publications (1)

Publication Number Publication Date
TW422967B true TW422967B (en) 2001-02-21

Family

ID=27371225

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088106840A TW422967B (en) 1998-04-29 1999-04-28 Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word

Country Status (7)

Country Link
EP (1) EP0953970B1 (zh)
JP (1) JP3481497B2 (zh)
KR (1) KR100509797B1 (zh)
CN (1) CN1118770C (zh)
AT (1) ATE261171T1 (zh)
DE (1) DE69915162D1 (zh)
TW (1) TW422967B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE50003260D1 (de) * 1999-03-08 2003-09-18 Siemens Ag Verfahren und anordnung zur bestimmung eines repräsentativen lautes
AU1767600A (en) * 1999-12-23 2001-07-09 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
US6684187B1 (en) 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
US6505158B1 (en) 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
AU2000276394A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition
CN100423911C (zh) * 2000-10-13 2008-10-08 索尼公司 机器人装置及其行为控制方法
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
US7146319B2 (en) * 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
FI118062B (fi) * 2003-04-30 2007-06-15 Nokia Corp Pienimuistinen päätöspuu
EP1638080B1 (en) * 2004-08-11 2007-10-03 International Business Machines Corporation A text-to-speech system and method
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
GB2428853A (en) 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
US20090291419A1 (en) * 2005-08-01 2009-11-26 Kazuaki Uekawa System of sound representaion and pronunciation techniques for english and other european languages
JP4769223B2 (ja) * 2007-04-26 2011-09-07 旭化成株式会社 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
CN101452701B (zh) * 2007-12-05 2011-09-07 株式会社东芝 基于反模型的置信度估计方法及装置
KR101250897B1 (ko) * 2009-08-14 2013-04-04 한국전자통신연구원 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US8494850B2 (en) * 2011-06-30 2013-07-23 Google Inc. Speech recognition using variable-length context
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9384303B2 (en) 2013-06-10 2016-07-05 Google Inc. Evaluation of substitution contexts
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
JP6234134B2 (ja) * 2013-09-25 2017-11-22 三菱電機株式会社 音声合成装置
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN109376358B (zh) * 2018-10-25 2021-07-16 陈逸天 一种借用历史拼读经验的单词学习方法、装置和电子设备
KR102605159B1 (ko) * 2020-02-11 2023-11-23 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
US20240013790A1 (en) * 2021-05-28 2024-01-11 Microsoft Technology Licensing, Llc Method and system of detecting and improving real-time mispronunciation of words

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
KR100355393B1 (ko) * 1995-06-30 2002-12-26 삼성전자 주식회사 음성합성에있어서의음소길이결정방법및음소길이결정트리의학습방법
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
US5758024A (en) * 1996-06-25 1998-05-26 Microsoft Corporation Method and system for encoding pronunciation prefix trees

Also Published As

Publication number Publication date
CN1233803A (zh) 1999-11-03
DE69915162D1 (de) 2004-04-08
EP0953970B1 (en) 2004-03-03
KR19990083555A (ko) 1999-11-25
KR100509797B1 (ko) 2005-08-23
ATE261171T1 (de) 2004-03-15
EP0953970A3 (en) 2000-01-19
JPH11344990A (ja) 1999-12-14
EP0953970A2 (en) 1999-11-03
CN1118770C (zh) 2003-08-20
JP3481497B2 (ja) 2003-12-22

Similar Documents

Publication Publication Date Title
TW422967B (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US6016471A (en) Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6363342B2 (en) System for developing word-pronunciation pairs
Littell et al. Indigenous language technologies in Canada: Assessment, challenges, and successes
Lee et al. Spoken language resources for Cantonese speech processing
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
Watts Unsupervised learning for text-to-speech synthesis
El-Imam Phonetization of Arabic: rules and algorithms
US7966173B2 (en) System and method for diacritization of text
Yoo et al. The performance evaluation of continuous speech recognition based on Korean phonological rules of cloud-based speech recognition open API
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
Thatphithakkul et al. LOTUS-BI: A Thai-English code-mixing speech corpus
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Chao-angthong et al. Northern Thai dialect text to speech
Precoda Non-mainstream languages and speech recognition: Some challenges
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
Phaiboon et al. Isarn Dharma Alphabets lexicon for natural language processing
Kato et al. Multilingualization of Speech Processing
Nkosi Creation of a pronunciation dictionary for automatic speech recognition: a morphological approach
Brinckmann The Kiel corpus of read speech as a resource for speech synthesis
Catanghal et al. Computer Discriminative Acoustic Tool for Reading Enhancement and Diagnostic: Development and Pilot Test
Al Shalaby et al. An arabic text to speech based on semi-syllable concatenation

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees