642296 7 A7 B7 五、發明説明(1 ) 經濟部智慧財產局w:工消費合作社印製 本發明之背景和概要 本發明一般係論及一種語音處理程序。詳言之,本發 明係論及-種利以產域特字之語音的线。本發明 可被採用在各種包括語音辨識、語音合成、和詞典編寫等 多種不同之上下文意中。 在語音處理之業界中,彼等伴隨發音之拼字係出現 在許多不同之上下文意中。在語音辨識中,其字典内每一 字詞有關之音標拼字,在使用前有必要被用來訓練其辨識 器。傳統之音標拼字,係由彼等熟悉相關特定語言之音標 拼字之絲毫差異的詞典編寫者親手建立。一字典要開發其 每一字有關之良好音標拼字,將會是十分費時,以及需要 大量之技術。若有一可靠之系統,可基於彼等之拼字來產 生彼等字詞之音標拼字,則該等人力和特殊技能,大部份 將可得以免除。該種系統可擴展彼等當前之辨識系統, 其可辨識現有字典内目前不能找到之地理位置和姓氏等 詞。 彼等拼字亦會經常發生在語音合成之業界中。今曰 語音合成器,係藉著自一字典取出數位取樣之聲音單元 以及將此等聲音單元鏈結形成語句子,而將本文轉換成語 音。 誠如以上諸例所展現,上述語音處理之語音辨識和 音合成,均可因其能自拼字產生精確發音之能力而得以一 利。然而,此一技術之需求則並非僅限於語音處理。詞典 編寫者今曰業已完成了許多主要世界語言相當大量及精碑 使 字 之 語獲 Ϊ^. —1T.^ (請先閲讀背面之注意事項再填寫本頁) t纸張尺度適用中國國家揉準(CNS ) Α4規格(210X297公釐) 4 7 · 經濟部智慧財產局貝工消費合作杜印製 A7 -—---!Z____ 五、發明説明(2 ) 之發音字典。然而,其中仍有數以百計之地方語言,缺乏 良好之音標拼字。由於其生產一良好音標拼字之任務,迄 今大部份仍屬人工做成,某些地方語言之轉譯,縱使有亦 可能須要歷經數年方得以完成。若能有一良好之電腦具現 技術,來評定轉譯之精確性,其轉譯程序將可得到大幅加 速。此種評定系統,可使用一現有之語言轉譯資料集,來 辨識其轉譯原射發音錢之字項。此將可大幅提昇一高 品質轉泽成品之產生速率β 迄今在拼字發音之轉譯工作中的大部份嘗試,係單仰 賴於彼等字母本身。此等技術離所希望者尚有_大段之距 離。舉例而言,一唯文字發音產生器,要正確地發出字詞 Bible之音,將會大有困難。僅基於字母之序列上述之 唯文字系統,將很可能會發出"Bib-Γ之音,很像一學習認 字之學齡兒童有可能發出之音。彼等傳统式系統中之難題 ,在於天生加諸在許多語言之發音規則上面之模糊性。以 英語為例,其具有數以百計之發音規則,使得其逐字處理 問題上自有其困難,以及在計算上所費不貲。 本發明係以一不同之角度來針對此一問題β本發明係 使用特別構成之混合決定樹,其涵蓋了文字序列和音素 序列之決定下達法則。詳言之,此種混合決定樹在其樹之 内部節點處,蘊含有一系列是-否之疑問。某些此等疑問 涉及一拼字序列内之文字和彼等相鄰文字;其他疑問則涉 及上述字序列中之音素和彼等相鄰音素;彼等内部節點最 '、將行至彼等之葉卽點處,其將包含一所給文字,在彼等 本紙張尺度適用中嶋(210χ297公釐) ϋ^— · I ^-- (請先聞讀背面之注意事項再填寫本頁) 訂 線 fe- 4 2 2 9 6 7 -: A7 B7 五、發明説明( 文字序列所界定之字詞的發音上,最有可能之正確發音有 關的概率。 本發明之發音產生器,係使用其混合決定樹來評定不 同之發音侯選者,而容許其能就一所給拼字選擇其最有可 能之侯選者,做為其最佳之發音。此最佳發音之產生,最 好係屬一兩階段之程序,其中之第一階段,係使用一唯文 字樹,來產生多數之發音侯選者。此等侯選者復在第二階 段中,使用上述之混合決定樹,來選擇其最佳之侯選者。 雖然其混合決定樹,係有利地使用在一兩階發音產生 器中’其混合樹在解決某些並不需要唯文字之第一階段處 理程序的問題中,係屬有用。舉例而言,其混合決定樹, 可用以s平疋語§學者使用人工技術所產生之發音。 為更完全瞭解本發明、其諸目地和優點,可參照下列 之說明和所附諸圖。. 圖示之簡要說明 第1圖係一可例示本發明之組件和步驟的方塊圖· 第2圖係一可例示一唯文字樹之樹狀圖; 第3圊係一可例示一依本發明所成之混合樹的樹狀圖
V 第4圖係一可例示一可用以產生上述依本發明所成之 混合樹的當前較佳系統的方塊围; 第5圖係一可例示一可用以經由—對齊程序而產生訓 練資料的流程圈; 第6圖係一可例示其決定樹在一範例性發音產生器中 本紙張尺度適用中國國家揉準(CNS ) A4規格(210X297公釐) (請先閲讀背面之注f項再填寫本I) .裝 線 經濟部智慧財產局員工消費合作社印製 42296 A7 B7 經濟部智慧財產局負工消費合作社印製 五、發明説明(4 ) 之用法的方塊圖; 第7圓係例示Gini準則在評估使用何者疑問聚居在一 節點中之應用例; 第8圏係一依本發明所製文字聲音之發音產生器的方 塊圖;而 第9圖則係一可例示一文字-語法-上下文意-方言之混 合決定樹的樹狀圖。 較佳實施例之詳細說明 為例示本發明之原理,第1圚之範例性實施例,係顯 示一拼字發音產生器。本發明之混合決定樹,誠如下文更 詳細之解釋’可用於除本說明書所例示之發音產生器外之 多種不同應用例中。此發音產生器被選來倣例示說明,係 由於其可強調出其混合決定樹結構之特徵和利益故也。 該發音產生器係採用兩個階段,其第一階段係採用一 組唯文字決定樹1 〇 ’以及其第二階段係採用一組混合決定 樹12。一類似文宇B-I-B-L-E序列之輪入序列14,係錄至 一動態程式規劃音素序列產生器16*該發音產生器,係使 用其唯文字決定樹10,來產生一表列發音18,其係表示上 述拼字輸入序列之可能發音侯選者。 該序列產生器,可依序檢查上述序列之每一文字,應 用該文字相關之決定樹’基於其唯文字樹内所含有之概率 資料,來選擇該文字所需之一音素發音。 上組唯文字決定樹,最好能包含每一字毋文字有關之 決定樹。第2圖係顯示文字E有關之唯文字決定樹的一個 本紙張尺度遴用中國國家揉準(CNS) Μ規格(2丨Οχ 297公复) ¾-------IT------^ (請先閲讀背面之注#^項再填寫本頁) 經濟部智慧財產局月工消费合作社印製 422967 , A7 _____B7 五、發明説明(5 ) 範例·此決定樹係包含多數之内部節點(圊中例示為橢圓 形)和多數之葉節點(圖中例示為矩形)。每一内部節點 聚居有一是-否之疑問。在上述之唯文字樹中,此等疑問 係針對所給之文字(此一情況中之E文字),和彼等在上 述輸入序列内之相鄰文字。注意在第2圖中,每一内部節 點係依據相關疑問為是或否,而向左或向右分支。 第2圖中所用之縮寫符號如下:疑問中之數字,諸如 "+1 或Γ,係指稱相對於當前文字之拼字位置。舉例而 言,”+1L==’R|?"意謂『當前文字(此一情況中之文字E) 後之文字是否為一 R』。彼等縮寫符號C〇NS和VOW,係表 不彼等文字之類別,亦即,子音和母音β 一相鄰文字之缺 乏,或零文字,係以符號表示,其係用做一可使某些 文字與彼等對應音素發音對齊之填充字或佔位文字。符號 係表示一字詞之邊界。 彼等之葉節點,係聚居有概率資料,彼等可使彼等可 能之音素發音,與彼等代表特定音素表示所給文字之正確 發音的概率的數值相聯結。舉例而言,記號,,iy=>〇 51,,意 謂r此葉節點内之音素,iy,的概率係〇 51』。其零音素,亦 即靜音,係以來表示。 其序列產生器16 (第1圊),因而係使用其唯文字決定 樹10,來構成其表列18内所儲存之一個或多個發音臆測。 每一發音最好能聯結一使用其決定樹1〇所選定各個音素之 概率點數所達成之數值點數。彼等之字詞發音,可藉建立 一可能組合之矩陣,以及接著使用動態程式規劃,而選擇 本纸張从適用中國國家揉準(CNS) A4^ (2i〇>7^i7 — — I— I裝—— I 訂 I 線 (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局W工消費合作社印製 2296 7 ί Α7 ____Β7 i、發明説明(6 ) 其η個最佳侯選者,來加以計點。或者,彼等最佳侯 選者,可使用一可先辨識其最有可能之字詞侯選者,以及 接著經由反覆取代,而產生額外之侯選者的取代技術,來 加以選擇。 藉著乘以其最馬計點之音素(檢查彼等之葉節點辨得 )的對應點數’首先選出其具有最高概率點數之發音,以 及接著使用此一選出者,做為其最有可能之侯選者,或第 一最佳字詞侯選者。藉著再次檢查彼等之葉節點内之音素 資料’以辨識其先前未被選出,而與一最初選出之音素差 異最小之音素’而接著選出彼等之額外(η個最佳之)侯 選者。此一最小差異之音素*接著取代上述之最初選出者 ,藉以產生其第二最佳字詞侯選者。上述之程序可反覆重 複’直至所需數目之η個最佳侯選者被選出為止。其表列18 可依漸小點數之順序來排序,以便其唯文字分析程序可判 斷出之最佳發音,將會在該表列内首先出現。 誠如上文可注意到的,一唯文字分析程序,經常會產 生不良之結果。此係由於上述之唯文字分析程序,在各文 字處’無法決定因彼等後繼之文字將會產生之音素故也。 因此,一唯文字分析程序,將會產生一自然語言中實際上 不會發生之音素。舉例而言,一普通之名字Achilies,很 有可能產生一標出11之音的發音:ah-k-ih-ll_iy-z。在自然 語言中’其第二個1實際上是.不發音的:ah-k-ih-My-z。上 述使用唯文字樹之序列產生器,並不具有可篩選掉自然語 言中決不會發生之字詞發音的機構》 本紙張尺度適用中國國家標準(CNS ) Α4規格(210X297公釐) I^1τI ^ (請先Η讀背面之注$項再填寫本頁) 9 經 智 慧 財 產 局 η 工 消 費 合 作 社 Α7 Β7 a^2967t 五、發明説明(7 ) 上述發音系統之第二階段,係針對上述之問題。一混 合樹點數預估器20,係使用上組混合決定樹12,來評估表 列18内之每一發音的生命力。上述之點數預估器在工作上 ,係依序檢查上述輸入序列之每一文字,外加其序列產生 器16指定給每一文字之音素。 如同上組之唯文字樹,上組混合樹係具有每—文字字 母有關之混合樹。第3圓顯示一範例性混合樹。如同上述 之唯文字樹,此混合樹具有一些内部節點和葉節點。在第 3圖中,彼等之内部節點係例示成橢圓形,以及彼等葉節 點係例示成矩形。彼等内部節點各係聚居有一是否之疑 問,以及彼等葉節點各係聚居有一些概率資料。雖然此混 合樹之樹結構,係與上述唯文字樹者相類似,其中有一重 要之差異。此混合樹之内部節點,可包含兩不同類別之疑 問。一内部節點可包含一所給文字和其序列中相鄰文字有 關之疑'問,或者,其可包含該文字相關聯之音素,和彼等 與其序列相對應之相鄰音素。其決定樹因而係混合成的, 其將包含混合類別之疑問。 第3囷中所用之縮寫符號,係與第2圖中所用者相類似 °其符號L係表示一文字和其相鄰文字有關之疑問β其符 號Ρ係表示一音素和其相鄰音素有關之疑問。舉例而言, 其疑問"+ α==’Ε>_?"意謂『在+1位置處之文字是否為一,D,? 』。彼等縮寫符號CONS和SYL·,係彼等音素之類別’亦即 ’子音和音節。舉例而言,"+1P==C0NS?"意謂r在+ 1位 置處之音素是否為一子音?』。彼等葉節點中之數字,係如 本紙張遑用中國國家樣车(CNS )八视^ (训X撕公羡 ^------?τ-------^ (請先閎讀背面之注意事項再填寫本頁) Α7 Β7 ^422967 五、發明説明(8 ) 同彼等在唯文字樹中一樣,表示彼等音素之概率。 上述之混合樹點數預估器,可基於彼等混合樹之疑問 ,以及使用彼等混合樹之葉節點中的概率資料,重新計點 其表列18内之每一發音。若有需要,彼等表列之發音,可 如同表列22—樣’聯結其對應之點數一起被儲存β若有需 要’該表列22可依漸小點數之順序來排序,以便其第一之 表列發音,係其具有最高之點數者。 在許多案例中’其在表列22中含有最高點數位置之發 音’將會不同於其在表列18中含有最高點數位置之發音^ 其發生係由於上述之混合樹點數預枯器,使用其混合樹12 ,篩選掉該等未含有自相一致之音素序列的發音,或者彼 等代表自然語言中決不會發生之發音故也。 若有需要’ 一選擇器模組24,可自由使用其表列22, 以便自該表列’取出一個或多個發音《通常,該選擇器24 係取出其具有最高點數之發音,以及將其提供做為輸出發 音26。 誠如前文所應注意的,第1圖中所描緣之發音產生器 ,僅代表採用本發明之混合樹的一種可能實施例<·以另一 種實施例而言,其動態程式規劃音素序列產生器16,和其 相關聯之唯文字決定樹10,在彼等一所給拼字序列早已有 一個或多個現成之發音可用的應用例中,將可加以免除, 此種情況係發生在現有一先前開發出之發音字典時。在此 種情況下,其混合樹點數預估器20,和其混合決定樹12, 可用來評定上述發音字典内之字項,辨識彼等具有低點數 本紙張尺度適用中國國家標準(CNS ) Α4规格(210X297公釐) (請先閱讀背面之注$項再填寫本頁) J's 經濟部智慧財產局員工消費合作社印製 ί4^2967 Α7 --—______Β7_ 五、發9 ) ' ~~ - 者,藉以對所建字典内有疑問之發音加上旗標。此一系統 舉例而言,可合併進一詞典編寫者之製造工具内β 上述之輸出發音或彼等選自表列22之發音,可用以形 成語音辨識和語音合成兩者應用例有關之發音字典。在語 音辨識之上下文意中,在其辨識器訓練片語期間,可使用 上述之發音字典,來提供其辨識器字彙中未曾找到之字詞 有關之發音。在語音合成之上下文意中,該等發音字典可 用來產生彼等鏈結播放所需之音素聲音·此系統舉例而言 ,可用來增強一 E-mai丨讀取器或其他本文轉換語音應用例 之特徵。 本發明之混合樹評定系統,可用於希望單一或表列之 "T食b發音的多種應用例中。舉例而言,在一動態線上字典 中,其使用者可鍵入一字詞,以及該系統可提供一表列按 概率順序排列之可能發音。該評定系統,亦可用做彼等語 言學習系統所需之一使用者回授工具。一具有語音辨識能 力之3吾言學習系統’係用來顯示—拼字,以及用來分析一 說話者在發上述新語言中之該字詞的音時的企圖,以及該 系統將會告訴該使用者,其對該字詞之發音係有多大之可 能性或多大之不可能性。 篮等決定榭之產碌 第4圖顯示上述可產生唯文字樹和混合樹之系統。在 此決定樹產生系統之中央,係樹產生器40。此樹產生器係 採用一樹成長演算法,其可在該系統開發者所提供預定组 之訓練資料42上面運作。通常,該訓練資料係包含對齊之 本紙張尺度適用中國國家揉率(CNS ) A4規格(210X297公釐) f-- (請先聞讀背面之注意事項再填寫本頁) 訂_ 線 經濟部智慧財產局負工消費合作社印製 12 五、發明説明(10) •裝· 文字、音素對,彼等係對應於字詞已知之適當發音β該訓 練資料可經由第5圖中所例示之對齊程序來產生β第5圖例 示一正在一範例性字詞BIBLE上面執行之對齊程序。其拼 字44和其發音46,係饋至一動態程式規劃對齊模組48,其 可使該拼字之文字與其對應發音之音素對齊。理應注意的 是,在所例示之範例中,其最後之E係不發音。該等文字 音素對,接著便會儲存做為資料42。 回顧第4圖’該樹產生器在工作上係配合三個額外之 組件:一組可能之是-否疑問50 ' —組可就每一文字選擇 最佳疑問或可決定該節點是-否應為一葉節點之規則52、 和一可防止訓練過度之刪除法53。
•1T 該組可能之是-否疑問’依據正在成長的,係—唯文 字樹,或一混合樹而定,可包含彼等文字疑問54和音素疑 問56。當成長一唯文字樹時,將僅有文字疑問54被使用; 當成長一混合樹時’彼等文字疑問54和音素疑問56,將同 被使用。 經濟部智慧財產局員工消費合作社印製 在此一當前較佳實施例中,彼等選擇其聚居在每一節 點處之最佳疑問’在設計上係遵從上述之Gini準則^其他 之分割準則可代而用之。進一步有關分割準則之資訊,可 參考 Breiman,Friedman et al,之”ClassificaU〇n and
Regression Trees”。基本上,上述之⑴以準則,係用來自 上組可能之是-否疑問50選擇一疑問,以及採用一決定何 時一節點係一葉節點之停止規則β上述之Gini準則,係採 用一稱做『雜度』之觀念。此一雜度永遠係一非負數之數 本紙張尺度適用令國國家樣準(CNS ) A4规格(210X297公董) 13 經濟部智慧財產局貝工消費合作社印製 14^2967 A7 .________B7_ 五、發明説明(11) 目子。其應用在一節點上,係使一包括等比例之所有可能 範_之節點’係具有最大之雜度,而一僅包括彼等可能範 嘴中之一範疇的節點,係具有零值之雜度(最小之可能值 )°在此有數種函數可滿足上述之條件。彼等係依一節點 内每一範疇之計數而定。上述之Gini準則,可界定如下。 若C係資料項目可隸屬之類別組,以及τ係當前之樹節點 ’令f( 1丨T)為在τ節點中隸屬類別1之訓練資料項目,f(2|T) 為在T節點中隸屬類別2之訓練資料項目,等等,則 Σ/〇'/7,)/(^/^=ιΣ[/〇7:〇]2 j 藉範例來例示說明,假定該系統係就_·Ε"成長一樹β 在該樹之一所給之節點τ中,該系統舉例而言,可能具有 "Ε"在該字詞中如何發音之1〇個範例。舉例而言,在此等 範例之5中’ ’Έ1,係發,Ύ (,,cheeZe”中之”ee,,音)之音;在 此等範例之3中,”E"係發"eh" ("bed"中之"e”音)之音; 以及^^等範例之中’ "E,1係發(如同"maple"中_,e"之 不發音)<* 假定該系統正在考慮兩個可應用在上述1〇個範例中之 可能的是-否疑問,(^和匕。彼等對回答f是』之項目 ,將包含四個”iy”之範例,和一個"_,,之範例(其他五個項 目對回答『否』)。彼等對I回答F是』之項目,將包 含二個’ iy”之範例’和三個’Ieh"之範例(其他四個項目對 Q!回答Γ否』)。第6圖係以示意圖比較此兩種情況。 上述之Gini準則’可回答該系統應就此一節點選擇何 者疑問’ Q!或Q2。上述用以選擇正確疑問之Gini準則是: 本紙張Α/t適用中國國家棣準(CNS )八4胁(210x297公釐) --- ----------¢------1T------0 (請先閲讀背面之注意事項再填寫本頁) 鏖Α7 Β7 經濟部智慧財產局員工消«-合作社印製 五、發明説明(I2) 找出自父節點行至子節點其雜度下降最大之疑問。此一雜 度下降」T 係界定為」1 = i(T)- Pyes * i(yes) - Pn。* i(no), 此處’ Pyes係彼等行至『是』子節點之項目的比例值,以 &Pn。係彼等行至r否』子節點之項目的比例值。 應用Gini準則至上述之範例: ί·(Γ) = 1 -Y^fU/Γ)]2 = 1 -〇.52 -0.32 -0.22 = ο.62 就仏而言,dl因而成為: KT)- (a) = 1 - 0.82 - 0.22 = 0.32 1(^-^,(0,) = 1-0^-0.62 =0.56 故」1(Q,) = 0.62-0.5*0.32-0.5*0.56 = 0.18。 就Q2而言’吾等可得」l(yes, Q2)= 1-〇.52-〇.52 = 〇.5, 以及i(no, Q2)=(同式)=0.5。故」1(Q2) = 0.62-(0.6)*(0.5)-(0.4)*(0.5) = 0.12。 在此一情況下,Q!在雜度上將會產生最大之下降。 所以,其將會被選擇而非Q2。 上述之規則組52將可就一節點,聲明其自父節點行至 子節點而招致雜度下降最大之疑問,為一最佳之疑問。 上述之樹產生器,可應用彼等之規則52,以成長一選 自上組50之是-否疑問的決定樹。該產生器將會使該樹繼 讀成長,直至其最佳尺寸之樹已成長為止》彼等之規則52 包含一組停止規則,彼等可在該樹已成長至一預定尺寸時 ’使該樹停止成長。在此一較佳之實施例中,該樹可成長 至一大於最終所希望之尺寸。接著,彼等修剪法53,可用 ----------^------1Τ------il (請先閲讀背面之注意事項再填寫本頁> 15 經濟部智慧財產局貝工消費合作社印製 7 Α7 —--Β7_____ 五、發明説明(U) 以將該樹修剪回其所希望之尺寸。上述之修剪法,可具現 上述所引用之參考文獻中所描述之Breiman技術, 上述之樹產生器’因而可依據上组可能之是,否疑問5〇 ,係單獨包含唯文字疑問,亦或包含結合音素疑問之唯文 字疑問,來產生60處一般所示之數組嗓文字樹,或處一 般所示之混合樹。其訓練資料42之資料集,係如上文所述 ,包含有文字、音素對。在一唯文字樹之成長中,僅有彼 等成對之文字部分,被用來聚居彼等之内部節點β反之, 當成長彼等之混合樹時,彼等訓練資料對之文字和音素兩 成分,均可能被用來聚居彼等之内部節點。在兩者情況中 ,彼等成對之音素部分,係被用來聚居彼等之葉節點。彼 等與葉節點内之音素資料相關聯之概率資料,係藉計數在 整個訓練資料之資料集中,一所給音素與一所給文字發生 對齊之次數,來加以產生。 上述方法所產生之文字發音決定樹,可儲存在記憶體 内,以供各種不同語音處理應用例使用β雖然此等應用例 為數眾多及多樣化’下文將出示數例,以凸顯此等樹之某 些能力和優點。 第6圖係例示彼等唯文字樹和混合樹,兩者均被用來 自拼字文字序列產生出彼等之發音。雖然所例示之實施例 ,係對唯文字樹和混合樹兩者一起加以採用,其他之應用 例則可能僅使用到一成分,而用不到另一成分。在所例示 之實施例中,其唯文字樹組係儲存在8〇處之記憶體内,以 及其混合樹係儲存在82處之記憶體内。在許多應用例中, 本紙張尺度適用中國圉家揉率{ CNS ) A4規格(210X297公瘦) ----------^.------tr------^ (請先閲讀背面之注意事項再填寫本頁) 16 A7 B7 42296 7 五、發明説明(14) 其每一字母文字將會有一樹。其動態程式規劃序列產生器 84,可對輸入序列86運作,以基於其唯文字樹80’而產生 一 88處之發音。基本上,上述輸入序列内之每一文字,係 各別做考慮,以及上述之唯文字樹,係用來選擇該文字最 有可能之發音。誠如前文所述,其唯文字樹將會就上述序 列内之所給文字和其相鄰文字,尋問一系列之是-否疑問 。在該序列内之所有文字均考慮過後,其最後之發音將可 藉鏈結上述序列產生器所選定之音素而產生出。 欲改進其發音,可使用上述之混合樹組82。其唯文字 樹雖僅能尋問有關文字之疑問,其混合樹則可尋問有關文 字及有關音素之疑問。其計點器90可自其序列產生器84之 輸出,接收到音素資訊。就此點而言,其序列產生器84, 使用其唯文字樹80,可產生多數之不同發音,而基於彼等 各自之概率點數’來排序該等發音。此一排序過之發音表 列,可儲存在92處,以供其計點器9〇自由使用。 其計點器90可接收上述同時供應至序列產生器84之輸 入序列86 ’而做為其輸入β其評定器90可將彼等混合樹82 之疑問,應用至上述之文字序列,而在被尋及嚮應一音素 疑問時,使用上述來自儲存器92之資料。其94處之最後輸 出,通常,係一較88處所供應者為佳之發音。其理由在於 彼等之混合樹易於筛選掉自然語言中不會發生之發音》舉 例而。上述之普通名字,Achilles,將很有可能產生一 標出11之曰的發音·· ah-k_ih-u-iy-z。在自然語言中,其第 二個丨實際上是不發音的:ah-k-ih-1-iy-z。 一本紙峨適用中國國 -----------餐------,π------^ (請先閲讀背面之注$項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 17 銨濟部智慈財產局員工消贫合作社印製 4 2 2 9 6 7、 A7 _____B7______ 五 '發明説明(I5) 若有需要,其點數產生器90,亦可製造一如同在96處 之一排序過之η個可能發音的表列。彼等與各發音相關聯 之點數’係代表該發音内指定給每一音素之個別概率點數 的合成值。此等點數本身,可被用在有疑問之發音需要被 辨識的應用例中。舉例而言,一詞典編寫團隊所提供之音 標拼字,可使用該等混合樹迅速辨識任何有疑問之發音, 來加以檢核》 文字-聲_音發音轰生器 為例示本發明之原理,第8圓之範例性實施例,顯示 有一兩階段拼字文字-發音產生器β誠如下文更詳細之解 釋*本發明之混合決定樹的處理方法,可用於除本說明書 所例示之發音產生器外之多種不同之應用例中。此一兩階 段發音產生器被選來做例示說明,係由於其可強調出其混 合決定樹結構之特徵和利益故也。 上述之兩階段發音產生器包含:一第一階段1 1 6,其 最好係採用一組文字-語法-上下文意_方言之決定樹no ; 和一第二階段120,其係採用一組可在一音素水平下檢查 其輸入序列114之音素混合決定樹丨丨2 ^彼等文字-語法-上 下文意_方言之決定樹,可檢查一拼字序列中彼等涉及文 字和彼等相鄰文字之疑問(亦即,文字相關之疑問);其 他受到檢查之疑問有,一特定字詞前接或後接者為何字詞 (亦即’上下文意相關之疑問);再一其他受到檢查之疑 問有,該字詞在一句子内為語言之何一部分,加上其他字 在該句子内具有何種語法(亦即,語法相關之疑問); 本紙浪纽刺tSU家縣(CNS ) ( 2丨0X297公釐 - ---:------^.------tr----- {請先聞讀背面之注意事項再填寫本萸) 18 ® 4 2 2 9 6 7 - A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(16) 再一其他受到檢查之疑問有,其所希望說出為何種方言。 一使用者最好藉方言選擇裝置150,來選擇所要說出為何 種方言。 本發明之另一實施例包含:使用彼等文字相關之疑問 ,和至少一字詞水平特性(亦即,語法相關之疑問,或上 下文意相關之疑問)。舉例而言,一實施例在其第一階段 係利用一組文字-語法決定樹。另一實施例係利用一組不 檢查其輸入序列之語法的文字-上下文意-方言決定樹。 理應瞭解的是’本發明並非僅限於彼等發生在一句子 中之字詞’而係包括其他呈現語法之語言結構,諸如片段 之句子或片語等。 一輸入序列Π 4 ’諸如一句子之文字序列,係餚送至 其基於本文之發音產生器116。舉例而言,該輸入序列114 ’可能會是下列之句子:_'Did you know who read the autobiography ?" 0 一語法資料115’係其基於本文之發音產生器u 6之輸 入。此一輸入可提供其基於本文之發音產生器116有關之 資訊,藉以正確地循經其文字-語法-上下文意-方言之決 定樹110 。該語法資料115,可宣告其輸入序列114中之每 一字詞,具有語音之何一部分。舉例而言,上述輸入序列 範例中之字詞"read",將會被其語法標記器軟體模組129 ’標記為一動詞(而非一名詞或一形容詞)。上述之語法 標記器軟體技術,可得自”Xtag"計劃下類似賓州大學等之 機構》此外’以下之參考資料亦討論到語法標記器軟體技 I mu n n I —i 訂I I —' I I 線 (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家梯準(CNS ) A4規格(2丨0X297公釐) 19 經濟部智慧財產局員工消骨合作社印製 422967 A7 B7 五、發明説明(π) 術:1991年11月11日加拿大蒙特利爾McGill大學所出版 George Foster 電腦科學之碩 士論文"statistical Lexical
Disambiguation" ° 其基於本文之發音產生器116,係使用上述之決定樹 Π〇 ’來產生一表列發音118,其係代表上述拼字輸入序列 之可能發音侯選者。該表列118之每一發音(例如,發音 A)’係表示上述最好能包含每一字詞如何標出重音之輸 入序列114的發音《此外,此一實施例可決定出每一字詞 說出之速率。 其句子速率計算器軟體模組152,係被其基於本文之 發音產生器Π6,用來決定每一字詞應說出多快。舉例而 言’其句子速率計算器152,可檢査句子之上下文意,以 決定該句子中之某些字詞,應以較正常者說出的較快些或 較慢些。舉例而言,一在尾部具有一感嘆符號之句子,其 將會提出該句子結尾前一預定數目之字詞,當較正常者具 有較短之期間的速率資料,以便表達出一感嘆陳述之影嚮 力。 其基於本文之發音產生器116,可依次檢查上述序列 之每一文字和字詞,應用其與該文字或字詞之語法(或字 詞之上下文意)相關聯之決定樹,基於該混合樹内所包含 之概率資料,來選擇該文字有關之—音素發音,該組決定 樹110’最好包含所涉及語言之字母和語法内之每—文字 有關的決定樹。 第9囷顯示一可應用至上述字詞"READ "令之文字"E,t 本紙張収適用中國( CNS ) ( 210X297^4 )
----I-------Μ------訂-------^ (请先閲讀背面之注意^項再填寫本頁J 20 經濟部智慧財產局負工消費合作社印製 ^ 42296 7 Λ7 Α7 Β7 五、發明説明(18) 的範例性文字-語法-上下文意-方言之決定樹14〇 4此混合 樹包含多數之内部節點(圖中以橢囷形例示)和多數之葉 節點(圖中以矩形例示各内部節點聚居有一是否之疑 問。此等是-否之疑問,係一些可回答是或否之疑問。在 該文字-語法-上下文意-方言之決定樹中,此等疑問係 針對··上述輸入序列中之一所給文字(例如,此一情況下 中之文字"E")和其相鄰之文字;或該句子中字詞之語法 (例如’名詞、動詞、等等);或該句子之方言。在第9圖 中理應注意的是,各内部節點依據對其相關聯疑問之回答 係是亦否而定’將會向左或向右分支。 其第一内部f卩點最好訊問要說出之方言。其内部節點 13 8係此種訊問之代表。若要說出的是南部方言,則其將 循經一南部方言混合樹139,其最終在彼等葉節點處,將 會呈現一更具南部方言之特色的音素值3 第9圖中所用之縮寫符號如下:疑問中之數字,諸如 "+1”或”-1",係指稱相對於當前文字之拼字位置a符號L 係表示一文字和其相鄰文字有關之疑問β舉例而言,"d =='R’ or _L’?”意謂『當前文字(其為Έ,)前之文字係,1_亦 或R』。彼等縮寫符號CONS和VOW’係表示彼等文字之 類別,亦即,子音和母音。符號"#"係表示一字詞之邊界 。術語'tag(i)’係表示—有關其第丨個字詞之語法標記的疑 問’其中,i=〇係表示當前之字詞,丨=_〗係表示其前接之 字詞’ i=+l係表示其後接之字詞,等等β因此,"tag(〇)== PRES?”係表示『當前之字詞是否為一現在式動詞?』。 本紙張纽適用中國國家揉準(CNS )八4胁(210X297公釐) ' *- ----[I.I.^---裝------訂------線 (請先閩讀背面之注f項再填寫本莧) 42296 7 ^ a? ---- B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(l9) 彼等葉節點聚居肴一些可使彼等可能之音素發音,與 彼等表不該特定音素代表所給文字之正確發音之概率的數 子值相結合。其零音素,亦即不發音’係以符號表示 〇 舉例而言’現在式動詞"READ"和”LEAD”中之,Έ”, 被其決定樹140在葉節點142處’指定其具有概率1.〇之正 確發音”丨广,過去式動詞"READ"中之,Έ",則會在葉節點 144處’被指定具有概率〇 9之發音"eh"。 其決定樹110 (第8圊者),最好包含上下文意相關之 疑問。舉例而言,彼等内部節點之上下文意相關疑問,可 檢查字詞_’y0ll"是-否前接字詞"did"。在此種上下文意中 "you"中之"y",在俗語中通常係發成"ja"之音。 本發明亦可產生詩體性質之資料,藉以表達說出一句 子時之重音、揚音、抑音、或停頓等特徵β此等語法相關 之疑問’將有助於決定該音素如何表達出重音、或揚音或 抑音。舉例而言’其内部節點141 (第9圖者),將會訊問 該句中之第一字是否為一疑問代名詞,諸如範例性句子 "Who read a book?"中之”who"。由於在此一範例中,此一 範例中之第一字為一疑問代名詞,故選擇其具有音素重音 之葉郎點144。其葉節點146係例示其他不加重音之音素的 選擇項。 就另一範例而言,在一疑問句中,其最後一字之最後 一音節的音素,該具有一揚音符號,以便更能表達出該句 之疑問特徵》再一範例可使本發明包括能在說出一句子時 ----;------^------1T------.^ (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標率(CNS ) A4规格(2丨0X291公釐) 4^296 7 ^ 經濟部智慧財產局貝工消費合作社印製 A7 B7五、發明説明(20) 能容有一自然停頓。本發明係藉尋求有關標點符號,諸如 逗點和句點之疑問’而納入此種停頻之細節。 其基於本文之發音產生器116 (第8圖),因而可使用 決定樹110’來建立一個或多個發音之假設,而將其儲存 進其表列118中。每一發音最好能與一藉著結合該等使用 決定樹110所選擇之各個音素的概率點數所達成之數字點 數相關聯。彼等字詞發音可藉建立一可能結合之矩陣,再 使用動態程式規劃,選出η個最佳侯選者,而加以計點。 或者,彼等η個最佳侯選者在選擇上,可使用一取代 技術’其將會在下列之方式中’首先辨識出最有可能之字 詞侯選者’以及接著經由反覆取代而產生額外之侯選者。 藉著乘以其最高計點之音素(檢查彼等之葉節點辨識 出的)的對應點數,首先選出其具有最高概率點數之發音 ,以及接著使用此一選出者,做為其最有可能之侯選者, 或第一最佳字詞侯選者。藉著再次檢查彼等之葉節點内之 音素資料,以辨識其先前未被選出而與一最初選出之音素 差異最小之音素,而接著選出彼等之額外(η個最佳之) 侯選者。此一最小差異之音素,接著取代上述之最初選出 者,藉以產生其第二最佳字詞侯選者.上述之程序可反覆 重複,直至所需數目之η個最佳侯選者被選出為止。其表 歹1Π18可依漸小點數之順序來排序’以便其唯文字分析程 序可判斷出之最佳發音,將會在該表列内首先出現。 其決定樹110,經常僅能製造出中適成功之結果。此 係由於此等混合樹無法在每一文字處,決定出彼等後繼之 本纸張级通用中關家橾率{CNS) Α· (2獻297公6 --------:---^------1Τ------^ (請先聞讀背面之注意事項再嗔寫本頁) 23 經濟部智慧財產局員工消費合作社印製 4 2 2 9 6 7 ' at ______B7 五、發明説明(21 ) 文字將會產生何種音素故也。因此,其決定樹11〇,有可 月b產生一南計點之發音’其實際上卻不會發生在自然語言 中。舉例而言’上述之普通名字Achilles,很有可能產生 一標出11之音:ah-k-ih-Ι丨-iy-z ♦在自然語言中,其第二個1 實際上是不發音的:ah-k-ih-l-iy-z »上述使用決定樹11〇 之發音產生器’並不具有可篩選掉自然語言中決不會發生 之字詞發音的機構。 上述發音系統108之第二階段120,係針對上述之問題 。一音素現合樹點數預估器120*係使用上組音素混合決 定樹112,來評估表列118内之每一發音的生命力。上述之 點數預估器120在工作上,係依序檢查上述輸入序列114之 每一文字,外加其基於本文之發音產生器U6指定給每一 文字之音素。 上述之音素混合樹點數預估器120,可基於彼等音素 昆合樹之疑問Π 2 ’以及使用彼等混合樹之葉節點中的概 率資料’重新評定其表列118内之每一發音。若有需要, 彼等表列之發音,可如同表列122 —樣,聯結其對應之點 數一起做儲存。若有需要’該表列122可依漸小點數之順 序來排序,以便其第一之表列發音,係其具有最高點數者 〇 在許多案例中’其在表列122中含有最高點數位置之 發音’將會不同於其在表列118中含有最高點數位置之發 音。其之發生係由於上述之音素混合樹點數預估器120, 使用其音素混合樹112,篩選掉該等未含有自相一致之音 (请先聞讀背面之注意事項再填寫本頁) .装· ,11 本紙張尺度遑用中囷國家樣準(CNS ) A4规格(210X297公着) 142296 7 A7 _____ B7 經濟部智慧財產局員工消費合作社印製 五、發明説明(22) 素序列的發音’或者彼等代表自然語言中決不會發生之發 音故也。 在此一較佳實施例中,其音素混合樹點數預估器120 ,係依序使用其句子速率計算器152,來決定其表列122中 之發音有關的資料。此外,該預估器12〇,係在類似於上 述處理方法之方式下’來利用彼等可容有要檢查方言有關 之疑問’和彼等亦可在葉節點處容有用以決定重音與其他 詩體特徵之疑問的音素混合樹。 若有需要,一選擇器模組124可自由使用其表列122, 以便自該表列取出一個或多個發音。通常,該選擇器124 係取出其具有最高點數之發音,以及將其提供做為輸出發 音 126。 誠如前文所應注意的,第8圊中所描繪之發音產生器 ’僅代表採用本發明之混合樹處理方法的一種可能實施例 。在另一種實施例中’上述之輸出發音或彼等選自表列22 之發音’可用以形成語音辨識和語音合成兩者應用例有關 之發音字典。在語音辨識之上下文意中,在其辨識器訓練 片語期間’可使用上述之發音字典,來提供其辨識器字彙 中未曾找到之字詞有關之發音。在語音合成之上下文意中 ’該等發音字典可用來產生彼等鏈結播放所需之音素聲音 。此系統舉例而言’可用來增強一E_mail讀取器或其他本 文轉換語音應用例之特徵。 本發明之混合樹評定系統(亦即,文字、語法、上下 文意' 和音素),可用於希望單一或表列之可能發音的多 本紙張又度通用中囷國家橾準(CNS ) A4規格(21〇χ297公釐) 25 (請先閲讀背面之注意事項再填寫本頁) 裝 訂 -線 ^296 7'^ 42296 A7 B7 五、發明説明(23) 種應用例中。舉例而言,在__動態線上語言學習系統中, -使用者可鍵入—句子,以及該系統可提供一表列有關該 句子按概率順序排列之可能發音。該評定线,亦可用做 彼等語言學習系統所需之一使用者回授工具。一具有語音 辨識能力之語言學習系统,係用來顯示一拼字,以及用來 匀析說話者在發出上述新語言中該句子之音時的企囷。該 系統將會指不上述之使用者,其對該句子之發音係有多大 之可能或多大之不可能。 雖然本發明業已在其當前之較佳形式中做了說明,理 應瞭解的是’其混合樹發音系統係有數目眾多之應用例。 因此’本發明在不違離本發明之精神下,依據其所附之申 請專利範圍,將可有某些之修飾體和變更形式。 (請先聞讀背面之注意事項再填寫本頁} 裝.
-1T 經濟部智慧財產局貝工消贫合作社印* 本紙張尺度逋用中國國家標準(CNS ) A4规格(2丨0X297公釐) 26 42296 7 A7 B7 五、發明説明(24 ) 元件編號對照 經濟部智慧財產局8工消費合作社印製 10…唯文字決定樹 92…儲存器 12…混合決定樹 84…動態程式規劃序列產生器 14…輸入序列 86…輸入序列 16…動態程式規劃音素序列 88…發音 產生器 90…計點器 18,22…表列發音 110,140…文字-語法-上下文意- 20…混合樹點數預估器 方言之決定樹 24…選擇器模組 112…音素混合決定樹 26…輸出發音 114…輸入序列 40…樹產生器 115…語法資料 42…訓練資料 116…基於本文之發音產生器 44…拼字 118…表列發音 46…發音 120…音素混合樹點數預估器 48…動態程式規劃校準模組 122…表列發音 50…可能之是-否疑問 124…選擇器模組 52…規則 126…輸出發音 53…修剪法 129…語法標記器軟體模組 54…文字疑問 138,141…内部節點 56…音素疑問 139…南部方言混合樹 60,80…唯文字樹 142,M4,146…葉節點 70,82…混合樹 150…方言選擇裝置 80,82…記憶體 152…句子速率計算器軟體模組 ----.------^------1T------^ (請先閲讀背面之注意事項再填寫本頁) 本紙張尺度適用中國國家標準(CNS ) Λ4規格(210X297公釐) 27