TWI233589B

TWI233589B - Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously

Info

Publication number: TWI233589B
Application number: TW093105860A
Authority: TW
Inventors: Yi-Chung Lin; Peng-Hsiang Hung; Ren-Jr Wang
Original assignee: Ind Tech Res Inst
Priority date: 2004-03-05
Filing date: 2004-03-05
Publication date: 2005-06-01
Also published as: TW200531005A; US20050197838A1

Description

1233589 玖、發明說明：【發明所屬之技術領域】本發明係關於一種文字轉音標的方法，尤指一種針對易標錯音素之形素進行重新評分以提高準確率之文字轉 5 音標的方法。【先前技術】文字轉音標是將輸入的文字轉換為音標輸出，其通常被應用於語音合成（speech synthesis)與語音辨識㈣ 10 recognition)相關的系統中。基本上，獲取發音最佳的方法便疋查珣子典。然而字典並無法包括所有的字與發音，因此當語音系統遇到字典查不到的生字時，便需要文字轉音標的技術來產生該字的發音。在語音合成之應用上面，此技術提供了生字的發音’避免系、統因為缺乏發音，造成語音輸出的困 15 難。而在語音辨識之應用上面，為提高辨識的正確性，經常增加新字來擴充訓練語料庫，利用文字轉音標就能處理那些缺乏發音輯字，減少擴充語料庫的困難度。由此可知，語音是人機介面很重要的-介，而文字轉音標在語音的: 成與辨識方面都扮演了重要的角&，對語音相關的系統而言，要有最佳的表現，優秀的文字轉音標技術絕對是不可或缺的一環。傳統上’文字轉音標是以人工訂定規則為基礎㈣一)，但是此種方法需要由語言專家撰寫大量的規則。然而規則再多’還是會有無法處理的情況發生，何況加 20 1233589 入更多的新規則，也無法確保不會與既有規則相牴觸。規則數量越多，修改與維護規則所花費的成本也越高，另外這些規則也會因語言的不同而有所差異，若要將應用領域擴展為其他語言，就需花費大量的時間與人力成本重新制定規則， 5 因此以規則為基礎的字轉音系統缺乏再利用性（reusability) 與可攜性（portability)，也較難提昇效能。由於上述的缺點，越來越多字轉音系統採用資料導向 (data-driven)的方法，包括類推發音（pronunciation by analogy，PbA)、類神經網路（neural-network)、決策樹（decision 10 tree)、結合式（Joint)的N-gram模型以及自動學習規則 (automatic rule learning)等。這些方法都需要訓練的語料，通常是一部含有文字與對應音標的字典。資料導向的優點在於無需太多人力及專業知識的介入，而且應用的語言不受到侷限。因此在系統建立、未來維護及再利用等方面，都較以 15 規則為基礎的方法更為優異。在這些方法當中，PbA以及 Joint N-gram模型是較為普遍的兩種方法。

PbA是把輸入的文字分解為不同長度的形素 (grapheme)，1與字典中的文字比對之後，找出各形素最具代表性的音素，將形素與音素建立為圖網（graph)，圖網中最佳 20 的路徑（path)即代表該文字的發音。而Joint N-gram模型則需先將文字與音標分解成為形素-音素配對 (grapheme-phoneme pair)後，利用這些配對建立機率模型，之後輸入的文字也被分解為形素-音素配對，根據先前建立的機率模型，找出最佳的音素序列。目前Joint N-gram模型 1233589 然運^率，然而其運算過程卻相當耗時。而PbA雖 Γ X ^ f N-gram :有予:=， 5 10 【發明内容】

進行主要目的在提供—種針對易標錯音素之形i t重新科以提高準確率之文字轉音標的方法，其可4 樑：果運异時間内，得到優於先前技術之文字轉; 為達成前述之目的，本發明之針對易標錯之形勺、進行重新評分以提高準確率之文字轉音標的方法主要 I括一形素_音素配對序列產生步驟及一重新評分 15 2驟，於該形素-音素配對序列產生步驟中，係對

—輪入文字進行形素切割及音素標示，以產生至少 —形素音素配對序列，每一形素-音素配對序列包括至少一形素及其對應之音素，並計算每一形素· 音素配對序列之分數；於該重新評分步驟中，係由扣具有較高分數之前至少一個形素-音素配對序列中’對具有預設之易標錯形素的形素_音素配對序列，依據每一易標錯的形素，選取其前後文的特徵’來計算該等特徵跟該易標錯形素對應的音素的關聯性，俾以對此形素-音素配對序列進行重新評 1233589 分’而以具有最高分數之形素·音素配對序列作為轉換之結果。【實施方式】 5 為能讓貴審查委員能更瞭解本發明之技術内容’特舉一較佳具體實施例說明如下。有關本發明之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，請先參照圖1所示之流程’其利用一份形素（gr apheme)集合1 1和一形素 10 對應音素（phoneme)關係表1 2來進行文字轉音標。其首先使用對輸入文字進行形素切割（grapheme segmentation)(步驟S 1 )，以取得至少一組形素序列 (grapheme sequence)，其中之輸入文字為羅馬拼音或類似之文字’例如英文、德文、法文等。其次， 15藉由咼準確率的形素序列進行音素的標示 (Phoneme Tagging)(步驟S2)，以取得音素序列 (phoneme sequence)，進而產生形素音素配對序列 (grapheme-phoneme sequence) ° 最後，對容易標錯音素的形素加入更多的特徵埠行重新評分（步驟 20 S3)。於前述步驟S 1中，係依據該形素集合丨丨中所具文字進行形素切以7心…，有之形素，以N-gram模型來對輸入割以取得至少一種之形素序列G ^ 輸入文子為feasible，形素其中g/為一形素，例如 1233589 集合1 1為{ a，b，e，e a，f, i，s，1 e，…}，則可能之形素序列為 f-e-a-s-i-b-le 或 f-ea-s-i_b-le，而對於每一形素序列，再求取其分數h如下： i=\ 5 其中，η為該形素序列所包含形素的個數，N為 N - g r a m模型的N，也就是代表利用g /前面的N個形素來決定g /的分數。於前述之步驟S 2中，係依據該形素對應音素之關係表1 2，以對步驟S 1所產生之具有較高分數之前 10 至少一個形素序列來進行音素的標示。其中，在形素對應音素關係表1 2中，每個形素相對應的音素平均超過兩種，有些甚至高達十種以上，因此，由每一形素序列可標示出至少一個音素序列尸= (7V/2..·/,···/；」，其中力為一音素，為了找到最佳的音 15 素序列，故先求取每一音素序列之分數*Sp如下： z=l 其中，Z、i?代表形素g/之上下文資訊的範圍，η為該音素序列所包含音素的個數，而g,·代表/,·的對應形素。再對每一形素序列之對應音素序列，取具有 20 較高分數之前至少一個音素序列，而產生形素-音素配對序列。以前述步驟S1及S2可建立一圖網，如圖2顯示為在步驟S1將輸入文字fF進行形素切割而取得多組 1233589 形素序列G /〜G 5，由此多組形素序列g /〜G 5取具有較面为數之形素序列（7 /〜(73，於步驟S2再對選出之每一形素序列G/〜G3來標示出多個音素序列 P7〜〜P5、p7〜n，並取具有較高分數之前1^ 5個（本實施例以n = 3為例）音素序列P/〜、户/〜P3，而產生形素-音素配對序列⑺戶/、、 G1P3、G2P1、G2P2、G2p3、G3pi、G3p2、G3p3。因此形成一形素_音素序列配對所建構的圖網，且於步驟S2中，由於形素序列已經固定，所以只針對 10音素建立圖網，相較於Joint N-gram模型藉由形素· 曰素配對所建構的圖網規模明顯減少，因此較節省計算時間。口处刖述圖網之每一形素_音素配對序列即為一種可月匕文子轉9標結果，其分數係根據形素序列分 15數#曰素序列分數進行權重的調整，而得到文字轉音標的分數· 其中，Wc?及W八 ^ ^別為形素序列分數&和音素序列分數心之權重值。 . 20

以前述具有抵> 破尚分數之形素-音素配對序列作為轉換之結果，舍备乙=1、11 = 2的時候，其整詞正確率 (word accuracv、、可達59.71%，已超越PbA的結果 (5 8.54%)。然進〜所產生之形素步分析發現，於前述步驟S 1及S 2 '㈢素配對序列中，由於部分形素相 10 1233589 對應的音素較多，故只利用前棱形素當作特徵並無足夠的資訊來判斷其正確發音，而這類易標錯形素又以母音最為嚴重（如a, e，i，〇，u)，平均每個母音所對應的音素為1 0.6個，可能會造成判斷上的誤差 5 進而影響整詞正確率。 ’ 為了確認母音正確的音素，在步驟S 3的重新評分機制中，根據步驟S 1、S 2產生的前數個具有較高分數的形素-音素配對序列，針對容易判斷錯誤音素的形素加入更多的特徵來進行確認，並透過權重 10 的調整取得最高分的形素-音素配對序列當作答案。於前述之步驟S3中，係於步驟S2所產生之的前 η個具有較高分數的形素-音素配對序列中（η為正整數），對具有易標錯之形素之形素-音素配對序列， 15 依據每一易標錯的形素，選取其前後文的特徵（除了形素外還包括音素及形素-音素配對）來獲得S 3所需的分數。在此實施例，我們利用交互訊息（mutual i n f 〇 r m a t i ο η，ΜI)來計算這些特徵跟此易標錯形素對應的音素之間的關聯性，此交互訊息即表示該等 20 特徵與易標錯形素對應之音素共同出現的可能性，俾以對此形素-音素配對序列進行重新評分如下： 11 1233589 SR = ΣΣ1 Si^E J 1 i〇g( 尸(')尸(万

素董十

其中’ 為權重值，五代表步驟S2產生的形素_音序列中易標錯形素之集合，在此實施例我們只針母音部分進行重新評分。為選取之特徵的合，以數學式表示為： W=1 /1=1 n=\ ^n(hy) - I ^ ... -1 < / < r < / + i? λ (r - / +1) = « λ / g [/?r]} u{x I x =乃 _ · ·少m兄+i …少，/ 一 z 幺 / 幺 γ 幺 ζ· + 及 λ (r - / +1) = w λ / e [/，r]} 5其中’巧％'·，Z、i?代表形素匕之上下文資訊的範圍， N為所選取具有較高分數形素-音素配對序列的個數’少為g、/或τ ，而/、r則代表；；出現的位置必須要在/-L及z_ + i?之間。經由前述將η個形素-音素配對序列進行重新評 10 分’而得到每一形素-音素配對序列之重評分數夕及，最後藉由的權重的調整與分數&2/>進行整合而得到最終的分數SF//2a/如下： ^ Final = WG2P^G2P + WR^R ' 其中，具有最高分的形素-音素配對序列即為最後 15 之答案。為驗證本發明之優異效果，以CMU發音字典 (http ://www. speech.cs.cmu.edu/cgi-bin/cmudict)來進行實驗，CMU發音字典是一部電腦可讀 (machine-readable)的字典，包含了超過 1 25，000 個 1233589 組及 1 號由符是點音標發除些去 ίΙ4ο 而成，合音所發合的集應素對音相的其素及音彙個辭39 文含英包具多重發音的詞彙後共剩下1 1 0,3 27個詞彙，接下來每個詞彙W的所有形素= 及其音素 5 iVwj = /7/2…九均透過自動對應的模組取得形素與音素的配對G/YwJ = g2.· .Um，將所有配對的結果隨機分成十個集合再以交叉驗證法 (cross-validation)進行實驗評量。實驗首先對輸入文字進行形素切割，根據實驗 10 結果發現，取具有較高分數&之前兩名的形素序列之正確答案包含率（including rate)高達98.25%，比取具有最高分數心之的結果（90.61%)高出許多，因此根據前兩名的形素序列進行音素標示，音素標示的依據為前後的形素，而範圍為L=1、R = 2，對每一 15 形素序列各取具有較高分數&之前二十名的音素序列。然後根據形素序列的分穌&及其音素序列的分數心而選取前二十名具有較高分數之形素-音素配對序列，發現文字正確率為5 9.7 1 %，比取具有最高分數&形素序列及前二十名具有較高分數 20 心之音素序列的結果59.63 %來的高，且取前二十名具有較高分數&之音素序列的結果正確答案的包含率也明顯提高（88.92% _> 90.95%)。最後對母音（a, e，i，〇，u)進行重新評分，藉由加入更多的特徵（前後形素、音素及形素-音素配對） 13 1233589 及判斷的範圍由L=1、R = 2擴大為L = 5、R = 5，而可對輸入的前二十名具有較南分數的音素-形素配對序列進行母音再確認以獲得重新評分之分數 SR 〇 5 實驗結果發現經過重新評分後，整詞正確率從前兩階段的5 9.7 1 %提昇到6 9.1 3 %，錯誤減少率 (Error reduction rate)為 23.38%，已超越 Joint N-gram模型的67.89%(N = 4)。進一步的分析發現，如圖3所示，母音音素的平均正確率也從原本 10 69.72%提昇為81.16%，錯誤減·少率為37.78%，因此，本發明之方法確實能有效提升文字轉音標的正確率。上述實施例僅係為了方便說明而舉例而已，本發明所主張之權利範圍自應以·申請專利範圍所述 15 為準，而非僅限於上述實施例。【圖式簡單說明】籲圖1係本發明之針對易標錯之形素進行童新評分以提高準確率之文字轉音標的方法之流程。 20 圖2係依據本發明之方法的步驟所建立之一圖網。圖3係依據本發明之方法的所獲得之形素之音標的正確率。【圖號說明】 (11)形素集合 14 1233589 (12)形素對應音素關係表

15

Claims

1233589 拾、申請專利範圍： 1 * 一種針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，包括·· 一形素-音素配對序列產生步驟，係對一輸入文 5字進行形素切割及音素標示，以產生至少一形素_ 曰素配對序列，每一形素_音素配對序列包括至少一形素及其對應之音素，並計算每一形素_音素配對序列之分數；以及 10 一重新評分步驟，係由具有較高分數之前至少一個形素-音素配對序列中，對具有預設之易標錯形素的形素-音素配對序列，依據每一易標錯的形

15 素，選取其前後文的特徵’來計算該等特徵跟該易標錯形素對應的音素的關聯性·，俾以對此形素-音素配對序列進行重新評分’而以具有最高分數之: 素-音素配對序列作為轉換之結果。 > 2.如申請專利範圍第i項所述之針對易樺錯進行重新評分以提高準確率之文字轉音標的^法\形素計算易標錯形素與前後文特徵之間的關聯性^，其中， (mutual information)。貝訊 20 易^錯之形素的方法’其中， 3 ·如申請專利範圍第1項所述之針對進行重新評分以提南準確率之文字轉音標該形素-音素配對序列產生步驟包括·· 形素集合中素切割以取

一形素切割步驟，係依據一預設之所具有之形素，而對該輸入文字進行形 16 1233589 得至少一形素序列，每一形素序列包含多個形素，並求取每一形素序列之分數；一音素標示步驟，係依據一預設之形素對應音素之關係，而對具有較高分數之前至少一個形素序 5 列來進行音素的標示，以對每一形素序列取得至少一個音素序列，並求取每一音素序列之分數，且對每一形素序列之對應音素序列，.取具有較高分數之前至少一個音素序列，而產生該至少一形素-音素配對序列。 10 4.如申請專利範圍第2項所述之針對易標錯之形素進行重新評分以提高準確率之·文字轉音標的方法，其中，於該重新評分步驟中，係對每一形素-音素配對序列進行重新評分如下：柴丨作1 sr= y 〉w,i〇g(---)χ-=- R Σι . SieE i gpE 當中，g/為形素序列之形素，/,為音素序列之音素， 15 %為權重值，五代表該易標錯形素之集合，X⑴為選取之特徵的集合，代表特徵集合〇中的任一特徵。 , 5.如申請專利範圍第4項所述之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，其中， 20 Z)為· 17 1233589 XQ) = [jX „(i；g)^X n(i·^) n=\ 一 Xn(i;y)^{x\x = yr-y^i^L^I^r^i-l·RA(r^I^) = nAi^[l,r]} u{x I x =乃···/μ^+ι·••少r，z 一厶幺 / 幺 r 幺 / + i? Λ(γ —/ + 1)=衫八/· e [/，尸]} 當中，〜％/;，L、及代表形素g/之上下文資訊的範圍， N為所選取具有較高分數形素-音素配對序列的個數，少為g、/或r ，而7、Γ則代表y出現的位置必須 5 要在/-Z及ζ· + 7?之間。 6 ·如申請專利範圍第3項所述乏針對易標錯之形進行重新評分以提高準確率之文字轉音標的方法，其中每一形素-音素配對序列之分數心”係為：心尸=+ , 1〇當中，心為其形素序列之分數；？氣甘4 Λ丨八虹 ^ 心為其音素序列刀數，及I為權重值。進行7重^請專利範圍第6項所述之針對易標錯之形評分以提高準確率之文字於该形素切割步驟中，所求取之备一八 n 形素序列之分數心為 15

^=Σΐο§(Ρ(^|^；；；+ι)) /=1 . 田中，匕為該形素序列之形素，、含形素的個數，N代表利用:、’ 11為該形素序列匕的分數。 '則面的^固形素來巾請專利|請第㈣㈣仃重新評分以提高準確率之文^ ，易標錯之予轉音標的方法，其 18 20 1233589 於該音素標示步驟中，所求取之每一音素序列之分數Sp為： = yJ〇S(P( fi\Si-R)) 5 /=1 當中，/,·為該音素序列之音素，L、R代表形素仏之 5 上下文資訊的範圍，η為該音素序列所包含音素的個數。 9. 如申請專利範圍第4項所述之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，其中，於該重新評分步驟中，經重新評分後之每一形素- 10 音素配對序列之分數為： ^Final ^ WG2P^G2P + WR^R ? 當中，及I為權重值。 10. 如申請專利範圍第1項所埤之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，其 15 中，該輸入文字為羅馬拼音之文字。 11. 如申請專利範圍第1項所述之針對易標錯之形素進行重新評分以提高準確率之苳字轉音標的方法，其中，於該重新評分步驟中，該易標錯的形素為英文之母音。 20 12.如申請專利範圍第1項所述之針對易標錯之形素進行重新評分以提高準確率之夂字轉音標的方法，其中，於該重新評分步驟中，該等前後文的特徵包括音素、形素及形素-音素配對。 19 1233589 13.如申請專利範圍第3項所述之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，其中，於該音素標示步驟中，在預設之形素對應音素之關係中，每一形素對應有至少一音素。 5 14.如申請專利範圍第3項所述之針對易標錯之形素進行重新評分以提高準確率之文字轉音標的方法，其中，於該形素切割步驟中，係以N-gram模型來對輸入文字進行形素切割。 <

20