TWI233589B - Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously - Google Patents
Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously Download PDFInfo
- Publication number
- TWI233589B TWI233589B TW093105860A TW93105860A TWI233589B TW I233589 B TWI233589 B TW I233589B TW 093105860 A TW093105860 A TW 093105860A TW 93105860 A TW93105860 A TW 93105860A TW I233589 B TWI233589 B TW I233589B
- Authority
- TW
- Taiwan
- Prior art keywords
- phoneme
- sequence
- scoring
- text
- shape
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 6
- 238000013518 transcription Methods 0.000 claims description 26
- 230000035897 transcription Effects 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims 1
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 claims 1
- 230000036244 malformation Effects 0.000 claims 1
- 239000007787 solid Substances 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101001082070 Homo sapiens Interferon alpha-inducible protein 6 Proteins 0.000 description 1
- 102100027354 Interferon alpha-inducible protein 6 Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Description
1233589 玖、發明說明: 【發明所屬之技術領域】 本發明係關於一種文字轉音標的方法,尤指一種針 對易標錯音素之形素進行重新評分以提高準確率之文字轉 5 音標的方法。 【先前技術】 文字轉音標是將輸入的文字轉換為音標輸出,其通常被 應用於語音合成(speech synthesis)與語音辨識㈣ 10 recognition)相關的系統中。基本上,獲取發音最佳的方法便 疋查珣子典。然而字典並無法包括所有的字與發音,因此當 語音系統遇到字典查不到的生字時,便需要文字轉音標的技 術來產生該字的發音。在語音合成之應用上面,此技術提供 了生字的發音’避免系、統因為缺乏發音,造成語音輸出的困 15 難。而在語音辨識之應用上面,為提高辨識的正確性,經常 增加新字來擴充訓練語料庫,利用文字轉音標就能處理那些 缺乏發音輯字,減少擴充語料庫的困難度。由此可知,語 音是人機介面很重要的-介,而文字轉音標在語音的: 成與辨識方面都扮演了重要的角&,對語音相關的系統而 言,要有最佳的表現,優秀的文字轉音標技術絕對是不可或 缺的一環。 傳統上’文字轉音標是以人工訂定規則為基礎 ㈣一),但是此種方法需要由語言專家撰寫大量的規 則。然而規則再多’還是會有無法處理的情況發生,何況加 20 1233589 入更多的新規則,也無法確保不會與既有規則相牴觸。規則 數量越多,修改與維護規則所花費的成本也越高,另外這些 規則也會因語言的不同而有所差異,若要將應用領域擴展為 其他語言,就需花費大量的時間與人力成本重新制定規則, 5 因此以規則為基礎的字轉音系統缺乏再利用性(reusability) 與可攜性(portability),也較難提昇效能。 由於上述的缺點,越來越多字轉音系統採用資料導向 (data-driven)的方法,包括類推發音(pronunciation by analogy,PbA)、類神經網路(neural-network)、決策樹(decision 10 tree)、結合式(Joint)的N-gram模型以及自動學習規則 (automatic rule learning)等。這些方法都需要訓練的語料, 通常是一部含有文字與對應音標的字典。資料導向的優點在 於無需太多人力及專業知識的介入,而且應用的語言不受到 侷限。因此在系統建立、未來維護及再利用等方面,都較以 15 規則為基礎的方法更為優異。在這些方法當中,PbA以及 Joint N-gram模型是較為普遍的兩種方法。
PbA是把輸入的文字分解為不同長度的形素 (grapheme),1與字典中的文字比對之後,找出各形素最具代 表性的音素,將形素與音素建立為圖網(graph),圖網中最佳 20 的路徑(path)即代表該文字的發音。而Joint N-gram模型則需 先將文字與音標分解成為形素-音素配對 (grapheme-phoneme pair)後,利用這些配對建立機率模型, 之後輸入的文字也被分解為形素-音素配對,根據先前建立 的機率模型,找出最佳的音素序列。目前Joint N-gram模型 1233589 然運^率,然而其運算過程卻相當耗時。而PbA雖 Γ X ^ f N-gram :有予:=, 5 10 【發明内容】
進行主要目的在提供—種針對易標錯音素之形i t重新科以提高準確率之文字轉音標的方法,其可4 樑:果運异時間内,得到優於先前技術之文字轉; 為達成前述之目的,本發明之針對易標錯之形 勺、進行重新評分以提高準確率之文字轉音標的方法主要 I括一形素_音素配對序列產生步驟及一重新評分 15 2驟,於該形素-音素配對序列產生步驟中,係對
—輪入文字進行形素切割及音素標示,以產生至少 —形素音素配對序列,每一形素-音素配對序列包 括至少一形素及其對應之音素,並計算每一形素· 音素配對序列之分數;於該重新評分步驟中,係由 扣具有較高分數之前至少一個形素-音素配對序列 中’對具有預設之易標錯形素的形素_音素配對序 列,依據每一易標錯的形素,選取其前後文的特 徵’來計算該等特徵跟該易標錯形素對應的音素的 關聯性,俾以對此形素-音素配對序列進行重新評 1233589 分’而以具有最高分數之形素·音素配對序列作為 轉換之結果。 【實施方式】 5 為能讓貴審查委員能更瞭解本發明之技術内 容’特舉一較佳具體實施例說明如下。 有關本發明之針對易標錯之形素進行重新評分 以提高準確率之文字轉音標的方法,請先參照圖1所示之 流程’其利用一份形素(gr apheme)集合1 1和一形素 10 對應音素(phoneme)關係表1 2來進行文字轉音標。 其首先使用對輸入文字進行形素切割(grapheme segmentation)(步驟S 1 ),以取得至少一組形素序列 (grapheme sequence),其中之輸入文字為羅馬拼音 或類似之文字’例如英文、德文、法文等。其次, 15藉由咼準確率的形素序列進行音素的標示 (Phoneme Tagging)(步驟S2),以取得音素序列 (phoneme sequence),進而產生形素音素配對序列 (grapheme-phoneme sequence) ° 最後,對容易標錯 音素的形素加入更多的特徵埠行重新評分(步驟 20 S3)。 於前述步驟S 1中,係依據該形素集合丨丨中所具 文字進行形素切 以7心…, 有之形素,以N-gram模型來對輸入 割以取得至少一種之形素序列G ^ 輸入文子為feasible,形素 其中g/為一形素,例如 1233589 集合1 1為{ a,b,e,e a,f, i,s,1 e,…},則可能之形素序列 為 f-e-a-s-i-b-le 或 f-ea-s-i_b-le,而對於每一形素序 列,再求取其分數h如下: i=\ 5 其中,η為該形素序列所包含形素的個數,N為 N - g r a m模型的N,也就是代表利用g /前面的N個形素 來決定g /的分數。 於前述之步驟S 2中,係依據該形素對應音素之 關係表1 2,以對步驟S 1所產生之具有較高分數之前 10 至少一個形素序列來進行音素的標示。其中,在形 素對應音素關係表1 2中,每個形素相對應的音素平 均超過兩種,有些甚至高達十種以上,因此,由每 一形素序列可標示出至少一個音素序列尸= (7V/2..·/,···/;」,其中力為一音素,為了找到最佳的音 15 素序列,故先求取每一音素序列之分數*Sp如下: z=l 其中,Z、i?代表形素g/之上下文資訊的範圍,η為 該音素序列所包含音素的個數,而g,·代表/,·的對應 形素。再對每一形素序列之對應音素序列,取具有 20 較高分數之前至少一個音素序列,而產生形素-音 素配對序列。 以前述步驟S1及S2可建立一圖網,如圖2顯示 為在步驟S1將輸入文字fF進行形素切割而取得多組 1233589 形素序列G /〜G 5,由此多組形素序列g /〜G 5取具有 較面为數之形素序列(7 /〜(73,於步驟S2再對選出之 每一形素序列G/〜G3來標示出多個音素序列 P7〜〜P5、p7〜n,並取具有較高分數之前1^ 5個(本實施例以n = 3為例)音素序列P/〜、 户/〜P3,而產生形素-音素配對序列⑺戶/、、 G1P3、G2P1、G2P2、G2p3、G3pi、G3p2、G3p3。 因此形成一形素_音素序列配對所建構的圖網,且 於步驟S2中,由於形素序列已經固定,所以只針對 10音素建立圖網,相較於Joint N-gram模型藉由形素· 曰素配對所建構的圖網規模明顯減少,因此較節省 計算時間。 口处刖述圖網之每一形素_音素配對序列即為一種 可月匕文子轉9標結果,其分數係根據形素序列分 15數#曰素序列分數進行權重的調整,而得到文字轉 音標的分數· 其中,Wc?及W八 ^ ^別為形素序列分數&和音素序列 分數心之權重值。 . 20
以前述具有抵> 破尚分數之形素-音素配對序列作 為轉換之結果,舍 备乙=1、11 = 2的時候,其整詞正確率 (word accuracv、、 可達59.71%,已超越PbA的結果 (5 8.54%)。然進〜 所產生之形素 步分析發現,於前述步驟S 1及S 2 '㈢素配對序列中,由於部分形素相 10 1233589 對應的音素較多,故只利用前棱形素當作特徵並無 足夠的資訊來判斷其正確發音,而這類易標錯形素 又以母音最為嚴重(如a, e,i,〇,u),平均每個母音 所對應的音素為1 0.6個,可能會造成判斷上的誤差 5 進而影響整詞正確率。 ’ 為了確認母音正確的音素,在步驟S 3的重新評 分機制中,根據步驟S 1、S 2產生的前數個具有較高 分數的形素-音素配對序列,針對容易判斷錯誤音 素的形素加入更多的特徵來進行確認,並透過權重 10 的調整取得最高分的形素-音素配對序列當作答 案。 於前述之步驟S3中,係於步驟S2所產生之的前 η個具有較高分數的形素-音素配對序列中(η為正整 數),對具有易標錯之形素之形素-音素配對序列, 15 依據每一易標錯的形素,選取其前後文的特徵(除 了形素外還包括音素及形素-音素配對)來獲得S 3所 需的分數。在此實施例,我們利用交互訊息(mutual i n f 〇 r m a t i ο η,ΜI)來計算這些特徵跟此易標錯形素 對應的音素之間的關聯性,此交互訊息即表示該等 20 特徵與易標錯形素對應之音素共同出現的可能 性,俾以對此形素-音素配對序列進行重新評分如 下: 11 1233589 SR = ΣΣ1 Si^E J 1 i〇g( 尸(')尸(万
素 董十
其中’ 為權重值,五代表步驟S2產生的形素_音 序列中易標錯形素之集合,在此實施例我們只針 母音部分進行重新評分。為選取之特徵的 合,以數學式表示為: W=1 /1=1 n=\ ^n(hy) - I ^ ... -1 < / < r < / + i? λ (r - / +1) = « λ / g [/?r]} u{x I x =乃 _ · ·少m兄+i …少,/ 一 z 幺 / 幺 γ 幺 ζ· + 及 λ (r - / +1) = w λ / e [/,r]} 5其中’巧%'·,Z、i?代表形素匕之上下文資訊的範圍, N為所選取具有較高分數形素-音素配對序列的個 數’少為g、/或τ ,而/、r則代表;;出現的位置必須 要在/-L及z_ + i?之間。 經由前述將η個形素-音素配對序列進行重新評 10 分’而得到每一形素-音素配對序列之重評分數夕及, 最後藉由的權重的調整與分數&2/>進行整合而得到 最終的分數SF//2a/如下: ^ Final = WG2P^G2P + WR^R ' 其中,具有最高分的形素-音素配對序列即為最後 15 之答案。 為驗證本發明之優異效果,以CMU發音字典 (http ://www. speech.cs.cmu.edu/cgi-bin/cmudict)來 進行實驗,CMU發音字典是一部電腦可讀 (machine-readable)的字典,包含 了超過 1 25,000 個 1233589 組及 1 號 由符 是點 音標 發除 些去 ίΙ4ο 而成 , 合 音所 發合 的集 應素 對音 相的 其素 及音 彙個 辭39 文含 英包 具多重發音的詞彙後共剩下1 1 0,3 27個詞彙,接下來 每個詞彙W的所有形素= 及其音素 5 iVwj = /7/2…九均透過自動對應的模組取得形素與 音素的配對G/YwJ = g2.· .Um,將所有配對 的結果隨機分成十個集合再以交叉驗證法 (cross-validation)進行實驗評量。 實驗首先對輸入文字進行形素切割,根據實驗 10 結果發現,取具有較高分數&之前兩名的形素序列 之正確答案包含率(including rate)高達98.25%,比 取具有最高分數心之的結果(90.61%)高出許多,因 此根據前兩名的形素序列進行音素標示,音素標示 的依據為前後的形素,而範圍為L=1、R = 2,對每一 15 形素序列各取具有較高分數&之前二十名的音素 序列。然後根據形素序列的分穌&及其音素序列的 分數心而選取前二十名具有較高分數之形素-音素配對序列,發現文字正確率為5 9.7 1 %,比取具 有最高分數&形素序列及前二十名具有較高分數 20 心之音素序列的結果59.63 %來的高,且取前二十名 具有較高分數&之音素序列的結果正確答案的包 含率也明顯提高(88.92% _> 90.95%)。 最後對母音(a, e,i,〇,u)進行重新評分,藉由 加入更多的特徵(前後形素、音素及形素-音素配對) 13 1233589 及判斷的範圍由L=1、R = 2擴大為L = 5、R = 5,而可 對輸入的前二十名具有較南分數的音素-形素 配對序列進行母音再確認以獲得重新評分之分數 SR 〇 5 實驗結果發現經過重新評分後,整詞正確率從 前兩階段的5 9.7 1 %提昇到6 9.1 3 %,錯誤減少率 (Error reduction rate)為 23.38%,已超越 Joint N-gram模型的67.89%(N = 4)。進一步的分析發現, 如圖3所示,母音音素的平均正確率也從原本 10 69.72%提昇為81.16%,錯誤減·少率為37.78%,因 此,本發明之方法確實能有效提升文字轉音標的正 確率。 上述實施例僅係為了方便說明而舉例而已,本 發明所主張之權利範圍自應以·申請專利範圍所述 15 為準,而非僅限於上述實施例。 【圖式簡單說明】 籲 圖1係本發明之針對易標錯之形素進行童新評分以提高準確率 之文字轉音標的方法之流程。 20 圖2係依據本發明之方法的步驟所建立之一圖網。 圖3係依據本發明之方法的所獲得之形素之音標的正確率。 【圖號說明】 (11)形素集合 14 1233589 (12)形素對應音素關係表
15
Claims (1)
1233589 拾、申請專利範圍: 1 * 一種針對易標錯之形素進行重新評分以提高 準確率之文字轉音標的方法,包括·· 一形素-音素配對序列產生步驟,係對一輸入文 5字進行形素切割及音素標示,以產生至少一形素_ 曰素配對序列,每一形素_音素配對序列包括至少 一形素及其對應之音素,並計算每一形素_音素配 對序列之分數;以及 10 一重新評分步驟,係由具有較高分數之前至少 一個形素-音素配對序列中,對具有預設之易標錯 形素的形素-音素配對序列,依據每一易標錯的形
15 素,選取其前後文的特徵’來計算該等特徵跟該易 標錯形素對應的音素的關聯性·,俾以對此形素-音 素配對序列進行重新評分’而以具有最高分數之: 素-音素配對序列作為轉換之結果。 > 2.如申請專利範圍第i項所述之針對易樺錯 進行重新評分以提高準確率之文字轉音標的^法\形素 計算易標錯形素與前後文特徵之間的關聯性^,其中, (mutual information)。 貝訊 20 易^錯之形素 的方法’其中, 3 ·如申請專利範圍第1項所述之針對 進行重新評分以提南準確率之文字轉音標 該形素-音素配對序列產生步驟包括·· 形素集合中 素切割以取
一形素切割步驟,係依據一預設之 所具有之形素,而對該輸入文字進行形 16 1233589 得至少一形素序列,每一形素序列包含多個形素, 並求取每一形素序列之分數; 一音素標示步驟,係依據一預設之形素對應音 素之關係,而對具有較高分數之前至少一個形素序 5 列來進行音素的標示,以對每一形素序列取得至少 一個音素序列,並求取每一音素序列之分數,且對 每一形素序列之對應音素序列,.取具有較高分數之 前至少一個音素序列,而產生該至少一形素-音素 配對序列。 10 4.如申請專利範圍第2項所述之針對易標錯之 形素進行重新評分以提高準確率之·文字轉音標的方法,其 中,於該重新評分步驟中,係對每一形素-音素配 對序列進行重新評分如下: 柴丨作1 sr= y 〉w,i〇g(---)χ-=- R Σι . SieE i gpE 當中,g/為形素序列之形素,/,為音素序列之音素, 15 %為權重值,五代表該易標錯形素之集合,X⑴為選 取之特徵的集合,代表特徵集合〇中的任一特 徵。 , 5.如申請專利範圍第4項所述之針對易標錯之形素 進行重新評分以提高準確率之文字轉音標的方法,其中, 20 Z)為· 17 1233589 XQ) = [jX „(i;g)^X n(i·^) n=\ 一 Xn(i;y)^{x\x = yr-y^i^L^I^r^i-l·RA(r^I^) = nAi^[l,r]} u{x I x =乃···/μ^+ι·••少r,z 一厶幺 / 幺 r 幺 / + i? Λ(γ —/ + 1)=衫八/· e [/,尸]} 當中,〜%/;,L、及代表形素g/之上下文資訊的範圍, N為所選取具有較高分數形素-音素配對序列的個 數,少為g、/或r ,而7、Γ則代表y出現的位置必須 5 要在/-Z及ζ· + 7?之間。 6 ·如申請專利範圍第3項所述乏針對易標錯之形 進行重新評分以提高準確率之文字轉音標的方法,其中 每一形素-音素配對序列之分數心”係為: 心尸=+ , 1〇當中,心為其形素序列之分數;?氣甘4 Λ丨 八虹 ^ 心為其音素序列 刀數,及I為權重值。 進行7重^請專利範圍第6項所述之針對易標錯之形 評分以提高準確率之文字 於该形素切割步驟中,所求取之备一 八 n 形素序列之分數心為 15
^=Σΐο§(Ρ(^|^;;;+ι)) /=1 . 田中,匕為該形素序列之形素,、 含形素的個數,N代表利用:、’ 11為該形素序列 匕的分數。 '則面的^固形素來 巾請專利|請第㈣㈣ 仃重新評分以提高準確率之文^ ,易標錯之 予轉音標的方法,其 18 20 1233589 於該音素標示步驟中,所求取之每一音素序列之分 數Sp為: = yJ〇S(P( fi\Si-R)) 5 /=1 當中,/,·為該音素序列之音素,L、R代表形素仏之 5 上下文資訊的範圍,η為該音素序列所包含音素的 個數。 9. 如申請專利範圍第4項所述之針對易標錯之形素 進行重新評分以提高準確率之文字轉音標的方法,其中, 於該重新評分步驟中,經重新評分後之每一形素- 10 音素配對序列之分數為: ^Final ^ WG2P^G2P + WR^R ? 當中,及I為權重值。 10. 如申請專利範圍第1項所埤之針對易標錯之形 素進行重新評分以提高準確率之文字轉音標的方法,其 15 中,該輸入文字為羅馬拼音之文字。 11. 如申請專利範圍第1項所述之針對易標錯之形 素進行重新評分以提高準確率之苳字轉音標的方法,其 中,於該重新評分步驟中,該易標錯的形素為英文 之母音。 20 12.如申請專利範圍第1項所述之針對易標錯之形 素進行重新評分以提高準確率之夂字轉音標的方法,其 中,於該重新評分步驟中,該等前後文的特徵包括 音素、形素及形素-音素配對。 19 1233589 13.如申請專利範圍第3項所述之針對易標錯之形 素進行重新評分以提高準確率之文字轉音標的方法,其 中,於該音素標示步驟中,在預設之形素對應音素 之關係中,每一形素對應有至少一音素。 5 14.如申請專利範圍第3項所述之針對易標錯之形 素進行重新評分以提高準確率之文字轉音標的方法,其 中,於該形素切割步驟中,係以N-gram模型來對輸 入文字進行形素切割。 <
20
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW093105860A TWI233589B (en) | 2004-03-05 | 2004-03-05 | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
US10/900,101 US20050197838A1 (en) | 2004-03-05 | 2004-07-28 | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW093105860A TWI233589B (en) | 2004-03-05 | 2004-03-05 | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI233589B true TWI233589B (en) | 2005-06-01 |
TW200531005A TW200531005A (en) | 2005-09-16 |
Family
ID=34910237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW093105860A TWI233589B (en) | 2004-03-05 | 2004-03-05 | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050197838A1 (zh) |
TW (1) | TWI233589B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060031069A1 (en) * | 2004-08-03 | 2006-02-09 | Sony Corporation | System and method for performing a grapheme-to-phoneme conversion |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
US7962327B2 (en) * | 2004-12-17 | 2011-06-14 | Industrial Technology Research Institute | Pronunciation assessment method and system based on distinctive feature analysis |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
TWI340330B (en) * | 2005-11-14 | 2011-04-11 | Ind Tech Res Inst | Method for text-to-pronunciation conversion |
GB0704772D0 (en) * | 2007-03-12 | 2007-04-18 | Mongoose Ventures Ltd | Aural similarity measuring system for text |
US20090299731A1 (en) * | 2007-03-12 | 2009-12-03 | Mongoose Ventures Limited | Aural similarity measuring system for text |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US9552213B2 (en) * | 2011-05-16 | 2017-01-24 | D2L Corporation | Systems and methods for facilitating software interface localization between multiple languages |
US10387543B2 (en) | 2015-10-15 | 2019-08-20 | Vkidz, Inc. | Phoneme-to-grapheme mapping systems and methods |
WO2019023911A1 (en) * | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR TEXT SEGMENTATION |
KR20220038514A (ko) * | 2019-05-03 | 2022-03-28 | 구글 엘엘씨 | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 |
CA3161400A1 (en) * | 2019-12-11 | 2021-06-17 | Zachary Silverzweig | Unambiguous phonics system |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE102731T1 (de) * | 1988-11-23 | 1994-03-15 | Digital Equipment Corp | Namenaussprache durch einen synthetisator. |
US5347295A (en) * | 1990-10-31 | 1994-09-13 | Go Corporation | Control of a computer through a position-sensed stylus |
EP0770243B1 (en) * | 1995-05-05 | 2003-07-16 | Apple Computer, Inc. | Method and apparatus for managing text objects |
US5930745A (en) * | 1997-04-09 | 1999-07-27 | Fluke Corporation | Front-end architecture for a measurement instrument |
US6816830B1 (en) * | 1997-07-04 | 2004-11-09 | Xerox Corporation | Finite state data structures with paths representing paired strings of tags and tag combinations |
US6230131B1 (en) * | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6029132A (en) * | 1998-04-30 | 2000-02-22 | Matsushita Electric Industrial Co. | Method for letter-to-sound in text-to-speech synthesis |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
DE10042942C2 (de) * | 2000-08-31 | 2003-05-08 | Siemens Ag | Verfahren zur Sprachsynthese |
DE10042944C2 (de) * | 2000-08-31 | 2003-03-13 | Siemens Ag | Graphem-Phonem-Konvertierung |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
TW559783B (en) * | 2002-05-31 | 2003-11-01 | Ind Tech Res Inst | Error-tolerant natural language understanding system and method integrating with confidence measure |
-
2004
- 2004-03-05 TW TW093105860A patent/TWI233589B/zh not_active IP Right Cessation
- 2004-07-28 US US10/900,101 patent/US20050197838A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
TW200531005A (en) | 2005-09-16 |
US20050197838A1 (en) | 2005-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI233589B (en) | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously | |
EP3469579B1 (en) | Systems and methods for predicting pronunciations with word stress | |
CN1945693B (zh) | 训练韵律统计模型、韵律切分和语音合成的方法及装置 | |
US9767788B2 (en) | Method and apparatus for speech synthesis based on large corpus | |
Kaur et al. | Review of machine transliteration techniques | |
CN102543069A (zh) | 多语言的文字转语音合成系统与方法 | |
JP7112075B2 (ja) | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 | |
CN110767213A (zh) | 一种韵律预测方法及装置 | |
Kumar et al. | Morphological analysis of the Dravidian language family | |
Singh et al. | HMM based chunker for Hindi | |
Boroş et al. | Large tagset labeling using feed forward neural networks. case study on romanian language | |
Mahmudi et al. | Automated grapheme-to-phoneme conversion for central kurdish based on optimality theory | |
Hlaing et al. | Automatic syllable segmentation of Myanmar texts using finite state transducer | |
Khorsheed | A HMM-based system to diacritize Arabic text | |
Wasala et al. | Sinhala grapheme-to-phoneme conversion and rules for schwa epenthesis | |
Wiemerslage et al. | Phonological features for morphological inflection | |
Cherifi et al. | Arabic grapheme-to-phoneme conversion based on joint multi-gram model | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
Joshi et al. | A phonemic code based scheme for effective processing of Indian Languages | |
Reddy et al. | An MDL-based approach to extracting subword units for grapheme-to-phoneme conversion | |
Nair et al. | English to Indian Language and Back Transliteration with Phonetic Transcription for Computational Linguistics Tools based on Conventional Transliteration Schemes | |
CN116229994B (zh) | 一种阿拉伯语方言的标符预测模型的构建方法和装置 | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Dika et al. | The principles of designing of algorithm for speech synthesis from texts written in Albanian language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |