TW200926142A - A construction method of English recognition variation pronunciation models - Google Patents

A construction method of English recognition variation pronunciation models Download PDF

Info

Publication number
TW200926142A
TW200926142A TW096147548A TW96147548A TW200926142A TW 200926142 A TW200926142 A TW 200926142A TW 096147548 A TW096147548 A TW 096147548A TW 96147548 A TW96147548 A TW 96147548A TW 200926142 A TW200926142 A TW 200926142A
Authority
TW
Taiwan
Prior art keywords
pronunciation
english
variation
value
sounding
Prior art date
Application number
TW096147548A
Other languages
English (en)
Other versions
TWI348152B (zh
Inventor
Jui-Tang Lin
Chin-Shun Hsu
Shen-You Chai
Chung-Hsien Wu
Kuei-Ming Lee
Cha-Hsin Hsieh
Chien-Lin Huang
Original Assignee
Inst Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Information Industry filed Critical Inst Information Industry
Priority to TW096147548A priority Critical patent/TW200926142A/zh
Priority to US12/034,842 priority patent/US8000964B2/en
Priority to JP2008045135A priority patent/JP4885160B2/ja
Publication of TW200926142A publication Critical patent/TW200926142A/zh
Application granted granted Critical
Publication of TWI348152B publication Critical patent/TWI348152B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

200926142 九、發明說明: 【發明所屬之技術領域】
一種英語發音辨識模組建構方法,特別是指一種英語 辨識變異發音模型之建構方法。 N °D 【先前技術】
每一個國家所使用之國語係為便利其國内各族群之間 能進行交談、溝通,故以其中一族群或地區之語言作為各 族之間的共通語言,國與國之間,亦是如此。 … 現行普及使用之國際通用語言為英語,為使大眾了解 其發音’係使用其對應之音標,如κκ音標(美國j Samuel Kenyon 及 Thomas A. Knott 所創)、r>T 立加 J曰標(英國
Daniel Jones所創)、或現行通用於全世界所用之國際標準 音標 IPA (The International Phonetic Alphabet)。然,現下 生活產品逐漸電腦化,也常使用語音辨識模組以啟動產 品’故語音辨識技術逐漸受人重視。 為配合語音辨識技術,一般乃收集大眾使用國際標準 音標述說吳語語句(長句、短句、片語、單詞與字母)之 發曰錄Θ,將其彙編形成一語料庫(C〇rpus)。配合發音詞典 (pronunciation iexiC0n),如 CMU ( Carnegie Mdl〇n
University ’卡内基-麥隆大學)所建立包含十二萬詞句的 CMU發音詞典’其_存英語詞句與對應之國際標準音 標,每一音標係對照一聲音特徵值。 當任一英語之語音辨識系統利用此CMU發音詞典 5 200926142 ^ ’係將所料之英語發音W轉化朗應 值’並將其與CMU發音顺所包含之聲音雜=歲 .以取得所對應的英語詞句。 比辦, . 然先前技術具有無法避免之缺失. ο 其-’當發音者之母語並非為英語,即發音 別不為英語或美語體系之國家,其講述英語之發音,f國 會帶有其母語之音調或發音習性,如圖ia至圖心f + 台灣人民受中文發音而常誤念之英語發音 ^ 於國際標準音標之變異發音。然,現下語音辨識系ΓΓ 使用標準美語或標準英語樣本所形成之發^ :;::值—發音詞典中,故無法解析= 其二’過去之語音_技術1將所有可能發 3真實發音與假設發音)事先定義,而且僅在發音詞业 (pronunciation lexicon)中定義語料庫内有㈣ ©變異發音情形’如英文字母A’即㈣其音 ί變異發音的聲音特徵值。不包含於語料庫―us)之發 曰、非央語體系地區語言之發音,如日文五十個音標、中 文注音三十七個音標,即不進行定義,故所能解析:發音 範圍十分狹隘。 【發明内容】 有鑑於此’本發明所欲解決的問題係在於提供一種根 據不同地區所使用之母語,配合英語之音標,以建構出可 200926142 · 辨認當地民笨受自身母語影響,·而講述出具有變里發 英語的變異發音模型。 …X曰< * 鱗決上述之問題,本發明係揭露-種英語發音辨 '之變異發音模型建構方法,係用於辨識帶有不同母語音: 之英語發音,其建構方法係先提供複數個英語詞句^應 的發聲音標,並收集對應英語詞句之複數個聲音資訊,接 著將母語與英語之音標對應至複數個國際標準音標以形 複數個發音模型,再利用發音模型轉化英語詞句:聲二 訊,以建構對應英語詞句之一變異發音網路,曰貝 語詞句是否存在變異發音路徑,再將所有變異^音路= 納以形成複數個變異發音規則,並儲存形成變異發音模工/ 其中,本發明所提出的方法亦可透過記錄媒體 ^現’透過將記錄媒體中所記錄的電腦程式讀取出來= ^,可以實現所述相同的方法解決相同問題並達到相同= Ο 本發明具有先前技術無法達到之功效,透過 ^區之變異發音模型,可使現行英語辨識系㈣由^ 發音模型以辨識其地區之民眾所講述帶有母达 #无一 音;或者,各地區之研究人員欲建構其地區專屬之發 識系統時,可根據變異發音模型之建構方法從 央5吾辨 語辨識系統。不論變異發音模型建立於前者或立=央 辨識系統’皆能提高辨識語音之準確性,括 ' 識系統之適用性。 叫高英語辨 7 200926142 實施方式】 了 為,對本發明的目❸、構造特徵及其功能有進一步的 解,茲配合相關實施例及圖式詳細說明如下: 七请參照圖2,其為本發明實施例之變異發音模型建構 仙·程圖。此變異發音模型係用於辨識帶有不同母語立之 英語發音,其建構方法如下列步驟: 士立提供複數個英語詞句與對應每一英語詞句之至少一發 聲曰‘ ’亚減英語詞發聲音標以收集對應之複數個 聲音資訊(步驟咖)。此步驟係以CMU(carnegieM鄭 卡内基-麥隆大學)所建立包含十二萬詞句的 CMU發音同典進行說明。 —-月參照® 3’其係為本發明實施例之[贿發成部 =意圖。此發音詞典每—英語則係附上其正奴發聲 ^音^排财式由左至右依序為排序編號、英語詞句與 ❹ 此例之發聲音標係以國際標準音標為基 ㈣訊係為不以英語為母語,但為同一地區、二 豕之民眾所提供,以下係 " 資訊之樣本。 灣民眾之央語發音作為聲音 將母語與英語之音襟對應至複數個 成複數刪_ (㈣咖)。㈣ :注t符號為例,係料音符號三十七個發音配·;英語之 曰標—十九個I日’以對應成五十五個國際標準音標(加 200926142
International Phonetic Alphabet ; IPA)。 係先收集針對其一國際標準音標之複數個音標發音, •並將每一音標發音轉換成一對應之特徵值。如圖4A至圖 -,4F所不,以英語詞句I)為例,係先收集複數個台灣民眾對 b之音標發音,再利用傅利葉轉換方程式將此等英語詞句b 之音標發音轉換成相關特徵值4〇1。接著將特徵值4〇1形 成一數值群並計算該等特徵值4〇1對應之一分群界限值。 此分群界限值並非為一絕對限定值,而是根據特徵值4〇1 之數量,藉由統計方式所計算出一最佳對應數值。 而後計算此數值群401之一發音平均值402,其係將 此數值群所有特徵值401先加總再平均所取得。其次,係 計算此發音平均值402與各特徵值401之數值距離,以取 得相同數值群中,與發音平均值4〇2相隔最遠數值距離之 一第一特徵值403。然後再計算相同數值群中,與第一特 徵403值相隔最遠數值距離之一第二特徵值404。 〇 再計算每一特徵值401與第一特徵值403及第二特徵 值404之間的數值距離,並依據計算結果取較小之數值距 離以判斷各個特徵值401乃對應第一特徵值403或是第二 特徵值404 ’藉以劃分出接近第一特徵值403之特徵值401 及接近第一特徵值404之等特徵值401之數值群410與數 值群420 ’再取得此二數值群之群内距離(Between
Distance) 431 與群間距離(Within Distance) 432,以計算 出一分群標準。 200926142 所明群間距離432係指任一數值群與其它數值群之間 的距離’其係為每—數值群之發音平均值、彼此之間的距 離。群内距離431即為相同數值群中,每一特徵值樹至 發曰平均值4G2的數值距離總和,分群標準則為群間距離 432/群内距離431。 再比對分群標準是否高於分群界限值,若否,則取得 發音模型所包含之數料。若是,騎料算每—數值群 〇 音平均值術以進行分群作業,直至分群標準低於 刀群界限值。藉此方式即可取得對應b發音模型的至少一 數值群’此數料所包含紐值係對應母語之音禪 ΓΙί注音符號的特徵值;或是取得對應英語音標之特= =t rb_,即可建立所有注音與英語之音標 子應國際標準音標而產生的發音模型。 利用此等發音模型轉化每_英語詞句之 Ο 語詞句之發聲音標以建構對應此英語心 徑:=路,貞測英語詞句是否存在變異發音路 如圖5所示’以英語詞句「 ΓΑ; ;!εη^ 国際標準音標,錢定料語則之 」 與「Ν
」之間、「Ν」與「D 以偵測此等發聲音標之每—發聲間距是=基準, 發音’即從輸入發音與「ΑΗ」之間、「αη」與二插=異 Τ」與「ΕΗ」之間、rEH 」之間、 200926142 之間’「D」與結束發音之間,利用前述建構之發音模型偵 測此等發聲間距是否有插入變異發音存在。 . 接著偵測每一發聲音標至次一發聲音標之間是否存在 一删除變異發音。然而偵測時,除偵測兩相鄰之發聲音標 之間是否存在刪除變異發音外’若發聲音標之後存在一插 入變異發音時,係偵測此發聲音標與接續的插入變異發音 之間是否存在刪除變異發音。 最後偵測每一發聲音標對應之替換變異發音以建構此 © 變異發音網路(步驟S240)。然而為降低變異發音網路之 複雜度,可利用下列一方法以除去不可能的變異發音路 徑。此二方法包含: 其一,取得每一發聲音標於國際標準音標之發音類 型’再將相同發音類型之至少一國際標準音標作為發聲音 標之替換變異發音。如圖6所示,其為母語與英語之音標 對應至國際標準音標所形成的音標對照表,其區分為,,有聲 ❹ -破裂音(Voiced plosive),,、,,無聲-破裂音(Unvoiced plosive ) ”、”摩擦音(Fricatives ),,、,,鼻音(Affricatives ) ”、,, 流音(Nasals) ”、’,滑音(Liquids),’、,,前部母音(Front vowels) ”、”中央母音(Central vowels) 後部圓唇母 音(ack rounded vowels ) ”、” 後部非圓唇母音(Back unrounded vowels) ’’等。 將attend之音標「AH、T、EH、N、D」與此表相對照 以取得與之相同發聲類別的國際標準音標。就「T」來說, 11 200926142 其發聲類型為”無聲-破裂音(Unvoiced plosive),,,與其相 同發聲類型的僅有「P」與「K」,因此,發聲音標「τ」的 替換變異發音僅包含「P」與「K」,不可能被不同發聲類 型之音標所替代,如「T」不可能被念成「a」,故不同發 聲類型的音標即不在考慮之内。
其二,建立如圖7所示之一音素模糊矩陣(ph〇ne confusion matrix),係先收集所有國際標準音標之發音,並 計算每一國際標準音標因發音錯誤而形成其它國際標準音 標的發音機率,以建立此音素模糊矩陣。再以英語詞句之 發聲音標為基準,取出一發音機率範圍之至少一國際標準 音標’並設定所選取的國際標準音標作為發聲音標的替換 變異發音。音素模糊矩陣攔位内之英文對應之發音機率如 下,(A)=0%-10% ’(B)=l〇%-15%,(C)=15%-20%
(D)=20%-25% , (G)=35%-40% , (J)=50%-55% , (M)=65%-70% , (P)=80%-85% , (E)=25%-30% , (H)=40%-45% , (K)=55%-60% , (N)=70%-75% , (Q)=85%-90% , (F)=30%-35% , (I)=45%-50°/〇 , (L)=60%-65% , (O)=75%-80% , (R)=90%-95% , (S)=95%-100%,(T)=100%。 然降低變異發音網路之複雜度之同時為準確取得替換 變異發音,取發音機率過高,如100% (T),其必然是發聲 錯誤之情形;或是發音機率過低,如〇%· 10% (A),多半 不可能會念到;故上述情形皆不考慮將其作為發聲音標的 12 200926142 替換變異發音。 以英語詞句attend之發聲音標「EH」為例,將其此音 , 素模糊矩陣相比對,可得正確念「EH」之發音機率為 -· 55%-60%(K)’ 念成「er—M」之發音機率為 10%-15%(B), 念成「AE」之機率為15%-20%(C),其為則為0%-5%( A)。 故僅將音標「er_M」與音標「AE」作為發聲音標「EH」 的替換變異發音,其它音標即不考慮,藉此降低英語詞句 attend的變異發音網路之複雜性,並提高變異發音網路的 ® 辨識準確性。 但所有變異發音(包含插入變異發音、刪除變異發音、 替換變異發音),皆是以連續三個發音所推論而得,此三個 發音都必需是可發出的發音(possible pronunciation)。如 圖8所示,以CMU發音詞典為例,係將其十二萬個詞句, 每一詞句之音標,以連續三個音標為一組音標排列,統計 每組音標排列於CMU發音詞典所出現的次數,並計算其機 ❹ 率。藉此方式,可從CMU發音詞典統計出二萬多組音標排 列,而每一組音標排列係對應有統計次數與機率,即代表 其為最有可能形成插入變異發音之情形,並將此二萬多組 音標排列形成新的音標排列參照表。 以attend為例,其發聲音標為「AH、T、EH、N、D」, 即從CMU發音詞典中尋找以「AH、T、EH」、「T、EH、N」 及「EH、N、D」等音標排列的次數與機率。以此類推,彙 整CMU發音詞典所有的音標排列及統計機率與次數。 13 200926142 統計結果所形成之音標排列參照表係如圖8所示,其 係顯示參照表的一部分。其中,編號26之音標排列 . 「t_M-i_M-sil」(全文與圖中所述之sil皆為不發音)之統 -, 計機率為5974次,而編號25之音標排列「」 之統計機率為2012次。即代表編號26之音標排列 「t_M-i_M-sil」於CMU發音詞典之十二萬個英語詞句中 極有可能被念到,或形成插入變異發音,而編號25之音標 排列「」被念到的次數與機率相對較少。 ® 當非英語、美語體系國家之人民,如台灣人,辨識其 講述的英語詞句時,僅需利用此參照表,即能擴展出符合 台灣人腔調、其英語詞句被發音的可能性,即能取得複雜 度較低,且較為準確的變異發音網路。 此外,為取得正常變異發音情形之外的變異發音規 則,可分析英語詞句以根據其變異發音網路而取得一推論 規則(步驟S250)。係先將所有發聲音標對應至語言學之 〇 發音特徵,再分析英語詞句之變異發音網路以取得相對應 的推論規則,並判斷具有相同發音特徵的發聲音標具有相 同的推論規則。 如圖9所示,其為本發明之發聲音標對應至語言學之 發音特徵之示意圖。 如圖10所示,以attend之發聲音標「AH、T、EH、N、 D」而言,其路徑為「起始-AH-T-EH-N-D-sil」,係先找出 attend的變異發音網路,並利用資料探勘法(Data mining) 14
0 200926142 找出此_nd之變異發音網路上取得 此例中之「N_D 麩異發音情形。 J的變異發音情形即有三種: * 八 發聲音口音很重,將厂N-D Ί 「N>D-ER ςιΊ +j 發聲屮 * u bRwl」或「n_d_ah_s 皮犛成 情形。 成插入變異發音之 其二’發聲音省略發聲,將「N_D_sil 即形成刪除變異發音之情形。 」成N-sil」, 其一’發聲者錯誤發聲,將「N_D_sil」發 即形成替換變異發音之情形。 --sil」’ 如此可知,當發聲音標「D」之前有發聲音標^ 而後為「S1i」_,係、有此三種變異發聲情形並對應」| 音變異規則。 一裡發 再將發聲音標「D」與圖9所示語言學之發聲特徵示 意圖比對即得知如圖11所示結果,即發聲音標「D」、^ = 音標「B」、發聲音標「G」之發音位置雖各為齒槽音、: 唇音與軟顎音,但其發音方法皆為塞音與濁音,故判斷 的變異發音規則係適用於發聲音標「B」及發 聲音楳「G」,即可推論出未收集到的發音變異規則。 再利用資料探勘法(Data mining)並計算各發音變異 規則的信心分數(C〇nfidence sc〇re)以取得各發音變異規 則之相對權重關係,判斷每一英語詞句所使用發音變異規 ' 於先順序’以取得最精準的發音變異路徑。 plj 、 如蘭口所示’其為attend之變異發音路徑,其即利用 15 200926142 前述方法以形成attend之變異發音網路,再利用尋得或推 論出之變異發音規則以取得最精簡的變異發音路徑。=圖 -可得,發聲音標「AH」正確被發出之機率有72%:被誤發 *聲為「UH」之機率為28%。發聲音標「N」之後發出rD」 之機率為60%,不再發聲「sil」為4〇%。而發聲標「d」 之後,不再發聲「sil」為87%,發生混音情形而發出「AH」 者為13%。而此attend之變異發音路徑即為auend之變異 〇 發音網路利用前述之變異發音規則進行最簡化後,所產生 之最佳變異路徑》 雖然本發明以前述之較佳實施例揭露如上,然其並非 用以限定本發明,任何熟習相像技藝者,在不脫離本發明 之精神和範圍内,所作更動與潤飾之等效替換,仍為本發 明之專利保護範圍内。 【圖式簡單說明】 圖1A至圖1C係一般音標錯誤發聲之對應表; ® 圖2係本發明實施例之變異發音模型建構流程圖; 圖3係本發明實施例之CMU發音詞典部分示意圖; 圖4A至圖4F係發音模型之發聲特徵值分群示意圖; 圖5係本發明實施例之變異發音網路建立圖; 圖6係本發明實施例之國際標準音標之音標對照表; 圖7係本發明實施例之音素模糊矩陣示意圖; 圖8係本發明實施例之音標排列參照表; 圖9係本發明實施例之發聲音標特徵化之對照示意圖; 16 200926142 圖ίο係本發明實施例之變異發音情形示意圖; 圖11係本發明實施例之發聲特徵比對示意圖;以及 . 圖12係本發明實施例之變異發音路徑示意圖。 【主要元件符號說明】 401 特徵值 402 發音平均值 403 第一特徵值 404 第二特徵值 410 ' 420 數值群 431 群内距離 432 群間距離 ❹ 17

Claims (1)

  1. 200926142 十、申請專利範園: 有不_語音係用於辨識帶 - 步驟: X建構方法至少包含下列 提供複數個英語詞句與對 -發聲音標,並根據該英語詞句之二二句之至少 應之複數個聲音資訊; ^發卓s標以收集對 ο 將該母語與該 標以形成複數個發音模型·"對應至複數個國際標準音 利用該等發音模_ 資訊,並協同該英語詞句之 句之該等聲音 語詞句之一變異於立 a聲曰標以建構對應該英 變異發音路捏二:路’以備測該英語詞句是否存在 則。歸納該等變異發音路徑以形成複數個變異發音規 ❹ 2·Γ構圍第1項所述之英語辨識變異發音模型之 並將/、對其胃國際標準音標之複數個音標發音, 亚將母一該音標發音轉換成一對應之特徵值; 將該等特徵值形成—數值群並計算該等特徵值對應 之一分群界限值; 計算該數值群之一發音平均值; 取传相同數值群與該發音平均仙隔最遠數值 18 200926142 距離之一第一特徵值; 計算相同數值群中,與該第一特徵值相隔最遠 距離之一第二特徵值; 計算每一該特徵值與第一特徵值及第二特徵值之 的數值距離,劃分出接近該第一特徵值之該等特徵間 接近該第一特徵值之該等特徵值之二數值群; 取得此二該等數值群之群内距離與群間距離,r 算出一分群標準;以及 以叶
    比對該分群標準是否高於該分群界限值,若是 算該數值群之一發音平均值,若否,取得該發音$型計 包含之該等數值群。 、所 3. 如申請專利範圍第2項所述之英語辨識變異發音模j 建構方法,其中該發音模型之至少一數值群,其包含之 該等特徵值係對應該母語之音標。 t 4. 如申請專利範圍第2項所述之英語辨識變異發音模Q 建構方法’其中該發音模型之至少—數值群,其包^之 該專特徵值係對應該英語之音標。 ( 5.如申請專利範圍第2 -------〜_項所迷之英語辨識變異發音模型 建構方法’其中該音標發音係利用傅利葉轉 化為該特徵值。 式轉 6.如申請專利範圍《 i項所述之英語_變異發音模 路步驟中,包含: 其中該建構對應該英語詞句之—變異發音網 19 200926142 設定該英語詞句之該發聲音標為基準; 偵測該等發聲音標之每一發聲間距是否存在一插入 » 變異發音; - 偵測每一該發聲音標至次一該發聲音標之間是否存 在一刪除變異發音; 偵測每一該發聲音標對應之替換變異發音;以及 建構該變異發音網路。 7·如申請專利範圍第6項所述之英語辨識變異發音模型之 ❹ 建構方法,其中該偵測每一該發聲音標對應之替換變異 發音步驟係包含下列步驟: 取得每一該發聲音標於該國際標準音標之發音類 型;以及 將相同發音類型之至少一該國際標準音標作為該發 聲音標之該替換變異發音。 8.如申請專利範圍第6項所述之英語辨識變異發音模型之 © 建構方法,其中該偵測每一該發聲音標對應之替換變異 發音步驟係包含下列步驟: 收集該國際標準音標之發音; 計算每一該國際標準音標之發音機率,以建立一音 素模糊矩陣(phone confusion matrix ); 以該發聲音標為基準,取出一發音機率範圍之至少 一該國際標準音標;以及 設定該發音機率範圍之該國際標準音標作為該發聲 20 200926142 音標之該替換變異發音。 9. ㈣1項所述之英語辨識變異發音模型之 標之變異而取語詞句以根據其發聲音 :::::樣之英語辨識變異發音模型之 將該等發聲音標對應至語言學之發音 ❹ 分析該英語_句之該變異發音網路以取得 規則;以及 取件該推論 判斷具有相同發音特徵之該等發聲音々 之該推論規則。 不,、有相同 η:種英語韻變祕音_之_之㈣髓 調之英乎係用於辨識帶有不同母語音 下列=料該變異發音模型之建構方法係包含 提供複數個英語詞句與對騎—該英 少一發聲音標,並根據該 、句之至 對應之複數個聲音句之該發聲音標以收集 將該母語與該英語之音標對應至複 音標以形成複數個發音模型; 闷丨不铩準 利用該等發音模型轉化每一詨 音資訊,並協同該英語詞句二二之該等聲 英語詞句之一變異發音網路=聲曰標以建構對應該 路,以偵測該英語詞句是否存 200926142 在變異發音路徑;以及 貞卜歸納卿變異發音路細形成複數個變異發音規 12.:=利範園第11項所述之記錄媒體,其中每, 發“4型之形成係包含下列步驟. 中母該 收集針對其一 音,並將每,際標準音標之複數個音標發 ❹ 將該等特徵#心* 職之特徵值, 應之一分群界^ 群並計算料特徵值對 計算該數值拜之—發音平均值; 距離之-第^2群中’與該發音平均值㈣最遠數值 ^弟特徵值; 距離1 十异:同數值群中’與該第—特徵值相隔最遠數值 距離之一第二特徵值; ❿ δ 十算每一該特徵值與第一特徵值及第二特徵值之 ’的數值距離’ _分$接近該第—特徵值之該等特徵值 及接近該第二特徵值之該等特徵值之二數值群; 取得此一該等數值群之群内距離與群間距離,以計 算出一分群標準;以及 比對該分群標準是否高於該分群界限值,若是,計 算該數值群之一發音平均值,若否,取得該發音模型所 包含之该等數值群。 13.如申請專利範圍第12項所述之記錄媒體,其中該發音 22 200926142 模型之至少一數值群,其包含之該等特徵值係對應該母 語之音標。 t 14.如申請專利範圍第12項所述之記錄媒體,其中該發音 - 模型之至少一數值群,其包含之該等特徵值係對應該英 語之音標。 15. 如申請專利範圍第12項所述之記錄媒體,其中該音標 發音係利用傅利葉轉換方程式轉化為該特徵值。 16. 如申請專利範圍第11項所述之記錄媒體,其中該建構 ® 對應該英語詞句之一變異發音網路步驟中,包含: 設定該英語詞句之該發聲音標為基準; 偵測該等發聲音標之每一發聲間距是否存在一插 入變異發音; 偵測每一該發聲音標至次一該發聲音標之間是否 存在一刪除變異發音; 偵測每一該發聲音標對應之替換變異發音;以及 〇 建構該變異發音網路。 Π.如申請專利範圍第16項所述之記錄媒體,其中該偵測 每一該發聲音標對應之替換變異發音步驟係包含下列 步驟: 取得每一該發聲音標於該國際標準音標之發音類 型;以及 將相同發音類型之至少一該國際標準音標作為該 發聲音標之該替換變異發音。 23 200926142 18. 如申請專利範圍第16項所述之記錄媒體,其中該偵測 每一該發聲音標對應之替換變異發音步驟係包含下列 步驟: -收集該國際標準音標之發音; 計算每一該國際標準音標之發音機率,以建立一音 素模糊矩陣(phone confusion matrix); 以該發聲音標為基準,取出一發音機率範圍之至少 一該國際標準音標;以及 © 設定該發音機率範圍之該國際標準音標作為該發 聲音標之該替換變異發音。 19. 如申請專利範圍第11項所述之記錄媒體,其更包含一 分析該英語詞句以根據其發聲音標之變異而取得一推 論規則步驟。 20. 如申請專利範圍第19項所述之記錄媒體,其中該偵測 每一該發聲音標對應之替換變異發音步驟係包含下列 ❹ 步驟. 將該等發聲音標對應至語言學之發音特徵; 分析該英語詞句之該變異發音網路以取得該推論 規則;以及 判斷具有相同發音特徵之該等發聲音標具有相同 之該推論規則。 24
TW096147548A 2007-12-12 2007-12-12 A construction method of English recognition variation pronunciation models TW200926142A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW096147548A TW200926142A (en) 2007-12-12 2007-12-12 A construction method of English recognition variation pronunciation models
US12/034,842 US8000964B2 (en) 2007-12-12 2008-02-21 Method of constructing model of recognizing english pronunciation variation
JP2008045135A JP4885160B2 (ja) 2007-12-12 2008-02-26 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW096147548A TW200926142A (en) 2007-12-12 2007-12-12 A construction method of English recognition variation pronunciation models

Publications (2)

Publication Number Publication Date
TW200926142A true TW200926142A (en) 2009-06-16
TWI348152B TWI348152B (zh) 2011-09-01

Family

ID=40754411

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096147548A TW200926142A (en) 2007-12-12 2007-12-12 A construction method of English recognition variation pronunciation models

Country Status (3)

Country Link
US (1) US8000964B2 (zh)
JP (1) JP4885160B2 (zh)
TW (1) TW200926142A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US8972264B2 (en) 2012-11-08 2015-03-03 Industrial Technology Research Institute Method and apparatus for utterance verification

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
WO2011035986A1 (en) * 2009-09-28 2011-03-31 International Business Machines Corporation Method and system for enhancing a search request by a non-native speaker of a given language by correcting his spelling using the pronunciation characteristics of his native language
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
JP5159853B2 (ja) 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
US9747897B2 (en) * 2013-12-17 2017-08-29 Google Inc. Identifying substitute pronunciations
CN104142909B (zh) * 2014-05-07 2016-04-27 腾讯科技(深圳)有限公司 一种汉字注音方法及装置
CN113053415B (zh) * 2021-03-24 2023-09-29 北京如布科技有限公司 一种连读的检测方法、装置、设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193350A (ja) * 1997-11-17 2007-08-02 Internatl Business Mach Corp <Ibm> 発音矯正装置、発音矯正方法および記録媒体
KR100277694B1 (ko) * 1998-11-11 2001-01-15 정선종 음성인식시스템에서의 발음사전 자동생성 방법
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP3712583B2 (ja) * 2000-02-17 2005-11-02 日本電信電話株式会社 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
JP2002082688A (ja) * 2000-09-05 2002-03-22 Mitsubishi Electric Corp 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US6738738B2 (en) * 2000-12-23 2004-05-18 Tellme Networks, Inc. Automated transformation from American English to British English
US20020087317A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented dynamic pronunciation method and system
JP3686934B2 (ja) * 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
EP1233406A1 (en) * 2001-02-14 2002-08-21 Sony International (Europe) GmbH Speech recognition adapted for non-native speakers
US7593849B2 (en) * 2003-01-28 2009-09-22 Avaya, Inc. Normalization of speech accent
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
JP2004271895A (ja) * 2003-03-07 2004-09-30 Nec Corp 複数言語音声認識システムおよび発音学習システム
DE60316912T2 (de) * 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
JP2005099376A (ja) * 2003-09-24 2005-04-14 Canon Inc 音声認識方法および装置
JP4283133B2 (ja) * 2004-02-23 2009-06-24 株式会社国際電気通信基礎技術研究所 音声認識装置
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
JP2007155833A (ja) * 2005-11-30 2007-06-21 Advanced Telecommunication Research Institute International 音響モデル開発装置及びコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391915B (zh) * 2009-11-17 2013-04-01 Inst Information Industry 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法
US8972264B2 (en) 2012-11-08 2015-03-03 Industrial Technology Research Institute Method and apparatus for utterance verification

Also Published As

Publication number Publication date
US20090157402A1 (en) 2009-06-18
JP4885160B2 (ja) 2012-02-29
JP2009145856A (ja) 2009-07-02
TWI348152B (zh) 2011-09-01
US8000964B2 (en) 2011-08-16

Similar Documents

Publication Publication Date Title
TW200926142A (en) A construction method of English recognition variation pronunciation models
US9711139B2 (en) Method for building language model, speech recognition method and electronic apparatus
US9613621B2 (en) Speech recognition method and electronic apparatus
Arisoy et al. Turkish broadcast news transcription and retrieval
CN112397091B (zh) 中文语音综合评分及诊断系统和方法
Wang et al. An acoustic measure for word prominence in spontaneous speech
US20150112674A1 (en) Method for building acoustic model, speech recognition method and electronic apparatus
Gao et al. A study on robust detection of pronunciation erroneous tendency based on deep neural network.
CN109863554A (zh) 用于计算机辅助发音训练和语音处理的声学字形模型和声学字形音位模型
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
Penagarikano et al. Improved modeling of cross-decoder phone co-occurrences in SVM-based phonotactic language recognition
Halabi Arabic speech corpus
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Zhang et al. Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition
CN110992986B (zh) 单词音节重读检错方法、装置、电子设备和存储介质
CN107924677B (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
Shen et al. Model generation of accented speech using model transformation and verification for bilingual speech recognition
Wang et al. Phonetic transcription verification with generalized posterior probability.
Mertens et al. Merging search spaces for subword spoken term detection.
Pranjol et al. Bengali speech recognition: An overview
Arısoy Statistical and discriminative language modeling for Turkish large vocabulary continuous speech recognition
Yarra et al. Automatic native language identification using novel acoustic and prosodic feature selection strategies
Phuong et al. A high quality and phonetic balanced speech corpus for Vietnamese
Shi et al. Spoken English assessment system for non-native speakers using acoustic and prosodic features
Igras et al. Length of phonemes in a context of their positions in polish sentences

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees