TWI220511B - An automatic speech segmentation and verification system and its method - Google Patents
An automatic speech segmentation and verification system and its method Download PDFInfo
- Publication number
- TWI220511B TWI220511B TW092125187A TW92125187A TWI220511B TW I220511 B TWI220511 B TW I220511B TW 092125187 A TW092125187 A TW 092125187A TW 92125187 A TW92125187 A TW 92125187A TW I220511 B TWI220511 B TW I220511B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech
- unit
- voice
- cut
- value
- Prior art date
Links
- 238000012795 verification Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 title abstract 2
- 238000012360 testing method Methods 0.000 claims abstract description 58
- 238000013515 script Methods 0.000 claims abstract description 35
- 238000005520 cutting process Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 4
- 238000009966 trimming Methods 0.000 claims description 4
- 101100008048 Caenorhabditis elegans cut-4 gene Proteins 0.000 claims 1
- 238000004891 communication Methods 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 34
- 238000003786 synthesis reaction Methods 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000011257 shell material Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
1220511 玖、發明說明: 【發明所屬之技術領域】 本發明係有關語音合成之技術領域,尤指一種連續語 音自動切音及驗證之方法及系統。 5 【先前技術】 按,在語音合成技術領域中,由於使用大語料庫 (speech corpus)之電腦語音合成方法可取得具有高品質以 及高流暢度的語音合成,其效果遠優於傳統僅採用訊號處 10 理方式藉由調整基本音節的語音長度(duration)和音調高 低(pitch)所合成的語音,因此使用大語料庫之語音合成已 成為現今語音合成系統的主流。語音合成系統的成功與否 取決於許多因素,諸如合成單元的數量多寡、錄音語料的 品質優劣、選取合成單元的方法、自然韻律的產生、以及 15 合成單元的串接等。而隨著電腦處理速度的提升、與高容 量記憶體和硬碟的普及,使得習知大語料庫的語音合成系 統已可儲存數以萬計的合成單元,並能在合成的時候,即 時從中選取出合適的合成單元。 於習知使用大語料庫的電腦語音合成方法中,合成單 20 元的來源主要係將一套經過設計的錄音腳本,交由專業的 錄音人士使用專業的錄音設備來錄製語音,之後再利用電 腦系統根據上述錄音腳本中的標音資訊(phonetic information),以自動對錄音的音檔切音,進而操取出合成 系統所需的語音單元。 5 1220511 然而,由於習知電腦系統的切音位置並不保證完全準 確,且數量龐大的錄音腳本需耗費相當長的時間來進行錄 製作業,故即使是專業人士也可能發生音節沒啥好、漏哈 (deletion)、多啥(insertion)、唸錯字、唸錯破音字、或因為 5 啥太快所造成之連音效應(co-articulation)致使音節聽不清 楚等情形。由於切音位置的準確性、以及合成單元的品質 優劣及正確與否,將會直接影響語音合成的輸出品質,因 此,如何提升電腦切音位置的可靠度,且正確地將一些沒 錄製好的錄音語料筛選出來,再交由專業錄音人士重新錄 10 製,即為語音合成系統中一極為重要的課題。 為檢查所錄製之合成單元是否正確,傳統係由人工操 作工具軟體來逐一檢查每個合成單元。然而,由於現今合 成系統大多採用數量龐大的合成單元,相對所需錄製的語 料資料量也十分龐大,因此若使用人工方式來檢查所有的 15合成單元,不僅耗時費力,更容易受到個人主觀因素的影 響而對同一組錄音語料的良窳判斷出迥異的結果,其無法 遵循一套一致性的客觀標準來作業。因此,前述之習知技 術實有予以改進之必要。 習知係提出相當多關於語音驗證之技術,例如揭露於 20美國專利公告第6292778號、美國專利公告第6125345號、 美國專利公告弟5675706 $虎之專利文獻。其中,美國專利 公告弟6292778號專利係結合語音辨識器(Speech recognizer)以及與文句無關語句驗證(task-independent utterance verifier)技術,來提升單詞(word)、片語(phrase)、 6 1220511 及句子(sentence)的辨識率,此驗證技術係利用驗證模型 (model)及反向模型(anti-model)分別量測語音辨識結果的 近似值(likelihood),再取其對數概度比(i〇g rati〇)為分數, 最後整合單詞、片語、及句子的分數與一事先定義好的門 5 檻值比較,以決定欲拒絕或接受語音辨識結果;美國專利 公告第6125345號專利則利用語音辨識器(_^匕 recognizer)產生一個以上的可靠度量測,再將語音辨識結 果傳給語音驗證器(recognition verifier)以產生一個以上之 可靠度量測’最後透過整合器(integrator)利用多層感知哭 10 (multi-layer preceptron,MLP)來整合上述可靠度量測,以 決定欲拒絕或接受語音辨識結果;而美國專利公告第 5675706號專利則係利用單字(subword)及字串(string)兩個 驗證階段來驗證一未知文字内容的語音段是否為關鍵字 (keyword),單字驗證階段檢驗隱藏式馬可夫模型(hidden 15 Markov model,HMM)的辨識結果,字串驗證階段則整合單 子驗5豆1¾段的結果’來決定拒絕或接受整個關鍵字。 然而,上述之專利文獻皆設計來解決語音辨識所面臨 的問題,亦即用以辨認一個r未知」文字内容的語音段, 迥異於大語料庫之語音合成技術所欲解決「已知」文字内 20容應用的課題;此外,語音辨識主要係欲解決集外詞(〇加μ vocabulary,OOV)的問題,但大語料庫之語音合成技術則 欲確認各已知語音單元之錄音及切音結果是否正確;又, 語音辨識需要辨識的標的可能是一個字詞、一個片語、或 ,是一句話’亦與大語料庫之語音合成技術將焦點放在一個 7 1220511 基本合成單位(例如一個音節)是否達到合成系統可採用之 標準的應用不同。由此可知,習知所提出之語音辨識技術 不論在條件或應用面上皆無法改善習知大語料庫語音合成 系統的問題,並非十分理想。 5 【發明内容】 本發明之主要目的係在提供一種連續語音自動切音 及驗證之方法及系統,其係同時整合切音與語音驗證之可 靠度分析流程,俾能取得可靠的語音切點位置、同時篩選 10 出有問題的錄音語料,進而大幅提昇大語料庫合成單元收 錄之方便性、正確性、以及品質。 本發明之另一目的係在提供一種連續語音自動切音 及驗證之方法及系統,其係藉由電腦自動切割音檔來自動 收集合成單元,俾取代由人工逐一檢查合成單元所造成的 15 疏忽及不一致性。 依據本發明之一特色,於所提出之連續語音自動切音 及驗證之方法中,首先係擷取一錄音語料檐(recorded speech corpus),此錄音語料槽係參照一已知文字腳本 (known text script)戶斤錄製而成,且已知文字腳本中係定義 20 有N個語音單元之語音資訊;接著將根據已知文字腳本 中、各語音單元之語音資訊,而自錄音語料檔中對應切割 出N個待測語音單元(test speech unit segment);之後,將 驗證待測語音單元之切點(cutting point)位置所對應之切 音可靠度,藉以判斷上述待測語音單元所對應之切點位置 8 1220511 且再驗證待測語音單元之語音可靠度,藉以判 =返相語音單以否為根據已知文字腳本錄製而成; =後則結合待測語音單元所對應的切音可靠度及語音可靠 度用以與預設門檻值比較,當可靠度大於門播值時,表示 待測,吾音單元係被正確地錄製,故接受此待測語音單元, 反之,則拒絕此待測語音單元。 依據本發明之另一特色,所提出之連續語音自動切音 及驗證之錢主要包括有―資料庫、—單元㈣模組、一 10 15 20 切曰驗騎組、一語音驗證模組、以及一單元筛選模組。 其中,貝料庫中儲存有一已知文字腳本、以及參照已知文 字腳本所錄製而成的錄音語料播,且已知文字腳本中係已 定義有N個語音單元之語音資訊;單元切割模組係根據已 知文字腳本中各語音單元之語音資訊,自錄音語料檀中對 刀割出N個待測語音單元;接下來將交由切音驗證模組 來驗迅上述待測語音單元之切點位置所對應的可靠度,藉 以判斷出待測語音單元所對應的切點位置是否正確;且 需由語音驗證模組來驗證上述待測語音單元之扭立可靠 度’藉以判斷待測語音單元是否確實根據已知文^本錚 製而士;待單元篩選模組接收到待測語音單元所對應之切 音可靠度及語音可靠度後,將結合前述可靠度資訊以盘一 ㈣m監值相比’當可靠度大於門檀值時,表示此待測語 音單兀係被正確地錄製,故接受待測語音單元, 拒絕待測語音單元。 ' 9 1220511 【實施方式】 本發明所提出之連續語音自動切音及驗證之方法及 系統係可應用在基於語料庫之文字轉語音(c〇rpus_based text-to-speech)系統的合成語音單元建置,亦可應用在任何 5需要從大語料庫中切取語音單元的應用中。有關本發明之 較佳實施例,請先芩閱圖1之功能方塊圖,其顯示本實施例 係使用於一電腦系統1以對參照已知文字腳本K(known text script)所錄製的錄音語料槽R(rec〇r(jed speech corpus) 來進行切音驗證及語音驗證。本實施例之電腦系統1包括有 10 一 > 料庫 11、一單元切割器 12(speech unit segmentor)、一 切音驗證器13(segmental verifier)、一語音驗證器 14(phonetic verifier)、以及一單元篩選器 15(speech unit inspector),用以驗證自錄音語料檔r中所切割出的待測語 音單元121之切音可靠度CMS及語音可靠度CMV。其中, 15資料庫Π係用以儲存已知語音腳本又稱錄音腳本、或文 字腳本)及錄音語料檔R,已知語音腳本尺係定義有Ν個語音 單元(speech unit segment)之語音資訊,錄音語料槽R較佳 為委請專業錄音人士根據上述已知語音腳本K所錄製而成 的真人語音。 2〇 由於下述之實施例係以中文(Mandarin)語音合成語料 庫之應用為例’而中文係屬於單一音節(1]1〇]1〇8丫11&316)語 言’亦即每一個中文字就代表一個音節(syllable),因此在 進行語音合成時所需使用的基本合成單元(即語音單元)較 佳係為中文「音節」以便於舉例說明,由語音學上的觀點 10 1220511 來看,一個中文音節通常係由聲母(initial)及韻母(final)所 組成,其中,聲母包括有鼻音(nasal)、流音(liquid)、塞音 (stop)、摩擦音(fricative)、及破擦音(affricate)等音素 (phonemic)種類。當然語音單元亦可以是單音(phone)、雙 5 音(di-phone)、字根(root)、字首(prefix)、或詞(word)·.·等 可供進行語音合成之語音單元,並不侷限於本實施例之應 用範疇。 接下來請一併參閱圖2,其係詳述本實施例電腦系統1 的驗證流程。首先,電腦系統1係接收由專業錄音人士根據 10 已知文字腳本K所錄製而成的錄音語料檔R並將其儲存於 資料庫11中(步驟S201);接著,由單元切割器12根據預存 於資料庫11中之已知文字腳本K的語音資料,以自錄音語 料檔R的語音段中切割出N個待測語音單元121 (text speech unit segment)(步驟S202),藉以取得各個待測語音單元121 15 的切點位置(cutting point)資訊。 為確保本實施例之單元切割器12所切割出的音節保 有連續語音的詞語特性,因此請參閱圖3,其係詳述圖2之 步驟S202中用以切割出待測語音單元121的細部流程,單 元切割器12首先使用隱藏式馬可夫模型(hidden Markov 20 model,HMM)對錄音語料槽R進行切音校準(alignment)(步 驟S301),以粗略地切割出N個待測語音單元121,且每一 待測語音單元121皆對應有一初始切點位置,其中,隱藏式 馬可夫模型使用之分析視窗的音框長度為20ms、音框位移 為10ms,而切割出的每一特向量係具有26個維度的特徵 11 1220511 值,分別為12維的梅氏倒頻譜係數(Mel-ceptral coefficient)、12維的差分(delta)倒頻譜係數、與對數能量 的 1 次及 2 次差分 (delta-log-energy 及 delta-delta-log-energy)。此外,本實施例係使用不特定語 5 者(speaker independent)之隱藏式馬可夫模型作為聲母模 型(initial model)來訓練特定語者(speaker dependent)之隱 藏式馬可夫模型。 接著,第二步將根據由隱藏式馬可夫模型所切割出的 各個初始切點位置進行細部微調(fine adjustment)(步驛 10 S302),進而取得更精確的切點微調值,其包括根據不同的 單元型態、語音參數之資料、還有搜尋單元等特徵參數來 對初始切點位置進行微調,上述特徵參數例如為初始切點 位置的相鄰(neighboring)切點位置、待測語音單元121之過 零率(zero crossing rate,ZCR)、及待測語音之能量值 15 (energy),例如可使用音框長度為5ms、音框位移為1ms的 視窗來計算出過零率及能量值以取得切點微調值,其中, 能量值係為待測語音單元121之帶通訊號(band pass signal) 及高通訊號(high pass signal)之能量值,其係擷取自一特定 語者頻帶。 20 最後,由於本實施例所進行之語音切割係可應用於文 字轉語音(text-to-speech,TTS)系統中,其重點在於提升切 割音段的語音連續性,亦即不只需要正確的切割單元、更 需要讓切割出的音節音調能夠接近一般常態,故第三步將 整合上述待測語音單元121所對應的初始切點位置及切點 12 1220511 认凋值-以決疋出各待測語音的切點位置(步驟S303)。其 中正a方法例如可根據不同的類別而有不同的優先順序 (pnonty),也就是在某一個特定類別中、就尊重某一個專 家意見;或可根據多個專家意見取平均值(average);亦可 5對各切點位置及切點微調值賦予權重平均值 average) ’ §然’不同聲母的過零率統計值、或者各個不 同聲母4母及音節種類的週期統計值和能量統計值亦 可作為整合的依據。 /、再請參考圖1之方塊圖及圖2之流程圖,其顯示在取得 _ 1〇待單元121的切點位置資訊之後,電腦系統1將把待 、日單元121刀別傳送至切音驗證器13和語音驗證哭14 · ^執行驗證流程,以確認錄音語料標R中的音節和已i文 - P本K中的曰節間的語音一致性(Phonetic consistence)。 切音驗證器13將驗證待測語音單元121的切 15 CMS(步驟S2fn、 ^ ^ 曰J罪沒 古五立抑- ),其係根據各種語音統計參數來判斷待測 $立抑21所對應的切點位置是否正確,藉以決定出待測 各。曰早元I2i的、喜 待測注立如—、瓊界b〇Undary);而語音驗證器14則將驗證 _ 音單元單b元121的語音可靠度(步驟S204),以判斷待測語 2〇的是,上、,是否確貫根據已知文字腳本尺錄製而成。需注意 疋 述步驟S203及步驟S204較佳係為同時執行,當缺 亦可:調兩者之執行順序。 ,、、、. /、中由切音驗證器13計算出之切音可靠度CMS為: gg(c(s),f(s)),0), 13 1220511 當中’ h(D)=K㈣di__h(D)=吨资岭d為待測 5 語音單元121之切點的多專家決策向量值,dl為切點位置, d = P(D)為切點之最後決策位置,其係可根據優先順序、平 均值、或權重值所決定出來,κ(χ)為一用以將非負值變數 對應(maPping)為介於^σ1之間之數值的單調遞增函數 10 (m^tomcally咖簡峋Wti〇n),吵)係用以驗證在多 ":系統中、多個決策點(d-η間的不一致性, 致性越高,就表示可靠度越低,神),办))則為 值,,於0和1之間的成本函數,s為-音段,c(S)為音段s ,,⑽為音段S之聲學特徵,其可能是過零率、長度、 此里值、及週期...等。因此,本實施例之 15 20 :介於。(可靠度最低)和丨(可靠度最高)之間,而在== 中二將會對不可靠的結果扣分,最低扣到0分為止,其中不 可罪的結果可能是切點位置係為發散不-致的情形等。 ^列來說’若預期所切割出的待測語音單元121是—段摩擦 曰’其對應之過零率應該略微偏高,但實際上卻切割出— 段沈默語音(Sllenee),則實際所測出的過零率將不 預期的高?吏得計算出的成本值變大,導致可靠度降低。 而广貝轭例之s吾音驗證器N則是根據語音辨識領域 所採用的區辨詞語驗證(discriminative utterance 進行1動音節驗證程序,其針對每一音節類 白刀別口又计有一組音節模型(syllable model)和反向模型、 (anti-model)以組成今五A 4 、 節模型係訓練為用:::型(venflcatl°n m°del)。音 辛°哉待測語音單元121和目標語音單 14 1220511 元類別相符的機率;反之,反向模型則訓練為用以辨識待 測^單元m不符合目標語音單元類別的機率,由於:練 曰節模型與反向模型的方法係為此項技術領域之人士所热 知,故不在此贅述。據此,語音驗證器14將可計算出嗜立 5可靠度CMV為: ’ w曰 CMV = min{LLRI5LLRF?〇} 5 當中,jLLRI=l〇gP(Xi|H〇) — 1〇gP(x」Hi) lLLRF = l〇gP(XF丨HJ — 1〇奸氏丨Ηι),&為待測語音單元 之聲母,Xf為待測語音單元121之韻母,Hq為待測語音 早兀121係被正確錄製之虛無假設(即對應於音節模型),η 10為待測語音單元121未被正確錄製之對立假設(即對應於反 向板型),LLR為一對數近似值比(1〇g likelih〇〇d 。 需注意的是,本實施例之切音驗證器13除可驗證切點 位置之外,亦具有部分驗證語音可靠度的功能,因為倘若 錄音語料檔R中所錄製的語音不正確時,所對應的特徵參 15數就會有誤,因此切音驗證器π可部分檢查出此錄音語料 ^否正確;此外,本實施例之語音驗證器14亦可在驗證語 曰内奋之餘,具有驗證切點位置的功能,因為假如切點位 誤,則在進行語音驗證時將會受到切割錯誤的待測語 音早元121影響、而產生較大的誤差,導致降低語音可靠度 20 CMV。 & 土最後,將由單元篩選器丨5結合切音可靠度CMS及語音 可靠度CMV用以與一預設之門檻值比對(步驟S2〇5),藉以 決定接受或拒絕待測語音單元121 (步驟S2〇6)。其中,單元 15 1220511 篩選器15係可採用前期決策(early decisi〇n)或後期決策 (late decision)的作法來比對待測語音單元丨2丨的切音可靠 度CMS及語音可靠度CMV。而前期決策方式係可區分為兩 種作法,第一種是切音可靠度CMS及語音可靠度cmv皆八 5別與門檻值比較後,判斷出兩者皆為可靠時’才接受待^ 語音單元121以收錄至大語料庫中;第二種則是切音可靠产 CM,或語音可靠度CMV其中之_為可靠的,就接受待測言: 音単兀121。至於後期決策方式,則是在正規化切音可靠产 CMS及語音可靠度CMV後,賦予各可#度不同的權重值二 10計算出一單一可靠度用以和門檻值比較來作決策。 由以上說明可知,本發明可透過電腦自動切割音槽、 及整合切音與語音驗證之可靠度分析的流程,除了可取田得 可靠的的切割位置、且檢驗出有問題的錄音語料外,更可 避免因人工檢查所造成的疏忽及不一致性,因此大大提升 15 了大浯料庫語音單元收錄的方便性、正確性、及品質。 上述實施例僅係為了方便說明而舉例而已,本i明所 主張之權利範圍自應以申請專利範圍所述為準,而非僅限 於上述青放你丨。 20【圖式簡單說明】 圖1係本發明一較佳實施例之功能方塊圖。 圖2係本發明一較佳實施例之流程圖。 圖3係本發明一較佳實施例之切音步驟之流程圖。 16 1220511 【圖號說明】
電腦糸統1 單元切割器12 切音驗證器13 單元篩選器15 語音可靠度CMV 錄音語料檔R 資料庫11 待測語音單元121 語音驗證器14 切音可靠度CMS 已知文字腳本K
17
Claims (1)
1220511 拾、申請專利範圍: 及驗證之方法 包括下列步 1 · 一種連續語音自動切音 驟: 一純取稣首語料檔步驟系 立这祖% ^a a 錄音語料檔,該箱 曰^#之内谷係㈣—已知文字腳本所錄製而成,該已 知文子腳本中係定義個語音單元之語音資訊; 一切音步驟,係根據該 立欠 x匕夭文子腳本中該等語音單天 之&曰貝汛,自該錄音語料檔中
單元· 才钿T對應切剎出N個待測語音 10 一切音驗證步驟, 置所對應之切音可靠度 之切點位置是否正確; 係驗證該等待測語音單元之切點仿 ,以判斷該等待測語音單元所對肩 15 單元之語音可 據該已知文字 一語音驗證步驟,係驗證該等待測語音 靠度,以判斷該等待測語音單元是否係為根 腳本錄製而成;以及
土—決策步驟,係結合該待測語音單元所對應之切音可 靠度及語音可靠度用以與—預設之門檀值比對,當該可靠 度大於該門檻值時,接受該待測語音單元,反之,則拒絕 該語音單元。 2·如申請專利範圍第2項所述之方法,其中,該切音 步驟係包括下列步驟·· 曰 根據該已知文字腳本中該等語音單元之語音資訊,使 用fe藏式馬可夫模型以自該錄音語料$當中對應士刀割出Ν個 18 5 ==,其中每-待測語音單元係嫩義有-初 該待應之至少一特徵參數,以對 測語音單元對應之至少—切點微調值=及亚计鼻出該待 正合3亥待測語音單元之初始 以取得該待測語音單元之切點位置/、 微調值 组立^元如申5月專利範圍第2項所述之方法,其中,該待測 1〇 特徵參數係為該初始切點位置之相鄰切 4.如申請專利範圍第2項所述之 語音單元之特徵參數係為該待測語音翠元之過:率待測 上立5.如申請專利範圍第2項所述之方法,其中, 15 语曰單元之特徵參數係為該待測語音單元之能量值:… 值係為該待測語音:元圍之弟二:㊁之方法’其中,該能量 其係操取自-特高通訊號之能量值’ 20 點微7調值專;^Λ2項2之方法,其+,每一切 俜 冑%重值’该待測語音單元之切點位置 係為械切點位置及切點微調值之權重平均值。 立二牛如=專利範圍第1項所述之方法,其中,於該切 驗^驟中,該待測語音單元所對應之切音可靠度係為: CMS = max(l-h(D)_Sg(c(s)5f(s))j〇A , s,f I 19 當中,h(D)=K(?Wi|di 一两J,D為該待 m 畜〜 日早兀之切點之多 豕決策向量值,di為切點位置,L ^ 决朿位置,κ(χ)為一用以將非負值變數對肩^占之取後 間之數值的單調遞增函數,祕f(=應童為介於0和1之 之間的成本函數,‘音段,c(=i:數值介於㈤ 音段s之聲學特徵。 之頌別,f(s)為 9.如申請專利範圍第丨項所述之方 音驗=驟中,該待測語音單元所對應之語音可靠;^吾 CMV = min{LLRI?LLRF?〇} ^ 10 當中 rLLRI=l〇gP(Xi|H0)-l〇gP(xi,H) LLRF = l〇gP(XF丨HJ — 1〇gp(x」幻’ Χί為該待测語音單 ΐ::: ’ Xf為該待測語音單元之韻母,Η°為該待測語音 早兀係被正確錄製之虛無假設’ Ηι為該待測語音單元未被 正確錄製之對立假設,LLR為—對數近似值比。 15 10· —種連續語音自動切音及驗證之系統,包括·· -貝料庫’係儲存有一已知文字腳本、以及一參照該 已知=字腳本所錄製而成之錄音語料槽,該已知文字腳本 中係疋義有N個語音單元之語音資訊(N為正整數” 一 單7^切割模組,根據該已知文字腳本中該等語音單 一之m Θ資Λ,自该錄音語料槽中對應切割出N個待測古五 20 音單元; 一切音驗證模组,係驗證該等待測語音單元之切點位 置所對應之切音可靠度,以判斷該等待測語音單元所對應 之切點位置是否正確·, 20 1220511 一語音驗證模組,係驗證該等待測語音單元之語音可 靠度,以判斷該等待測語音單元是否係為根據該已知文字 腳本錄製而成;以及 一單元篩選模組,係結合該待測語音單元所對應之切 5音可罪度及語音可靠度用以與一預設之門插值比對,當該 可靠度大於該門檻值時,接受該待測語音單元,反之,則 拒絕該語音單元。 11·如申請專利範圍第10項所述之系統,其中,該切音 驗證模組係根據下列步驟以驗證該等待測語 10 位置所對應之切音可靠度: … 用隱藏式馬可夫模型以自該錄音語料檔中對
根據該已知文字腳本中該等語音單元之語音資訊,使 根據各待測語音單元 元所對應之至少一特徵參數,
切點位置及切點微調值 一符徵芩數,以對 出該待 整合該待測語音單元之初始切 取得該待測語音單元之切點位置。
之系統,其中,該待測 7始切點位置之相鄰切 之系統,其中,該待測 21 1220511 u / /專利範圍第11項所述之系統,其中,該待測 二:之由特徵參數係為該待測語音單元之能量值。 值係為^專利範圍第14項所述之系統,其中,該能量 二ΓΓ:音單元之帶通訊號及高通訊號之能量值, 八係擷取自一特定語者頻帶。 _6值如:二專:範圍第11項所述之系統,其中,每-切 传二;、: 權重值’該待測語音單元之切點位置 係為相始切點位置及切點微調值之權重平均值。 ίο 語音第1。項所述之系統,其中,該待測 曰早7L所對應之切音可靠度係為: CMS = max(l-h(D)-gg(c(s),f(s)),〇j, 田中h(D) =吻D為該待測語音單元之切點之多 :!決策向量值,di為切點位置,“⑼為該切點之最: 15 ’、束位置,K⑻為-用以將非負值變數對 間之數值的單調遞增函數,g(e(s),f(s))為 /1之 之間的成本函數,8為_音段,e(s)為音段別1於0和1 音段S之聲學特徵。 '別,f(s)為 18.如申請專利範圍第1〇項所述之系統,复 語音單元所對應之語音可靠度係為:,、、’、,,、中,該待測 CMV = min{LLRI5LLRF?0} 9 當中,ILLR〗=logPR 丨 η。) 一 logPp^ 丨 jj ) lLLRF = l〇gP(XF I Η。) 一 logP(XF 丨 Ηι) ’ x!為該待測語音單 凡之聲母,XF為該待測語音單元之韻母, 、 。為該待測語音 22 1220511 單元係被正確錄製之虛無假設,Kh為該待測語音單元未被 正確錄製之對立假設,LLR為一對數近似值比。
23
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW092125187A TWI220511B (en) | 2003-09-12 | 2003-09-12 | An automatic speech segmentation and verification system and its method |
US10/782,955 US7472066B2 (en) | 2003-09-12 | 2004-02-23 | Automatic speech segmentation and verification using segment confidence measures |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW092125187A TWI220511B (en) | 2003-09-12 | 2003-09-12 | An automatic speech segmentation and verification system and its method |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI220511B true TWI220511B (en) | 2004-08-21 |
TW200511207A TW200511207A (en) | 2005-03-16 |
Family
ID=34076580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW092125187A TWI220511B (en) | 2003-09-12 | 2003-09-12 | An automatic speech segmentation and verification system and its method |
Country Status (2)
Country | Link |
---|---|
US (1) | US7472066B2 (zh) |
TW (1) | TWI220511B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7519075B2 (en) | 2004-12-10 | 2009-04-14 | Mediatek Inc. | Method and system for serverless VoIP service in personal communication network |
TWI833072B (zh) * | 2021-03-30 | 2024-02-21 | 緯創資通股份有限公司 | 語音辨識系統及語音辨識方法 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742919B1 (en) | 2005-09-27 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | System and method for repairing a TTS voice database |
US7630898B1 (en) | 2005-09-27 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | System and method for preparing a pronunciation dictionary for a text-to-speech voice |
US7693716B1 (en) | 2005-09-27 | 2010-04-06 | At&T Intellectual Property Ii, L.P. | System and method of developing a TTS voice |
US7711562B1 (en) * | 2005-09-27 | 2010-05-04 | At&T Intellectual Property Ii, L.P. | System and method for testing a TTS voice |
US7742921B1 (en) * | 2005-09-27 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | System and method for correcting errors when generating a TTS voice |
US20070203706A1 (en) * | 2005-12-30 | 2007-08-30 | Inci Ozkaragoz | Voice analysis tool for creating database used in text to speech synthesis system |
US7890330B2 (en) * | 2005-12-30 | 2011-02-15 | Alpine Electronics Inc. | Voice recording tool for creating database used in text to speech synthesis system |
US8510113B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
EP1906386B1 (en) * | 2006-09-29 | 2009-11-11 | Honda Research Institute Europe GmbH | Using child directed speech to bootstrap a model based speech segmentation and recognition system |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP2011180416A (ja) * | 2010-03-02 | 2011-09-15 | Denso Corp | 音声合成装置、音声合成方法およびカーナビゲーションシステム |
JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
US20130006827A1 (en) * | 2011-06-29 | 2013-01-03 | Waldstock Ltd | Group based trading methods |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9020803B2 (en) | 2012-09-20 | 2015-04-28 | International Business Machines Corporation | Confidence-rated transcription and translation |
WO2014197334A2 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110992989B (zh) * | 2019-12-06 | 2022-05-27 | 广州国音智能科技有限公司 | 语音采集方法、装置及计算机可读存储介质 |
US11328731B2 (en) * | 2020-04-08 | 2022-05-10 | Salesforce.Com, Inc. | Phone-based sub-word units for end-to-end speech recognition |
CN112420075B (zh) * | 2020-10-26 | 2022-08-19 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783811A (en) * | 1984-12-27 | 1988-11-08 | Texas Instruments Incorporated | Method and apparatus for determining syllable boundaries |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US6125345A (en) * | 1997-09-19 | 2000-09-26 | At&T Corporation | Method and apparatus for discriminative utterance verification using multiple confidence measures |
TW418383B (en) | 1998-09-23 | 2001-01-11 | Ind Tech Res Inst | Telephone voice recognition system and method and the channel effect compensation device using the same |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US6535851B1 (en) * | 2000-03-24 | 2003-03-18 | Speechworks, International, Inc. | Segmentation approach for speech recognition systems |
US6684187B1 (en) * | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
JP4759827B2 (ja) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | 音声セグメンテーション装置及びその方法並びにその制御プログラム |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
TW556150B (en) * | 2002-04-10 | 2003-10-01 | Ind Tech Res Inst | Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure |
US7280967B2 (en) * | 2003-07-30 | 2007-10-09 | International Business Machines Corporation | Method for detecting misaligned phonetic units for a concatenative text-to-speech voice |
US7496512B2 (en) * | 2004-04-13 | 2009-02-24 | Microsoft Corporation | Refining of segmental boundaries in speech waveforms using contextual-dependent models |
-
2003
- 2003-09-12 TW TW092125187A patent/TWI220511B/zh not_active IP Right Cessation
-
2004
- 2004-02-23 US US10/782,955 patent/US7472066B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7519075B2 (en) | 2004-12-10 | 2009-04-14 | Mediatek Inc. | Method and system for serverless VoIP service in personal communication network |
TWI833072B (zh) * | 2021-03-30 | 2024-02-21 | 緯創資通股份有限公司 | 語音辨識系統及語音辨識方法 |
Also Published As
Publication number | Publication date |
---|---|
US7472066B2 (en) | 2008-12-30 |
TW200511207A (en) | 2005-03-16 |
US20050060151A1 (en) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI220511B (en) | An automatic speech segmentation and verification system and its method | |
TWI275072B (en) | Pronunciation assessment method and system based on distinctive feature analysis | |
Schuppler et al. | Acoustic reduction in conversational Dutch: A quantitative analysis based on automatically generated segmental transcriptions | |
Shobaki et al. | The OGI kids’ speech corpus and recognizers | |
Maier et al. | Automatic detection of articulation disorders in children with cleft lip and palate | |
Sonderegger et al. | Automatic measurement of voice onset time using discriminative structured prediction | |
Mairano et al. | Acoustic distances, Pillai scores and LDA classification scores as metrics of L2 comprehensibility and nativelikeness | |
CN108364634A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
Middag et al. | Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
Kuo et al. | Data selection for improving naturalness of tts voices trained on small found corpuses | |
Meinedo et al. | Age and gender detection in the I-DASH project | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Heeren | The effect of word class on speaker-dependent information in the Standard Dutch vowel/aː | |
Sharma et al. | Development of Assamese text-to-speech synthesis system | |
Urbain et al. | Automatic phonetic transcription of laughter and its application to laughter synthesis | |
Halabi | Arabic speech corpus | |
Yan et al. | Analysis and synthesis of formant spaces of British, Australian, and American accents | |
Khanal et al. | Mispronunciation detection and diagnosis for Mandarin accented English speech | |
Koriyama et al. | Conversational spontaneous speech synthesis using average voice model. | |
Narendra et al. | Syllable specific unit selection cost functions for text-to-speech synthesis | |
Barczewska et al. | Detection of disfluencies in speech signal | |
Binnenpoorte et al. | Improving automatic phonetic transcription of spontaneous speech through Variant-Bases pronunciation variation modelling | |
Joshi et al. | Acoustic models for pronunciation assessment of vowels of Indian English | |
Lőorincz et al. | An evaluation of postfiltering for deep learning based speech synthesis with limited data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |