TW219993B - Speech recognition system - Google Patents

Speech recognition system Download PDF

Info

Publication number
TW219993B
TW219993B TW81104028A TW81104028A TW219993B TW 219993 B TW219993 B TW 219993B TW 81104028 A TW81104028 A TW 81104028A TW 81104028 A TW81104028 A TW 81104028A TW 219993 B TW219993 B TW 219993B
Authority
TW
Taiwan
Prior art keywords
mentioned
signal
data
digital signal
digital
Prior art date
Application number
TW81104028A
Other languages
English (en)
Inventor
Chaur-Kae Shieh
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW81104028A priority Critical patent/TW219993B/zh
Application granted granted Critical
Publication of TW219993B publication Critical patent/TW219993B/zh

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Ί
〇f the invention)簡述 線性預測编碼(LPC)及動餘 辨識中,做為辨識系統中參數·刻比對(DTW)常用於語音 不遇這些方法常須較複雜的計if取及有效的比對方法, 為了達到即時(real time)虑按芝及佔用較大的記憶體; 的數位信號處理器(DSP),並!=敖果,常須用到較複雜 如PC/AT,故所需的成本花費较屬在另一個處理機上,例 5-2 發明目的:(the purpose 空間,而能以-個较簡易的數,及記憶體 須附屢在另-個 ^毛"' -6 ”項再填 tf 本頁) *装. -訂. 經濟部中央標準局員工消费合作社印纪
Jr rr rf! :·*: t-r .U r*-· '.A- :n ,Γ V Q、 〜、 219933 A6 B6 玉、發明說明―{ 2·) 5-3闺式說明: 囷— 囷二 圊三 圏四 囝五 囝六 圖七 囷八 囝九 、 、
N 本發明獨立式及時語音辨識系綻方塊圖 本發明獨立式及時語音辨識系統软體流程囷 本發明之特徵點草取模式圊 ~ 本發明之語音端點俏測模式圖 傳紇之動態規畫比對法 本發明所使甩之對稱法 本發明之動態規畫比對法 本發明之一維循環式缓衝器 本發明之最佳實施例 器 周适就明二 m蓼克風· 103類比對數位轉揍器 105參考樣本存放器 107辨幾器 特徵點萃取步趙 204辨認步苟 206辨起比對步驟 902 16位元缓衝器 904串踯轉並聯旗標產生 906 16位元缓衝器 908解·2¾器 910 16位元位址計數器 102運算放大器
1CM數位信號處理器(DS 1〇6控制電路 2〇1前級處理步驟 203語音端點俏測步羝 205有效參考樣本步驟 901. 16位元位移暫在 9〇3時脈產生器f吞器 905辨識器 ° 9〇7參考樣本存敎 909解碼器 品 911 16位元缓衝芦 太《沒尺Θ 3 - A6 B6 213933 五、發明説明(j ) 5-4發明詳細詳明 % ^ ¾ t·] Λ ^ (DTwf 如TMS32〇l〇) , gp寸拿成一毒的數位信號處理器(例 的獨立式即時語音辨識系統〇、眉附屬在另一個處理機上 謂%ϊΐ= 硬體ί:Γ:一,,以下分為 ifAfD克風所傳來橄弱的電平ίί=?類ίϊίϊ^02 “為Ϊ位語音信號以供給數位信號處理器(DSP)104 考樣本存放器1()5用來儲存在剑練遇程中所取 号樣本(referenCe Pattern)以供未來在辨認過程 二’控制電路1〇6為控制類比對數位轉換器1〇3及數位 理器ι〇4之間數位信號的串聯一並聯轉換及產生時阪 电路(Timing generat〇r ),辨識器1〇7爲用來存放有閼 {請先閱讀背面之注意事項再填寫本页) -装. ’打· •綠· 本纸it尺中家料咖)r很格(21叹297公免) 213333 A6 B6 •、發明說明(p ) 語音訊號特徵點的莩取(feature extraction)、端點偵測 (endpoint detection)、修正遇的動態規刻比對(DTW)等 資料以提供數位信號處理器(DSP)104,在訓練遇程及辨識 遇程之用,最後的辨緦結果由數位信號處理器104輸出。 在軟雅方面如圖二所示,數位語音信號先經遇前級處 理步驟201的遇程,也就是先經遇一階濾波(first order filter) (1-0.937Z"1 ),將數位語音信號中的高頻語音信 號部贫加強避免曼责楚爲寒爽/之後在特 ϋϋ:琢i〇2,#已加S i頻語导信號足數位語音信號每隔 30毫秒(ms)il重鲞10毫秒為一音框(frame)如圏三所示, 並經遇取窗函數的近似漢明取窗(Hamming Window)式子如 下 h(n)-0.5(l-cos(2TT η/(Ν-1))) 0^η^Ν-1 =〇 otherwise 再利用杜贫(Durbin)化簡法,以求取10階固定點(fi_ xed point)的線性預測係數(LPC)為參數,以供辨認之用。 在語音端點偵測步驟203之偵測中,利用上述在求1〇階 固定點的線性預測係數之遇程中,所求得的能量參數,W 尋找出語音部份並去除雜訊(noise)的部份。 {請先聞讀计面之注意事項再填寫本页) •裟. •打· •線· 本纸张尺度琏中E E家棵3 (c N s 1甲4規格(2】0 X 297公年) 219333
五、發明說明(义*) 在辨認步縣204中,可分為訓練遇程及辨 ,練簡上❸。_ t魏性:如為 {請先閱讀背面之注意事項再填窵本页) 參ίίί,即執行有效參考樣本(Ref erencre ,以掛愚十為辨認遇裎則執行辨怒比對步縣206 / +、丄ymmetriC f〇rm)修正遇的動態規割比對(DTW) 取1起4果,其辨認方式為將所欲尋找最短距離以一 、、隹(one dimention)循環式(circuiar)的緩衝器來製作, 而最短距離即為辨起結果;而此鍰衝器所須的記憶體大小 僅約10到13個左右即可,所以比傳統上的技術可以大量減 少記憶體的使用;在求最短跟離的比對,則採下列公式·· d(i*j)= I a; -¾ 1 ai :參考樣本之LPC參數 b;· ··欲辨認樣本之LPC參數 在語音端點β測步鄉(end point detecetion)203中, 利用能量參數,以尋找出語音部份並去除雜訊部份(noise) 如圏四所示,D爲波峰的寬度亦為單音的長度,BTW爲兩波 峰之間的寬度亦為兩單音之間的長度,其方法如下: 步驟1 :針對每一音框(frame),求取能量參數E ; 240 Ε= Σ [SU)/ ,S(i)表示每一筆A/D的數位 i = l 語音信號 經濟部屮央標肀局肖工消"合作代卬" 步驟2 :設定總長L爲必,抓取一能量參數E ; 步驟3 :假如E小於臨界(Threshold)值,則該音框(hame) 爲雜訊,孤取下一音檀(frame)的能量參數直到E 大於臨界(Threshold)值; 本纸ft尺度迖用中g g家揉(CNS |甲4境格(21 〇X297公梵) 219993 經濟部十央標-;,1局辑工消'!-合作社印" A6 B6 --—-—----------«««----- 五、發明説明(& ) 步驟4:設定旗標(flag) = 0 (表示單音); 步驟5 :設定D=〇 ; 步縣6 :假如D大於臨界值,D長度増加1 ,並抓取下一音框 ,直到D小於臨界值; 步驟7 : L = L+D 步驟8 : Case 1 :假如旗標(flag)等於〇 假如D小於8,則視為雜訊,將l清除為〇,旅回到 步驟1 假如D大於等於8,則詨BTW爲0,旗標爲1,執行 步驟9 Case 2:假如旗標(flag)等於1 假如D小於8,則BTW=BTW+D 假如D大於,等於8,則彀定BTW爲0 ; 步驟9 :假如[(E小於臨界值)並且(BTW小於等於16)]則BTW = BTW+1並抓取下一音枢,回到步驟9 ; 步觸10:假如BTW小於16則L = L+BTW,回到步驟5; 步驟11:1_ = 1_-8丁以,清除((:1631')8丁1^,輸出語音總長1_; 步秘12 :結束語音端點1貞測(end point detect ion) 〇 一請先閱讀背面之注意事項再瑱駕本页) •襄. -訂· •綵· 本紙張&度適用中g g家標準(CNS)甲4規格(210x297公梵) p 1 〇- q ο 〇 Α6 Β6 五、發明說明(γ ) 傳統動態規刻比對(DTW)方法如圏五所示,本發明係 採f Ϊ如圈六所示之對稱法(Sy_etric f〇rm)修改遇之囷 七=態規刻比對法,來做辨趄比對步驟204,不遇由於比對 路4里f*教(wraPPin9 function) —般皆用二維方式(two di-menS1=n)來刻作,從囷五我們知道其所需儲存量(wrapping sp^〇e),ix j ,當i,j•甚大時,將會浪费許多記憶體儲存 ’為I即省記憶體我們修改其二維函數,成為一維函數, 其儲存量最多只須2W+i(w為adjust window size), W值在 本發明之實驗值為6 ;此外為了避免尋找路徑過長,傳得此 :維函數會發生溢流(over flow)情形,我們用一如&8所 不之循環緩衝器(cicular buffer)來製作。為了說明以上 之以對稱法修正遇的動態規剴比對法,我們先定義〆下變 數: i :測試樣本的長度 j:參考樣本的長度 st :對i而言搜尋範面的起始點 ed :對i而言後尋範圍的終點 bef :搜尋長度(ie、ed-st+1)
Sti :前一個技尋的起始點x座標值 St j :前一個捜尋的起始點γ座標值 Ptr :後尋長度或技尋長度+1 W:窗大小(window size)
Ptg :循環缓衝器(cicular buffer)的指標(p〇inter) DTW:總長度(Total distance) ai :測試樣本之LPC參數 K :參考樣本之LPC參數 g:#環緩衝器大小(cicular buffer size)=2xwindow+l d (i,j):表示兩點間炬離 一請先W磺背面之注意事項再填弈本页) k. •訂. 經濟部屮央標肀局β工访详合作ft .綵. 本紙張尺度適用中BS家悻準(CNS丨甲4規格(2〗〇x297公¢) Ο 1 Q Γ; Ο J 二# JL η〆 4^. 〇 Α6 Β6 五、發明説明(公) 步驊 1 :設定i,j,sti,stj,Ptg^i 設定 bef = l+window 步驟 2 : i=i+1 步驟3: if^isj+window) then 計算 st=j-window; ed=j+window; If(ST<=0 ST=1; If (ed>測試樣本總長)e(j=測試樣本總長 If (現在後尋的起始座標各減1等於(sti Stj)座標) 、v U, then ptr=bef; else ptr=bef+l; If (j>參考樣本總長) then DTW=sum/c測試樣本總長度+表 本總長度) 号襍 Ssop ; else i=j-window 回到步驟3 else
If (i^ 0)回到步鶊2 If (i>測試樣本總長)回到步驟(st pth=ptg+i 10 求d(i,j)= Σ I aw I rn = l If(i> = l and j-l>=l and I j ^window) < then 路徑^gfptg-ptr+lhcmj). 一請先閱讀背面之注意事項存) k. •It. 本紙尺家鮮(GNS)lH_⑵Px297公雙: A6 B6 經濟部十央標"局約工消"合作杜印製 五、發明說明(y ) If(i-l>=l and j-i>=l)then 路徑 2=g[ptg-ptr]+2*d(i,j); If(i-l>=l and j>=l and | i-j-1 | <=window) then 路徂 3 =g[ptg-l]+d(i,j); g[Ptg]=minimum(路徑 1,路徑2,路徑3) 回到步驟2 〇 5-5最佳實施例: 如围9所示爲本發明之最佳實施例,類比語音信號經 由麥克風101送到運算放大器102,將類比語音信號放大到 +5V 5V之間’再經由類比轉數位轉換器(A/D converter) 103,將類比語音信號轉成串列式(seriai)的8位元1〇g_pcM 的數位信號(PCM0UT),再將此數位信號(pCM out)送到一 16 位元的位移暫有器(shift register) 901内,如此則可將 串列式8位元l〇g-PCM的數位信號,轉成並列式(parauel) 以便數位信號處理器(DSP)104處理〇 在取樣頻率方向’則由時眼產生器(clock generator) 903產生時阪以供應:(一)主要時鐘眼波(master clock) CLKIN 20 MHz給數位信號處理器(DSP)104用。(二)2MHz之 CLKX/CLKR及BKHz之FSX/FSR給數位轉類比轉揍器103用(三) 另產生一睬波QD以傳給串聯轉並聯旗標產生器(Serial_t〇_ ParaleJL flag generator)9〇4之用。當16位元位移暫存器 901接收到上述2筆8位元l〇g-PCM的數位信號後由串列轉並 列旗標產生器904所產生之ΒΙ0信號會通知數位信號處理器 (DSP) 1〇4以接收由16位元位移暫存器901及16位元缓衝器 902所傳送出之16位元並列式語音數位信號,接著,數位信 號處理器(DSP)104及辨識器(recognizer,4Κχ 16R0M)905 及16位元鍰衝器(16bit buffer) 906將數位語音信號經過 {請先閱讀背面之注意事項再填寫本頁) •装· •打· •綵· 本纸张尸、度適用中薛茜玄桴XMCNS •甲4梘格公¢) 經濟部屮央標H1-局員工>ή·^合作ft卬踅 213933 A6 B6 五、發明說明(川) 一陆遽波(forst 〇rc|er filter) (1_0_937Z )之前級處理 2〇1接j再做特徵點之莩取202每隖30毫秒重鲞(overlap) 析產生一組10階固定點線性預測係數為辨怒參數, 订Ϊ音端點俏測203,如為訓練遍程則將上述之辨怒參 入參考樣本存放器(reference storge 32Κχ 16 SRAM) ’如為辨認遇程,解碼器908及解碼器909兩組解碼器 -,:CC^r)會產生駐動信號(drive signal)CP及load給16位 計歎器(丄6 bit addres scounter) 910以產生參考樣 (907)所需的位址(address),並將此位址内所取 運用撤^參教經由上6位元緩衝器bit buffer)送出’並 备2ίί(9〇5)内的以對稱法修正遇的動態規畫比對法,在 双说^號處理器104中經由比對,以求取辨認結果的輸出。 1甲4規格(210x297公嫠)

Claims (1)

  1. 213333 六、申請專利範圍
    申請專利範圍: .一種獨立式及時語音辨識系統,本系統包含: 麥克風裝置係將語音訊號轉為類比式電平訊號; 放大裝置將上述之類比式電平訊號之電壓放大以產生— 放大類比式電平訊號; 類比轉數位轉換裝置將上述之放大類比式電平訊號轉換 為一串列式數位信號; ’ 、 控制裝置將上述之串列式數位信號轉為並列式數位作新 及產生時脈信號; "' 辨識裝置儲存前級處理資料、特微點莩取資料、端點你 測資料及以對稱法修正過的動態規畫比對資料;、 參考樣本存放裝置儲存參考樣本; 數位信號處理裝置藉著上述之前級處理資料,上述之特 徵點莩取資料及上述之端點偵測資料來對上述之並列式 數位仏政處理以產生一多位階固定點線性預測你數邾土 除上述語音訊號中之雜訊部份; 丨係數並去 (請先閲讀背面之注意事項再填寫本頁) ;裝. 訂 經濟部中央櫺準局S工消費合作杜印製 上 述樣此 至 上考將 送 以參並 被;被之果 數本 數述結 係樣 係上起 測考 洌和辨 預參 預料一 性之 性資到 線述 A對得 點上點比以 定為 定賁對 固做 固规比 階以 階態中 位置 位動置 多裝 多的裝 之放 之遇理 述存 述正處〇 上本 上修號出 程樣 裎法信輸 一 過考 過稱位果 練參 識11結 訓之辨以在趄 在述 在之本辨 今w该人忍迪川τ阐阀家樘準(CNS) ιρ丨峴洛(:;l0 x :沉公 81.9.10,000 8 A7 B7 C7 D7 六、申請專利範圍 2. 如申請專利範®第1項之系統,其中上述之串列式數位 信號為多位元log-PCM數位信號。 3. 如申請專利範面第1項之系統,其中上述之控制裝置更 皂含: 移位暫存裝置將上述之串列式數位信號做移位暫存後逸 气一第一緩衝裝置,並由此第一缓衝裝置輸出上述之並 列式數位信號; 時脈產生裝置產生第一時脈給上述之數位信號處理裝置 使用,產生第二時睞給上述之類比轉數位轉換裝置使 用,產生第三時脈給上述之串列轉並列旗標產生裝置使 用〇 4. 如申請專利範®第3項之系統其中上述之辨識裝置更包 含: 唯讀έ己憶體楚置,儲有上述之前級處理資料,上述之特 微點草取資料,上述之端點偵測資料及上述之以對稱法 修正過的動態規畫比對資料; 第一鍰衝裝置,用以儲存上述之唯讀記憶裝置所输出之 資料,益將此輸出資料送入上述之數位信號處理裝置〇 {請先閲讀背面之注意事項再塡寫本頁) 裝- 經濟部中央棣準局β: Μ消費合作钍印繁 81.9.10,000 A7 B7 C7 D7
    六、申請專利範® 219333 放idt,第3項之系統,其中上述之參考樣本存 請 先 閱 讀 背 面 之 意 事 項 再 m 寫 本 頁 址計數器裝㈣生上 隨機取樣記·_裝置,κ儲存參考樣本; 暫ίί士述之參考樣本存放器所輸出之上 理裝置ί樣本,並將參考樣本輸出給上述之數位信號處 立式及時語音辨識方法,係將數位語音信號在訓 練過程中轉為參考樣本,在辨識過程中輸出辨識結果, 本方法包含下列步驟: (a) 前級處理將上述之數位語音信號一階濾波以加強數位 語音信號的高頻部份; (b) 特徵點萆取將經前級處理之數位語音信號取音框並經 過取窗函數的近似漢明取窗再用杜贫法化簡以得到一 多位階固定點線性預測係數; (c) 語音端點偵測利用能量參數以尋找出語音部份並去除 雜訊部份; 經濟部t央棣準局員工消費合作钍印髮 (d) 當訓練遇程,儲存上述之多位階固定點線性預測係教 做為上述之參考樣本,並回到(a)步驟; (e〉當辨識通程,W以對稱法修改遇的動態规畫比對法將 i述之多位階固定點線性預測係數和上述之參考樣本 比對旅輸出上述之辨識結果0 表紙張尺度通用中nH单(CNS>中‘丨*見丨3·(LM0 χ 297 U ) W.9. Uj,〇〇() A7 B7 C7 D7 218333 六、申請專利範圍 7·如申請專利範面第6項之方法,其中上述之取音框爲每 隔30毫秒並重簦1〇毫秒爲—音框〇、 8·如申請專利範園第6項之方法,其中上述之多位階固定 點線性預測係數為〗〇位階固點線性顇測係數。 (請先閱讀背面之注意事項再填窝本頁) 丨裝. 訂. 經濟部中央櫺準扃R工消費合作社印製 又 格 00 97
TW81104028A 1992-05-21 1992-05-21 Speech recognition system TW219993B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW81104028A TW219993B (en) 1992-05-21 1992-05-21 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW81104028A TW219993B (en) 1992-05-21 1992-05-21 Speech recognition system

Publications (1)

Publication Number Publication Date
TW219993B true TW219993B (en) 1994-02-01

Family

ID=51348057

Family Applications (1)

Application Number Title Priority Date Filing Date
TW81104028A TW219993B (en) 1992-05-21 1992-05-21 Speech recognition system

Country Status (1)

Country Link
TW (1) TW219993B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI383377B (zh) * 2003-07-29 2013-01-21 Microsoft Corp 多重感測語音辨識系統及方法
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8407058B2 (en) 2008-10-28 2013-03-26 Industrial Technology Research Institute Food processor with phonetic recognition ability
TWI398855B (zh) * 2007-09-28 2013-06-11 Qualcomm Inc 多重麥克風聲音活動偵測器
TWI427620B (zh) * 2008-04-22 2014-02-21 Ntt Docomo Inc A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI383377B (zh) * 2003-07-29 2013-01-21 Microsoft Corp 多重感測語音辨識系統及方法
TWI398855B (zh) * 2007-09-28 2013-06-11 Qualcomm Inc 多重麥克風聲音活動偵測器
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
TWI427620B (zh) * 2008-04-22 2014-02-21 Ntt Docomo Inc A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
US8407058B2 (en) 2008-10-28 2013-03-26 Industrial Technology Research Institute Food processor with phonetic recognition ability
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals

Similar Documents

Publication Publication Date Title
TW504663B (en) Spelling speech recognition apparatus and method for mobile communication
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JPS6247320B2 (zh)
US20060074662A1 (en) Three-stage word recognition
US10311865B2 (en) System and method for automated speech recognition
US11810546B2 (en) Sample generation method and apparatus
US20120078617A1 (en) System and Method for Increasing Recognition Rates of In-Vocabulary Words By Improving Pronunciation Modeling
Eringis et al. Improving speech recognition rate through analysis parameters
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP2003504653A (ja) ノイズのある音声モデルからのロバスト音声処理
TW219993B (en) Speech recognition system
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Chaudhari et al. Multigrained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN115796653A (zh) 一种面试发言评价方法及系统
CN110853674A (zh) 文本核对方法、设备以及计算机可读存储介质
Anand et al. Speech perception & analysis of fluent digits’ strings using level-by-level time alignment
CN113053409A (zh) 音频测评方法及装置
CN112686041A (zh) 一种拼音标注方法及装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
CN114882891A (zh) 一种应用于tts的语音转换方法、装置、设备及介质
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
Kitaoka et al. Detection and recognition of correction utterance in spontaneously spoken dialog.
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体