TWI235823B

TWI235823B - Speech recognition system and method thereof

Info

Publication number: TWI235823B
Application number: TW093129523A
Authority: TW
Inventors: Xiao-Hui Shao; Chaucer Chiu
Original assignee: Inventec Corp
Priority date: 2004-09-30
Filing date: 2004-09-30
Publication date: 2005-07-11
Also published as: TW200610946A; US20060074650A1

Description

1235823 九、發明說明：【發明所屬之技術領域】本發明係有關於一種語音識別系統以及方法，更詳而言之係有關於-種應用於資料處理I置之語音識別系统盘方法。〃【先前技術】隨著電子資訊產業發展的日新月異，各種功能強大且價格低廉的消費性電子資訊產品紛紛問世。舉例而言，為了能進-步與使用外國語言的人士溝通，大量具有語言學習功能的資料處理裝置如雨後春筍—般出現在消費市場中。透過如電腦或電子辭典等資料處理裝置進行語文學習 =過財，如何驗提供學f者近乎與真人相同之學習環境’藉以達到無須透過與真人的互動，僅透過與該資料處理襄置間的互動即可達到敎學習的功效，已成為研發者所必須面對的問題。中華明國公告第308666號專利揭露一種「智錢型國語語音學習线及其方法」，其技術特徵在於㈣機器先谓 :使用者所輸入的學習例句的語音信號之特徵參數後，經用以辨認輸人的學習例句的語音至計算其辨認結果與學 =例句比較的符合率之辨認裝置，以及—藉由使用者如學 :例句的語音以訓練使用者的語音模型並更新#中資料之二、練裝置。經過-組學習例句之訓練後，該使用者的語音 ^型幾已涵蓋所有本身的語音特性，致使在正式上線使用〜’能有效的依據該語音模型内之語音特性辨認使用者的 18094 5 1235823 輪入信號。 7迷的έ吾音學習與識別系統及方法係為現今語音識 ==所習用之技術。㈣卻存在著相當大的缺點，亦即必縣依據接近預定之標準速度與音量朗讀例句，曰（立使用者的語音特徵俾降低系統識別錯誤之機會，養成用清晰料的朗讀方式輸人語音的習慣。此種語二寸被建立及識㈣以要求使料龜卿的識別習二不但欠缺人性化，對於反應較不敏捷的使用者而言則 =反覆多次的嘗試才能求得較佳的識別效果。此外用者若有變更❹須該建立❹麵徵制無法進别0 綜而言之’習知的語言識別至今仍存在兩個主要的問方面是學習者無法自行決定取樣之解，換言之，羽’ #疋9頻解析度的㊣低，高解析度固然可以讓學 t學習到更準確的發音，但相對的也會造成辨別成功率 &低的困擾。另-方面現行的語言學習㈣中的語言識別功此，亚無法提供學習者依據自身的需求做聲音的播放速度以及播放頻率的改變’欠缺個性化的語音識別功能，無法域學f者在接近自身發音特性的環境下做語言的學習，對於學習效率提升而言當然是一種阻礙。、不上所述，如何能夠提供一種更具有使用者個性化的的-曰識別系統以及方法’遂成為目前亟待解決之課題。【發明内容】為解決上述習知技術之缺點，本發明之主要目的在於 18094 6 1235823 才疋供一種可依據需求設定音頻取樣頻率之語音識別系統以及方法。本發明之另一目的在於提供一種可依據需求設定語音播放速度與頻率之語音識別系統以及方法。為達成以上所述及其他目的，本發明之語音識別系統包括有·用以儲存至少包括原聲音頻、錄入音頻以及識別標準等資料之儲存單元；用以依據預設之數值設定原聲音頻與錄入音頻取樣頻率值的取樣頻率設定模組；用以將該原每音頻與錄入音頻轉換為波形訊號之音頻波形訊號轉換权組；用以分析該原聲音頻與錄入音頻取樣頻率之最大音里值的分析模組；用以分別計算出該原聲音頻與錄入音頻之絕對值的計算模組；用以依據該識別標準比較該原聲音頻與錄入音頻絕對值以決定識別的結果的判斷模組；以及。又疋浯音播放之速度與頻率等音頻特性的音頻處理模組。透過忒5吾音識別系統執行語音識別的方法係：提供儲 ^單^ ^用以儲存至少包括原聲音頻、錄入音頻以及識別払準等貢料；提供取樣頻率設定模組，用以依據預設之數值^定原聲音頻與錄入音頻取樣頻率值；提供音頻波形訊 :π換模、、且，用以將该原聲音頻與錄入音頻轉換為波形訊提供分析模組，用以分析該原聲音頻與錄入音頻取樣 ^ 之最大音量值；提供計算模組，用以分別計算出該原聲音頻與錄入音頻之絕對值；以及提供判斷模組，用以依據忒4別標準比較該原聲音頻與錄入音頻絕對值以決定識另J的結果。此外，復包括提供音頻處理模組，以設定語音 18094 7 1235823 播放之速度與頻率等音頻特性。相較於習知的語音識別技術，本發明之語音識別以及方法除可依據需求設定音頻取樣頻率外，復可依據兩求設定語音播放之速度與頻率。藉以讓學f者在接近自: 發音特性的環境下做語言的學習，進而有效提升語之效率。〇白【實施方式】以下係藉由特定的具體實施例說明本發明之實施方式，熟悉此技藝之人士可由本說明書所揭示之内容瞭解本發明之其他優點與功效。本發㈣可藉由其他不同的具體實施例加以施行或制，本說明書巾的各項細節亦可基於不同觀點與應用，在不悖離本發明之種修飾與變更。 Τ σ 請參閱第1圖，係為本發明之語音識別系統i之基本架構圖，包括：儲存單元u、取樣頻率設定模組12 ㈣訊號轉換模組13、分龍組Η、計算模組15、判斷模組16以及音頻處理模組17。於本實施例中，本發明之語音識別系統1係應用於一個人電腦2中’更具體而言係用以提供該個人電腦2語言發：學習之功能。此外，該個人電腦2包括一用以輸二 :貝料之知入早兀22 ’其可例如為一麥克風。需特別說明者:係該個人電腦2實際上復包括其他用以執行資料運算更及/或韌肢，然為避免模糊本案之技術特徵所在，故僅顯示與實施本發明之語音識別㈣丨以及方法相關 8 18094 1235823 者。此外，該個人電腦2亦可々J月且換成如電子辭電位助理、行動電話等具有去五立人數裝置。、曰出輪入功能之資料處理捕存單兀U係用以儲存至少包括原聲音頻曰頻以及預設識別標準等資料、％分n作炎 τ半寺貝枓。於本實施例中，該儲存單為一硬碟裝置。除用以儲存該原聲音頻、錄入音頻以及識別標準等資料外，復 9、 — ^ 又T用以储存该個人電腦2於執仃s月之語音識別系統1時所產生的資料。該取樣頻率設定模組1 2私犋、、且12係用以依據預設之數值設定原奪曰頻錄入音頻取樣頻率由於將類比音頻訊號轉換為數位曰頻訊號的過程中必須先確定取樣頻率，以供類比音頻轉換缝位音頻的過程中，每秒取樣次數之依據。般而σ ’耷音播出時的品質通常只能達到取樣頻率 $半，因此須採取雙倍樣率才能將原音準確重現。正常十月况下，一般人的聽力極限約為20ΚΗζ，所以高品質的取榼應為其兩倍以上，當聲音來源為音樂時，因位它所橫跨的頻卞、交化極為寬廣，通常以採441KHz的頻率為⑶音樂取樣率的標準；但是若以語音為主，由於人說話的語音大約為ΙΟΚΗζ，因此加倍採樣，只取22KHz即可。取樣率越同，所s己錄下來的音質就越清晰；當然，越高的取樣所。己錄下來的檔案就會越大。於本實施例中，本發明之語音識別系統1係作為語音識別之用，故取樣頻率可取為 22ΚΗζ。附帶一提者，係關於取樣解析度之部分則可依據使用者之需求設定八位元、十六位元或更高，然由於取樣 9 18094 1235823 解析度與本發明之技術内容無直接關聯，故不予費述之該音頻波形訊號轉換模組13係用以依據該取樣頻率設定模組12所設定之取樣頻率值，將該原聲音頻與錄入音頻轉換為波形訊號。於本實施例中，該音頻波形訊號轉換模組13係利用個人電腦上習用的數位音效檔案 audio file)格式「.WAV」檔。在將該原聲音頻與錄入音頻轉換為波形訊號之過程中，可依據該取樣頻率設定模組12 所設定之不同的取樣頻率（44kHz、22kHz或UkHz)與位元數（8位元或16位元）及單音/立體聲等。需特別說明者，係該音頻波形訊號轉換模組13亦可利用其它的音頻波形訊號轉換格式，如「「-iff」或「.mat」式係為習知技術， •au」、「.snd」、「.voc」、r aiff」、「afc」、等格式，由於該些音頻波形訊號轉換格故亦不予贅述之。該分析模組14係用以分析該原聲音頻與錄入音頻取樣頻率之最大音量值。由於類比音頻訊號在進入該個人電腦2之丽是一種連續性的訊號，所謂的連續性號是指時間 j的連續，透過該輸入單元22將類比音頻訊號傳到該個人電腦2中，亦即數位化的過程。原來連續性的類比音頻訊號，經過數位化的處理後，變成—種不連續的訊號，該些轉換後之波形訊號只在某些固定的時間刻度上有值，而該分析杈組14即係用以分析該時間刻度上的值。於本實施例中4 間刻度上的值可為伏特（v〇h )或分貝（decibel ; dB) 〇該計算模組15係用以分別計算出該原聲音頻與錄入 10 18094 1235823 音，之絕對值。於本實施财，該絕對值的計算係依據該原聲音頻與錄入音頻之每一時間刻度上的值，亦即將每— 時間刻度除以料間刻度上的伏特或分貝值作為該絕對值0 該判斷模組16係用以依據該識別標準比較該原聲音頻與錄入音頻絕對值以決定識別的結果。於本實施例中，該識別標準可例如為比較該計算模組15所計算出之原聲音頻每-時間刻度之絕對值以及錄人音縣—時間刻产耳之絕對值之相似程度，更具體而言，係以該原聲音頻絕^值與錄入音頻絕對值之差值，除該原聲音頻的絕對值並求其相似度百分比。接著，進—步於求出所有時間刻度之相似度百分比後’再求出所有時間刻度相似度百分比之鐵平均值。若本發明之語音識別系統i進―步係應用於語^學習軟體之發音準確度鑑別功能巾，㈣總平均㈣可作為鑑別之依據。 ^ —該音頻處理模組17係用以設定語音播放之速度與頻率等音頻特性。於本實施例中，該音頻處理模組17可透過 4如，序變化的方式，加快或放慢該原聲音頻資料的速 f ’藉以符合不同使用者之說話速度。另-方面，該原聲音頻音調的高低係與振動的快慢成正比，若在相同時間内 f動較快者則其頻率較高，而音調亦會相對提高，是故， & 2交更該原琴音頻資料之頻率即可變更該原聲音頻資料之音調’例如趨近於女聲或男聲’同樣的可符合不同使用者之說話音調。 18094 11 1235823 凊苓閱第2圖，係為本發明之語音識別之流程。 h立於步驟S201中，提供儲存單元11以儲存至少包括原聲音頻、錄入音頻以及預設識別標準等資料。 +、

驟 S202 。 V 於步驟S202中，該音頻處理模組17係用以設定語音拮放之速度與頻率等音頻特性。於本實施例中，該音頻處 =模組17可透過諸如時序變化的方式，加快或放慢該^ ^ 曰頻貪料的速度。另一方面’復可變更該原聲音頻資料之頻率即可變更該原聲音頻資料之音調。接著進賢 S203。 ^於步驟S203中，提供取樣頻率設定模組12以依據預叹之數值^原聲音頻與錄人音頻取樣頻率值。於本實施例中’本發明之語音識別系統作為語音識別之用，、故取樣頻率可取為22KHz。接著進行步驟s2〇4。於步驟S204巾，提供音頻波形訊號轉換模組i3以依立該取樣財設定餘12所較之取㈣率值，將該原聲曰頻與錄入音頻轉換為波形訊號。於本實施例中，該音頻波形訊號轉換模組13係利用個人電腦上習用的數位音曰效、檔案格式「.WAV」檔。接著進行步驟§2〇5。於步驟S205中，提供該分析模組14以分析該原聲音 =與錄入音頻取樣頻率之最大音量值。於本實施例中，該日可j刻度上的值可為伏特（v〇h)或分貝（decibei ;犯接著進行步驟S206。於步驟S206中，提供該計算模組15以分別計算出該 18094 12 1235823 頻與錄人音狀絕對值。於本實施财，該絕對值古。异係依據該原聲音頻與錄入音頻之每—時間刻度上的即將每—時間刻度除以該時間刻度上的伏特或分貝值作為該絕對值。接著進行步驟S207。別尸S207中，於該提供該判斷模組16以依據該識㈣準比㈣原聲音頻錢人音㈣對值料定識別的結二本/把例中’ _谶別標準可例如為比較該計算模組 =料算出之原聲音頻每—相黯线對值以及錄入曰頻母-時間刻度之絕對值之相似程度，更具體而言，係以该原聲音頻絕對值與錄入音頻絕對值之差值，除該原聲音頻的絕對值並求其相似度百分比。接著，進—步於求出所^間刻度之相似度百分比後’再求出所有時間刻度相似度百分比之總平均值。综上所述，本發明之語音識別系統以及方法除可依據需求設定音頻取樣料外，復可依翁求設定語音播放之速度與頻率。藉以讓學f者在接近自身發音特性的環境下做語言的學習，進而有效提升語言學習之效率。上述實施例僅為例示性說明本發明之原理及其功效，=非用於限制本發明。任何熟習此項技藝之人士均可在不違月本發明之精神及範轉下，對上述實施例進行修飾與變化。因此，本發明之權利保護範圍，應如後述之申請專利範圍所列。【圖式簡單說明】第1圖，係為本發明之語音識別系統之基本架構圖； 18094 13 1235823 以及第2圖，係為本發明之語音識別之流程圖。【主要元件符號說明】 1 語音識別系統 11 儲存單元 12 取樣頻率設定模組 13 音頻波形訊號轉換模組 14 分析模組 15 計算模組 16 判斷模組 17 音頻處理模組 2 個人電腦 22 輸入單元 S201〜S207 步驟 14 18094

Claims

1235823 十、申請專利範圍： 1. 一種語音識別系統，係應用於資料處理裝置中，包括：儲存單元’係用以儲存至少包括原聲音頻、錄入音頻以及識別標準等資料；取樣頻率設定模組’係用以依據預設之數值設定原聲音頻與錄入音頻取樣頻率值；音頻波形訊號轉換模組，係用以將該原聲音頻與錄入音頻轉換為波形訊號；分析模組，係用以分析該原聲音頻與錄入音頻取樣頻率之最大音量值；計算模組，係用以分別計算出該原聲音頻與錄入音頻之絕對值；判斷模組，係用以依據該識別標準比較該原聲音頻與錄入音頻絕對值以決定識別的結果；以及音頻處理模組，係設定語音播放之速度與頻率等音頻特性。 2·如申請專利範圍第1項之系統，其中，該取樣頻率係為 44·1ΚΗζ及22KHz之其中一者。 3·如申請專利範圍第1項之系統，其中，該音頻波形訊號轉換模組的音頻波形訊號轉換格式係為「 • wav」、「.au」、「.snd」、「.voc」、r aiff」、r .afc」、r iff」或 r mat」之其中之一種檔案格式。 4·如申請專利範圍第丨項之系統，其中，該音量值係為波形訊號時間刻度上的值係為伏特（volt )及分貝 15 18094 1235823 (decibel ; dB )之其中一者。 5. 6. 7. 8· 9. 10 11 如申請專利範圍第1項之系統，其中，該絕對值的計算係依據该原聲音頻與錄入音頻之每一時間刻度上的值。如申請專利範圍第1項之系統，其中，該識別標準係為比較該計算模組所計算出之原聲音頻每一時間刻度之絕對值以及錄入音頻每一時間刻度的絕對值之相似程度。如申請專利範圍第6項之系統，其中，該絕對值之相似矛王度係以該原聲音頻絕對值與錄入音頻絕對值之差值除。亥原聲音頻的絕對值後所得的值。如申請專利範圍第6項之系統，其中，該判斷模組復於求出所有時間刻度之相似程度後，再求出所有時間刻度相似程度之總平均值。如申請專利範圍第丨項之系統，其中，該音頻處理模組係透過時序變化的方式，調整該原聲音頻資料的速度。如申請專利範圍第丨項之系統，其中，該音頻處理模組係透過變更該原聲音頻資料之頻率以變更該原聲音頻資料的音調。一種語音識別方法，係應用於資料處理裝置中，包括：提供儲存單元，用以儲存至少包括原聲音頻、錄入音頻以及識別標準資料；提供音頻處理模組，以設定語音播放之速度與頻率等音頻特性；提供取樣頻率設定模組，用以依據預設之數值設定 16 18094 1235823 原聲音頻與錄入音頻取樣頻率值； ^ · 提供音頻波形訊號轉換模組，用以將該原聲音頻與._ 錄入音頻轉換為波形訊號；提供分析模組，用以分析該原聲音頻與錄入音頻取、樣頻率之最大音量值；，提供計算模組，用以分別計算出該原聲音頻與錄入音頻之絕對值；以及提供判斷模組，用以依據該識別標準比較該原聲音頻與錄入音頻絕對值以決定識別的結果。 _ 12·如申請專利範圍第u項之方法，其中，該取樣頻率係為44·1ΚΗζ及22KHz之其中一者。 13·如申請專利範圍第u項之方法，其中，該音頻波形訊號轉換模組的音頻波形訊號轉換格式係為 r .wav」、「.au」、「.snd」、「·ν〇(；」、Γ aiff」、「afc」、「iff」或「撕丈」之其中之一種檔案格式。 14. 如申請專利範圍第11項之方法，其中，該音量值係為波形訊號時間刻度上的值係為伏特（v〇lt)及分貝 (decibel ; dB )之其中一者。 15. 如申凊專利In圍第i!項之方法，其中，該絕對值的計算係依據該原聲音頻與錄入音頻之每一時間刻度上的值。 16. 如申請專利範圍第11項之方法，其中，該識別標準係為比較該計算模組所計算出之原聲音頻每一時間刻度之絶對值以及錄入音頻每一時間刻度的絕對值之相似 17 18094 1235823 程度。 17 18 19 20 如申請專利範圍第16項之方法，其中，該絕對值之相似程度係以該原聲音頻絕對值與錄入音頻絕對值之差值除該原聲音頻的絕對值後所得的值。如申請專利範圍第16項之方法，其中，該判斷模組復於求出所有時間刻度之相似程度後，再求出所有時間刻度相似程度之總平均值。 =申請專利範圍第11項之方法，其中，該音頻處理模組係透過時序變化的方式，調整該原聲音頻資料的度。如申請專利範圍第11項之方法，其中，該音頻處理模組係透過變更該原聲音頻資料之頻率以變更該原聲音頻資料的音調。 18 18094