TWI619114B - 環境敏感之自動語音辨識的方法和系統 - Google Patents
環境敏感之自動語音辨識的方法和系統 Download PDFInfo
- Publication number
- TWI619114B TWI619114B TW105105325A TW105105325A TWI619114B TW I619114 B TWI619114 B TW I619114B TW 105105325 A TW105105325 A TW 105105325A TW 105105325 A TW105105325 A TW 105105325A TW I619114 B TWI619114 B TW I619114B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- audio material
- acoustic
- audio
- user
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 239000000463 material Substances 0.000 claims description 164
- 230000000694 effects Effects 0.000 claims description 78
- 230000008569 process Effects 0.000 claims description 61
- 238000012512 characterization method Methods 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 19
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 27
- 230000005236 sound signal Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 17
- 230000009467 reduction Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 14
- 230000009183 running Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000001351 cycling effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 239000004984 smart glass Substances 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000009182 swimming Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000037081 physical activity Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 231100000430 skin reaction Toxicity 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010612 desalination reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一種環境敏感之自動語音辨識的系統、物件、及方法。
Description
本發明係關於環境敏感之自動語音辨識。
當更多更多之以電腦為主的裝置為了要執行某些動作,及轉換語音成為用於聽寫應用之正文,或甚至保持其中以單或雙向與使用者交換資訊之會談,而使用語音辨識以接收來自使用者的命令時,語音辨識系統或自動語音辨識器就漸增地變得重要。該等系統可係說話者相依的,其中系統係藉由具有使用者重複字詞而予以訓練,或說話者獨立的,其中任何人可提供被立即辨識的字詞。某些系統亦可被組構以瞭解單一字詞命令的固定集合,例如,諸如用以操作行動電話而瞭解“打電話”或“接聽電話”之用語,或用以操作運動手環而瞭解“開始”之字詞以啟動計時器。
因此,對於穿戴式裝置、智慧型手機、及其他小的裝置,自動語音辨識(ASR)係所需的。惟,由於ASR之計
算的複雜性,用於小的裝置之許多ASR系統係以伺服器為主,以致使該等計算係與該裝置遠程控制地被執行,而可導致顯著的延遲。具有板載計算能力的其他ASR系統亦係太過緩慢,提供相對較低品質的字詞辨識,及/或消耗該小的裝置之太多功率用以執行該等計算。因此,提供具有較低功率消耗的快速字詞辨識之良好品質的ASR系統係所欲的。
10,200‧‧‧環境敏感之自動語音辨識系統
12‧‧‧使用者
14,1002‧‧‧音頻捕獲或接收裝置
16,204‧‧‧類比前端
18,205‧‧‧聲學前端單元
19,224,1015‧‧‧特徵提取單元
20,216,1014‧‧‧ASR引擎或單元
22‧‧‧聲學得分單元
23,232,1018‧‧‧解碼器
24,1040‧‧‧語言譯碼器及執行單元
25,1026‧‧‧表徵緩衝器
26,1028‧‧‧揚聲器組件
28‧‧‧顯示器組件
30,1032‧‧‧終端裝置
31,202,1038‧‧‧感測器
32,206,1010‧‧‧環境識別單元
34,214,1012‧‧‧參數求精單元
208‧‧‧SNR估計單元
210‧‧‧音頻分類單元
212‧‧‧語音活動偵測單元
218‧‧‧裝置定位器單元
220‧‧‧活動分類器單元
222‧‧‧ASR參數控制
226‧‧‧聲學模型
228‧‧‧聲學似然得分單元
230‧‧‧語言模型
300,400,900‧‧‧處理
302-306,402-432,902-922‧‧‧操作
500‧‧‧圖形
600,700,800‧‧‧表
1000,1100‧‧‧語音辨識系統
1004‧‧‧邏輯單元
1006‧‧‧語音辨識單元
1020,1110‧‧‧處理器
1022‧‧‧加速器
1024‧‧‧記憶體儲存
1030,1120‧‧‧顯示器
1034,1208‧‧‧天線
1036‧‧‧影像
1102‧‧‧平台
1104‧‧‧音頻子系統
1105‧‧‧晶片組
1112‧‧‧記憶體儲存
1114‧‧‧儲存
1115‧‧‧圖形子系統
1116‧‧‧應用
1118‧‧‧無線電
1122‧‧‧使用者介面
1130‧‧‧內容服務裝置
1140‧‧‧內容交付裝置
1150‧‧‧導航控制器
1160‧‧‧揚聲器子系統
1165‧‧‧網路
1170,1214‧‧‧麥克風
1200‧‧‧小形狀因數裝置
1202‧‧‧外殼
1204‧‧‧顯示器
1206‧‧‧輸入/輸出(I/O)裝置
1210‧‧‧螢幕
1212‧‧‧導航特徵
1216‧‧‧揚聲器
在此所敘述的材料係藉實例且非以限制之方式描繪於附圖中。為繪圖之簡明和清楚起見,在圖式中所描繪的元件並不一定按比例地予以繪製。例如,為清楚之緣故,某些元件的尺寸可能相對其他元件而被誇大。此外,在認為適當時,參考符號已在該等圖式中被重複,用以指示對應的或類似的元件。在圖式中:第1圖係顯示自動語音辨識系統的概要圖;第2圖係顯示用以執行自動語音辨識之環境敏感系統的概要圖;第3圖係環境敏感之自動語音辨識處理的流程圖;第4圖係環境敏感之自動語音辨識處理的詳細流程圖;第5圖係根據信號噪聲比(SNR)而比較字詞錯誤率(WER)與即時因數(RTF)的圖形;第6圖係顯示與WER及RTF相比且根據SNR之波束
寬度的ASR參數修正表;第7圖係顯示與字詞錯誤率相比且根據SNR之聲學比例因數的ASR參數修正表;第8圖係用於第5圖之圖形上的一點及用以比較聲學比例因數、波束寬度、目前之表徵緩衝器大小、SNR、WER、RTF之實例ASR參數的表;第9圖係顯示操作中之環境敏感之ASR系統的概要圖;第10圖係實例系統的描繪圖;第11圖係另一實例系統的描繪圖;以及第12圖描繪依據本發明之至少某些實施所全面配置的另一實例裝置。
現將參照附圖而說明一或多個實施。雖然係討論特定的組態和配置,但應瞭解的是,此僅被執行用於描繪性之目的。熟習相關技藝之人士將認知的是,其他的組態和配置可被使用而不會悖離該說明之精神及範疇。對熟習相關技藝之該等人士將呈明顯的是,在此所敘述的組態和配置除了可被使用於此處所敘述的系統及應用之外,亦可被使用於各種其他的系統及應用中。
雖然以下說明闡述可被顯示於例如,諸如系統在晶片上(SoC)架構之結構中的種種實施,但在此所敘述之技術及/或配置的實施並未受限於特殊的結構及/或計算系
統,且可針對相似之目的而由任何的結構及/或計算系統所實施。舉例來說,不但是使用例如,多個積體電路(IC)晶片及/或封裝之種種架構,及/或各種計算裝置及/或消費者電子(CE)裝置,諸如包含智慧型手機之行動裝置,及諸如智慧型手錶、智慧型手環、智慧型耳機、和智慧型眼鏡之穿戴式裝置,而且是膝上型或桌上型電腦、視頻遊戲面板或控制台、電視機上盒、聽寫機、車或環境控制系統、等等,均可實施此處所敘述的技術及/或配置。此外,雖然以下說明可能闡述許多特定的細節,諸如邏輯實施、系統組件之類型和相互關係、邏輯分區/整合選擇、等等,但所主張專利之標的物可無需該等特定的細節而被實施。換言之,為了不使在此所揭示的材料混淆,例如,諸如控制結構及全部的軟體指令順序之一些材料可能不予以詳細顯示。在此所揭示的材料可以以硬體、韌體、軟體、或其任何組合實施。
在此所揭示的材料亦可被實施為儲存於機器可讀取媒體或記憶體上之指令,其可藉由一或多個處理器而予以讀取及執行。機器可讀取媒體可包含用以儲存或傳送可由機器(例如,計算裝置)讀取之形式中之資訊的任何媒體及/或機制。例如,機器可讀取媒體可包含僅讀記憶體(ROM);隨機存取記憶體(RAM);磁碟儲存媒體;光學儲存媒體;快閃記憶體裝置;電性、光學、聲學,或其他形式之傳播信號(例如,載波、紅外線信號、數位信號、等等);及其類似物。在另一形式中,諸如非暫時性
的電腦可讀取媒體之非暫時性的物件,除了其本質上不包含暫時性的信號之外,其可與上述任何實例,或與其他實例一起使用。其本質地包含信號以外之可以以“暫時性”方式暫時性地保持資料之諸如RAM及類似者的該等元件。
在說明書中之對“一實施”、“實施”、“實例實施”、或其類似者的引用表明的是,所敘述之實施可包含特殊的特性、結構、或特徵,但每個實施可不必一定要包含該特殊的特性、結構、或特徵。此外,該等用詞無需一定要意指相同的實施。進一步地,當特殊的特性、結構、或特徵係連同實施而被敘述時,應提出的是,無論是否被明確地敘述於此,針對其他實施而影響到該特性、結構、或特徵係在熟習本項技藝之人士的知識內。
環境敏感之自動語音辨識的系統、物件、及方法。
電池壽命係諸如穿戴式裝置之小的電腦裝置之最關鍵性差異化特性的其中一者,且尤其,對具有總在開啟之音頻啟動範例的該等者。因此,延長該等小的電腦裝置之電池壽命係非常重要的。
自動語音辨識(ASR)係一般使用於該等小的電腦裝置上,用以接收命令而執行例如,諸如撥打或接聽電話、在網際網路上搜尋關鍵字、或開始運動期間之計時的某種任務。惟,ASR係計算能力需求的、通訊沉重的、及資料密集的工作負載。當穿戴式裝置支援嵌入的、獨立的、媒體的、或大型詞彙的ASR能力,而無來自具有較大電池
能力之例如,智慧型手機、平板電腦、等等的遠程控制之系留(tethered)裝置的幫助時,則電池壽命延長係特別所需的。因為當啟動ASR時,ASR將施加沉重的計算負載和記憶體存取,所以即使ASR計算係暫態的而非連續的工作負載,此仍係屬實的。
為了要在使用ASR之小的裝置上避免該等缺點以及延長電池壽命,在此所提出的環境敏感之ASR方法使ASR性能指示符最佳化且使ASR引擎的計算負載降低,用以延長穿戴式裝置上的電池壽命。此係藉由根據其中音頻捕獲裝置(諸如麥克風)將被操作的環境來動態地選擇ASR參數,而予以完成。特別地,例如,諸如字詞錯誤率(WER)和即時因數(RTF)之ASR性能指示符可根據捕獲音頻的裝置處或其周圍之形成周遭噪聲特徵的環境,及說話者變化和ASR本身之不同的參數,而顯著地變化。WER係ASR之準確度的常用度量。其可被計算為在給定數目之所說字詞的ASR輸出中之辨識錯誤的相對數目。虛假插入的字詞、刪除的字詞、或由另一者之一所說之字詞的取代係算做辨識錯誤。RTF係ASR之處理速度或性能的常用度量。其可藉由將用以處理發聲所需之時間除以該發聲的持續時間,而予以計算出。
當用於ASR系統的環境係事先已知時,則ASR參數可以以降低計算之負載(藉以降低RTF),且依序地,降低所消耗之能量,而在品質上並沒有顯著之降低(對應WER中之增加)的此方式予以調諧。選擇性地,環境敏
感的方法可增進性能,以致使計算之負載可相對於品質及速度的增加而被維持。有關麥克風周圍之環境的資訊可藉由分析所捕獲的音頻信號、取得關於音頻裝置之位置及保持該音頻裝置的使用者之動作的其他感測器資料、以及諸如使用下文所解說的使用者之設定檔(profile)的其他因素,而予以獲得。該等方法可使用此資訊以調整ASR參數且包含:(1)根據該環境而調整特徵提取期間的噪聲降低演算,(2)選擇將淡化音頻資料中之一或多個特殊識別之聲音或噪聲的聲學模型,(3)根據音頻資料之SNR及使用者之動作而施加聲學比例因數至被提供到語言模型的聲學分數,(4)亦根據音頻資料之SNR及/或使用者動作而設定用於語言模型之諸如波束寬度及目前表徵緩衝器大小的其他ASR參數,以及(5)根據使用者的環境資訊及其身體動作而選擇使用權重因數以強調相關聯之子詞彙的語言模型。該等參數之各者將在下文加以解說。大部分之該等參數的求精可在環境資訊准許ASR降低搜尋尺寸而在品質和速度中沒有顯著的下降時,諸如當音頻具有相對較低的噪聲或可識別的噪聲而可自語音予以消除時,或當目標相關聯之子詞彙係針對搜尋而被識別出時,提升ASR的效率。因此,該等參數可被調諧用以獲得所需或可接受的性能指示符值,且同時降低或壓制ASR引擎的計算負載。該ASR系統和方法的細節將在下文予以解說。
現請參閱第1圖,環境敏感之自動語音辨識系統10
可係語音致能的人機介面(HMI)。雖然系統10可係,或可具有處理音頻之任一裝置,但語音致能的HMI係特別適用於其中由於尺寸限制而使其他形式之使用者輸入(鍵盤、滑鼠、觸控,等等)不可行於該處(例如,在智慧型手錶、智慧型眼鏡、智慧型運動手環、等等之上)的裝置。在該等裝置上,功率消耗通常係使得高效率之語音辨識實施有必要之關鍵性因素。在此,ASR系統10可具有例如,諸如麥克風之音頻捕獲或接收裝置14,用以接收來自使用者12的聲波,及轉換該等波成為可被記錄在記憶體中之原始的電性聲學信號。系統10可具有類比前端16,其提供類比前置處理和信號調理,以及類比/數位(A/D)轉換器,用以提供數位聲學信號至聲學前端單元18。選擇性地,麥克風單元可透過諸如,脈衝密度調變(PDM)介面之二線式數位介面而被直接地數位連接。在此情況中,數位信號係直接饋送至聲學前端18。聲學前端單元18可執行前置處理,其可包含信號調理、噪聲消除、取樣率轉換、信號等化、及/或預加強濾波,用以使信號平坦化。該聲學前端單元18亦可劃分聲學信號成為10毫秒(ms)訊框之一例子的訊框。接著,前置處理的數位信號可被提供至特徵提取單元19,其可係ASR引擎或單元20的一部分,或並非ASR引擎或單元20的一部分。特徵提取單元19可執行,或可被鏈接至語音活動偵測單元(未顯示)以執行用以識別發聲之端點的語音啟動偵測(VAD),以及線性預測、梅爾倒頻譜、及/或諸如
能量量度、及三角和加速係數之添加物,以及諸如權重函數、特徵向量堆疊和轉變、及維數降低和常態化之其他的處理操作。該特徵提取單元19亦使用傅立葉變換(Fourier transforms)及其類似者,而自該聲學信號提取聲學特徵或特徵向量,用以識別信號之中所提供的音素。特徵提取可被如下文所解說地修正,用以省略不需要之所識別噪聲的提取。然後,其亦可被視為ASR引擎20的一部分,或並不被視為ASR引擎20的一部分之聲學得分單元22使用聲學模型,以決定將被識別之上下文相依的音素之機率分數。
對於此處所執行的環境敏感之操作,環境識別單元32可被提供且可包含演算,用以分析音頻信號,例如,用以決定信號噪聲比,或識別諸如使用者的沉重呼吸、風、人群、或交通噪聲之在該音頻中的特定聲音。除此之外,環境識別單元32可具有一或多個其他感測器31,或接收來自該一或多個其他感測器31之資料,該一或多個其他感測器31將識別音頻裝置的位置,且依序地,該裝置的使用者,及/或將由該裝置的使用者所執行之諸如運動的活動。來自該等感測器31之所識別環境的該等指示可接著被傳遞至參數求精單元34,其編譯所有的感測器資訊,形成關於裝置周圍環境之最後的(或更定論的)結論,以及決定要如何調整ASR引擎之參數,且特別地,至少要在聲學得分單元及/或解碼器之處,用以更有效率地執行語音辨識。
特別地,如下文所解說的,根據信號噪聲比(SNR),且亦在某些情況中,根據使用者活動,聲學比例因數(或乘數)可在聲學分數被提供至解碼器之前施加至所有的聲學分數,用以將相對於周遭噪聲之信號的明晰度化為因數,如下文所詳細解說的。相較於語言模型分數,聲學比例因數會在聲學分數上影響到相對依賴。根據所存在之噪聲的量,在整體辨識結果上改變聲學分數的影響可係有利的。此外,聲學分數可被求精(包含歸零),用以加強或淡化從環境所識別的某些聲音(諸如風或沉重的呼吸),而有效地扮演濾波器的角色。此後者之聲音特定的參數求精將被稱為選定適當的聲學模型以免與SNR為基的求精混淆。
解碼器23使用該等聲學分數以識別發聲假設且計算它們的分數。解碼器23使用計算,該等計算可被表示為可稱作加權有限狀態轉換器(WFST)的網絡(或圖形或格子)。WFST具有弧形(或邊緣)以及由該等弧形所互連的狀態。該等弧形係箭頭,其在WFST上自狀態延伸至狀態,且顯示流動或傳播的方向。此外,WFST解碼器23可動態地創造字詞或字詞序列假設,其可以以字詞格子之形式而提供置信度量度,且在某些情況中,可以以多個字詞格子之形式而提供可供選擇的結果。WFST解碼器23形成WFST,其可被確定化、最小化、權重或標籤推進、或在被使用於解碼之前以任一順序轉變(例如,藉由權重、輸入或輸出符號排序該等弧形)。該WFST可係確定
性或非確定性有限狀態轉換器,其可包含厄普西隆(ε)弧形。該WFST可具有一或多個初始狀態,且可由詞庫WFST(L)及語言模型或文法WFST(G)所靜態或動態地組成。選擇性地,該WFST可具有詞庫WFST(L),其可被實施為樹狀物而無額外的文法或語言模型,或該WFST可以以情境敏感性WFST(C),或以隱馬可夫模型(HMM)WFST(H)靜態或動態地組成,該隱馬可夫模型(HMM)WFST(H)可具有HMM過渡、HMM狀態ID、高斯混合模型(GMM)密度、或深度神經網絡(DNN)輸出狀態ID做為輸入符號。在傳播之後,WFST可包含一或多個最後狀態,其可具有各自的權重。該WFST解碼器23使用已知之特定規則、結構、操作、和性質以供單一最佳的語音解碼之用,且在此不相關聯之該等者的細節將不再被解說,以便提供此處所敘述之新的特徵之清晰的描述。在此所敘述之以WFST為基的語音解碼器可係與如“Juicer:加權的有限狀態轉換器語音解碼器”(Moore等人,第三屆多模式互動及相關機器學習演算聯合研討會MLMI’06)中所敘述之該者相似。
假設字詞序列或字詞格子可由WFST解碼器藉使用聲學分數及表徵傳遞演算而予以形成,用以形成發聲假設。單一表徵表示所說之發聲的一假設,且表示依據該假設所說之字詞。在解碼的期間,若干表徵係安置在WFST的狀態中,其各自地表示在時間上直至該點所說出之不同的可能發聲。在解碼開始時,單一表徵係安置在WFST的起動
狀態中。在時間上之個別點的期間(所謂訊框),各表徵係沿著WFST的弧形而被傳送或傳播。若WFST具有超過一個的輸出弧形時,則將表徵複製而創造出用於各目的地狀態之一表徵。若表徵係沿著具有非厄普西隆輸出符號之WFST中的弧形而被傳遞時(亦即,該輸出並未被清空,以致仍有字詞假設被附著至該弧形),則可使用該輸出符號以形成字詞序列假設或字詞格子。在單一最佳的解碼環境中,僅在WFST的各狀態中考慮最佳的表徵係足夠的。若超過一個的表徵被傳播至相同的狀態之內時,則重組發生,其中除了一個表徵之外,所有其他的表徵均自主動搜尋空間移開,以致使不同的發聲假設被重組成為單一者。在某些形式中,在用以形成最可能的字詞格子或替代之字詞格子的表徵傳播之前或之後,來自WFST的該等輸出符號可根據WFST的類型而被彙集。
與此相關地,環境識別單元32亦可提供資訊至參數求精單元34,用以亦使參數求精以供解碼器23及語言模型之用。特別地,各轉換器具有波束寬度及目前之表徵緩衝器大小,其亦可根據SNR及選擇WER與RTF之間的合適交換而被修正。波束寬度參數係有關用於最佳語句假設的幅寬第一搜尋,其係語音辨識處理的一部分。在每個時間實例中,有限數目的最佳搜尋狀態被保留。波束寬度愈大,則愈多的狀態被保留。換言之,波束寬度係由狀態所表示之表徵的最大數目,且其可在時間中之任一情況時存在於轉換器上。此可藉由限制,其係與波束寬度的大小匹
配,且保持著透過WFST所傳播之該等表徵的目前狀態之目前表徵緩衝器的大小,而加以控制。
WF ST的另一參數係該等弧形的過渡權重,其可在目標子詞彙係由環境識別單元32所識別出時被修正,用以加強或淡化總共可用詞彙之某一相關聯的子詞彙部分,以供更準確的語音辨識之用。然後,加權可如參數求精單元34所決定地被調整。此將被稱為選擇適當的詞彙特定語言模型。除此之外,在特徵提取期間的噪聲降低亦可根據使用者活動而予以調整,且如下文所解說的。
輸出的字詞格子或諸輸出的字詞格子(或其他形式之輸出的假設語句或諸輸出的假設語句)可用於語言譯碼器及執行單元(或譯碼引擎)24,用以決定使用者意圖。此意圖確定或所說發聲分類可根據決定樹狀物,而形成填充演算或統計分類(例如,使用支援向量網絡(SVN)或深度神經網絡(DNN))。
一旦使用者意圖係決定用於發聲,譯碼引擎24亦可輸出回應或起始動作。例如,該回應可係以透過揚聲器組件26的音頻形式,或以如在顯示器組件28上之正文的視頻形式。除此之外,動作可被起始以控制另一終端裝置30(不論是否被視為與語音辨識系統10相同的裝置之一部分,或被視為在與語音辨識系統10相同的裝置之內)。例如,使用者可說出“打電話回家”以啟動電話裝置上的去電,使用者可藉由說出字詞至車鑰匙卡內而啟動車,或智慧型手機或智慧型手錶上的語音模式可起始智慧
型手機上之諸如搜尋引擎上的關鍵字搜尋之某些任務的性能,或起始使用者之運動期間的計時。終端裝置30可單純地係軟體以取代實體裝置或硬體或其任一組合,且除了要具有用以瞭解由語音辨識決定所導致之命令或請求,及用以按照該命令或請求而執行或起始動作的能力之外,並未特別地受限於任何事物。
請參閱第2圖,環境敏感之ASR系統200係以詳細的環境識別單元206及ASR引擎216顯示。類比前端204接收及處理音頻信號,如上文用於類比前端16所解說的,以及聲學前端205如聲學前端18一樣地接收及處理數位信號。與特徵提取單元19一樣之特徵提取單元24的一種形式可由ASR引擎所執行。特徵提取並不會在偵測出音頻信號中的話音或語音之前發生。
所處理的音頻信號係從聲學前端205提供至SNR估計單元208及音頻分類單元210,其可係環境識別單元206的一部分或並非環境識別單元206的一部分。SNR估計單元208計算用於該音頻信號(或音頻資料)的SNR。且,音頻分類單元210係提供用以識別已知之非語音的圖案,諸如風、人群噪聲、交通、飛機、或其他車噪聲、使用者之沉重呼吸,等等。此亦可將諸如性別之所提供或所學習的使用者之設定檔化成因數,而指示較低或較高的語音。藉由一選項,可將音頻聲音或SNR之此指示或分類提供至語音活動偵測單元212。該語音活動偵測單元212決定語音是否存在,且若存在時,則啟動ASR引擎,以
及亦可啟動感測器202及環境識別單元206中的其他單元。選擇性地,系統10或200可保持在總在開啟的監測狀態中,而恆常地分析所進入之用於語音的音頻。
感測器或該等感測器202可提供感測的資料至環境識別單元以供ASR之用,而且視需要地,可由其它應用所啟動或可由語音活動偵測單元212所啟動。此外,該等感測器亦可具有總在開啟的狀態。
該等感測器可包含可指示有關其中音頻信號或音頻資料被捕獲的環境之資訊的任何感測器。此包含用以指示音頻裝置之位置或所在地,依序地,提示使用者之地點,以及推測地,對該裝置說話之人士的感測器。此可包含全球定位系統(GPS)或相似的感測器,其可識別裝置的全球座標、裝置附近的地理環境(炙熱沙漠或寒冷山脈)、裝置是否在建築物或其他的結構體之內、以及結構體之用途(諸如健身房、辦公室建物、工廠、或住家)的識別。此資訊亦可被使用以推斷諸如,運動之使用者的活動。感測器202亦可包含溫度計及氣壓計(其提供氣壓且可被使用以測量高度),用以提供氣候條件及/或使GPS計算求精。光二極體(光偵測器)亦可被使用以決定使用者是否在室外或室內,或在特殊種類的光量之下。
其他的感測器可被使用以決定相對於使用者之音頻裝置的位置和移動。此包含距離感測器,其可偵測使用者是否正保持裝置至使用者的臉,如電話一樣地,或膚電回應(GSR)感測器,其可偵測電話是否根本正由使用者所攜
帶。諸如,加速度計、陀螺儀、磁力儀、超音波反響感測器、或其他的移動感測器、或形成計步器之該等或其他技術的任何感測器之其他的感測器可被使用以決定使用者是否正在跑步,或正在執行某一其他的運動。諸如電子心率或脈博感測器之其他健康相關的感測器或其類似物,可被使用以提供有關使用者之目前活動的資訊。
一旦感測器提供感測器資料至環境識別單元206,裝置定位器單元218就可使用該資料以決定音頻裝置的位置,且然後,提供該位置資訊至參數求精單元214。同樣地,活動分類器單元220可使用該感測器資料以決定使用者的活動,且然後,亦提供該活動資訊至參數求精單元214。
參數求精單元214編譯大部分或所有的環境資訊,且然後,使用音頻及其他資訊以決定如何調整用於ASR引擎之參數。因此,如此處所解說地,該SNR係使用以決定對波束寬度、聲學比例因數、及目前表徵緩衝器大小限制的求精。該等決定係傳遞至ASR引擎中之ASR參數控制222,以供正在進行之音頻分析上的實施之用。該參數求精單元亦接收來自音頻分類單元210的噪聲識別,且決定那一個聲學模型最佳地淡化不需要之所識別的聲音或該等聲音(或噪聲),或用以加強例如,使用者之低沉的男性語音之某一聲音。
除此之外,參數求精單元214可使用該位置及活動資訊以識別與使用者之目前活動相關聯的特殊詞彙。因此,
參數求精單元214可具有例如,用於諸如跑步或騎自行車之特殊運動期間的預定詞彙列表,且該預定詞彙列表可藉由選擇例如,適當之以跑步為基的子詞彙語言模型而予以加強。聲學模型226及語言模型230單元分別接收將被使用之聲學模型及語言模型,用以透過該等模型而傳播表徵(或當以格子形式時,傳播格子)。選項地,參數求精單元214亦可藉由強化而在特徵提取期間修正所識別之聲音的噪聲降低。因此,在處理順序中,特徵提取可以以所識別聲音之修正的噪聲降低,或以不具有所識別聲音之修正的噪聲降低,對音頻資料發生。然後,聲學似然得分單元228可依據所選擇的聲學模型而執行聲學得分。之後,可在該等得分被提供至解碼器之前,施加聲學比例因數。然後,解碼器232可使用所選擇之由諸如,波束寬度及表徵緩衝器大小之所選擇的ASR參數所調整之語言模型,而執行解碼。應理解的是,本系統僅只提供該等參數求精或該等求精之任何所欲組合之其中一者。假設的字詞及/或片語可接著藉由ASR引擎而被提供。
請參閱第3圖,其提供用於語音辨識之電腦實施方法的實例處理300。在所描繪的實施中,處理300可包含一或多個操作、功能、或動作,如所均勻編號之一或多個操作302至306描繪地。以舉例非限制實例之方式,處理300可參照第1、2、及9至12圖之任何實例語音辨識裝置,及其中所相關聯者,而被描述於此。
處理300可包含“獲得包含人的語音之音頻資料”
302,且特別地,來自例如,一或多個麥克風之音頻記錄或直播串流資料。
處理300可包含“決定該音頻資料被獲得的環境中之至少一特徵”304。如在此所更詳細解說地,環境可表示音頻裝置之使用者的位置和周遭以及使用者的目前活動。有關環境之資訊可藉由分析音頻信號本身以建立SNR(其指示環境是否係吵雜的),以及識別音頻資料的背景或噪聲中之聲音的類型(諸如風),而予以決定。該環境資訊亦可獲自如在此所敘述之指示使用者的位置和活動之其他感測器。
處理300可包含“修正將被使用以在該音頻資料上執行語音辨識及根據該特徵之至少一參數”306。亦如在此所更詳細解說地,用以執行使用聲學模型及/或語言模型之ASR引擎所使用的參數可根據該特徵而予以修正,以便降低計算的負載,或增加語音辨識之品質而不會增加計算的負載。用於一選項實例,在特徵提取期間的噪聲降低可避免所識別之噪聲或聲音的提取。用於其他實例,在音頻資料的噪聲中之聲音類型的本體,或使用者之語音的識別,可被使用以選擇可淡化音頻資料中之所不欲聲音的聲學模型。而且,音頻的SNR以及ASR指示符(諸如上文所提及之WER及RTF)可被接著使用以設定聲學比例因數,用以使來自聲學模型的聲學分數,以及在語言模型上使用的波束寬度值及/或目前表徵緩衝器大小求精。然後,所識別之使用者的活動可被使用以選擇用於解碼器之
適當的詞彙特定語言模型。該等參數求精導致用以執行ASR的計算負載中之顯著的降低。
請參閱第4圖,其提供用於環境敏感之自動語音辨識的實例電腦實施處理400。在所描繪的實施中,處理400可包含一或多個操作、功能、或動作,如所均勻編號之一或多個操作402至432描繪地。以舉例非限制實例之方式,處理400可參照第1、2、及10至12圖之任何實例語音辨識裝置,及其中所相關聯者,而被描述於此。
該環境敏感之ASR處理利用的是,穿戴式或移動式裝置可大致地具有許多感測器的事實,而該等感測器可提供廣泛的環境資訊及分析由麥克風所捕獲的音頻之背景噪聲的能力,用以決定有關將被分析用於語音辨識之音頻的環境資訊。與其他感測器資料耦接在一起的音頻信號之噪聲及背景的分析,可允許識別對音頻裝置說話之使用者的位置、活動、及周遭。此資訊可被接著使用以使ASR參數求精,而協助降低用於ASR處理的計算負載需求,且因此,增進ASR的性能。細節係提供如下。
處理400可包含“獲得包含人的語音之音頻資料”402。此可包含從一或多個麥克風所捕獲之聲學信號讀取音頻輸入。該音頻可被先前地記錄,或可係直播串流的音頻資料。此操作可包含如上述之備妥用於ASR計算之清潔的或預處理的音頻資料。
處理400可包含“計算SNR”404,且特別地,決定音頻資料的信號噪聲比。該SNR可藉由SNR估計模組或
單元208,且根據來自ASR系統中之音頻前端的輸入,而被提供。該SNR可藉由使用諸如整體SNR(GSNR)、分段式SNR(SSNR)、及算術SSNR(SSNRA)之已知方法,而予以估計。用於語音信號之SNR的熟知定義係語音活動期間之信號功率對噪聲功率的比,如在以下方程式中以對數域表示的。SNR=10* log10(S/N),其中S係當語音活動存在時之所估計的信號功率,以及N係在相同時間之期間的噪聲功率,此係表示為整體SNR。惟,當語音信號係以各自10毫秒(ms)至30毫秒之小的訊框處理時,SNR係估計用於該等訊框之各者,且隨著時間的推移而被平均。對於SSNR,平均係在取得用於各訊框之比的對數之後,橫跨該等訊框而予以完成。對於SSNRA,對數計算係在橫跨該等訊框之比的平均之後完成,而使計算簡化。為了要偵測語音活動,使用有多種技術,諸如以時間域、頻率域、及其他特徵為基的對數,其係熟知於熟習此項技藝之任何人士。
選項地,處理400可包含“若語音被偵測出時,起動ASR”406。藉由一種選項形式,為了要延長電池壽命,除非話音或語音先在音頻中被偵測出,否則ASR操作不會被啟動。典型地,語音活動偵測的觸發器,及語音辨識器係在當無法準確分析單一話音以供語音辨識之用時的串音噪聲環境中被啟動。此將導致電池消耗增加。取代地,有關噪聲之環境資訊可被提供至語音辨識器,用以啟動已被參數化用於特殊串音噪聲環境(例如,使用更積極的臨
限值)之第二階段或替代的語音活動偵測。此將保持低的計算負載,直至使用者講出話為止。
已知的語音活動偵測演算根據潛時、語音偵測的準確性、計算成本、等等而變化。該等演算可在時間域或頻率域上工作,且可包含噪聲降低/噪聲估計階段、特徵提取階段、及分類階段,用以偵測話音/語音。VAD(語音活動偵測)演算的比較係由Xiaoling Yang,中國武漢湖北科技大學、Baohua Tan、Jiehua Ding、Jinye Zhang之“語音活動偵測演算上之比較性研討”所提供。聲音類型的分類係更詳細地以操作416解說。被使用以啟動ASR系統的該等考慮可藉由避免當沒有可辨識之語音或僅少許可辨識之語音存在時的啟動,而提供顯著降低能源浪費之更加精密的語音啟動系統。
一旦確定具有可辨識之語音的話音係存在於音頻之中,就可啟動ASR系統。選擇性地,該啟動可予以省略,且ASR系統可係在例如,總在開啟的模式中。無論如何,啟動ASR系統可包含修正特徵提取期間的噪聲降低,使用SNR以修正ASR參數,使用分類的背景聲音以選擇聲學模型,使用其他感測器資料以決定裝置的環境並根據該環境以選擇語言模型,且最後,啟動ASR引擎本身。該等功能之各者係敘述於下文。
處理400可包含“根據SNR及使用者活動而選擇參數值”408。如上所述,在ASR引擎中具有多種參數,其可根據上述而被調整,用以使性能最佳化。某些實例包含
波束寬度、聲學比例因數、及目前表徵緩衝器大小。諸如指示音頻之背景的吵鬧之SNR的額外環境資訊可被利用以藉調整某些關鍵參數,而進一步增進電池壽命,即使當ASR係活化時。該等調整可在音頻資料係清晰且其係更容易決定音頻資料上之使用者的字詞時,降低演算複雜度和資料處理,及依序地,計算之負載。
當輸入音頻信號的品質係良好時(例如,音頻係低噪聲位準而清晰),則SNR將變大,以及當輸入音頻信號的品質係不良時(音頻係很嘈雜的),則SNR將變小。若SNR係足夠大而允許準確的語音辨識時,則可放寬許多參數以降低計算之負載。放寬參數之一實例係將波束寬度自13降低至11,且因此,降低RTF,或以在WER中之僅0.5%的降低將計算的負載自0.0064降低至0.0041,如在第6圖中,當SNR變高時一樣地。選擇性地,若SNR變小且音頻係很嘈雜時,該等參數可以以使得最大性能仍可被達成之方式調整,儘管係以更多的能源及更少的電池壽命為代價。例如,如在第6圖中所示,當SNR變低時,增加波束寬度至13以致使17.3%之WER可以以較高的RTF(或增加的能量)為代價予以維持。
藉由一種形式,參數值係藉由根據使用者活動以修正SNR值或SNR設定而被選擇。此可在操作424所獲得之使用者活動提示一類型的SNR應存在(高、中、或低),但實際的SNR並非所預期之時候發生。在此情況中,覆蓋可發生且實際的SNR可被忽視或調整,而使用
SNR值或所預期的SNR設定(高、中、或低SNR的)。
請參閱第5圖,該等參數可藉由決定那些參數值係最可能達到所需之ASR指示符值,且特別地,如上述之字詞錯誤率(WER)和即時因數(RTF)值,而予以設定。如上所述,WER可係在所說之字詞的數目上之辨識錯誤的數目,以及RTF可藉由以發聲之期間來除用以處理該發聲所需的時間而被計算出。當決定ASR要耗費多少時間以辨識字詞或片語時,RTF具有在計算成本和回應時間上的直接影響。圖形500顯示用於不同SNR位準之一組發聲上的語音辨識系統及用於ASR參數的各種設定之WER與RTF間的關係。三種不同的ASR參數被改變---波束寬度、聲學比例因數、及表徵大小。該圖形係在用於高及低SNR設想情況之聲學比例因數、波束寬度、及表徵大小上的參數格柵搜尋,且該圖型顯示當該三種參數係橫跨其範圍而變化時之WER與RTF間的關係。為了要執行此搜尋或實驗,一種參數係以特定步階大小變化,而保持另外兩種參數恆常且捕獲RTF及WER的值。該實驗係藉由一次僅變化一種參數且保持另外兩種參數恆常,而被重複用於另外兩種參數。在收集到所有的資料之後,圖係藉由合併所有的結果且繪製WER與RTF間的關係,而予以產生。該實驗係重複用於高SNR及低SNR設想情況。例如,聲學比例因數係以0.01的步階而自0.05變化至0.11,且同時保持波束寬度及表徵大小的值恆常。同樣地,波束寬度係以1的步階而自8變化至13,而保持聲
學比例因數及表徵大小不變。又,表徵大小係自64k變化至384k,而保持聲學比例因數及波束寬度不變。
在圖形500上,水平軸係RTF,以及垂直軸係WER。有兩種不同的系列以供低及高的SNR設想情況之用。對於低及高的SNR設想情況二者,最佳的點以用於被調整之三個相依變數的特定值之最低RTF存在於圖形中(請參閱下文所討論的第8圖)。較低值的WER對應較高的準確度,以及較低值的RTF對應較少的計算成本或降低的電池使用。因為通常不可能使兩種量度同時地最小化,所以該等參數常被選擇以保持RTF平均值在0.5%左右(在表600上之0.005)用於所有的SNR位準,而使WER最小化。任何進一步的RTF降低將產生降低的電池消耗。
請參閱第6圖,處理400可包含“選擇波束寬度”410。大致地,對於較大的波束寬度設定,ASR變得更準確但較慢,亦即,WER減少以及RTF增加,且反之亦然用於較小值的波束寬度。習知地,波束寬度係設定為固定值,以供所有的SNR位準之用。顯示用於不同波束寬度之不同的WER及RTF值之實驗資料係提供於表600上。此圖表係產生用以描繪波束寬度在WER及RTF上的效應。為了要產生此圖表,波束寬度係以1的步階而自8變化至13,以及WER及RTF係針對三種不同的設想情況,亦即,高SNR、中SNR、及低SNR測量。如所示地,當波束寬度等於12時,WER係在所有SNR位準的範圍接近
於最佳值,其中高及中的WER值係小於典型所需之15%最大值,以及低SNR設想情況提供僅比15%更高2.5%的17.5%。雖然低SNR係在0.0087,但是對於高及中SNR,RTF係接近於0.005目標值,此顯示的是,當音頻信號係嘈雜時,為了要獲得合適的WER,系統甚至會變慢。
惟,取代維持相同的波束寬度用於所有的SNR值,如在此所敘述之諸如SNR之環境資訊的使用允許SNR相依之波束寬度參數的使用。例如,波束寬度可被設定為9用於較高SNR情形,而維持在12以供較低SNR情形之用。對於高的SNR情勢,自習知之固定波束寬度設定12降低波束寬度至9維持可接受範圍的準確度(12.5% WER,其係小於15%),且同時獲得更為降低的計算成本以供高的SNR情形之用,如由波束寬度12的0.0051至波束寬度9的0.0028之較低RTF所證明地。而,對於低的SNR,當為了要達成合適的可用性而使最佳WER變成更重要時,波束寬度可被最大化(在12)以及RTF可被允許增加至如上所述之0.0087。
上述該等實驗可以以模擬環境或以真實硬體裝置執行。當以模擬環境執行時,具有不同設想情況之音頻檔案可被預記錄,以及ASR參數可透過腳本語言而予以調整,其中該等參數係由該等腳本所修正。ASR引擎可藉由使用該等修正的參數而被操作。在真實硬體裝置中,可實施特別的電腦程式以修正該等參數,且在例如,戶外、室內、等等之不同的SNR設想情況執行該等實驗,用以捕
獲WER及RTF值。
請參閱第7圖,處理400可包含“選擇聲學比例因數”412。另一參數係聲學比例因數,其可根據聲學情形,或換言之,根據如由例如,SNR及音頻裝置(因為其拾取聲波且形成音頻信號)的周圍所顯示之有關環境的資訊,而被修正。該聲學比例因數決定聲學與語言模型分數之間的加權。在解碼速度上,其具有很少的影響,但對於獲得良好的WER,其卻是重要的。表700提供實驗資料,其包含用於不同SNR(高、中、及低)之可能的聲學比例因數及WER。該等值係獲得自具有在不同噪聲情形下之等效音頻記錄的實驗,且表700顯示的是,辨識準確度可藉由使用根據SNR之不同的聲學比例因數而予以增進。
如上所示,聲學比例因數可係乘數,其係施加至由聲學模型所輸出之所有的聲學分數。藉由其他替代例,聲學比例因數可被施加至所有聲學分數的子集,例如,表示靜音或某些類別之噪聲的該等者。此可在識別出特定音頻環境時被執行,以便在該等情勢中加強更可能被發現的聲學事件。該聲學比例因數可藉由發現,使表示特定音頻環境的一組開發語音音頻檔案上之字詞錯誤率最小化的聲學比例因數,而予以決定。
藉由另一形式,聲學比例因數可根據其他的環境及情況資料而被調整,例如,當裝置使用者係涉及在諸如跑步、騎自行車、等等的戶外活動之中時,其中語音可在風
噪聲、交通噪聲、及呼吸噪聲中被消耗。此情況可藉由來自慣性移動感測器的資訊及獲得自周遭音頻感測器的資訊,而被取得。在此實例中,可提供其係較低之某一值的聲學比例因數,用以淡化非語音的聲音。該等非語音的聲音可係沉重的呼吸,當所偵測出的是,例如,使用者正在運動時,或者係風,若所偵測出的是,使用者係在戶外時。用於該等設想情況的該等聲學比例因數係藉由收集用於所選擇的上述環境情況(具有風噪聲之跑步、沒有風噪聲之跑步、具有交通噪聲之騎自行車、沒有交通噪聲之騎自行車、等等)之大的音頻資料集而被獲得,且以經驗為主地決定正確的聲學比例因數而降低WER。
請參閱第8圖,表800顯示以用於各SNR設想情況(在圖形500上所顯示的高及低)之其中一者選自圖形500的兩個例示、特定、最佳之點的資料。WER係維持在12%以下,用於高SNR,以及在17%以下,用於低SNR,且同時以0.6的最大值合理地維持RTF低,該0.6的最大值係用於可能需要沉重計算負載以供良好品質語音辨識之用的嘈雜音頻。而且,對於第8圖,可注意表徵大小的效應。特別地,在高SNR的設想情況中,較小的表徵大小亦降低能量消耗,以致使較小的記憶體(或表徵)大小限制導致較少的記憶體存取,且因此,導致更低的能量消耗。
應理解的是,ASR系統可使波束寬度單獨地求精,使聲學比例因數單獨地求精,或使二者求精,或提供選項以
使任一者求精。為了要決定使用那些選項,可使用並未被使用以訓練語音辨識引擎之開發的語音發聲組。根據環境情形而給定辨識率與計算速度間之最佳交換的參數,可使用以經驗為主的方法而予以決定。該等選項之任何者可能要考慮到如上文所討論之WER及RTF二者。
應注意的是,被使用以決定此處以及圖形500及表600、700、和800上的RTF值之實驗所顯示的RTF係根據ASR演算,其運作在主頻2至3GHz之多核心桌上型PC及膝上型個人電腦上。惟,在穿戴式裝置上,RTF應具有通常在大約0.3%至0.5%之範圍中(根據那些其他的程式正在處理器上運作)的極大值,而處理器運作在小於500MHz的時脈速度,且因此,具有具備動態ASR參數之更高潛能的負載降低。
藉由另一替代例,處理400可包含“選擇表徵緩衝器大小”414。因此,除了選擇波束寬度及/或聲學比例因數之外,可設定較小的表徵緩衝器大小,用以顯著地降低可存在於語言模型上之同時主動搜尋假設的最大數目,其依序地降低記憶體存取,且因而,降低能源消耗。換言之,該緩衝器大小係可由語言轉換器在任一時間點所處理之表徵的數目。若使用直方圖修剪或類似之適合的波束修剪方法時,則表徵緩衝器大小可具有在實際波束寬度上的影響。如用於聲學比例因數及波束寬度之上文所解說的,表徵緩衝器大小可藉由在開發組上評估WER與RTF間之最佳折衷,而加以選擇。
除了決定SNR之外,ASR處理400可包含“藉由聲音之類型而分類音頻資料中的聲音”416。因此,以來自類比前端之音頻資料的形式之麥克風取樣亦可被分析,以便識別(或分類)包含話音或語音之音頻資料中的聲音,以及在該音頻之背景噪聲中的聲音。如上所述,所分類的聲音可被使用以如上述地決定音頻裝置及該裝置之使用者周圍的環境以供較低功率消耗的ASR之用,以及用以決定是否要首先啟動ASR。
此操作可包含比較進入的或記錄的音頻信號之所需信號部分與所學習的語音信號圖案。該等圖案可係標準化的圖案,或在由特殊使用者使用音頻裝置之期間所學習的圖案。
此操作亦可包含比較其他已知的聲音與預儲存的信號圖案,用以決定該等已知類型或種類之聲音的任何者是否存在於音頻資料的背景之中。此可包含與以下相關聯的音頻信號圖案:風,無論是否來自車或飛機之內或之外的交通或個別車輛聲音,諸如說話或歡呼之人群,例如來自運動之沉重呼吸,諸如來自自行車或跑步機之其他運動相關的聲音,或可被識別且指示音頻裝置周圍之環境的任何其他聲音。一旦識別出該等聲音,識別或環境資訊就可被提供以由啟動單元使用,而如上述地啟動ASR系統,且當偵測出話音或語音時,則將被另外提供以在聲學模型中予以淡化。
此操作亦可包含藉由使用來自其他感測器的環境資訊
之識別聲音類型的確認,其將在下文被更詳細地解說。因此,若在音頻資料中發現沉重呼吸時,可藉由使用其他感測器以確認的是,該音頻事實上係用以發現使用者正在運動或跑步之環境資訊的沉重呼吸。藉由一形式,若不確認存在時,則聲學模型將不單獨根據可能沉重的呼吸聲音而被選擇。此確認處理可針對各不同類型或種類的聲音發生。在其他形式中,確認並未被使用。
除此之外,處理400可包含“根據在音頻資料中所偵測出之聲音的類型而選擇聲學模型”418。根據音頻分析,可選定聲學模型以濾除或淡化諸如沉重呼吸之所識別出的背景噪聲,以致使提供話音或語音的音頻信號可被更明晰地辨識及加強。
此可藉由參數求精單元及藉由提供相對較低的聲學分數至音頻資料中所偵測出之聲音的音素,而予以達成。特別地,諸如沉重呼吸之聲學事件的先驗機率,可根據聲學環境是否包含該等事件而被調整。若例如,沉重呼吸係在音頻信號中偵測出時,則有關該等事件之聲學分數的先驗機率係設定為表示該類型之環境中的該等事件之相對頻率的值。因此,在此之參數的求精(聲學分數)係各自有效淡化背景中之不同聲音或聲音的組合之特殊聲學模型的選擇。所選擇的聲學模型,或其指示係提供至ASR引擎。此更有效率的聲學模型以更少的計算負載最終地導致ASR引擎至適當的字詞及詞句,且藉以更快速地降低功率消耗。
為了要決定音頻裝置及裝置之使用者的環境,處理400亦可包含“獲得感測器資料”420。如上所述,諸如無線智慧型健康手環、智慧型手錶、智慧型耳機、智慧型眼鏡、及諸如智慧型手機的其他音頻裝置、等等之許多現有的穿戴式裝置,收集來自諸如加速度計、陀螺儀、氣壓計、磁力儀、膚電回應(GSR)感測器磁力儀、距離感測器、光二極體、麥克風、及相機的整合感測器之不同種類的使用者資料。此外,若適用時,某些穿戴式裝置將具有可從GPS接收器及/或WiFi接收器獲得的定位資訊。
處理400可包含“從感測器資料決定移動、位置、及/或周遭資訊”422。因此,來自GPS及WiFi接收器的資料可指示音頻裝置的位置,其可包含全局座標以及音頻裝置是否在建築物中,該建築物係例如,住家或特定類型之商業或其他結構體,而指示諸如健身房、高爾夫球場、或體育場館之某些活動。膚電回應(GSR)感測器可偵測裝置是否根本正由使用者所攜帶,而距離感測器可指出使用者是否正如電話一樣地保持音頻裝置。如上所述,其他感測器可被使用以偵測電話的移動,且依序地,當所決定的是,使用者正攜帶/穿戴該裝置時,偵測如跑步機或其他相似感測器之使用者的移動。此可包含加速度計、陀螺儀、磁力儀、超音波反響感測器、或可感測例如,音頻裝置的來回移動之圖案且依序地,可指出使用者正在跑步、騎自行車、等等之使用者的移動之其他的移動感測器。諸如電子心率或脈博感測器之其他健康相關的感測器或其類
似物,可被使用以提供有關使用者之目前活動的資訊。
感測器資料亦可與諸如,使用者的年齡、性別、職業、運動養生、嗜好、等等之預儲存的使用者設定檔資訊結合而被使用,且其可被使用以較佳地識別語音信號對背景噪聲,或識別環境。
處理400可包含“從資訊決定使用者活動”424。因此,參數求精單元可收集所有的音頻信號分析資料,包含SNR、音頻語音及噪聲識別、及諸如使用者之可能位置和移動的感測器資料、以及任何相關聯的使用者設定檔資訊。該單元接著可產生有關音頻裝置及該裝置的使用者周圍之環境的資訊。此可藉由編譯所有的環境資訊,及比較所收集的資料與指示特定活動之預儲存的活動指示資料組合,而予以完成。根據來自移動感測器之資料的活動分類係熟知的,如由Mohd Fikri Azli bin Abdulla、Ali Fahmi Perwira Negara、Md.Shohel Sayeed、Deok-Jai Choi、Kalaiarasi Sonai Muthu等人,在“World Academy of Science,Engineering and Technology Vol:6 2012-08-27”之第372至379頁的「使用智慧型手機之人活動i辨識中的分類演算」之中所敘述的。同樣地,音頻分類亦係深入研究區。來自微軟(Microsoft)研究室(research.microsoft.com/pubs/69879/tr-2001-79.pdf)的Lie Lu、Hao Jiang及HongJiang Zhang顯示用於音頻分類之根據kNN(k-最近鄰居法)及以規則為基礎之途徑的方法。所有的分類問題包含表示種類(身體活動,諸如語音、非
語音、音樂、噪聲、等等的音頻種類)之關鍵特徵(時域、頻域,等等)的提取,及使用諸如以規則為基礎之途徑、kNN、HMM及其他人工神經網絡演算的分類演算以分類資料。在分類處理期間,用於各種類別之訓練相期間所保持的特徵模板將與產生之特徵比較,用以決定最接近的匹配。來自SNR偵測區塊、活動分類、音頻分類、諸如位置之其他環境資訊的輸出可接著被組合,用以產生有關使用者之更準確及更高位準的抽象概念。若所偵測出的身體活動係在游泳中,則所偵測出的背景噪聲係游泳池噪聲,且水感測器顯示肯定的偵測,而可被確認的是,使用者係確切地正在游泳。此將允許ASR被調整至游泳設定檔,而調整語言模型至游泳且亦更新聲學比例因數、波束寬度、及表徵大小至此特定設定檔。
提供幾個實例,在SNR係低的一情勢中,該音頻分析指示沉重呼吸聲音及/或其他的戶外聲音,且其他感測器指示沿著自行車道之腳的運作移動。在此情況中,相當有信心之結論可被取得的是,使用者正在戶外奔行。在稍做修正的情況中,當風的聲音係在音頻之中偵測出,且移動感測器偵測出音頻裝置及/或使用者以沿著自行車道之已知的騎自行車速度快速移動時,可得出使用者正在戶外的風中騎自行車之結論。同樣地,當音頻裝置正在以似車速度移動,以及交通噪聲存在及被偵測出沿著道路移動時,可得出使用者在車中的結論,且根據已知的音量位準,甚至可得出車車窗是否打開或關閉的結論。在其他實
例中,當偵測出使用者並未與音頻裝置接觸,而該音頻裝置被偵測在具有辦公室的建築物且可能在具有WiFi及高SNR的特定辦公室之內時,可得出音頻裝置係向下放置而被使用作為揚聲器(且可能可以決定的是,揚聲器模式係在音頻裝置上啟動),及使用者係在相當安靜(低噪聲---高SNR)之環境中空閒著的結論。許多其他的實例均可能存在。
處理400可包含“根據所偵測出之使用者活動而選擇語言模型”428。如上所述,此發明之一觀點在於收集及利用可獲得自系統的其餘部分之相關聯的資料以調諧ASR的性能及計算的負載。上文所給定之實例集中在不同環境與運用情勢之間的聲學差異。當可藉由使用環境資訊以決定何者可能係使用者將使用之子詞彙,及何者不可能係使用者將使用之子詞彙,而約束(可用詞彙的)搜尋空間時,則語音辨識處理亦變成較不複雜,且因此,變得更具計算效率。此可藉由按照環境資訊以增加語言模型中之用於更有可能被使用之字詞的權值,及/或減少用於將不被使用之字詞的權重,而予以達成。其係受限於與例如,搜尋地圖上的實際位置相關聯之資訊的一習知方法係用以加權詞彙中之不同的字詞(例如,地址、地點),如由Bocchieri、Caseiro所提供的〝ASR語言及聲學模型中之地理元資料的使用〞,“2010年IEEE聲學語音及信號處理國際會議”之第5118至5121頁。惟,相比之下,本發明的環境敏感之ASR處理係更具有效率,因為穿戴式裝
置“了解”更多有關使用者而不僅僅是位置。例如,當使用者正積極地做跑步之健身運動時,則變成更可能的是,由使用者所發聲之用語及命令係與此活動有關。使用者將經常在健身活動期間詢問“我目前的脈搏速率為何”,而幾乎不會在家中坐在電視機前的時候問到。因此,用於字詞及字詞序列的可能性將根據其中該等字詞被陳述的環境。所提出之系統架構允許語音辨識器利用使用者的環境資訊(例如,活動狀態),而使語音辨識器的統計模型適合以較佳地匹配於使用者可對系統所說出之字詞及片語的真正機率分佈。例如,在健身活動之期間,語言模型將具有用於來自健身域之字詞及片語(“脈博速率”)之增加的可能性,以及用於來自其他域之字詞(“遙控”)之減少的可能性。平均起來,適合的語言模型將導致語音辨識引擎較少的計算工作,且因此,降低消耗的功率。
根據由環境資訊所決定之更有可能的子詞彙而修正語言模型的權重可被有效地稱作,選擇可被調諧用於該特殊子詞彙的語言模型。此可藉由預先界定若干子詞彙,且使該等子詞彙與可能的環境(諸如使用者及/或音頻裝置之某一活動或位置、等等)匹配,而予以達成。當發現環境存在時,系統將檢索對應的子詞彙且以更準確的值設定字詞的權重於該子詞彙中。
除了決定子詞彙之外,應理解的是,來自位置、活動、及其他感測器的環境資訊亦可被使用以協助識別用於聲學資料分析的聲音,以及協助來自預處理之聲學資料及
在聲學模型被產生之前的特徵提取。例如,所提出之系統可在系統偵測出使用者在外面移動時,致能特徵提取中的風噪聲降低。因此,處理400亦可選項地包含“根據環境而調整特徵提取期間的噪聲降低”426。
亦如上文所述地,在此所使用的參數設定單元將分析來自所有可用來源之所有的環境資訊,以致使環境可由超過一個的來源所確認,且若資訊之一來源係不足時,則該單元可加強來自另一來源的資訊。藉由另一替代例,雖然參數可根據SNR本身而被調整,但參數求精單元可以以凌駕模式使用所收集自不同感測器之額外的環境資訊資料,以供ASR系統之用,而使得用於該特殊環境的性能最佳化。例如,若使用者正在移動時,假如並未提供SNR或甚至SNR高且與感測器資料衝突,則將被假設的是,音頻應係相對嘈雜的。在此情況中,可忽略SNR且可使參數變嚴峻(嚴格地設定參數值至最大搜尋容量位準以搜尋整個詞彙,等等)。此允許較低WER產生,以便使獲得良好品質的辨識比速度及功率效益優先。此係藉由除了SNR監測之外,還監測“使用者活動資訊”424且識別當使用者在移動之中時是否正在跑步、步行、騎自行車、游泳、等等,而予以執行。如在前所述地,若偵測出有移動時,ASR參數值係以操作408設定,與當SNR係低及中,甚至SNR被偵測出非常高時,何者將被設定相似地。此係用以確保可達成最小的WER,即使是在其中所說的字詞係難以被偵測出的設想情況中,因為它們可藉由
使用者活動而予以些微地修正。
處理400可包含“執行ASR引擎計算”430,且特別地,可包含(1)調整當由於環境資訊而假設某些聲音存在時之特徵提取期間的噪聲降低,(2)使用所選擇之聲學模型以產生用於所提取自音頻資料的音素及/或字詞,且其將加強或淡化某些識別之聲音的聲學分數,(3)根據SNR而以聲學比例因數調整該等聲學分數,(4)設定用於語言模型之波束寬度及/或目前表徵緩衝器大小,(5)根據所偵測出的環境而選擇語言模型權重。所有的該等參數求精導致當語音係較容易辨識時之計算負載的降低,以及當語音係較難以辨識時增加計算負載,而最終地,在消耗的功率中產生整體的降低,且依序地,產生延長的電池壽命。
該語言模型可係WFST或其他格子類型的轉換器,或如上述之使用聲學分數及/或允許語言模型的選擇之任何其他類型的語言模型。藉由一方法,特徵提取及聲學得分發生在WFST解碼之前。藉由另一實例,聲學得分可及時發生。若聲學得分係及時執行時,其可經請求而被執行,使得僅在WFST解碼期間所需的分數被計算。
由該WFST所使用之核心表徵傳遞演算可包含導出用於表徵正在進行之弧形的聲學分數,其可包含添加舊的(在前的)分數加上弧形(或過渡)權重加上目的地狀態之聲學分數。如上所述,此可包含詞庫、統計語言模型或文法及音素情境相依、及HMM狀態拓樸結構資訊的使
用。所產生的WFST資源可係單一的、靜態組成之WFST,或將被以動態組成使用之兩個或更多個WFST。
處理400可包含“是否發聲結束?”432。若偵測出發生結束時,則ASR處理已完畢,且系統可繼續監測音頻信號用於任一進入的話音。若發聲結束尚未發生時,則處理成迴路用以在操作402及420分析該發聲之接著的部分。
請參閱第9圖,藉由另一方法,處理900描繪依據本發明之至少一些實施例的執行環境敏感之自動語音辨識的語音辨識系統1000之一實例操作,包含環境識別、參數求精、及ASR引擎計算。更詳細地,在所描繪的形式中,處理900可包含一或多個操作、功能、或動作,如由所均勻編號之一或多個動作902至922所描繪地。利用非限制之實例,處理900將參照第10圖而被敘述於此。特別地,系統或裝置1000包含邏輯單元1004、參數求精單元1012、及伴隨有其他模組的ASR引擎或單元1014,該邏輯單元1004包含語音辨識單元1006與環境識別單元1010。該系統的操作可被描述如下。該等操作之許多細節已在本文的其他地方被解說。
處理900可包含“接收輸入音頻資料”902,其可係預記錄的或直播串流的資料。處理900可接著包含“分類音頻資料中的聲音類型”904。特別地,該音頻資料係如上述地分析,用以識別將被淡化的非語音聲音,或話音或語音,而較佳地使語音信號明晰。藉由一選項,來自其他
感測器的環境資訊可被使用以協助識別或確認音頻中所存在的聲音類型,如上文所解說的。而且,處理900可包含“計算SNR”906,且係該音頻資料的。
處理900可包含“接收感測器資料”908,且如上文所詳細解說地,該感測器資料可來自許多不同的來源,其提供有關音頻裝置之位置及音頻裝置之移動,及/或靠近該音頻裝置之使用者的移動之資訊。
處理900可包含“從感測器資料決定環境資訊”910。且,如上文所解說地,此可包含從個別的來源決定所提示的環境。因此,具有有關使用者是否正攜帶音頻裝置,或如電話一樣地保持該裝置,位置在之內或之外,使用者正以跑步動作而移動或閒置,等等的中間結論。
處理900可包含“從環境資訊決定使用者活動”912,其係來自有關音頻裝置位置及使用者活動之所有來源的環境資訊之最後或決定性結論。因此,使用一非限制之實例,可變成結論的是,使用者正在外面有風的情形中,在自行車道上快速奔行且呼吸短促。許多不同的實例存在著。
處理900可包含“修正特徵提取期間之噪聲降低”913,且係在提供該等特徵至聲學模型之前。此可根據聲音識別或其他感測器資料資訊,或二者。
處理900可包含“根據SNR及使用者活動而修正語言模型參數”914。實際的SNR設定可被使用以設定參數,若該等設定並不與當某一使用者活動存在時(諸如正
在戶外的風中)之期望的SNR設定衝突的話。該等參數的設定可包含修正波束寬度、聲學比例因數、及/或目前表徵緩衝器大小,如上文所敘述地。
處理900可包含“至少部分地根據音頻資料中之所偵測出的聲音類型而選擇聲學模型”916。且,如在本文所敘述地,此意指修正聲學模型,或選擇分別淡化不同的特殊聲音之聲學模型的組之其中一者。
處理900可包含“至少部分地根據使用者活動而選擇語言模型”918。此可包含修正語言模型,或選擇藉由修正用於該詞彙中之字詞的權重而加強特殊的子詞彙之語言模型。
處理900可包含“使用所選擇的及/或所修正的模型以執行ASR引擎計算”920,且如在本文所敘述地,使用所修正的特徵提取設定,具有或不具有在本文所敘述之其後被施加至分數的聲學比例因數之所選擇的聲學模型,以及具有或不具有修正的語言模型參數之所選擇的語言模型。處理900可包含“提供假設字詞及/或片語”922,至例如,語言解譯器單元,用以形成單一詞句。
應理解的是,處理300、400、及/或900可由取樣ASR系統10、200、及/或1000所提供,用以操作本發明之至少一些實施例。此包含在語音辨識處理系統1000(第10圖)中之環境識別單元1010、參數求精單元1012、及ASR引擎或單元1014、以及其他者的操作,且相似地,用於系統10(第1圖)。應理解的是,處理
300、400、及/或900之一或多個操作可被省略,或以與在此所詳述之該者不同的順序執行。
此外,第3至4及9圖之該等操作的任何一者或多者可回應由一或多個電腦程式產品所提供之指令而被承擔。該等程式產品可包含提供程式之信號承載媒體,當藉由例如,處理器而予以執行時,其可提供在此所描述的功能。該等電腦程式產品可被以任何形式之一或多個機器可讀取媒體配置。因此,例如,包含一或多個處理器核心之處理器可回應由一或多個電腦或機器可讀取媒體所傳達至處理器之程式碼及/或指令或指令集,而承擔在此之實例處理的一或多個操作。一般而言,機器可讀取媒體可以以程式碼及/或指令或指令集之形式傳達軟體,其可致使裝置及/或系統如本文所描述地執行。該機器或電腦可讀取媒體可係諸如非暫時性電腦可讀取媒體之非暫時性物件或媒體,且除了其本質地不包含暫時性信號之外,其可與上述之任何實例或其他實例一起被使用。除了信號之外,其本質地不包含諸如RAM及類似物之可以以“暫時性”方式暫時地保持資料之該等元件。
如在本文所敘述之任何實施中所使用地,“模組”之用語意指被組構以提供本文所描述的功能之軟體邏輯、韌體邏輯、及/或硬體邏輯的任何組合。該軟體可被實施為軟體封裝、碼、及/或指令集或指令,以及如在本文所敘述之任何實施中所使用的“硬體”可單一地或以任何組合之方式包含硬線電路、可編程電路、狀態機器電路、及/
或儲存由可編程電路所執行之指令的韌體。該等模組可被集合地或個別地實施為電路,而形成例如,積體電路(IC)、系統在晶片上(SoC)、等等之較大系統的一部分。例如,模組可經由在此所討論之編碼系統的軟體、韌體、或硬體而被實施於邏輯電路中,以供實施之用。
如在本文所敘述之任何實施中所使用地,“邏輯單元”之用語意指被組構以提供本文所描述的功能之韌體邏輯及/或硬體邏輯的任何組合。該等邏輯單元可被集合地或個別地實施為電路,而形成例如,積體電路(IC)、系統在晶片上(SoC)、等等之較大系統的一部分。例如,邏輯單元可經由在此所討論之編碼系統的韌體或硬體而被實施於邏輯電路中,以供實施之用。熟習本項技藝之一般人士將理解的是,由硬體及/或韌體所執行的操作可經由軟體而被替代地實施,該軟體可被實施為軟體封裝、碼、及/或指令集或指令,且亦將理解的是,邏輯單元亦可使用一部分軟體以實施其功能。
如在本文所敘述之任何實施中所使用地,“組件”之用語可意指模組或邏輯單元,當該等用語係敘述於上文時。因而,“組件”之用語可意指被組構以提供本文所描述的功能之軟體邏輯、韌體邏輯及/或硬體邏輯的任何組合。例如,熟習本項技藝之一般人士將理解的是,由硬體及/或韌體所執行的操作可經由軟體模組而被替代地實施,該軟體模組可被實施為軟體封裝、碼、及/或指令集或指令,且亦將理解的是,邏輯單元亦可使用一部分軟體
以實施其功能。
請參閱第10圖,實例語音辨識系統1000係依據本發明之至少一些實施例而被配置。在各種實施中,實例語音辨識系統1000可具有音頻捕獲裝置1002,用以形成或接收聲學信號資料。此可以以種種方式實施。因此,在一形式中,語音辨識處理系統1000可係諸如麥克風之音頻捕獲裝置,且在此情況中,音頻捕獲裝置1002可係麥克風硬體及感測器軟體、模組、或組件。在其他實施例中,語音辨識處理系統1000可具有音頻捕獲裝置1002,其包含麥克風或可係麥克風,以及邏輯模組1004可與該音頻捕獲裝置1002遠距地通訊,或除此之外,邏輯模組1004可被通訊地耦接至該音頻捕獲裝置1002,以供聲學資料的進一步處理之用。
在任一情況中,該技術可包含諸如,智慧型手機、諸如智慧型手錶或運動手環之手腕型電腦、或智慧型眼鏡的穿戴式裝置,且除此之外,還包含電話、聽寫機、其他聲音記錄機器、行動裝置、或車載裝置、或其任何組合。在此所使用的語音辨識系統致能ASR用於小型CPU(穿戴式裝置、智慧型手機)上之生態系統,因為本發明的環境敏感之系統及方法無需一定要連接至雲端以執行如在此所敘述之ASR。
因此,在一形式中,音頻捕獲裝置1002可包括包含一或多個感測器的音頻捕獲硬體,以及致動器控制。該等控制可係音頻信號感測器模組或用以操作音頻信號感測器
之組件的一部分。該音頻信號感測器組件可係音頻捕獲裝置1002的一部分,或可係邏輯模組1004的一部分,或該二者的一部分。該音頻信號感測器組件可被使用以轉換聲波成為電性聲學信號。音頻捕獲裝置1002亦可具有A/D轉換器、其他濾波器、等等,用以提供數位信號以供語音辨識處理之用。
系統1000亦可具有,或可被通訊地耦接至一或多個其他的感測器或感測器子系統1038,其可被使用以提供有關其中音頻資料被捕獲之環境的資訊。特別地,感測器或該等感測器1038可包含可指示有關其中音頻信號或音頻資料被捕獲之環境的資訊之任何感測器,其包含全球定位系統(GPS)或相似的感測器、溫度計、加速度計、陀螺儀、氣壓計、磁力儀、膚電回應(GSR)感測器、面部接近感測器、移動感測器、光二極體(光偵測器)、超音波反響感測器、電子心率或脈博感測器、形成計步器之該等或其他技術的任何者之感測器、其他健康相關的感測器、及類似物。
在所描繪的實例中,邏輯模組1004可包含聲學前端單元1008、環境識別單元1010、參數求精單元1012、及ASR引擎或單元1014,該聲學前端單元1008提供前置處理,如與單元18(第1圖)所描述一樣地,且其識別聲學特徵。ASR引擎1014可包含:特徵提取單元1015;聲學得分單元1016,其提供用於該等聲學特徵的聲學分數;以及解碼器1018,其可係WFST解碼器且其提供字
詞序列假設,該字詞序列假設可以以所瞭解的及如本文所描述的語言或字詞轉換器及/或格子的形式。語言解譯器執行單元1040可被設置以決定使用者意圖,且從而,做出反應。解碼器單元1018可由處理器1020所操作,或甚至被整個地或部分地設置於處理器1020,且該處理器1020可包含或連接至加速器1022,用以執行環境決定、參數求精、及/或ASR引擎計算。邏輯模組1004可被通訊地耦接至音頻捕獲裝置1002及感測器1038之組件,以便接收原始聲學資料及感測器資料。邏輯模組1004可被視為或可不被視為音頻捕獲裝置的一部分。
語音辨識處理系統1000可具有一或多個處理器1020,其可包含加速器1022,該加速器1022可係專用加速器且係諸如Intel Atom的其中一者;記憶體儲存1024,其可保持或不保持表徵緩衝器1026,以及字詞歷史、音素、詞彙、及/或情景資料庫、等等;至少一揚聲器單元1028,用以提供對輸入聲學信號的聽覺回應;一或多個顯示器1030,用以提供正文或其他內容之影像1036,做為對聲學信號的視覺回應;其他終端裝置1032,用以回應該聲學信號而執行動作;以及天線1034。在一實例實施中,語音辨識處理系統1000可具有:顯示器1030;至少一處理器1020,通訊地耦接至該顯示器;至少一記憶體1024,通訊地耦接至該處理器,且具有例如,表徵緩衝器1026,用以儲存表徵,如上文所解說地。天線1034可被設置用以傳輸相關聯的命令至
可根據使用者輸入而動作的其他裝置。除此之外,語音辨識處理的結果可被處存於記憶體1024中。如所描繪地,該等組件之任何者可具有彼此互相通訊,及/或與邏輯模組1004及/或音頻捕獲裝置1002之部分通訊的能力。因此,處理器1020可被通訊地耦接至音頻捕獲裝置1002、感測器1038二者、及邏輯模組1004,用以操作該等組件。藉由一方法,雖然如第10圖中所示的語音辨識系統1000可包含與特殊組件或模組相關聯之特殊的方塊或動作集,但該等方塊或動作可與除了在此所描繪之特殊組件或模組之外的不同組件或模組相關聯。
做為另一替代例,應瞭解的是,語音辨識系統1000,或在此所敘述的其他系統(諸如系統1100)可係伺服器,或可係伺服器為基之系統或網路(而不是行動系統)的一部分。因此,以伺服器之形式的系統1000可不具有諸如天線之行動元件,或可不被直接連接至諸如天線之行動元件,但仍可具有語音辨識單元1006之相同的組件,且可在例如,電腦或電信網路上提供語音辨識服務。同樣地,系統1000的平台1002可取代地,係伺服器平台。在伺服器平台上使用所揭示的語音辨識單元將節省能源並提供較佳的性能。
請參閱第11圖,依據本發明的實例系統1100操作在此所敘述之語音辨識系統的一或多個觀點。將從下文所敘述之系統組件的性質瞭解的是,該等組件可與上文所敘述之語音辨識系統的某一部分或某些部分相關聯,或可被使
用以操作上文所敘述之語音辨識系統的某一部分或某些部分。在各種實施中,系統1100可係媒體系統,雖然系統1100並未受限於此情況。例如,系統1100可被結合至諸如智慧型手錶、智慧型眼鏡、或運動手環的穿戴式裝置、麥克風、個人電腦(PC)、膝上型電腦、超薄膝上型電腦、平板電腦、觸控墊、攜帶式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、蜂巢式電話、組合蜂巢式電話/PDA、電視,或其他智慧型裝置(例如,智慧型手機、智慧型平板、或智慧型電視)、行動網際網路裝置(MID)、通訊設備、資料通訊裝置,等等之內。
在各種實施中,系統1100包含平台1102,其係耦接至顯示器1120。平台1102可接收來自諸如內容服務裝置1130或內容交付裝置1140之內容裝置,或其他相似的內容來源之內容。包含一或多個導航特徵之導航控制器1150可被使用以與例如,平台1102、至少一揚聲器或揚聲器子系統1160、至少一麥克風1170、及/或顯示器1120相互作用。該等組件的各者將在下文予以更詳細地描述。
在各種實施中,平台1102可包含晶片組1105、處理器1110、記憶體1112、儲存1114、音頻子系統1104、圖形子系統1115、應用1116、及/或無線電1118的任一組合。晶片組1105可在處理器1110、記憶體1112、儲存1114、音頻子系統1104、圖形子系統1115、應用1116、及/或無線電1118之中提供相互通訊。例如,晶片組
1105可包含能提供與儲存1114相互通訊的儲存轉接器(未描繪)。
處理器1110可被實施為複雜指令集電腦(CISC)或縮減指令集電腦(RISC)處理器;x86指令集相容處理器,多核心,或任何其他的微處理器或中央處理單元(CPU)。在各種實施中,處理器1110可係雙核心處理器、雙核心行動處理器、等等。
記憶體1112可被實施為諸如,隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)、或靜態RAM(SRAM)之揮發性記憶體裝置,但並未受到限制。
儲存1114可被實施為諸如,磁碟驅動器、光碟驅動器、磁帶驅動器、內部儲存裝置、附加儲存裝置、快閃記憶體、電池備份式SDRAM(同步DRAM)、及/或網路可存取式儲存裝置之非揮發性記憶體裝置,或任何其他可用的儲存,但並未受到限制。在各種實施中,儲存1114可包含當例如,包含多重硬碟驅動器時,用以增加用於有價值之數位媒體的儲存性能增強式保護。
音頻子系統1104可執行諸如,如本文所敘述的環境敏感之自動語音辨識及/或話音辨識或其他語音相關任務之音頻的處理。該音頻子系統1104可包含一或多個處理單元及加速器。該音頻子系統1104可被整合至處理器1110或晶片組1105之內。在某些實施中,該音頻子系統1104可係通訊地耦接至晶片組1105的獨立卡。介面可被使用以通訊地耦接該音頻子系統1104到至少一揚聲器
1160、至少一麥克風1170、及/或顯示器1120。
圖形子系統1115可執行諸如,用於顯示的靜像或視頻之影像的處理。例如,圖形子系統1115可係圖形處理單元(GPU)或視覺處理單元(VPU)。類比或數位介面可被使用以通訊地耦接圖形子系統1115與顯示器1120。例如,該介面可係高清晰度多媒體介面、顯示器埠、無線HDMI、及/或無線HD兼容技術的任一者。圖形子系統1115可被整合至處理器1110或晶片組1105之內。在某些實施中,圖形子系統1115可係通訊地耦接至晶片組1105的獨立卡。
在此所敘述之音頻處理技術可以以各種硬體架構實施。例如,音頻功能可被整合於晶片組內。選擇性地,可使用分離的音頻處理器。做為另一實施,音頻功能可由包含多核心處理器之通用型處理器所提供。在進一步的實施中,該等功能可被實施於消費者電子裝置中。
無線電1118可包含能使用各種合適的無線通訊技術以傳送及接收信號的一或多個無線電。該等技術可包含橫跨一或多個無線網路之通訊的技術。實例無線網路包含(但並未受限於)無線局部區域網路(WLAN)、無線個人區域網路(WPAN)、無線都會區域網路(WMAN)、蜂巢式網路、及衛星網路。在橫跨該等網路的通訊中,無線電1118可依據任一版本中之一或多個可應用標準而操作。
在各種實施中,顯示器1120可包含任一電視類型的
監視器或顯示器。顯示器1120可包含例如,電腦顯示器螢幕、觸控螢幕顯示器、視頻監視器、似電視裝置、及/或電視機。顯示器1120可係數位及/或類比的。在各種實施中,顯示器1120可係全像顯示器。而且,顯示器1120可係可接收視覺投影的透明表面。該等投影可輸送各種形式的資訊、影像、及/或目標。例如,該等投影可係用於行動擴增實境(MAR)應用的視覺覆蓋。在一或多個軟體應用1116的控制下,平台1102可在顯示器1120上顯示使用者介面1122。
在各種實施中,內容服務裝置1130可由任一國家的、國際的、及/或獨立的服務所主辦,且因此,可經由例如,網際網路而對平台1102存取。內容服務裝置1130可被耦接至平台1102,及/或至顯示器1120、揚聲器1160、及麥克風1170。平台1102及/或內容服務裝置1130可被耦接至網路1165,用以傳達(例如,傳送及/或接收)媒體資訊至網路1165及傳達來自網路1165的媒體資訊。內容交付裝置1140亦可被耦接至平台1102、揚聲器1160、麥克風1170,及/或至顯示器1120。
在各種實施中,內容服務裝置1130可包含麥克風、有線電視盒、個人電腦、網路、電話、能交付數位資訊及/或內容的網際網路致能裝置或用具、以及能經由網路1165或直接在內容提供者與平台1102及揚聲器系統1160、麥克風1170、及/或顯示器1120之間單向或雙向地傳達內容之任何其他相似的裝置。應理解的是,該內容
可經由網路1165而被單向及/或雙向地傳達至系統1100中之該等組件的任一者及內容提供者,以及經由網路1165而自系統1100中之該等組件的任一者及內容提供者被單向及/或雙向地傳達。內容的實例可包含任何媒體資訊,其包含例如,視頻、音樂、醫學及博彩資訊、等等。
內容服務裝置1130可接收諸如,包含媒體資訊、數位資訊、及/或其他內容之有線電視編程的內容。內容提供者的實例可包含任何有線或衛星電視或無線電或網際網路內容提供者。所提供之實例並不意味要以任何方式限制依據本發明的實施。
在各種實施中,平台1102可接收來自具有一或多個導航特徵之導航控制器1150的控制信號。控制器1150的導航特徵可被使用以與例如,使用者介面1122相互作用。在實施中,導航控制器1150可係指標裝置,其可係允許使用者輸入空間(例如,連續的及多維的)資料至電腦內之電腦硬體組件(特別地,人介面裝置)。諸如圖形使用者介面之許多系統,以及電視機及監視器,允許使用者使用身體姿勢以提供資料至電腦或電視機。音頻子系統1104亦可被使用以控制物品的移動,或介面1122上之命令的選擇。
控制器1150的導航特徵之移動可藉由顯示器上所顯示之指標、游標、對焦環、或其他視覺指示器的移動,或藉由音頻命令,而被複製在顯示器(例如,顯示器1120)上。例如,在軟體應用1116的控制下,設置在導
航控制器1150上的導航特徵可被映像至例如,顯示在使用者介面1122上的虛擬導航特徵。在實施中,控制器1150可並非分離的組件,而是可被整合至平台1102、揚聲器子系統1160、麥克風1170,及/或至顯示器1120之內。惟,本發明並未受限於該等元件,或此處所顯示或描繪的情況。
在各種實施中,驅動器(未顯示)可包含,用以當例如,被致能時,使得使用者在最初開機之後,能以按鈕的觸控或聽覺命令與電視機一樣地立即開啟及關閉平台1102之技術。程式邏輯可允許平台1102串流內容至媒體轉接器,或其他的內容服務裝置1130或內容交付裝置1140,即使當平台被關閉時。此外,晶片組1105可包含例如,用於8.1環繞聲音音頻及/或高清晰度(7.1)環繞聲音音頻的硬體及/或軟體支援。驅動器可包含用於整合之聽覺或圖形平台的聽覺或圖形驅動器。在實施中,聽覺或圖形驅動器可包含周邊組件互連(PCI)快捷圖形卡。
在各種實施中,系統1100中所示之任一或多個組件可被整合。例如,平台1102及內容服務裝置1130可被整合,或平台1102及內容交付裝置1140可被整合,或例如,平台1102、內容服務裝置1130、及內容交付裝置1140可被整合。在各種實施中,平台1102、揚聲器1160、麥克風1170,及/或顯示器1120可係整合的單元。例如,顯示器1120、揚聲器1160、及/或麥克風1170與內容服務裝置1130可被整合,或顯示器1120、揚
聲器1160、及/或麥克風1170與內容交付裝置1140可被整合。該等實例並不意味要限制本發明。
在各種實施中,系統1100可被實施為無線系統、有線系統、或二者的組合。當被實施為無線系統時,系統1100可包含適用以在無線共享媒體上通訊的組件及介面,諸如一或多個天線、發射器、接收器、傳收器、放大器、濾波器、控制邏輯、等等。無線共享媒體的實例可包含諸如,RF頻譜及其類似者之無線頻譜的部分。當被實施為有線系統時,系統1100可包含適用以在有線通訊媒體上通訊的組件及介面,諸如輸入/輸出(I/O)轉接器、用以連接I/O轉接器與對應之有線通訊媒體的實體連接器、網路介面卡(NIC)、碟片控制器、視頻控制器、音頻控制器、等等。有線共享媒體的實例可包含導線、電纜、金屬引線、印刷電路板(PCB)、背板、交換結構、半導體材料、雙絞線、同軸電纜、光學纖維、等等。
平台1102可建立一或多個邏輯或實體通道,用以通訊資訊。該資訊可包含媒體資訊及控制資訊。媒體資訊可意味著表示被意指用於使用者之內容的任何資料。內容的實例可包含例如,來自語音轉換、視訊會議、直播串流視頻及音頻、電子郵件(“email”)信息、語音郵件信息、字母數字符號、圖形、影像、視頻、音頻、正文、等等的資料。來自語音轉換的資料可係例如,語音資訊、靜音週期、背景噪聲、舒適噪聲、音調、等等。控制資訊可意味著表示被意指用於自動系統之命令、指令、或控制字
詞的任何資料。例如,控制資訊可被使用以透過系統而路由媒體資訊,或指示節點以預定方式處理媒體資訊。惟,該等實施並未受限於該等元件,或在第11圖中所顯示或描繪的情況。
請參閱第12圖,小形狀因數裝置1200係其中系統1000或1100可被實施的不同實體樣式或形狀因數之一實例。藉由此方法,裝置1200可被實施為具有無線功能之行動計算裝置。該行動計算裝置可意指具有例如,處理系統及諸如一或多個電池之行動電源或電源供應器的任何裝置。
如上所述,行動計算裝置可包含具有諸如,智慧型裝置(例如,智慧型手機、智慧型平板電腦、或智慧型電視)之音頻子系統、個人電腦(PC)、膝上型電腦、超薄膝上型電腦、平板電腦、觸控墊、攜帶式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA)、蜂巢式電話、組合之蜂巢式電話/PDA、電視機、行動聯網裝置(MID)、通訊裝置、資料通訊裝置、等等的任何裝置,及可接受音頻命令之任何其他的車載(例如,車)電腦。
行動計算裝置的實例亦可包含被配置成由人所穿戴的計算機,諸如耳機、頭帶、助聽器、手腕計算機(諸如運動手環)、手指計算機、指環計算機、眼鏡計算機(諸如智慧型眼鏡)、皮帶扣計算機、臂帶計算機、鞋計算機、服裝計算機、及其他穿戴式計算機。在各種實施中,例如,行動計算裝置可被實施為能執行電腦應用,以及語音
通訊及/或資料通訊的智慧型手機。雖然某些實施可藉實例而以被實施為行動計算裝置的行動計算裝置描繪,但可理解的是,其他的實施亦可使用其他的無線行動計算裝置而予以實施。該等實施並未受限於此情況。
如第12圖中所示,裝置1200可包括外殼1202、包含螢幕1210的顯示器1204、輸入/輸出(I/O)裝置1206、及天線1208。裝置1200亦可包含導航特徵1212。顯示器1204可包含任何合適的顯示器單元,以供顯示適用於行動計算裝置的資訊之用。I/O裝置1206可包含任何合適的I/O裝置,用以輸入資訊至行動計算裝置內。用於I/O裝置1206的實例可包含字母數字鍵盤、數字鍵盤、觸控墊、輸入鍵、按鈕、開關、翹板開關、軟體、等等。資訊亦可利用麥克風1214而被輸入至裝置1200內。該等資訊可藉由如本文所描述之語音辨識裝置,以及作為裝置1200之一部分的話音辨識裝置,而被數位化,且可經由揚聲器1216而提供音頻回應,或經由螢幕1210而提供視覺回應。該等實施並未受限於此情況。
在此所敘述之裝置及處理的各種形式可使用硬體元件、軟體元件、或二者的組合而予以實施。硬體元件的實例可包含處理器、微處理器、電路、電路元件(例如,電晶體、電阻器、電容器、電感器、等等)、積體電路、應用特定積體電路(ASIC)、可編程邏輯裝置(PLD)、數位信號處理器(DSP)、現場可編程閘陣列(FPGA)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組、等
等。軟體的實例可包含軟體組件、程式、應用、電腦程式、應用程式、系統程式、機器程式、操作系統軟體、中間件、韌體、軟體模組、常式、子例行程序、功能、方法、程序、軟體介面、應用程式介面(API)、指令集、計算代碼、電腦代碼、代碼段、電腦代碼段、字詞、數值、符號、或其任何組合。決定實施是否使用硬體元件及/或軟體元件以實施,可依據許多因素而變化,諸如所需的計算速率、功率位準、耐熱性、處理循環預算、輸入資料速率、輸出資料速率、記憶體資源、資料匯流排速度、及其他的設計或性能約束。
至少一實施的一或多個觀點可藉由儲存在機器可讀取媒體上之代表性指令而予以實施,該等代表性指令表示處理器內的各種邏輯,當由機器所讀取時,其致使該機器製造邏輯以執行在此所描述的技術。熟知為“IP核心”的該等表示可被儲存在有形的機器可讀取媒體上,且被供應至各種顧客或製造設施,用以載入至實際做成該邏輯的製造機器或處理器內。
雖然在此所陳述的某些特徵已參照各種實施而予以描述,但此說明並不打算要以限制意義闡釋。因此,呈明顯於熟習本發明所屬之技藝的人士之在此所描述的該等實施以及其他實施的各種修正,將被視為存在於本發明的精神及範疇之內。
以下實例有關進一步的實施。
藉由一實例,一種電腦實施之語音辨識方法,包含:
獲得包含人的語音之音頻資料;決定該音頻資料被獲得的環境中之至少一特徵;以及修正將被使用以執行語音辨識及根據該特徵之至少一參數。
藉由另一實例,該方法亦可包含的是,其中該特徵係與以下之至少一者相關聯:
(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音。
(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係相對於所說之字詞的數目之錯誤的數目,及該即時因數(RTF)值係用以相對於發聲之期間而處理該發聲之所需的時間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所需之WER而被選擇;及(c)主動表徵緩衝器大小,其係根
據該SNR而被改變。
(3)其中該特徵係以下之至少一者的聲音:風噪聲、沉重的呼吸、車噪聲、來自人群的聲音,以及指示音頻裝置是否在一般或實質封閉的結構之外或之內的噪聲。
(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵。
(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵。
(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者:由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上。
該方法亦可包含選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根據該特徵而修正詞彙搜尋空間中之字詞的可能性。
藉由又另一實例,一種電腦實施之環境敏感之自動語音辨識系統,包含:至少一聲學信號接收單元,用以獲得
包含人的語音之音頻資料;至少一處理器,係通訊地連接至該聲學信號接收單元;至少一記憶體,係通訊地耦接該至少一處理器;環境識別單元,用以決定該音頻資料被獲得的該環境中之至少一特徵;以及參數求精單元,用以修正將被使用以執行該音頻資料上的語音辨識及根據該特徵之至少一參數。
藉由另一實例,該系統提供的是,其中該特徵係與以下之至少一者相關聯:
(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音。
(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係相對於所說之字詞的數目之錯誤的數目,及該即時因數(RTF)值係用以相對於發聲之期間而處理該發聲之所需的時間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部
分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所需之WER而被選擇;及(c)主動表徵緩衝器大小,其係根據該SNR而被改變。
(3)其中該特徵係以下之至少一者的聲音:風噪聲、沉重的呼吸、車噪聲、來自人群的聲音,以及指示音頻裝置是否在一般或實質封閉的結構之外或之內的噪聲。
(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵。
(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵。
(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者:由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上。
而且,該系統可包含該參數求精單元,用以選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根據該特徵而修
正詞彙搜尋空間中之字詞的可能性。
藉由一途徑,至少一種電腦可讀取媒體包含複數個指令,其回應於被執行於電腦裝置上,而致使該電腦裝置:獲得包含人的語音之音頻資料;決定該音頻資料被獲得的環境中之至少一特徵;以及修正將被使用以執行該音頻資料上的語音辨識及根據該特徵之至少一參數。
藉由另一途徑,該等指令包含的是,其中該特徵係與以下之至少一者相關聯:
(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音。
(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係相對於所說之字詞的數目之錯誤的數目,及該即時因數(RTF)值係用以相對於發聲之期間而處理該發聲之所需的時間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部
分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所需之WER而被選擇;及(c)主動表徵緩衝器大小,其係根據該SNR而被改變。
(3)其中該特徵係以下之至少一者的聲音:風噪聲、沉重的呼吸、車噪聲、來自人群的聲音,以及指示音頻裝置是否在一般或實質封閉的結構之外或之內的噪聲。
(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵。
(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵。
(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者:由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上。
而且,該媒體可包含的是,其中該等指令致使該電腦裝置選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根
據該特徵而修正詞彙搜尋空間中之字詞的可能性。
在進一步的實例中,至少一種機器可讀取媒體可包含複數個指令,其回應於被執行於電腦裝置上,而致使該電腦裝置執行依據上述該等實例中任一者的方法。
在仍進一步的實例中,一種設備可包含用以執行依據上述該等實例中任一者之方法的裝置。
上述實例可包含特徵的特定組合。惟,上述實例並未受限於此方面,且在各種實施中,上述實例包含僅接受該等特徵的子集、接受該等特徵的不同順序、接受該等特徵的不同組合、及/或接受除了所明確表列的該等特徵之外的額外特徵。例如,相對於在此之任何實例方法所描述的所有特徵可相對於任何實例設備、任何實例系統、及/或任何實例物品而予以實施,且反之亦然。
Claims (25)
- 一種電腦實施之自動語音辨識方法,包含:獲得包含人的語音之音頻資料;藉由至少一處理器來決定該音頻資料被獲得的環境中之至少一特徵;以及藉由至少一處理器來修正將被用來執行自動語音辨識以自動地辨識在所述人的語音中的字詞,足以自動地顯示該字詞或自動地理解該字詞的定義以響應於該字詞及根據該至少一特徵而執行動作之語言模型的至少一參數,該修正包含以下之至少一者:根據該至少一特徵來修正所識別的音素的特徵提取之至少一參數,根據該至少一特徵來修正聲學得分之至少一參數,其中該聲學得分使用所述音素,以及根據該至少一特徵來修正語言模型之至少一參數,其中該語言模型使用該聲學得分。
- 如申請專利範圍第1項之方法,其中該特徵係與該音頻資料的內容相關聯。
- 如申請專利範圍第1項之方法,其中該特徵包含以下之至少一者:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音。
- 如申請專利範圍第1項之方法,其中該特徵係該 音頻資料的信號噪聲比(SNR)。
- 如申請專利範圍第4項之方法,其中該參數係該語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整,其中該語言模型的該波束寬度指示可在單一時間存在於轉換器上的表徵的數量。
- 如申請專利範圍第5項之方法,其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係錯誤的數目相對於所說之字詞的數目,以及該即時因數(RTF)值係用以處理該發聲之所需的時間相對於發聲期間。
- 如申請專利範圍第5項之方法,其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低。
- 如申請專利範圍第4項之方法,其中該參數係聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整。
- 如申請專利範圍第8項之方法,其中該聲學比例因數係除了根據該SNR之外,還根據所需之字詞錯誤率(WER)而被選擇。
- 如申請專利範圍第8項之方法,進一步包含根據該SNR而改變主動表徵緩衝器大小,該主動表徵緩衝器 大小與可存在於語言模型上之同時主動搜尋假設的最大數目有關。
- 如申請專利範圍第1項之方法,其中該特徵係以下之至少一者的聲音:風噪聲,沉重的呼吸,車噪聲,來自人群的聲音,以及指示音頻裝置是否在封閉的結構之外或之內的噪聲。
- 如申請專利範圍第1項之方法,其中該特徵係使用者之設定檔(profile)中的特性,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵。
- 如申請專利範圍第1項之方法,進一步包含選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯。
- 如申請專利範圍第1項之方法,其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構之類型或用途:形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵。
- 如申請專利範圍第1項之方法,其中該特徵係被 使用以決定形成該音頻資料之裝置是否係以下的至少一者:由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;以及在車上活動中的使用者上。
- 如申請專利範圍第1項之方法,進一步包含至少部分地根據該特徵而修正詞彙搜尋空間中之字詞的可能性。
- 如申請專利範圍第1項之方法,其中該特徵係與以下之至少一者相關聯:(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音;(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率 (WER)值係錯誤的數目相對於所說之字詞的數目,及該即時因數(RTF)值係用以處理該發聲之所需的時間相對於發聲期間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所需之WER而被選擇;及(c)主動表徵緩衝器大小,其與可存在於語言模型上之同時主動搜尋假設的最大數目有關且係根據該SNR而被改變;(3)其中該特徵係以下之至少一者的聲音:風噪聲,沉重的呼吸,車噪聲,來自人群的聲音,以及指示音頻裝置是否在封閉的結構之外或之內的噪聲;(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵;(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置; 形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵;(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者:由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上;以及該方法包含選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根據該特徵而修正詞彙搜尋空間中之字詞的可能性。
- 一種電腦實施之語音辨識系統,包含:至少一聲學信號接收單元,用以獲得包含人的語音之音頻資料;至少一處理器,係通訊地連接至該聲學信號接收單元;至少一記憶體,係通訊地耦接該至少一處理器;環境識別單元,用以決定該音頻資料被獲得的該環境 中之至少一特徵;以及參數求精單元,用以修正將被用來執行對於該音頻資料的自動語音辨識以自動地辨識在所述人的語音中的字詞,足以自動地顯示該字詞或自動地理解該字詞的定義以響應於該字詞及根據該至少一特徵而執行動作之語言模型的至少一參數,該修正包含以下之至少一者:根據該至少一特徵來修正所識別的音素的特徵提取之至少一參數,根據該至少一特徵來修正聲學得分之至少一參數,其中該聲學得分使用所述音素,以及根據該至少一特徵來修正語言模型之至少一參數,其中該語言模型使用該聲學得分。
- 如申請專利範圍第18項之系統,其中該特徵係信號噪聲比。
- 如申請專利範圍第18項之系統,其中該參數係以下之至少一者:(1)聲學比例因數,係施加至聲學分數,或(2)波束寬度,二者均係語言模型且係根據該特徵而被修正。
- 如申請專利範圍第18項之系統,其中該特徵係聲音之類型,其係在該音頻資料中可偵測出的且其並非語音,以及該參數求精單元係用以選擇聲學模型,該聲學模型淡化該偵測出之類型的聲音。
- 如申請專利範圍第18項之系統,其中該參數求 精單元藉由根據該特徵而調整詞彙搜尋空間中之字詞的權重來操作。
- 如申請專利範圍第18項之系統,其中該特徵係與以下之至少一者相關聯:(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音;(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係錯誤的數目相對於所說之字詞的數目,及該即時因數(RTF)值係用以處理該發聲之所需的時間相對於發聲期間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所 需之WER而被選擇;及(c)主動表徵緩衝器大小,其與可存在於語言模型上之同時主動搜尋假設的最大數目有關且係根據該SNR而被改變;(3)其中該特徵係以下之至少一者的聲音:風噪聲,沉重的呼吸,車噪聲,來自人群的聲音,以及指示音頻裝置是否在封閉的結構之外或之內的噪聲;(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵;(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵;(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者: 由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上;以及該系統,其中該參數求精單元用以選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根據該特徵而修正詞彙搜尋空間中之字詞的可能性。
- 一種電腦可讀取媒體,包含複數個指令,其回應於被執行於電腦裝置上,而致使該電腦裝置:獲得包含人的語音之音頻資料;藉由至少一處理器來決定該音頻資料被獲得的環境中之至少一特徵;以及藉由至少一處理器來修正將被用來執行對於該音頻資料的自動語音辨識以自動地辨識在所述人的語音中的字詞,足以自動地顯示該字詞或自動地理解該字詞的定義以響應於該字詞及根據該至少一特徵而執行動作之語言模型的至少一參數,該修正包含以下之至少一者:根據該至少一特徵來修正所識別的音素的特徵提取之至少一參數,根據該至少一特徵來修正聲學得分之至少一參數,其中該聲學得分使用所述音素,以及 根據該至少一特徵來修正語言模型之至少一參數,其中該語言模型使用該聲學得分。
- 如申請專利範圍第24項之媒體,其中該特徵係與以下之至少一者相關聯:(1)其中該特徵包含以下之至少一者的該音頻資料之內容:在該音頻資料的背景中之噪聲的數量,在該音頻資料中之聲學效果的量度,及在該音頻資料中之至少一可識別的聲音;(2)其中該特徵係該音頻資料的信號噪聲比(SNR);其中該參數係以下之至少一者:(a)語言模型的波束寬度,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該波束寬度係除了根據該音頻資料的該SNR之外,還根據所需之字詞錯誤率(WER)值及所需之即時因數(RTF)值而被選擇,該字詞錯誤率(WER)值係錯誤的數目相對於所說之字詞的數目,及該即時因數(RTF)值係用以處理該發聲之所需的時間相對於發聲期間;其中用於較高SNR的該波束寬度係比用於較低SNR的該波束寬度更低;(b)聲學比例因數,其係施加至將被使用於語言模型上的聲學分數,用以產生該音頻資料之語音的可能部分,且其係根據該音頻資料的該信號噪聲比而被調整;其中該聲學比例因數係除了根據該SNR之外,還根據所 需之WER而被選擇;及(c)主動表徵緩衝器大小,其與可存在於語言模型上之同時主動搜尋假設的最大數目有關且係根據該SNR而被改變;(3)其中該特徵係以下之至少一者的聲音:風噪聲,沉重的呼吸,車噪聲,來自人群的聲音,以及指示音頻裝置是否在封閉的結構之外或之內的噪聲;(4)其中該特徵係使用者之設定檔中的特徵,其指示包含該使用者之性別的使用者語音之至少一潛在的聲學特徵;(5)其中該特徵係與以下之至少一者相關聯:形成該音頻資料之裝置的地理位置;形成該音頻資料之該裝置被設置的地點、建築物、或結構體之類型或用途;形成該音頻資料之該裝置的移動或方位;形成該音頻資料之該裝置的周圍之空氣的特徵;以及形成該音頻資料之該裝置的周圍之磁場的特徵;(6)其中該特徵係被使用以決定形成該音頻資料之裝置是否係以下的至少一者: 由該裝置的使用者所攜帶;在正執行特定類型之活動的使用者上;在正在運動的使用者上;在正執行特定類型之運動的使用者上;及在車上活動中的使用者上;以及該媒體,其中該等指令致使該電腦裝置選擇聲學模型,其淡化該音頻資料中的聲音,該聲音係非語音且該聲音係與該特徵相關聯;以及至少部分地根據該特徵而修正詞彙搜尋空間中之字詞的可能性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/670,355 US20160284349A1 (en) | 2015-03-26 | 2015-03-26 | Method and system of environment sensitive automatic speech recognition |
US14/670,355 | 2015-03-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201703025A TW201703025A (zh) | 2017-01-16 |
TWI619114B true TWI619114B (zh) | 2018-03-21 |
Family
ID=56974241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105105325A TWI619114B (zh) | 2015-03-26 | 2016-02-23 | 環境敏感之自動語音辨識的方法和系統 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160284349A1 (zh) |
EP (1) | EP3274989A4 (zh) |
CN (1) | CN107257996A (zh) |
TW (1) | TWI619114B (zh) |
WO (1) | WO2016153712A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI826031B (zh) * | 2022-10-05 | 2023-12-11 | 中華電信股份有限公司 | 基於歷史對話內容執行語音辨識的電子裝置及方法 |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
CN104951273B (zh) * | 2015-06-30 | 2018-07-03 | 联想(北京)有限公司 | 一种信息处理方法、电子设备及系统 |
CN108292501A (zh) * | 2015-12-01 | 2018-07-17 | 三菱电机株式会社 | 声音识别装置、声音增强装置、声音识别方法、声音增强方法以及导航系统 |
US10902043B2 (en) * | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US10923137B2 (en) * | 2016-05-06 | 2021-02-16 | Robert Bosch Gmbh | Speech enhancement and audio event detection for an environment with non-stationary noise |
CN107452383B (zh) * | 2016-05-31 | 2021-10-26 | 华为终端有限公司 | 一种信息处理方法、服务器、终端及信息处理系统 |
WO2017210256A1 (en) * | 2016-06-01 | 2017-12-07 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
JP6852734B2 (ja) * | 2016-06-21 | 2021-03-31 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
US11722571B1 (en) | 2016-12-20 | 2023-08-08 | Amazon Technologies, Inc. | Recipient device presence activity monitoring for a communications session |
US10192553B1 (en) * | 2016-12-20 | 2019-01-29 | Amazon Technologes, Inc. | Initiating device speech activity monitoring for communication sessions |
US10339957B1 (en) * | 2016-12-20 | 2019-07-02 | Amazon Technologies, Inc. | Ending communications session based on presence data |
US10140574B2 (en) * | 2016-12-31 | 2018-11-27 | Via Alliance Semiconductor Co., Ltd | Neural network unit with segmentable array width rotator and re-shapeable weight memory to match segment width to provide common weights to multiple rotator segments |
US20180189014A1 (en) * | 2017-01-05 | 2018-07-05 | Honeywell International Inc. | Adaptive polyhedral display device |
CN106909677B (zh) * | 2017-03-02 | 2020-09-08 | 腾讯科技(深圳)有限公司 | 一种生成提问的方法及装置 |
TWI638351B (zh) * | 2017-05-04 | 2018-10-11 | 元鼎音訊股份有限公司 | 語音傳輸裝置及其執行語音助理程式之方法 |
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN109416878B (zh) * | 2017-06-13 | 2022-04-12 | 北京嘀嘀无限科技发展有限公司 | 用于推荐预计到达时间的系统和方法 |
US10565986B2 (en) * | 2017-07-20 | 2020-02-18 | Intuit Inc. | Extracting domain-specific actions and entities in natural language commands |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
US11176957B2 (en) * | 2017-08-17 | 2021-11-16 | Cerence Operating Company | Low complexity detection of voiced speech and pitch estimation |
EP3680639B1 (en) * | 2017-09-06 | 2023-11-15 | Nippon Telegraph and Telephone Corporation | Abnormality model learning device, method, and program |
TWI626647B (zh) * | 2017-10-11 | 2018-06-11 | 醫療財團法人徐元智先生醫藥基金會亞東紀念醫院 | 嗓音即時監測系統 |
CN108173740A (zh) * | 2017-11-30 | 2018-06-15 | 维沃移动通信有限公司 | 一种语音通信的方法和装置 |
KR102492727B1 (ko) * | 2017-12-04 | 2023-02-01 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11216724B2 (en) * | 2017-12-07 | 2022-01-04 | Intel Corporation | Acoustic event detection based on modelling of sequence of event subparts |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
TWI656789B (zh) * | 2017-12-29 | 2019-04-11 | 瑞軒科技股份有限公司 | 影音控制系統 |
US10424294B1 (en) * | 2018-01-03 | 2019-09-24 | Gopro, Inc. | Systems and methods for identifying voice |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
CN110111779B (zh) * | 2018-01-29 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
KR102585231B1 (ko) * | 2018-02-02 | 2023-10-05 | 삼성전자주식회사 | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 |
TWI664627B (zh) * | 2018-02-06 | 2019-07-01 | 宣威科技股份有限公司 | 可優化外部的語音信號裝置 |
WO2019246314A1 (en) * | 2018-06-20 | 2019-12-26 | Knowles Electronics, Llc | Acoustic aware voice user interface |
US11854566B2 (en) | 2018-06-21 | 2023-12-26 | Magic Leap, Inc. | Wearable system speech processing |
CN110659731B (zh) * | 2018-06-30 | 2022-05-17 | 华为技术有限公司 | 一种神经网络训练方法及装置 |
GB2578418B (en) * | 2018-07-25 | 2022-06-15 | Audio Analytic Ltd | Sound detection |
US10810996B2 (en) * | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
CN109120790B (zh) * | 2018-08-30 | 2021-01-15 | Oppo广东移动通信有限公司 | 通话控制方法、装置、存储介质及穿戴式设备 |
US10957317B2 (en) * | 2018-10-18 | 2021-03-23 | Ford Global Technologies, Llc | Vehicle language processing |
WO2020096218A1 (en) * | 2018-11-05 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
KR20210084615A (ko) * | 2018-12-03 | 2021-07-07 | 구글 엘엘씨 | 음성 입력 프로세싱 |
CN109599107A (zh) * | 2018-12-07 | 2019-04-09 | 珠海格力电器股份有限公司 | 一种语音识别的方法、装置及计算机存储介质 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN109817199A (zh) * | 2019-01-03 | 2019-05-28 | 珠海市黑鲸软件有限公司 | 一种风扇语音控制系统的语音识别方法 |
US10891954B2 (en) * | 2019-01-03 | 2021-01-12 | International Business Machines Corporation | Methods and systems for managing voice response systems based on signals from external devices |
US11322136B2 (en) | 2019-01-09 | 2022-05-03 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
TWI719385B (zh) * | 2019-01-11 | 2021-02-21 | 緯創資通股份有限公司 | 電子裝置及其語音指令辨識方法 |
WO2020180719A1 (en) * | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
TWI716843B (zh) * | 2019-03-28 | 2021-01-21 | 群光電子股份有限公司 | 語音處理系統及語音處理方法 |
TWI711942B (zh) * | 2019-04-11 | 2020-12-01 | 仁寶電腦工業股份有限公司 | 聽力輔助裝置之調整方法 |
CN111833895B (zh) * | 2019-04-23 | 2023-12-05 | 北京京东尚科信息技术有限公司 | 音频信号处理方法、装置、计算机设备和介质 |
US11030994B2 (en) * | 2019-04-24 | 2021-06-08 | Motorola Mobility Llc | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication |
US10977909B2 (en) | 2019-07-10 | 2021-04-13 | Motorola Mobility Llc | Synchronizing notifications with media playback |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
CN110525450B (zh) * | 2019-09-06 | 2020-12-18 | 浙江吉利汽车研究院有限公司 | 一种调节车载语音灵敏度的方法及系统 |
CN110660411B (zh) * | 2019-09-17 | 2021-11-02 | 北京声智科技有限公司 | 基于语音识别的健身安全提示方法、装置、设备及介质 |
KR20210061115A (ko) * | 2019-11-19 | 2021-05-27 | 엘지전자 주식회사 | 인공지능형 로봇 디바이스의 음성 인식 방법 |
TWI727521B (zh) * | 2019-11-27 | 2021-05-11 | 瑞昱半導體股份有限公司 | 動態語音辨識方法及其裝置 |
KR20210073252A (ko) * | 2019-12-10 | 2021-06-18 | 엘지전자 주식회사 | 인공 지능 장치 및 그의 동작 방법 |
US20230064137A1 (en) * | 2020-02-17 | 2023-03-02 | Nec Corporation | Speech recognition apparatus, acoustic model learning apparatus, speech recognition method, and computer-readable recording medium |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN112349289B (zh) * | 2020-09-28 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种语音识别方法、装置、设备以及存储介质 |
US20220165263A1 (en) * | 2020-11-25 | 2022-05-26 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of controlling the same |
US20240127839A1 (en) * | 2021-02-26 | 2024-04-18 | Hewlett-Packard Development Company, L.P. | Noise suppression controls |
CN113077802B (zh) * | 2021-03-16 | 2023-10-24 | 联想(北京)有限公司 | 一种信息处理方法和装置 |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
US11626109B2 (en) * | 2021-04-22 | 2023-04-11 | Automotive Research & Testing Center | Voice recognition with noise supression function based on sound source direction and location |
CN113611324B (zh) * | 2021-06-21 | 2024-03-26 | 上海一谈网络科技有限公司 | 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
US20230068190A1 (en) * | 2021-08-27 | 2023-03-02 | Tdk Corporation | Method for processing data |
FI20225480A1 (en) * | 2022-06-01 | 2023-12-02 | Elisa Oyj | COMPUTER IMPLEMENTED AUTOMATED CALL PROCESSING METHOD |
US20240045986A1 (en) * | 2022-08-03 | 2024-02-08 | Sony Interactive Entertainment Inc. | Tunable filtering of voice-related components from motion sensor |
CN117746563A (zh) * | 2024-01-29 | 2024-03-22 | 广州雅图新能源科技有限公司 | 一种具备生命探测的消防救援系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143995A1 (en) * | 2001-07-03 | 2005-06-30 | Kibkalo Alexandr A. | Method and apparatus for dynamic beam control in viterbi search |
US20060136207A1 (en) * | 2004-12-21 | 2006-06-22 | Electronics And Telecommunications Research Institute | Two stage utterance verification device and method thereof in speech recognition system |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
TW201440036A (zh) * | 2013-04-11 | 2014-10-16 | Wistron Corp | 語音處理裝置和語音處理方法 |
TW201506679A (zh) * | 2013-08-02 | 2015-02-16 | Mstar Semiconductor Inc | 應用於聲控裝置的控制器與相關方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
US20040181409A1 (en) * | 2003-03-11 | 2004-09-16 | Yifan Gong | Speech recognition using model parameters dependent on acoustic environment |
JP2007501444A (ja) * | 2003-05-08 | 2007-01-25 | ボイス シグナル テクノロジーズ インコーポレイテッド | 信号対雑音比による音声認識方法 |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US20070136063A1 (en) * | 2005-12-12 | 2007-06-14 | General Motors Corporation | Adaptive nametag training with exogenous inputs |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
US8259954B2 (en) * | 2007-10-11 | 2012-09-04 | Cisco Technology, Inc. | Enhancing comprehension of phone conversation while in a noisy environment |
JP5247384B2 (ja) * | 2008-11-28 | 2013-07-24 | キヤノン株式会社 | 撮像装置、情報処理方法、プログラムおよび記憶媒体 |
US8180635B2 (en) * | 2008-12-31 | 2012-05-15 | Texas Instruments Incorporated | Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition |
US9123333B2 (en) * | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
WO2015017303A1 (en) * | 2013-07-31 | 2015-02-05 | Motorola Mobility Llc | Method and apparatus for adjusting voice recognition processing based on noise characteristics |
-
2015
- 2015-03-26 US US14/670,355 patent/US20160284349A1/en not_active Abandoned
-
2016
- 2016-02-23 TW TW105105325A patent/TWI619114B/zh not_active IP Right Cessation
- 2016-02-25 EP EP16769274.8A patent/EP3274989A4/en not_active Withdrawn
- 2016-02-25 CN CN201680012316.XA patent/CN107257996A/zh active Pending
- 2016-02-25 WO PCT/US2016/019503 patent/WO2016153712A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
US20050143995A1 (en) * | 2001-07-03 | 2005-06-30 | Kibkalo Alexandr A. | Method and apparatus for dynamic beam control in viterbi search |
US20060136207A1 (en) * | 2004-12-21 | 2006-06-22 | Electronics And Telecommunications Research Institute | Two stage utterance verification device and method thereof in speech recognition system |
TW201440036A (zh) * | 2013-04-11 | 2014-10-16 | Wistron Corp | 語音處理裝置和語音處理方法 |
TW201506679A (zh) * | 2013-08-02 | 2015-02-16 | Mstar Semiconductor Inc | 應用於聲控裝置的控制器與相關方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI826031B (zh) * | 2022-10-05 | 2023-12-11 | 中華電信股份有限公司 | 基於歷史對話內容執行語音辨識的電子裝置及方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201703025A (zh) | 2017-01-16 |
EP3274989A1 (en) | 2018-01-31 |
WO2016153712A1 (en) | 2016-09-29 |
EP3274989A4 (en) | 2018-08-29 |
US20160284349A1 (en) | 2016-09-29 |
CN107257996A (zh) | 2017-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI619114B (zh) | 環境敏感之自動語音辨識的方法和系統 | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US10937426B2 (en) | Low resource key phrase detection for wake on voice | |
US10403268B2 (en) | Method and system of automatic speech recognition using posterior confidence scores | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
WO2021135577A9 (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
WO2019214361A1 (zh) | 语音信号中关键词的检测方法、装置、终端及存储介质 | |
US9740678B2 (en) | Method and system of automatic speech recognition with dynamic vocabularies | |
CN110634507A (zh) | 用于语音唤醒的音频的语音分类 | |
EP3992965A1 (en) | Voice signal processing method and speech separation method | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
US11735164B2 (en) | Method and system of automatic speech recognition with highly efficient decoding | |
US20220122596A1 (en) | Method and system of automatic context-bound domain-specific speech recognition | |
US20210398535A1 (en) | Method and system of multiple task audio analysis with shared audio processing operations | |
TW202410023A (zh) | 用於語音辨識的自我調整訊框跳過 | |
CN117219053A (zh) | 语音特征生成模型的训练方法、语音生成方法及装置 | |
CN116229953A (zh) | 语音交互方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |