TW201419264A - 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 - Google Patents
語音干擾的濾除方法、系統,與電腦可讀記錄媒體 Download PDFInfo
- Publication number
- TW201419264A TW201419264A TW101142668A TW101142668A TW201419264A TW 201419264 A TW201419264 A TW 201419264A TW 101142668 A TW101142668 A TW 101142668A TW 101142668 A TW101142668 A TW 101142668A TW 201419264 A TW201419264 A TW 201419264A
- Authority
- TW
- Taiwan
- Prior art keywords
- time point
- interference
- time
- instruction
- state
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001914 filtration Methods 0.000 claims abstract description 38
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Document Processing Apparatus (AREA)
Abstract
一種語音干擾的濾除方法、系統,與電腦可讀記錄媒體。此方法包括利用機率分佈模型定義一時間門檻值。每當自語音輸入辨認出當前指令時,取得自語音輸入辨認出的參考指令,其中當前指令是接續在參考指令之後被辨識出,且參考指令對應第一時間點,而當前指令對應第二時間點。取得第一時間點和第二時間點之間的間隔,並根據上述間隔與時間門檻值的比較結果以及第一時間點所對應的狀態,以判斷是否產生語音干擾。若產生語音干擾,則濾除參考指令與當前指令。若未產生語音干擾,則輸出參考指令或當前指令。
Description
本發明是有關於一種語音操作的應用,且特別是有關於一種在語音操作時濾除語音干擾的方法、系統,與電腦可讀記錄媒體。
傳統的語音辨識系統是著重在如何從聲音輸入中區分出語音以及非語音的部份。也就是說,這類語音辨識系統主要是區分如環境背景噪音或突發性噪音(如碰撞聲)等真正的噪音與實際的語音活動,其採用的方法是從訊號處理的角度出發,以分析噪音與語音在聲學模型上的差異(如過零率、能量、頻譜分佈、或基頻軌跡等),相當於做聲音上的屬性偵測。當偵測出語音活動區間後,再針對整段語音做語音辨識等處理。其中,語音辨識系統僅對整段語音區間做一次辨識,而辨識結果可用來當做操控電子裝置的指令,達到語音操作的目的。
然而在某些語音辨識機制需要持續開啟的使用情境下,使用者與他人交談的內容也會被辨識。倘若使用者在交談間說出了與操控電子裝置之指令相關的內容,則可能導致系統將該指令輸出至電子裝置。但由於使用者的本意並非要對電子裝置進行操作,因此當電子裝置因應所接收到的指令而做出反應時,反而會造成使用者的困擾。
有鑑於此,本發明提供一種語音干擾的濾除方法、系統,與電腦可讀記錄媒體,能有效判別當使用者說出預設指令時的真實意圖,以減少受控裝置因語音干擾產生誤動作的情況。
本發明提出一種語音干擾的濾除方法,此方法包括利用機率分佈模型定義一時間門檻值。每當自語音輸入辨認出當前指令時,取得自語音輸入辨認出的參考指令,其中當前指令是接續在參考指令之後被辨識出,且參考指令對應第一時間點,當前指令對應第二時間點。取得第一時間點和第二時間點之間的間隔,並根據上述間隔與時間門檻值的比較結果以及第一時間點所對應的狀態,以判斷是否產生語音干擾。若產生語音干擾,則濾除參考指令與當前指令。若未產生語音干擾,則輸出參考指令或當前指令。
從另一觀點來看,本發明提出一種電腦可讀記錄媒體,其儲存多個程式碼。當上述程式碼被載入至微處理器單元後,微處理器單元執行上述程式碼以完成下例步驟:利用機率分佈模型定義一時間門檻值。每當自語音輸入辨認出當前指令時,取得自語音輸入辨認出的參考指令,其中當前指令是接續在參考指令之後被辨識出,且參考指令對應第一時間點,當前指令對應第二時間點。取得第一時間點和第二時間點之間的間隔,並根據上述間隔與時間門檻值的比較結果以及第一時間點所對應的狀態,以判斷是否產生語音干擾。若產生語音干擾,則濾除參考指令與當
前指令。若未產生語音干擾,則輸出參考指令或當前指令。
從又一觀點來看,本發明提出一種語音干擾的濾除系統,包括輸出裝置、輸入裝置、儲存裝置,以及處理器。其中,處理器耦接輸出裝置、輸入裝置與儲存裝置。輸入裝置用以接收語音輸入。儲存裝置用以儲存利用機率分佈模型所定義的時間門檻值。處理器用以在每當自語音輸入辨認出當前指令時,取得自語音輸入辨認出的參考指令,其中當前指令是接續在參考指令之後被辨識出,且參考指令對應第一時間點,當前指令對應第二時間點。處理器取得第一時間點和第二時間點之間的間隔,並根據上述間隔與時間門檻值的比較結果以及第一時間點所對應的狀態,以判斷是否產生語音干擾。若產生語音干擾,處理器濾除參考指令與當前指令。若未產生語音干擾,處理器控制輸出裝置輸出參考指令或當前指令
基於上述,本發明是根據辨認自語音輸入之多個指令在連續時間上的密集程度,以判斷使用者說出上述指令時是否造成語音干擾。進一步,針對在時序上先後接續從一語音輸入所辨認出的兩個指令,本發明僅需根據這兩個指令之間的時間間隔以及前一個指令所對應的狀態,便能判斷是否有語音干擾產生。據此,能避免將使用者因與他人交談而說出的話語或從其他來源發出的語音誤判為要對受控裝置進行操作,從而降低受控裝置發生誤動作的機率。
為讓本發明之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依照本發明之一實施例所繪示之語音干擾濾除系統的示意圖。請參閱圖1,語音干擾濾除系統100包括輸入裝置110、儲存裝置120、處理器130,以及輸出裝置140。在本實施例中,語音干擾濾除系統100能判斷從語音輸入所辨識出的指令是使用者意圖操控受控裝置的有效指令,亦或是因使用者交談或來自電視、廣播,或環境的語音所造成的語音干擾。其中,受控裝置例如是電視、音響、DVD播放器、冰箱、冷氣、或電腦等任何能接受音控的電子裝置,在此並不限制其種類。以下分別就語音干擾濾除系統100中的各構件進行說明。
輸入裝置110例如是麥克風等收音裝置,用以接收語音輸入。詳言之,語音是指人類語言的聲音,本實施例之語音輸入是指已對聲音訊號進行如聲學參數抽取及語音活動偵測等各種前置處理,而將環境噪音等非語音過濾後所得到的部分。
儲存裝置120可以是記憶體、硬碟、光碟、記憶卡,或隨身碟等儲存媒體或其組合。儲存裝置120用以儲存語音干擾濾除系統100在進行判別時所需參考的資訊,以及暫存尚未確定是否為語音干擾的語音辨識結果。
處理器130耦接至輸入裝置110、儲存裝置120,以及輸出裝置140。處理器130可以是微處理器(micro-processor)、嵌入式處理器(embedded processor)或中央處理器(Central Processing Unit,CPU)等,但本
發明並不侷限於此。處理器130用以對輸入裝置110所接收到的語音輸入進行指令的辨識。舉例來說,儲存裝置120記錄有一預設指令集合,處理器130能辨認語音輸入是否包括指令集合中的指令。然由於在語音輸入中多半夾雜了使用者與他人的交談、電視或廣播發出的人聲環境音,其語音內容可能包含指令集合中的指令。然而,這些語音並非使用者想要用來對受控裝置進行操作而發出的語音指令,在以下的實施例中是將這種語音內容定義為語音干擾,而處理器130會進行語音干擾的判別與濾除。在另一實施例中,處理器130還具備語音辨認的功能,因此輸入裝置110可接受聲音輸入,並由處理器130從聲音輸入中識別出語音輸入,接著再進行指令的辨認以及語音干擾的判別。處理器130進行語音干擾之判別與濾除的詳細做法容後再敘。
輸出裝置140可包括有線及/或無線傳輸模組,以根據處理器130的指示將被判別為非語音干擾的有效指令輸出至受控裝置。據此,受控裝置便能依指令做出使用者需要的反應。
圖2是依照本發明之一實施例所繪示之語音干擾之濾除方法的流程圖,以下將以圖1與圖2來說明語音干擾濾除系統100的詳細運作方式。
首先,如步驟S210所示,利用一機率分佈模型定義時間門檻值。在本實施例中,機率分佈模型為卜瓦松分佈(Poisson distribution)模型,如下列式(1)所示:
其中,k為發生次數,其為一變數。e為自然對數底(Base of natural logarithm)。λ為α×t,t為單位時間、α為常數(例如為1或0.25,但本發明並不以此為限),λ表示在單位時間t裡發生語音干擾次數的期望值。基此,P(X=k)表示在單位時間t內發生語音干擾的機率,而P(X=k)呈現以λ為參數的卜瓦松分佈。
舉例來說,倘若λ為1且α為1,則t為1,那麼在使用者正常透過語音發出指令的情況下,可以下列式(2)得到發生語音干擾的機率P:P=1-P(X=0)-P(X=1)=1-0.368-0.368=0.264 (2)
另外,倘若λ為0.5且α為0.25,則t為2,那麼在使用者正常透過語音發出指令的情況下,可以下列式(3)得到發生語音干擾的機率P:P=1-P(X=0)-P(X=1)=1-0.6-0.3=0.1 (3)
單位時間t的大小係經實驗取得一個使用者可以接受的範圍。在此範圍下,使用者正常進行語音操作卻被誤判為發生語音干擾的機率會低於使用者能接受的上限。舉例來說,實驗結果顯示使用者在連續輸入十次指令的情況下,最多可接受1到2次語音干擾的誤判發生。據此,單位時間t的大小係介於1~2秒之間。換言之,對大多數的人來說能夠等待指令切換的最長時間為2秒。
本實施例便是依卜瓦松分佈所使用的參數λ所對應的單位時間t來做為時間門檻值。然而在另一實施例中,亦
可採用一預設常數(例如,2秒)來做為時間門檻值。
接著在步驟S220中,當處理器130從輸入裝置110所接收的語音輸入辨認出一當前指令時,處理器130取得同樣辨認自此語音輸入的一參考指令。其中,當前指令是接續在參考指令後被辨識出來。換言之在辨識出參考指令到辨識出當前指令的期間,處理器130並未辨識出其他的指令。在本實施例中,參考指令對應第一時間點而當前指令對應第二時間點。舉例來說,第一時間點是參考指令結束的時間點,而第二時間點則是當前指令結束的時間點。
接下來如步驟S230所示,處理器130計算第一時間點和第二時間點之間的間隔,並取得此間隔與時間門檻值的比較結果,以及取得第一時間點所對應的狀態。詳細地說,假設處理器130在時間點Ti首次從語音輸入辨識出一個指令,處理器130令早於時間點Ti的所有時間點都對應於閒置狀態,而每當處理器130自語音輸入辨識出一個指令時,處理器130便會令該指令所對應的時間點對應至指令有效狀態、干擾狀態,或閒置狀態。被辨識出的指令所對應的時間點應對應至何種狀態將於後配合圖示再做說明。
接著在步驟S240中,處理器130根據所取得的比較結果與狀態判斷是否產生語音干擾。在本實施例中,處理器130是根據第一與第二時間點的間隔是否超過時間門檻值來判斷參考指令與當前指令在連續時間上的密集程度,而一旦指令過於密集,則發生語音干擾的機率甚高,處理
器130將再輔以參考指令所對應之第一時間點對應的狀態為何者,以進一步判斷密集出現的指令是使用者真正意圖對受控裝置進行操作,或是有語音干擾產生。
若步驟S240的判斷結果為是,則如步驟S250所示,處理器130濾除參考指令與當前指令。亦即,處理器130判定參考指令與當前指令並非使用者想要控制受控裝置所發出的指令,因此不將參考指令及當前指令輸出至受控裝置,以避免受控裝置做出非使用者所期望的反應。
倘若步驟S240的判斷結果為否,則在步驟S260中,處理器130控制輸出裝置140將參考指令或當前指令輸出至受控裝置。在本實施例中,處理器130在決定要輸出辨認自語音輸入的指令時,會將此指令結束的時間點加上一預設等待時間以做為指令的輸出時間點,並在到達輸出時間點之際才正式控制輸出裝置140將指令輸出。在另一實施例中,處理器130亦可在決定要輸出一指令後隨即控制輸出裝置140將指令輸出。
在圖2所示之實施例中,處理器130將不斷地對語音輸入進行指令辨識,所辨識出的指令會構成一指令序列並可暫存在儲存裝置120。而每當辨識出一個指令時,處理器130便執行步驟S220至步驟S260的動作。換言之,處理器130可在辨識指令的同時進行語音干擾的判定。
舉例來說,圖3是依照本發明之一實施例所繪示之指令序列的示意圖。如圖3所示,處理器130自語音輸入依序辨識出三個長度並不完全一致的指令310、320、330。
其中,指令310對應的時間點為其結束的時間點(即,1分47秒)、指令320對應的時間點為其結束的時間點(即,1分50秒),而指令330對應的時間點為其結束的時間點(即,1分56秒)。其中,每當處理器130辨識出一個指令,便會判斷是否有語音干擾產生。詳言之,針對第一個從此語音輸入所辨識出的指令310,則因其缺乏參考指令,因此處理器130會將語音輸入之起始時間點和指令310之結束時間的間隔與時間門檻值進行比較,再根據比較結果以及語音輸入之起始時間點所對應的狀態(即,閒置狀態)來判斷是否有語音干擾產生。而當辨識出指令320時,處理器130以指令310做為參考指令,並取得指令320與指令310之結束時間的間隔與時間門檻值的比較結果,且根據比較結果及指令310之結束時間所對應的狀態判斷是否有語音干擾產生。類似地,當辨識出指令330時,處理器130以指令320做為參考指令,並取得指令330與指令320之結束時間的間隔與時間門檻值的比較結果,再根據比較結果及指令320之結束時間所對應的狀態判斷是否有語音干擾產生。
以下將說明處理器130判斷是否產生語音干擾的詳細流程。
在本實施例中,處理器130首先判斷參考指令是否存在。若參考指令存在,表示當前指令並非第一個從語音輸入辨認出的指令。處理器130接著判斷所取得的參考指令是否已被濾除或輸出。舉例來說,處理器130會維護一指
令資訊對應表來記錄所辨識出的各指令是否已被濾除或輸出。
若參考指令尚未被濾除或輸出,則以圖4之步驟來進行判別,請參閱圖4。
首先如步驟S410所示,處理器130判斷第一時間點與第二時間點之間的間隔是否超過時間門檻值。
若第一與第二時間點之間的間隔未超過時間門檻值,則如步驟S420所示,處理器130判斷第一時間點是否對應干擾狀態。
若第一時間點是對應干擾狀態,如步驟S425所示,處理器130判定產生語音干擾,並令第二時間點對應干擾狀態。爾後,如圖2之步驟S250所示,處理器130會將參考指令與當前指令一併濾除。在本實施例中,處理器130亦會在指令資訊對應表中記錄參考指令與當前指令已被濾除。
若第一時間點並非對應干擾狀態,接著在步驟S430中,處理器130判斷第一時間點是否對應指令有效狀態。
若第一時間點對應指令有效狀態,則如步驟S440所示,處理器130判斷參考指令與當前指令是否相同。
若參考指令與當前指令並不相同,如步驟S425所示,處理器130判定產生語音干擾,並令第二時間點對應干擾狀態。爾後如圖2之步驟S250所示,處理器130會將參考指令與當前指令一併濾除,同時更新指令資訊對應表的內容。
然而倘若參考指令與當前指令相同,表示使用者可能因為不耐煩而在短時間內重複下達數個相同指令,因此如步驟S445所示,處理器130判定未產生語音干擾,並令第二時間點對應閒置狀態。之後在圖2之步驟S260中,處理器130會將參考指令或當前指令輸出,同時更新指令資訊對應表的內容。在本實施例中,處理器130係根據一預設規則選擇輸出參考指令或當前指令。舉例來說,預設規則例如是選擇輸出先被辨識出的參考指令,但本發明並不侷限於此。
當步驟S430的判斷結果為否時,即第一時間點是對應閒置狀態,接著如步驟S450所示,處理器130令第二時間點對應指令有效狀態。
在第一與第二時間點之間的間隔超過時間門檻值的情況下,如步驟S460所示,處理器130判斷第一時間點是否對應干擾狀態。
若第一時間點對應干擾狀態,在步驟S465中,處理器130判定產生語音干擾,並令第二時間點對應閒置狀態。爾後如圖2之步驟S250所示,處理器130會將參考指令與當前指令一併濾除,同時更新指令資訊對應表的內容。
若第一時間點不對應干擾狀態,則如步驟S470所示,處理器130判斷第一時間點是否對應指令有效狀態。
若第一時間點對應指令有效狀態,在步驟S475中,處理器130判定未產生語音干擾,並令第二時間點對應閒
置狀態。之後在圖2之步驟S260中,處理器130會將參考指令或當前指令輸出,同時更新指令資訊對應表的內容。在本實施例中,處理器130會將參考指令輸出。
若第一時間點不對應指令有效狀態,表示其對應的是閒置狀態,接著如步驟S480所示,處理器130令第二時間點對應閒置狀態。
必須特別說明的是,在圖4之步驟450與480中,處理器130認定目前的資訊不足以判別是否有語音干擾產生,因此必需等待下一個指令被辨識出時,再依照圖2之步驟S220至S260進行判斷與相應的處理。
在圖4中,第二時間點所對應的狀態會與三個條件有關,此三個條件分別是第一時間點所對應的狀態、第一與第二時間點之間的間隔是否超過時間門檻值,以及參考指令與當前指令是否相同。而從第一時間點到第二時間點之狀態的移轉則如圖5所示。請參閱圖5,其中I、C、N分別表示閒置狀態、指令有效狀態,以及干擾狀態。在兩個狀態之間的箭頭標記則表示從第一時間點到第二時間點發生此種狀態移轉的條件。
舉例來說,倘若第一時間點對應的是閒置狀態I,若第一與第二時間點之間的間隔超過時間門檻值,則第二時間點仍對應閒置狀態I。然而倘若第一與第二時間點之間的間隔並未超過時間門檻值,則第二時間點會對應指令有效狀態C。
倘若第一時間點對應的是指令有效狀態C,若第一與
第二時間點之間的間隔未超過時間門檻值且前後指令不同(即,參考指令與當前指令不同),則第二時間點會對應干擾狀態N。倘若第一與第二時間點之間的間隔超過時間門檻值,或第一與第二時間點之間的間隔未超過時間門檻值但前後指令相同,則第二時間點會對應閒置狀態I。
倘若第一時間點對應的是干擾狀態N,若第一與第二時間點之間的間隔未超過時間門檻值,則第二時間點仍對應干擾狀態N,但若第一與第二時間點之間的間隔超過時間門檻值,則第二時間點會對應閒置狀態I。
此外,在參考指令已被濾除或輸出的情況下,處理器130則根據第一時間點和第二時間點之間的間隔與時間門檻值的比較結果,以及第一時間點所對應的狀態,據以判斷是否產生語音干擾,判斷方式與圖4相同或相似,故在此不再贅述。爾後,處理器130根據判斷結果決定是否濾除當前指令。例如,判定有語音干擾產生時則濾除當前指令。
除此之外,當參考指令不存在時,表示當前指令為第一個從語音輸入所識別出的指令。基此,處理器130判斷語音輸入的起始時間點和第二時間點之間的間隔是否超過時間門檻值。若超過時間門檻值,處理器130令第二時間點對應閒置狀態。若未超過時間門檻值,處理器130則令第二時間點對應指令有效狀態。在此情況下,處理器130尚無法判別是否有語音干擾產生,因此必需等待下一個指令被辨識出時,再依照圖2之步驟S220至S260進行判斷
與相應的處理。
圖6是依照本發明之一實施例所繪示之聲音輸入的能量波形圖。請參閱圖6,在圖6所示的聲音輸入中,語音干擾濾除系統100僅會對位於語音活動區間的語音輸入進行處理。假設處理器130先後辨識出指令m1至m4,表示使用者在語音活動區間裡說出四個可對受控裝置進行操作的指令,然而處理器130並不會無條件地將指令m1至m4輸出至受控裝置,而會以這四個指令各別的結束時間點T1至T4作為指令所對應的時間點,以進行是否有語音干擾的判別。由於判別方式與前述實施例相同或相似,故在此不再贅述。換言之,處理器130除了從語音輸入正確識別出指令之外,更進一步地確認指令是否為語音干擾。如此一來,在不斷取得語音輸入並從中進行指令辨識的期間,便可在使用者不具操作意圖而僅是說出與指令相關內容(或是背景聲音裡出現與指令相關內容)的情況下,避免將辨識出的指令傳送給受控裝置,以減少受控裝置之誤動作的產生。
本發明另提出一種電腦可讀記錄媒體,其儲存多個程式碼,當這些程式碼被載入至微處理器單元後,此微處理器單元執行這些程式碼以完成上述各實施例所述之方法步驟及其相關作動。所述電腦可讀記錄媒體可以是唯讀記憶體(Read-Only Memory,ROM)、隨機存取記憶體(Random-Access Memory,RAM)、CD-ROM、磁帶、軟性磁碟、光學資料儲存元件等。另外,上述微處理器單元
可以是嵌入式處理器(embedded processor)或中央處理器(central processing unit,CPU)等,但本發明可實施方式並不侷限於此。
綜上所述,本發明所述之語音干擾的濾除方法與系統以及電腦可讀記錄媒體是針對已經過濾掉環境噪音的語音輸入進行語音干擾的偵測與濾除。在不斷地從語音輸入辨認出指令的同時,亦能判斷指令是使用者意圖控制受控裝置所發出,或純粹是語音干擾的情況。據此避免受控裝置做出非使用者操作本意的反應。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧語音干擾濾除系統
110‧‧‧輸入裝置
120‧‧‧儲存裝置
130‧‧‧處理器
140‧‧‧輸出裝置
S210~S260‧‧‧本發明之一實施例所述之語音干擾之濾除方法的各步驟
310、320、330、m1、m2、m3、m4‧‧‧指令
S410~S480‧‧‧本發明之一實施例所述之判斷是否產生語音干擾的各步驟
I‧‧‧閒置狀態
C‧‧‧指令有效狀態
N‧‧‧干擾狀態
T1、T2、T3、T4‧‧‧時間點
圖1是依照本發明之一實施例所繪示之語音干擾之濾除系統的示意圖。
圖2是依照本發明之一實施例所繪示之語音干擾之濾除方法的流程圖。
圖3是依照本發明之一實施例所繪示之指令序列的示意圖。
圖4是依照本發明之一實施例所繪示之判斷是否產生語音干擾的流程圖。
圖5是依照本發明之一實施例所繪示之兩時間點的狀
態移轉圖。
圖6是依照本發明之一實施例所繪示之聲音輸入的能量波形圖。
S210~S260‧‧‧本發明之一實施例所述之語音干擾之濾除方法的各步驟
Claims (20)
- 一種語音干擾的濾除方法,該方法包括:利用一機率分佈模型定義一時間門檻值;每當自一語音輸入辨認出一當前指令,取得自該語音輸入辨認出的一參考指令,其中該當前指令是接續在該參考指令之後被辨識出,且該參考指令對應一第一時間點,該當前指令對應一第二時間點;根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的一比較結果以及該第一時間點所對應的一狀態,以判斷是否產生一語音干擾;若產生該語音干擾,則濾除該參考指令與該當前指令;以及若未產生該語音干擾,則輸出該參考指令與該當前指令其中之一。
- 如申請專利範圍第1項所述之語音干擾的濾除方法,其中該狀態為一指令有效狀態、一干擾狀態以及一閒置狀態其中之一,而根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾的步驟更包括:若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該干擾狀態,則判定產生該語音干擾,並且令該第二時間點對應該干擾狀態;若該第一時間點與該第二時間點之間的間隔未超過 該時間門檻值,且該第一時間點對應該指令有效狀態,則在該參考指令不同於該當前指令時,判定產生該語音干擾,並且令該第二時間點對應該干擾狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該干擾狀態,則判定產生該語音干擾,並且令該第二時間點對應該閒置狀態。
- 如申請專利範圍第2項所述之語音干擾的濾除方法,其中根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾的步驟更包括:若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該指令有效狀態,則在該參考指令同於該當前指令時,判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該指令有效狀態,則判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態。
- 如申請專利範圍第3項所述之語音干擾的濾除方法,其中若未產生該語音干擾,則輸出該參考指令與該當前指令其中之一的步驟包括:當該第一時間點與該第二時間點之間的間隔未超過該時間門檻值時,根據一預設規則選擇輸出該參考指令或該當前指令;以及 當該第一時間點與該第二時間點之間的間隔超過該時間門檻值時,輸出該參考指令。
- 如申請專利範圍第3項所述之語音干擾的濾除方法,更包括:若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該閒置狀態,則令該第二時間點對應該指令有效狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該閒置狀態,則令該第二時間點對應該閒置狀態。
- 如申請專利範圍第5項所述之語音干擾的濾除方法,其中在取得自該語音輸入辨認出的該參考指令的步驟之後,該方法更包括:判斷該參考指令是否已被濾除或輸出;若該參考指令已被濾除或輸出,則根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾,並根據判斷結果決定是否濾除該當前指令;以及若該參考指令未被濾除或輸出,則執行根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾的步驟。
- 如申請專利範圍第1項所述之語音干擾的濾除方法,其中該第一時間點以及該第二時間點分別為該參考指 令以及該當前指令個別結束的時間點。
- 如申請專利範圍第1項所述之語音干擾的濾除方法,更包括:當該參考指令不存在時,判斷該語音輸入的一起始時間點和該第二時間點之間的間隔是否超過該時間門檻值;若是,則令該第二時間點對應該閒置狀態;以及若否,則令該第二時間點對應該指令有效狀態。
- 如申請專利範圍第1項所述之語音干擾的濾除方法,更包括:當決定輸出辨認自該語音輸入的一指令時,將該指令結束的時間點加上一預設等待時間,以做為該指令的一輸出時間點。
- 如申請專利範圍第1項所述之語音干擾的濾除方法,其中該機率分佈模型為卜瓦松分佈(Poisson distribution)模型。
- 一種電腦可讀記錄媒體,儲存多個程式碼,當該些程式碼被載入至一微處理器單元後,該微處理器單元執行該些程式碼以完成下例步驟:利用一機率分佈模型定義一時間門檻值;每當自一語音輸入辨認出一當前指令,取得自該語音輸入辨認出的一參考指令,其中該當前指令是接續在該參考指令之後被辨識出,且該參考指令對應一第一時間點,該當前指令對應一第二時間點;根據該第一時間點和該第二時間點之間的間隔與該 時間門檻值的一比較結果以及該第一時間點所對應的一狀態,以判斷是否產生一語音干擾;若產生該語音干擾,則濾除該參考指令與該當前指令;以及若未產生該語音干擾,則輸出該參考指令與該當前指令其中之一。
- 如申請專利範圍第11項所述之電腦可讀記錄媒體,其中該狀態為一指令有效狀態、一干擾狀態以及一閒置狀態其中之一,該微處理器單元更執行該些程式碼以完成下列步驟:若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該干擾狀態,則判定產生該語音干擾,並且令該第二時間點對應該干擾狀態;若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該指令有效狀態,則在該參考指令不同於該當前指令時,判定產生該語音干擾,並且令該第二時間點對應該干擾狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該干擾狀態,則判定產生該語音干擾,並且令該第二時間點對應該閒置狀態。
- 如申請專利範圍第12項所述之電腦可讀記錄媒體,其中該微處理器單元更執行該些程式碼以完成下列步驟:若該第一時間點與該第二時間點之間的間隔未超過 該時間門檻值,且該第一時間點對應該指令有效狀態,則在該參考指令同於該當前指令時,判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該指令有效狀態,則判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態。
- 如申請專利範圍第13項所述之電腦可讀記錄媒體,其中該微處理器單元更執行該些程式碼以完成下列步驟:當該第一時間點與該第二時間點之間的間隔未超過該時間門檻值時,根據一預設規則選擇輸出該參考指令或該當前指令;以及當該第一時間點與該第二時間點之間的間隔超過該時間門檻值時,輸出該參考指令。
- 如申請專利範圍第13項所述之電腦可讀記錄媒體,其中該微處理器單元更執行該些程式碼以完成下列步驟:若該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該閒置狀態,則令該第二時間點對應該指令有效狀態;以及若該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該閒置狀態,則令該第二時間點對應該閒置狀態。
- 如申請專利範圍第15項所述之電腦可讀記錄媒體,其中該微處理器單元更執行該些程式碼以完成下列步驟:判斷該參考指令是否已被濾除或輸出;若該參考指令已被濾除或輸出,則根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾,並根據判斷結果決定是否濾除該當前指令;以及若該參考指令未被濾除或輸出,則執行根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾的步驟。
- 如申請專利範圍第11項所述之電腦可讀記錄媒體,其中該微處理器單元更執行該些程式碼以完成下列步驟:當該參考指令不存在時,判斷該語音輸入的一起始時間點和該第二時間點之間的間隔是否超過該時間門檻值;若是,則令該第二時間點對應該閒置狀態;以及若否,則令該第二時間點對應該指令有效狀態。
- 一種語音干擾的濾除系統,包括:一輸出裝置;一輸入裝置,接收一語音輸入;一儲存裝置,儲存利用一機率分佈模型所定義的一時間門檻值;以及 一處理器,耦接該輸出裝置、該輸入裝置與該儲存裝置,其中該處理器每當自該語音輸入辨認出一當前指令時,取得自該語音輸入辨認出的一參考指令,其中該當前指令是接續在該參考指令之後被辨識出,且該參考指令對應一第一時間點,該當前指令對應一第二時間點,並根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的一比較結果以及該第一時間點所對應的一狀態,以判斷是否產生一語音干擾,若產生該語音干擾,該處理器濾除該參考指令與該當前指令,若未產生該語音干擾,該處理器控制該輸出裝置輸出該參考指令與該當前指令其中之一。
- 如申請專利範圍第18項所述之語音干擾的濾除系統,其中該狀態為一指令有效狀態、一干擾狀態以及一閒置狀態其中之一,該處理器在該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該干擾狀態時,判定產生該語音干擾,並且令該第二時間點對應該干擾狀態,該處理器在該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該指令有效狀態,則在該參考指令不同於該當前指令時,判定產生該語音干擾,並且令該第二時間點對應該干擾狀態,該處理器在該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該干擾狀態 時,判定產生該語音干擾,並且令該第二時間點對應該閒置狀態,該處理器在該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該指令有效狀態時,在該參考指令同於該當前指令時,判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態,該處理器在該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該指令有效狀態時,判定未產生該語音干擾,並且令該第二時間點對應該閒置狀態,該處理器在該第一時間點與該第二時間點之間的間隔未超過該時間門檻值,且該第一時間點對應該閒置狀態時,令該第二時間點對應該指令有效狀態;以及該處理器在該第一時間點與該第二時間點之間的間隔超過該時間門檻值,且該第一時間點對應該閒置狀態時,令該第二時間點對應該閒置狀態。
- 如申請專利範圍第19項所述之語音干擾的濾除系統,其中該處理器判斷該參考指令是否已被濾除或輸出,若該當前指令已被濾除或輸出,該根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾,並根據判斷結果決定是否濾除該當前指令,若該當前指令未被濾除或輸出,該處理器根據該第一時間點和該第二時間點之間的間隔與該時間門檻值的該比 較結果以及該第一時間點所對應的該狀態,以判斷是否產生該語音干擾。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101142668A TWI557722B (zh) | 2012-11-15 | 2012-11-15 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
CN201210530795.8A CN103811014B (zh) | 2012-11-15 | 2012-12-10 | 语音干扰的滤除方法和语音干扰的滤除系统 |
US14/056,960 US9330676B2 (en) | 2012-11-15 | 2013-10-18 | Determining whether speech interference occurs based on time interval between speech instructions and status of the speech instructions |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101142668A TWI557722B (zh) | 2012-11-15 | 2012-11-15 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201419264A true TW201419264A (zh) | 2014-05-16 |
TWI557722B TWI557722B (zh) | 2016-11-11 |
Family
ID=50682563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101142668A TWI557722B (zh) | 2012-11-15 | 2012-11-15 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9330676B2 (zh) |
CN (1) | CN103811014B (zh) |
TW (1) | TWI557722B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6359327B2 (ja) * | 2014-04-25 | 2018-07-18 | シャープ株式会社 | 情報処理装置および制御プログラム |
EP3175456B1 (en) * | 2014-07-31 | 2020-06-17 | Koninklijke KPN N.V. | Noise suppression system and method |
US10453460B1 (en) * | 2016-02-02 | 2019-10-22 | Amazon Technologies, Inc. | Post-speech recognition request surplus detection and prevention |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN109558032B (zh) * | 2018-12-05 | 2020-09-04 | 北京三快在线科技有限公司 | 操作处理方法、装置以及计算机设备 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
JP3834169B2 (ja) * | 1999-09-22 | 2006-10-18 | 日本放送協会 | 連続音声認識装置および記録媒体 |
JP2002091466A (ja) * | 2000-09-12 | 2002-03-27 | Pioneer Electronic Corp | 音声認識装置 |
JP2002123283A (ja) * | 2000-10-12 | 2002-04-26 | Nissan Motor Co Ltd | 音声認識操作装置 |
KR100367700B1 (ko) * | 2000-11-22 | 2003-01-10 | 엘지전자 주식회사 | 음성부호화기의 유/무성음정보 추정방법 |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
US7251595B2 (en) * | 2001-03-22 | 2007-07-31 | Nippon Telegraph And Telephone Corporation | Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
US7031916B2 (en) * | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
DE10163214A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
KR100434545B1 (ko) * | 2002-03-15 | 2004-06-05 | 삼성전자주식회사 | 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치 |
WO2004012422A2 (en) * | 2002-07-31 | 2004-02-05 | Arie Ariav | Voice controlled system and method |
TWI299855B (en) | 2006-08-24 | 2008-08-11 | Inventec Besta Co Ltd | Detection method for voice activity endpoint |
US20100332222A1 (en) | 2006-09-29 | 2010-12-30 | National Chiao Tung University | Intelligent classification method of vocal signal |
TWI319563B (en) | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
US8315870B2 (en) * | 2007-08-22 | 2012-11-20 | Nec Corporation | Rescoring speech recognition hypothesis using prosodic likelihood |
EP2058797B1 (en) * | 2007-11-12 | 2011-05-04 | Harman Becker Automotive Systems GmbH | Discrimination between foreground speech and background noise |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
JP2011027905A (ja) * | 2009-07-23 | 2011-02-10 | Denso Corp | 音声認識装置およびそれを用いたナビゲーション装置 |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
CN102262879B (zh) * | 2010-05-24 | 2015-05-13 | 乐金电子(中国)研究开发中心有限公司 | 语音命令竞争处理方法、装置、语音遥控器和数字电视 |
WO2012158156A1 (en) * | 2011-05-16 | 2012-11-22 | Google Inc. | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood |
WO2012156851A1 (en) * | 2011-05-18 | 2012-11-22 | International Business Machines Corporation | Managing a message subscription in a publish/subscribe messaging system |
US8781821B2 (en) * | 2012-04-30 | 2014-07-15 | Zanavox | Voiced interval command interpretation |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
-
2012
- 2012-11-15 TW TW101142668A patent/TWI557722B/zh active
- 2012-12-10 CN CN201210530795.8A patent/CN103811014B/zh active Active
-
2013
- 2013-10-18 US US14/056,960 patent/US9330676B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140136193A1 (en) | 2014-05-15 |
CN103811014B (zh) | 2016-08-17 |
US9330676B2 (en) | 2016-05-03 |
CN103811014A (zh) | 2014-05-21 |
TWI557722B (zh) | 2016-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI557722B (zh) | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 | |
CN105210146B (zh) | 用于控制语音激活的方法和设备 | |
US8972252B2 (en) | Signal processing apparatus having voice activity detection unit and related signal processing methods | |
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
KR101805976B1 (ko) | 음성 인식 장치 및 방법 | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
US9026444B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
US9251789B2 (en) | Speech-recognition system, storage medium, and method of speech recognition | |
JP2022033258A (ja) | 音声制御装置、動作方法及びコンピュータプログラム | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
CN110602624B (zh) | 音频测试方法、装置、存储介质及电子设备 | |
WO2014182459A1 (en) | Adaptive audio frame processing for keyword detection | |
JP2008256802A (ja) | 音声認識装置および音声認識方法 | |
CN107886944A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN111261195A (zh) | 音频测试方法、装置、存储介质及电子设备 | |
JP6087542B2 (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
CN109859752A (zh) | 一种语音控制方法、装置、存储介质及语音联控系统 | |
CN111369992A (zh) | 指令执行方法、装置、存储介质及电子设备 | |
JP4491438B2 (ja) | 音声対話装置、音声対話方法、およびプログラム | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
WO2017024835A1 (zh) | 语音识别方法及装置 | |
CN114743546B (zh) | 降低智能语音误唤醒率的方法及装置、电子设备 | |
KR20190062369A (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム |