TWI736117B - 聲音定位裝置與方法 - Google Patents
聲音定位裝置與方法 Download PDFInfo
- Publication number
- TWI736117B TWI736117B TW109102649A TW109102649A TWI736117B TW I736117 B TWI736117 B TW I736117B TW 109102649 A TW109102649 A TW 109102649A TW 109102649 A TW109102649 A TW 109102649A TW I736117 B TWI736117 B TW I736117B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound source
- angle signal
- signals
- sound
- voice
- Prior art date
Links
- 230000004807 localization Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims description 17
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 238000005516 engineering process Methods 0.000 description 12
- 102100040896 Growth/differentiation factor 15 Human genes 0.000 description 3
- 101710194460 Growth/differentiation factor 15 Proteins 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本發明揭露了一種聲音定位裝置,能夠適當地決定語音來向。該聲音定位裝置包含:一空間特徵產生器,用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號;一語音偵測器,用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號;一角度選擇器,用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度;以及一角度取回器,用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。
Description
本發明是關於定位裝置與方法,尤其是關於聲音定位裝置與方法。
麥克風陣列常用於免持裝置或會議裝置,該些裝置通常會利用聲音定位技術來估測聲音來向(或說聲音角度),以強化收訊。
由於麥克風陣列的複數個麥克風是分開地設置,因此不同麥克風收到同一聲音訊號的時間會有時間差;當該聲音訊號的入射角度不同時,該時間差也會不同。一種常見的聲音定位技術是基於上述時間差來計算多種聲音訊號之入射角度的空間特徵,再依該些空間特徵的強度來估測聲音角度。一些常見的計算空間特徵的技術見於下列參考文獻:
參考文獻1:J.H. DiBiase, “A high-accuracy, low-latency technique for talker localization in reverberant environments using microphone arrays”, 2000。
參考文獻2:H.L. Van Trees, “Optimum array processing – Part IV of detection, estimation, and modulation theory”, Chapter 6, 2002。
為了提升在雜訊干擾下角度估測的準確性,在計算空間特徵前或在決定聲音角度時,語音偵測(speech detection)技術可被採用以提升穩定性,如美國專利公開案US 2002/0097885 A1所述。然而,當音樂或嘈雜(babble)型的雜訊能量增加時,語音偵測技術的誤判機率會隨之提高,這使得目前的聲音定位技術容易將雜訊來向誤認為語音來向;此外,嘈雜環境會降低語音偵測技術的成功率,使得目前的聲音定位技術難以適當地決定語音來向。
另有一先前技術(美國專利US 6,990,193 B2)揭示了回音消除技術,但未解決前述問題。
本揭露之一目的在於揭示一種聲音定位裝置與方法,能夠適當地決定語音角度。
本揭露之聲音定位裝置的一實施例包含一空間特徵產生器、一語音偵測器、一角度選擇器與一角度取回器。該空間特徵產生器用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號,其中該N與該M均為大於一的整數。該語音偵測器用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號。該角度選擇器用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。該角度取回器用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。
本揭露之聲音定位裝置的另一實施例同樣包含一空間特徵產生器、一語音偵測器、一角度選擇器與一角度取回器。該空間特徵產生器用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號,其中該N與該M均為大於一的整數。該語音偵測器用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號,其中該X為不大於該M的正整數。該角度選擇器用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。該角度取回器用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該X個語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。
本揭露之聲音定位方法的一實施例是由一角度取回器來執行。該實施例包含下列步驟:依據M個空間特徵訊號判斷目前是否有任何聲源存在,其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號而產生,該N與該M均為大於一的整數;依據至少一語音偵測訊號判斷目前是否有語音存在,其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生;若判斷目前沒有任何聲源存在,輸出一候選角度訊號作為一估測角度訊號,其中該候選角度訊號是依據該M個空間特徵訊號而產生,用來指出一候選聲音角度;若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至一儲存電路,並輸出該候選角度訊號作為該估測角度訊號;以及若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
有關本發明的特徵、實作與功效,茲配合圖式作較佳實施例詳細說明如下。
本揭露提供一種聲音定位裝置與方法,能夠適當地決定語音來向。
圖1顯示本揭露之聲音定位裝置的一實施例。圖1之聲音定位裝置100包含一空間特徵產生器110、一語音偵測器120、一角度選擇器130與一角度取回器140。空間特徵產生器110用來依據一麥克風陣列10之N個麥克風的訊號(S
MIC-1~S
MIC-N)產生M個空間特徵訊號(S
SF-1~ S
SF-M)分別對應M個角度,其中該N與該M均為大於一的整數,且該N與該M可相等或相異。語音偵測器120用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號(S
SP);依實施需求,語音偵測器120可設計來偵測人聲或其它聲音。角度選擇器130用來依據該M個空間特徵訊號輸出一候選角度訊號(S
CA)指出一候選聲音角度;舉例而言,角度選擇器130選擇該M個空間特徵訊號中具有最大特徵值者(或說對應最大強度者)作為該候選角度訊號。角度取回器140用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,該聲源偵測結果可以是硬體的一訊號或是軟體/韌體的一演算法運算結果;之後,角度取回器140依據該聲源偵測結果、該至少一語音偵測訊號與該候選角度訊號來輸出一估測角度訊號(S
EA)。
請參閱圖1。空間特徵產生器110可使用已知或自行開發的技術來產生該M個空間特徵訊號;舉例而言,空間特徵產生器110使用下列演算法的至少其中之一來產生該M個空間特徵訊號:一可控響應功率(Steered Response Power, SRP)演算法;一廣義互相關(Generalized Cross Correlation, GCC)演算法;以及一相位變換廣義互相關(Generalized Cross Correlation-Phase Transform, GCC-PHAT)演算法。上述演算法之介紹見於前述參考文獻1。另外,為提升角度估測的連續性,空間特徵產生器110可選擇性地使用一已知或自行開發的遞迴(recursive)演算法,以對該M個空間特徵訊號執行一平滑處理。
請參閱圖1。語音偵測器120用來偵測訊號是否帶有特定特徵(例如:音調(pitch)或能量)以產生該至少一語音偵測訊號。語音偵測器120可藉由已知技術(例如:https://en.wikipedia.org/wiki/Voice_activity_detection)或自行開發的技術來實現。
請參閱圖1。角度取回器140執行複數個步驟以決定該估測角度訊號,該複數個步驟的一實施例如圖2所示,包含:
S210:依據該M個空間特徵訊號判斷目前是否有任何聲源存在。於一實作範例中,步驟S210包含下列步驟的至少其中之一以判斷是否有任何聲源存在:一第一步驟,用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在;一第二步驟,用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在;以及一第三步驟,用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。舉例而言,該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積,以在該判斷的結果為“是”時,判斷有聲源存在;該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積,以在該判斷的結果為“是”時,判斷有聲源存在;以及該第三步驟用來判斷該最大值是否大於該第三門檻值,以在該判斷的結果為“是”時,判斷有聲源存在。本領域人士可依實施需求決定上述第一、第二與第三門檻。
S220:依據該至少一語音偵測訊號判斷目前是否有語音存在。
S230:若判斷目前沒有任何聲源存在,輸出該候選角度訊號作為該估測角度訊號。
S240:若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至儲存電路20,並輸出該候選角度訊號作為該估測角度訊號。
S250:若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
由於本領域具有通常知識者可利用已知及/或自行開發的技術,依據本揭露來實現角度取回器140,冗餘的說明在此省略。
圖3顯示本揭露之聲音定位裝置的另一實施例。圖3之聲音定位裝置300包含一空間特徵產生器310、一語音偵測器320、一角度選擇器330以及一角度取回器340。空間特徵產生器310用來依據一麥克風陣列之N個麥克風的訊號產生M個空間特徵訊號,其中該N與該M均為大於一的整數。語音偵測器320用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號(S
SP-1~S
SP-X),其中該X為不大於該M的正整數。角度選擇器330用來依據該M個空間特徵訊號輸出一候選角度訊號指出一候選聲音角度。角度取回器340用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該X個語音偵測訊號與該候選角度訊號來輸出一估測角度訊號。
請參閱圖3。於一實作範例中,空間特徵產生器310使用前述可控響應功率演算法來產生該M個空間特徵訊號。於一實作範例中,語音偵測器320使用已知或自行開發的技術來偵測訊號是否帶有特定特徵以產生該X個語音偵測訊號。於一實作範例中,角度取回器340執行複數個步驟以決定該估測角度訊號,該複數個步驟的一實施例包含:依據該M個空間特徵訊號判斷目前是否有任何聲源存在;依據該X個語音偵測訊號判斷目前是否有語音存在;若判斷目前沒有任何聲源存在,輸出該候選角度訊號作為該估測角度訊號;若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至儲存電路20,並輸出該候選角度訊號作為該估測角度訊號;以及若判斷目前有該至少一聲源存在且沒有語音存在,從儲存電路20取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
由於本領域具有通常知識者能夠參酌圖1~2之實施例的揭露來瞭解圖3之實施例的細節與變化,亦即圖1~2之實施例的技術特徵可合理應用於圖3之實施例,因此,重複及冗餘的說明在此省略。
圖4顯示本揭露之聲音定位方法的一實施例,是由一角度取回器(例如:前述角度取回器140/340)來執行。圖4的實施例包含下列步驟:
S410:依據M個空間特徵訊號判斷目前是否有任何聲源存在,其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號而產生,該N與該M均為大於一的整數。
S420:依據至少一語音偵測訊號判斷目前是否有語音存在,其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生。
S430:若判斷目前沒有任何聲源存在,輸出一候選角度訊號作為一估測角度訊號,其中該候選角度訊號是依據該M個空間特徵訊號而產生,用來指出一候選聲音角度。
S440:若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至一儲存電路,並輸出該候選角度訊號作為該估測角度訊號。
S450:若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
由於本領域具有通常知識者能夠參酌圖1~3之實施例的揭露來瞭解圖4之實施例的細節與變化,亦即圖1~3之實施例的技術特徵可合理應用於圖4之實施例,因此,重複及冗餘的說明在此省略。
請注意,在實施為可能的前提下,本技術領域具有通常知識者可選擇性地實施前述任一實施例中部分或全部技術特徵,或選擇性地實施前述複數個實施例中部分或全部技術特徵的組合,以增加本發明實施時的彈性。
綜上所述,本發明能夠藉由角度取回器的運作,適當地決定語音來向。
雖然本發明之實施例如上所述,然而該些實施例並非用來限定本發明,本技術領域具有通常知識者可依據本發明之明示或隱含之內容對本發明之技術特徵施以變化,凡此種種變化均可能屬於本發明所尋求之專利保護範疇,換言之,本發明之專利保護範圍須視本說明書之申請專利範圍所界定者為準。
10 麥克風陣列
20 儲存電路
100 聲音定位裝置
110 空間特徵產生器
120 語音偵測器
130 角度選擇器
140 角度取回器
S
MIC-1~S
MIC-NN個麥克風的訊號
S
SF-1~ S
SF-MM個空間特徵訊號
S
SP語音偵測訊號
S
CA候選角度訊號
S
EA估測角度訊號
S210~S250 步驟
300 聲音定位裝置
310 空間特徵產生器
320 語音偵測器
330 角度選擇器
340 角度取回器
S
SP-1~S
SP-XX個語音偵測訊號
S410~S450 步驟
[圖1]顯示本揭露之聲音定位裝置的一實施例;
[圖2]顯示圖1之角度取回器所執行之複數個步驟的一實施例;
[圖3]顯示本揭露之聲音定位裝置的另一實施例;以及
[圖4]顯示本揭露之聲音定位方法的一實施例。
10 麥克風陣列
20 儲存電路
100 聲音定位裝置
110 空間特徵產生器
120 語音偵測器
130 角度選擇器
140 角度取回器
S
MIC-1~S
MIC-NN個麥克風的訊號
S
SF-1~ S
SF-MM個空間特徵訊號
S
SP語音偵測訊號
S
CA候選角度訊號
S
EA估測角度訊號
Claims (10)
- 一種聲音定位裝置,包含:一空間特徵產生器,用來依據一麥克風陣列之N個麥克風的訊號以及一預設演算法產生M個空間特徵訊號,其中該N與該M均為大於一的整數;一語音偵測器,用來依據該N個麥克風的訊號的至少其中之一產生至少一語音偵測訊號;一角度選擇器,用來依據該M個空間特徵訊號以及一預設選擇規則輸出一候選角度訊號指出一候選聲音角度;以及一角度取回器,用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該至少一語音偵測訊號、該候選角度訊號以及一預設判斷規則來輸出一估測角度訊號。
- 如申請專利範圍第1項所述之聲音定位裝置,其中該角度取回器執行複數個步驟以決定該估測角度訊號,該複數個步驟包含:依據該M個空間特徵訊號判斷目前是否有任何聲源存在;依據該至少一語音偵測訊號判斷目前是否有語音存在;若判斷目前沒有任何聲源存在,輸出該候選角度訊號作為該估測角度訊號;若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至一儲存電路,並輸出該候選角度訊號作為該估測角度訊號;以及若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
- 如申請專利範圍第2項所述之聲音定位裝置,其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一:一第一步驟,用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在;一第二步驟,用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在;以及一第三步驟,用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。
- 如申請專利範圍第3項所述之聲音定位裝置,其中該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積;該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積;以及該第三步驟用來判斷該最大值是否大於該第三門檻值。
- 一種聲音定位裝置,包含:一空間特徵產生器,用來依據一麥克風陣列之N個麥克風的訊號以及一預設演算法產生M個空間特徵訊號,其中該N與該M均為大於一的整數;一語音偵測器,用來依據該M個空間特徵訊號的X個空間特徵訊號產生X個語音偵測訊號,其中該X為不大於該M的正整數;一角度選擇器,用來依據該M個空間特徵訊號以及一預設選擇規則輸出一候選角度訊號指出一候選聲音角度;以及一角度取回器,用來依據該M個空間特徵訊號產生一聲源偵測結果指出是否有任何聲源存在,再依據該聲源偵測結果、該X個語音偵測訊號、該候選角度訊號以及一預設判斷規則來輸出一估測角度訊號。
- 如申請專利範圍第5項所述之聲音定位裝置,其中該角度取回器執行複數個步驟以決定該估測角度訊號,該複數個步驟包含: 依據該M個空間特徵訊號判斷目前是否有任何聲源存在;依據該X個語音偵測訊號判斷目前是否有語音存在;若判斷目前沒有任何聲源存在,輸出該候選角度訊號作為該估測角度訊號;若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至一儲存電路,並輸出該候選角度訊號作為該估測角度訊號;以及若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
- 如申請專利範圍第6項所述之聲音定位裝置,其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一:一第一步驟,用來判斷該M個空間特徵訊號的一最大值是否大於該M個空間特徵訊號的一平均值與一第一門檻值的乘積,以決定目前是否有任何聲源存在;一第二步驟,用來判斷該最大值是否大於該M個空間特徵訊號的一最小值與一第二門檻值的乘積,以決定目前是否有任何聲源存在;以及一第三步驟,用來判斷該最大值是否大於一第三門檻值,以決定目前是否有任何聲源存在。
- 一種聲音定位方法,是由一角度取回器依據一預設判斷規則來執行,該聲音定位方法包含:依據M個空間特徵訊號判斷目前是否有任何聲源存在,其中該M個空間特徵訊號是依據一麥克風陣列之N個麥克風的訊號以及一預設演算法而產生,該N與該M均為大於一的整數; 依據至少一語音偵測訊號判斷目前是否有語音存在,其中該至少一語音偵測訊號是依據該N個麥克風的訊號的至少其中之一或該M個空間特徵訊號的至少其中之一而產生;若判斷目前沒有任何聲源存在,輸出一候選角度訊號作為一估測角度訊號,其中該候選角度訊號是依據該M個空間特徵訊號以及一預設選擇規則而產生,用來指出一候選聲音角度;若判斷目前有至少一聲源存在且有語音存在,儲存該候選角度訊號至一儲存電路,並輸出該候選角度訊號作為該估測角度訊號;以及若判斷目前有該至少一聲源存在且沒有語音存在,從該儲存電路取回一先前儲存的候選角度訊號,並輸出該先前儲存的候選角度訊號作為該估測角度訊號。
- 如申請專利範圍第8項所述之聲音定位方法,其中判斷目前是否有任何聲源存在的步驟包含下列步驟的至少其中之一:一第一步驟,用來依據該M個空間特徵訊號的一最大值、該M個空間特徵訊號的一平均值以及一第一門檻值來判斷目前是否有任何聲源存在;一第二步驟,用來依據該最大值、該M個空間特徵訊號的一最小值以及一第二門檻值來判斷目前是否有任何聲源存在;以及一第三步驟,用來依據該最大值與一第三門檻值判斷目前是否有任何聲源存在。
- 如申請專利範圍第9項所述之聲音定位方法,其中該第一步驟用來判斷該最大值是否大於該第一門檻值與該平均值的乘積;該第二步驟用來判斷該最大值是否大於該第二門檻值與該最小值的乘積;以及該第三步驟用來判斷該最大值是否大於該第三門檻值。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109102649A TWI736117B (zh) | 2020-01-22 | 2020-01-22 | 聲音定位裝置與方法 |
CN202010261340.5A CN113156370B (zh) | 2020-01-22 | 2020-04-03 | 声音定位装置与方法 |
US17/149,214 US11184703B2 (en) | 2020-01-22 | 2021-01-14 | Device and method for sound localization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109102649A TWI736117B (zh) | 2020-01-22 | 2020-01-22 | 聲音定位裝置與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202129631A TW202129631A (zh) | 2021-08-01 |
TWI736117B true TWI736117B (zh) | 2021-08-11 |
Family
ID=76857641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109102649A TWI736117B (zh) | 2020-01-22 | 2020-01-22 | 聲音定位裝置與方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11184703B2 (zh) |
CN (1) | CN113156370B (zh) |
TW (1) | TWI736117B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100110834A1 (en) * | 2008-10-30 | 2010-05-06 | Kim Kyu-Hong | Apparatus and method of detecting target sound |
TW201250670A (en) * | 2011-06-03 | 2012-12-16 | Univ Nat Chiao Tung | Speech recognition device and a speech recognition method thereof |
US20170195815A1 (en) * | 2016-01-04 | 2017-07-06 | Harman Becker Automotive Systems Gmbh | Sound reproduction for a multiplicity of listeners |
TW201727439A (zh) * | 2015-10-30 | 2017-08-01 | 傲思丹度科技公司 | 用於身體手勢介面及投影顯示器之系統及方法 |
CN107211027A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 感知质量比会议中原始听到的更高的后会议回放系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039198B2 (en) | 2000-11-10 | 2006-05-02 | Quindi | Acoustic source localization system and method |
US6990193B2 (en) | 2002-11-29 | 2006-01-24 | Mitel Knowledge Corporation | Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity |
US6999593B2 (en) | 2003-05-28 | 2006-02-14 | Microsoft Corporation | System and process for robust sound source localization |
TWI262433B (en) * | 2005-04-01 | 2006-09-21 | Univ Nat Chiao Tung | Voice locating system |
US8233352B2 (en) | 2009-08-17 | 2012-07-31 | Broadcom Corporation | Audio source localization system and method |
US9435873B2 (en) * | 2011-07-14 | 2016-09-06 | Microsoft Technology Licensing, Llc | Sound source localization using phase spectrum |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
CN106328130A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种机器人语音寻向转动系统及方法 |
US10042038B1 (en) * | 2015-09-01 | 2018-08-07 | Digimarc Corporation | Mobile devices and methods employing acoustic vector sensors |
KR102444061B1 (ko) * | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US10297267B2 (en) * | 2017-05-15 | 2019-05-21 | Cirrus Logic, Inc. | Dual microphone voice processing for headsets with variable microphone array orientation |
CN110275138B (zh) * | 2019-07-16 | 2021-03-23 | 北京工业大学 | 一种利用优势声源成分移除的多声源定位方法 |
-
2020
- 2020-01-22 TW TW109102649A patent/TWI736117B/zh active
- 2020-04-03 CN CN202010261340.5A patent/CN113156370B/zh active Active
-
2021
- 2021-01-14 US US17/149,214 patent/US11184703B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100110834A1 (en) * | 2008-10-30 | 2010-05-06 | Kim Kyu-Hong | Apparatus and method of detecting target sound |
TW201250670A (en) * | 2011-06-03 | 2012-12-16 | Univ Nat Chiao Tung | Speech recognition device and a speech recognition method thereof |
CN107211027A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 感知质量比会议中原始听到的更高的后会议回放系统 |
TW201727439A (zh) * | 2015-10-30 | 2017-08-01 | 傲思丹度科技公司 | 用於身體手勢介面及投影顯示器之系統及方法 |
US20170195815A1 (en) * | 2016-01-04 | 2017-07-06 | Harman Becker Automotive Systems Gmbh | Sound reproduction for a multiplicity of listeners |
Also Published As
Publication number | Publication date |
---|---|
US20210227318A1 (en) | 2021-07-22 |
CN113156370A (zh) | 2021-07-23 |
US11184703B2 (en) | 2021-11-23 |
CN113156370B (zh) | 2024-08-27 |
TW202129631A (zh) | 2021-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580411B2 (en) | Talker change detection | |
JP7158806B2 (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
CN109817209B (zh) | 一种基于双麦克风阵列的智能语音交互系统 | |
JP5706513B2 (ja) | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 | |
US6912178B2 (en) | System and method for computing a location of an acoustic source | |
US20130329908A1 (en) | Adjusting audio beamforming settings based on system state | |
JP2008311866A (ja) | 音響信号処理方法及び装置 | |
BR112015014380B1 (pt) | Filtro e método para filtragem espacial informada utilizando múltiplas estimativas da direção de chegada instantânea | |
WO2014182462A1 (en) | Method, device and computer-program product for noise characteristic dependent speech enhancement | |
US20190098399A1 (en) | Spatial clues from broadside detection | |
JP2009522942A (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
JP2008054071A (ja) | 紙擦れ音除去装置 | |
CN111883153B (zh) | 一种基于麦克风阵列的双端讲话状态检测方法及装置 | |
CN107393549A (zh) | 时延估计方法及装置 | |
JP2007047427A (ja) | 音声処理装置 | |
TWI736117B (zh) | 聲音定位裝置與方法 | |
US10360922B2 (en) | Noise reduction device and method for reducing noise | |
GB2514184A (en) | Method for determining a direction of at least one sound source from an array of microphones | |
US11425495B1 (en) | Sound source localization using wave decomposition | |
CN115720317A (zh) | 音频信号啸叫检测和抑制方法及装置 | |
JP2018036431A (ja) | 音声処理プログラム、音声処理方法及び音声処理装置 | |
Habib et al. | Experimental evaluation of multi-band position-pitch estimation (m-popi) algorithm for multi-speaker localization. | |
US20210149007A1 (en) | Beamformer enhanced direction of arrival estimation in a reverberant environment with directional noise | |
Dang et al. | An Iterative Steered Response Power Algorithm for Multi-Source Localization and Counting Using Distributed Microphone Networks |