TWI714303B - 聲源定位方法及聲音系統 - Google Patents
聲源定位方法及聲音系統 Download PDFInfo
- Publication number
- TWI714303B TWI714303B TW108136524A TW108136524A TWI714303B TW I714303 B TWI714303 B TW I714303B TW 108136524 A TW108136524 A TW 108136524A TW 108136524 A TW108136524 A TW 108136524A TW I714303 B TWI714303 B TW I714303B
- Authority
- TW
- Taiwan
- Prior art keywords
- particles
- positions
- particle
- cost function
- region
- Prior art date
Links
- 230000004807 localization Effects 0.000 title claims abstract description 68
- 239000002245 particle Substances 0.000 claims abstract description 221
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/02—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
- G01S3/74—Multi-channel systems specially adapted for direction-finding, i.e. having a single antenna system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/403—Linear arrays of transducers
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
Description
本發明係指一種聲源定位方法及聲音系統,尤指一種低運算複雜度且精準定位的聲源定位方法及聲音系統。
空間中的聲源定位(Sound Source Localization)是聲音訊號處理領域中一項重要的技術,在聲源分離或是降低環境噪音干擾的操作中,目標或是干擾聲源的位置資訊對提升分離或降噪效能上有很大的幫助。此外,在語音處理相關應用中,聲源的位置也是整體系統中的一項重要資訊,例如在視訊會議中確認發言者的位置,或是智慧型機器人辨別交談者的方位等。一般較為準確的聲源定位均需麥克風陣列,藉由若干麥克風按照一定的方式佈置在空間不同位置上組成的陣列。麥克風陣列因為其空間選擇性,可以在一定範圍內實現聲源的定位。
多重訊號分類(Multiple Signal Classification,MUSIC)演算法是常用的聲源定位方法。然而,MUSIC演算法的運算複雜度高,且無法聲源定位得很精細。
因此,習知技術實有改善之必要。
因此,本發明之主要目的即在於提供一種低運算複雜度且精準定位的聲源定位方法及聲音系統,以改善習知技術的缺點。
本發明實施例揭露一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
本發明實施例另揭露一種聲音系統,包括一麥克風陣列,包括多個麥克風,用來接收一接收信號;一聲源定位模組,用來執行以下步驟:根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
10:聲音系統
12:麥克風陣列
14:聲源定位模組
20、30、40:流程
202~208、300~312、400~412:步驟
ULA:均勻線性陣列
UCA:均勻環形陣列
θ、θS:仰角
φ、φS:水平角
第1圖為本發明實施例一聲音系統之示意圖。
第2圖為本發明實施例一聲源定位流程之示意圖。
第3圖為一均勻線性陣列的示意圖。
第4圖為一均勻環形陣列的示意圖。
第5圖為本發明實施例一流程的示意圖。
第6圖為一二維空間的示意圖。
第7圖為本發明實施例一流程的示意圖。
第1圖為本發明實施例一聲音系統10之示意圖。聲音系統10包括一麥克風陣列12以及一聲源定位模組14。麥克風陣列12包括多個麥克風120_1~120_M,其可排列成一環型陣列(Circular Array)或是一線性陣列(Linear),且不限於此。於一實施例中,聲源定位模組14可利用特殊應用積體電路(Application-specific integrated circuit)來實現。於一實施例中,聲源定位模組14可包括處理器以及儲存單元,儲存單元可用來儲存一程式碼,該程式碼用來指示處理器執行關於聲源定位的運算,其中,處理器可為處理單元(Processing Unit)、應用處理器(Application Processor)或是數位信號處理器(Digital Signal Processor),處理單元可為中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphics Processing Unit,GPU)甚至張量處理單元(Tensor Processing Unit,TPU),而不在此限。儲存單元可為一記憶體,其可為一非揮發性記憶體(Non-Volatile Memory,例如,一電子抹除式可複寫唯讀記憶體(Electrically Erasable Programmable Read Only Memory,EEPROM)或一快閃記憶體(Flash Memory)),而不在此限。
與現有技術不同的是,聲源定位模組14可根據麥克風陣列12所接收的接收信號,利用一粒子群最佳化(Particle Swarm Optimization,PSO)演算法,定位出聲源的位置。
第2圖為本發明實施例一聲源定位流程20之示意圖。聲源定位流程20
可由聲音系統10來執行,如第2圖所示,聲源定位流程20包括以下步驟:
步驟202:麥克風陣列接收一接收信號。
步驟204:根據該接收信號,建立一成本函數。
步驟206:形成多個粒子。
步驟208:根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
於步驟202中,麥克風陣列12接收一接收信號r,其中接收信號r可以向量表示法表示為r=[r1,...rM] T ,rm代表麥克風120_m所接收到的信號。
於步驟204中,聲源定位模組14根據接收信號r,建立一成本函數CF。成本函數CF可代表或反映出所計算出聲源位置的可靠度,成本函數CF與所計算出聲源位置的可靠度之間可具有單調遞增關係或單調遞減關係。以成本函數CF與聲源位置可靠度之間為單調遞增,成本函數CF所對應出的成本值越高,代表所計算出聲源位置的可靠度越高。
建立成本函數CF的方式並未有所限,於一實施例中,可利用MUSIC演算法中作為判斷依據的函數(記為SMUSIC)作為步驟204的成本函數CF。
詳細來說,聲源定位模組14可根據接收信號r,計算對應於接收信號r的一相關矩陣R rr為R rr=E[r.r H ],其中E[.]為取平均值運算,其可為統計上的總體平均值(Ensemble Average)或是時間平均值(Time Average)。
聲源定位模組14取得相關矩陣R rr之後,聲源定位模組14可對相關矩
陣R rr進行一特徵值分解(Eigenvalue Decomposition),以取得對應於相關矩陣R rr的多個特徵值(Eigenvalue)λ1,...,λM以及多個特徵向量(Eigenvector)v 1,...,v M,其中λ1 ...λM且特徵向量v 1,...,v M分別對應於特徵值λ1,...,λM。
另外,根據麥克風陣列12的陣型,聲源定位模組14可取得對應於麥克風陣列12的陣列流形向量(Array Manifold Vector)a。舉例來說,若麥克風陣列12為一均勻線性陣列(Uniform Linear Array,ULA,如第3圖所示),陣列流形向量a可表示為a(θ)=[1 e j.kc.d.sinθ...e j.kc.(M-1).d.sinθ] T ;若麥克風陣列12為一均勻環形陣列(Uniform Circular Array,UCA,如第4圖所示),陣列流形向量a可表示為a(θ,φ)=[e j.kc.R.sinθcosφ e j.kc.R.sinθcos(φ-2π/M)...e j.kc.R sinθcos(φ-2π(M-1)/M)] T ,其中d代表均勻線性陣列的間距,R代表均勻環形陣列的半徑,θ代表仰角(Elevation Angle)或垂直面的角度,φ代表水平角(Azimuth Angle)或水平面的角度,kc代表波數(Wave number)而可表示為kc=2πf/c,c代表光速。需注意的是,以上僅以ULA或UCA為例說明陣列流形向量a,事實上,麥克風陣列12的陣型不限於ULA或UCA,可視實際狀況設計適用的陣型,進而取得相應的陣列流形向量a。
聲源定位模組14取得陣列流形向量a之後,聲源定位模組14可根據投影矩陣P N以及陣列流形向量a,取得成本函數CF或函數SMUSIC為CF(θ,φ)=SMUSIC(θ,φ)=1/(a H (θ,φ).P N.a(θ,φ))。其中,由於信號子空間與雜訊子空間相互
正交,因此,當(θSS,φSS)代表/對應一聲源位置SS時,a H (θSS,φSS).P N.a(θSS,φSS)=0且CF(θSS,φSS)=SMUSIC(θSS,φSS)應趨近於無限大。
於步驟206中,聲源定位模組14形成多個粒子ptcij,其中多個粒子ptcij為多個虛擬粒子。於一實施例中,聲源定位模組14於仰角θ及水平角φ所展開的二維空間形成多個虛擬粒子ptcij,每個虛擬粒子ptcij的一粒子位置xij對應於一水平角φi以及一仰角θj,為了方便說明,粒子ptcij的粒子位置xij可表示為xij=(φi,θj)。
於步驟208中,聲源定位模組14根據多個粒子ptcij的多個當下位置xij(t n )以及成本函數CF,計算多個粒子ptcij的多個更新位置xij(t n+1),並根據多個更新位置xij(t n+1)取得至少一聲源位置。
關於步驟208的操作細節,請參考第5圖,第5圖為本發明實施例一流程30的示意圖。流程30為一PSO演算法,PSO演算法為本領域具通常知識者所知,故簡述如下。流程30包括以下步驟:
步驟300:取得多個粒子ptcij的多個初始粒子位置xij(t 0)。
步驟302:根據多個粒子ptcij的多個粒子位置xij(t n )以及成本函數CF,計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
步驟304:取得一全域最佳位置(Global Best)g(t n )以及對應於多個粒子ptcij的多個個別最佳位置(Personal Best)pij(t n )。
步驟306:根據多個粒子位置xij(t n )、全域最佳位置g(t n )以及個別最佳位置pij(t n ),計算對應於多個粒子位置xij(t n )的多個粒子速度vij(t n+1)。
步驟308:根據多個粒子位置xij(t n )以及多個粒子速度vij(t n+1),計算多個粒子位置xij(t n+1)。
步驟310:判斷是否達成停止條件。若是,執行步驟312;若否,執行步驟302。
步驟312:根據多個更新位置xij(t n+1)取得一聲源位置S=(φS,θS)。
於步驟300中,聲源定位模組14可將多個初始粒子位置xij(t 0)分佈於仰角θ及水平角φ所展開的二維空間中。於一實施例中,聲源定位模組14可將多個初始粒子位置xij(t 0)均勻分佈於仰角θ及水平角φ所展開的二維空間中(如第6圖所示),而不限於此。舉例來說,若聲源定位模組14在執行流程30之前事先獲得聲源位置的(歷史)資訊,聲源定位模組14可依照該資訊將多個初始粒子位置xij(t 0)分佈於仰角θ及水平角φ所展開的二維空間中。
於步驟302中,聲源定位模組14可將多個粒子ptcij的多個粒子位置xij(t n )=(φi(t n ),θj(t n ))代入成本函數CF,以計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
於步驟304中,聲源定位模組14可根據多個成本值CF(φi(t n ),θj(t n ))選取全域最佳位置g(t n )。另外,針對特定粒子ptcij,聲源定位模組14可根據粒子ptcij的歷史位置(Historical Position)xij(t 0),...,xij(t n ),選取對應於粒子ptcij的個別最佳位置pij(t n )。其中,全域最佳位置g(t n )為多個粒子位置xij(t n )中具有/對應最大成本值CF(φi(t n ),θj(t n ))的位置,對應於粒子ptcij的個別最佳位置pij(t n )為歷史位置xij(t 0),...,xij(t n )中具有/對應最大成本值CF(φi(t),θj(t))的位置。
於步驟306中,聲源定位模組14可計算粒子速度vij(t n+1)為vij(t n+1)=w vij(t n+1)+r1c1(pij(t n )-xij(t n ))+r2c2(g(t n )-xij(t n )),其中w為慣性權重(Inertia
Weight),c1、c2為加速常數(Acceleration Constant),r1、r2為隨機變數,其可分佈於區間[0,1]的均勻隨機變數。另外,w vij(t n+1)即為慣性項(Inertia Term),(pij(t n )-xij(t n ))即為認知項(Cognition Term),(g(t n )-xij(t n ))即為社會項(Social Term)。
於步驟308中,聲源定位模組14可計算粒子位置xij(t n+1)為xij(t n+1)=xij(t n )+vij(t n+1)。
於步驟310中,聲源定位模組14判斷是否達成停止條件(Stopping Criterion),停止條件可為|xij(t n+1)-xij(t n )|<ε或迭代(Iteration)指標n達到一最大迭代次數N。當|xij(t n+1)-xij(t n )|<ε或n==N成立時,聲源定位模組14即判斷達成停止條件,聲源定位模組14可進入步驟310以根據多個更新位置xij(t n+1)取得一聲源位置S=(φS,θS);若否,聲源定位模組14再回到步驟302以進行下一次迭代(包括執行n=n+1)。
其中,對第n次迭代(對應於時間t n )來說,步驟302的粒子位置xij(t n )可視為粒子ptcij的當下位置(Current Position),步驟308的粒子位置xij(t n+1)可視為粒子ptcij的更新位置(Update Position)。
流程30適用於單一聲源的情境,然而,PSO演算法亦可應用於多聲源的情境。
請參考第7圖,第7圖為本發明實施例一流程40的示意圖。流程40類似於PSO演算法,其可應用於多聲源的情境。流程40包括以下步驟:
步驟400:取得多個粒子ptcij的多個初始粒子位置xij(t 0)。
步驟402:根據多個粒子ptcij的多個粒子位置xij(t n )以及成本函數CF,計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
步驟404:取得對應於多個粒子ptcij的多個區域最佳位置(Local Best)Lij(t n )以及多個個別最佳位置pij(t n )。
步驟406:根據多個粒子位置xij(t n )、多個區域最佳位置Lij(t n )以及個別最佳位置pij(t n ),計算對應於多個粒子位置xij(t n )的多個粒子速度vij(t n+1)。
步驟408:根據多個粒子位置xij(t n )以及多個粒子速度vij(t n+1),計算多個粒子位置xij(t n+1)。
步驟410:判斷是否達成停止條件。若是,執行步驟312;若否,執行步驟302。
步驟412:根據多個更新位置xij(t n+1)取得多個聲源位置S。
流程40與流程30類似,流程40與流程30不同之處在步驟404、406中,聲源定位模組14以區域最佳位置Lij(t n )取代步驟304、306的全域最佳位置g(t n ),進而進行粒子速度vij(t n+1)的計算。
於步驟404中,聲源定位模組14先形成以粒子ptcij或粒子位置xij(t n )為中心的一區域RGij,再從多個粒子位置xij(t n )中選取位於區域RGij中的多個區域粒子ptcij (RG),即對應於多個區域粒子ptcij (RG)的多個區域粒子位置xij (RG)位於RGij中。
於一實施例中,區域RGij為與粒子位置xij(t n )的距離小於一參數σ的粒子位置所形成的集合,廣義來說,區域RGij可表示為RGij={x=(φ,θ)|∥x-
xij(t n )∥σ},其中∥.∥泛指廣義的範數(Norm)運算子,∥x∥可代表∥x∥1、∥x∥2或∥x∥∞,範數∥x∥1、∥x∥2或∥x∥∞為本領域具通常知識者所知,於此不再贅述,其中,∥x∥2為歐幾里德範數,以歐幾里德範數所形成的區域RGij可表示為RGij={x=(φ,θ)|∥x-xij(t n )∥2 σ}為圓心為xij(t n )半徑為σ的圓形區域。
另外,區域半徑σ可視實際狀況或經驗法則而設定之。若二聲源過於靠近或區域半徑σ過大,會使所有粒子的區域最好位置指向能量較強的聲源,反而不利聲源分離。
聲源定位模組14可計算對應於多個區域粒子ptcij (RG)的多個區域成本值CF(RG)(φi(t n ),θj(t n ))(其中CF(RG)(φi(t n ),θj(t n ))=CF(φi(t n ),θj(t n )),xij (RG)=(φi(t n ),θj(t n ))RGij),並根據多個區域成本值CF(RG)(φi(t n ),θj(t n )),選取對應於粒子ptcij的區域最佳位置Lij(t n ),其中區域最佳位置Lij(t n )為多個區域粒子位置xij (RG)中具有/對應最大區域成本值CF(RG)(φi(t n ),θj(t n ))的位置。
於步驟406中,聲源定位模組14可計算粒子速度vij(t n+1)為vij(t n+1)=w vij(t n+1)+r1c1(pij(t n )-xij(t n ))+r2c2(Lij(t n )-xij(t n ))。
流程40的其餘步驟與流程30相同,於此不再贅述。
流程30、40皆是實現步驟208的實施例,其中流程30可應用於單一聲源的情境,流程30可應用於多聲源的情境。
現有技術中,利用MUSIC演算法進行聲源定位需經過窮舉搜索
(Exhaustive Search)而運算複雜度大,且聲源定位的精細度取決於麥克風陣列的麥克風個數M。相較之下,本發明利用PSO演算法進行聲源定位,而不需要額外增加過多的麥克風個數M,即可達到精準的聲源定位。另外,PSO演算法所需的運算複雜度低於MUSIC演算法所需的運算複雜度。
綜上所述,本發明利用PSO演算法進行聲源定位,其可達到較佳的精準度,且運算複雜度較低。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
20:流程
202~208:步驟
Claims (20)
- 一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括:該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個成本值及多個更新位置,並根據該多個更新位置取得至少一聲源位置。
- 如請求項1所述的聲源定位方法,其中根據該接收信號建立該成本函數的步驟包括:根據該接收信號,建立對應於一雜訊子空間的一投影矩陣;以及根據該投影矩陣,建立該成本函數。
- 如請求項2所述的聲源定位方法,其中根據該接收信號建立該投影矩陣的步驟包括:根據該接收信號,計算一相關矩陣;對該相關矩陣進行一特徵值分解(Eigenvalue Decomposition),以取得多個特徵值(Eigenvalue)以及多個特徵向量(Eigenvector);以及根據該多個特徵向量中多個第一特徵向量,建立該投影矩陣,其中該多個第一特徵向量對應於多個第一特徵值,該多個特徵向量中多個第二特徵向量對應於多個第二特徵值,該多個第一特徵值皆小於該多個第二特徵值。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);根據該全域最佳位置,計算對應於該多個粒子的多個粒子速度;以及根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該全域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);根據該第一區域最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值; 根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該第一區域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;根據該多個區域最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
- 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心; 根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;取得該多個粒子的經歷過的多個歷史位置以及該成本函數,取得對應於該多個粒子的多個個別最佳位置;根據該多個區域最佳位置以及該多個個別最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
- 一種聲音系統,包括:一麥克風陣列,包括多個麥克風,用來接收一接收信號;以及一聲源定位模組,用來執行以下步驟:根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個成本值及多個更新位置,並根據該多個更新位置取得至少一聲源位置。
- 如請求項10所述的聲音系統,其中根據該接收信號建立該成本函數的步驟包括:根據該接收信號,建立對應於一雜訊子空間的一投影矩陣;以及根據該投影矩陣,建立該成本函數。
- 如請求項11所述的聲音系統,其中根據該接收信號建立該投影矩陣的步驟包括:根據該接收信號,計算一相關矩陣;對該相關矩陣進行一特徵值分解(Eigenvalue Decomposition),以取得多個特徵值(Eigenvalue)以及多個特徵向量(Eigenvector);以及根據該多個特徵向量中多個第一特徵向量,建立該投影矩陣,其中該多個第一特徵向量對應於多個第一特徵值,該多個特徵向量中多個第二特徵向量對應於多個第二特徵值,該多個第一特徵值皆小於該多個第二特徵值。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);根據該全域最佳位置,計算對應於該多個粒子的多個粒子速度;以及根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best); 取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該全域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);根據該第一區域最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函 數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該第一區域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置; 根據該多個區域最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
- 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;取得該多個粒子的經歷過的多個歷史位置以及該成本函數,取得對應於該多個粒子的多個個別最佳位置;根據該多個區域最佳位置以及該多個個別最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
- 如請求項10所述的聲音系統,其中每一粒子對應於一水平角。
- 如請求項10所述的聲音系統,其中每一粒子對應於一水平角以及一仰角。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108136524A TWI714303B (zh) | 2019-10-09 | 2019-10-09 | 聲源定位方法及聲音系統 |
US16/709,933 US20210112336A1 (en) | 2019-10-09 | 2019-12-11 | Sound Source Localization and Sound System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108136524A TWI714303B (zh) | 2019-10-09 | 2019-10-09 | 聲源定位方法及聲音系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI714303B true TWI714303B (zh) | 2020-12-21 |
TW202115423A TW202115423A (zh) | 2021-04-16 |
Family
ID=74670052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108136524A TWI714303B (zh) | 2019-10-09 | 2019-10-09 | 聲源定位方法及聲音系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210112336A1 (zh) |
TW (1) | TWI714303B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140072142A1 (en) * | 2012-09-13 | 2014-03-13 | Honda Motor Co., Ltd. | Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program |
CN106501773A (zh) * | 2016-12-23 | 2017-03-15 | 上海语知义信息技术有限公司 | 基于差分阵列的声源方向定位方法 |
WO2018133056A1 (zh) * | 2017-01-22 | 2018-07-26 | 北京时代拓灵科技有限公司 | 一种声源定位的方法和装置 |
CN108549051A (zh) * | 2018-04-17 | 2018-09-18 | 哈尔滨工程大学 | 一种基于麦克风阵列的近场声源实时定位系统 |
CN108665891A (zh) * | 2017-03-28 | 2018-10-16 | 卡西欧计算机株式会社 | 声音检测装置、声音检测方法以及记录介质 |
-
2019
- 2019-10-09 TW TW108136524A patent/TWI714303B/zh active
- 2019-12-11 US US16/709,933 patent/US20210112336A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140072142A1 (en) * | 2012-09-13 | 2014-03-13 | Honda Motor Co., Ltd. | Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program |
CN106501773A (zh) * | 2016-12-23 | 2017-03-15 | 上海语知义信息技术有限公司 | 基于差分阵列的声源方向定位方法 |
WO2018133056A1 (zh) * | 2017-01-22 | 2018-07-26 | 北京时代拓灵科技有限公司 | 一种声源定位的方法和装置 |
CN108665891A (zh) * | 2017-03-28 | 2018-10-16 | 卡西欧计算机株式会社 | 声音检测装置、声音检测方法以及记录介质 |
CN108549051A (zh) * | 2018-04-17 | 2018-09-18 | 哈尔滨工程大学 | 一种基于麦克风阵列的近场声源实时定位系统 |
Also Published As
Publication number | Publication date |
---|---|
TW202115423A (zh) | 2021-04-16 |
US20210112336A1 (en) | 2021-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5705147B2 (ja) | 記述子を用いて3dオブジェクトまたはオブジェクトを表す方法 | |
US9984280B2 (en) | Object recognition system using left and right images and method | |
CN106501773B (zh) | 基于差分阵列的声源方向定位方法 | |
CN111123192B (zh) | 一种基于圆形阵列和虚拟扩展的二维doa定位方法 | |
Perotin et al. | Regression versus classification for neural network based audio source localization | |
CN112767456B (zh) | 一种三维激光点云快速重定位方法 | |
WO2022017131A1 (zh) | 点云数据的处理方法、智能行驶控制方法及装置 | |
CN107656240B (zh) | 一种基于信号非圆特性的分步秩损远近场参数估计算法 | |
Vincent et al. | Audio source localization by optimal control of a mobile robot | |
US20150023607A1 (en) | Gesture recognition method and apparatus based on analysis of multiple candidate boundaries | |
KR20190108711A (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
CN112711974A (zh) | 人脸辨识方法及装置 | |
Li et al. | Source bearing and steering-vector estimation using partially calibrated arrays | |
Zhang et al. | AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments | |
CN113314138B (zh) | 基于麦克风阵列的声源监听分离方法、装置及存储介质 | |
TWI714303B (zh) | 聲源定位方法及聲音系統 | |
Veerendra et al. | A planar-like sensor array for efficient direction-of-arrival estimation | |
CN114048681A (zh) | 基于自选择神经网络的doa估计方法、系统、存储介质、设备 | |
Zhu et al. | Broadband direction of arrival estimation based on convolutional neural network | |
CN106646347B (zh) | 基于小生境差分进化的多重信号分类谱峰搜索方法 | |
Ding et al. | Microphone array acoustic source localization system based on deep learning | |
CN115201753B (zh) | 一种低功耗多频谱分辨的语音定位方法 | |
Sasaki et al. | Online spatial sound perception using microphone array on mobile robot | |
Faye et al. | SVM-based DOA estimation with classification optimization | |
CN111060867A (zh) | 一种指向性麦克风微阵列波达方向估计方法 |