TWI714303B - 聲源定位方法及聲音系統 - Google Patents

聲源定位方法及聲音系統 Download PDF

Info

Publication number
TWI714303B
TWI714303B TW108136524A TW108136524A TWI714303B TW I714303 B TWI714303 B TW I714303B TW 108136524 A TW108136524 A TW 108136524A TW 108136524 A TW108136524 A TW 108136524A TW I714303 B TWI714303 B TW I714303B
Authority
TW
Taiwan
Prior art keywords
particles
positions
particle
cost function
region
Prior art date
Application number
TW108136524A
Other languages
English (en)
Other versions
TW202115423A (zh
Inventor
陳宥全
Original Assignee
宇智網通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宇智網通股份有限公司 filed Critical 宇智網通股份有限公司
Priority to TW108136524A priority Critical patent/TWI714303B/zh
Priority to US16/709,933 priority patent/US20210112336A1/en
Application granted granted Critical
Publication of TWI714303B publication Critical patent/TWI714303B/zh
Publication of TW202115423A publication Critical patent/TW202115423A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/02Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
    • G01S3/74Multi-channel systems specially adapted for direction-finding, i.e. having a single antenna system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。

Description

聲源定位方法及聲音系統
本發明係指一種聲源定位方法及聲音系統,尤指一種低運算複雜度且精準定位的聲源定位方法及聲音系統。
空間中的聲源定位(Sound Source Localization)是聲音訊號處理領域中一項重要的技術,在聲源分離或是降低環境噪音干擾的操作中,目標或是干擾聲源的位置資訊對提升分離或降噪效能上有很大的幫助。此外,在語音處理相關應用中,聲源的位置也是整體系統中的一項重要資訊,例如在視訊會議中確認發言者的位置,或是智慧型機器人辨別交談者的方位等。一般較為準確的聲源定位均需麥克風陣列,藉由若干麥克風按照一定的方式佈置在空間不同位置上組成的陣列。麥克風陣列因為其空間選擇性,可以在一定範圍內實現聲源的定位。
多重訊號分類(Multiple Signal Classification,MUSIC)演算法是常用的聲源定位方法。然而,MUSIC演算法的運算複雜度高,且無法聲源定位得很精細。
因此,習知技術實有改善之必要。
因此,本發明之主要目的即在於提供一種低運算複雜度且精準定位的聲源定位方法及聲音系統,以改善習知技術的缺點。
本發明實施例揭露一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
本發明實施例另揭露一種聲音系統,包括一麥克風陣列,包括多個麥克風,用來接收一接收信號;一聲源定位模組,用來執行以下步驟:根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
10:聲音系統
12:麥克風陣列
14:聲源定位模組
20、30、40:流程
202~208、300~312、400~412:步驟
ULA:均勻線性陣列
UCA:均勻環形陣列
θ、θS:仰角
φ、φS:水平角
第1圖為本發明實施例一聲音系統之示意圖。
第2圖為本發明實施例一聲源定位流程之示意圖。
第3圖為一均勻線性陣列的示意圖。
第4圖為一均勻環形陣列的示意圖。
第5圖為本發明實施例一流程的示意圖。
第6圖為一二維空間的示意圖。
第7圖為本發明實施例一流程的示意圖。
第1圖為本發明實施例一聲音系統10之示意圖。聲音系統10包括一麥克風陣列12以及一聲源定位模組14。麥克風陣列12包括多個麥克風120_1~120_M,其可排列成一環型陣列(Circular Array)或是一線性陣列(Linear),且不限於此。於一實施例中,聲源定位模組14可利用特殊應用積體電路(Application-specific integrated circuit)來實現。於一實施例中,聲源定位模組14可包括處理器以及儲存單元,儲存單元可用來儲存一程式碼,該程式碼用來指示處理器執行關於聲源定位的運算,其中,處理器可為處理單元(Processing Unit)、應用處理器(Application Processor)或是數位信號處理器(Digital Signal Processor),處理單元可為中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphics Processing Unit,GPU)甚至張量處理單元(Tensor Processing Unit,TPU),而不在此限。儲存單元可為一記憶體,其可為一非揮發性記憶體(Non-Volatile Memory,例如,一電子抹除式可複寫唯讀記憶體(Electrically Erasable Programmable Read Only Memory,EEPROM)或一快閃記憶體(Flash Memory)),而不在此限。
與現有技術不同的是,聲源定位模組14可根據麥克風陣列12所接收的接收信號,利用一粒子群最佳化(Particle Swarm Optimization,PSO)演算法,定位出聲源的位置。
第2圖為本發明實施例一聲源定位流程20之示意圖。聲源定位流程20 可由聲音系統10來執行,如第2圖所示,聲源定位流程20包括以下步驟:
步驟202:麥克風陣列接收一接收信號。
步驟204:根據該接收信號,建立一成本函數。
步驟206:形成多個粒子。
步驟208:根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個更新位置,並根據該多個更新位置取得至少一聲源位置。
於步驟202中,麥克風陣列12接收一接收信號r,其中接收信號r可以向量表示法表示為r=[r1,...rM] T ,rm代表麥克風120_m所接收到的信號。
於步驟204中,聲源定位模組14根據接收信號r,建立一成本函數CF。成本函數CF可代表或反映出所計算出聲源位置的可靠度,成本函數CF與所計算出聲源位置的可靠度之間可具有單調遞增關係或單調遞減關係。以成本函數CF與聲源位置可靠度之間為單調遞增,成本函數CF所對應出的成本值越高,代表所計算出聲源位置的可靠度越高。
建立成本函數CF的方式並未有所限,於一實施例中,可利用MUSIC演算法中作為判斷依據的函數(記為SMUSIC)作為步驟204的成本函數CF。
詳細來說,聲源定位模組14可根據接收信號r,計算對應於接收信號r的一相關矩陣R rrR rr=E[r.r H ],其中E[.]為取平均值運算,其可為統計上的總體平均值(Ensemble Average)或是時間平均值(Time Average)。
聲源定位模組14取得相關矩陣R rr之後,聲源定位模組14可對相關矩 陣R rr進行一特徵值分解(Eigenvalue Decomposition),以取得對應於相關矩陣R rr的多個特徵值(Eigenvalue)λ1,...,λM以及多個特徵向量(Eigenvector)v 1,...,v M,其中λ1
Figure 108136524-A0305-02-0007-10
...
Figure 108136524-A0305-02-0007-11
λM且特徵向量v 1,...,v M分別對應於特徵值λ1,...,λM
聲源定位模組14取得特徵向量v 1,...,v M之後,聲源定位模組14可建立對應於一雜訊子空間(Noise Subspace)的一投影矩陣P N
Figure 108136524-A0305-02-0007-9
,其中D為聲源個數,M為麥克風陣列中的麥克風個數。
另外,根據麥克風陣列12的陣型,聲源定位模組14可取得對應於麥克風陣列12的陣列流形向量(Array Manifold Vector)a。舉例來說,若麥克風陣列12為一均勻線性陣列(Uniform Linear Array,ULA,如第3圖所示),陣列流形向量a可表示為a(θ)=[1 e j.kc.d.sinθ...e j.kc.(M-1).d.sinθ] T ;若麥克風陣列12為一均勻環形陣列(Uniform Circular Array,UCA,如第4圖所示),陣列流形向量a可表示為a(θ,φ)=[e j.kc.R.sinθcosφ e j.kc.R.sinθcos(φ-2π/M)...e j.kc.R sinθcos(φ-2π(M-1)/M)] T ,其中d代表均勻線性陣列的間距,R代表均勻環形陣列的半徑,θ代表仰角(Elevation Angle)或垂直面的角度,φ代表水平角(Azimuth Angle)或水平面的角度,kc代表波數(Wave number)而可表示為kc=2πf/c,c代表光速。需注意的是,以上僅以ULA或UCA為例說明陣列流形向量a,事實上,麥克風陣列12的陣型不限於ULA或UCA,可視實際狀況設計適用的陣型,進而取得相應的陣列流形向量a
聲源定位模組14取得陣列流形向量a之後,聲源定位模組14可根據投影矩陣P N以及陣列流形向量a,取得成本函數CF或函數SMUSIC為CF(θ,φ)=SMUSIC(θ,φ)=1/(a H (θ,φ).P Na(θ,φ))。其中,由於信號子空間與雜訊子空間相互 正交,因此,當(θSSSS)代表/對應一聲源位置SS時,a H SSSS).P NaSSSS)=0且CF(θSSSS)=SMUSICSSSS)應趨近於無限大。
於步驟206中,聲源定位模組14形成多個粒子ptcij,其中多個粒子ptcij為多個虛擬粒子。於一實施例中,聲源定位模組14於仰角θ及水平角φ所展開的二維空間形成多個虛擬粒子ptcij,每個虛擬粒子ptcij的一粒子位置xij對應於一水平角φi以及一仰角θj,為了方便說明,粒子ptcij的粒子位置xij可表示為xij=(φij)。
於步驟208中,聲源定位模組14根據多個粒子ptcij的多個當下位置xij(t n )以及成本函數CF,計算多個粒子ptcij的多個更新位置xij(t n+1),並根據多個更新位置xij(t n+1)取得至少一聲源位置。
關於步驟208的操作細節,請參考第5圖,第5圖為本發明實施例一流程30的示意圖。流程30為一PSO演算法,PSO演算法為本領域具通常知識者所知,故簡述如下。流程30包括以下步驟:
步驟300:取得多個粒子ptcij的多個初始粒子位置xij(t 0)。
步驟302:根據多個粒子ptcij的多個粒子位置xij(t n )以及成本函數CF,計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
步驟304:取得一全域最佳位置(Global Best)g(t n )以及對應於多個粒子ptcij的多個個別最佳位置(Personal Best)pij(t n )。
步驟306:根據多個粒子位置xij(t n )、全域最佳位置g(t n )以及個別最佳位置pij(t n ),計算對應於多個粒子位置xij(t n )的多個粒子速度vij(t n+1)。
步驟308:根據多個粒子位置xij(t n )以及多個粒子速度vij(t n+1),計算多個粒子位置xij(t n+1)。
步驟310:判斷是否達成停止條件。若是,執行步驟312;若否,執行步驟302。
步驟312:根據多個更新位置xij(t n+1)取得一聲源位置S=(φSS)。
於步驟300中,聲源定位模組14可將多個初始粒子位置xij(t 0)分佈於仰角θ及水平角φ所展開的二維空間中。於一實施例中,聲源定位模組14可將多個初始粒子位置xij(t 0)均勻分佈於仰角θ及水平角φ所展開的二維空間中(如第6圖所示),而不限於此。舉例來說,若聲源定位模組14在執行流程30之前事先獲得聲源位置的(歷史)資訊,聲源定位模組14可依照該資訊將多個初始粒子位置xij(t 0)分佈於仰角θ及水平角φ所展開的二維空間中。
於步驟302中,聲源定位模組14可將多個粒子ptcij的多個粒子位置xij(t n )=(φi(t n ),θj(t n ))代入成本函數CF,以計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
於步驟304中,聲源定位模組14可根據多個成本值CF(φi(t n ),θj(t n ))選取全域最佳位置g(t n )。另外,針對特定粒子ptcij,聲源定位模組14可根據粒子ptcij的歷史位置(Historical Position)xij(t 0),...,xij(t n ),選取對應於粒子ptcij的個別最佳位置pij(t n )。其中,全域最佳位置g(t n )為多個粒子位置xij(t n )中具有/對應最大成本值CF(φi(t n ),θj(t n ))的位置,對應於粒子ptcij的個別最佳位置pij(t n )為歷史位置xij(t 0),...,xij(t n )中具有/對應最大成本值CF(φi(t),θj(t))的位置。
於步驟306中,聲源定位模組14可計算粒子速度vij(t n+1)為vij(t n+1)=w vij(t n+1)+r1c1(pij(t n )-xij(t n ))+r2c2(g(t n )-xij(t n )),其中w為慣性權重(Inertia Weight),c1、c2為加速常數(Acceleration Constant),r1、r2為隨機變數,其可分佈於區間[0,1]的均勻隨機變數。另外,w vij(t n+1)即為慣性項(Inertia Term),(pij(t n )-xij(t n ))即為認知項(Cognition Term),(g(t n )-xij(t n ))即為社會項(Social Term)。
於步驟308中,聲源定位模組14可計算粒子位置xij(t n+1)為xij(t n+1)=xij(t n )+vij(t n+1)。
於步驟310中,聲源定位模組14判斷是否達成停止條件(Stopping Criterion),停止條件可為|xij(t n+1)-xij(t n )|<ε或迭代(Iteration)指標n達到一最大迭代次數N。當|xij(t n+1)-xij(t n )|<ε或n==N成立時,聲源定位模組14即判斷達成停止條件,聲源定位模組14可進入步驟310以根據多個更新位置xij(t n+1)取得一聲源位置S=(φSS);若否,聲源定位模組14再回到步驟302以進行下一次迭代(包括執行n=n+1)。
其中,對第n次迭代(對應於時間t n )來說,步驟302的粒子位置xij(t n )可視為粒子ptcij的當下位置(Current Position),步驟308的粒子位置xij(t n+1)可視為粒子ptcij的更新位置(Update Position)。
流程30適用於單一聲源的情境,然而,PSO演算法亦可應用於多聲源的情境。
請參考第7圖,第7圖為本發明實施例一流程40的示意圖。流程40類似於PSO演算法,其可應用於多聲源的情境。流程40包括以下步驟:
步驟400:取得多個粒子ptcij的多個初始粒子位置xij(t 0)。
步驟402:根據多個粒子ptcij的多個粒子位置xij(t n )以及成本函數CF,計算對應於多個粒子ptcij的多個成本值CF(φi(t n ),θj(t n ))。
步驟404:取得對應於多個粒子ptcij的多個區域最佳位置(Local Best)Lij(t n )以及多個個別最佳位置pij(t n )。
步驟406:根據多個粒子位置xij(t n )、多個區域最佳位置Lij(t n )以及個別最佳位置pij(t n ),計算對應於多個粒子位置xij(t n )的多個粒子速度vij(t n+1)。
步驟408:根據多個粒子位置xij(t n )以及多個粒子速度vij(t n+1),計算多個粒子位置xij(t n+1)。
步驟410:判斷是否達成停止條件。若是,執行步驟312;若否,執行步驟302。
步驟412:根據多個更新位置xij(t n+1)取得多個聲源位置S。
流程40與流程30類似,流程40與流程30不同之處在步驟404、406中,聲源定位模組14以區域最佳位置Lij(t n )取代步驟304、306的全域最佳位置g(t n ),進而進行粒子速度vij(t n+1)的計算。
於步驟404中,聲源定位模組14先形成以粒子ptcij或粒子位置xij(t n )為中心的一區域RGij,再從多個粒子位置xij(t n )中選取位於區域RGij中的多個區域粒子ptcij (RG),即對應於多個區域粒子ptcij (RG)的多個區域粒子位置xij (RG)位於RGij中。
於一實施例中,區域RGij為與粒子位置xij(t n )的距離小於一參數σ的粒子位置所形成的集合,廣義來說,區域RGij可表示為RGij={x=(φ,θ)|∥x- xij(t n )∥
Figure 108136524-A0305-02-0012-12
σ},其中∥.∥泛指廣義的範數(Norm)運算子,∥x∥可代表∥x∥1、∥x∥2或∥x∥,範數∥x∥1、∥x∥2或∥x∥為本領域具通常知識者所知,於此不再贅述,其中,∥x∥2為歐幾里德範數,以歐幾里德範數所形成的區域RGij可表示為RGij={x=(φ,θ)|∥x-xij(t n )∥2
Figure 108136524-A0305-02-0012-13
σ}為圓心為xij(t n )半徑為σ的圓形區域。
另外,區域半徑σ可視實際狀況或經驗法則而設定之。若二聲源過於靠近或區域半徑σ過大,會使所有粒子的區域最好位置指向能量較強的聲源,反而不利聲源分離。
聲源定位模組14可計算對應於多個區域粒子ptcij (RG)的多個區域成本值CF(RG)i(t n ),θj(t n ))(其中CF(RG)i(t n ),θj(t n ))=CF(φi(t n ),θj(t n )),xij (RG)=(φi(t n ),θj(t n ))
Figure 108136524-A0305-02-0012-14
RGij),並根據多個區域成本值CF(RG)i(t n ),θj(t n )),選取對應於粒子ptcij的區域最佳位置Lij(t n ),其中區域最佳位置Lij(t n )為多個區域粒子位置xij (RG)中具有/對應最大區域成本值CF(RG)i(t n ),θj(t n ))的位置。
於步驟406中,聲源定位模組14可計算粒子速度vij(t n+1)為vij(t n+1)=w vij(t n+1)+r1c1(pij(t n )-xij(t n ))+r2c2(Lij(t n )-xij(t n ))。
流程40的其餘步驟與流程30相同,於此不再贅述。
流程30、40皆是實現步驟208的實施例,其中流程30可應用於單一聲源的情境,流程30可應用於多聲源的情境。
現有技術中,利用MUSIC演算法進行聲源定位需經過窮舉搜索 (Exhaustive Search)而運算複雜度大,且聲源定位的精細度取決於麥克風陣列的麥克風個數M。相較之下,本發明利用PSO演算法進行聲源定位,而不需要額外增加過多的麥克風個數M,即可達到精準的聲源定位。另外,PSO演算法所需的運算複雜度低於MUSIC演算法所需的運算複雜度。
綜上所述,本發明利用PSO演算法進行聲源定位,其可達到較佳的精準度,且運算複雜度較低。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
20:流程
202~208:步驟

Claims (20)

  1. 一種聲源定位方法,應用於一聲音系統,該聲音系統包括一麥克風陣列,該方法包括:該麥克風陣列接收一接收信號;根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個成本值及多個更新位置,並根據該多個更新位置取得至少一聲源位置。
  2. 如請求項1所述的聲源定位方法,其中根據該接收信號建立該成本函數的步驟包括:根據該接收信號,建立對應於一雜訊子空間的一投影矩陣;以及根據該投影矩陣,建立該成本函數。
  3. 如請求項2所述的聲源定位方法,其中根據該接收信號建立該投影矩陣的步驟包括:根據該接收信號,計算一相關矩陣;對該相關矩陣進行一特徵值分解(Eigenvalue Decomposition),以取得多個特徵值(Eigenvalue)以及多個特徵向量(Eigenvector);以及根據該多個特徵向量中多個第一特徵向量,建立該投影矩陣,其中該多個第一特徵向量對應於多個第一特徵值,該多個特徵向量中多個第二特徵向量對應於多個第二特徵值,該多個第一特徵值皆小於該多個第二特徵值。
  4. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);根據該全域最佳位置,計算對應於該多個粒子的多個粒子速度;以及根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置。
  5. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該全域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  6. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);根據該第一區域最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  7. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值; 根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該第一區域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  8. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;根據該多個區域最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
  9. 如請求項1所述的聲源定位方法,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心; 根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;取得該多個粒子的經歷過的多個歷史位置以及該成本函數,取得對應於該多個粒子的多個個別最佳位置;根據該多個區域最佳位置以及該多個個別最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
  10. 一種聲音系統,包括:一麥克風陣列,包括多個麥克風,用來接收一接收信號;以及一聲源定位模組,用來執行以下步驟:根據該接收信號,建立一成本函數;形成多個粒子,其中該多個粒子為多個虛擬粒子;以及根據該多個粒子的多個當下位置以及該成本函數,計算該多個粒子的多個成本值及多個更新位置,並根據該多個更新位置取得至少一聲源位置。
  11. 如請求項10所述的聲音系統,其中根據該接收信號建立該成本函數的步驟包括:根據該接收信號,建立對應於一雜訊子空間的一投影矩陣;以及根據該投影矩陣,建立該成本函數。
  12. 如請求項11所述的聲音系統,其中根據該接收信號建立該投影矩陣的步驟包括:根據該接收信號,計算一相關矩陣;對該相關矩陣進行一特徵值分解(Eigenvalue Decomposition),以取得多個特徵值(Eigenvalue)以及多個特徵向量(Eigenvector);以及根據該多個特徵向量中多個第一特徵向量,建立該投影矩陣,其中該多個第一特徵向量對應於多個第一特徵值,該多個特徵向量中多個第二特徵向量對應於多個第二特徵值,該多個第一特徵值皆小於該多個第二特徵值。
  13. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best);根據該全域最佳位置,計算對應於該多個粒子的多個粒子速度;以及根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置。
  14. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:根據該多個粒子的該多個當下位置以及該成本函數,計算對應於該多個粒子的該多個成本值;根據該多個成本值,取得一全域最佳位置(Global Best); 取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該全域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  15. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);根據該第一區域最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  16. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函 數計算該多個粒子的該多個更新位置的步驟包括:自該多個粒子中取得位於一第一區域內的多個第一區域粒子,其中該第一區域係以該多個粒子中一第一粒子為中心;根據該多個第一區域粒子的多個第一區域當下位置以及該成本函數,計算對應於該多個第一區域粒子的多個第一區域成本值;根據該多個第一區域成本值,取得對應於該第一粒子的一第一區域最佳位置(Local Best);取得該多個粒子中一第一粒子經歷過的多個第一歷史位置;根據該多個第一歷史位置以及該成本函數,計算對應於該多個第一歷史位置的多個第一歷史成本值;根據該多個第一歷史成本值,取得對應於該第一粒子的一第一個別最佳位置(Personal Best);根據該第一區域最佳位置以及該第一個別最佳位置,計算對應於該第一粒子的一第一粒子速度;以及根據對應於該第一粒子的一第一當下位置以及該第一粒子速度,計算對應於該第一粒子的一第一更新位置。
  17. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置; 根據該多個區域最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
  18. 如請求項10所述的聲音系統,其中根據該多個當下位置及該成本函數計算該多個粒子的該多個更新位置並根據該多個更新位置取得該至少一聲源位置的步驟包括:取得對應於該多個粒子的多個區域,其中該多個區域分別以該多個粒子為中心;根據該多個區域以及該成本函數,取得對應於該多個粒子的多個區域最佳位置;取得該多個粒子的經歷過的多個歷史位置以及該成本函數,取得對應於該多個粒子的多個個別最佳位置;根據該多個區域最佳位置以及該多個個別最佳位置,計算對應於該多個粒子的多個粒子速度;根據該多個當下位置以及該多個粒子速度,計算該多個粒子的該多個更新位置;以及根據該多個更新位置,取得多個聲源位置。
  19. 如請求項10所述的聲音系統,其中每一粒子對應於一水平角。
  20. 如請求項10所述的聲音系統,其中每一粒子對應於一水平角以及一仰角。
TW108136524A 2019-10-09 2019-10-09 聲源定位方法及聲音系統 TWI714303B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW108136524A TWI714303B (zh) 2019-10-09 2019-10-09 聲源定位方法及聲音系統
US16/709,933 US20210112336A1 (en) 2019-10-09 2019-12-11 Sound Source Localization and Sound System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW108136524A TWI714303B (zh) 2019-10-09 2019-10-09 聲源定位方法及聲音系統

Publications (2)

Publication Number Publication Date
TWI714303B true TWI714303B (zh) 2020-12-21
TW202115423A TW202115423A (zh) 2021-04-16

Family

ID=74670052

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108136524A TWI714303B (zh) 2019-10-09 2019-10-09 聲源定位方法及聲音系統

Country Status (2)

Country Link
US (1) US20210112336A1 (zh)
TW (1) TWI714303B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072142A1 (en) * 2012-09-13 2014-03-13 Honda Motor Co., Ltd. Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program
CN106501773A (zh) * 2016-12-23 2017-03-15 上海语知义信息技术有限公司 基于差分阵列的声源方向定位方法
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
CN108549051A (zh) * 2018-04-17 2018-09-18 哈尔滨工程大学 一种基于麦克风阵列的近场声源实时定位系统
CN108665891A (zh) * 2017-03-28 2018-10-16 卡西欧计算机株式会社 声音检测装置、声音检测方法以及记录介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072142A1 (en) * 2012-09-13 2014-03-13 Honda Motor Co., Ltd. Sound direction estimation device, sound processing system, sound direction estimation method, and sound direction estimation program
CN106501773A (zh) * 2016-12-23 2017-03-15 上海语知义信息技术有限公司 基于差分阵列的声源方向定位方法
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
CN108665891A (zh) * 2017-03-28 2018-10-16 卡西欧计算机株式会社 声音检测装置、声音检测方法以及记录介质
CN108549051A (zh) * 2018-04-17 2018-09-18 哈尔滨工程大学 一种基于麦克风阵列的近场声源实时定位系统

Also Published As

Publication number Publication date
TW202115423A (zh) 2021-04-16
US20210112336A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
JP5705147B2 (ja) 記述子を用いて3dオブジェクトまたはオブジェクトを表す方法
US9984280B2 (en) Object recognition system using left and right images and method
CN106501773B (zh) 基于差分阵列的声源方向定位方法
CN111123192B (zh) 一种基于圆形阵列和虚拟扩展的二维doa定位方法
Perotin et al. Regression versus classification for neural network based audio source localization
CN112767456B (zh) 一种三维激光点云快速重定位方法
WO2022017131A1 (zh) 点云数据的处理方法、智能行驶控制方法及装置
CN107656240B (zh) 一种基于信号非圆特性的分步秩损远近场参数估计算法
Vincent et al. Audio source localization by optimal control of a mobile robot
US20150023607A1 (en) Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
KR20190108711A (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
CN112711974A (zh) 人脸辨识方法及装置
Li et al. Source bearing and steering-vector estimation using partially calibrated arrays
Zhang et al. AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments
CN113314138B (zh) 基于麦克风阵列的声源监听分离方法、装置及存储介质
TWI714303B (zh) 聲源定位方法及聲音系統
Veerendra et al. A planar-like sensor array for efficient direction-of-arrival estimation
CN114048681A (zh) 基于自选择神经网络的doa估计方法、系统、存储介质、设备
Zhu et al. Broadband direction of arrival estimation based on convolutional neural network
CN106646347B (zh) 基于小生境差分进化的多重信号分类谱峰搜索方法
Ding et al. Microphone array acoustic source localization system based on deep learning
CN115201753B (zh) 一种低功耗多频谱分辨的语音定位方法
Sasaki et al. Online spatial sound perception using microphone array on mobile robot
Faye et al. SVM-based DOA estimation with classification optimization
CN111060867A (zh) 一种指向性麦克风微阵列波达方向估计方法