JPWO2008143142A1 - Sound source localization apparatus, sound source localization method, and program - Google Patents
Sound source localization apparatus, sound source localization method, and program Download PDFInfo
- Publication number
- JPWO2008143142A1 JPWO2008143142A1 JP2009515195A JP2009515195A JPWO2008143142A1 JP WO2008143142 A1 JPWO2008143142 A1 JP WO2008143142A1 JP 2009515195 A JP2009515195 A JP 2009515195A JP 2009515195 A JP2009515195 A JP 2009515195A JP WO2008143142 A1 JPWO2008143142 A1 JP WO2008143142A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- channel
- sound source
- frequency component
- fourier transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
単チャネル方向検出部(13)は、チャネルを切り替えながらチャネルに対応する一組の音源データ(E12)からチャネル毎の方向データを作成し、チャネル別方向データ(E13)としてFFT部(14)に出力する。FFT部(14)は、チャネル別方向データ(E13)を連結して時系列の方向データとみなしたものをフーリエ変換して方向データ周波数成分(E14)を求める。フィルタ部(15)は、方向データ周波数成分(E14)のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済方向データ周波数成分(E15)として出力する。IFFT部(16)は、フィルタ済方向データ周波数成分(E15)を逆フーリエ変換してフィルタ済方向データ(E16)を求める。音源定位部(17)は、フィルタ済方向データ(E16)から音源の方向を求める。The single channel direction detection unit (13) creates direction data for each channel from a set of sound source data (E12) corresponding to the channel while switching the channel, and sends it to the FFT unit (14) as direction data (E13) for each channel. Output. The FFT unit (14) obtains a direction data frequency component (E14) by Fourier transforming the channel-specific direction data (E13) and considering it as time-series direction data. A filter part (15) outputs what suppressed the frequency component of the even-order harmonic among the direction data frequency component (E14) as a filtered direction data frequency component (E15). The IFFT unit (16) obtains filtered direction data (E16) by performing an inverse Fourier transform on the filtered direction data frequency component (E15). The sound source localization unit (17) obtains the direction of the sound source from the filtered direction data (E16).
Description
本発明は、音源定位装置、音源定位方法、及び、プログラムに関する。 The present invention relates to a sound source localization device, a sound source localization method, and a program.
精度の高い音源定位を実現する方法として、ビームフォーミング技術が知られている。音源定位とは、複数のマイクロフォンを使用し、それぞれに入力される音源データの位相差や強度差から音源の方向を特定することをいう。また、ビームフォーミング技術とは、多チャンネルの音源データ情報を統合し、精度の高い音源定位を実現する技術をいう。ビームフォーミング技術としては、適応型ビームフォーミング技術と遅延和型ビームフォーミング技術とが知られている。 Beam forming technology is known as a method for realizing highly accurate sound source localization. The sound source localization refers to specifying a sound source direction from a phase difference or intensity difference of sound source data input to each using a plurality of microphones. The beam forming technique refers to a technique that integrates multi-channel sound source data information to realize highly accurate sound source localization. As the beam forming technique, an adaptive beam forming technique and a delay sum type beam forming technique are known.
適応型ビームフォーミング技術は、複数のマイクロフォンで音源データを測定し、目的方向以外の音源データを減衰させて音源の方向を推定する技術である。適応型ビームフォーミング技術は、例えば、非特許文献1に記載されている。
The adaptive beamforming technique is a technique for measuring sound source data with a plurality of microphones and attenuating sound source data other than the target direction to estimate the direction of the sound source. The adaptive beam forming technique is described in
遅延和型ビームフォーミング技術は、複数のマイクロフォンで音源データを測定し、目的方向の音源データを強調させて音源の方向を推定する技術である。遅延和型ビームフォーミング技術は、例えば、特許文献1に記載されている。
上述した適応型ビームフォーミング技術を用いた場合、(マイクロフォン数−1)の分しか目的方向以外の音源データを減衰することができない。このため、音波の反射やノイズの影響による目的方向以外の音源データが多い場合、これら音波の反射やノイズによる影響を抑えることができない。 When the above-described adaptive beamforming technique is used, sound source data other than the target direction can be attenuated by the number of (microphones−1). For this reason, when there is a lot of sound source data other than the target direction due to the reflection of sound waves and noise, the effects of reflection and noise of these sound waves cannot be suppressed.
また、遅延和型ビームフォーミング技術を用いた場合であっても、音波の反射やノイズによる影響を完全に抑えることはできない。 Even when the delay-and-sum beamforming technique is used, the influence of sound wave reflection and noise cannot be completely suppressed.
本発明は、反射やノイズの影響を抑制し、精度の高い音源定位を行うことのできる音源定位装置、音源定位方法、及び、プログラムを提供することを目的とする。 It is an object of the present invention to provide a sound source localization device, a sound source localization method, and a program that can perform the sound source localization with high accuracy while suppressing the influence of reflection and noise.
上記目的を達成するために、本発明の第1の観点に係る音源定位装置は、
少なくとも3つ以上のマイクロフォン素子から構成されるマイクロフォンアレイと、
前記マイクロフォンアレイからマイクロフォン素子毎の音声データを入力し、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、チャネルに対応する2つのマイクロフォンの位置を基準とした音源の方向を示す方向データを求める方向検出手段と、
前記方向検出手段からチャネル毎の方向データを入力し、入力したチャネル毎の方向データを連結し、時系列データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換手段と、
前記フーリエ変換手段が求めた周波数成分を入力し、入力した周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として出力するフィルタ手段と、
前記フィルタ手段からフィルタ済周波数成分を入力し、フィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換手段と、
前記逆フーリエ変換手段が求めたフィルタ済データから音源の方向を求める音源定位手段と、を備えることを特徴とする。In order to achieve the above object, a sound source localization apparatus according to the first aspect of the present invention includes:
A microphone array composed of at least three or more microphone elements;
Voice data for each microphone element is input from the microphone array, and for each channel corresponding to a combination of two microphones having a predetermined positional relationship, the direction of the sound source is shown with reference to the positions of the two microphones corresponding to the channel. Direction detection means for obtaining direction data;
The direction data for each channel is input from the direction detection means, the input direction data for each channel is concatenated, and the frequency component of the waveform represented by the concatenated direction data is obtained by Fourier transforming the data regarded as time series data. Fourier transform means;
Filter means for inputting the frequency component obtained by the Fourier transform means, and outputting as a filtered frequency component a frequency component of the even-order harmonics suppressed among the inputted frequency components;
An inverse Fourier transform unit that inputs a filtered frequency component from the filter unit, and obtains filtered data by performing an inverse Fourier transform on the filtered frequency component;
Sound source localization means for obtaining the direction of the sound source from the filtered data obtained by the inverse Fourier transform means.
前記チャネルは隣接する2つのマイクロフォンの組み合わせに対応してもよい。 The channel may correspond to a combination of two adjacent microphones.
前記フィルタ手段は、
前記フーリエ変換手段が求めた周波数成分を入力し、入力した周波数成分のうち偶数次高調波の周波数成分を抑圧し、さらに奇数次高調波の周波数成分を減衰したものをフィルタ済周波数成分として出力してもよい。The filter means includes
The frequency component obtained by the Fourier transform means is input, the frequency component of the even-order harmonic is suppressed among the input frequency components, and the frequency component of the odd-order harmonic is further attenuated and output as the filtered frequency component. May be.
前記方向検出手段は、
チャネルを選択するためのチャネル選択信号を出力し、チャネル選択信号に対応するチャネルの音声データを入力し、チャネル毎に方向データを求める単チャネル方向検出手段と、
前記マイクロフォンアレイからマイクロフォン素子毎の音声データを入力し、前記単チャネル方向検出手段から入力した選択信号により指示されたチャネルに対応する音声データを出力するチャネル切替手段と、をさらに備えてもよい。The direction detecting means includes
A single channel direction detection means for outputting a channel selection signal for selecting a channel, inputting voice data of a channel corresponding to the channel selection signal, and obtaining direction data for each channel;
Channel switching means for inputting voice data for each microphone element from the microphone array and outputting voice data corresponding to the channel indicated by the selection signal input from the single channel direction detecting means may be further provided.
前記マイクロフォンアレイは、無指向性のマイクロフォン素子から構成されていてもよい。 The microphone array may be composed of omnidirectional microphone elements.
上記目的を達成するために、本発明の第2の観点に係る音源定位方法は、
少なくとも3つ以上のマイクロフォン素子から構成されるマイクロフォンアレイからマイクロフォン素子毎の音声データを入力し、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、チャネルに対応する2つのマイクロフォンの位置を基準とした音源の方向を示す方向データを求める方向検出ステップと、
前記方向検出ステップにより求められたチャネル毎の方向データを連結し、時系列の方向データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換ステップと、
前記フーリエ変換ステップにより求められた周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として出力するフィルタステップと、
前記フィルタステップにより出力されたフィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換ステップと、
前記逆フーリエ変換ステップにより求められたフィルタ済データから音源の方向を求める音源定位ステップと、を備えることを特徴とする。In order to achieve the above object, a sound source localization method according to the second aspect of the present invention includes:
Audio data for each microphone element is input from a microphone array composed of at least three or more microphone elements, and for each channel corresponding to a combination of two microphones in a predetermined positional relationship, two microphones corresponding to the channel A direction detecting step for obtaining direction data indicating the direction of the sound source relative to the position;
A Fourier transform step for obtaining frequency components of a waveform represented by the direction data represented by concatenating the direction data for each channel obtained by the direction detection step and performing Fourier transform on what is regarded as time-series direction data;
A filter step of outputting a frequency component obtained by suppressing the frequency component of the even-order harmonics among the frequency components obtained by the Fourier transform step as a filtered frequency component;
An inverse Fourier transform step for obtaining a filtered data by performing an inverse Fourier transform on the filtered frequency component output by the filter step;
A sound source localization step for obtaining the direction of the sound source from the filtered data obtained by the inverse Fourier transform step.
上記目的を達成するために、本発明の第3の観点に係るプログラムは、
コンピュータを、
少なくとも3つ以上のマイクロフォン素子から構成されるマイクロフォンアレイから入力したマイクロフォン素子毎の音声データに基づいて、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、チャネルに対応する2つのマイクロフォンの位置を基準とした音源の方向を示す方向データを求める方向検出手段、
前記方向検出手段が求めたチャネル毎の方向データを連結し、時系列データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換手段、
前記フーリエ変換手段が求めた周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として求めるフィルタ手段、
前記フィルタ手段が求めたフィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換手段、
前記逆フーリエ変換手段が求めたフィルタ済データから音源の方向を求める音源定位手段として機能させることを特徴とする。In order to achieve the above object, a program according to the third aspect of the present invention provides:
Computer
Two channels corresponding to each channel corresponding to a combination of two microphones in a predetermined positional relationship based on audio data for each microphone element input from a microphone array composed of at least three or more microphone elements. Direction detection means for obtaining direction data indicating the direction of the sound source with respect to the position of the microphone;
Fourier transform means for concatenating the direction data for each channel obtained by the direction detection means and obtaining a frequency component of the waveform represented by the direction data represented by Fourier transform of what is regarded as time series data,
Filter means for obtaining a filtered frequency component obtained by suppressing the frequency component of the even-order harmonics among the frequency components obtained by the Fourier transform means;
Inverse Fourier transform means for obtaining filtered data by performing inverse Fourier transform on the filtered frequency component obtained by the filter means;
It is made to function as a sound source localization means which calculates | requires the direction of a sound source from the filtered data which the said inverse Fourier transform means calculated | required.
本発明にかかる音源定位装置、音源定位方法、及び、プログラムによれば、多チャンネルの音源データにフーリエ変換をかけることにより、音波の反射やノイズによる影響を抑え、精度の高い音源定位を行うことができる。 According to the sound source localization apparatus, the sound source localization method, and the program according to the present invention, by performing Fourier transform on multi-channel sound source data, the influence of sound wave reflection and noise is suppressed, and highly accurate sound source localization is performed. Can do.
10 音源定位装置
11 マイクロフォンアレイ
12 チャネル切替部
13 単チャネル方向検出部
14 FFT部
15 フィルタ部
16 IFFT(Inverse Fast Fourier Transform)部
17 音源定位部
18 制御部
19 測温部
20 音源
50 方向検出部DESCRIPTION OF
以下、図面に基づき、本発明の実施形態に係る音源定位装置について説明する。 Hereinafter, a sound source localization apparatus according to an embodiment of the present invention will be described with reference to the drawings.
本実施形態の音源定位装置10は、図1に示すように、マイクロフォンアレイ11と、方向検出部50と、FFT(Fast Fourier Transform)部14と、フィルタ部15と、IFFT(Inverse Fast Fourier Transform)部16と、音源定位部17と、制御部18と、測温部19と、を備える。
As shown in FIG. 1, the sound
音源定位装置10は、音源20が出力した音波SWをマイクロフォンアレイ11を構成する複数のマイクロフォンで検出し、複数のマイクロフォンが出力する音源データから音源の正確な方向を求める装置である。
The sound
マイクロフォンアレイ11は、音源20が出力した音波SWを入力する装置である。マイクロフォンアレイ11は、複数のマイクロフォンから構成される。
The
図3に示すように、マイクロフォンアレイ11は、円周上に等間隔に配置された16個のマイクロフォン(マイクロフォン11A〜マイクロフォン11P)から構成される。各マイクロフォンは、指向性を有しないことが望ましい。マイクロフォン11A〜11Pには、それぞれ音源20から出力された音波SWが入力される。各マイクロフォン11A〜11Pは、入力した音波SWをアナログオーディオデータ(アナログ音源データE11)に変換してチャネル切替部12に出力する。すなわち、マイクロフォンアレイ11は、16個のマイクロフォン11A〜11Pがそれぞれ出力するアナログ音源データE11を全て方向検出部50に出力する。
As shown in FIG. 3, the
本明細書では、隣接するマイクロフォンの組を特定するためにチャネルという概念を用いる。マイクロフォンが16個である場合、チャネル数は16となる。 In this specification, the concept of channel is used to identify a set of adjacent microphones. When there are 16 microphones, the number of channels is 16.
方向検出部50は、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、入力されたアナログ音源データE11から、音源の方向を示す方向データを求める。方向検出部50は、チャネル切替部12、単チャネル方向検出部13を備える。
The
チャネル切替部12は、例えば、マルチプレクサから構成される。チャネル数が16の場合、チャネル選択信号Echは、例えば、4ビット(2の4乗=16)のデジタル信号から構成される。チャネル切替部12は、アナログ音源データE11のうち、単チャネル方向検出部13から入力するチャネル選択信号Echで指示されたチャネルに対応する隣接する一組のマイクロフォンの音源データE12を選択する。そして、チャネル切替部12は、選択した音源データE12を内蔵するA/D(Analog/Digital)変換器12a,12bでデジタル信号に変換して単チャネル方向検出部13に出力する。
The
単チャネル方向検出部13は、入力された一組の音源データE12の信号から、チャネル毎に音源の方向を示す方向データを求める。そして、単チャネル方向検出部13は、求められた方向データをチャネル別方向データE13としてFFT部14に出力する。
The single channel
なお、単チャネル方向検出部13は、チャネル選択信号Echをチャネル切替部12に出力することにより、単チャネル方向検出部13に入力される一組の音源データE12を切り替える。そして、単チャネル方向検出部13は、順次チャネルを切り替えながらチャネル毎に方向データを求める。以下にチャネルとチャネルの切り替えについて詳細に説明する。
The single channel
単チャネル方向検出部13は、チャネル1を選択すると、マイクロフォン11A及びマイクロフォン11Bの音源データE12がチャネル切替部12から出力されるようなチャネル選択信号Echをチャネル切替部12に出力する。そして、単チャネル方向検出部13は、入力した音源データE12からチャネル1の方向データを求める。
When the
また、単チャネル方向検出部13は、1つのチャネルの方向検出が完了すると次のチャネルに切り替える。具体的には、チャネル1→チャネル2→・・・→チャネル16という順序でチャネルを切り替える。例えば、チャネル2はマイクロフォン11B,11Cの組に対応する。チャネル3以降も同様であり、チャネル16はマイクロフォン11P,11Aの組に対応する。そして、単チャネル方向検出部13は、チャネルを切り替える毎に、チャネル毎の方向データを求める。
Moreover, the single channel
ここで、図4を用いて、方向データを表現する際の角度の基準について説明する。 Here, the reference | standard of the angle at the time of expressing direction data is demonstrated using FIG.
図4では、チャネル1、すなわちマイクロフォン11A,11Bの出力する音源データE12を用いて、音源20の方向を検出する場合が例示されている。図4に示すように、マイクロフォン11Aとマイクロフォン11Bとを結んだ線分L1の中心点を中心点Oとする。また、中心点Oから音源20側に線分L1に対して垂直に伸びる半直線L2と、中心点Oと音源20とを結んだ線分L3とのなす角を音源方向θとする。ここで、中心点Oを基準として、マイクロフォン11Aの方向を−90°、マイクロフォン11Bの方向を90°、半直線L2の伸びる方向を0°としている。なお、他のチャネルにおいては、アルファベットの若い(ただし、PとAの場合は、AよりもPの方が若いものとする)方のマイクロフォンをマイクロフォン11Aと置き換え、他方のマイクロフォンをマイクロフォン11Bと置き換えて角度の基準を考える。
FIG. 4 illustrates a case where the direction of the
FFT部14は、単チャネル方向検出部13から入力したチャネル別方向データE13を時系列のデータとみなし、チャネル別方向データE13が表している波形に高速フーリエ変換を実行する。そして、FFT部14は、変換された値を方向データ周波数成分E14としてフィルタ部15に出力する。
The
フィルタ部15は、FFT部14から入力した方向データ周波数成分E14にフィルタ処理を行う。そして、フィルタ部15は、フィルタ処理後の値をフィルタ済方向データ周波数成分E15としてIFFT部16に出力する。
The
IFFT部16は、フィルタ部15から入力したフィルタ済方向データ周波数成分E16に対し逆フーリエ変換を実行する。そして、IFFT部16は、変換された値をフィルタ済方向データE16として音源定位部17に出力する。
The
音源定位部17は、IFFT部16から入力したフィルタ済方向データE16から音源20の方向を推定し、定位データE17として出力する。
The sound
制御部18は、チャネル切替部12、単チャネル方向検出部13、FFT部14、フィルタ部15、IFFT部16又は音源定位部17のタイミングの制御を行うための制御信号E18の出力等を行う。
The
測温部19は、気温を測定する温度センサなどから構成される。測温部19は、測定した気温のデータを電気信号である気温信号E19に変換して単チャネル方向検出部13に出力する。なお、測温部19は、温度を常温と仮定して近似値を用いる場合はなくてもよい。
The
音源20は、音波SWの発生源であり、本音源定位装置の定位の対象となる装置である。音源20は、MIDI(Musical Instrument Digital Interface)音源など特定の規格に合致する音源である必要はなく、音波SWを発生するものであれば人や動物などであってもよい。
The
図1に示す音源定位装置10は、物理的には、図2に示すように、コンピュータ110を備えている。コンピュータ110は、マルチプレクサ111、A/D変換器112、ROM(Read Only Memory)113、RAM(Random Access Memory)114、CPU(Central Processing Unit)115,入出力部116から構成される。なお、図1に示す音源定位装置10の機能的構成では、コンピュータ110は、方向検出部50と、FFT部14と、フィルタ部15と、IFFT部16と、音源定位部17と、制御部18と、から構成される。
The sound
マルチプレクサ111は、チャネル切換部12に対応する装置である。マルチプレクサ111は、マイクロフォンアレイ11からのアナログ音源データE11が入力されると、CPU115の制御に従って、アナログ音源データE11を順次切り換えて出力する。
The
A/D変換器112は、マルチプレクサ111が出力したアナログ音源データE11をデジタルデータに変換して出力する。
The A /
CPU115は、ROM113に格納された動作プログラムに従って、RAM114を主メモリ及びワークエリアとして使用して、演算、制御などの動作を実行する。これにより、CPU115は、単チャネル方向検出部13,FFT部14,フィルタ部15,IFFT部16,音源定位部17、制御部18などを実現する。
The CPU 115 performs operations such as calculation and control using the
入出力部116は、判別した音源の方向を示すデータを他装置に提供する。また、入出力部116は、CPU115の制御に従い、マルチプレクサ111に対して、チャネル選択信号Echを出力する。
The input /
次に、上記の構成を有する音源定位装置の動作について、図5のフローチャートを参照して説明する。 Next, the operation of the sound source localization apparatus having the above configuration will be described with reference to the flowchart of FIG.
音源定位処理が開始されると、まず、単チャネル方向検出部13(CPU115)は、チャネル番号chを“1”に初期化する(ステップS10)。 When the sound source localization processing is started, first, the single channel direction detection unit 13 (CPU 115) initializes the channel number ch to “1” (step S10).
単チャネル方向検出部13は、次に、チャネル切替を行う(ステップS20)。本ステップでは、単チャネル方向検出部13は、チャネル番号chに応じた音源データE12の組がチャネル切替部12から入力されるようなチャネル選択信号Echをチャネル切替部12に出力する。音源定位処理の開始直後はチャネル番号chは“1”であるため、単チャネル方向検出部13は、マイクロフォン11A、11Bの音源データE12の組が入力されるようなチャネル選択信号Echを出力する。
Next, the single channel
チャネル切替部12は、単チャネル方向検出部13からのチャネル選択信号Echに従って、マイクロフォン11A、11Bのデジタル音源データE12を単チャネル方向検出部13に出力する。
The
単チャネル方向検出部13は、入力したマイクロフォン11A、11Bのデジタル音源データE12に対して、チャネル別方向検出処理を行う(ステップS30)。本ステップでは、単チャネル方向検出部13は、従来の方法により1チャネル分の方向検出を行う。
The single channel
図6は、図5に示すフローチャートにおけるチャネル別方向検出処理を説明するためのフローチャートである。まず、単チャネル方向検出部13は、入力した2つの音源データE12のそれぞれに対してFFT処理するなどして周波数解析を行う。これにより、単チャネル方向検出部13は、2つの音源データE12のスペクトル情報をそれぞれ求める(ステップS31)。なお、単チャネル方向検出部13は、周波数解析をした後に、フィルタ処理などによりノイズ成分を除去してもよい。
FIG. 6 is a flowchart for explaining the channel-specific direction detection processing in the flowchart shown in FIG. First, the single channel
次に、単チャネル方向検出部13は、2つの音源データE12のスペクトル情報からそれぞれ倍音成分を抽出する(ステップS32)。
Next, the single channel
次に、単チャネル方向検出部13は、倍音(基音を含む)毎に位相差から実データIPD(Interaural Phase Difference)を計算する(ステップS33)。具体的には、倍音毎の実データIPD(ΔφRと定義する)は式(1)から求めることができる。
(数1)
ΔφR=arctan(I[Sb]/R[Sb])−arctan(I[Sa]/R[Sa]) (1)
但し、
Sa:マイクロフォン11Aの倍音のスペクトル値
Sb:マイクロフォン11Bの倍音のスペクトル値
R[Sa]、R[Sb]:倍音のスペクトルの実数部
I[Sa]、I[Sb]:倍音のスペクトルの虚数部Next, the single channel
(Equation 1)
Δφ R = arctan (I [Sb] / R [Sb]) − arctan (I [Sa] / R [Sa]) (1)
However,
Sa: Spectral value of overtone of
次に、単チャネル方向検出部13は、倍音毎に強度差から実データIID(Interaural Intensity Difference)を計算する(ステップS34)。具体的には、マイクロフォン11A、11Bの音源データのスペクトル情報のうち、各倍音のスペクトルのdB(デシベル)値をDa、Dbと定義すると、倍音毎の実データIID(ΔIsと定義する)は式(2)から求めることができる。
(数2)
ΔIs=Da−Db (2)Next, the single channel
(Equation 2)
ΔIs = Da−Db (2)
次に、単チャネル方向検出部13は、式(2)で求められた倍音毎の実データIIDを使用して方向情報SIを求める。なお、方向情報SIは、倍音の周波数が閾値fth未満の場合には実データIPDを使用し、倍音の周波数が閾値fth以上の場合には実データIIDを使用して求める。ここでは、方向情報SIは、閾値fthから考慮すべき最大の周波数であるfmaxまでの倍音毎の実データIIDを考慮して求める。すなわち、方向情報SIは、倍音周波数を昇べきの順で並べた関数をH(i)と定義すると、式(3)から求めることができる。なお、関数H(i)は、例えば基音の周波数をf0とすると、H(0)=f0、H(1)=2f0、H(2)=3f0、…として表すことができる。
nthは、H(nth)≧fthを満たし、かつfthに最も近くなるような整数値である。例えば、fth=1500Hz、H(0)=600Hz、H(1)=1200Hz、H(2)=1800Hz、H(3)=2400Hzである場合、nthの値は2となる。また、n−1はH(n−1)がfmaxとなる整数値である。 nth is an integer value that satisfies H (nth) ≧ fth and is closest to fth. For example, when fth = 1500 Hz, H (0) = 600 Hz, H (1) = 1200 Hz, H (2) = 1800 Hz, and H (3) = 2400 Hz, the value of nth is 2. N-1 is an integer value at which H (n-1) is fmax.
閾値fthは、νを音速(m/s)、λをマイクロフォン11Aとマイクロフォン11Bの距離(m)として、式(4)から求めることができる。
(数4)
fth = ν / λ (4)The threshold fth can be obtained from Equation (4), where ν is the speed of sound (m / s) and λ is the distance (m) between the
(Equation 4)
fth = ν / λ (4)
例えば、νを340m/s、λを20cmとすると、閾値fthは1700Hzとなる。この場合、倍音の周波数が1700Hz未満でIPDを、1700Hz以上でIIDを使用して方向情報SIを算出する。なお、音速νは、測温部19が検出した気温信号E19(空気温度)から求めることができる。For example, when ν is 340 m / s and λ is 20 cm, the threshold fth is 1700 Hz. In this case, the IPD frequency harmonics is less than 1700 Hz, and calculates the direction information S I using IID above 1700 Hz. Note that the speed of sound ν can be obtained from the air temperature signal E19 (air temperature) detected by the
ここで、式(3)により求めたSIが0に近ければ、正面方向(図4における半直線L2の伸びる方向)に音源が存在すると考えることができる。また、SIが負であれば右方向(図4におけるマイクロフォン11Bの方向)、SIが正であれば左方向(図4におけるマイクロフォン11Aの方向)、にそれぞれ音源が存在すると考えることができる。Here, it can be considered that the closer to the
次に、単チャネル方向検出部13は、モデルとなるIPDを求める(ステップS35)。具体的には、5°おきの角度をθ’、倍音の周波数をfと定義すると、モデルIPD(ΔφMと定義する)は、式(5)から求めることができる。
(数5)
ΔφM=(2πf/ν)×λ(sinθ’) (5)Next, the single channel
(Equation 5)
Δφ M = (2πf / ν) × λ (sin θ ′) (5)
次に、単チャネル方向検出部13は、IPDの確信度とIIDの確信度とを求める(ステップS36)。具体的には、式(1)により求めた実データIPDと、モデルIPDとを比較し、5°おきの方向に対するIPDの確信度をガウスの確率分布によって求める。また、実データIIDの確信度を式(3)により求めた方向情報SIによって、図8の表に示すように定義する。Next, the single channel
図8は、IIDの確信度を定義した表である。例えば、θ’が90°〜35°のときのIIDの確信度は、式(3)により求めた方向情報SIが“+”のときに0.35、“−”のときに0.65となる。FIG. 8 is a table that defines the certainty factor of the IID. For example, the reliability of IID when θ ′ is 90 ° to 35 ° is 0.35 when the direction information S I obtained by the equation (3) is “+”, and 0.65 when “−”. It becomes.
次に、単チャネル方向検出部13は、方向情報を抽出し、チャネル別方向データE13としてFFT部14に出力する(ステップS37)。具体的には、IPDの確信度とIIDの確信度とを、独立した証拠から推論された基本確率を統合するDempster−Shafer理論によって統合し、最も確信度の高い方向情報を真の方向とする。単チャネル方向検出部13は、方向情報抽出を完了するとチャネル別方向検出処理(ステップS30)を完了する。
Next, the single channel
チャネル別方向検出処理が完了すると、単チャネル方向検出部13は、チャネル番号chが16であるか否かを判別する(ステップS40)。単チャネル方向検出部13は、チャネル番号chが16でない、すなわち16チャネル分の方向検出が完了していないと判別したときは、チャネル番号chをインクリメントし(ステップS50)、チャネル切替(ステップS20)に処理を戻す。
When the channel-specific direction detection process is completed, the single channel
一方、単チャネル方向検出部13は、チャネル番号chが16である、すなわち16チャネル分の方向検出が完了したと判別したときは、定位処理(ステップS60)に処理を移行する。
On the other hand, when the single channel
図7は、図5に示すフローチャートにおける定位処理を説明するためのフローチャートである。まず、FFT部14は、チャネル別方向データE13から時系列方向データを作成する(ステップS61)。具体的には、FFT部14は、チャネル別方向検出処理(ステップS30)で取得された16チャネル分の方向データを時系列のデータとみなして連結して時系列方向データを作成する。ここで、図9を参照して各チャネルの方向データについて説明する。
FIG. 7 is a flowchart for explaining the localization processing in the flowchart shown in FIG. First, the
図9は、各チャネルにおける方向データの測定角度と理想角度との一例を示した図である。測定角度は、マイクロフォンアレイ11と音源20とが図3に示す位置関係にあるときに、チャネル別方向検出処理(ステップS30)で実際に取得した方向データである。理想角度は、マイクロフォンアレイ11と音源20とが図3に示す位置関係にあるときに、チャネル別方向検出処理(ステップS30)において取得されるべき方向データである。
FIG. 9 is a diagram showing an example of the measurement angle and ideal angle of direction data in each channel. The measurement angle is direction data actually acquired in the channel-specific direction detection process (step S30) when the
図9に例示するように、チャネル別方向検出処理(ステップS30)で実際に取得した測定角度は、理想角度とは異なる。これは、実際の方向検出の際には、音の反射や雑音などが存在するためである。図9に示すデータを横軸をチャネル、縦軸を角度としてプロットすると、図10に示すような三角波となる。 As illustrated in FIG. 9, the measurement angle actually acquired in the channel-specific direction detection process (step S30) is different from the ideal angle. This is because there is sound reflection, noise, and the like in the actual direction detection. When the data shown in FIG. 9 is plotted with the horizontal axis as a channel and the vertical axis as an angle, a triangular wave as shown in FIG. 10 is obtained.
図10において、縦軸は角度(°)を表し、横軸はチャネル(ch)を表す。チャネルは、一定周期で選択されるので、チャネル(ch)=時刻(s)とみなすことも可能である。換言すれば、図10のグラフは、チャネル別方向データE13を検出(選択)タイミングに従って連結してプロットしたものであり、一定の周期波形となる。図10では、3周期(16×3チャネル)分の時系列方向データを示している。
なお、図10において、測定角度が構成する波形を実線で示し、理想角度が構成する波形を破線で示す。In FIG. 10, the vertical axis represents an angle (°), and the horizontal axis represents a channel (ch). Since the channel is selected at a constant period, it can be considered that channel (ch) = time (s). In other words, the graph of FIG. 10 is obtained by connecting and plotting the channel-specific direction data E13 according to the detection (selection) timing, and has a constant periodic waveform. FIG. 10 shows time-series direction data for three periods (16 × 3 channels).
In FIG. 10, the waveform formed by the measurement angle is indicated by a solid line, and the waveform formed by the ideal angle is indicated by a broken line.
このように、時系列方向データは、チャネル別方向検出処理(ステップS30)で取得する方向データを、単純に時系列に並べたデータである。このため、音源20が移動しない場合、時系列方向データは、毎回取得しても、同じ若しくは近い値となり、その波形は周期波形となる。
As described above, the time-series direction data is data in which the direction data acquired in the channel-specific direction detection process (step S30) is simply arranged in time series. For this reason, when the
FFT部14は、作成した時系列方向データにFFT処理を行う(ステップS62)。即ち、FFT部14は、図10に示す波形の横軸を時間とみなして、周知のFFT処理により時系列方向データを方向データ周波数成分E14に変換する。そして、FFT部14は、方向データ周波数成分E14をフィルタ部15に出力する。
The
フィルタ部15は、FFT部14から入力した方向データ周波数成分E14をフィルタ処理する(ステップS63)。理想角度から構成される時系列方向データは、図10に破線で示すように、時間軸上で三角波に近い形を形成する。これは、一定間隔毎にマイクロフォンが配列されているため、マイクロフォンアレイ11の大きさに対して、音源20が十分離れている場合、選択されたチャネルに対応するマイクロフォンの組からみた音源20の角度は、チャネルを切り替える度に一定の角度(360°/16=22.5°)ずつ変化すると推定できるからである。一方、測定角度から構成される時系列方向データは、反射やノイズの影響により、図10において実線で示すように、時間軸上で三角波に近い形とはならない。フィルタ部15は、この反射やノイズによる成分を、方向データ周波数成分E14から除去するようにフィルタ処理する。
The
具体的には、フィルタ部15は、三角波を構成する周波数成分のみを抽出し、他の周波数成分を除去する。すなわち、三角波は、基本波と奇数次高調波のみから構成されるため、偶数次高調波を除去する。図11(a)、図11(b)を参照して、フィルタ処理の一例を説明する。なお、図11(a)、図11(b)において、fは基本波の周波数を示す。
Specifically, the
図11(a)は、フィルタ処理を行う前の方向データの周波数成分の一例を示したものである。図11(a)に示すように、フィルタ処理を行う前は、基本波の周波数成分の他、第2次高調波から第6次高調波の周波数成分を有している。 FIG. 11A shows an example of the frequency component of the direction data before performing the filtering process. As shown in FIG. 11A, before performing the filter processing, the frequency components of the second harmonic to the sixth harmonic are included in addition to the frequency components of the fundamental wave.
ここで、偶数次高調波(基本波と奇数次高調波以外)の周波数成分をカットするフィルタ処理を行う。図11(b)は、フィルタ処理を行った後の方向データの周波数成分の一例を示したものである。図11(b)に示すように、フィルタ処理を行った後は、基本波と奇数次高調波の周波数成分のみが残されている。換言すれば、ノイズや反射により発生したと考えられる偶数次高調波の周波数成分がカットされている。また、残された周波数成分の位相(位相スペクトル)は変化しておらず、強度(強度スペクトル)も変化していない。すなわち、フィルタ処理において、方向データ周波数成分E14の偶数時高調波のみをカットすることにより、ノイズや反射による影響分を除去し、IFFT処理後の時系列方向データを三角波に近づけることができる。 Here, a filtering process for cutting frequency components of even-order harmonics (other than fundamental waves and odd-order harmonics) is performed. FIG. 11B shows an example of the frequency component of the direction data after the filtering process. As shown in FIG. 11B, after the filtering process, only the frequency components of the fundamental wave and the odd harmonics are left. In other words, the frequency components of even harmonics that are considered to be generated by noise or reflection are cut off. Further, the phase (phase spectrum) of the remaining frequency component has not changed, and the intensity (intensity spectrum) has not changed. That is, in the filtering process, by cutting only the even-numbered harmonics of the direction data frequency component E14, the influence due to noise and reflection can be removed, and the time-series direction data after IFFT processing can be made closer to a triangular wave.
フィルタ部15は、フィルタ処理後のデータをフィルタ済方向データ周波数成分E15としてIFFT部16に出力する。
The
IFFT部16は、フィルタ部15から入力したフィルタ済方向データ周波数成分E15に対し、IFFT処理すなわちFFT部14が実行したFFT処理の逆変換を行う(ステップS64)。IFFT部16は、IFFT処理によりフィルタ済方向データ周波数成分E15を時系列の方向データであるフィルタ済方向データE16に変換する。図12を参照して、フィルタ済方向データE16について説明する。
The
図12は、フィルタ済方向データE16が構成する波形を示したものである。図12において、縦軸は角度(°)を表し、横軸は時刻(s)を表す。フィルタ済方向データE16は、フィルタ処理前の方向データと同様に、16チャネル分の方向データから構成される。従って、図12では、時系列方向データとして波形を示すため横軸を時刻(s)としているが、横軸をチャネル(ch)と考えても良い。図12では、3周期(16×3チャネル)分の時系列方向データを示している。なお、図12において、1周期分の時間を点線で区切っている。 FIG. 12 shows a waveform formed by the filtered direction data E16. In FIG. 12, the vertical axis represents the angle (°), and the horizontal axis represents time (s). The filtered direction data E16 is composed of direction data for 16 channels, similarly to the direction data before filtering. Therefore, in FIG. 12, the horizontal axis is time (s) in order to show a waveform as time-series direction data, but the horizontal axis may be considered as a channel (ch). FIG. 12 shows time-series direction data for three periods (16 × 3 channels). In FIG. 12, the time for one cycle is divided by a dotted line.
図12に示すように、フィルタ済方向データE16が形成する波形は、フィルタ処理前の方向データが形成する波形(図11の実線で示す波形)と比較すると、三角波に近い波形となっている。これは、フィルタ処理において方向データ周波数成分E14から偶数次高調波の周波数成分をカットしたため、ノイズや反射による周波数成分が除去されたためである。IFFT部16は、IFFT処理が完了すると、フィルタ済方向データE16を音源定位部17に出力する。
As shown in FIG. 12, the waveform formed by the filtered direction data E <b> 16 is a waveform close to a triangular wave as compared to the waveform formed by the direction data before filtering (the waveform indicated by the solid line in FIG. 11). This is because the frequency components due to noise and reflection are removed because the frequency components of even-order harmonics are cut from the direction data frequency component E14 in the filter processing. When the IFFT process is completed, the
音源定位部17は、IFFT部16から入力したフィルタ済方向データE16から音源20の方向を求めて定位データE17として出力する(ステップS65)。前述のように、フィルタ済方向データE16からはノイズや反射による周波数成分が除去されている。音源定位部17は、このフィルタ済方向データE16に基づいて、定位データE17を求める。以下に、定位データを求める具体的な方法の例を示す。
The sound
前述のように、各マイクロフォンは円周上に等間隔で配置され、単チャネル方向検出部13は、マイクロフォンの組をシフトしながら方向検出する。このため、図12に示す横軸は時間であると同時に、チャネルあるいは円周上の位置をも示すものと考えることができる。このため、例えば、方向検出により求められた角度が0°となるポイント(図12において黒点で示すポイント)に該当するチャネル或いは円周上の位置から音源20の方向を特定することができる。
As described above, the microphones are arranged at equal intervals on the circumference, and the single channel
音源定位部17は、求めた定位データE17を外部に出力すると、定位処理(ステップS60)が完了する。これにより、音源定位処理は完了する。
When the sound
なお、この発明は上記実施例に限定されず、種々の変形及び応用が可能である。 In addition, this invention is not limited to the said Example, A various deformation | transformation and application are possible.
上記実施の形態では、マイクロフォンの数を16個としたが、マイクロフォンの数は任意である。精度を上げるため、マイクロフォンの数を例えば24個、32個としてもよい。また、高速化、省電力化のため、マイクロフォンの数を例えば8個に減らしても良い。 In the above embodiment, the number of microphones is 16, but the number of microphones is arbitrary. In order to increase accuracy, the number of microphones may be set to 24 or 32, for example. Further, the number of microphones may be reduced to eight, for example, for speeding up and power saving.
上記実施の形態では、マイクロフォンを等間隔で配置したが、マイクロフォンの配置は任意である。例えば、図13に示すように、5個のマイクロフォンを11A、11C、11D、11I、及び11Lの位置に配置することとしてもよい。
In the said embodiment, although the microphone was arrange | positioned at equal intervals, arrangement | positioning of a microphone is arbitrary. For example, as shown in FIG. 13, five microphones may be arranged at
この場合、例えば、図14に示すように、任意の基準方向Vrを定める。そして、基準方向Vrに対するチャネルの方向を交差角φで表す。図14では、チャネルの方向が直線の矢印で示されている。基準方向Vrは、例えばマイクロフォン11A,11Cの組のチャネルの方向と同一とすることができる。マイクロフォン11C,11Dの組、マイクロフォン11D,11Iの組、マイクロフォン11I,11Lの組、及びマイクロフォン11C,11Dの組のチャネルの方向は、基準方向Vrに対してそれぞれ交差角φ1、φ2、φ3、及びφ4の関係にある。
In this case, for example, an arbitrary reference direction Vr is determined as shown in FIG. The direction of the channel with respect to the reference direction Vr is represented by an intersection angle φ. In FIG. 14, the channel direction is indicated by a straight arrow. The reference direction Vr can be the same as the channel direction of the pair of
図14の構成の場合、図15に示すように、縦軸を角度(チャネル毎の基準方向に対する音源20の方向)、横軸を交差角φとしてデータをプロットする。そして、プロットされたデータから構成される波形に対して、図の横軸(交差角φ)を時間と見なしてFFT処理を行えばよい。
In the case of the configuration shown in FIG. 14, as shown in FIG. 15, data is plotted with the vertical axis representing the angle (the direction of the
また、マイクロフォンは、円周上に配置される必要はない。図16に、4個のマイクロフォン11Q、11R、11S、及び11Tが平行四辺形を形成して配置された例を示す。図16の例では、基準方向Vrを例えばマイクロフォン11Tからマイクロフォン11Qに向かう方向と定めている。この場合にも、図14に示した例と同様に、基準方向Vrに対する各チャネルの方向が交差角φ1、φ2、φ3、及びφ4として得られる。その後、図15に示した例と同様に、データをプロットしFFT処理を行えばよい。
Further, the microphone need not be arranged on the circumference. FIG. 16 shows an example in which four
上記実施の形態では、音源定位部17は、方向検出により求められた角度が0°となるポイントから音源20の方向を特定した。しかし、図12に示すフィルタ済方向データE16の波形のピークとなるポイントから音源20の方向を特定しても良い。また、フィルタ済方向データE16の各ポイントの値を、各チャネルの方向データとして扱い、全チャネルの方向データを総合的に判断して音源20の方向を特定してもよい。
In the above embodiment, the sound
また、上記実施の形態では、フィルタ部15は、方向データ周波数成分E14から偶数次高調波の周波数成分をカットするだけのフィルタ処理をしていた。しかし、フィルタ済方向データE15が形成する波形をより三角波に近づけるためには、偶数次高調波の周波数成分をカットするだけでなく、奇数次高調波の強度を減衰させるフィルタ処理を行ってもよい。
Moreover, in the said embodiment, the
具体的には、偶数次高調波の周波数成分をカットした後に、例えば、奇数次高調波の強度を高調波の次数で除算したものを強度とする。つまり、位相が変化しないように振幅成分のみを変化させる。すなわち、奇数次高調波の実数部と虚数部の比率を保ったまま減衰させる。 Specifically, after the frequency component of the even-order harmonic is cut, for example, the intensity obtained by dividing the intensity of the odd-order harmonic by the order of the harmonic is defined as the intensity. That is, only the amplitude component is changed so that the phase does not change. That is, attenuation is performed while maintaining the ratio between the real part and the imaginary part of the odd-order harmonics.
図11(c)は、奇数次高調波の強度を減衰させるフィルタ処理を行った後の方向データの周波数成分の一例を示したものである。図11(c)に示すように、フィルタ処理を行った後は、基本波と奇数次高調波の周波数成分が残されているが、奇数次高調波の強度は次数に応じて減衰している。ただし、この場合であっても、残された周波数成分の位相は変化していない。方向データ周波数成分E14に、このようなフィルタ処理を行うことにより、ノイズや反射による影響分を除去し、フィルタ済方向データE16をより三角波に近づけることができる。 FIG. 11C shows an example of the frequency component of the direction data after performing the filtering process for attenuating the intensity of the odd-order harmonics. As shown in FIG. 11 (c), after the filtering process, the frequency components of the fundamental wave and odd harmonics remain, but the intensity of the odd harmonics is attenuated according to the order. . However, even in this case, the phase of the remaining frequency component does not change. By performing such a filtering process on the direction data frequency component E14, it is possible to remove the influence due to noise and reflection and make the filtered direction data E16 closer to a triangular wave.
上述の実施例では、音源定位部17は、16チャネル分の方向データから音源の方向のみを求めていたが、従来の方法により音源までの距離を求めるようにしてもよい。例えば、16チャネル分の方向データを重ね合わせることにより音源までの距離を求めることが可能である。
In the embodiment described above, the sound
なお、前記のハードウェア構成やフローチャートは一例であり、任意に変更及び修正が可能である。上記実施の形態においては、音源定位装置10をディスクリート部品で構成するように記載したが、例えば、音源定位装置10で実行される処理のほとんどをCPUやDSP(Digital Signal Processor)等のプロセッサ回路に実行させることも可能である。このような構成とすれば、回路構成を簡略化することが可能である。
The above hardware configuration and flowchart are examples, and can be arbitrarily changed and modified. In the above embodiment, the sound
上記実施の形態では、音源の定位装置及び定位方法にこの発明を適用した例を示したが、この発明は、任意のパラメータを基準としてプロットすることにより一定の周期関数となるデータ列からノイズを除去する場合に広く適用可能である。例えば、データ群をあるパラメータを基準としてプロットすることにより、このパラメータに基づいて周期波形が得られるものとする。この場合、パラメータを時間とみなしてFFTを行う。これにより、波形の高調波成分を抑圧してノイズを除去する。その後、IFFTを実行してノイズを除去し、得られた波形を用いて以後の処理を行うことができる。 In the above-described embodiment, an example in which the present invention is applied to a sound source localization apparatus and a localization method has been described. However, in the present invention, noise is extracted from a data sequence that becomes a constant periodic function by plotting with reference to an arbitrary parameter. Widely applicable when removing. For example, it is assumed that a periodic waveform is obtained on the basis of this parameter by plotting the data group based on a certain parameter. In this case, FFT is performed by regarding the parameter as time. Thereby, the harmonic component of the waveform is suppressed and noise is removed. Thereafter, IFFT is performed to remove noise, and subsequent processing can be performed using the obtained waveform.
本出願は、2007年5月18日にされた、日本国特許出願特願2007−133329に基づく。本明細書中に、その明細書、特許請求の範囲、図面全体を参照として取り込むものとする。 This application is based on Japanese Patent Application No. 2007-133329 filed on May 18, 2007. The specification, claims, and entire drawings are incorporated herein by reference.
本発明は、例えば、ロボット、監視システム等、音源定位を利用するあらゆる技術分野に好適に利用することができる。 The present invention can be suitably used in all technical fields that use sound source localization, such as robots and monitoring systems.
Claims (7)
前記マイクロフォンアレイからマイクロフォン素子毎の音声データを入力し、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、チャネルに対応する2つのマイクロフォンの位置を基準とした音源の方向を示す方向データを求める方向検出手段と、
前記方向検出手段からチャネル毎の方向データを入力し、入力したチャネル毎の方向データを連結し、時系列データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換手段と、
前記フーリエ変換手段が求めた周波数成分を入力し、入力した周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として出力するフィルタ手段と、
前記フィルタ手段からフィルタ済周波数成分を入力し、フィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換手段と、
前記逆フーリエ変換手段が求めたフィルタ済データから音源の方向を求める音源定位手段と、
を備える、
ことを特徴とする音源定位装置。A microphone array composed of at least three or more microphone elements;
Voice data for each microphone element is input from the microphone array, and for each channel corresponding to a combination of two microphones having a predetermined positional relationship, the direction of the sound source is shown with reference to the positions of the two microphones corresponding to the channel. Direction detection means for obtaining direction data;
The direction data for each channel is input from the direction detection means, the input direction data for each channel is concatenated, and the frequency component of the waveform represented by the concatenated direction data is obtained by Fourier transforming the data regarded as time series data. Fourier transform means;
Filter means for inputting the frequency component obtained by the Fourier transform means, and outputting as a filtered frequency component a frequency component of the even-order harmonics suppressed among the inputted frequency components;
An inverse Fourier transform unit that inputs a filtered frequency component from the filter unit, and obtains filtered data by performing an inverse Fourier transform on the filtered frequency component;
Sound source localization means for obtaining the direction of the sound source from the filtered data obtained by the inverse Fourier transform means;
Comprising
A sound source localization device characterized by that.
ことを特徴とする請求項1に記載の音源定位装置。The channel corresponds to a combination of two adjacent microphones;
The sound source localization apparatus according to claim 1.
前記フーリエ変換手段が求めた周波数成分を入力し、入力した周波数成分のうち偶数次高調波の周波数成分を抑圧し、さらに奇数次高調波の周波数成分を減衰したものをフィルタ済周波数成分として出力する、
ことを特徴とする請求項1に記載の音源定位装置。The filter means includes
The frequency component obtained by the Fourier transform means is input, the frequency component of the even-order harmonic is suppressed among the input frequency components, and the frequency component of the odd-order harmonic is further attenuated and output as the filtered frequency component. ,
The sound source localization apparatus according to claim 1.
チャネルを選択するためのチャネル選択信号を出力し、チャネル選択信号に対応するチャネルの音声データを入力し、チャネル毎に方向データを求める単チャネル方向検出手段と、
前記マイクロフォンアレイからマイクロフォン素子毎の音声データを入力し、前記単チャネル方向検出手段から入力した選択信号により指示されたチャネルに対応する音声データを出力するチャネル切替手段と、
をさらに備える、
ことを特徴とする請求項1に記載の音源定位装置。The direction detecting means includes
A single channel direction detection means for outputting a channel selection signal for selecting a channel, inputting voice data of a channel corresponding to the channel selection signal, and obtaining direction data for each channel;
Channel switching means for inputting voice data for each microphone element from the microphone array and outputting voice data corresponding to a channel indicated by the selection signal input from the single channel direction detecting means;
Further comprising
The sound source localization apparatus according to claim 1.
無指向性のマイクロフォン素子から構成される、
ことを特徴とする請求項1に記載の音源定位装置。The microphone array is
Consists of omnidirectional microphone elements
The sound source localization apparatus according to claim 1.
前記方向検出ステップにより求められたチャネル毎の方向データを連結し、時系列の方向データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換ステップと、
前記フーリエ変換ステップにより求められた周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として出力するフィルタステップと、
前記フィルタステップにより出力されたフィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換ステップと、
前記逆フーリエ変換ステップにより求められたフィルタ済データから音源の方向を求める音源定位ステップと、
を備える、
ことを特徴とする音源定位方法。Audio data for each microphone element is input from a microphone array composed of at least three or more microphone elements, and for each channel corresponding to a combination of two microphones in a predetermined positional relationship, two microphones corresponding to the channel A direction detecting step for obtaining direction data indicating the direction of the sound source relative to the position;
A Fourier transform step for obtaining frequency components of a waveform represented by the direction data represented by concatenating the direction data for each channel obtained by the direction detection step and performing Fourier transform on what is regarded as time-series direction data;
A filter step of outputting a frequency component obtained by suppressing the frequency component of the even-order harmonics among the frequency components obtained by the Fourier transform step as a filtered frequency component;
An inverse Fourier transform step for obtaining a filtered data by performing an inverse Fourier transform on the filtered frequency component output by the filter step;
A sound source localization step for obtaining a direction of a sound source from the filtered data obtained by the inverse Fourier transform step;
Comprising
A sound source localization method characterized by that.
少なくとも3つ以上のマイクロフォン素子から構成されるマイクロフォンアレイから入力したマイクロフォン素子毎の音声データに基づいて、所定の位置関係にある2つのマイクロフォンの組み合わせに対応するチャネル毎に、チャネルに対応する2つのマイクロフォンの位置を基準とした音源の方向を示す方向データを求める方向検出手段、
前記方向検出手段が求めたチャネル毎の方向データを連結し、時系列データとみなしたものをフーリエ変換して連結された方向データが表す波形の周波数成分を求めるフーリエ変換手段、
前記フーリエ変換手段が求めた周波数成分のうち偶数次高調波の周波数成分を抑圧したものをフィルタ済周波数成分として求めるフィルタ手段、
前記フィルタ手段が求めたフィルタ済周波数成分を逆フーリエ変換してフィルタ済データを求める逆フーリエ変換手段、
前記逆フーリエ変換手段が求めたフィルタ済データから音源の方向を求める音源定位手段、
として機能させることを特徴とするプログラム。Computer
Two channels corresponding to each channel corresponding to a combination of two microphones in a predetermined positional relationship based on audio data for each microphone element input from a microphone array composed of at least three or more microphone elements. Direction detection means for obtaining direction data indicating the direction of the sound source with respect to the position of the microphone;
Fourier transform means for concatenating the direction data for each channel obtained by the direction detection means and obtaining a frequency component of the waveform represented by the direction data represented by Fourier transform of what is regarded as time series data,
Filter means for obtaining a filtered frequency component obtained by suppressing the frequency component of the even-order harmonics among the frequency components obtained by the Fourier transform means;
Inverse Fourier transform means for obtaining filtered data by performing inverse Fourier transform on the filtered frequency component obtained by the filter means;
Sound source localization means for obtaining the direction of the sound source from the filtered data obtained by the inverse Fourier transform means,
A program characterized by functioning as
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007133329 | 2007-05-18 | ||
JP2007133329 | 2007-05-18 | ||
PCT/JP2008/058971 WO2008143142A1 (en) | 2007-05-18 | 2008-05-15 | Sound source localization device, sound source localization method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008143142A1 true JPWO2008143142A1 (en) | 2010-08-05 |
Family
ID=40031848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009515195A Pending JPWO2008143142A1 (en) | 2007-05-18 | 2008-05-15 | Sound source localization apparatus, sound source localization method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2008143142A1 (en) |
WO (1) | WO2008143142A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5588610B2 (en) * | 2008-12-10 | 2014-09-10 | クラリオン株式会社 | Inter-vehicle distance detector |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3117635B2 (en) * | 1996-01-09 | 2000-12-18 | 株式会社エッチアンドビーシステム | Superimposed wave filtering method and apparatus |
JP3677143B2 (en) * | 1997-07-31 | 2005-07-27 | 株式会社東芝 | Audio processing method and apparatus |
JP3600459B2 (en) * | 1998-10-06 | 2004-12-15 | アルプス電気株式会社 | Method and apparatus for estimating direction of arrival of radio wave |
JP4726111B2 (en) * | 2005-03-31 | 2011-07-20 | 総務大臣 | Radio holography radio source exploration equipment |
-
2008
- 2008-05-15 WO PCT/JP2008/058971 patent/WO2008143142A1/en active Application Filing
- 2008-05-15 JP JP2009515195A patent/JPWO2008143142A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2008143142A1 (en) | 2008-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6289936B2 (en) | Sound source direction estimating apparatus, sound source direction estimating method and program | |
EP2429216B1 (en) | Acoustic apparatus | |
JP5098176B2 (en) | Sound source direction determination method and apparatus | |
RU2019124534A (en) | SOUND RECORDING USING DIRECTIONAL DIAGRAM FORMATION | |
JP6174856B2 (en) | Noise suppression device, control method thereof, and program | |
EP3980994A1 (en) | Sound modification based on frequency composition | |
US20210241729A1 (en) | Beat timing generation device and method thereof | |
JP7346552B2 (en) | Method, storage medium and apparatus for fingerprinting acoustic signals via normalization | |
JP4705480B2 (en) | How to find the fundamental frequency of a harmonic signal | |
JPWO2008143142A1 (en) | Sound source localization apparatus, sound source localization method, and program | |
KR20220091459A (en) | Vibration control device, vibration control program and vibration control method | |
JP2019029701A (en) | System and method | |
JP2009115735A (en) | Distance-measuring device, distance measurement method, distance measurement program, and recording medium | |
JP2009211021A (en) | Reverberation time estimating device and reverberation time estimating method | |
KR102438127B1 (en) | Method and apparatus for providing a multidimensional audiogram | |
JPWO2015114674A1 (en) | Sound collector, input signal correction method for sound collector, and mobile device information system | |
JP2009188617A (en) | Sound pickup apparatus | |
JP6433630B2 (en) | Noise removing device, echo canceling device, abnormal sound detecting device, and noise removing method | |
JPWO2017195292A1 (en) | Music structure analysis apparatus, music structure analysis method, and music structure analysis program | |
JP5879199B2 (en) | Reverberation response generation apparatus and program thereof | |
JP5825607B2 (en) | Signal feature extraction apparatus and signal feature extraction method | |
JP5513074B2 (en) | Grid detection apparatus and program | |
Shen et al. | Level dependence in behavioral measurements of auditory-filter phase characteristics | |
JP2012034312A (en) | Radiation orientation characteristic estimation method, device and program of the same | |
JP3894887B2 (en) | Target sound detection method and apparatus |