WO2010109711A1 - Audio processing device, audio processing method, and program - Google Patents

Audio processing device, audio processing method, and program Download PDF

Info

Publication number
WO2010109711A1
WO2010109711A1 PCT/JP2009/068239 JP2009068239W WO2010109711A1 WO 2010109711 A1 WO2010109711 A1 WO 2010109711A1 JP 2009068239 W JP2009068239 W JP 2009068239W WO 2010109711 A1 WO2010109711 A1 WO 2010109711A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphone
microphones
sound
processing
sound source
Prior art date
Application number
PCT/JP2009/068239
Other languages
French (fr)
Japanese (ja)
Inventor
浩司 藤村
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Publication of WO2010109711A1 publication Critical patent/WO2010109711A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • Patent Document 1 The invention disclosed in Patent Document 1 is based on the premise that one microphone receives a signal in which a target sound and noise are mixed, but the other microphone has only noise or a relatively small amount even if the target sound is mixed. ing.
  • the difference in arrival time from the microphone 1 to the microphone 2 is td 12, and is calculated by the equations (2) to (5).
  • the arrival time differences among the other microphones are calculated as td 13 , td 21 , td 23 , td 31 , and td 32 , respectively.
  • the signal level difference between the microphone 1 and the microphone 2 is dd 12 and calculated by the equation (6).
  • the signal level difference between the other microphones, and dd 13, dd 21, dd 23 , dd 31, dd 32 calculates them.
  • FIG. 10 is a block diagram showing an audio processing apparatus according to the third embodiment.
  • the voice processing apparatus 100b according to the third embodiment detects a position pattern of a sound source based on an input from a position sensor and a sound signal, and executes voice processing corresponding to each position pattern.
  • FIG. 13 is an explanatory view showing a hardware configuration of the speech processing apparatus according to the present embodiment.

Abstract

Provided are an audio processing device, an audio processing method, and a program which preferably reduce the noise of sound signals input from microphones in a variety of environments. An audio processing device (100) is provided with a position pattern detection section (102) for detecting an index of the relative position of a sound source and a plurality of microphones, a processing determination section (103) for determining audio processing to the sound signal input from each of the microphones on the basis of the index of the relative position, and a signal processing section (104) for executing the determined audio processing to the sound signals.

Description

音声処理装置、音声処理方法、及び、プログラムVoice processing apparatus, voice processing method, and program
 本発明は、音声処理装置に係わり、特に音源とマイクロホンの位置をNパターンに分類し、それぞれの位置パターンに対応する処理を行うことで、SNRの高い目的音を得られる音声処理装置に関する。 The present invention relates to a voice processing apparatus, and more particularly to a voice processing apparatus capable of obtaining a target sound with high SNR by classifying positions of a sound source and a microphone into N patterns and performing processing corresponding to each position pattern.
 従来から、マイクロホンアレイと呼ばれる複数のマイクロホンを用いて音声を収集し、これらに信号処理を施すことにより、目的音源方向の推定や、雑音を抑圧し高いSNRで目的音源からの信号抽出を行う技術が知られている。 Conventionally, by collecting voice using a plurality of microphones called a microphone array and performing signal processing on these, a technique for estimating a target sound source direction and suppressing noise and extracting a signal from a target sound source at a high SNR It has been known.
 例えば非特許文献1では、目的音をマイクロホンアレイによって受信し、各マイクが受信した信号の各々に対し、各マイクロホンへの目的音の到達時間差を補正した後、それらの信号を足し合わせる、いわゆる遅延和をとることによって、目的音を強調した信号を得る方法が示されている。非特許文献1に開示の発明は、どのマイクにも目的音と雑音が混入した信号が入力されることを前提としている。 For example, in Non-Patent Document 1, a so-called delay is used in which a target sound is received by a microphone array, the arrival time difference of the target sound to each microphone is corrected for each signal received by each microphone, and then those signals are added. By summing, it is shown how to obtain a signal that emphasizes the target sound. The invention disclosed in Non-Patent Document 1 is based on the assumption that a signal in which a target sound and noise are mixed is input to any microphone.
 また、複数マイクロホンを利用する方法として、2本のマイクロホンを用いて、1本を雑音収集用マイクロホン、他方を雑音が混入した目的音を収集するマイクロホンとし、目的音を収集するマイクロホンの信号から雑音収集用雑音マイクロホンの出力を減算することによって雑音を低減し、目的音をより鮮明に抽出する方法が知られている。 Also, as a method of using a plurality of microphones, using two microphones, one is a noise collecting microphone, the other is a microphone for collecting a target sound mixed with noise, and noise is generated from the signal of the microphone collecting the target sound. There is known a method of reducing noise by subtracting the output of a collecting noise microphone and extracting a target sound more clearly.
 その一例として、特開2004-226656号公報(特許文献1)では、2本のマイクロホンを用い、口唇とあらかじめ選択された基準となるマイクロホンとの距離を、基準マイクロホンともう一方のマイクロホンの信号レベルの差から算出し、距離によって基準マイクロホンの信号から、もう一方のマイクロホンの信号を減算する際の減算量を調整する話者距離検出装置等の技術が開示されている。 As an example, in Japanese Patent Application Laid-Open No. 2004-226656 (Patent Document 1), using two microphones, the distance between the lip and the reference microphone selected in advance is the signal level of the reference microphone and the other microphone. A technique such as a speaker distance detection device is disclosed that calculates from the difference of and adjusts the amount of subtraction when subtracting the signal of the other microphone from the signal of the reference microphone according to the distance.
 特許文献1に開示の発明は、一方のマイクには目的音と雑音が混在した信号が入るが、もう一方のマイクには雑音のみ、あるいは目的音が混在したとしても比較的少ないことを前提にしている。 The invention disclosed in Patent Document 1 is based on the premise that one microphone receives a signal in which a target sound and noise are mixed, but the other microphone has only noise or a relatively small amount even if the target sound is mixed. ing.
特開2004-226656号公報Japanese Patent Application Publication No. 2004-226656
 しかしながら、複数のマイクを用いて生成した音信号を処理する際には、何れのマイクにも目的音と雑音とが混在する環境と、一のマイクに目的音と雑音が入り他のマイクに雑音が主として入る環境とで、同一の処理を行うと、目的音を好適に処理することができないことがある。上記非特許文献1及び特許文献1に開示の発明では、このことは考慮されていない。 However, when processing sound signals generated using a plurality of microphones, an environment in which the target sound and noise are mixed in any of the microphones, and the target sound and noise in one of the microphones cause noise in the other microphones. If the same processing is performed in an environment where the sound mainly enters, the target sound may not be processed properly. This is not taken into consideration in the inventions disclosed in Non-Patent Document 1 and Patent Document 1 above.
 本発明は、上記の点に鑑みて、これらの問題を解消するために発明されたものであり、複数の環境において、マイクから入力される音信号の雑音を好適に減じることを目的としている。 The present invention has been made to solve these problems in view of the above points, and it is an object of the present invention to preferably reduce noise of a sound signal input from a microphone in a plurality of environments.
 上述した課題を解決し、目的を達成するために、本発明の一態様は、音源と複数のマイクとの相対位置の指標を検出する位置パターン検出部と、前記複数のマイクの各々から入力される音信号に対する音声処理を、前記相対位置の指標に基づいて決定する処理決定部と、前記音信号に対し、決定された前記音声処理を実行する信号処理部と、を有することを特徴とする。 In order to solve the problems described above and to achieve the object, an aspect of the present invention provides a position pattern detection unit that detects an index of relative position between a sound source and a plurality of microphones, and input from each of the plurality of microphones And a signal processing unit that executes the determined audio processing on the sound signal. The processing determination unit determines the audio processing on the sound signal based on the index of the relative position. .
 本発明によれば、複数の環境において、マイクから入力される音信号の雑音を好適に減じることが可能になる。 According to the present invention, it is possible to suitably reduce noise of a sound signal input from a microphone in a plurality of environments.
第1の実施形態に係わる音声処理装置を示すブロック図である。FIG. 1 is a block diagram showing an audio processing apparatus according to a first embodiment. 第1の実施形態に係る音声処理装置における処理を示すフローチャートを示す図である。It is a figure which shows the flowchart which shows the process in the speech processing unit concerning a 1st embodiment. 位置パターンを示す図(その1)である。It is a figure (the 1) showing a position pattern. 位置パターンを示す図(その2)である。It is a figure (the 2) which shows a position pattern. 位置パターンを示す図(その3)である。It is a figure (the 3) which shows a position pattern. 位置パターン(2)と分類された場合の、音声処理装置の例を示す図である。It is a figure which shows the example of a speech processing unit at the time of being classified with position pattern (2). 位置パターン(1)と分類された場合の、音声処理装置の例を示す図である。It is a figure which shows the example of a speech processing unit at the time of being classified with position pattern (1). 第2の実施形態に係わる音声処理装置を示すブロック図である。It is a block diagram showing the speech processing unit concerning a 2nd embodiment. 第2の実施形態に係わる音声処理装置の動作を示すフローチャートを示す図である。It is a figure which shows the flowchart which shows operation | movement of the speech processing unit concerning 2nd Embodiment. 第3の実施形態に係わる音声処理装置を示すブロック図である。It is a block diagram showing the speech processing unit concerning a 3rd embodiment. 第3の実施形態に係わる音声処理装置の動作を示すフローチャートを示す図である。It is a figure showing the flow chart which shows operation of the speech processing unit concerning a 3rd embodiment. 角度センサを携帯電話に設けた例を説明する図である。It is a figure explaining the example which provided the angle sensor in the mobile telephone. 本実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。It is an explanatory view showing the hardware constitutions of the speech processing unit concerning this embodiment.
(第1の実施形態)
 図1は、第1の実施形態に係わる音声処理装置を示すブロック図である。第1の実施形態に係わる音声処理装置100は、入力される音信号を、予め保持する音源の位置パターンに照合し、位置パターン毎に対応する音声処理を実行する。音声処理装置100は、音入力部101、位置パターン検出部102、処理決定部103、信号処理部104、及び、パターンデータベース(以下、「パターンDB」という。)109を有する。
First Embodiment
FIG. 1 is a block diagram showing an audio processing apparatus according to the first embodiment. The speech processing apparatus 100 according to the first embodiment collates the input sound signal with the position pattern of the sound source held in advance, and executes speech processing corresponding to each position pattern. The voice processing apparatus 100 includes a sound input unit 101, a position pattern detection unit 102, a process determination unit 103, a signal processing unit 104, and a pattern database (hereinafter referred to as "pattern DB") 109.
 音入力部101は、複数のマイクからの入力音をデジタル化された音信号に変換し、音声の始終端を検出する。位置パターン検出部102は、音信号から、音源とマイクとの位置パターンの指標を検出する。処理決定部103は、位置パターンの指標を予め保持される位置パターンに照合することにより音信号に対して実行する処理を決定する。信号処理部104は、処理決定部103の決定に従って処理を行う。 The sound input unit 101 converts input sounds from a plurality of microphones into digitized sound signals, and detects the start and end of sound. The position pattern detection unit 102 detects an index of the position pattern of the sound source and the microphone from the sound signal. The process determining unit 103 determines the process to be performed on the sound signal by comparing the index of the position pattern with the position pattern held in advance. The signal processing unit 104 performs processing in accordance with the determination of the processing determination unit 103.
 パターンDB109は、複数のマイクと音源との位置パターンに係る情報を保持する。位置パターンは、複数のマイクと音源との相対的な位置(相対位置)を表す。パターンDB109には、位置パターン毎に、複数のマイクから入力される音信号のパターンの指標が対応づけられて格納されている。パターンDB109に格納されるパターンは、処理決定部103により呼び出され、位置パターン検出部102により検出された指標と照合される。 The pattern DB 109 holds information relating to position patterns of a plurality of microphones and sound sources. The position pattern represents the relative position (relative position) of the plurality of microphones and the sound source. In the pattern DB 109, indexes of patterns of sound signals input from a plurality of microphones are stored in association with each position pattern. The pattern stored in the pattern DB 109 is called by the process determination unit 103 and is compared with the index detected by the position pattern detection unit 102.
 図2は、第1の実施形態に係る音声処理装置100における処理を示すフローチャートである。ここでは、音源とマイクとの位置パターンを、2本のマイクロホンを使用して取得する例について説明する。2本のマイクを、それぞれ、マイク1及びマイク2とする。 FIG. 2 is a flowchart showing processing in the speech processing apparatus 100 according to the first embodiment. Here, an example in which position patterns of a sound source and a microphone are acquired using two microphones will be described. Let two microphones be a microphone 1 and a microphone 2, respectively.
 ステップS101では、音入力部101が、AD変換器を用いて、マイクロホンに入力される音をアナログ信号からデジタル信号に変換する。 In step S101, the sound input unit 101 converts the sound input to the microphone from an analog signal to a digital signal using an AD converter.
 ステップS102では、雑音処理を行う音声の始終端を検知するために、例えば、ゼロ交差回数等を使った音声区間検出を行う。この音声区間検出はマイク1及びマイク2のマイク出力を使って行う。 In step S102, in order to detect the start and end of the speech to be subjected to noise processing, speech section detection is performed using, for example, the number of times of zero crossing. This voice section detection is performed using the microphone outputs of the microphone 1 and the microphone 2.
 より詳細には、マイク1が取得した音信号とマイク2が取得した音信号とに対し、ゼロ交差回数を計算し、どちらかのマイクで音声区間が検出されたと判断されたらその検出点からの音を音声として扱う。 More specifically, for the sound signal acquired by the microphone 1 and the sound signal acquired by the microphone 2, the number of zero crossings is calculated, and if it is determined that the voice section is detected by either of the microphones, the detection from the detection point Treat the sound as speech.
 尚、ここでそれぞれマイク1、及び、マイク2が検出した始端情報を、それぞれ、S1、及び、S2として保持する。音声始端が最も遅く検出された出力マイクにおいて音声終端確定後、図2の処理が終了される。なお、区間検出方法はこれに限らず種々の区間検出方式を適用することが可能である。また例えば、複数マイク特有の区間検出方法を適用してもよい。 Here, the start point information detected by the microphone 1 and the microphone 2 is held as S1 and S2, respectively. The processing of FIG. 2 is ended after the end of the voice is determined in the output microphone where the voice start end is detected the latest. The section detection method is not limited to this, and various section detection methods can be applied. Also, for example, a section detection method specific to a plurality of microphones may be applied.
 ステップS103では、位置パターン検出部102が、音入力部101が検出した音声信号を用いて音源とマイクの位置パターンの指標を検出する。指標は、例えば、マイクロホン間の音声到達時間差、及び、信号レベル比を用いる。 In step S103, the position pattern detection unit 102 detects the index of the position pattern of the sound source and the microphone using the audio signal detected by the sound input unit 101. The index uses, for example, the time difference of voice arrival time between microphones and the signal level ratio.
 より詳細には、例えば、マイク1を基準とする場合に、マイク2への音声到達時間差が大きくなるほどマイク1に音源が近づいている。またマイク1側の信号レベルがマイク2と比較して大きいほどマイク1に音源が近づいている。 More specifically, for example, in the case of using the microphone 1 as a reference, the sound source is closer to the microphone 1 as the difference in time of voice arrival to the microphone 2 becomes larger. The sound source is closer to the microphone 1 as the signal level on the microphone 1 side is higher than that of the microphone 2.
 この2つの指標を算出する際には、目的とする音声の初期音声区間を使用する。初期音声とは音声が検出されてから一定区間の音声である。マイクロホン間の音声到達時間差は相互相関を用いることによって算出する。最も早く音声始端が検出されたマイクの始端検出時を時刻0とし、マイク1に入力される音声信号をx1、x1の相関算出区間を時刻tsから時刻teとし(S1<ts<te)、その区間中の波形をパワーで正規化したものをx1’とする。また、マイク2に入力される音声信号をx2とし、音声到達時間差を求めるための区間[0-T]の時刻Tを、最も遅く音声始端が検出されたマイクの始端検出時から少なくともtsからtdの区間以上取れるように設定する。例えば、S1<S2の場合、次式(1)により、Tを設定する。 When calculating these two indices, the initial voice section of the target voice is used. The initial sound is a sound of a certain section after the sound is detected. The voice arrival time difference between microphones is calculated by using cross correlation. The start time of the microphone at which the voice start end is detected the earliest is detected as time 0, the voice signal input to the microphone 1 is x1, the correlation calculation section of x1 is time ts to time te (S1 <ts <te) What normalized the waveform in a section by power is set to x1 '. Also, assuming that the audio signal input to the microphone 2 is x2, the time T of the section [0-T] for obtaining the audio arrival time difference is at least ts from the detection of the microphone's late end when the voice start end is detected the latest. Set to take more than the interval of. For example, when S1 <S2, T is set according to the following equation (1).
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
 式(1)において、出音声到達時間差tdは、次式(2)から(4)を用い、式(5)で表すことができる。
Figure JPOXMLDOC01-appb-M000002
In the equation (1), the output speech arrival time difference td can be expressed by the equation (5) using the following equations (2) to (4).
Figure JPOXMLDOC01-appb-M000002
 この到達時間差tdが音源と各マイクとの位置パターン判定指標の一つとなる。マイクが2つの場合はマイク1からマイク2に対しての到達時間差tdを求めれば正負の符号を逆にすることによってマイク2からマイク1に対しての到達時間差となる。
 マイク1,マイク2間の信号レベル比ddは先ほど求めたtdを使い下式で求めることができる。
Figure JPOXMLDOC01-appb-M000003
The arrival time difference td is one of the position pattern determination indexes of the sound source and each microphone. In the case of two microphones, if the arrival time difference td from the microphone 1 to the microphone 2 is determined, the arrival time difference from the microphone 2 to the microphone 1 can be obtained by reversing the positive and negative signs.
The signal level ratio dd between the microphone 1 and the microphone 2 can be obtained by the following equation using td obtained earlier.
Figure JPOXMLDOC01-appb-M000003
 式(6)の信号レベル比ddが音源と各マイクとの位置パターン判定指標の一つとなる。なお、位置パターン判定指標は前述のもののみに限らず、様々な基準を適用することが可能である。例えば、先に算出した相関の最大値などもこれに含まれる。最大相関値がある基準よりも高ければ音源と2つのマイクが等距離にあり、最大相関値がある基準よりも低ければどちらか一方のマイクには音源が近く、一方のマイクに対しては音源が遠いという位置パターンを導き出すことができる。最大相関値rmaxは次式(7)により算出される。
Figure JPOXMLDOC01-appb-M000004
The signal level ratio dd in equation (6) is one of the position pattern determination indexes of the sound source and each microphone. The position pattern determination index is not limited to those described above, and various criteria can be applied. For example, the maximum value of correlation calculated previously is included in this. If the maximum correlation value is higher than a certain reference, the sound source and the two microphones are equidistant, and if the maximum correlation value is lower than a certain reference, the sound source is near to either one microphone and the sound source to one microphone It is possible to derive a position pattern that is far. The maximum correlation value r max is calculated by the following equation (7).
Figure JPOXMLDOC01-appb-M000004
 ステップS104では、処理決定部103が、位置パターン検出部102で算出した位置パターンを判定するための指標を使い、下記の(1)から(3)の3つの位置パターンの何れに属するかを照合する。図3ないし図5は、3つの位置パターンを示す図である。 In step S104, the processing determination unit 103 uses the index for determining the position pattern calculated by the position pattern detection unit 102, and checks which of the three position patterns (1) to (3) below belongs to: Do. 3 to 5 show three position patterns.
(1)マイク1に音源が接近している(図3)。
(2)マイク2に音源が接近している(図4)。
(3)どちらのマイクにも音源は接近していない(図5)。
(1) The sound source approaches the microphone 1 (FIG. 3).
(2) The sound source approaches the microphone 2 (FIG. 4).
(3) The sound source is not close to either of the microphones (FIG. 5).
 到達時間差判定閾値tthre、信号レベル差判定閾値ddthre1,ddthre2をそれぞれ定数(ただし、tthre>0,ddthre1>ddthre2>0)とすると、td>0の場合に、次式(8)及び式(9)が成り立つとき、位置パターンは、(1)に分類される。
Figure JPOXMLDOC01-appb-M000005
Assuming that the arrival time difference determination threshold value tthre and the signal level difference determination threshold values dd thre1 and dd thre2 are constants (where t thre > 0, dd thre1 > dd thre2 > 0), when td> 0, the following expression (8) And when equation (9) holds, the position pattern is classified into (1).
Figure JPOXMLDOC01-appb-M000005
 また、td<=0の場合に、次式(10)及び式(11)が成り立つとき、位置パターンは、(2)に分類される。
Figure JPOXMLDOC01-appb-M000006
 (1)及び(2)の何れにも分類されなければ、位置パターンは(3)に分類される。
Further, when td <= 0, when the following equations (10) and (11) hold, the position pattern is classified into (2).
Figure JPOXMLDOC01-appb-M000006
If it is not classified into either of (1) and (2), the position pattern is classified into (3).
 ステップS105では、信号処理部104が、分類された位置パターンに応じて予め定められた処理を行う。図6及び図7は、信号処理部104における、信号処理の切り替え時の動作を示す図である。図6は、位置パターン(2)と分類された場合の、音声処理装置の例を示す図であり、図7は、位置パターン(1)と分類された場合の、音声処理装置の例を示す図である。 In step S105, the signal processing unit 104 performs predetermined processing in accordance with the classified position pattern. 6 and 7 are diagrams showing an operation at the time of signal processing switching in the signal processing unit 104. FIG. FIG. 6 is a diagram showing an example of a speech processing device when classified as position pattern (2), and FIG. 7 shows an example of a speech processing device when classified as position pattern (1) FIG.
 以下、信号処理の切り替えについて説明する。 Hereinafter, switching of signal processing will be described.
 位置パターンが(1)に分類された場合、マイク1に入力される音声を目的音声とし、マイク2に入力される音を雑音として処理する。具体的には、音声処理装置100の出力音声oは、αを定数(0≦α)とすると、先ほど算出した遅延時間tdを用いて、次式(12)で表すことができる。
Figure JPOXMLDOC01-appb-M000007
When the position pattern is classified into (1), the voice input to the microphone 1 is set as the target voice, and the sound input to the microphone 2 is processed as noise. Specifically, assuming that α is a constant (0 ≦ α), the output speech o of the speech processing apparatus 100 can be expressed by the following equation (12) using the delay time td calculated earlier.
Figure JPOXMLDOC01-appb-M000007
 また、このとき信号を周波数領域に変換してスペクトルサブトラクションを行っても良い。または、エコーキャンセラ等でよく用いられる適応フィルタを用いてx2を参照信号としてx1から雑音成分を除去する方法も可能である。 At this time, the signal may be converted to the frequency domain to perform spectral subtraction. Alternatively, it is also possible to remove noise components from x1 using x2 as a reference signal using an adaptive filter that is often used in an echo canceller or the like.
 位置パターンが(2)に分類された場合、マイク2に入力される音声を目的音声とし、マイク1に入力される音を雑音として処理する。具体的な処理は位置パターン(1)の場合の処理のマイク1とマイク2を入れ替えたときと同じである。このとき出力音声oは、次式(13)で表される。
Figure JPOXMLDOC01-appb-M000008
When the position pattern is classified into (2), the voice input to the microphone 2 is set as the target voice, and the sound input to the microphone 1 is processed as noise. The specific process is the same as when the microphone 1 and the microphone 2 of the process in the case of position pattern (1) are interchanged. At this time, the output speech o is expressed by the following equation (13).
Figure JPOXMLDOC01-appb-M000008
 このようにある特定のマイクに音源が近づいているというような位置パターンとして分類された場合の処理は他にも考えることができる。例えば、αを前記最大相関値の関数にし、減算量を調整しても良い。このときa、bを定数とする一次関数により次式(14)によりαの値を制御することができる。
Figure JPOXMLDOC01-appb-M000009
As described above, the processing when the sound source is classified as a position pattern in which the sound source approaches a specific microphone can be considered in other ways. For example, α may be a function of the maximum correlation value to adjust the subtraction amount. At this time, the value of α can be controlled by the following equation (14) by a linear function with a and b as constants.
Figure JPOXMLDOC01-appb-M000009
 式(14)のようにしてαを表現することによって最大相関値が高いときには減算量を小さく、低い時には減算量を大きくすることができる。 By expressing α as in equation (14), the amount of subtraction can be reduced when the maximum correlation value is high, and the amount of subtraction can be increased when the maximum correlation value is low.
 位置パターンが(3)に分類された場合、マイク1、マイク2に入力される音声を両方用いて遅延和アレー処理を行う。遅延和アレーを用いた場合、出力音声oは、次式(15)で表される。
Figure JPOXMLDOC01-appb-M000010
When the position pattern is classified into (3), the delay-and-sum array process is performed using both the voices input to the microphone 1 and the microphone 2. When a delay and sum array is used, the output speech o is expressed by the following equation (15).
Figure JPOXMLDOC01-appb-M000010
 尚、このアレー処理適応部では上記方式に限定されず、例えばGriffiths-Jim型のアレー処理を適用することによって、2つのマイクロホンで一定の角度に対して雑音の死角を形成し、その範囲の音声に対してSNRの高い目的音声oを抽出することが可能となる。
 図2に戻り、ステップS106では、音入力部101で終端が検出され、音声処理終了を終了する。
Note that this array processing adaptation unit is not limited to the above method, and for example, by applying Griffiths-Jim type array processing, two microphones form a blind spot of noise for a certain angle, and the voice of that range is generated. It is possible to extract the target voice o with high SNR.
Returning to FIG. 2, in step S106, the end is detected by the sound input unit 101, and the end of the audio processing is ended.
 以上、2つのマイクロホンを例に、本発明の実施の形態を説明したが、本発明を実施するに当って、マイクロホンが2本であることは必須ではなく、本発明を3つ以上のマイクロホンに拡張することも可能である。マイク3つの場合、マイクをマイク1、マイク2、マイク3とすると、以下の7つの位置パターンを用意する。 Although the embodiments of the present invention have been described by taking two microphones as an example, it is not essential that two microphones are used in practicing the present invention, and the present invention may be applied to three or more microphones. It is also possible to expand. In the case of three microphones, assuming that the microphones are microphone 1, microphone 2 and microphone 3, the following seven position patterns are prepared.
(1’)マイク1に接近している。
(2’)マイク2に接近している。
(3’)マイク3に接近している。
(4’)マイク1、2に接近している。
(5’)マイク2、3に接近している。
(6’)マイク1、3に接近している。
(7’)どのマイクにも接近していない。
(1 ') The microphone 1 is approaching.
(2 ') The microphone 2 is approaching.
(3 ') The microphone 3 is approaching.
(4 ') The microphones 1 and 2 are approaching.
(5 ') The microphones 2 and 3 are approaching.
(6 ') The microphones 1 and 3 are approaching.
(7 ') Not approaching any microphones.
 入力される音信号に対し、先述の到達時間差、信号レベル差を用いてどの位置パターンに分類されるかを決定する。より詳細には、マイク1からマイク2への到達時間差をtd12とし、式(2)ないし式(5)により算出する。他のマイク間の到達時間差も同様に、td13、td21、td23、td31、td32とし、これらを算出する。またマイク1のマイク2に対する信号レベル差をdd12とし、式(6)により算出する。他のマイク間の信号レベル差も同様に、dd13、dd21、dd23、dd31、dd32とし、これらを算出する。 For the input sound signal, it is determined which position pattern is to be classified using the above-mentioned arrival time difference and signal level difference. More specifically, the difference in arrival time from the microphone 1 to the microphone 2 is td 12, and is calculated by the equations (2) to (5). Similarly, the arrival time differences among the other microphones are calculated as td 13 , td 21 , td 23 , td 31 , and td 32 , respectively. Further, the signal level difference between the microphone 1 and the microphone 2 is dd 12 and calculated by the equation (6). Similarly, the signal level difference between the other microphones, and dd 13, dd 21, dd 23 , dd 31, dd 32, calculates them.
 このとき音源から最も近いマイクn1は他2つのマイクとの到達時間差が正の値となる。2番目に音源に近いマイクn2は残る一つのマイクに対して到達時間差が正となり、マイクn1に対しては負となる。最も音源から遠いマイクn3は他2つのマイクとの到達時間差が負の値となる。そこで、この特性により、先ず、何れのマイクが、マイクn1、マイクn2、マイクn3となるかを決定する。 At this time, the arrival time difference between the microphone n1 closest to the sound source and the other two microphones becomes a positive value. The arrival time difference of the second microphone n2 closest to the sound source is positive with respect to the remaining one microphone, and is negative with respect to the microphone n1. The microphone n3 farthest from the sound source has a negative arrival time difference with the other two microphones. Therefore, based on this characteristic, it is first determined which microphone will be the microphone n1, the microphone n2 and the microphone n3.
 マイクn1とマイクn2との到達時間差がtdn1n2、その到達時間差の閾値がtdthre1、マイクn1とマイクn2との信号レベル差がddn1n2、その信号レベル差の閾値がddthre1であり、次式(16)及び式(17)が満たされる場合に、マイク1がマイクn1であるとき(1’)、マイク2がマイクn1であるとき(2’)、マイク3がマイクn1であるとき(3’)の位置パターンに分類する。
Figure JPOXMLDOC01-appb-M000011
Mike n1 and arrival time difference td between the microphone n2 N1N2, the arrival time difference threshold td thre1, microphone n1 and the signal level difference dd N1N2 with microphone n2, the threshold of the signal level difference is dd thre1, the following equation When the microphone 1 is the microphone n1 (1 ′) and the microphone 2 is the microphone n1 (2 ′) when the equation (17) and the equation (17) are satisfied (2 ′), the microphone 3 is the microphone n1 (3 Classify in ') position pattern.
Figure JPOXMLDOC01-appb-M000011
 次に、マイクn1とマイクn2との到達時間差がtdn1n2、その到達時間差の閾値がtdthre1、マイクn2とマイクn3との到達時間差がtdn2n3、その到達時間差の閾値がtdthre2、マイクn1とマイクn2との信号レベル差がddn1n2、その信号レベル差の閾値がddthre1、マイクn2とマイクn3との信号レベル差がddn2n3、その信号レベル差の閾値がddthre2であり、次式(18)ないし式(21)を満たす場合に、マイク3がマイクn3であるとき(4’)、マイク1がマイクn3であるとき(5’)、マイク2がマイクn3であるとき(6’)の位置パターンに分類する。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
Next, the arrival time difference between the microphone n1 and the microphone n2 is td N1N2, the threshold of the arrival time difference td thre1, the arrival time difference between the microphone n2 and the microphone n3 is td N2N3, the threshold of the arrival time difference td thre2, a microphone n1 signal level difference dd N1N2 with microphone n2, threshold dd thre1 of the signal level differences, microphone n2 and the signal level difference dd N2N3 with microphone n3, the threshold of the signal level difference is dd thre2, the following equation ( 18) When the expression (21) is satisfied, the microphone 3 is the microphone n3 (4 '), the microphone 1 is the microphone n3 (5'), the microphone 2 is the microphone n3 (6 ') Classify into location patterns of
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
 また、(1’)から(6’)のどの位置パターンにも分類されなかった場合は、全てのマイクに対する音源の距離が遠いとみなし(7’)の位置パターンに分類する。 Also, if it is not classified into any position pattern from (1 ') to (6'), the distance of the sound source to all the microphones is considered to be far, and is classified into the position pattern (7 ').
 このように分類された後、各パターンによって処理を切り替える。より詳細には(1’),(2’),(3’)の場合は、式(22)による処理を行い、音源に近いマイクの目的音から雑音を減算する。
Figure JPOXMLDOC01-appb-M000014
 但し、α1、α2は定数であり、α1≧0、α2≧0である。
After being classified in this way, processing is switched according to each pattern. More specifically, in the case of (1 ′), (2 ′), (3 ′), the processing according to equation (22) is performed to subtract the noise from the target sound of the microphone close to the sound source.
Figure JPOXMLDOC01-appb-M000014
Here, α1 and α2 are constants, and α1 ≧ 0 and α2 ≧ 0.
 また、(4’)、(5’)、(6’)の場合は、式(23)による処理を行う。これにより、音源に近い2つのマイクは遅延和アレーで音声強調され、音源から最も遠いマイクの出力は雑音の減算に使用される。
Figure JPOXMLDOC01-appb-M000015
Moreover, in the case of (4 ′), (5 ′), (6 ′), the processing by the equation (23) is performed. As a result, the two microphones near the sound source are voice-emphasized in the delay sum array, and the output of the microphone farthest from the sound source is used for noise subtraction.
Figure JPOXMLDOC01-appb-M000015
 また、(7’)の場合は、式(24)により処理を行う。これにより、全てのマイクを使って遅延和アレーで音声強調される。
Figure JPOXMLDOC01-appb-M000016
このように3つのマイクロホンにも容易に拡張可能である。
Further, in the case of (7 ′), the process is performed according to equation (24). As a result, speech is emphasized in the delay and sum array using all the microphones.
Figure JPOXMLDOC01-appb-M000016
Thus, it can be easily expanded to three microphones.
 また3つ以上のマイクを使い、3次元空間で音源位置を推定してもよい。音源位置が推定できた場合,各マイクから音源までの距離を算出することができる。この処理によって得られたマイク-音源間の距離をそれぞれld,ld,ldとする。 Also, three or more microphones may be used to estimate the sound source position in a three-dimensional space. When the sound source position can be estimated, the distance from each microphone to the sound source can be calculated. Let the distances between the microphone and the sound source obtained by this processing be ld 1 , ld 2 and ld 3 respectively.
 このとき,距離閾値ldthreを定数として、次式(25)を満たす場合に、(1’)に分類される。
Figure JPOXMLDOC01-appb-M000017
 同様に、(2’)~(7’)の位置パターンへの分類も実現することができる。
At this time, when the distance threshold ld thre is a constant and the following expression (25) is satisfied, the distance is classified into (1 ′).
Figure JPOXMLDOC01-appb-M000017
Similarly, classification into position patterns (2 ′) to (7 ′) can also be realized.
(第2の実施形態)
 図8は、第2の実施形態に係わる音声処理装置を示すブロック図である。第2の実施形態に係わる音声処理装置100aは、音信号に対し、位置センサにより取得される音源の位置毎に対応する処理を選択して行う。音声処理装置100aは、音入力部101、位置パターン検出部102a、処理決定部103a、信号処理部104、及び、パターンDB109aを有する。
Second Embodiment
FIG. 8 is a block diagram showing an audio processing apparatus according to the second embodiment. The speech processing apparatus 100a according to the second embodiment selects and performs processing corresponding to each position of the sound source acquired by the position sensor on the sound signal. The voice processing device 100a includes a sound input unit 101, a position pattern detection unit 102a, a process determination unit 103a, a signal processing unit 104, and a pattern DB 109a.
 音入力部101は、入力音から、音声の始終端を検出する。位置パターン検出部102aは、位置センサからの信号により、音源とマイクとの位置パターンの指標を検出する。処理決定部103aは、位置パターンの指標を、予め保持する位置パターンに照合することによって実行する処理を決定する。信号処理部104は、処理決定部103aの決定に従って処理を行う。 The sound input unit 101 detects the start and end of voice from the input sound. The position pattern detection unit 102a detects an index of the position pattern of the sound source and the microphone based on the signal from the position sensor. The process determination unit 103a determines the process to be performed by collating the index of the position pattern with the position pattern held in advance. The signal processing unit 104 performs processing in accordance with the determination of the processing determination unit 103a.
 パターンDB109aは、音源とマイクとの位置バターンを保持する。パターンDB109aには、音源とマイクとの相対的な位置の位置パターン毎に、位置センサからの入力される信号の指標が対応づけられている。パターンDB109aに格納される位置パターンは、位置パターン検出部102aから読み出され、位置センサからの入力と照合される。 The pattern DB 109a holds position patterns of the sound source and the microphone. In the pattern DB 109a, the index of the signal input from the position sensor is associated with each position pattern of the relative position between the sound source and the microphone. The position pattern stored in the pattern DB 109a is read from the position pattern detection unit 102a, and is collated with the input from the position sensor.
 図9は、第2の実施形態に係わる音声処理装置の動作を示すフローチャートである。2つのマイクロホン(マイク1、マイク2)を使用し、目的音声を処理する例を用いて説明する。なお、マイクロホンが2つであることは必須ではなく、マイクロホンが2つ以上あれば実施可能である。また目的音が音声であることも必須要素ではない。本実施形態の動作は位置センサ、位置パターン検出部102a、及び、処理決定部103aの動作を除き第1の実施形態と同様であり、第1の実施形態と同じ動作の部分は説明を割愛する。 FIG. 9 is a flowchart showing the operation of the speech processing apparatus according to the second embodiment. Description will be made using an example in which two microphones (microphone 1 and microphone 2) are used to process a target voice. In addition, it is not essential that there are two microphones, and implementation is possible if there are two or more microphones. In addition, it is not an essential element that the target sound is voice. The operation of the present embodiment is the same as that of the first embodiment except for the operations of the position sensor, the position pattern detection unit 102a, and the processing determination unit 103a, and the same operation as that of the first embodiment will not be described. .
 ステップS203では、各マイク近くに取り付けられた位置センサからの出力により、そのセンサでの測定結果を位置パターン判定指標とする。具体的には、位置センサを各マイクから音源に当る対象物体までの距離を測定できる赤外線センサなどとし、各マイクから音源までの距離を測定する。マイクを2つ使用し、それぞれマイク1、マイク2から音源までの距離をld、ldとする。 In step S203, the measurement result of the sensor is used as a position pattern determination index by the output from the position sensor attached near each microphone. Specifically, the position sensor is an infrared sensor or the like that can measure the distance from each microphone to the target object that hits the sound source, and the distance from each microphone to the sound source is measured. Two microphones are used, and distances from the microphone 1 and the microphone 2 to the sound source are ld 1 and ld 2 respectively.
 ステップS204では、処理決定部103aが、位置パターン検出部102aで算出した位置パターン判定指標を使い、3つの位置パターンのどれに属するか分類する。3つのパターンを以下に示す。
(1A)マイク1に音源が接近している。
(2A)マイク2に音源が接近している。
(3A)どちらのマイクにも音源は接近していない。
In step S204, the process determining unit 103a uses the position pattern determination index calculated by the position pattern detecting unit 102a to classify to which of the three position patterns it belongs. Three patterns are shown below.
(1A) The sound source is approaching the microphone 1.
(2A) The sound source approaches the microphone 2.
(3A) The sound source is not close to either of the microphones.
 このとき,距離閾値ldthreを定数とすると、次式(26)が成り立つ場合に、(1A)に分類し、次式(27)が成り立つ場合に、(2A)に分類する。
Figure JPOXMLDOC01-appb-M000018
At this time, assuming that the distance threshold ld thre is a constant, it is classified into (1A) if the following equation (26) holds, and it is classified into (2A) if the following equation (27) holds.
Figure JPOXMLDOC01-appb-M000018
上記の何れでもない場合には、(3A)の位置パターンに分類する。位置パターン分類後の、ステップS205及びステップS206の処理は、図2のステップS105及びステップS106と同じあるので、ここでは説明を省略する。 If none of the above, it is classified into the position pattern (3A). The processing in step S205 and step S206 after position pattern classification is the same as step S105 and step S106 in FIG. 2, and thus the description thereof is omitted here.
(第3の実施形態)
 図10は、第3の実施形態に係わる音声処理装置を示すブロック図である。第3の実施形態に係わる音声処理装置100bは、位置センサからの入力と、音信号と、に基づいて、音源の位置パターンを検出し、位置パターン毎に対応する音声処理を実行する。
Third Embodiment
FIG. 10 is a block diagram showing an audio processing apparatus according to the third embodiment. The voice processing apparatus 100b according to the third embodiment detects a position pattern of a sound source based on an input from a position sensor and a sound signal, and executes voice processing corresponding to each position pattern.
 音声処理装置100bは、音入力部101、位置パターン検出部102b、処理決定部103b、信号処理部104、及び、パターンDB109bを有する。
 音入力部101は、マイクからの入力音をデジタル化された音信号に変換し、音声の始終端を検出する。位置パターン検出部102bは、位置センサからの入力と音声とから音源とマイクとの位置パターンの指標を検出する。処理決定部103bは、位置パターンの指標を、予め保持する位置パターンに照合することによって実行する処理を決定する。信号処理部104は、処理決定部103bの決定に従って処理を行う。
The voice processing device 100b includes a sound input unit 101, a position pattern detection unit 102b, a process determination unit 103b, a signal processing unit 104, and a pattern DB 109b.
The sound input unit 101 converts the input sound from the microphone into a digitized sound signal, and detects the start and end of sound. The position pattern detection unit 102 b detects an index of the position pattern of the sound source and the microphone from the input from the position sensor and the voice. The process determining unit 103b determines the process to be performed by collating the index of the position pattern with the position pattern held in advance. The signal processing unit 104 performs processing in accordance with the determination of the processing determination unit 103 b.
 パターンDB109bは、マイクと音源との位置パターンを保持する。パターンDB109bには、マイクと音源との相対的な位置の位置パターン毎に、位置センサから入力される信号の指標と音信号の指標との組み合わせが対応づけられている。パターンDB109bに格納されるパターンは、位置パターン検出部102bから呼び出され、音入力部101が取得した音信号及び位置センサからの入力と照合される。 The pattern DB 109 b holds positional patterns of the microphone and the sound source. In the pattern DB 109b, combinations of the index of the signal input from the position sensor and the index of the sound signal are associated with each position pattern of the relative position between the microphone and the sound source. The pattern stored in the pattern DB 109 b is called from the position pattern detection unit 102 b, and is collated with the sound signal acquired by the sound input unit 101 and the input from the position sensor.
 図11は、第3の実施形態に係わる音声処理装置の動作を示すフローチャートである。ここでは、2つのマイクロホン(マイク1,マイク2)を使用し目的音声を処理する例を用いて説明する。なお、マイクロホンが2つであることは必須ではなく,マイクロホンが2つ以上あればよい。また目的音が音声であることも必須要素ではない。本実施形態の動作は位置パターン検出部102b、及び、処理決定部103bの動作が、第2の実施形態と異なる他は、第2の実施形態と同様であるので、同動作の部分はここでは、説明を割愛する。 FIG. 11 is a flowchart showing the operation of the speech processing apparatus according to the third embodiment. Here, an example in which two microphones (microphone 1 and microphone 2) are used to process a target voice will be described. In addition, it is not essential that there are two microphones, and two or more microphones are sufficient. In addition, it is not an essential element that the target sound is voice. The operation of the present embodiment is the same as that of the second embodiment except that the operations of the position pattern detection unit 102b and the process determination unit 103b are different from those of the second embodiment, and therefore the same operation part is , I will omit the explanation.
 音声処理装置100bは、例えば、位置センサとして距離センサを用いるとよい。ステップS303では、位置パターン検出部102bが、距離センサによる測定結果と音声情報とを位置パターン判定指標として取得する。 The voice processing device 100b may use, for example, a distance sensor as a position sensor. In step S303, the position pattern detection unit 102b acquires the measurement result by the distance sensor and the voice information as a position pattern determination index.
 より詳細には、位置センサとして赤外線センサなどを使い、本装置から音源までの距離を測定する。また音信号を取得するマイクを2つ使用し、センサを使って取得した音声処理装置100bから音源までの距離をldとする。また第1の実施形態と同様に,音声到達時間差td、信号レベル比ddもそれぞれ求めておく。 More specifically, an infrared sensor or the like is used as a position sensor to measure the distance from the device to the sound source. Further, two microphones for acquiring a sound signal are used, and a distance from the sound processing apparatus 100b acquired using a sensor to a sound source is ld. Further, as in the first embodiment, the voice arrival time difference td and the signal level ratio dd are also determined.
 ステップS304では、処理決定部103bが、位置パターン検出部102bで算出した位置パターン判定指標を使い,3つの位置パターンのどれに属するか分類する。3つのパターンを以下に示す。
(1B)マイク1に音源が接近している。
(2B)マイク2に音源が接近している。
(3B)どちらのマイクにも音源は接近していない。
In step S304, the process determining unit 103b uses the position pattern determination index calculated by the position pattern detecting unit 102b to classify to which of the three position patterns it belongs. Three patterns are shown below.
(1B) The sound source is approaching the microphone 1.
(2B) The sound source is approaching the microphone 2.
(3B) The sound source is not close to either of the microphones.
 到達時間差判定閾値tthre、信号レベル差判定閾値ddthre1、ddthre2、距離判定閾値ldthreをそれぞれ定数(ただし、tthre>0,ddthre1>ddthre2>0,ldthre>0)とする。ここで、td>0の場合に、次式(28)が全て成り立つとき、位置パターンを(1B)に分類する。
Figure JPOXMLDOC01-appb-M000019
The arrival time difference determination threshold t thre , the signal level difference determination threshold dd thre1 , dd thre2 , and the distance determination threshold ld thre are respectively constant (where t thre > 0, dd thre1 > dd thre2 > 0, l d thre > 0). Here, in the case of td> 0, the position pattern is classified into (1B) when all the following expressions (28) hold.
Figure JPOXMLDOC01-appb-M000019
 また、td<=0の場合に、次式(29)が全て成り立つとき、位置パターンを(2B)に分類する。
Figure JPOXMLDOC01-appb-M000020
また、(1B)、(2B)の何れでもない位置パターンを(3B)に分類する。この3つの位置パターン毎に、第1の実施形態の(1),(2),(3)と同様の処理を行う。
Further, in the case of td <= 0, the position pattern is classified into (2B) when the following equation (29) is all satisfied.
Figure JPOXMLDOC01-appb-M000020
Also, position patterns that are neither (1B) nor (2B) are classified as (3B). Processing similar to (1), (2) and (3) of the first embodiment is performed for each of the three position patterns.
 また,角度センサからの出力を位置パターン判定指標として使用することもできる。図12は、角度センサを携帯電話に設けた例を説明する図である。図12の例では、携帯電話は、操作時は横向き,通話時は縦向きに使用される。このような機器において,機器本体に取り付けられた角度センサを使い角度を検出する。検出する角度θの例を、図12に示す。角度θは、例えば、2つのマイクを結ぶ線分と地面とが水平である位置を0度とする。また第1の実施形態と同様に、音声到達時間差td,信号レベル比ddもそれぞれ求めておく。 The output from the angle sensor can also be used as a position pattern determination index. FIG. 12 is a diagram for explaining an example in which an angle sensor is provided in a mobile phone. In the example of FIG. 12, the mobile phone is used sideways at the time of operation and vertically at the time of call. In such a device, the angle is detected using an angle sensor attached to the device body. An example of the detected angle θ is shown in FIG. The angle θ is, for example, 0 degrees where the line connecting two microphones and the ground are horizontal. Also, as in the first embodiment, the voice arrival time difference td and the signal level ratio dd are also determined.
 図12の例では、(1B),(2B),(3B)への位置パターンの分類は、到達時間差判定閾値tthre,信号レベル差判定閾値ddthre1,ddthre2,角度判定閾値θthre,をそれぞれ定数(ただし,tthre>0,ddthre1>ddthre2>0,θthre≧0)とすると次式(30)及び次式(31)により行われる。 In the example of FIG. 12, the classification of the position patterns into (1B), (2B), and (3B) includes the arrival time difference determination threshold t thre , the signal level difference determination threshold dd thre1 , dd thre2 , and the angle determination threshold θ thre . Assuming that constants (where thre > 0, dd thre1 > dd thre2 > 0, θ thre 0 0), respectively, the following equations (30) and (31) are used.
 td>0の場合に、次式(30)が成り立つとき、位置パターンは、(1B)に分類される。
Figure JPOXMLDOC01-appb-M000021
When td> 0, the position pattern is classified into (1B) when the following equation (30) holds.
Figure JPOXMLDOC01-appb-M000021
 td<=0の場合に、次式(31)が成り立つとき、位置パターンは、(2B)に分類される。
Figure JPOXMLDOC01-appb-M000022
位置パターンが(1B),(2B)の何れでもない場合には、(3B)に分類される。
In the case of td <= 0, the position pattern is classified into (2B) when the following equation (31) holds.
Figure JPOXMLDOC01-appb-M000022
If the position pattern is neither (1B) nor (2B), it is classified as (3B).
 (コンピュータ等による実現 最小構成)
 次に、本実施の形態にかかる音声処理装置のハードウェア構成について図13を用いて説明する。図13は、本実施の形態にかかる音声処理装置のハードウェア構成を示す説明図である。
(Implementation by computer etc. Minimum configuration)
Next, the hardware configuration of the speech processing apparatus according to the present embodiment will be described with reference to FIG. FIG. 13 is an explanatory view showing a hardware configuration of the speech processing apparatus according to the present embodiment.
 本実施の形態にかかる音声処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。 The voice processing apparatus according to the present embodiment is connected to a control device such as a central processing unit (CPU) 51, a storage device such as a read only memory (ROM) 52 or a random access memory (RAM) 53, and a network. A communication I / F 54 for performing communication and a bus 61 for connecting each unit are provided.
 本実施の形態にかかる音声処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。 The program executed by the voice processing apparatus according to the present embodiment is provided by being incorporated in advance in the ROM 52 or the like.
 本実施の形態にかかる音声処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。 The program executed by the voice processing apparatus according to the present embodiment is a file in an installable format or an executable format, and is a compact disk read only memory (CD-ROM), a flexible disk (FD), a compact disk (CD-R) It may be configured to be recorded and provided in a computer readable recording medium such as a Disk Recordable) or a DVD (Digital Versatile Disk).
 さらに、本実施の形態にかかる音声処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる音声処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Furthermore, the program executed by the voice processing apparatus according to the present embodiment may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. Further, the program executed by the voice processing apparatus according to the present embodiment may be provided or distributed via a network such as the Internet.
 本実施の形態にかかる音声処理装置で実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。 The program executed by the voice processing apparatus according to the present embodiment has a module configuration including the above-described units, and as the actual hardware, the CPU 51 reads out the program from the ROM 52 and executes the program. It is loaded on the main storage device, and each part is generated on the main storage device.
 なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 The present invention is not limited to the above embodiment as it is, and at the implementation stage, the constituent elements can be modified and embodied without departing from the scope of the invention. In addition, various inventions can be formed by appropriate combinations of a plurality of constituent elements disclosed in the above embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, components in different embodiments may be combined as appropriate.
 以上のように、本発明の実施の形態にかかる音声処理装置は、雑音除去に有用であり、特に、マイクロホンアレイから入力される音信号の処理に適している。 As described above, the voice processing apparatus according to the embodiment of the present invention is useful for noise removal, and is particularly suitable for processing a sound signal input from a microphone array.
1、2、3   マイク
100、100a、100b  音声処理装置
101 音入力部
102、102a、102b  位置パターン検出部
103、103a、103b  処理決定部
104 信号処理部
1, 2, 3 microphones 100, 100a, 100b audio processing apparatus 101 sound input units 102, 102a, 102b position pattern detection units 103, 103a, 103b processing determination unit 104 signal processing unit

Claims (8)

  1.  音源と複数のマイクとの相対位置の指標を検出する位置パターン検出部と、
     前記複数のマイクの各々から入力される音信号に対する音声処理を、前記相対位置の指標に基づいて決定する処理決定部と、
     前記音信号に対し、決定された前記音声処理を実行する信号処理部と、
    を有することを特徴とする音声処理装置。
    A position pattern detection unit that detects an index of the relative position between the sound source and the plurality of microphones;
    A processing determination unit that determines audio processing on a sound signal input from each of the plurality of microphones based on the indicator of the relative position;
    A signal processing unit that executes the determined audio processing on the sound signal;
    A voice processing device characterized by having.
  2.  前記相対位置の指標は、前記複数のマイクから入力される音信号の、到達時間差及び前記音信号のレベル差を含むことを取得することを特徴とする請求項1記載の音声処理装置。 The speech processing apparatus according to claim 1, wherein the indicator of the relative position includes that the arrival time difference of the sound signal input from the plurality of microphones and the level difference of the sound signal are included.
  3.  前記相対位置の指標は、前記複数のマイクの各々に対し所定の位置に設けられる距離センサにより測定される距離を含むことを特徴とする請求項1記載の音声処理装置。 The voice processing device according to claim 1, wherein the indicator of the relative position includes a distance measured by a distance sensor provided at a predetermined position for each of the plurality of microphones.
  4.  前記相対位置の指標は、前記複数のマイクの各々に対し所定の位置に設けられる角度センサにより測定される前記マイクの傾きを含むことを特徴とする請求項1記載の音声処理装置。 The voice processing device according to claim 1, wherein the index of the relative position includes an inclination of the microphone measured by an angle sensor provided at a predetermined position with respect to each of the plurality of microphones.
  5.  前記処理決定部は、前記音源との距離が所定の値より小さいマイクから入力される音信号に対し、音源との距離が所定の値以上のマイクから入力される音信号より大きな重みをつける音声処理を行うこと決定することを特徴とする請求項1に記載の音声処理装置。 The process determining unit is a voice that gives a greater weight to a sound signal input from a microphone whose distance to the sound source is smaller than a predetermined value than a sound signal input from a microphone whose distance to the sound source is a predetermined value or more The speech processing apparatus according to claim 1, wherein it is determined to perform processing.
  6.  前記処理決定部は、前記複数のマイクの音源との距離が所定の値以上の場合に、前記複数のマイクから入力される音信号に対し、遅延和を取る音声処理を行うこと決定することを特徴とする請求項1に記載の音声処理装置。 The process determining unit determines to perform an audio process for obtaining a delay sum on sound signals input from the plurality of microphones when the distance between the plurality of microphones and the sound source is equal to or more than a predetermined value. The speech processing apparatus according to claim 1, characterized in that:
  7.  コンピュータを、
     音源と複数のマイクとの相対位置の指標を検出する位置パターン検出部、
     前記複数のマイクの各々から入力される音信号に対する音声処理を、前記相対位置の指標に基づいて決定する処理決定部、
     前記音信号に対し、決定された前記音声処理を実行する信号処理部、
    として機能させるためのプログラム。
    Computer,
    Position pattern detection unit that detects an indicator of the relative position between a sound source and a plurality of microphones,
    A processing determination unit that determines audio processing on a sound signal input from each of the plurality of microphones based on the indicator of the relative position;
    A signal processing unit that executes the determined audio processing on the sound signal;
    Program to function as.
  8.  位置パターン検出部が、音源と複数のマイクとの相対位置の指標を検出する位置パターン検出ステップと、
    処理決定部が、前記複数のマイクの各々から入力される音信号に対する音声処理を、前記相対位置の指標に基づいて決定する処理決定ステップと、
     信号処理部が、前記音信号に対し、決定された前記音声処理を実行する信号処理ステップと、
    を有することを特徴とする音声処理方法。
    A position pattern detection step in which the position pattern detection unit detects an index of the relative position between the sound source and the plurality of microphones;
    A process determining step of determining an audio process on a sound signal input from each of the plurality of microphones based on the indicator of the relative position;
    A signal processing step in which the signal processing unit executes the determined audio processing on the sound signal;
    An audio processing method characterized by comprising:
PCT/JP2009/068239 2009-03-26 2009-10-23 Audio processing device, audio processing method, and program WO2010109711A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-076984 2009-03-26
JP2009076984A JP2010232862A (en) 2009-03-26 2009-03-26 Audio processing device, audio processing method and program

Publications (1)

Publication Number Publication Date
WO2010109711A1 true WO2010109711A1 (en) 2010-09-30

Family

ID=42780414

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/068239 WO2010109711A1 (en) 2009-03-26 2009-10-23 Audio processing device, audio processing method, and program

Country Status (2)

Country Link
JP (1) JP2010232862A (en)
WO (1) WO2010109711A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216998A (en) * 2011-03-31 2012-11-08 Toshiba Corp Signal processing device and signal processing method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031259B2 (en) 2011-09-15 2015-05-12 JVC Kenwood Corporation Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP6179081B2 (en) * 2011-09-15 2017-08-16 株式会社Jvcケンウッド Noise reduction device, voice input device, wireless communication device, and noise reduction method
JP5958218B2 (en) * 2011-09-15 2016-07-27 株式会社Jvcケンウッド Noise reduction device, voice input device, wireless communication device, and noise reduction method
JP5772648B2 (en) * 2012-02-16 2015-09-02 株式会社Jvcケンウッド Noise reduction device, voice input device, wireless communication device, noise reduction method, and noise reduction program
JP5862349B2 (en) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド Noise reduction device, voice input device, wireless communication device, and noise reduction method
JP6031777B2 (en) * 2012-02-20 2016-11-24 株式会社Jvcケンウッド Voice input device, communication device, status notification method
JP5847006B2 (en) * 2012-04-17 2016-01-20 京セラ株式会社 Mobile communication terminal
CN104412616B (en) * 2012-04-27 2018-01-16 索尼移动通讯有限公司 The noise suppressed of correlation based on the sound in microphone array
JP7207159B2 (en) * 2019-05-21 2023-01-18 沖電気工業株式会社 Sound collection device, sound collection program, sound collection method, and sound collection system
JP7207170B2 (en) * 2019-05-28 2023-01-18 沖電気工業株式会社 Sound collection device, sound collection program, sound collection method, and sound collection system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007151103A (en) * 2005-11-02 2007-06-14 Yamaha Corp Teleconference device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007151103A (en) * 2005-11-02 2007-06-14 Yamaha Corp Teleconference device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012216998A (en) * 2011-03-31 2012-11-08 Toshiba Corp Signal processing device and signal processing method

Also Published As

Publication number Publication date
JP2010232862A (en) 2010-10-14

Similar Documents

Publication Publication Date Title
WO2010109711A1 (en) Audio processing device, audio processing method, and program
EP2633519B1 (en) Method and apparatus for voice activity detection
US10566008B2 (en) Method and apparatus for acoustic echo suppression
EP2736271B1 (en) A method of controlling an update algorithm of an adaptive feedback estimation system and a de-correlation unit
JP5197458B2 (en) Received signal processing apparatus, method and program
KR101246954B1 (en) Methods and apparatus for noise estimation in audio signals
KR101456866B1 (en) Method and apparatus for extracting the target sound signal from the mixed sound
US9959886B2 (en) Spectral comb voice activity detection
JP5870476B2 (en) Noise estimation device, noise estimation method, and noise estimation program
JP4660578B2 (en) Signal correction device
TWI720314B (en) Correlation-based near-field detector
US9781508B2 (en) Sound pickup device, program recorded medium, and method
JP4964204B2 (en) Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium
JP4816711B2 (en) Call voice processing apparatus and call voice processing method
US20110071825A1 (en) Device, method and program for voice detection and recording medium
KR20080092404A (en) System and method for utilizing inter-microphone level differences for speech enhancement
JP6065028B2 (en) Sound collecting apparatus, program and method
US20090232318A1 (en) Output correcting device and method, and loudspeaker output correcting device and method
KR20110090940A (en) Audio source proximity estimation using sensor array for noise reduction
JP6540730B2 (en) Sound collection device, program and method, determination device, program and method
KR20090037845A (en) Method and apparatus for extracting the target sound signal from the mixed sound
JP2004325127A (en) Sound source detection method, sound source separation method, and apparatus for executing them
JP2009071510A (en) Method for detecting point sound source
KR101054071B1 (en) Method and apparatus for discriminating voice and non-voice interval
JP6541588B2 (en) Audio signal processing apparatus, method and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09842321

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09842321

Country of ref document: EP

Kind code of ref document: A1