WO2017002525A1 - 信号処理装置、信号処理方法、および信号処理プログラム - Google Patents

信号処理装置、信号処理方法、および信号処理プログラム Download PDF

Info

Publication number
WO2017002525A1
WO2017002525A1 PCT/JP2016/066481 JP2016066481W WO2017002525A1 WO 2017002525 A1 WO2017002525 A1 WO 2017002525A1 JP 2016066481 W JP2016066481 W JP 2016066481W WO 2017002525 A1 WO2017002525 A1 WO 2017002525A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
input
sound
phase difference
estimated
Prior art date
Application number
PCT/JP2016/066481
Other languages
English (en)
French (fr)
Inventor
正徳 加藤
昭彦 杉山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/740,413 priority Critical patent/US10515650B2/en
Priority to JP2017526240A priority patent/JP6780644B2/ja
Publication of WO2017002525A1 publication Critical patent/WO2017002525A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Definitions

  • the present invention relates to a signal processing device, a signal processing method, and a signal processing program.
  • Non-Patent Literature 1 and Non-Patent Literature 2 estimate a disturbance sound signal component from a sum signal obtained by adding mixed signals output from a plurality of sensors, and gain corresponding to the magnitude of the interference sound signal component.
  • a technique for obtaining an emphasized signal by multiplying the sum signal by the sum signal is disclosed.
  • Non-Patent Document 1 and Non-Patent Document 2 interference sounds coming from various directions, for example, environmental noise such as automobile running sound and street noise, background noise, wind noise, etc. It was not possible to accurately estimate the diffusive disturbance sound.
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • a signal processing apparatus provides: A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Phase difference output means for outputting the phase difference of Generating means for generating an estimated disturbing sound signal based on the phase difference and the first input signal; Equipped with.
  • a signal processing method includes: A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Outputting a phase difference of Generating an estimated interfering sound signal based on the phase difference and the first input signal; including.
  • a signal processing program provides: A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Outputting a phase difference of Generating an estimated interfering sound signal based on the phase difference and the first input signal; Is executed by a computer.
  • sound refers to the sound of the sound of the sound of objects, the voice of a person or bird, or the sound caused by the vibration of an object transmitted as vibrations of the air, etc.
  • the voice is not limited.
  • the “voice signal” is a direct electrical change that occurs in accordance with voice or other acoustics, and is used to transmit voice or other acoustics, and is not limited to voice.
  • the signal processing apparatus 100 includes a phase difference output unit 101 and a generation unit 102.
  • the phase difference output unit 101 is based on the first input signal 131 generated based on the first input sound input in the environment where the target sound 110 and the interference sound 120 are mixed, and the second input sound input in the same environment.
  • the phase difference 133 with the second input signal 132 generated in this way is output.
  • the generation unit 102 generates the estimated interference sound signal 134 based on the phase difference 133 and the first input signal 131.
  • the interference sound included in the first input signal can be suppressed using the estimated interference sound signal, and the target sound can be emphasized, so that the quality of the enhancement signal is improved as compared with the prior art.
  • FIG. 2 is a block diagram for explaining the configuration of the signal processing apparatus according to the present embodiment.
  • the signal processing device 200 according to the present embodiment also functions as a part of a device such as a digital camera, a notebook computer, or a mobile phone.
  • the present invention is not limited to this, and can be applied to any signal processing apparatus that is required to remove interference sound components from an input signal acquired in an environment where target sound and interference sound are mixed.
  • a technique for enhancing the first signal component (target sound component) after estimating the second signal component (interfering sound component) with a null beamformer using a phase difference will be described. It is not limited to.
  • the signal processing device 200 includes sensors 201 and 202, conversion units 203 and 204, an estimation unit 205, a suppression unit 206, an inverse conversion unit 207, and an output terminal 208.
  • the mixed signal generated by the sensor 201 is supplied to the conversion unit 203 as a sample value series X1 (t). Further, the conversion unit 203 divides the mixed signal generated by the sensor 201 into frames composed of a plurality of samples, performs a transformation such as Fourier transform, and divides the mixed signal into a plurality of frequency components.
  • the mixed signal generated by the sensor 202 is supplied to the conversion unit 204 as a sample value series X2 (t). Further, the conversion unit 204 divides the mixed signal generated by the sensor 202 into frames composed of a plurality of samples, performs a transformation such as Fourier transform, and divides the mixed signal into a plurality of frequency components. The frequency component obtained by converting the mixed signal is called a mixed signal spectrum.
  • the input signals output from the sensors 201 and 202 may be audio signals or signals other than audio signals.
  • the sensors 201 and 202 output signals corresponding to sounds such as running sounds, engine sounds, screw sounds, propeller sounds, motor sounds, siren sounds, or explosion sounds generated by machines such as automobiles, ships, and flying objects. May be.
  • the sensors 201 and 202 may output signals corresponding to various sounds such as footsteps, screams, screams, or screams produced by humans and animals, or music and instrument sounds.
  • the mixed signal spectrum X1 (k, n) output from the conversion unit 203 is supplied to the estimation unit 205 and the suppression unit 206.
  • the conversion unit 203 generates a mixed signal spectrum X1 (k, n) as an input signal based on the input sound input in an environment where the target sound and the disturbing sound are mixed.
  • the mixed signal spectrum X2 (k, n) output from the conversion unit 204 is supplied to the estimation unit 205.
  • the conversion unit 204 generates a mixed signal spectrum X2 (k, n) as an input signal based on the input sound input in an environment where the target sound and the disturbing sound are mixed.
  • the estimation unit 205 estimates a second signal component included in the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203, and generates an estimated second signal component N (k, n).
  • the suppression unit 206 suppresses the second signal component included in the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 using the estimated second signal component N (k, n), and results of the suppression As an enhanced signal spectrum Y (k, n).
  • the inverse conversion unit 207 performs inverse conversion on the enhancement signal spectrum Y (k, n) supplied from the suppression unit 206 and supplies the result to the output terminal 208 as an enhancement signal.
  • the estimation unit 205 may estimate the second signal component included in the mixed signal spectrum X2 (k, n) instead of the second signal component included in the mixed signal spectrum X1 (k, n).
  • FIG. 3 is a block diagram illustrating the configuration of the conversion units 203 and 204.
  • the conversion units 203 and 204 include a frame division unit 301, a windowing unit 302, and a Fourier transform unit 303.
  • the mixed signals X1 (t) and X2 (t) are supplied to the frame dividing unit 301 and divided into frames for each K / 2 sample.
  • K is an even number.
  • the mixed signals X1 (t) and X2 (t) divided into frames are supplied to the windowing processing unit 302 and multiplied with w (t) which is a window function.
  • a window may be created by overlapping (overlapping) a part of two consecutive frames.
  • the left side obtained by the following equation is the output of the windowing processing unit 302. Become.
  • a symmetric window function is used.
  • various window functions such as a Hamming window and a triangular window are known.
  • the windowed output is supplied to the Fourier transform unit 303, where it is converted into a mixed signal spectrum X1 (k, n), X2 (k, n).
  • FIG. 4 is a block diagram showing the configuration of the inverse transform unit 207.
  • the inverse transform unit 207 includes an inverse Fourier transform unit 401, a windowing processing unit 402, and a frame synthesis unit 403.
  • the obtained output signal y hat (t, n) is transmitted from the frame synthesis unit 403 to the output terminal 208 as an enhancement signal.
  • Fourier transform is performed in the transform unit 203 and the inverse transform unit 207.
  • other transforms such as Hadamard transform, Haar transform, and wavelet transform may be used instead of the Fourier transform. it can.
  • the Haar transform does not require multiplication and can reduce the area when the LSI is formed. Since the wavelet transform can change the time resolution depending on the frequency, the effect of suppressing the second signal component can be improved.
  • the second signal component can be estimated by the estimation unit 205 after integrating a plurality of frequency components obtained by the conversion unit 203.
  • the number of frequency components after integration is less than the number of frequency components before integration.
  • an estimated second signal component N (k, n) is obtained for the integrated frequency component obtained by integrating the frequency components, and is used in common for individual frequency components belonging to the same integrated frequency component. That's fine.
  • the estimation of the second signal component is executed after integrating a plurality of frequency components, the number of frequency components to be applied is reduced, and the entire calculation amount can be reduced.
  • FIG. 5 is a block diagram illustrating a configuration of the suppression unit 206. As shown in FIG. 5, the suppression unit 206 includes a gain calculation unit 501 and a multiplication unit 502.
  • the gain calculation unit 501 obtains a gain G2 (k, n) for suppressing the second signal component.
  • Various methods can be considered as the gain calculation method employed in the gain calculation unit 501.
  • the gain may be obtained using a Wiener filter that outputs an optimal estimated value that minimizes the mean square error with the first signal component.
  • the gain may be obtained using known methods such as GSS (Generalized Spectral Subtraction), MMSE STSA (Minimum Mean-Square Error Short-Time Spectral Amplitude), MMSE LSA (Minimum Mean-Square Error Log Spectral t Amplitude). .
  • the multiplication unit 502 obtains the enhanced signal spectrum Y (k, n) by multiplying the mixed signal spectrum X1 (k, n) by the gain G2 (k, n) obtained by the gain calculation unit 501. Then, the enhanced signal spectrum Y (k, n) is transmitted to the inverse transform unit 207.
  • FIG. 6A is a block diagram illustrating a configuration of the estimation unit 205.
  • the estimation unit 205 includes a phase difference output unit 251 and a generation unit 252.
  • the generation unit 252 includes a suppression unit 602 and a correction unit 603.
  • the phase difference output unit 251 includes normalization units 611 and 612 and calculation units 613 and 614.
  • the phase difference output unit 251 calculates the phase difference between the phase of the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 and the phase of the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204. To do.
  • the phase ⁇ (k, n) of the mixed signal spectrum X (k, n) is defined by the following equation. However, Re ⁇ X (k, n) ⁇ and Im ⁇ X (k, n) ⁇ represent the real part and the imaginary part of the mixed signal spectrum X (k, n), respectively.
  • the easiest way to obtain the phase difference is to calculate the phases of the mixed signal spectrum X1 (k, n) and the mixed signal spectrum X2 (k, n) separately using the above equation and then calculate the difference between them. Good. However, it is known that this method is difficult to calculate with high accuracy. Therefore, in the present embodiment, the phase difference is calculated by the method described in Non-Patent Document 3.
  • phase difference ⁇ (k, n n) ⁇ 1 (k, n) ⁇ 2 (k, n) is calculated by the following procedure.
  • each of the mixed signal spectra X1 (k, n) and X2 (k, n) is normalized with the amplitude.
  • the normalized spectrum is defined as X1 (k, n) bar and X2 (k, n) bar, and calculation is performed using the following equation.
  • the arrival direction of the target sound is estimated, and the phase difference is calculated based on the estimated value.
  • the estimated direction of arrival is ⁇ (n), and the phase difference ⁇ (k, n) is obtained by the following equation.
  • d represents the distance between the sensor 201 and the sensor 202
  • c represents the speed of sound
  • represents the circumference.
  • Various methods are known for estimating the arrival direction ⁇ (n). For example, a method using a phase difference between input signals generated based on sounds arriving at a plurality of sensors (cross correlation method, cross spectrum power analysis method, GCC-PHAT, etc.), subspace method represented by MUSIC method, etc. are disclosed in Non-Patent Document 4 to Non-Patent Document 7.
  • the suppression unit 602 includes a gain calculation unit 621 and a multiplier 622.
  • the suppression unit 602 Based on the phase difference supplied from the phase difference output unit 251, the suppression unit 602 suppresses the first signal component included in the mixed signal spectrum X 1 (k, n) supplied from the conversion unit 203, and performs temporary estimation Two signal components are generated.
  • the suppression unit 602 first calculates the gain G (k, n) using the phase difference ⁇ (k, n). Next, the suppression unit 602 calculates the product of the mixed signal spectrum X1 (k, n) and the gain G (k, n) as a temporary estimated second signal component. The suppression unit 602 obtains the gain G (k, n) using a function (gain function) having a predetermined phase difference and gain relationship.
  • FIG. 7A shows an example of the gain function.
  • the horizontal axis represents the phase difference ⁇ (k, n), and the vertical axis represents the gain.
  • the gain is set in the range of 1 and 0.
  • the suppression unit 602 passes the input signal as it is without attenuation.
  • the suppression unit 602 attenuates the input signal and does not pass anything.
  • a phase difference range in which the gain is 1 is referred to as a pass band or a pass band.
  • a continuous phase difference range in which the gain is 0 is referred to as a stop band or a stop band.
  • the passband is white, the transition zone is shaded, and the stopband is shaded to make it easy to see.
  • there is a stop band around the phase difference ⁇ (k, n) 0
  • the first signal component whose phase difference ⁇ (k, n) is close to 0 is attenuated, and the first signal component away from 0 passes without attenuation.
  • the middle there is a transition region of phase difference ⁇ (k, n) that is slightly attenuated.
  • the passband and stopband may be directly continuous without a transition zone.
  • Non-Patent Document 1 and Non-Patent Document 2 can be used as the gain function.
  • the gain function changes more slowly than in FIG. 7A in the vicinity of the change point from the passband to the transition zone and the change point from the transition zone to the stopband. It is posted.
  • the gain function is asymmetric on the axis of phase difference, that is, in the example of FIG.
  • the correcting unit 603 corrects the temporary estimated second signal component supplied from the suppressing unit 602, and generates an estimated second signal component N (k, n).
  • the most basic correction method is smoothing of the temporary estimated second signal component.
  • the temporary estimated second signal component is smoothed in the time direction and the frequency direction, and is set as an estimated second signal component N (k, n).
  • leak integration or moving average can be used.
  • the estimated second signal component N (k, n) is calculated by the following equation when smoothing in the frequency direction with a moving average.
  • M is an integer of 1 or more.
  • the estimated second signal component N (k, n) is calculated by the following equation.
  • a is a real number of 0 or more and 1 or less.
  • the smoothing method is not limited to leak integration or moving average.
  • the configuration of the correction unit 603 includes a smoothing unit 731, a comparison unit 732, and a selection unit 733.
  • the estimated second signal component N (k, n) is generated by correcting the temporary estimated second signal component.
  • the power of the estimated second signal component N (k, n) decreases at a frequency at which the phase difference ⁇ (k, n) between the mixed signal spectra X1 (k, n) and X2 (k, n) decreases. Too much (underestimation) can be avoided.
  • the second signal component (interfering sound component) can be estimated with high accuracy, the lack of suppression of the second signal component can be avoided, and the quality of the enhanced signal is improved as compared with the prior art.
  • the case where the second signal component is suppressed using the null beamformer has been described.
  • a technique for obtaining an enhanced signal by suppressing a second signal component included in a mixed signal by giving a small gain to a signal having a large phase difference. Can be applied similarly.
  • the suppression unit 206 suppresses the second signal component based on the phase difference to obtain a temporary enhancement signal spectrum.
  • the correction unit 603 corrects the temporary enhancement signal spectrum using the method described in this embodiment, and obtains the enhancement signal spectrum.
  • the present invention can also be applied to a technique for generating an enhanced signal by giving a small gain to a signal having a large phase difference.
  • the enhancement signal spectrum is obtained by the estimation unit 205 as in the present embodiment.
  • FIG. 8A is a diagram for explaining the configuration of the estimation unit 805 of the signal processing device according to the present embodiment.
  • the correction unit 853 according to the present embodiment is different from the correction unit 603 according to the second embodiment in that the first input signal is input. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the correction unit 853 includes a smoothing unit 891, a comparison unit 892, and a selection unit 893.
  • the correcting unit 853 corrects the temporary estimated second signal component supplied from the suppressing unit 602 using the mixed signal spectrum X1 (k, n) supplied from the converting unit 203, and estimates the second estimated signal component N (k , n).
  • the smoothing unit 891 smoothes the temporary estimated second signal component Nbar (k, n) by the method described in the second embodiment.
  • the comparison unit 892 compares the temporary estimated second signal component Nbar (k, n) with the power PX1 (k, n) of the mixed signal spectrum X1 (k, n).
  • the selection unit 893 estimates PX1 (k, n) instead of the temporary estimated second signal component Nbar (k, n). Let N (k, n). Otherwise, the temporary estimated second signal component Nbar (k, n) is set as the estimated second signal component N (k, n) as in the second embodiment. Thereby, it is possible to reduce overestimation of the second signal component due to smoothing, compared to the case where the value is always smoothed as in the second embodiment.
  • the mixed signal spectrum X1 (k, n) has been described in the present embodiment, the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204 may be used. In either case, equivalent performance can be obtained.
  • the mixed signal spectrum is also used for correction. Further, the mixed signal spectrum is compared with the smoothed temporary estimated second signal component, and the appropriate one is set as the estimated second signal component N (k, n). Therefore, according to the present embodiment, since the second signal component can be estimated with higher accuracy than in the second embodiment, the quality of the enhanced signal is improved.
  • FIG. 9 is a diagram for explaining the configuration of the estimation unit 905 of the signal processing device according to the present embodiment.
  • the correction unit 953 according to the present embodiment is different from the correction unit 603 according to the second embodiment in that the first input signal and the second input signal are input. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the correction unit 953 is supplied from the suppression unit 602 using the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 and the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204.
  • the temporary estimated second signal component is corrected.
  • the estimated second signal component N (k, n) is generated.
  • correction is performed using not only the mixed signal spectrum X1 (k, n) but also the mixed signal spectrum X2 (k, n).
  • the estimated second signal component N is obtained by comparing / mixing / selecting the smoothed temporary estimated second signal component and the mixed signal spectrum X1 (k, n), X2 (k, n). Generate (k, n).
  • the provisionally estimated second signal component smoothed by the method described in the second embodiment is Nbar (k, n), and the mixed signal spectrums X1 (k, n) and X2 (k, n) are each power PX1 (k , n) and PX2 (k, n), Nbar (k, n), PX1 (k, n), and PX2 (k, n) are compared.
  • the smallest value is set as the estimated second signal component N (k, n). Thereby, overestimation of the second signal component can be reduced as compared with the second embodiment.
  • Nbar (k, n) As a comparison object of Nbar (k, n), a method in which PX1 (k, n) and PX2 (k, n) are mixed is also effective. If the power of the mixed mixed signal spectrum is PX3 (k, n), PX3 (k, n) is given by the following equation. However, c (k, n) and d (k, n) are real numbers. The sum of c (k, n) and d (k, n) is preferably 1 in order to prevent a significant change in power due to mixing. Then, Nbar (k, n) and PX3 (k, n) are compared, and the smaller value is set as the estimated second signal component N (k, n).
  • the mixing method is not limited to the above weighted sum.
  • PX1 (k, n) and PX2 (k, n) are logarithmized and a weighted sum of the logarithmized values is calculated.
  • PX3 (k, n) is given as follows.
  • exp (•) and log (•) are an exponential function and a logarithmic function, respectively.
  • the estimated second signal component N (k, n) when the estimated second signal component N (k, n) is generated by correcting the temporary estimated second signal component, correction is performed using a plurality of mixed signal spectra. Therefore, according to the present embodiment, since the second signal component can be estimated with higher accuracy than in the second embodiment, the quality of the enhanced signal is improved.
  • FIG. 10A is a diagram for explaining the configuration of the estimation unit 1005 of the signal processing device according to the present embodiment.
  • the generation unit 1052 according to the present embodiment is different from the generation unit 252 according to the second embodiment in that an existence probability calculation unit 1054 and a correction unit 1055 are provided. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the existence probability calculation unit 1054 uses the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203, and the probability (existence probability) that the first signal component exists in the mixed signal spectrum X1 (k, n). ).
  • This existence probability is a real number from 0 to 1, and is basically calculated individually for all frequencies. However, for the purpose of reducing the calculation amount, one existence probability may be calculated for a plurality of frequencies.
  • Non-patent literature 8 to non-patent literature 10 disclose, for example, an autocorrelation method and a method using a cepstrum as a fundamental frequency calculation method. Then, a harmonic frequency that is a frequency at which a harmonic component exists is obtained from the obtained fundamental frequency. Since an integral multiple of the fundamental frequency corresponds to the harmonic frequency, for example, if the fundamental frequency is k0, the harmonic frequencies are 2k0, 3k0, 4k0,. Finally, the existence probability of the first signal component is calculated for each frequency based on the obtained fundamental frequency and harmonic frequency. The existence probability of the first signal component is 1 at the fundamental frequency and the harmonic frequency. Probability close to 1 is given at frequencies close to the fundamental frequency and harmonic frequency, and the existence probability approaches 0 as the distance increases.
  • Non-Patent Document 11 discloses a method using power in a low frequency band, higher-order statistics of a signal, and harmonic and periodicity of speech. If voice is detected as a result of the voice detection, the existence probability of the voice is set to 1 in all bands. Of the frames in which no speech is detected, the M2 frame immediately after detection gives a probability close to 1, and the existence probability approaches 0 as time passes (however, M2 is a positive integer).
  • the correction unit 1055 includes a smoothing unit 1061 and a mixing unit 1062, and the provisional estimation second signal supplied from the suppression unit 602 using the existence probability supplied from the existence probability calculation unit 1054.
  • the component is corrected to generate an estimated second signal component N (k, n).
  • the smoothing unit 1061 smoothes the temporary estimated second signal component Nbar (k, n) by the method described in the second embodiment.
  • the mixing unit 1062 mixes the temporary estimated second signal components before and after smoothing at the mixing rate calculated based on the existence probability, and sets the mixed signal as the estimated second signal component N (k, n). If the existence probability is low, mixing section 1062 mixes the provisionally estimated second signal component after smoothing at a high rate. For this reason, smoothing is performed only at a frequency where there is a low possibility that the first signal component exists. That is, inappropriate correction is avoided in a band in which the first signal component exists, so that overestimation of the second signal component can be prevented.
  • the mixing ratio is calculated using a monotone function with the existence probability as a variable.
  • a linear function which is a basic example, is used as a monotonic function.
  • the existence probability is p (k, n)
  • the mixing ratio w (k, n) for the temporary estimated second signal component before smoothing is calculated by the following equation.
  • a and b are real numbers and satisfy a> 0.
  • the mixing ratio is a real number from 0 to 1.
  • w (k, n) 0, so that the ratio of the provisional estimated second signal component before smoothing is zero.
  • the existence probability p (k, n) can be used as the mixing ratio without calculating the mixing ratio. Since the calculation of the mixing ratio becomes unnecessary, it is effective for reducing the amount of calculation.
  • the estimated second signal component N (k, n) is calculated by the following equation.
  • the mixing method is not limited to the above weighted sum.
  • N1 (k, n) and N2 (k, n) are logarithmized and a weighted sum of the logarithmized values is calculated.
  • exp (•) and log (•) are an exponential function and a logarithmic function, respectively.
  • the provisionally estimated second signal component is corrected using the existence probability of the first signal component.
  • the existence probability of the first signal component is low, correction is performed intensively. Therefore, according to the present embodiment, it is possible to avoid inappropriate correction at a frequency at which the existence probability of the first signal component is high. Therefore, compared with the second embodiment, the estimation accuracy of the second signal component and the quality of the enhanced signal Will improve.
  • FIG. 11 is a diagram for explaining the configuration of the estimation unit 1105 of the signal processing device according to the present embodiment.
  • the existence probability calculation unit 1154 according to the present embodiment is different from the existence probability calculation unit 1054 according to the fifth embodiment in that the first input signal and the second input signal are input. Since other configurations and operations are the same as those of the fifth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the existence probability calculation unit 1154 uses the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 and the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204, and uses the mixed signal spectrum X1. The probability that the first signal component exists in (k, n) and X2 (k, n) is calculated. In the present embodiment, the existence probability p (k, n) is calculated using two mixed signal spectra X1 (k, n) and X2 (k, n).
  • a typical calculation method is a method of calculating the existence probability of the first signal component separately for each mixed signal spectrum X1 (k, n) and X2 (k, n) and integrating them. If the target sound is voice or music, as described in the fifth embodiment, each mixed signal spectrum X1 (k, n), X2 (k, n) is obtained using a method using the harmonics of the signal. The existence probability p (k, n) for can be calculated.
  • the existence probabilities for the two mixed signal spectra X1 (k, n) and X2 (k, n) are p1 (k, n) and p2 (k, n), respectively
  • the existence probability p output by the existence probability calculation unit 1154 (k, n) is calculated as follows:
  • the integration method of the existence probability p (k, n) is not limited to the product. For example, a method using a weighted sum of p1 (k, n) and p2 (k, n) is also effective. In this case, p (k, n) is calculated as follows.
  • a (k, n) and b (k, n) are positive real numbers.
  • a method of calculating based on the mutual relationship of the mixed signal spectra is also effective.
  • a typical example is a method using cross-correlation of mixed signal spectra.
  • the cross correlation between the mixed signal spectra X1 (k, n) and X2 (k, n) is calculated, and if the correlation value is high, the existence probability p (k, n) of the first signal component is increased.
  • environmental noise and background noise are known to have low correlation
  • this is an effective method when the target sound is voice or music and the disturbance sound is environment noise or background noise.
  • Various methods for calculating the correlation are known. For example, a cross-correlation method, a cross-spectral power analysis method, GCC-PHAT, and the like are disclosed in Non-Patent Documents 4 to 5.
  • a method using the relative relationship between the power and phase of the mixed signal spectrum is also effective.
  • the mixed signal spectrums X1 (k, n) and X2 (k, n) are determined to be the first signal component when the power is close, and otherwise the second signal component is determined. For example, if the power ratio between the two is close to 1, the existence probability of the first signal component is increased. In the case of a power difference, if the power difference is close to 0, the existence probability of the first signal component is increased.
  • the existence probability of the first signal component is increased if the phase difference is small.
  • one calculated by the phase difference output unit 251 may be used. In this case, the calculation of the phase difference in the existence probability calculation unit 1154 becomes unnecessary.
  • the existence probability of the first signal component when the existence probability of the first signal component is calculated, two mixed signal spectra X1 (k, n) and X2 (k, n) are used. Therefore, according to the present embodiment, since the existence probability p (k, n) can be calculated more accurately than in the fifth embodiment using only one mixed signal spectrum X1 (k, n), the second signal component The estimation accuracy and the quality of the enhancement signal are improved.
  • FIG. 12 is a diagram for explaining the configuration of the estimation unit 1205 of the signal processing device according to the present embodiment.
  • the correction unit 1255 according to the present embodiment is different from the correction unit 1055 according to the fifth embodiment in that the first input signal is input. Since other configurations and operations are the same as those of the fifth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the correction unit 1255 is supplied from the suppression unit 602 using the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 and the existence probability p (k, n) supplied from the existence probability calculation unit 1054.
  • the temporary estimated second signal component is corrected. Thereby, the estimated second signal component N (k, n) is generated.
  • the same effect can be obtained by using the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204 instead of the mixed signal spectrum X1 (k, n).
  • the temporary estimated second signal component smoothed by the method described in the second embodiment is corrected.
  • the mixed signal spectrum X1 (k, n) and the smoothed temporary estimated second signal component are mixed according to the mixing ratio obtained from the existence probability p (k, n), and the estimated second signal component N (k, n) is mixed. ) Is generated. If the existence probability p (k, n) is low, the possibility that the first signal component is included in the mixed signal spectrum X1 (k, n) is low, so the ratio of the mixed signal spectrum X1 (k, n) is increased. As a result, smoothing is avoided at frequencies where the existence probability of the first signal component is low, so that the estimation accuracy of the second signal component is improved.
  • the main difference from the second embodiment is that the existence probability p (k, n) is used for mixing the mixed signal spectrum X1 (k, n) and the smoothed temporary estimated second signal component.
  • the mixing ratio is calculated based on the existence probability p (k, n). Then, based on the calculated mixing ratio, the mixed signal spectrum and the smoothed temporary estimated second signal component are mixed.
  • the smoothed temporary estimated second signal component is Nbar (k, n)
  • the power of the mixed signal spectrum X1 (k, n) is PX1 (k, n)
  • the mixing ratio is w (k, n).
  • Two signal components N (k, n) are calculated using the following equation. However, as described in the fifth embodiment, w (k, n) is calculated by a method using a monotone function with the existence probability as a variable.
  • the existence probability p (k, n) is low, w (k, n) becomes small. In that case, the ratio of X1 (k, n) to N (k, n) increases from the above equation.
  • the existence probability p (k, n) can be used as the mixing ratio without calculating the mixing ratio. Since the calculation of the mixing ratio becomes unnecessary, it is effective for reducing the amount of calculation.
  • the method of calculating the estimated second signal component N (k, n) is to mix the mixed signal spectrum X1 (k, n) and the smoothed temporary estimated second signal component based on the existence probability p (k, n). It is not limited to the method to do.
  • the corrected temporary estimated second signal component and the temporary estimated second signal component before smoothing are mixed according to the existence probability p (k, n), and the mixed temporary estimated second signal component is estimated as the estimated second signal component.
  • N (k, n) a method of calculating a weighted sum of the temporary estimated second signal components N1 (k, n) and N2 (k, n) before and after smoothing is used. it can.
  • the fifth embodiment differs from the fifth embodiment in that mixing is performed not only immediately after smoothing but also with the provisional estimated second signal component subjected to correction.
  • the temporary estimated second signal component is corrected using not only the existence probability p (k, n) but also the mixed signal spectrum X1 (k, n). Furthermore, at frequencies where the existence probability p (k, n) is low, the estimated second signal component N (k) is preferentially used by using the mixed signal spectrum X1 (k, n) rather than the smoothed temporary estimated second signal component. , n). Therefore, according to the present embodiment, the second signal component can be estimated with higher accuracy than the fifth embodiment in which only the existence probability p (k, n) is used to correct the temporary estimated second signal component. Signal quality is improved.
  • FIG. 13 is a diagram for explaining the configuration of the estimation unit 1305 of the signal processing device according to the present embodiment.
  • the correction unit 1355 according to the present embodiment is different from the correction unit 1055 according to the sixth embodiment in that the first input signal and the second input signal are input. Since other configurations and operations are the same as those of the sixth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the correction unit 1355 suppresses using the mixed signal spectrum X1 (k, n), the mixed signal spectrum X2 (k, n), and the existence probability p (k, n) supplied from the existence probability calculation unit 1154.
  • the temporary estimated second signal component supplied from the unit 602 is corrected. Thereby, the estimated second signal component N (k, n) is generated.
  • the main difference from the sixth embodiment is that a mixed signal spectrum mixing process is added.
  • a method of obtaining a weighted sum of the mixed signal spectrum X1 (k, n) and the mixed signal spectrum X2 (k, n) is used. Is possible.
  • the power of the mixed signal spectrum X1 (k, n) and the mixed signal spectrum X2 (k, n) is PX1 (k, n) and PX2 (k, n), respectively
  • the mixed mixed signal spectrum power is PX3 (k, n).
  • n) is given as follows.
  • c (k, n) and d (k, n) are real numbers.
  • the sum of c (k, n) and d (k, n) is preferably 1 in order to prevent a significant change in power due to mixing.
  • the smoothed temporary estimated second signal component is mixed by a mixing method using a weighted sum.
  • the smoothed temporary estimated second signal component is Nbar (k, n) and the mixing ratio is w (k, n)
  • the estimated second signal component N (k, n) is calculated as follows.
  • w (k, n) is calculated by a method using a monotone function with the existence probability as a variable based on the existence probability p (k, n).
  • w (k, n) becomes small, so that the ratio of PX3 (k, n) to N (k, n) increases. .
  • the method of calculating the estimated second signal component N (k, n) is not limited to the method of mixing the mixed signal spectrum and the smoothed temporary estimated second signal component based on the existence probability p (k, n).
  • a method combining the fourth and sixth embodiments is also effective.
  • the smoothed temporary estimated second signal component is corrected. For example, compare the tentative estimation second signal component before smoothing, mixed signal spectrum X1 (k, n) and X2 (k, n) power PX1 (k, n) and PX2 (k, n) The smallest value is adopted as the correction value.
  • the corrected temporary estimated second signal component and the temporary estimated second signal component before smoothing are mixed according to the existence probability p (k, n), and the mixed temporary estimated second signal component is estimated as the estimated second signal component.
  • N (k, n) a weighted sum can be used as described in the sixth embodiment. However, it differs from the sixth embodiment in that mixing is performed using the temporary estimated second signal component that has been corrected, not immediately after smoothing.
  • the temporary estimated second signal component is corrected using not only the existence probability p (k, n) but also a plurality of mixed signal spectra. Therefore, according to this embodiment, it is possible to estimate the second signal component with higher accuracy than in the sixth embodiment using only the existence probability p (k, n) for correcting the temporary estimated second signal component, and Quality is improved.
  • FIG. 14 is a diagram for explaining the configuration of the estimation unit 1405 of the signal processing device according to the present embodiment.
  • the phase difference output unit 1451 included in the estimation unit 1405 according to the present embodiment has a provisional phase difference calculation unit 1452 and a provisional phase difference correction unit 1453 compared to the phase difference output unit 251 according to the second embodiment. It is different. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the temporary phase difference calculation unit 1452 calculates a phase difference between the phase of the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 and the phase of the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204. Calculate and output as a temporary phase difference.
  • the temporary phase difference correction unit 1453 obtains a phase difference by correcting the temporary phase difference supplied from the temporary phase difference calculation unit 1452, and supplies the phase difference to the suppression unit 1454.
  • the provisional phase difference correction unit 1453 basically analyzes the provisional phase difference ⁇ (k, n) to estimate the existence possibility of the first signal component, and corrects the phase difference based on the existence possibility. . For example, the phase difference in the high frequency band is replaced with the average value. If the first signal component is large, the average value of the phase differences is a value close to zero, so that the corrected phase difference is replaced with a value close to zero.
  • the suppression unit 1454 suppresses the first signal component included in the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 based on the phase difference supplied from the temporary phase difference correction unit 1453, and performs estimation first. Two signals N (k, n) are generated.
  • the temporary phase difference is corrected to obtain the phase difference.
  • this embodiment is different from the second embodiment in which the estimated second signal component N (k, n) is directly corrected, the estimation accuracy of the second signal component is improved by correcting the phase difference. Therefore, according to the present embodiment, as in the second embodiment, the quality of the enhancement signal is improved as compared to the case without correction.
  • FIG. 15 is a diagram for explaining the configuration of the estimation unit 1505 of the signal processing device according to the present embodiment.
  • the estimation unit 1505 according to the present embodiment is different from the estimation unit 1405 according to the ninth embodiment in that a phase difference output unit 1551 includes an existence probability calculation unit 1054. Since other configurations and operations are the same as those of the ninth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the phase difference correction unit 1552 corrects the temporary phase difference supplied from the temporary phase difference calculation unit 1452 using the presence probability p (k, n) supplied from the presence probability calculation unit 1054 to obtain a phase difference. If the existence probability of the first signal component is high, the absolute value of the phase difference is reduced. If the existence probability of the first signal component is p (k, n), the corrected phase difference ⁇ bar (k, n) is given as follows. However, F (x) is a monotonically increasing function of x and satisfies F (x)> 0. Therefore, when p (k, n) approaches 1, F (1-p (k, n)) becomes a small value.
  • the phase difference is corrected using the existence probability of the first signal component. Therefore, according to the present embodiment, since the phase difference can be corrected more accurately than in the ninth embodiment that does not use the existence probability of the first signal component, the estimation accuracy of the second signal component and the quality of the enhanced signal are improved. .
  • the existence probability calculation unit 1054 may calculate the existence probability using two or more mixed signal spectra.
  • FIG. 16 is a diagram for explaining the configuration of the estimation unit 1605 of the signal processing device according to the present embodiment.
  • the estimation unit 1605 according to the present embodiment includes an estimated interference sound generation unit 1652 having a temporary gain calculation unit 1653, a temporary gain correction unit 1654, and a multiplier 1655. It is different in point. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the temporary gain calculation unit 1653 calculates a temporary gain using the phase difference supplied from the phase difference output unit 251 and the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203.
  • a method for calculating the temporary gain from the phase difference a method using a function can be used as described in the second embodiment. That is, the temporary gain is calculated from the phase difference using the gain function shown in FIG.
  • the temporary gain correction unit 1654 corrects the temporary gain supplied from the temporary gain calculation unit 1653 to obtain a gain.
  • the provisional gain is analyzed to estimate the possibility of the first signal component, and the provisional gain is corrected based on the possibility. For example, the gain in the high frequency band is replaced with the average value. If the first signal component is small, the average gain value is close to 1, so that the corrected gain is replaced with a value close to 1.
  • the multiplier 1655 multiplies the mixed signal spectrum X1 (k, n) supplied from the conversion unit 203 by the gain supplied from the temporary gain correction unit 1654, and generates an estimated second signal component N (k, n). . If the power of the mixed signal spectrum X1 (k, n) is PX1 (k, n) and the corrected gain is Gbar (k, n), the estimated second signal component N (k, n) is given by the following equation. Note that the multiplier 1655 can obtain the same effect by using the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204 instead of the mixed signal spectrum X1 (k, n).
  • the gain is obtained by correcting the temporary gain.
  • This embodiment is different from the second embodiment in which the estimated second signal component N (k, n) is corrected, but the accuracy of estimation of the second signal component is improved by correcting the gain. Therefore, according to the present embodiment, as in the second embodiment, the quality of the enhancement signal is improved as compared to the case without correction.
  • FIG. 17 is a diagram for explaining the configuration of the estimation unit 1705 of the signal processing device according to the present embodiment.
  • the estimation unit 1705 according to the present embodiment is different from the estimation unit 1605 according to the eleventh embodiment in that an estimated disturbance sound generation unit 1752 including an existence probability calculation unit 1054 and a temporary gain correction unit 1751 is provided. Since other configurations and operations are the same as those in the eleventh embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the temporary gain correction unit 1751 corrects the temporary gain supplied from the temporary gain calculation unit 1751 using the presence probability p (k, n) supplied from the presence probability calculation unit 1054 to obtain a gain. Basically, if the existence probability of the first signal component is high, the value of the temporary gain is reduced. If the existence probability of the first signal component is p (k, n), the corrected gain Gbar (k, n) is given as follows. However, F (x) is a monotonically increasing function of x and satisfies F (x)> 0. Therefore, when p (k, n) approaches 1, F (1-p (k, n)) becomes a small value.
  • the provisional gain is corrected using the existence probability of the first signal component. Therefore, according to the present embodiment, since the phase difference can be corrected more accurately than in the eleventh embodiment that does not use the existence probability of the first signal component, the estimation accuracy of the second signal component and the quality of the enhanced signal are improved. .
  • the existence probability calculation unit 1054 may calculate the existence probability using two or more mixed signal spectra.
  • FIG. 18 is a diagram for explaining the configuration of a signal processing device 1800 according to this embodiment.
  • the signal processing device 1800 according to the present embodiment is different from the signal processing device 200 according to the second embodiment in that a phase adjustment unit 1809 is provided. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the phase adjustment unit 1809 receives the mixed signal spectrum supplied from the conversion units 203 and 204 and adjusts the phase of the signal from each conversion unit so that the first signal component appears equivalently coming from the front. .
  • This is a process called beam steering, which is disclosed in detail in Non-Patent Document 12 to Non-Patent Document 13, and is omitted here.
  • beam steering is realized by adjusting the phase difference of the mixed signal spectrum. For this reason, according to the present embodiment, even when the target sound arrives from other than the front, the second signal component estimation accuracy equivalent to that from the front can be realized.
  • FIG. 19 is a diagram for explaining the configuration of a signal processing device 1900 according to this embodiment.
  • the signal processing device 1900 according to this embodiment is different from the signal processing device 200 according to the second embodiment in that it includes a sensor 1901, a conversion unit 1902, and an estimation unit 1903. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the mixed signal is supplied to the sensor 1901 as the sample value series X3 (t).
  • the mixed signal supplied to the sensor 1901 is subjected to transformation such as Fourier transformation in the transformation unit 1902 and divided into a plurality of frequency components.
  • the estimation unit 1903 uses the mixed signal spectrum X1 (k, n), X2 (k, n), and X3 (k, n) supplied from the conversion units 203, 204, and 1901, and uses the mixed signal spectrum X1 (k, n).
  • the second signal component included in n) is estimated to generate an estimated second signal component N (k, n). Details of the estimation unit 1903 will be described with reference to FIG.
  • FIG. 20 is a diagram for explaining the configuration of the estimation unit 1903 of the signal processing device 1900 according to this embodiment.
  • the estimation unit 1903 according to the present embodiment is different from the estimation unit 205 according to the second embodiment in that a phase difference output unit 2051 is provided. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the phase difference output unit 2051 uses the mixed signal spectrums X1 (k, n), X2 (k, n), and X3 (k, n) supplied from the conversion units 203, 204, and 1901 to change the position of the mixed signal spectrum. Calculate the phase difference. First, phase differences are calculated for all pairs from the three mixed signal spectra. That is, for all pairs of X1 (k, n) and X2 (k, n), X2 (k, n) and X3 (k, n), and x3 (k, n) and X1 (k, n) Calculate the phase difference.
  • phase difference of each pair be ⁇ 12 (k, n), ⁇ 23 (k, n), and ⁇ 31 (k, n).
  • the phase difference of each pair is obtained by the method described in the second embodiment. Then, the phase differences of all pairs are integrated into one.
  • the integration of the phase difference is performed based on the phase difference of each pair, that is, the statistic of ⁇ 12 (k, n), ⁇ 23 (k, n), and ⁇ 31 (k, n). That is, the statistic of three phase differences is the final phase difference.
  • the statistic include an average value, a median value, a maximum value, and a minimum value. Since the method of selecting the average value and the median value reduces the dispersion of the phase difference, the accuracy of the phase difference is improved. When the minimum value is selected, there is an effect of expanding the characteristics of the region having a small phase difference to the region having a large phase difference. This leads to an effect of widening the stop band in an equivalent manner, so that a high effect is exhibited when a large gain value is often erroneously given to the target signal due to a phase difference calculation error.
  • the phase difference is calculated based on the three mixed signals.
  • the three phase differences calculated individually from the three mixed signals are integrated to obtain the phase difference. For this reason, it becomes possible to obtain
  • the phase difference can be obtained more accurately by further increasing the number of mixed signals. Further, not only the second embodiment but also other embodiments can be similarly expanded. In other embodiments, by using three or more mixed signals, the phase difference can be accurately obtained, and the estimation accuracy of the second signal component and the quality of the enhanced signal are improved.
  • FIG. 21 is a diagram for explaining the configuration of the signal processing device 2100 according to the present embodiment.
  • the signal processing device 2100 according to the present embodiment is different from the signal processing device 200 according to the second embodiment in that each set includes a set of an estimation unit, a suppression unit, and an inverse conversion unit. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the estimation unit 2105 estimates a second signal component included in the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204, and generates an estimated second signal component N2 (k, n).
  • the suppression unit 2106 suppresses the second signal component included in the mixed signal spectrum X2 (k, n) supplied from the conversion unit 204 using the estimated second signal component N2 (k, n), and results of the suppression
  • the enhanced signal spectrum Y2 (k, n) is transmitted to the inverse transform unit 2107.
  • the inverse transform unit 2107 obtains the inverse transform of the enhancement signal spectrum Y2 (k, n) supplied from the suppression unit 2106 and supplies it to the output terminal 2108 as an enhancement signal.
  • the estimation unit 2105 estimates the second signal component included in the mixed signal spectrum X2 (k, n) by the same method as the estimation unit 205.
  • the suppression unit 2106 suppresses the second signal component included in the mixed signal spectrum X2 (k, n) by the same method as the suppression unit 206.
  • the inverse transform unit 2107 calculates the inverse transform of the enhanced signal spectrum Y2 (k, n) in the same manner as the inverse transform unit 207.
  • two enhancement signals are generated. Therefore, according to the present embodiment, the quality is improved as compared with the second embodiment in which only one enhancement signal is generated. This is particularly effective when processing a stereo signal, and the stereo (realism) is improved as compared with the case of outputting one signal.
  • FIG. 22 is a diagram for explaining a hardware configuration of the signal processing device 2200 according to the present embodiment.
  • the signal processing device 2200 includes an input unit 2201, a CPU (Central Processing Unit) 2202, a memory 2203, and an output unit 2204.
  • a CPU Central Processing Unit
  • the input unit 2201 includes an interface connected to the sensors 201 and 202.
  • the CPU 2202 receives the output signals of the sensors 201 and 202 from the input unit 2201 and performs signal processing.
  • the memory 2203 temporarily stores the signals input from the sensors 201 and 202 for each of the sensors 201 and 202. Further, the memory 2203 has an execution area for a signal processing program.
  • step S2211 two mixed signals in which the first signal component and the second signal component are mixed are input from the sensors 201 and 202, and these mixed signals are converted to obtain two mixed signal spectra.
  • step S2213 the phase difference between one mixed signal spectrum and the other mixed signal spectrum is obtained.
  • step S2215 using the phase difference, the first signal component included in one mixed signal spectrum is suppressed to generate a temporary estimated second signal component.
  • step S2217 the temporary estimated second signal component is corrected to generate an estimated second signal component N (k, n).
  • step S2219 using the estimated second signal component N (k, n), the second signal component included in one mixed signal spectrum is suppressed to generate an enhanced signal spectrum.
  • step S2221 the enhanced signal spectrum is inversely transformed to generate an enhanced signal.
  • the program modules that perform these processes are stored in the memory 2203, and when the CPU 2202 sequentially executes the program modules stored in the memory 2203, the same effect as in the second embodiment can be obtained.
  • program modules corresponding to the functions and configurations described in the block diagrams are stored in the memory 2203, and the CPU 2202 executes these program modules. An effect can be obtained.
  • the signal processing devices having different characteristics have been described. However, signal processing devices that combine these features in any way are also included in the scope of the present invention. Further, the present invention may be applied to a system constituted by a plurality of devices, or may be applied to a single device. Furthermore, the present invention is also applicable to a case where a software signal processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed in the computer, a medium storing the program, and a WWW server that downloads the program are also included in the scope of the present invention.
  • a part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
  • (Appendix 1) A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Phase difference output means for outputting the phase difference of Generating means for generating an estimated disturbing sound signal based on the phase difference and the first input signal;
  • a signal processing apparatus comprising: (Appendix 2) The signal processing apparatus according to supplementary note 1, further comprising: a first suppression unit that generates an enhancement signal in which a component of the interference sound in the first input signal is suppressed based on the estimated interference sound signal.
  • the generating means includes Target sound suppression means for generating a temporary estimated interference sound signal by suppressing the target sound component included in the first input signal using the phase difference; Correction means for correcting the temporary estimated interference signal to generate the estimated interference signal;
  • the generating means further comprises existence probability calculating means for calculating the existence probability of the target sound component in the first input signal, The signal processing apparatus according to appendix 3, wherein the correction unit corrects the temporary estimated interference signal based on the existence probability of the target sound component to generate the estimated interference signal.
  • the correcting means mixes the smoothed disturbing sound signal after smoothing the temporary estimated disturbing sound signal in the time direction or the frequency direction and the temporary estimated disturbing sound signal before smoothing to estimate the estimated disturbing sound. 7.
  • the signal processing device according to any one of appendices 3 to 6, which generates a signal.
  • the phase difference output means includes Provisional phase difference calculating means for obtaining a provisional phase difference between the phase of the first input signal and the phase of the second input signal; Temporary phase difference correction means for correcting the temporary phase difference to generate the phase difference;
  • the signal processing apparatus according to any one of appendices 1 to 10, further comprising: (Appendix 12) 12.
  • the generating means includes Provisional gain calculation means for obtaining provisional gain based on the first input signal and the phase difference; Temporary gain correction means for correcting the temporary gain and generating gain; Multiplying means for multiplying the first input signal and the gain to generate the estimated disturbing sound signal;
  • the signal processing device according to any one of appendices 1 to 12, comprising: (Appendix 14) 14.
  • Phase adjustment means for generating a first phase adjustment signal and a second phase adjustment signal obtained by adjusting the phase of the first input signal and the phase of the second input signal; 15.
  • the signal processing apparatus according to any one of appendices 1 to 14, wherein the first phase adjustment signal and the second phase adjustment signal are used in place of the first input signal and the second input signal.
  • the phase difference output means is generated based on a first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed, and a second input sound input in the environment.
  • the signal processing device according to any one of appendices 1 to 15, wherein a phase difference between the second input signal and a third input signal generated based on a third input sound input in the environment is output. . (Appendix 17) 17.
  • the signal processing apparatus according to any one of appendices 1 to 16, further comprising second suppression means for suppressing a component of the interference sound included in the second input signal based on the estimated interference sound signal.
  • Appendix 18 A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Outputting a phase difference of Generating an estimated interfering sound signal based on the phase difference and the first input signal;
  • a signal processing method including: (Appendix 19) A first input signal generated based on a first input sound input in an environment where a target sound and an interfering sound are mixed; a second input signal generated based on a second input sound input in the environment; Outputting a phase difference of Generating an estimated interfering sound signal based on the phase difference and the first input signal; Is a signal processing program for causing a computer to execute.

Abstract

拡散性の妨害音を精度よく推定するため、目的音と妨害音とが混在する環境において収集された音を処理する信号処理装置であって、目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力する位相差出力手段と、位相差と第1入力信号とに基づいて、推定妨害音信号を生成する生成手段と、を備えたことを特徴とする。

Description

信号処理装置、信号処理方法、および信号処理プログラム
 本発明は、信号処理装置、信号処理方法、および信号処理プログラムに関する。
 上記技術分野において、非特許文献1と非特許文献2には、複数のセンサで出力した混在信号を加算した合算信号から妨害音信号成分を推定し、妨害音信号成分の大きさに応じたゲインを合算信号に乗算して、強調信号を得る技術が開示されている。
A. Sugiyama and R. Miyahara, "A DIRECTIONAL NOISE SUPPRESSOR WITH A SPECIFIED BEAMWIDTH," Proc. of ICASSP 2015, pp.524 - 528, Apr. 2015 A. Sugiyama and R. Miyahara, "A Dual-Microphone Noise Suppressor    with an Adjustable Constant Beamwidth," Proc. of 29th SIP SYMPOSIUM, pp.444 - 449, Nov. 2014 A. Sugiyama, R. Miyahara and K. Park, "Impact-noise suppression with phase-based detection," Proc. of 21st European Signal Processing Conference, pp.1 - 5, Sept. 2013 C. H. Knapp and G. C. Carter, "The Generalized Correlation Method for Estimation of Time Delay," IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-24, no.4, pp.320-327, Aug. 1976 M. Omologo and P. Svaizer, "Use of the Crosspower-spectrum Phase in Acoustic Event Location," IEEE Trans. on Speech and Audio Processing, vol. SAP-5, no.3, pp.288-292, May 1997 R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Trans. on Antennas Propag. vol. AP-34, no.3, pp.276-280, Mar. 1982 R. Kumaresan and D.W. Tufts, "Estimating the Angles of Arrival of Multiple Plane Waves," IEEE Trans. on Aerospace and Electronic Systems, vol. AES-19, no.1, pp.134-139, Jan. 1983 M. J. Ross, H. L. Shaffer, A. Cohen, R. Freudberg and H. J. Manley, "Average magnitude difference function pitch extractor," IEEE Trans. on Acoustics, Speech and Signal Processing, vol. ASSP-22, no.5, pp.353-362, 1974 A. M. Noll, "Short‐Time Spectrum and "Cepstrum" Techniques for Vocal‐Pitch Detection," The Journal of Acoustical Society of America, vol.36, no.2, pp.269-302, 1964 A. M. Noll, "Cepstrum Pitch Determination," The Journal of Acoustical Society of America, vol.41, no.2, pp.293-309, 1967 藤本雅清、「音声区間検出の基礎と最近の研究動向」電子情報通信学会 IEICE Technical Report SP2010-23、pp.7 - 12、2010年6月 B. Rafaely and M. Kleider, "Spherical Microphone Array Beam Steering Using Wigner-D Weighting," IEEE Signal Processing Letters, vol.15, pp. 417-420, Dec. 2008 W. Kellermann, "A Self-Steering Digital Microphone Array," Proc. of ICASSP-91, vol.5, pp.3581 - 3584, Apr. 1991
 しかしながら、上記非特許文献1および非特許文献2に記載の技術では、様々な方向から到来する妨害音、例えば、自動車走行音や街頭の雑踏音のような環境雑音や、暗騒音、風雑音などの拡散性の妨害音を精度よく推定することができなかった。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係る信号処理装置は、
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力する位相差出力手段と、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成する生成手段と、
 を備えた。
 上記目的を達成するため、本発明に係る信号処理方法は、
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
 を含む。
 上記目的を達成するため、本発明に係る信号処理プログラムは、
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
 を、コンピュータに実行させる。
 本発明によれば、拡散性の妨害音を精度よく推定することができる。
本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における変換部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における逆変換部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における抑圧部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における位相差出力部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置における抑圧部の構成を示すブロック図である。 本発明の第2実施形態に係る信号処理装置におけるゲイン関数の一例を説明するための図である。 本発明の第2実施形態に係る信号処理装置における補正部の構成の一例を示すブロック図である。 本発明の第3実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第3実施形態に係る信号処理装置における補正部の構成を示すブロック図である。 本発明の第4実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第5実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第5実施形態に係る信号処理装置における補正部の構成を示すブロック図である。 本発明の第6実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第7実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第8実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第9実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第10実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第11実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第12実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第13実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第14実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第14実施形態に係る信号処理装置における推定部の構成を示すブロック図である。 本発明の第15実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第16実施形態に係る信号処理装置を説明するための図である。
 以下に、本発明の例示的な実施形態について、図面を参照して、以下に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などはあくまで一例であり、本発明の技術範囲をそれらの記載のみに限定する趣旨のものではない。なお、以下の説明中における「音声」とは、物の響きや人や鳥獣の声、あるいは物体の振動が空気などの振動として伝わって起こす聴覚の内容またはそのもととなる音波をいい、人の声に限定されない。「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。
 [第1実施形態]
 本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。図1に示すように、信号処理装置100は、位相差出力部101と生成部102とを備える。位相差出力部101は、目的音110と妨害音120とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号131と、同環境において入力した第2入力音に基づいて生成された第2入力信号132と、の位相差133を出力する。生成部102は、位相差133と第1入力信号131とに基づいて、推定妨害音信号134を生成する。
 本実施形態によれば、様々な方向から到来した妨害音を推定することができる。これにより、推定妨害音信号を用いて第1入力信号に含まれる妨害音を抑圧し、目的音を強調することができるので、従来よりも強調信号の品質が向上する。
 [第2実施形態]
 次に本発明の第2実施形態に係る信号処理装置について、図2乃至図7Bを用いて説明する。図2は、本実施形態に係る信号処理装置の構成を説明するためのブロック図である。本実施形態の信号処理装置200は、例えばデジタルカメラ、ノートパソコン、携帯電話などといった装置の一部としても機能する。しかし、本発明はこれに限定されるものではなく、目的音と妨害音とが混在する環境において取得した入力信号から妨害音の成分除去を要求されるあらゆる信号処理装置に適用可能である。
 また、本実施形態では、位相差を用いたヌルビームフォーマで第2信号成分(妨害音成分)を推定してから、第1信号成分(目的音成分)を強調する技術について説明するが、これに限定されることはない。
 図2に示すように、信号処理装置200は、センサ201、202、変換部203、204、推定部205、抑圧部206、逆変換部207、および出力端子208を有する。
 変換部203には、センサ201が生成した混在信号がサンプル値系列X1(t)として供給される。さらに、変換部203は、センサ201が生成した混在信号を複数サンプルから構成されるフレームに分割し、フーリエ変換などの変換を施して、複数の周波数成分に分割する。
 変換部204には、センサ202が生成した混在信号がサンプル値系列X2(t)として供給される。さらに、変換部204は、センサ202が生成した混在信号を複数サンプルから構成されるフレームに分割し、フーリエ変換などの変換を施して、複数の周波数成分に分割する。なお、混在信号を変換して得られた周波数成分を混在信号スペクトルと呼ぶ。また、センサ201、202が出力する入力信号は、音声信号であってもよいし、音声信号以外の信号であってもよい。例えば、センサ201、202は、自動車、船舶、あるいは飛行物体などの機械が発する走行音、エンジン音、スクリュー音、プロペラ音、モーター音、サイレン音、あるいは爆発音などの音に対応する信号を出力してもよい。また、センサ201、202は、人間や動物が発する足音、悲鳴、鳴き声、あるいは叫び声、または音楽や楽器音などの様々な音に対応する信号を出力してもよい。
 混在信号スペクトルは周波数ごとに独立して処理される。ここでは、あるフレームnのある周波数kに注目して説明を続ける。変換部203から出力された混在信号スペクトルX1(k,n)は、推定部205と抑圧部206に供給される。変換部203は、目的音と妨害音とが混在する環境において入力した入力音に基づいて、入力信号としての混在信号スペクトルX1(k,n)を生成する。
 また、変換部204から出力された混在信号スペクトルX2(k,n)は、推定部205に供給される。変換部204は、目的音と妨害音とが混在する環境において入力した入力音に基づいて、入力信号としての混在信号スペクトルX2(k,n)を生成する。
 推定部205は、変換部203から供給される混在信号スペクトルX1(k,n)に含まれる第2信号成分を推定し、推定第2信号成分N(k,n)を生成する。
 抑圧部206は、推定第2信号成分N(k,n)を用いて、変換部203から供給された混在信号スペクトルX1(k,n)に含まれる第2信号成分を抑圧し、抑圧の結果としての強調信号スペクトルY(k,n)を逆変換部207に伝達する。逆変換部207は、抑圧部206から供給された強調信号スペクトルY(k,n)に対して逆変換を施し、強調信号として、出力端子208に供給する。なお、推定部205は、混在信号スペクトルX1(k,n)に含まれる第2信号成分では無く、混在信号スペクトルX2(k,n)に含まれる第2信号成分を推定してもよい。
 《変換部の構成》
 図3は、変換部203、204の構成を示すブロック図である。図3に示すように、変換部203、204はフレーム分割部301、窓がけ処理部(windowing unit)302、およびフーリエ変換部303を含む。
 混在信号X1(t)、X2(t)は、フレーム分割部301に供給され、K/2サンプルごとのフレームに分割される。ここで、Kは偶数とする。フレームに分割された混在信号X1(t)、X2(t)は、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの混在信号x1(t,n)(t=0、1、...、K-1)に対するw(t)で窓がけ(windowing)された信号は、次式で与えられる。
Figure JPOXMLDOC01-appb-M000001
 また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0、1、...、K/2-1に対して、以下の式で得られる左辺が、窓がけ処理部302の出力となる。
Figure JPOXMLDOC01-appb-M000002
 実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部203、204の出力を逆変換部207に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。
 以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。w(t)(t=0、1、...、K-1)としては、例えば、次式に示すハニング窓を用いることができる。
Figure JPOXMLDOC01-appb-M000003
 このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部303に供給され、混在信号スペクトルX1(k,n)、X2(k,n)に変換される。
 《逆変換部の構成》
 図4は、逆変換部207の構成を示すブロック図である。図4に示すように、逆変換部207は逆フーリエ変換部401、窓がけ処理部402、およびフレーム合成部403を含む。
 逆フーリエ変換部401は、抑圧部206から供給された強調信号スペクトルY(k,n)に逆フーリエ変換を施し、1フレームがKサンプルを含む時間領域サンプル値系列y(t,n)(t=0、1、...、K-1)として、窓がけ処理部402に供給する。そして、窓がけ処理部402において時間領域サンプル値系列と窓関数w(t)との乗算が行なわれる。逆フーリエ変換により得られた信号y(t,n)(t=0、1、...、K-1)に対して、w(t)で窓がけされた信号は、次式の左辺で与えられる。
Figure JPOXMLDOC01-appb-M000004
 フレーム合成部403は、窓がけ処理部402からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式によって、t=0、1、...、K/2-1における出力信号(次の式の左辺yハット(t,n))を生成する。得られた出力信号yハット(t,n)は、フレーム合成部403から、強調信号として出力端子208に伝達される。
Figure JPOXMLDOC01-appb-M000005
 なお、図3および図4において変換部203と逆変換部207においてフーリエ変換を行うものとして説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、LSI化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、第2信号成分の抑圧効果を向上できる。
 また、変換部203において得られる周波数成分を複数統合してから、推定部205で第2信号成分の推定を行うこともできる。統合後の周波数成分の数は、統合前の周波数成分の数よりも少なくなる。具体的には、周波数成分の統合によって得られる統合周波数成分に対して推定第2信号成分N(k,n)を求め、それを同一統合周波数成分に属する個別の周波数成分に対して共通に用いればよい。このように、複数の周波数成分を統合してから第2信号成分の推定を実行すると、適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
 《抑圧部の構成》
 図5は、抑圧部206の構成を示すブロック図である。図5に示すように、抑圧部206はゲイン計算部501、および乗算部502を含む。
 ゲイン計算部501は、第2信号成分を抑圧するためのゲインG2(k,n)を求める。ゲイン計算部501において採用されるゲイン計算方法としては、様々な方法が考えられる。例えば、第1信号成分との平均2乗誤差を最小にする最適推定値を出力するWienerフィルタを用いてゲインを求めてもよい。また、GSS(Generalized Spectral Subtraction)、MMSE STSA(Minimum Mean-Square Error Short-Time Spectral Amplitude)、MMSE LSA(Minimum Mean-Square Error Log Spectral Amplitude)、といった既知の方法を用いてゲインを求めてもよい。
 乗算部502は、ゲイン計算部501で求めたゲインG2(k,n)を、混在信号スペクトルX1(k,n)に乗算することで強調信号スペクトルY(k,n)を求める。そして、強調信号スペクトルY(k,n)を逆変換部207に伝達する。
 《推定部の構成》
 図6Aは、推定部205の構成を示すブロック図である。図6Aに示すように、推定部205は、位相差出力部251と生成部252とを有する。さらに、生成部252は、抑圧部602、および補正部603を含む。
 図6Bに示すように、位相差出力部251は、正規化部611、612と計算部613、614とを有する。
 位相差出力部251は、変換部203から供給された混在信号スペクトルX1(k,n)の位相と変換部204から供給された混在信号スペクトルX2(k,n)の位相との位相差を計算する。混在信号スペクトルX(k,n)の位相θ(k,n)は、次の式で定義される。
Figure JPOXMLDOC01-appb-M000006
 ただし、Re{X(k,n)}とIm{X(k,n)}は、それぞれ混在信号スペクトルX(k,n)の実部と虚部を表す。したがって、最も簡単に位相差を求めるには、混在信号スペクトルX1(k,n)と混在信号スペクトルX2(k,n)の位相を上式で別々に求めてから、両者の差分を計算すればよい。しかし、この方法では高精度に算出することが困難であることが知られている。そこで本実施形態では、非特許文献3に記載された方法で位相差を計算する。
 すなわち、第nフレームの混在信号スペクトルX1(k,n)とX2(k,n)の位相をそれぞれθ1(k,n)とθ2(k,n)としたとき、その位相差Δθ(k,n)=θ1(k,n)-θ2(k,n)を以下の手順で計算する。まず、混在信号スペクトルX1(k,n)とX2(k,n)のそれぞれをその振幅で正規化する。正規化したスペクトルをX1(k,n)バーおよびX2(k,n)バーとし、次式を用いて計算する。
Figure JPOXMLDOC01-appb-M000007
 ただし、|X(k,n)|はX(k,n)の絶対値を表す。次に、X2(k,n)バーの複素共役とX1(k,n)バーの積を計算する。両者の積をR(k,n)として、以下の式で計算する。
Figure JPOXMLDOC01-appb-M000008
 ただし、conj(X(k,n))はX(k,n)の複素共役を表す。そして、位相差Δθ(k,n)を次式で求める。
Figure JPOXMLDOC01-appb-M000009
 位相差は、非特許文献1と非特許文献2に記載のとおり、目的音の到来方向(Direction of Arrival:DOA)に基づいて求めることもできる。この場合、まず目的音の到来方向を推定し、その推定値に基づいて位相差を計算する。推定した到来方向をΦ(n)とし、位相差Δθ(k,n)を次式で求める。
Figure JPOXMLDOC01-appb-M000010
 ただし、dはセンサ201とセンサ202との間隔、cは音速、πは円周率を表す。到来方向Φ(n)の推定法としては、様々な方法が知られている。例えば、複数のセンサに到来する音に基づいて生成した入力信号の位相差を利用した方法(相互相関法、相互スペクトルパワー分析法、GCC-PHATなど)、MUSIC法に代表されるサブスペース法などが、非特許文献4~非特許文献7に開示されている。
 図6Cに示すように、抑圧部602は、ゲイン算出部621と乗算器622とを有する。
 抑圧部602は、位相差出力部251から供給された位相差に基づいて、変換部203から供給された混在信号スペクトルX1(k,n)に含まれる第1信号成分を抑圧し、仮推定第2信号成分を生成する。
 抑圧部602は、最初に位相差Δθ(k,n)を用いて、ゲインG(k,n)を計算する。次に、抑圧部602は、混在信号スペクトルX1(k,n)とゲインG(k,n)の積を仮推定第2信号成分として算出する。抑圧部602は、あらかじめ定められた位相差とゲインの関係を持つ関数(ゲイン関数)を用いてゲインG(k,n)を求める。図7Aにゲイン関数の一例を示す。
 図7Aにおいて、横軸は位相差Δθ(k,n)を、縦軸はゲインを表す。ここでは、ゲインが1と0の範囲に設定されている。抑圧部602は、ゲインが1である場合、入力した信号を減衰なしにそのまま通過させる。抑圧部602は、ゲインが0である場合、入力した信号を減衰させて、何も通過させない。ゲインが1である位相差の範囲を通過域、または通過帯域という。ゲインが0である連続した位相差の範囲を阻止域、または阻止帯域という。通過域と阻止域の間には、ゆるやかにゲインが1から0に変化する遷移域、または遷移帯域があってもよい。
 図7Aでは、通過域を白色、遷移域を網掛け、阻止域を斜線で表わして見やすくしている。図から明らかなように、この例では、位相差Δθ(k,n)=0の周辺に阻止域があり、0から離れた範囲に通過域があり、両者は遷移域を介して連続している。この場合、位相差Δθ(k,n)が0に近い第1信号成分は減衰され、0から離れている第1信号成分は減衰無しに通過する。中間には、少し減衰される位相差Δθ(k,n)の遷移域が存在する。遷移域無しに、通過域と阻止域が直接連続してもよい。位相差Δθ(k,n)=0は、センサ201とセンサ202とを結んだ直線に直角な方向から音が到来していることを表す。したがって、この図7Aに対応する抑圧部602は、正面方向から到来する音に対応する入力信号を十分に減衰し、それ以外の方向から到来する音に対応する信号を通過させる特性であることが理解できる。
 ゲイン関数としては、この他にも非特許文献1と非特許文献2に記載された関数を用いることが可能である。例えば非特許文献1と非特許文献2には、通過域から遷移域への変化点、および遷移域から阻止域への変化点の近傍で、ゲイン関数が図7Aよりも緩やかに変化する例が掲載されている。他にも、ゲイン関数が位相差の軸上で非対称、つまり図7Aの例では左右非対称の例も示されている。
 補正部603は、抑圧部602から供給された仮推定第2信号成分を補正し、推定第2信号成分N(k,n)を生成する。最も基本的な補正方法は、仮推定第2信号成分の平滑化である。仮推定第2信号成分を時間方向や周波数方向に平滑化し、それを推定第2信号成分N(k,n)とする。平滑化には、リーク積分や移動平均を用いることができる。例えば、仮推定第2信号成分をN(k,n)ハットとすると、移動平均で周波数方向に平滑化する場合には、推定第2信号成分N(k,n)は次式で計算される。
Figure JPOXMLDOC01-appb-M000011
 ただし、Mは1以上の整数である。また、リーク積分で時間方向に平滑化する場合には、推定第2信号成分N(k,n)は次式で計算される。
 ただし、aは0以上1以下の実数である。平滑化の方法は、リーク積分や移動平均に限定されない。他にも、高次多項式や非線形関数などを用いて平滑化することも可能である。
 平滑化前と平滑化後の仮推定第2信号成分を比較して、両者の差が大きい場合だけ平滑化した値に置き換える補正方法も有効である。平滑化前後の差が小さいときは、位相差の小さい信号が存在しない。つまり第2信号成分だけが存在する状態であることが多い。このような場合、平滑化は第2信号成分の推定精度の劣化をもたらす。したがって、平滑化した値への置き換えを平滑化前後の差が大きい場合に限定することで、常に平滑化を行う場合よりも第2信号成分の推定精度を改善できる。この場合、図7Bに示すように、補正部603の構成を、平滑化部731と比較部732と選択部733とを備えた構成とする。
 《発明の効果》
 本実施形態によれば、仮推定第2信号成分を補正して推定第2信号成分N(k,n)を生成する。これにより、混在信号スペクトルX1(k,n)、X2(k,n)の位相差Δθ(k,n)が小さくなる周波数において、推定第2信号成分N(k,n)のパワーが小さくなりすぎること(過小推定)を回避できる。このため、第2信号成分(妨害音成分)を高精度に推定でき、第2信号成分の抑圧不足を回避でき、従来よりも強調信号の品質が向上する。
 本実施形態では、ヌルビームフォーマを用いて第2信号成分を抑圧する場合について説明した。非特許文献1と非特許文献2に記載された技術のように、位相差が大きい信号に小さなゲインを与えることで、混在信号に含まれる第2信号成分を抑圧して強調信号を得る技術にも同様に適用できる。この場合、抑圧部206は、位相差に基づいて第2信号成分を抑圧し、仮強調信号スペクトルを得る。そして、補正部603は、本実施形態で説明した方法を用いて仮強調信号スペクトルを補正し、強調信号スペクトルを得る。この構成により、仮強調信号スペクトルを補正して強調信号スペクトルを得るので、位相差Δθ(k,n)が小さくなる周波数において、第2信号成分の抑圧不足を回避できる。このため、従来よりも強調信号の品質が向上する。
 以後の実施形態も同様に、ヌルビームフォーマを用いて第2信号成分を抑圧する場合について説明するが、位相差が大きい信号に小さなゲインを与えることで強調信号を生成する技術にも適用できる。その場合、本実施形態と同様に、強調信号スペクトルは推定部205で得られる。
 [第3実施形態]
 次に本発明の第3実施形態に係る信号処理装置について、図8A、図8Bを用いて説明する。図8Aは、本実施形態に係る信号処理装置の推定部805の構成を説明するための図である。本実施形態に係る補正部853は、第2実施形態に係る補正部603と比べると、第1入力信号を入力する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 図8Bに示す通り、補正部853は、平滑化部891、比較部892および選択部893を備える。補正部853は、変換部203から供給された混在信号スペクトルX1(k,n)を用いて、抑圧部602から供給された仮推定第2信号成分を補正し、推定第2信号成分N(k,n)を生成する。平滑化部891は、第2実施形態で説明した方法で仮推定第2信号成分Nbar(k,n)を平滑化する。比較部892は、仮推定第2信号成分Nbar(k,n)と混在信号スペクトルX1(k,n)のパワーPX1(k,n)とを比較する。選択部893は、PX1(k,n)がNbar(k,n)よりも小さければ、仮推定第2信号成分Nbar(k,n)の代わりにPX1(k,n)を推定第2信号成分N(k,n)とする。そうでなければ、第2実施形態と同様に仮推定第2信号成分Nbar(k,n)を推定第2信号成分N(k,n)とする。これにより、第2実施形態のように常に平滑化した値に置き換える場合よりも、平滑化に伴う第2信号成分の過大推定を低減できる。本実施形態では混在信号スペクトルX1(k,n)を使う場合について説明したが、変換部204から供給される混在信号スペクトルX2(k,n)を用いてもよい。どちらを用いた場合でも、同等の性能が得られる。
 本実施形態によれば、仮推定第2信号成分を補正して推定第2信号成分N(k,n)を生成する際に、混在信号スペクトルも用いて補正する。さらに、混在信号スペクトルと平滑化した仮推定第2信号成分を比較し、適切な方を推定第2信号成分N(k,n)とする。したがって、本実施形態によれば、第2実施形態よりも高精度に第2信号成分を推定できるため、強調信号の品質が向上する。
 [第4実施形態]
 次に本発明の第4実施形態に係る信号処理装置について、図9を用いて説明する。図9は、本実施形態に係る信号処理装置の推定部905の構成を説明するための図である。本実施形態に係る補正部953は、第2実施形態に係る補正部603と比べると、第1入力信号と第2入力信号とを入力する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 補正部953は、変換部203から供給された混在信号スペクトルX1(k,n)と、変換部204から供給された混在信号スペクトルX2(k,n)とを用いて、抑圧部602から供給された仮推定第2信号成分を補正する。これにより、推定第2信号成分N(k,n)を生成する。第2実施形態とは異なり、混在信号スペクトルX1(k,n)だけでなく、混在信号スペクトルX2(k,n)をも用いて補正する。基本的には、平滑化した仮推定第2信号成分、混在信号スペクトルX1(k,n)、X2(k,n)の三者を比較・混合・選択することで、推定第2信号成分N(k,n)を生成する。例えば、三者を直接比較する方法がある。第2実施形態に記載した方法で平滑化した仮推定第2信号成分をNbar(k,n)、混在信号スペクトルX1(k,n)とX2(k,n)のそれぞれのパワーをPX1(k,n)とPX2(k,n)とすると、Nbar(k,n)、PX1(k,n)、およびPX2(k,n)の三者を比較する。そして、最も値が小さいものを推定第2信号成分N(k,n)とする。これにより、第2信号成分の過大推定を第2実施形態よりも低減できる。
 Nbar(k,n)の比較対象として、PX1(k,n)とPX2(k,n)を混合したものとする方法も有効である。混合した混在信号スペクトルのパワーをPX3(k,n)とすると、PX3(k,n)は以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000013

 ただし、c(k,n)とd(k,n)は実数である。混合に伴うパワーの大幅な変化を防止するため、c(k,n)とd(k,n)の和は1であることが望ましい。そして、Nbar(k,n)とPX3(k,n)を比較し、値が小さい方を推定第2信号成分N(k,n)とする。
 混合方法は、上記の重み付き和に限定されない。例えば、PX1(k,n)とPX2(k,n)を対数化し、対数化した両者の重み付き和を計算する方法もある。このとき、重み付き和を計算した後に指数関数を使って、リニア領域信号へ変換する。PX3(k,n)は、以下のように与えられる。
Figure JPOXMLDOC01-appb-M000014
 ただし、exp(・)とlog(・)はそれぞれ指数関数、対数関数である。対数領域で重み付き和を計算することで、聴覚的に優れた混合を実現できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される関数を用いることも可能である。
 本実施形態によれば、仮推定第2信号成分を補正して推定第2信号成分N(k,n)を生成する際に、複数の混在信号スペクトルを用いて補正する。したがって、本実施形態によれば、第2実施形態よりも高精度に第2信号成分を推定できるため、強調信号の品質が向上する。
 [第5実施形態]
 次に本発明の第5実施形態に係る信号処理装置について、図10Aを用いて説明する。図10Aは、本実施形態に係る信号処理装置の推定部1005の構成を説明するための図である。本実施形態に係る生成部1052は、第2実施形態に係る生成部252と比べると、存在確率計算部1054と補正部1055とを備えた点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 存在確率計算部1054は、変換部203から供給された混在信号スペクトルX1(k,n)を用いて、混在信号スペクトルX1(k,n)の中に第1信号成分が存在する確率(存在確率)を計算する。この存在確率は、0から1までの実数であり、基本的に全ての周波数において個別に計算される。ただし、計算量を削減する目的で、複数の周波数に対して一つの存在確率を計算してもよい。
 目的音が音声や音楽である場合、信号の調波性を利用した方法が有効である。まず、信号の基本周波数を求める。基本周波数の計算方法は、例えば自己相関法や、ケプストラムを用いた方法などが非特許文献8~非特許文献10に開示されている。そして、求めた基本周波数から倍音成分が存在する周波数である倍音周波数を求める。基本周波数の整数倍が倍音周波数に相当するので、例えば基本周波数をk0とすると、倍音周波数は2k0、3k0、4k0、...となる。最後に、求めた基本周波数および倍音周波数に基づき、周波数ごとに第1信号成分の存在確率を算出する。基本周波数および倍音周波数では、第1信号成分の存在確率を1とする。基本周波数および倍音周波数に近い周波数では1に近い確率を与え、遠ざかるに従って存在確率を0に近づける。
 また、第1信号成分の存在確率をフレーム単位で計算する方法も有効である。目的音が音声である場合、第1信号成分の存在可能性をフレーム単位で判定する技術は「音声検出」(VAD:Voice Activity Detection)と呼ばれ、様々な方法が知られている。例えば、低周波数帯域のパワーや信号の高次統計量、および音声の調波性・周期性を利用した方法などが非特許文献11に開示されている。音声検出の結果、音声が検出された場合には、全ての帯域で音声の存在確率を1とする。そして、音声が検出されなかったフレームのうち、検出直後のM2フレームでは1に近い確率を与え、時間が経過するにつれて存在確率を0に近づける(ただし、M2は正の整数)。
 補正部1055は、図10Bに示す通り、平滑化部1061と混合部1062とを備え、存在確率計算部1054から供給された存在確率を用いて、抑圧部602から供給された仮推定第2信号成分を補正し、推定第2信号成分N(k,n)を生成する。平滑化部1061は、第2実施形態で説明した方法で仮推定第2信号成分Nbar(k,n)を平滑化する。混合部1062は、存在確率に基づいて算出された混合率で、平滑化前後の仮推定第2信号成分を混合し、混合した信号を推定第2信号成分N(k,n)とする。混合部1062は、存在確率が低ければ、平滑化後の仮推定第2信号成分を高い割合で混合する。このため、第1信号成分が存在する可能性が低い周波数のみで平滑化が行われる。つまり、第1信号成分が存在する帯域において不適切な補正が回避されるので、第2信号成分の過大推定を防止できる。
 混合率は、存在確率を変数とする単調関数を用いて計算される。単調関数として基本的な例である一次関数を用いた場合について説明する。存在確率をp(k,n)とすると、平滑化前の仮推定第2信号成分に対する混合率w(k,n)は次式で計算される。
Figure JPOXMLDOC01-appb-M000015
 ただし、a、bは実数で、a>0を満足する。上式から混合率は、0から1までの実数である。p(k,n)が十分小さい場合は、w(k,n)=0となるので、平滑化前の仮推定第2信号成分を混合する割合は0となる。混合率を計算せずに、存在確率p(k,n)を混合率とすることも可能である。混合率の計算が不要となるので、計算量を削減することに効果的である。
 そして、平滑化前後の仮推定第2信号成分をN1(k,n)、N2(k,n)とすると、推定第2信号成分N(k,n)は次式で算出される。
Figure JPOXMLDOC01-appb-M000016
 混合方法は、上記の重み付き和に限定されない。例えば、N1(k,n)とN2(k,n)を対数化し、対数化した両者の重み付き和を計算する方法もある。このとき、重み付き和を計算した後に指数関数を使って、リニア領域信号へ変換する。推定第2信号成分N(k,n)は、以下の式で与えられる。
Figure JPOXMLDOC01-appb-M000017

 ただし、exp(・)とlog(・)はそれぞれ指数関数、対数関数である。対数領域で重み付き和を計算することで、聴覚的に優れた混合を実現できる。その他にも、高次の多項式関数や非線形関数など、他の形で表される関数を用いることも可能である。
 本実施形態によれば、第1信号成分の存在確率を用いて仮推定第2信号成分を補正する。第1信号成分の存在確率が低い場合に、重点的に補正を行う。したがって、本実施形態によれば、第1信号成分の存在確率が高い周波数での不適切な補正を回避できるので、第2実施形態と比べて第2信号成分の推定精度、および強調信号の品質が向上する。
 [第6実施形態]
 次に本発明の第6実施形態に係る信号処理装置について、図11を用いて説明する。図11は、本実施形態に係る信号処理装置の推定部1105の構成を説明するための図である。本実施形態に係る存在確率計算部1154は、第5実施形態に係る存在確率計算部1054と比べると、第1入力信号と第2入力信号とを入力する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 存在確率計算部1154は、変換部203から供給された混在信号スペクトルX1(k,n)と、変換部204から供給された混在信号スペクトルX2(k,n)とを用いて、混在信号スペクトルX1(k,n)、X2(k,n)に第1信号成分が存在する確率を計算する。本実施形態では、2つの混在信号スペクトルX1(k,n)、X2(k,n)を用いて存在確率p(k,n)を計算する。
 代表的な計算方法は、第1信号成分の存在確率を各混在信号スペクトルX1(k,n)、X2(k,n)で別々に計算し、それらを統合する方法である。目的音が音声や音楽であれば、第5実施形態で説明したように、信号の調波性を利用した方法を用いて、各混在信号スペクトルX1(k,n)、X2(k,n)に対する存在確率p(k,n)を計算できる。
 存在確率の統合方法は様々であり、最も簡単な方法は両者の積である。2つの混在信号スペクトルX1(k,n)、X2(k,n)に対する存在確率をそれぞれp1(k,n)、p2(k,n)とすると、存在確率計算部1154が出力する存在確率p(k,n)は次式のように計算される。
Figure JPOXMLDOC01-appb-M000018
 存在確率p(k,n)の統合方法は、積に限定されない。例えば、p1(k,n)とp2(k,n)の重み付き和を用いる方法も有効である。この場合、p(k,n)は次式のように計算される。
Figure JPOXMLDOC01-appb-M000019
 ただし、a(k,n)とb(k,n)は正の実数である。a(k,n)とb(k,n)の値を調整することで、p1(k,n)とp2(k,n)の影響度を制御できる。例えば、a(k,n)=0.01、b(k,n)=0.99であれば、p(k,n)はp2(k,n)に大きく依存するようになる。
 別々に求めた存在確率を統合するのではなく、混在信号スペクトルX1(k,n)、X2(k,n)を統合してから存在確率p(k,n)を計算することも有効である。存在確率の計算が1回で済むので、別々に計算するよりも計算量を削減できる。混在信号スペクトルX1(k,n)、X2(k,n)の統合には、重み付き和を用いることができる。統合後の混在信号スペクトルXM(k,n)は、次の式で計算される。
Figure JPOXMLDOC01-appb-M000020
 ただし、a(k,n)とb(k,n)は正の実数である。統合した混在信号スペクトルXM(k,n)に基づく存在確率p(k,n)の計算には、第5実施形態で説明したように、信号の調波性を利用した方法をそのまま用いることが可能である。
 複数の混在信号スペクトルを用いて第1信号成分の存在確率を計算する場合、混在信号スペクトルの相互関係に基づいて計算する方法も有効である。代表例は、混在信号スペクトルの相互相関を用いる方法である。混在信号スペクトルX1(k,n)とX2(k,n)の相互相関を計算し、相関値が高ければ第1信号成分の存在確率p(k,n)を高くする。例えば環境騒音や暗騒音は相関が低いことが知られているので、目的音が音声や音楽、妨害音が環境騒音や暗騒音の場合には有効な方法である。相関の計算方法については、様々な方法が知られており、例えば、相互相関法、相互スペクトルパワー分析法、GCC-PHATなどが非特許文献4~非特許文献5に開示されている。
 混在信号スペクトルのパワーや位相の相対関係を用いた方法も有効である。パワーの相対関係を用いた方法では、混在信号スペクトルX1(k,n)とX2(k,n)のパワーが近い場合には第1信号成分、そうでなければ第2信号成分と判定する。例えば、両者のパワー比が1に近ければ、第1信号成分の存在確率を高くする。パワー差の場合は、0に近ければ第1信号成分の存在確率を高くする。位相の相対関係を用いる場合には、位相の差が小さければ第1信号成分の存在確率を高くする。位相差としては、位相差出力部251で計算されたものを用いてもよい。この場合、存在確率計算部1154における位相差の計算が不要になる。
 本実施形態によれば、第1信号成分の存在確率を計算する際に、2つの混在信号スペクトルX1(k,n)、X2(k,n)を用いる。したがって、本実施形態によれば、1つの混在信号スペクトルX1(k,n)だけを用いていた第5実施形態よりも正確に存在確率p(k,n)を計算できるため、第2信号成分の推定精度、および強調信号の品質が向上する。
 [第7実施形態]
 次に本発明の第7実施形態に係る信号処理装置について、図12を用いて説明する。図12は、本実施形態に係る信号処理装置の推定部1205の構成を説明するための図である。本実施形態に係る補正部1255は、第5実施形態に係る補正部1055と比べると、第1入力信号を入力する点で異なる。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 補正部1255は、変換部203から供給された混在信号スペクトルX1(k,n)と存在確率計算部1054から供給された存在確率p(k,n)を用いて、抑圧部602から供給された仮推定第2信号成分を補正する。これにより、推定第2信号成分N(k,n)を生成する。なお、混在信号スペクトルX1(k,n)の代わりに、変換部204から供給された混在信号スペクトルX2(k,n)を用いても同等の効果が得られる。
 まず、第2実施形態に記載した方法で平滑化した仮推定第2信号成分を補正する。そして、存在確率p(k,n)から求めた混合比率に従って、混在信号スペクトルX1(k,n)と平滑化した仮推定第2信号成分を混合し、推定第2信号成分N(k,n)を生成する。存在確率p(k,n)が低ければ、第1信号成分が混在信号スペクトルX1(k,n)に含まれる可能性が低いので、混在信号スペクトルX1(k,n)の割合を多くする。これにより第1信号成分の存在確率が低い周波数で平滑化が回避されるので、第2信号成分の推定精度は向上する。第2実施形態との主な相違点は、混在信号スペクトルX1(k,n)と平滑化した仮推定第2信号成分の混合に、存在確率p(k,n)を用いる点である。
 混合には、第5実施形態で説明したように、信号の調波性を利用した方法を利用する。まず、存在確率p(k,n)に基づいて混合率を計算する。そして、算出された混合率に基づいて、混在信号スペクトルと平滑化した仮推定第2信号成分を混合する。平滑化した仮推定第2信号成分をNbar(k,n)、混在信号スペクトルX1(k,n)のパワーをPX1(k,n)、および混合率をw(k,n)として、推定第2信号成分N(k,n)を次の式を用いて計算する。
Figure JPOXMLDOC01-appb-M000021
 ただし、w(k,n)は第5実施形態で説明したように、存在確率を変数とする単調関数を用いた方法で計算する。第5実施形態で説明したとおり、存在確率p(k,n)が低ければw(k,n)は小さくなる。その場合、上式からX1(k,n)がN(k,n)に占める割合が多くなる。混合率を計算せずに、存在確率p(k,n)を混合率とすることも可能である。混合率の計算が不要となるので、計算量の削減に効果的である。
 推定第2信号成分N(k,n)を計算する方法は、存在確率p(k,n)に基づいて、混在信号スペクトルX1(k,n)と平滑化した仮推定第2信号成分を混合する方法に限定されない。第3および第5実施形態を組み合わせた方法も有効である。まず、第3実施形態の場合と同様に、平滑化した仮推定第2信号成分をNbar(k,n)と混在信号スペクトルX1(k,n)のパワーPX1(k,n)とを比較する。もしPX1(k,n)がNbar(k,n)よりも小さければ、Nbar(k,n)=PX1(k,n)とする。そして、存在確率p(k,n)に従って、補正した仮推定第2信号成分と平滑化前の仮推定第2信号成分とを混合し、混合した仮推定第2信号成分を推定第2信号成分N(k,n)とする。混合方法については、第5実施形態で説明したように、平滑化前後の仮推定第2信号成分N1(k,n)、N2(k,n)の重み付き和を計算する方法を用いることができる。ただし、平滑化直後ではなく、補正も行った仮推定第2信号成分で混合する点が第5実施形態と異なる。
 本実施形態によれば、存在確率p(k,n)だけでなく、混在信号スペクトルX1(k,n)も用いて仮推定第2信号成分を補正する。さらに、存在確率p(k,n)が低い周波数では、平滑化した仮推定第2信号成分よりも、混在信号スペクトルX1(k,n)を重点的に用いて推定第2信号成分N(k,n)を生成する。したがって、本実施形態によれば、仮推定第2信号成分の補正に存在確率p(k,n)だけを用いていた第5実施形態よりも高精度に第2信号成分を推定できるため、強調信号の品質が向上する。
 [第8実施形態]
 次に本発明の第8実施形態に係る信号処理装置について、図13を用いて説明する。図13は、本実施形態に係る信号処理装置の推定部1305の構成を説明するための図である。本実施形態に係る補正部1355は、第6実施形態に係る補正部1055と比べると、第1入力信号と第2入力信号とを入力する点で異なる。その他の構成および動作は、第6実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 補正部1355は、混在信号スペクトルX1(k,n)と、混在信号スペクトルX2(k,n)と、存在確率計算部1154から供給された存在確率p(k,n)とを用いて、抑圧部602から供給された仮推定第2信号成分を補正する。これにより、推定第2信号成分N(k,n)を生成する。
 第6実施形態との主な相違点は、混在信号スペクトルの混合処理が追加された点である。混在信号スペクトルの混合には、第4実施形態で説明したように、混在信号スペクトルX1(k,n)および混在信号スペクトルX2(k,n)のパワーに重み付けをした和を求める方法を用いることが可能である。混在信号スペクトルX1(k,n)と混在信号スペクトルX2(k,n)のパワーをそれぞれPX1(k,n)とPX2(k,n)とすると、混合した混在信号スペクトルパワーをPX3(k,n)は、以下のように与えられる。
Figure JPOXMLDOC01-appb-M000022
 ただし、c(k,n)とd(k,n)は実数である。混合に伴うパワーの大幅な変化を防止するため、c(k,n)とd(k,n)の和は1であることが望ましい。   
 そして、第7実施形態と同様に重み付き和を用いる混合方法で、平滑化した仮推定第2信号成分と混合する。平滑化した仮推定第2信号成分をNbar(k,n)、混合率をw(k,n)とすると、推定第2信号成分N(k,n)を次のように計算する。
Figure JPOXMLDOC01-appb-M000023
 ただし、w(k,n)は、第5実施形態で説明したように、存在確率p(k,n)に基づいて、存在確率を変数とする単調関数を用いる方法で計算する。第7実施形態で説明した通り、存在確率p(k,n)が低ければw(k,n)が小さくなるので、PX3(k,n)がN(k,n)に占める割合が多くなる。
 推定第2信号成分N(k,n)を計算する方法は、存在確率p(k,n)に基づいて、混在信号スペクトルと平滑化した仮推定第2信号成分を混合する方法に限定されない。第4および第6実施形態を組み合わせた方法も有効である。まず、第4実施形態の場合と同様に、平滑化した仮推定第2信号成分を補正する。例えば、平滑化前の仮推定第2信号成分、混在信号スペクトルX1(k,n)とX2(k,n)のパワーPX1(k,n)、およびPX2(k,n)の三者を比較し、最も値が小さいものを補正値として採用する。そして、存在確率p(k,n)に従って、補正した仮推定第2信号成分と平滑化前の仮推定第2信号成分とを混合し、混合した仮推定第2信号成分を推定第2信号成分N(k,n)とする。混合方法については、第6実施形態で説明したように重み付き和を用いることができる。ただし、平滑化直後ではなく、補正も行った仮推定第2信号成分を用いて混合する点が第6実施形態と異なる。
 本実施形態によれば、存在確率p(k,n)だけでなく、複数の混在信号スペクトルも用いて仮推定第2信号成分を補正する。したがって、本実施形態によれば、仮推定第2信号成分の補正に存在確率p(k,n)だけを用いた第6実施形態よりも高精度に第2信号成分を推定でき、強調信号の品質が向上する。
 [第9実施形態]
 次に本発明の第9実施形態に係る信号処理装置について、図14を用いて説明する。図14は、本実施形態に係る信号処理装置の推定部1405の構成を説明するための図である。本実施形態に係る推定部1405に含まれる位相差出力部1451は、第2実施形態に係る位相差出力部251と比べると、仮位相差算出部1452と仮位相差補正部1453とを有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 仮位相差算出部1452は、変換部203から供給された混在信号スペクトルX1(k,n)の位相と変換部204から供給された混在信号スペクトルX2(k,n)の位相との位相差を計算して仮位相差として出力する。
 仮位相差補正部1453は、仮位相差算出部1452から供給された仮位相差を補正することにより位相差を得て、この位相差を抑圧部1454に供給する。仮位相差補正部1453は、基本的には、仮位相差Δθ(k,n)を分析して第1信号成分の存在可能性を推定し、その存在可能性に基づいて位相差を補正する。例えば、高周波数帯域の位相差は、その平均値で置換する。もし第1信号成分が多ければ、位相差の平均値はゼロに近い値となるので、補正後の位相差はゼロに近い値に置換される。
 位相差がゼロに近い値を持つ周波数の数をカウントし、カウント数に基づいて補正する方法も有効である。この場合、カウント数が少なければ、第1信号成分の存在可能性が低いので、全ての周波数で位相差の絶対値を大きくし、ゼロから遠ざかるように補正する。
 抑圧部1454は、仮位相差補正部1453から供給された位相差に基づいて、変換部203から供給された混在信号スペクトルX1(k,n)に含まれる第1信号成分を抑圧し、推定第2信号N(k,n)を生成する。
 本実施形態によれば、仮位相差を補正して位相差を得る。本実施形態は、推定第2信号成分N(k,n)を直接補正する第2実施形態とは異なるが、位相差の補正により第2信号成分の推定精度が向上する。したがって、本実施形態によれば、第2実施形態と同様に、補正無しの場合に比べて強調信号の品質が向上する。
 [第10実施形態]
 次に本発明の第10実施形態に係る信号処理装置について、図15を用いて説明する。図15は、本実施形態に係る信号処理装置の推定部1505の構成を説明するための図である。本実施形態に係る推定部1505は、第9実施形態に係る推定部1405と比べると、位相差出力部1551が、存在確率計算部1054を有する点で異なる。その他の構成および動作は、第9実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 位相差補正部1552は、存在確率計算部1054から供給された存在確率p(k,n)を用いて、仮位相差算出部1452から供給された仮位相差を補正し、位相差を得る。第1信号成分の存在確率が高ければ、位相差の絶対値を小さくする。第1信号成分の存在確率をp(k,n)とすると、補正後の位相差Δθbar(k,n)は次のように与えられる。
Figure JPOXMLDOC01-appb-M000024
 ただしF(x)は、xの単調増加関数であり、F(x)>0を満足する。従ってp(k,n)が1に近づけば、F(1-p(k,n))は小さな値になる。
 本実施形態によれば、第1信号成分の存在確率を用いて位相差を補正する。したがって、本実施形態によれば、第1信号成分の存在確率を用いない第9実施形態よりも正確に位相差を補正できるため、第2信号成分の推定精度、および強調信号の品質が向上する。
 なお、第6実施形態と同様に、存在確率計算部1054が2つ以上の混在信号スペクトルを用いて存在確率を計算するようにしてもよい。
 [第11実施形態]
 次に本発明の第11実施形態に係る信号処理装置について、図16を用いて説明する。図16は、本実施形態に係る信号処理装置の推定部1605の構成を説明するための図である。本実施形態に係る推定部1605は、第2実施形態に係る推定部205と比べると、仮ゲイン計算部1653、仮ゲイン補正部1654、および乗算器1655を有する推定妨害音生成部1652を備えた点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 仮ゲイン計算部1653は、位相差出力部251から供給された位相差と、変換部203から供給された混在信号スペクトルX1(k,n)を用いて、仮ゲインを計算する。位相差から仮ゲインを計算する方法は、第2実施形態に記載のように関数を使った方法を用いることができる。つまり、図7に示したゲイン関数を用いて、位相差から仮ゲインを算出する。
 仮ゲイン補正部1654は、仮ゲイン計算部1653から供給された仮ゲインを補正して、ゲインを得る。基本的には、仮ゲインを分析して第1信号成分の存在可能性を推定し、その可能性に基づいて仮ゲインを補正する。例えば、高周波数帯域のゲインは、その平均値で置換する。第1信号成分が少なければ、ゲインの平均値は1に近い値となるので、補正後のゲインは1に近い値に置換される。
 ゲインが1に近い値を持つ周波数の数をカウントし、カウント数に基づいて補正する方法も有効である。この場合、カウント数が多ければ、第1信号成分の存在可能性が低いので、全ての周波数でゲインの値を大きくし、1に近づくように補正する。
 乗算器1655は、変換部203から供給された混在信号スペクトルX1(k,n)と仮ゲイン補正部1654から供給されたゲインを乗算し、推定第2信号成分N(k,n)を生成する。混在信号スペクトルX1(k,n)のパワーをPX1(k,n)、補正したゲインをGbar(k,n)とすると、推定第2信号成分N(k,n)は次式で与えられる。
Figure JPOXMLDOC01-appb-M000025
 なお、乗算器1655は、混在信号スペクトルX1(k,n)の代わりに、変換部204から供給された混在信号スペクトルX2(k,n)を用いても同等の効果を得ることができる。
 本実施形態によれば、仮ゲインを補正してゲインを得る。本実施形態は、推定第2信号成分N(k,n)を補正する第2実施形態とは異なるが、ゲインの補正により第2信号成分の推定精度が向上する。したがって、本実施形態によれば、第2実施形態と同様に、補正無しの場合に比べて強調信号の品質が向上する。
 [第12実施形態]
 次に本発明の第12実施形態に係る信号処理装置について、図17を用いて説明する。図17は、本実施形態に係る信号処理装置の推定部1705の構成を説明するための図である。本実施形態に係る推定部1705は、第11実施形態に係る推定部1605と比べると、存在確率計算部1054と仮ゲイン補正部1751を有する推定妨害音生成部1752を備えた点で異なる。その他の構成および動作は、第11実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 仮ゲイン補正部1751は、存在確率計算部1054から供給された存在確率p(k,n)を用いて、仮ゲイン計算部1751から供給された仮ゲインを補正して、ゲインを得る。基本的に、第1信号成分の存在確率が高ければ、仮ゲインの値を小さくする。第1信号成分の存在確率をp(k,n)とすると、補正後のゲインGbar(k,n)は次のように与えられる。
Figure JPOXMLDOC01-appb-M000026
 ただしF(x)は、xの単調増加関数であり、F(x)>0を満足する。従ってp(k,n)が1に近づけば、F(1-p(k,n))は小さな値になる。
 本実施形態によれば、第1信号成分の存在確率を用いて仮ゲインを補正する。したがって、本実施形態によれば、第1信号成分の存在確率を用いない第11実施形態よりも正確に位相差を補正できるため、第2信号成分の推定精度、および強調信号の品質が向上する。
 なお、第6実施形態と同様に、存在確率計算部1054が2つ以上の混在信号スペクトルを用いて存在確率を計算するようにしてもよい。
 [第13実施形態]
 次に本発明の第13実施形態に係る信号処理装置について、図18を用いて説明する。図18は、本実施形態に係る信号処理装置1800の構成を説明するための図である。本実施形態に係る信号処理装置1800は、第2実施形態に係る信号処理装置200と比べると、位相調整部1809を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 位相調整部1809は、変換部203、204から供給される混在信号スペクトルを受けて、第1信号成分が等価的に正面から到来したと見えるように、各変換部からの信号の位相を調整する。これは、ビームステアリングと呼ばれる処理であり、非特許文献12~非特許文献13に詳細に開示されているので、ここでは省略する。
 本実施形態によれば、混在信号スペクトルの位相差を調整することで、ビームステアリングを実現する。このため、本実施形態によれば、目的音が正面以外から到来する場合にも、正面から到来する場合と同等の第2信号成分の推定精度を実現できる。
 [第14実施形態]
 次に本発明の第14実施形態に係る信号処理装置について、図19を用いて説明する。図19は、本実施形態に係る信号処理装置1900の構成を説明するための図である。本実施形態に係る信号処理装置1900は、第2実施形態に係る信号処理装置200と比べると、センサ1901、変換部1902、および推定部1903を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 センサ1901には、混在信号がサンプル値系列X3(t)として供給される。センサ1901に供給された混在信号は、変換部1902においてフーリエ変換などの変換を施されて、複数の周波数成分に分割される。
 推定部1903は、変換部203、204、1901から供給される混在信号スペクトルX1(k,n)、X2(k,n)、X3(k,n)を用いて、混在信号スペクトルX1(k,n)に含まれる第2信号成分を推定し、推定第2信号成分N(k,n)を生成する。推定部1903の詳細については、図20を参照して説明する。
 図20は、本実施形態に係る信号処理装置1900の推定部1903の構成を説明するための図である。本実施形態に係る推定部1903は、第2実施形態に係る推定部205と比べると、位相差出力部2051を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 位相差出力部2051は、変換部203、204、1901から供給される混在信号スペクトルX1(k,n)、X2(k,n)、X3(k,n)を用いて、混在信号スペクトルの位相差を計算する。はじめに、3つの混在信号スペクトルから全てのペアに対して位相差を計算する。つまりX1(k,n)とX2(k,n)、X2(k,n)とX3(k,n)、およびx3(k,n)とX1(k,n)の全てのペアに対して位相差を計算する。各ペアの位相差をΔθ12(k,n)、Δθ23(k,n)、およびΔθ31(k,n)とする。各ペアの位相差は、第2実施形態で説明した方法で求める。そして、全ペアの位相差を1つに統合する。
 位相差の統合は、各ペアの位相差、すなわちΔθ12(k,n)、Δθ23(k,n)、およびΔθ31(k,n)の統計量に基づいて行われる。つまり、3つの位相差の統計量を最終的な位相差とする。統計量としては、平均値、中央値、最大値、および最小値などが挙げられる。平均値と中央値とを選択する方法は、位相差の分散を小さくするので、位相差の精度向上をもたらす。最小値を選択する場合は、位相差が小さな領域の特性を位相差が大きな領域へ広げる効果がある。阻止域を等価的に広くする効果につながるので、位相差の計算誤差により、誤って目標信号に大きなゲイン値を与えてしまうことが多い場合に、高い効果を発揮する。
 本実施形態によれば、3つの混在信号に基づいて位相差を計算する。3つの混在信号から個別に算出された3つの位相差を統合して、位相差を求める。このため、2つの混在信号から1つの位相差を求めていた第2実施形態よりも、正確に位相差を求めることが可能になる。したがって、本実施形態によれば、第2信号成分の推定精度、および強調信号の品質が向上する。
 本実施形態では、3つの混在信号を用いた場合について説明したが、混在信号の数をさらに増やすことで、位相差をより正確に求めることが可能になる。また、第2実施形態だけでなく、他の実施形態についても同様に拡張することが可能である。他の実施形態でも混合信号を3つ以上用いることで、位相差を正確に求めることが可能になり、第2信号成分の推定精度、および強調信号の品質が向上する。
 [第15実施形態]
 次に本発明の第15実施形態に係る信号処理装置について、図21を用いて説明する。図21は、本実施形態に係る信号処理装置2100の構成を説明するための図である。本実施形態に係る信号処理装置2100は、第2実施形態に係る信号処理装置200と比べると、推定部、抑圧部、および逆変換部の組を変換部ごとに一組ずつ有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 推定部2105は、変換部204から供給される混在信号スペクトルX2(k,n)に含まれる第2信号成分を推定し、推定第2信号成分N2(k,n)を生成する。
 抑圧部2106は、推定第2信号成分N2(k,n)を用いて、変換部204から供給された混在信号スペクトルX2(k,n)に含まれる第2信号成分を抑圧し、抑圧の結果としての強調信号スペクトルY2(k,n)を逆変換部2107に伝達する。
 逆変換部2107は、抑圧部2106から供給された強調信号スペクトルY2(k,n)の逆変換を求め、強調信号として、出力端子2108に供給する。
 推定部2105は、推定部205と同じ方法で、混在信号スペクトルX2(k,n)に含まれる第2信号成分を推定する。抑圧部2106は、抑圧部206と同じ方法で、混在信号スペクトルX2(k,n)に含まれる第2信号成分を抑圧する。逆変換部2107は、逆変換部207と同じ方法で、強調信号スペクトルY2(k,n)の逆変換を計算する。
 本実施形態によれば、2つの強調信号を生成する。したがって、本実施形態によれば、強調信号を1つだけ生成する第2実施形態よりも、品質が改善する。特にステレオ信号を処理する場合に有効であり、1つの信号を出力する場合に比べて、ステレオ感(臨場感)が向上する。
 [第16実施形態]
 次に本発明の第16実施形態に係る信号処理装置について、図22を用いて説明する。図22は、本実施形態に係る信号処理装置2200のハードウェア構成を説明するための図である。
 信号処理装置2200は、入力部2201、CPU(Central Processing Unit)2202、メモリ2203、および出力部2204を備える。
 入力部2201は、センサ201、202に接続されたインタフェースを含む。
 CPU2202は、入力部2201からセンサ201、202の出力信号を入力して信号処理を行なう。
 メモリ2203は、センサ201、202から入力した信号をセンサ201、202ごとに一時記憶する。さらに、メモリ2203は信号処理プログラムの実行領域を有する。
 以下、一例として、第2実施形態で説明した信号処理をソフトウェアで実現する場合について、信号処理装置2200に設けられたCPU2202で実行する処理の流れを説明する。
 まず、ステップS2211において、第1信号成分と第2信号成分が混在する2つの混在信号をセンサ201、202から入力し、これらの混在信号を変換して、2つの混在信号スペクトルを得る。ステップS2213において、一方の混在信号スペクトルと他方の混在信号スペクトルとの位相差を求める。ステップS2215において、その位相差を用いて、一方の混在信号スペクトルに含まれる第1信号成分を抑圧して仮推定第2信号成分を生成する。ステップS2217において、仮推定第2信号成分を補正して推定第2信号成分N(k,n)を生成する。ステップS2219において、推定第2信号成分N(k,n)を用いて、一方の混在信号スペクトルに含まれる第2信号成分を抑圧して強調信号スペクトルを生成する。ステップS2221において、強調信号スペクトルを逆変換して強調信号を生成する。
 これらの処理を行なうプログラムモジュールはメモリ2203に格納されており、CPU2202がメモリ2203に格納されたそれらのプログラムモジュールを順次実行することにより、第2実施形態と同様の効果を得ることができる。
 第3実施形態~第15実施形態についても同様に、ブロック図で説明した各機能・構成に対応するプログラムモジュールをメモリ2203に格納し、CPU2202がそれらのプログラムモジュールを実行すれば、各実施形態の効果を得ることができる。
 [他の実施形態]
 以上説明してきた第1乃至第16実施形態では、それぞれ別々の特徴を持つ信号処理装置について説明したが、それらの特徴を如何様に組み合わせた信号処理装置も、本発明の範疇に含まれる。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、単体の装置に適用してもよい。さらに、本発明は、実施形態の機能を実現するソフトウェアの信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWWサーバも、本発明の範疇に含まれる。
 [実施形態の他の表現]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力する位相差出力手段と、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成する生成手段と、
 を備えた信号処理装置。
(付記2)
 前記推定妨害音信号に基づき、前記第1入力信号における前記妨害音の成分を抑圧した強調信号を生成する第1抑圧手段をさらに備えた付記1に記載の信号処理装置。
(付記3)
 前記生成手段は、
 前記位相差を用いて、前記第1入力信号に含まれる目的音成分を抑圧して仮推定妨害音信号を生成する目的音抑圧手段と、
 前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する補正手段と、
 を備えた、付記1または2に記載の信号処理装置。
(付記4)
 前記補正手段は、前記第1入力信号に基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、付記3に記載の信号処理装置。
(付記5)
 前記補正手段は、前記第1入力信号と前記第2入力信号とに基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、付記4に記載の信号処理装置。
(付記6)
 前記生成手段は、前記第1入力信号における前記目的音成分の存在確率を計算する存在確率計算手段をさらに備え、
 前記補正手段は、前記目的音成分の存在確率に基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、付記3に記載の信号処理装置。
(付記7)
 前記補正手段は、前記仮推定妨害音信号を時間方向または周波数方向に平滑化した後の平滑化妨害音信号と、平滑化する前の前記仮推定妨害音信号とを混合して前記推定妨害音信号を生成する、付記3乃至6のいずれか1項に記載の信号処理装置。
(付記8)
 前記存在確率計算手段は、前記第1入力信号と前記第2入力信号とに基づいて、前記第1入力信号における前記目的音成分の存在確率を計算する、付記6に記載の信号処理装置。
(付記9)
 前記補正手段は、前記第1入力信号と前記存在確率とに基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、付記6、7または8に記載の信号処理装置。
(付記10)
 前記補正手段は、前記第1入力信号と前記第2入力信号と前記存在確率とに基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、付記6、7または8に記載の信号処理装置。
(付記11)
 前記位相差出力手段は、
 前記第1入力信号の位相と前記第2入力信号の位相との仮位相差を求める仮位相差算出手段と、
 前記仮位相差を補正して前記位相差を生成する仮位相差補正手段と、
 をさらに備えた、付記1乃至10のいずれか1項に記載の信号処理装置。
(付記12)
 前記仮位相差補正手段は、前記第1入力信号における前記目的音成分の存在確率に基づいて、前記仮位相差を補正して前記位相差を生成する、付記11に記載の信号処理装置。
(付記13)
 前記生成手段は、
 前記第1入力信号と前記位相差とに基づいて仮ゲインを求める仮ゲイン計算手段と、
 前記仮ゲインを補正してゲインを生成する仮ゲイン補正手段と、
 前記第1入力信号と前記ゲインとを乗算して前記推定妨害音信号を生成する乗算手段と、
 を備えた、付記1乃至12のいずれか1項に記載の信号処理装置。
(付記14)
 前記仮ゲイン補正手段は、前記第1入力信号における前記目的音成分の存在確率に基づいて、前記仮ゲインを補正して前記ゲインを生成する、付記13に記載の信号処理装置。
(付記15)
 前記第1入力信号の位相と前記第2入力信号の位相とを調整した第1位相調整信号と第2位相調整信号とを生成する位相調整手段をさらに備え、
 前記第1入力信号と前記第2入力信号とに代えて前記第1位相調整信号と前記第2位相調整信号とを用いる、付記1乃至14のいずれか1項に記載の信号処理装置。
(付記16)
 前記位相差出力手段は、目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、前記環境において入力した第3入力音に基づいて生成された第3入力信号と、の位相差を出力する、付記1乃至15のいずれか1項に記載の信号処理装置。
(付記17)
 前記推定妨害音信号に基づいて、前記第2入力信号に含まれる前記妨害音の成分を抑圧する第2抑圧手段をさらに備えた、付記1乃至16のいずれか1項に記載の信号処理装置。
(付記18)
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
 を含む信号処理方法。
(付記19)
 目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
 前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
 を、コンピュータに実行させる信号処理プログラム。
この出願は、2015年6月30日に出願された日本出願特願2015-131978を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (10)

  1.  目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力する位相差出力手段と、
     前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成する生成手段と、
     を備えた信号処理装置。
  2.  前記推定妨害音信号に基づき、前記第1入力信号における前記妨害音の成分を抑圧した強調信号を生成する第1抑圧手段をさらに備えた請求項1に記載の信号処理装置。
  3.  前記生成手段は、
     前記位相差を用いて、前記第1入力信号に含まれる目的音成分を抑圧して仮推定妨害音信号を生成する目的音抑圧手段と、
     前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する補正手段と、
     を備えた、請求項1または2に記載の信号処理装置。
  4.  前記補正手段は、前記第1入力信号に基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、請求項3に記載の信号処理装置。
  5.  前記補正手段は、前記第1入力信号と前記第2入力信号とに基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、請求項4に記載の信号処理装置。
  6.  前記生成手段は、前記第1入力信号における前記目的音成分の存在確率を計算する存在確率計算手段をさらに備え、
     前記補正手段は、前記目的音成分の存在確率に基づいて、前記仮推定妨害音信号を補正して前記推定妨害音信号を生成する、請求項3に記載の信号処理装置。
  7.  前記補正手段は、前記仮推定妨害音信号を時間方向または周波数方向に平滑化した後の平滑化妨害音信号と、平滑化する前の前記仮推定妨害音信号とを混合して前記推定妨害音信号を生成する、請求項3乃至6のいずれか1項に記載の信号処理装置。
  8.  前記存在確率計算手段は、前記第1入力信号と前記第2入力信号とに基づいて、前記第1入力信号における前記目的音成分の存在確率を計算する、請求項6に記載の信号処理装置。
  9.  目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
     前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
     を含む信号処理方法。
  10.  目的音と妨害音とが混在する環境において入力した第1入力音に基づいて生成された第1入力信号と、前記環境において入力した第2入力音に基づいて生成された第2入力信号と、の位相差を出力するステップと、
     前記位相差と前記第1入力信号とに基づいて、推定妨害音信号を生成するステップと、
     を、コンピュータに実行させる信号処理プログラム。
PCT/JP2016/066481 2015-06-30 2016-06-02 信号処理装置、信号処理方法、および信号処理プログラム WO2017002525A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/740,413 US10515650B2 (en) 2015-06-30 2016-06-02 Signal processing apparatus, signal processing method, and signal processing program
JP2017526240A JP6780644B2 (ja) 2015-06-30 2016-06-02 信号処理装置、信号処理方法、および信号処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-131978 2015-06-30
JP2015131978 2015-06-30

Publications (1)

Publication Number Publication Date
WO2017002525A1 true WO2017002525A1 (ja) 2017-01-05

Family

ID=57609480

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/066481 WO2017002525A1 (ja) 2015-06-30 2016-06-02 信号処理装置、信号処理方法、および信号処理プログラム

Country Status (3)

Country Link
US (1) US10515650B2 (ja)
JP (1) JP6780644B2 (ja)
WO (1) WO2017002525A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219556A (ja) * 2018-06-21 2019-12-26 新日本無線株式会社 音声認識支援システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11553692B2 (en) 2011-12-05 2023-01-17 Radio Systems Corporation Piezoelectric detection coupling of a bark collar
US11470814B2 (en) 2011-12-05 2022-10-18 Radio Systems Corporation Piezoelectric detection coupling of a bark collar
US10397735B2 (en) 2017-02-27 2019-08-27 Radio Systems Corporation Threshold barrier system
US11394196B2 (en) 2017-11-10 2022-07-19 Radio Systems Corporation Interactive application to protect pet containment systems from external surge damage
US11372077B2 (en) 2017-12-15 2022-06-28 Radio Systems Corporation Location based wireless pet containment system using single base unit
JP7027365B2 (ja) * 2019-03-13 2022-03-01 株式会社東芝 信号処理装置、信号処理方法およびプログラム
CN110111806B (zh) * 2019-03-26 2021-03-30 广东工业大学 一种移动源信号混叠的盲分离方法
US11238889B2 (en) * 2019-07-25 2022-02-01 Radio Systems Corporation Systems and methods for remote multi-directional bark deterrence
US11490597B2 (en) 2020-07-04 2022-11-08 Radio Systems Corporation Systems, methods, and apparatus for establishing keep out zones within wireless containment regions
CN112485761B (zh) * 2021-02-03 2021-04-09 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244232A (ja) * 2010-05-19 2011-12-01 Fujitsu Ltd マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271191A (ja) * 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
KR101418023B1 (ko) * 2008-03-14 2014-07-09 삼성전자주식회사 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP4545233B2 (ja) * 2008-09-30 2010-09-15 パナソニック株式会社 音判定装置、音判定方法、及び、音判定プログラム
JP5870476B2 (ja) * 2010-08-04 2016-03-01 富士通株式会社 雑音推定装置、雑音推定方法および雑音推定プログラム
US8682006B1 (en) * 2010-10-20 2014-03-25 Audience, Inc. Noise suppression based on null coherence
JP6263890B2 (ja) * 2013-07-25 2018-01-24 沖電気工業株式会社 音声信号処理装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011244232A (ja) * 2010-05-19 2011-12-01 Fujitsu Ltd マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2012022120A (ja) * 2010-07-14 2012-02-02 Yamaha Corp 音響処理装置
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019219556A (ja) * 2018-06-21 2019-12-26 新日本無線株式会社 音声認識支援システム
JP7042169B2 (ja) 2018-06-21 2022-03-25 日清紡マイクロデバイス株式会社 音声認識支援システム

Also Published As

Publication number Publication date
JPWO2017002525A1 (ja) 2018-04-26
US20180190311A1 (en) 2018-07-05
US10515650B2 (en) 2019-12-24
JP6780644B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6780644B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
CN105590631B (zh) 信号处理的方法及装置
US9129587B2 (en) Method, device and system for eliminating noises with multi-microphone array
US8036888B2 (en) Collecting sound device with directionality, collecting sound method with directionality and memory product
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN109285557B (zh) 一种定向拾音方法、装置及电子设备
JP6279181B2 (ja) 音響信号強調装置
JP4910568B2 (ja) 紙擦れ音除去装置
US8116478B2 (en) Apparatus and method for beamforming in consideration of actual noise environment character
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
JP2011124872A (ja) 音源分離装置、方法及びプログラム
CN110706719A (zh) 一种语音提取方法、装置、电子设备及存储介质
WO2014168021A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Li et al. Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis.
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
Karimian-Azari et al. Fast joint DOA and pitch estimation using a broadband MVDR beamformer
JP2010210728A (ja) 音響信号処理方法及び装置
CN113362808B (zh) 一种目标方向语音提取方法、装置、电子设备和存储介质
CN112017684B (zh) 一种基于麦克风阵列的密闭空间混响消除方法
Okuma et al. Two-channel microphone system with variable arbitrary directional pattern
JP2018136509A (ja) 信号処理装置、プログラム及び方法
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP2018142822A (ja) 音響信号処理装置、方法及びプログラム
Di Persia et al. Correlated postfiltering and mutual information in pseudoanechoic model based blind source separation
Stolbov et al. Dual-microphone speech enhancement system attenuating both coherent and diffuse background noise

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16817634

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017526240

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16817634

Country of ref document: EP

Kind code of ref document: A1