WO2007018293A1 - 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム - Google Patents

音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム Download PDF

Info

Publication number
WO2007018293A1
WO2007018293A1 PCT/JP2006/315953 JP2006315953W WO2007018293A1 WO 2007018293 A1 WO2007018293 A1 WO 2007018293A1 JP 2006315953 W JP2006315953 W JP 2006315953W WO 2007018293 A1 WO2007018293 A1 WO 2007018293A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
microphones
microphone
beamformer
Prior art date
Application number
PCT/JP2006/315953
Other languages
English (en)
French (fr)
Inventor
Katsumasa Nagahama
Shinya Matsui
Original Assignee
Asahi Kasei Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kabushiki Kaisha filed Critical Asahi Kasei Kabushiki Kaisha
Priority to EP06782692.5A priority Critical patent/EP1923866B1/en
Priority to CN2006800285029A priority patent/CN101238511B/zh
Priority to JP2007529641A priority patent/JP4225430B2/ja
Priority to US11/990,200 priority patent/US8112272B2/en
Publication of WO2007018293A1 publication Critical patent/WO2007018293A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Definitions

  • Sound source separation device Speech recognition device, mobile phone, sound source separation method, and program
  • the present invention uses a plurality of microphones, and a sound source coming from a target sound source from a signal in which a plurality of acoustic signals such as a plurality of audio signals emitted from a plurality of sound sources and various environmental noises are mixed
  • the present invention relates to a sound source separation device, a voice recognition device, a mobile phone, a sound source separation method, and a program for separating signals.
  • Non-Patent Document 1 and Non-Patent Document 2 for example, a generalized sidelobe canceller ( Various methods are known, such as GSC), frosted beam former and reference signal method.
  • GSC generalized sidelobe canceller
  • the adaptive beamformer processing is basically processing that suppresses noise with a filter that forms a directional beam having a blind spot in the direction of the noise source.
  • the general sidelobe canceller is particularly compared. It is known for its good performance.
  • GSC has a problem that when the target signal arrives from a direction deviating from the set direction of the target sound source, the target signal is canceled and deteriorated.
  • Patent Documents 6 and 7 the amount of calculation is reduced by operating this in the frequency domain, and the speaker direction and the specific noise direction are sequentially detected from the filter coefficient in the frequency domain.
  • Disclosed is a method for reducing noise with unknown direction of arrival and diffusive noise by separating the noise other than the target sound to some extent and using it together with spectral subtraction! Speak.
  • Patent Document 3 Japanese Unexamined Patent Publication No. 2003-153372
  • Patent Document 4 Japanese Unexamined Patent Application Publication No. 2004-343700
  • Patent Document 5 Japanese Patent Application Laid-Open No. 2004-289762
  • Patent Document 6 Japanese Unexamined Patent Publication No. 2001-100800
  • Patent Document 7 Japanese Unexamined Patent Publication No. 2000-47699
  • Non-Patent Document 2 HAykin, "ADAptive Filter Theory (PrentiCe HA11)"
  • the target sound is input as an input signal to the adaptive filter section.
  • the target sound cannot be sufficiently suppressed, and the target sound is included in both the reference signal and the target signal of the adaptive filter unit.
  • the target sound is distorted and the sound quality deteriorates.
  • the same phenomenon occurs when the target sound signal leaks into the reference signal even in a closed space with a large initial reflection.
  • the variation is measured at the time of product assembly and correction data is created and corrected at the time of use, or at the time of use by using a reference signal from a specific direction.
  • correction data is created and corrected at the time of use, or at the time of use by using a reference signal from a specific direction.
  • the estimation accuracy of the adaptive filter deteriorates due to the influence of the diffusive noise.
  • the talk using the filter parameters estimated by the adaptive filter The accuracy of direction-of-arrival estimation in the user direction and specific noise direction deteriorates, and the overall system performance deteriorates.
  • the present invention has been made in view of the above-mentioned problems, and has the object of mixing sound from mixed sound sources generated by a plurality of sound sources that are not affected by variations in sensitivity of microphone elements. It is an object of the present invention to provide a sound source separation device, a voice recognition device, a mobile phone, a sound source separation method, and a program that can separate sound source signals of sound source power.
  • the invention according to claim 1 inputs a mixed sound in which sound source signals generated by a plurality of sound source powers are mixed with respect to at least two microphones arranged apart from each other,
  • the sound source separation apparatus that separates the sound source signal from the target sound source from the mixed sound
  • the sound source signal coming from a predetermined direction is attenuated by performing an operation using the first coefficient on the output signal from the microphone.
  • First beam forma processing is performed, and the first factor is applied to the output signal of the microphone force.
  • the second coefficient having a complex conjugate relationship in the number and frequency domain a sound source signal that has a directional force symmetric to the predetermined direction with respect to a straight line connecting the two microphones is obtained.
  • Beamformer means for performing second beamformer processing for attenuation, power calculation means for calculating power vector information for each sound source signal obtained by the beamformer means, and a parameter calculated by the power calculation means.
  • a sound source separation device comprising target sound space extraction means for extracting spectrum information of a target sound source based on a difference between Worth vector information.
  • the sound source separation device can realize the property that the directivity is not affected by the sensitivity of the microphone element, and a plurality of the sound source separation apparatuses are not affected by variations in sensitivity of the microphone element. It is possible to separate the sound source signal having the target sound source power from the mixed sound in which the sound source signals emitted from the sound source are mixed.
  • the invention according to claim 2 is the sound source separation device according to claim 1, wherein the beamformer means is a combination of any two microphone mouthphones among the three microphones arranged apart from each other, and others.
  • the first beamformer process and the second beamformer process are performed for each of the two microphone combinations.
  • the present invention it is possible to extract a sound source signal of a target sound source force existing in each region having a straight line connecting two microphones as a boundary among the three microphones.
  • the invention according to claim 3 is the sound source separation apparatus according to claim 1 or 2, further comprising directivity control means for giving a delay to the output signal from the microphone.
  • the directivity can be corrected to an optimum state by giving a delay, and the sound source separation performance can be improved.
  • the invention according to claim 4 is the sound source separation device according to claim 3, wherein the directivity control means gives a delay to an output signal from at least one of the two microphones.
  • the directivity control means gives a delay to an output signal from at least one of the two microphones.
  • the present invention it is possible to virtually generate output signals from three microphones. Therefore, using only two microphones, it is possible to separate and extract the sound source signal coming from the direction of the perpendicular line connecting the two microphones.
  • the invention according to claim 5 is the sound source separation device according to claim 3 or 4, further comprising arrival direction estimation means for estimating a direction in which the sound source signal arrives, wherein the directivity control means comprises: Based on the direction of arrival estimated by the direction-of-arrival estimation means, the position of the two sound sources is symmetric with respect to the output signal from the microphone so that it is symmetrical with respect to a perpendicular line that virtually connects the two microphones. It is characterized by giving a delay.
  • the invention according to claim 6 is the sound source separation device according to any one of claims 1 to 5, wherein the power spectrum information extracted by the target sound extraction means is scanned. Spectral subtraction means for performing tuttle subtraction processing is further provided.
  • the invention according to claim 7 is the sound source separation device according to any one of claims 1 to 6, wherein the processing for reducing noise is performed before the processing by the beamformer means. It further comprises a stationary noise reduction means.
  • the invention according to claim 8 provides a speech recognition device comprising speech recognition means for performing speech recognition of the sound source signal separated by the sound source separation device according to any one of claims 1 to 7. .
  • the invention according to claim 9 is the speech recognition apparatus according to claim 8, in which the driver side recognition vocabulary list and the passenger side force vocabulary that are lists of vocabulary candidates issued from the driver's seat side of the vehicle are listed. Recognized words that memorize a list of recognized vocabulary on the passenger side that is a list of candidates Vocabulary list storage means, and the speech recognition means is stored in the recognition vocabulary list storage means, and based on the driver side recognition vocabulary list and passenger side recognition vocabulary list, the sound source separation device It is characterized by performing speech recognition processing on the separated sound source signal.
  • the voice recognition device performs the voice recognition processing based on the passenger side recognition vocabulary list and the driver side recognition vocabulary list stored in the recognition vocabulary list storage means.
  • the optimal vocabulary can be selected from the vocabulary list for each passenger seat, and speech recognition can be performed with high accuracy.
  • the invention according to claim 10 is the speech recognition device according to claim 8 or 9, wherein the state transition means for managing the current vehicle state, the passenger seat side and the driver seat side according to the vehicle state are provided.
  • the effective vocabulary list storage means for storing the effective vocabulary list in the vehicle, the current vehicle state managed by the state transition means, and the vocabulary list stored in the effective vocabulary list storage means, It further comprises control means for judging whether or not the vocabulary recognized by the voice recognition means is valid, and performing control according to the judgment result.
  • the present invention it is possible to determine whether or not the recognized vocabulary is effective based on the current vehicle state and the effective vocabulary list, and to perform control according to the determination result. It is possible to control comfortably for the passengers inside. In addition, since the effective vocabulary list and control contents can be designed freely, it is possible to give flexibility to application design using speech recognition.
  • the invention according to claim 11 provides a mobile phone including the sound source separation device according to any one of claims 1 to 7.
  • a mobile phone can be used as a sound collection microphone in a medium-sized conference room or the like.
  • the invention described in claim 12 includes a sound source signal receiving step of inputting sound source signals emitted from a plurality of sound source sources to at least two microphones arranged apart from each other, and an output signal having the power of the microphone.
  • a sound source signal receiving step of inputting sound source signals emitted from a plurality of sound source sources to at least two microphones arranged apart from each other, and an output signal having the power of the microphone.
  • a beamformer processing step for performing a first beamformer process and a second beamformer process for attenuating sound source signals arriving from a predetermined direction symmetric with respect to the normal, and obtained in the beamformer process step;
  • the spectral calculation information of the target sound source is extracted based on the difference between the power spectrum information calculated in the power calculation step and the power spectrum information calculated in the power calculation step.
  • a sound source separation method comprising: a target sound spectrum extraction step.
  • the invention according to claim 13 is an output signal acquisition step of acquiring an output signal in which sound source signals emitted from a plurality of sound source sources are mixed from at least two microphones arranged apart from each other in a computer;
  • the output signal acquired in the output signal acquisition step is symmetric with respect to a perpendicular line connecting two microphones by performing calculation using each of two weighting factors having a complex conjugate relationship in the frequency domain.
  • a beamformer processing step for performing a first beamformer process and a second beamformer process for attenuating sound source signals arriving from a predetermined direction, and a sound source obtained by the beamformer processing step.
  • a power calculation step for calculating power spectrum information for each signal, and calculation in the power calculation step The on the basis of the difference between the power spectrum information, it provides a program for executing the target sound spectrum extracting step of extracting spectrum information of the target sound source.
  • a sound source signal arriving from a predetermined direction symmetric with respect to a perpendicular line connecting two microphones is obtained by performing calculation using each of two weighting factors having a complex conjugate relationship in the frequency domain.
  • the sound source signals arriving from a direction symmetric with respect to a straight line connecting the two microphones are attenuated, respectively.
  • the directivity characteristics become microphone elements.
  • the sound source signal from the target sound source can be separated from the mixed sound in which the sound source signals emitted from the sound source are mixed.
  • FIG. 1 is a diagram showing a basic configuration of a sound source separation system according to a first embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of the type of microphone according to the embodiment.
  • FIG. 3 is a diagram showing a configuration of a beam former unit according to the embodiment.
  • FIG. 4 is a diagram showing a configuration of a power calculation unit according to the embodiment.
  • FIG. 5 is a diagram showing a configuration of a target sound spectrum extraction unit according to the same embodiment.
  • FIG. 6 is a view for explaining a blind spot control type beam former according to the embodiment.
  • FIG. 7 is a view for explaining a blind spot control type beam former according to the embodiment.
  • FIG. 8 is a diagram showing an example of a directivity characteristic of a difference result according to the embodiment.
  • FIG. 9 is a diagram showing the directivity characteristics of a conjugate beamformer when the element sensitivity difference of the microphone according to the embodiment is varied.
  • FIG. 10 is a diagram showing the directivity characteristics of a beam former alone when the element sensitivity difference of the microphone according to the embodiment is varied.
  • FIG. 11 is a view showing a graph for obtaining a 360-degree directional characteristic of the sound source separation device according to the embodiment.
  • FIG. 12 is a diagram showing an example of two-speaker individual recording using the directivity characteristics of the sound source separation device according to the embodiment.
  • FIG. 13 is a diagram showing an example of a simple hands-free device and a microphone for a speech recognition device using directivity characteristics of the sound source separation device according to the embodiment.
  • FIG. 14 is a view showing a microphone attachment location in the evaluation experiment according to the embodiment.
  • FIG. 15 is a diagram showing conditions for an evaluation experiment according to the embodiment.
  • FIG. 16 is a view showing an evaluation experiment result according to the embodiment.
  • FIG. 17 is a diagram showing a configuration of a sound source separation system according to a second embodiment.
  • FIG. 18 is a diagram showing a configuration of a beam former according to the same embodiment.
  • FIG. 19 is a diagram showing a configuration of a sound source separation system according to a third embodiment.
  • FIG. 20 is a diagram showing a configuration of another sound source separation system according to the embodiment.
  • ⁇ 21 It is a diagram showing a configuration of a target sound spectrum extraction unit according to the embodiment.
  • FIG. 22 is a diagram showing a configuration of a sound source separation system according to a fourth embodiment.
  • FIG. 23 is a diagram showing a configuration of a sound source separation system according to a fifth embodiment.
  • FIG. 24 is a diagram showing an example of directivity control according to the embodiment.
  • ⁇ 25 A diagram showing a configuration of a directivity control unit according to the embodiment.
  • FIG. 26 is a diagram showing a configuration of a sound source separation system according to a sixth embodiment.
  • FIG. 27 is a diagram showing a configuration of a sound source separation system according to a seventh embodiment.
  • FIG. 29 A diagram showing an installation example of a unidirectional microphone according to the embodiment.
  • ⁇ 30] is a diagram showing an example of the configuration of the target sound extraction unit according to the embodiment.
  • FIG. 31 is a diagram illustrating an example of a configuration of a target sound extraction unit according to the embodiment.
  • ⁇ 32 A diagram showing an example of the configuration of the target sound extraction unit according to the embodiment.
  • FIG. 33 is a diagram showing an example of voice input to a personal computer using the sound source separation device according to the embodiment.
  • FIG. 34 is a diagram for explaining a target sound range and a noise range according to the eighth embodiment.
  • FIG. 35 A diagram for explaining a delay operation according to the embodiment.
  • ⁇ 36 A diagram showing a configuration example of directivity control means according to the embodiment.
  • FIG. 37 A diagram showing a configuration example of a sound source separation device system according to the embodiment.
  • FIG. 39 is a diagram showing an example of a processing method in the target sound extraction unit according to the embodiment.
  • FIG. 39 is a diagram showing an example of a processing method in the target sound extraction unit according to the embodiment.
  • ⁇ 40] is a diagram showing a configuration of the on-vehicle equipment control voice recognition system according to the ninth embodiment.
  • ⁇ 41] is a diagram showing a mobile phone according to the tenth embodiment.
  • FIG. 43 is a diagram showing an environment to which the sound source separation system according to the twelfth embodiment is applied.
  • FIG. 44 is a diagram showing an input state of speech sound to which the sound source separation system according to the embodiment is applied.
  • FIG. 45 is a diagram showing a configuration of a guidance voice deleting unit according to the embodiment.
  • FIG. 46 is a diagram showing a configuration of a target speech extraction unit according to the embodiment.
  • FIG. 47 is a diagram showing another configuration of the guidance voice deleting unit according to the embodiment.
  • FIG. 48 is a diagram showing a configuration of a target speech extraction unit in another configuration of the guidance speech deletion unit according to the embodiment.
  • FIG. 49 is a diagram showing another environment to which the sound source separation system according to the embodiment is applied.
  • FIG. 50 is a diagram showing another input state of the utterance sound to which the sound source separation system according to the embodiment is applied.
  • FIG. 51 is a view showing another configuration of the sound source separation system according to the embodiment.
  • FIG. 1 is a diagram showing a basic configuration of a sound source separation system according to the first embodiment of the present invention.
  • This system is composed of two microphones (hereinafter referred to as “microphones”) 10 and 11 and a sound source separation device 1.
  • the sound source separation device 1 includes a CPU (not shown) that controls the whole and executes arithmetic processing, hardware that includes a storage device such as a ROM, RAM, and hard disk device, and programs and data stored in the storage device. Including software.
  • the functional blocks shown in Fig. 1 are realized by these hardware and software.
  • the two microphones 10 and 11 are omnidirectional microphones, and are installed on a plane separated from each other by several cm. Note that the microphones 10 and 11 are basically omnidirectional. A unidirectional microphone as shown in Fig. 2 can also be used. Microphones 10 and 11 receive the signals emitted from the two sound sources R1 and R2. At this time, these two sound sources Rl and R2 are respectively located in two regions (hereinafter referred to as “perpendicular to the right and left”) divided by a perpendicular drawn with respect to a straight line connecting the two microphones 10 and 11. However, it does not necessarily have to be located symmetrically with respect to the perpendicular.
  • the two sound source signals obtained by the microphones 10 and 11 are subjected to frequency analysis for each microphone output by the spectrum analysis units 20 and 21, respectively, and the frequency analysis is performed by the beamformer unit 3.
  • the signal is filtered by the beamformers 30 and 31 that form a blind spot symmetrically to the left and right of the perpendicular drawn with respect to the straight line connecting the two microphones 10 and 11, and the output of the filter is output by the power calculation units 40 and 41.
  • the power is calculated, and the target sound spectrum extraction unit 50, 51 outputs a value greater than a certain value to the result of calculating the difference between them, and performs processing to set the value below zero.
  • the beamformer unit 3 indicates a complex conjugate relationship) and multiplication, and the two multiplication results are added by adders / adders 100e and 100f, and the filtering processing results ds ( ⁇ ) and ds ( ⁇ ) is output. In this way, the beamformer unit 3
  • a blind spot is formed at a symmetric position around a perpendicular line connecting the microphones 10 and 11.
  • the power calculation units 40 and 41 output ds ( ⁇ ) and ds ( ⁇ ) from the beamformer 30 and the beamformer 31 as follows:
  • the power spectrum information ps (
  • the outputs ps (co) and ps ( ⁇ ) of the calculation units 40 and 41 are the two of the target sound spectrum extraction units 50 and 51.
  • the target sound spectrum extraction units 50 and 51 take the power spectrum information of the two beamformers 30 and 31 as inputs and output the left and right target sounds as outputs, but internally the difference calculation units 500 and 510 and the coefficients It consists of conversion units 501 and 511.
  • the difference calculation unit 500 subtracts the power spectrum information of the beamformer 31 from the power spectrum information of the beamformer 30 by the subtractor 500a.
  • the difference calculation unit 510 is the beamformer 31 by the subtractor 501a.
  • the power spectrum information of the beamformer 30 is subtracted from the power spectrum information, and the result is input to the coefficient conversion unit 501 and the coefficient conversion unit 511, respectively.
  • the coefficient conversion unit 501 and the coefficient conversion unit 511 are blocks for separating the left and right sounds, respectively, and each outputs a spectrum information as a signal from a target direction with a value greater than a specific threshold value. To do.
  • the value of the threshold is generally “0”, but the optimum value may be obtained by actual measurement and set separately depending on the use environment.
  • two omnidirectional or directional microphones 10 and 11 are placed a few centimeters away from each other, and the signals generated by the two sound source forces are received by the microphones 10 and 11.
  • the spectrum analysis unit 20 and the spectrum analysis unit 21 perform frequency analysis on the signal in which the two sound source signals received by the microphones 10 and 11 are superimposed.
  • techniques such as high-speed Fourier transform are generally used, but frequency analysis techniques such as filter banks are also acceptable.
  • Frequency analysis processing is performed at fixed intervals of about 10 msec.
  • the two frequency-analyzed signals are filtered by the beamformer 30 and beamformer 31 in which blind spots are formed symmetrically with respect to the straight line connecting the microphones 10 and 11, and the signal from a specific direction is attenuated. .
  • it does not aim to accurately estimate the direction of arrival of a specific sound source and to direct the dead angle to the direction of the sound source that has been accurately estimated.
  • Filtering using these two-channel inputs is performed for each frequency component, and the outputs of the beam former 30 and the beam former 31 are scanned by the power calculator 40 and the power calculator 41.
  • phase information ⁇ and ⁇ are extracted from the outputs of the beamformer 30 and the beamformer 31 by the phase extraction unit 60 and the phase extraction unit 61.
  • the output of the beamformer 30 and the beamformer 31 converted into the spectrum power information by the power calculation unit 40 and the power calculation unit 41 is sent to the target sound spectrum extraction unit 50 and the target sound spectrum extraction unit 51, and
  • the sound spectrum extraction unit 50 extracts the power spectrum information of the sound source signal coming from the right direction (0 to 90 °), and the target sound spectrum extraction unit 51 extracts the power spectrum information from the left direction (—90 ° to 0).
  • the power spectrum information of the signal is extracted.
  • the power spectrum information extracted from the target sound spectrum extraction unit 51 is used as a pre-processing for speech recognition processing, the power spectrum information is sent to an acoustic parameter analysis unit (not shown), and the acoustic analysis processing is performed. Done.
  • the phase information extracted by the phase extraction unit 60 and the phase extraction unit 61 and the target sound spectrum extraction unit 50 and the target sound spectrum extraction unit 51 The spectrum information extracted in step 1 is input to the time waveform conversion unit 70 and the time waveform conversion unit 71 to return to the time signal information.
  • a directivity (directivity) is obtained by forming a blind spot at a position symmetrical to a perpendicular line connecting the two microphones 10 and 11. Prove that it is not affected by the sensitivity of the microphone element.
  • the gain of 1 is 1, and the dead angle control beam beam that forms one blind angle (gain 0) in the other direction ⁇ .
  • the weight coefficients are in a complex conjugate relationship.
  • directivity characteristics are derived in the power calculation units 40 and 41 and the target sound spectrum extraction units 50 and 51.
  • the weight vector W and the direction vector V are defined by the following equations.
  • the directivity does not change even if the microphone element sensitivity changes.
  • the direction vector is
  • Figure 8 shows the design when the blind spot is formed in the direction of ⁇ 45 ° from the perpendicular, and the constraint condition for maintaining the gain of the beamformers 30 and 31 is specified at a position symmetrical to the perpendicular ( ⁇ 45 °). It is an example of directivity of the difference result.
  • the sound source comes from the right direction (right direction when the direction of sound sources Rl and R2 is viewed from microphones 10 and 11; the same applies hereinafter) with the 0 ° direction as the boundary (0 to 90 °)
  • the signal takes a positive value
  • the sound source signal coming from the left direction one 90 ° to 0
  • the directivity characteristics of the array microphone are affected by the element sensitivity of the microphone.
  • Figure 9 shows an example in which the directivity characteristics are calculated by varying the element sensitivity difference ⁇ of the microphone as Odb, + 6db, and –6db. The figure does not show the directivity characteristics in a direction symmetric with respect to the perpendicular to the straight line connecting the microphones 10 and 11, but the directivity characteristics are symmetrical with the characteristics shown in FIG. As can be seen from Fig. 9, when there is a gain variation, the output level of the array microphone will vary, but the directivity will not be affected.
  • the directivity shown in the figure is the force created by the blind angle in the direction of ⁇ 45 °. As shown in the figure, there is a wide range of directivity so that the dead angle can be accurately set with respect to the actual target sound source. There is no need to create it.
  • the directivity characteristics of the beamformer when the microphone element sensitivity difference ⁇ is varied as Odb, + 6db, and 6db are shown in Fig. 10. It can be seen that when the blind spot is formed! /, It is desired for the beamformer! /, And the desired motion can hardly be performed.
  • the most notable feature of the present invention is that even if a beamformer with a deteriorated directivity characteristic that generates directivity characteristics as shown in FIG. This is the same as when the device sensitivity is uniform.
  • the method of forming sharp and blind spots with a beamformer in a specific direction is theoretically feasible even with a small number of microphones, so the measured signal is generally used to increase the signal-to-noise ratio or frequently used as an adaptive filter.
  • Used in the blocking matrix part which is the reference signal generation part of the sidelobe canceller, but cannot produce a blind spot with the designed performance due to the difference in the element sensitivity of the microphone described above, and is intended for mass production This makes it impossible to achieve the specified performance in the real environment!
  • Fig. 11 shows an example in which 360 degree directivity is obtained using such a sound source separation device 1.
  • the sound source separation device 1 has a directivity characteristic of every 180 °, and the two directivity characteristics are separated at the boundary without overlapping.
  • the directional characteristic is further characterized by the fact that its directivity is not affected by the sensitivity of the microphone element.
  • the directivity is symmetric with the characteristics from 0 to 90 ° above ⁇ 90 °. In this way, the directional characteristics can be divided into two zones with the line drawn perpendicular to the line connecting the two microphones as the boundary.
  • FIG. 12 and FIG. Figure 12 shows an application to a voice memo device.
  • voice memo devices have been used for the purpose of meeting memos during meetings and meetings.
  • the recorded noise may be difficult to hear because the surrounding noise and the voices of two people are recorded at the same time.
  • the sound source separation device 1 By using the sound source separation device 1 in this way, it becomes possible to separate and collect the voices of two people facing each other, and it can be used as a voice memo for the minutes of a meeting or Conversation can be recognized individually and simultaneously.
  • FIG. 13 is a diagram showing an application example to a simple hands-free device and a microphone for a speech recognition device.
  • PCs personal computers
  • a speaker microphone is used to reduce the amount of echo sneaking around the microphone using a headset microphone, etc.
  • a measure is taken such that the device is in close contact with a part of the body like a headset microphone It is hard to accept.
  • the echo canceller function When the echo canceller function is installed inside the computer, it is necessary to synchronize the playback sound to the speaker and the input sound of the microphone force. The delay between the playback sound and the input sound is large. There are mounting problems such as different sizes of. In addition, it is costly to connect a non-free device with a built-in echo canceller function.
  • the microphones 10 and 11 need to be placed between the speaker and the speaker, but it is not necessary to synchronize with the speaker reproduction signal. Since two microphones 10 and 11 are prepared, the signals from the microphones 10 and 11 are taken into a personal computer, and sound source separation can be executed based on the software stored in the personal computer, it is easy to implement.
  • the most likely environment in which voice recognition is performed in a home is to use voice commands for television and other controlled devices.
  • the speaker of the TV or other controlled device is installed on the controlled device side, the speaker side, and the speaker is in a situation where audio is flowing from the speaker or various guidance is flowing.
  • the microphone device There are cases where it is desired to input a control command to the microphone device by voice. In this case, it is necessary to attenuate the amount of speaker sound that circulates into the microphone device by some means.
  • the sound source separation device 1 it is possible to easily separate the speech of the controlled device force and the speech of the speaker. This improves speech recognition performance.
  • the sound source separation device In order to show the effectiveness of the sound source separation device 1, two speakers are simultaneously uttered in the car, recorded by two microphones, and sound source separation is performed by the sound source separation device, and a speech recognition experiment is performed. It was.
  • This sound source separation device was developed for the purpose of separating two sound sources, and as a method of use in a car, for example, it is possible to separate the sound of the driver's seat and the passenger seat.
  • the center part in the automobile is suitable as the mounting part L1 or the mounting part L2, as shown in FIG. Also installed at mounting location L2.
  • the microphone since the rearview mirror 400 faces the driver, the microphone may be installed so that the microphone is attached in the front direction, or the directivity control function described later is provided.
  • the sound source separation device 1 originally has a wide beam width, so accurate positioning is not required.
  • it when installing at the mounting location L2, it may be effective to devise a microphone module or use a directional microphone to suppress reflection from the back.
  • Figure 15 shows the conditions for the evaluation experiment
  • Figure 16 shows the results of the speech recognition experiment after sound source separation.
  • Fig. 16 (a) when two speakers speak in the vehicle (simultaneous utterance in the vehicle), 29% (when stopped), 27% when unprocessed in the conventional method 1 using only one channel microphone However, it was improved to 78% (when stopped) and 78% (when traveling at 60kmZh) by applying this sound source separation method.
  • Fig. 16 (b) the voice on the passenger side was mistaken for the voice on the driver's seat and the voice recognition result was output.
  • the direction of arrival of both the target sound and noise is known (coming from a fixed direction), and after obtaining the optimum value of the adaptive beamformer, the target sound ( Speaker 1) and noise (speaker 2) were played simultaneously to extract the target speech. (See Fig. 16 (a))
  • FIG. 17 shows the configuration of a sound source separation system according to the second embodiment.
  • the spectrum analysis unit 20 and the spectrum analysis unit 21 convert the frequency component into frequency components.
  • a blind spot is generated and specified by the beamformer 80 and the beamformer 81 in the time domain.
  • a signal obtained by attenuating the signal from the arrival direction of the signal is generated, and then converted into frequency components by the spectrum analysis unit 20 and the spectrum analysis unit 21.
  • the same functions as those in FIG. 1 are given the same numbers.
  • the configuration of the beamformer 80 and the beamformer 81 is realized by executing filter processing configured in a form such as an FIR filter as shown in FIG.
  • the coefficient of the FIR filter can be obtained by converting the weight coefficient having the complex conjugate relationship in the frequency domain shown in FIG. 3 into the filter coefficient in the time domain.
  • 19 and 20 are diagrams showing the configuration of the sound source separation system according to the third embodiment.
  • the target sound spectrum extraction unit 50 and the target sound spectrum extraction unit 51 shown in FIGS. 1 and 17 are realized by the configuration shown in FIG. It uses a sound source separation process.
  • the relationship is From this, when the threshold value is set to “0” in the coefficient conversion units 5 01 and 511 in the target sound spectrum extraction units 50 and 51, by looking only at the signs of the difference calculation units 500 and 510, It is extracted as the power spectrum information of the sound source signal coming from the right direction (0 to 90 °), and when it is negative, it is extracted as the power spectrum information of the sound source signal coming from the left direction (one 90 ° to 0). For this reason, the entire configuration shown in FIGS. 1 and 17 can be simplified as shown in FIGS. 19 and 20.
  • the target sound spectrum extraction unit 90 in FIGS. 19 and 20 is realized by the configuration shown in FIG.
  • the power spectrum information of the beamformer 30 and the beamformer 31 calculated by the power calculation unit 40 and the power calculation unit 41 is input to the difference calculation unit 900 inside the target sound spectrum extraction unit 90. . Then, a subtraction process is performed by the subtractor 900a, and the coefficient conversion unit 910 and the coefficient conversion unit 920 extract only a sound source signal having a target directional force. Specifically, the coefficient conversion unit 910 is a sound source from the right direction (0 to 90 °). If the input is positive, the spectrum information is in the right direction (
  • the coefficient conversion unit 920 is a block for performing sound source extraction from the left direction (one 90 ° to 0).
  • the spectrum information is the left direction (-90 ° to 0) force. If it is positive, it is not output as spectrum information of the sound source that has reached the external force in the target direction.
  • the sound source separation system shown in FIG. 19 differs from the sound source separation system shown in FIG. 20 in the difference in whether beamformer processing is performed in the frequency domain or in the time domain.
  • beamformer processing is performed in the frequency domain
  • Fig. 20 it is performed in the time domain.
  • FIG. 22 is a diagram showing a configuration of a sound source separation system according to the fourth embodiment.
  • the spectral subtraction units 100 and 101 shown in the figure are stationary noise of unknown direction of arrival and diffuse noise superimposed on each target sound extracted by the target sound spectrum extraction unit 50 and the target sound spectrum extraction unit 51. Perform extra-subtraction processing to remove the above.
  • Such a configuration is particularly effective when used in a power vehicle that is effective even in an environment where air conditioning in a conference room or the sound of a fan such as a projector exists. For example, when the driver and passenger in the passenger's seat are in the car! /, For example, the voices of the driver's seat and passenger's seat can be taken out separately using the method described above. It is.
  • Spectral subtraction processing uses a single microphone's input signal to detect the speech segment, estimates the noise spectrum in the non-speech segment, and scales the previously estimated noise component in the speech segment. Audio is preferentially recorded using a subtracting type and a signal predominating in noise and a signal predominating in audio. There is a type that scales the difference of the spectrum of the signal with the dominant noise and makes a difference. In the case of voice recognition, processing based on a single microphone method is often sufficient. This is also adopted in this embodiment, and the sound source separation system according to this embodiment is a sound source according to the first embodiment. The separation system is dealt with by newly adding an utterance section detection unit 110 and spectral subtraction units 100 and 101.
  • the sound source Rl and the sound source R2 are target sounds, and the sound source R3 represents stationary noise with unknown arrival direction or diffuse noise. Many of these noises do not have a clear directivity. In the case of such noise, the output of the target sound spectrum extraction unit often has a weak directivity and appears in the target sound spectrum extraction unit that extracts the sound source in that direction. In many cases, an impact sound or the like that steps through the seam is detected alternately in the left and right extracted spectra, but these noises can be removed by the spectral subtraction units 100 and 101. Note that, as the spectral subtraction, a continuous spectral subtraction that does not require detection of the speech section may be used.
  • FIG. 23 shows the configuration of a sound source separation system according to the fifth embodiment.
  • two target sound sources Rl and R2 that are desired to be separated are symmetrical with respect to the perpendicular to the straight line connecting the two microphones 10 and 11! Yes.
  • the arrival direction estimation unit 120 for detecting the approximate positions of the two target sound sources Rl and R2, and the two target sound sources Rl and R2 estimated by the arrival direction estimation unit 120 are used.
  • the two target sound sources Rl and R2 that are desired to be separated by the directivity control unit 140 are virtually symmetrical with respect to the perpendicular to the straight line connecting the two microphones 10 and 11, respectively. In this way, a delay operation is given to one microphone input.
  • FIG. 24 shows a situation in which the two sound sources Rl and R2 are symmetrical with respect to a straight line rotated by ⁇ with respect to a straight line connecting the microphones 10 and 11. In such a case, it is possible to realize a situation equivalent to rotating only by ⁇ by giving d with a constant delay amount to the signal acquired by one microphone. Also, for some of the two sound sources, it is best to separate the two sound sources from the positional relationship to the perpendicular to the straight line connecting the two microphones.
  • the filter parameters of various beamformers 30 and 31 are prepared, and it seems to be optimal for separating the two sound sources in the current situation based on the arrival direction information of the two sound sources with the direction of arrival estimation unit 120 power It is also possible to select the filter parameter of the selected beamformer in the beamformer control, and set the filter parameter of the selected beamformer to beamformer 30 or beamformer 31!
  • FIG. 25 shows a configuration example of the directivity control unit 140.
  • the configuration example shown in FIG. 25 (a) shows an example in which a constant delay amount ⁇ d is given to a signal acquired by one microphone for each frequency component in the frequency domain.
  • ⁇ d a constant delay amount
  • Delay operation is realized by multiplying with j co ⁇ . Also, if you want to perform beam forming in the time domain, perform filtering with the delay device 100b in the form of an FIR filter as shown in Fig. 25 (b).
  • a delay of half each may be given to both microphone inputs to realize the same amount of delay operation as a whole.
  • the delay amount ⁇ dZ2 is given to the signal obtained with one microphone
  • the delay amount ⁇ dZ2 is given to the signal obtained with the other microphone, rather than giving d as the delay amount to the signal obtained with one microphone.
  • the total delay difference may be d.
  • FIG. 26 is a diagram showing a configuration of a sound source separation system according to the sixth embodiment.
  • the sound source separation system according to the present embodiment has a configuration for emphasizing audibility, and is considered for application to a hands-free call in a car.
  • the sound of the driver seat and passenger seat can be extracted separately using the above-mentioned method.
  • the blast noise, road noise, wind noise, and other unknown arrival directions and diffusive noise cannot be removed by the method described above.
  • the influence of these noises can be eliminated by putting spectral subtraction processing in the subsequent stage of processing, and sound quality in terms of audibility such as speech recognition.
  • the left and right sounds are separated centering on the perpendicular to the straight line connecting the two microphones 10 and 11, so in the case of noise such as diffusive noise, where the directivity of the sound constantly fluctuates, The sound quality may be deteriorated due to irregular separation of the separation results.
  • the post-filter processing that is normally used after the array microphone processing is performed by the beam.
  • diffuse noise and stationary noise are reduced to prevent the generation of musical noise after sound source separation.
  • FIG. 27 is a diagram showing a configuration of a sound source separation system according to the seventh embodiment.
  • This sound source separation system shows a configuration in which three sound sources are separated using three microphones 10, 11, and 12.
  • microphones 10 and 12 and microphones 10 and 12 are used to separate the left and right sound source signals around the perpendicular to the straight line connecting the two microphones.
  • the target sound extraction unit 160 finally separates the sound source R3 arriving from near the front direction of the microphones 10 and 11 using the total of the four sound source signals separated by use.
  • FIG. 28 When the sound source separated in this configuration is described using FIG. 28, as shown in FIG. 28, it comes from the right and left of the vertical line with the vertical line a and the vertical line b connecting the two microphones as the center. It is possible to separate the sound sources to be played.
  • FIG. 28 assuming that sound sources exist in the zones A, B, and C, it is possible to separate the sound source signals coming from the zones A, B, and C using the perpendicular line a. It is possible to separate the sound sources that also have Zone A, B and Zone C forces using perpendicular line b.
  • the blocks that perform the separation are the separation part bO and the separation part bl.
  • the separation unit bO generates a sound source signal S ( ⁇ ) from the region of zone A and a sound source signal S ( ⁇ ), S (
  • Bmix Cmix ⁇ can be separated from the mixed signal.
  • the separation unit bl can be applied to the mixture of the sound source signals S ( ⁇ ) and S ( ⁇ ) from the zones A and B and the zone C. Sound source signal
  • the signal S ( ⁇ ) can be separated, and at this stage, S ( ⁇ ) 1 ⁇ 2 ( ⁇ ) can be separated. Like this
  • S ( ⁇ ) can be obtained by performing the operation.
  • Figure 29 shows the power of an example of unidirectional microphone installation.
  • the array microphone's beamformer section has a design performance due to variations in directivity between microphones. Although it does not occur, this system can achieve a certain level of performance that is not affected by variations in directional characteristics, just as it is not affected by the sensitivity of the microphone.
  • the processing method in the target sound extraction unit 160 will be described in detail with reference to FIGS.
  • the processing method shown in FIG. 30 is the same processing method as the two-channel spectral subtraction process. In other words, the sum of the spectrum of the target sound and the interference sound is obtained for one channel signal, and the power spectrum of the interference sound is also obtained for the other channel signal, so these are subtracted by the subtracter 100a.
  • the target sound S (
  • the adder 101b adds these to obtain the power spectrum information of the target sound.
  • the power spectrum of the interfering sound is obtained by adding the interfering sounds with the adder 101a, and multiplied by a constant factor (OE F 1-2) by the multiplier 101c.
  • the target sound is extracted by calculating the output force difference of the adder 101b with lOld. Since the volume is larger than the original sound signal at the output stage of the subtractor lOld, the level adjustment unit 101e adjusts the level.
  • the processing method shown in FIG. 32 uses minimum value calculations 102a and 102b instead of the adders 101a and 101b shown in FIG. In Fig. 31, the sound quality is often better when OE F is greater than 1.0, but in Fig. 32, OE F is better around 1.0.
  • the minimum value calculation is performed in FIG. 32, the maximum value calculation may be used instead of the minimum value calculation.
  • the target sound source to be separated may be far from the position where the optimum separation performance can be obtained by this method.
  • the input signal output by the microphone force is delayed. By virtually changing the direction of arrival of the given sound source, it is possible to perform operations so as to obtain the optimum separation performance as much as possible.
  • FIG. 33 shows a usage example of the sound source separation system according to the present embodiment.
  • an example is shown in which three microphones 10, 11, and 12 are used to obtain sound with the directivity of a personal computer with a small mounting area and a small front area.
  • the directivity control means delays the output signal from one of the two microphones 10 and 11 as shown in FIG. By creating this, it is possible to virtually realize the three-mic input shown in Fig. 35 (a).
  • FIG. 36 shows a configuration example of directivity control means for performing the delay operation shown in FIG.
  • FIG. 37 shows a configuration example of the sound source separation device system according to the present embodiment.
  • the directivity control means 141 and 142 are composed of spectrum analysis units 20 and 21 and delay elements that perform delay processing.
  • the processing order may be the spectrum analysis process followed by the delay process V (Typel in the figure) or the delay process followed by the spectrum analysis process! ⁇ (Type2 in the figure) ).
  • the directivity control means 141, 142 output signals are processed by the beamformers 30, 31, power calculation units 40, 41, etc. in the blocks after the method NBF, and the processed signals are processed as the target sound extraction unit. Entered in 52.
  • FIG. 38 and FIG. 39 show an example of a processing method in the target sound extraction unit 52.
  • Figure 38 , 0 and 0 are symmetric with respect to the perpendicular of the straight line connecting the microphones 11 and 12.
  • Fig. 39 shows an example of the logic method.
  • FIG. 40 is a diagram showing the configuration of the on-vehicle device control speech recognition system according to the ninth embodiment.
  • the sound source separation device 1 according to the present invention is applied to an in-vehicle device control speech recognition system provided in a vehicle such as an automobile.
  • the voices of the driver's seat and front passenger seat are acquired by the two microphones 10 and 11, and the voices of the driver's seat and front passenger seat are separated by the sound source separation device 1, and the voices of the separated driver's seat and front passenger seat are obtained.
  • the voice recognition system for in-vehicle device control uses data stored in the storage device as the characteristic data of this system, such as the passenger-side recognition vocabulary list 190, the driver-side recognition vocabulary list 191 and the passenger-side effective vocabulary list 210. And, the driver side effective vocabulary list 211 is stored.
  • the driver's side recognition vocabulary list 191 is a list of vocabulary candidates issued from the driver's side
  • the passenger's side recognition vocabulary list 190 is a list of vocabulary candidates that can also generate passenger side power.
  • the driver's seat side effective vocabulary list 211 is an effective vocabulary list on the driver's seat side according to the vehicle state (automobile driving state or other driving state).
  • the passenger seat side effective vocabulary list 210 is an effective vocabulary list on the passenger seat side according to the state of the vehicle.
  • “valid” means that a control command corresponding to a vocabulary (speech command) is allowed to be output.
  • the utterance section detection unit 170 on the passenger seat side and the utterance section detection unit 171 on the driver side can accurately separate the two utterance sections, and at the same time, the other party's voice is sent to the passenger side speech recognition unit 180 and the driver seat side speech recognition unit 1 81. It is possible to provide information with suppressed speech and to accurately perform speech recognition processing that is not affected by the utterance of the other party.
  • the state transition unit 201 included in the control unit / state transition unit 200 can transition to the next state based on the voice recognition result and the current state.
  • the passenger side and the driver's seat side are based on the current state obtained from the state transition unit 201 and the voice recognition results from the voice recognition units 180 and 181.
  • the effective vocabulary lists 210 and 211 shown in the figure when “o” is associated with the combination of the state and the voice command, it indicates that it is possible to respond to the voice command. For example, on the driver's side, when the status is "Driving", the voice commands that are allowed to respond are "More", “Light on”, “Suzusugi”, and "Air conditioner operation” , "CD", “MD” are prohibited
  • FIG. 41 shows a mobile phone 300 according to the present embodiment.
  • the mobile phone 300 is equipped with microphones 10 and 11 and a sound source separation device (not shown).
  • This cellular phone 300 is usually used for a videophone, but can also be used as a sound collecting microphone by switching modes.
  • Fig. 41 (a) shows the situation when microphones 10 and 11 are operating as microphones for videophones
  • Fig. 41 (b) is the case when microphones 10 and 11 are operating as sound collection microphones. It is a figure which shows a mode. In a medium-sized conference room, etc., it is possible to use even a conference room that is large enough for the presenter to use a microphone. However, if the room is large and the voice is small, it can be used in situations where it is difficult to hear the presenter's voice.
  • a minimum of two microphones are placed apart from each other, and a blind spot is formed by a beam former in the time domain or the frequency domain at a symmetrical angle with respect to a straight vertical line connecting the two microphones.
  • a blind spot is created in the time domain, it is converted into the frequency domain, the difference between the power spectra of both beamformers is calculated, and the resulting coefficient is converted to give a width around the left and right blind spots.
  • Zone A for example, the driver's seat zone
  • zone BZD for example, passenger seat and It is possible to separate the sound present in the rear seat zone
  • zone A for example the driver's seat zone
  • zone C It is not possible to separate the sound that exists in (eg the rear seat zone).
  • the array microphone 2002 placed at the boundary between the zones AZB and CZD is used first. This makes it possible to separate the sound from zone AZB and the sound from zone CZD.
  • array microphone 2001 can separate the sound from zone AZC and the sound from zone BZD.
  • the sound of the zone AZC power obtained using the array microphone 2001 and the sound from the zone AZB obtained using the array microphone 2002 are compared in each frequency region, and the frequency components common to both are compared with the zone A force. It can be separated as a sound.
  • the sound from each zone B, C, D can be obtained individually by the same processing.
  • Fig. 43 assumes the situation where equipment is operated by voice recognition in an environment such as an automobile.
  • Figure 44 shows the relationship between the guidance voice for device operation and the voice of the speaker at that time.
  • an echo canceller is used to adaptively estimate and remove the guidance voice mixed in the recorded sound from the microphone 10.
  • spectral subtraction is performed on one input signal to microphone 10 after frequency analysis (Fig. 45, Fig. 46), or for each frequency component. It is estimated that either the guidance voice or the voice of speaker A is included in the voice, and only the frequency component that contains only the voice of speaker A is extracted as the voice of speaker A (Fig. 47, Fig. 47). 48).
  • the finer section 1001 is a filter that simulates an acoustic reflection nose from the speaker 15 to the microphone 10, and is obtained from the speaker 15 to the microphone 10 obtained in advance.
  • the innol response may be used, or may be obtained dynamically by adaptive filter processing.
  • the gain operation unit 1002 is a part for determining an oversubtraction factor to be used when performing spectral subtraction.
  • the gain operation unit 1002 is based on a gain of about 1 to 10 depending on the volume of the speaker 15. Selected and used.
  • the target speech extraction unit 1003 in FIG. 45 performs processing as shown in FIG. 46 based on the outputs of the gain operation unit 1002 and the spectrum analysis unit 21, and converts the processing result signal into time Output to waveform converter 1004.
  • the threshold calculation unit 1011 in FIG. 47 determines the threshold value th based on the average energy of the guidance voice.
  • the target speech extraction unit 1012 in FIG. 47 performs processing as shown in FIG. 48 based on the outputs of the threshold calculation unit 1011 and the spectrum analysis unit 21, and sends the processing result signal to the time waveform conversion unit 1004. Output. Note that th shown in Fig. 48 is X ( ⁇
  • time waveform conversion unit 1004 performs the same processing as the time waveform conversion units 70 and 71 in the first embodiment.
  • the guidance voice is reproduced from the speaker 15 in the vehicle, and at the same time speaking with the speaker A and the speaker B, the microphone 10 and the microphone 11 have the guidance voice and the speaker.
  • the voice of A and the voice of speaker B are superimposed and input. It is powered.
  • the guidance voice deletion unit 1021 and the guidance voice deletion unit 1022 remove the guidance voice by the method shown in FIG. 45 or 47, and as a result, the voices of both the voice of the speaker A and the voice of the speaker B
  • the signal with the superimposed is output as a result.
  • the frequency component is input to the present method (Fig. 1) without returning to the time waveform.
  • each functional block of the sound source separation system has been described as being realized by a program. However, it can also be realized by hardware by using a circuit or the like.
  • the present invention can be used in all industries where sound sources need to be separated accurately, such as voice recognition devices, car navigation systems, sound collection devices, recording devices, and device control using voice commands.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することを可能とする。音源分離装置1のビームフォーマ部3は、スペクトル分析後のマイクロホン10、11からの出力信号に対して複素共役の関係にある重み係数を乗算することにより、2つのマイクロホン10、11を結ぶ直線の垂線に対称な方向から到来する音源信号を各々減衰させるためのビームフォーマ処理を行う。パワー計算部40、41はパワースペクトル情報を計算し、目的音スペクトル抽出部50、51はパワースペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する。

Description

明 細 書
音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プロ グラム
技術分野
[0001] 本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信 号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到 来する音源信号を分離する音源分離装置、音声認識装置、携帯電話機、音源分離 方法、及び、プログラムに関する。
背景技術
[0002] 種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさま ざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困 難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動 車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は 車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化さ せている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話 するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進 歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のか なりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応 が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現 在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低い ため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の 行動を制限する状況が発生している。これらの音源分離の手法として独立主成分分 析法などを使用する方法もあるが、演算量、音源数の変動などの問題があり実用化 されていない。
[0003] 上記の問題を解決するために、車内の複数のマイクを取り付け特定方向からの音 声のみを収録する方法が各種提案されている力 自動車内に多数のマイクを取り付 けるためのスペースを確保することは困難であり、加えてコスト的な問題力も特性の揃 つたマイクを使用することも難しい。このため、出来るだけ少数で特性バラつきがある マイクを使用して動作をする方式が望まれている。
一般に複数のマイクロホンを使用する場合、低コストなマイクロホンほどその感度特 性のバラつきが大きく約 ± 3dB程度各周波数特性にバラつきがあると言われている。 これらの特性のバラつきがマイクロホンアレイ技術の中でも遅延和アレイなどの加算 型アレイ処理ではマイクロホンアレイ性能が設計通りの特性が実現できないだけであ る力 適応アレイなどのいわゆる減算型アレイでは一つのマイクを使用する場合より 特に lkHZ以下程度の低域において性能を悪ィ匕させる場合がある。
[0004] マイクロホンアレイ技術にとってセンサとしてのマイクロホンの特性のバラつきは大き な問題であり、これらの対策として、特許文献 1〜5などに複数のマイク素子の感度を 揃える方法が提案されて ヽる。
従来、少数のマイクロホン数で大きな効果が得られる適応ビームフォーマ処理技術 を利用したマイクロホンアレイに関しては、例えば非特許文献 1や、非特許文献 2に 述べられているように、一般化サイドローブキャンセラ(GSC)、フロスト型ビームフォ 一マおよび参照信号法など、種々の方法が知られている。
[0005] 適応ビームフォーマ処理は、基本的には雑音源の方向に死角を有する指向性ビー ムを形成したフィルタにより雑音を抑圧する処理であり、その中でも特に一般ィ匕サイド ローブキャンセラは、比較的性能が良いことで知られている。しかし、 GSCでは、設定 された目的音源の方向とずれた方向から目的信号が到来した際に、 目的信号がキヤ ンセルされて劣化するという問題点がある。これに対し、特許文献 6、 7において、こ れを周波数領域で動作させることで計算量を削減すると共に、周波数領域のフィルタ 係数から話者方向と特定雑音方向とを逐次検知し、 目的音と目的音以外の雑音とを ある程度分離し、スペクトルサブトラクシヨンと併用することで到来方向不明な雑音や 拡散性の雑音を低減する方法が開示されて!ヽる。
[特許文献 1]特開平 5— 131866号公報
[特許文献 2]特開 2002— 99297号公報
[特許文献 3]特開 2003— 153372号公報 [特許文献 4]特開 2004— 343700号公報
[特許文献 5]特開 2004- 289762号公報
[特許文献 6]特開 2001— 100800号公報
[特許文献 7]特開 2000— 47699号公報
[非特許文献 1]電子情報通信学会編「音響システムとデジタル処理」
[非特許文献 2]HAykin著、 "ADAptive Filter Theory(PrentiCe HA11)"
発明の開示
[0006] [発明が解決しょうとする課題]
この特許文献 6、 7に記載されているような適応ビームフォーマとスペクトルサブトラ クシヨンを組み合わせた技術にぉ 、て、マイクロホンの素子感度のバラつきが存在す る場合、適応フィルタ部の入力信号として目的音を抑圧した参照信号を作成する必 要があるが、目的音を十分に抑圧することが出来ず、適応フィルタ部の参照信号と目 的信号双方に目的音が含まれるため、適応フィルタ処理を施した結果目的音が歪み 音質が劣化する。同様の現象は、初期反射の大きな閉空間でも参照信号中に目的 音信号が漏れてしまヽ発生する。
これを解決するために、マイクロホンの素子感度補正をするために製品組み立て時 にバラつきを測定し補正データを作成して使用時に補正を行ったり、使用時に特定 方向からの基準信号を利用してマイクロホンの素子感度の個体差、周囲温度や部品 の経年変化による逐次変化を測定し補正する方法があるが、製造コストの増加や、基 準信号を 、つ再生させるか、あるいは収録した信号が本当に基準信号のみかどうか をどうやって判断する力などの問題がある。
[0007] また適応フィルタの動作に着目すると、一般的に適応フィルタで参照信号と目標信 号が高い相関性を持つ場合、適応フィルタの推定動作が上手く行えず推定精度を 著しく劣化させてしまう。一例を挙げると、目的音と雑音の双方が音声信号の場合な どである。
同様の問題はエコーキャンセラでも発生し、遠端信号から近端信号に混入したェコ 一を推定する適応フィルタにおいて、遠端、近端とも同時に 2人の人が発話をした場 合、いわゆるダブルトーク状態が発生しエコーキャンセラの動作が著しく劣化する。こ のため、ダブルトーク状態を如何に正確に検出し、適応フィルタのパラメータ推定を 停止させたり推定速度も遅くしたりするかが重要な性能維持の条件となっている。
[0008] したがって、本適応フィルタ動作においても、目的音と特定雑音が双方とも音声で ある場合、双方とも発話している状態を検出する必要があると同時に、双方とも発話 している頻度が高いほど適応フィルタ推定を停止させる頻度があがり、結果として適 応フィルタの雑音除去性能が劣化すると言う問題がある。
また、自動車の走行雑音など大きな拡散性雑音などが発生する状況においては拡 散性雑音の影響で適応フィルタの推定精度が劣化するため、結果として、適応フィル タの推定したフィルタパラメータを使用した話者方向、特定雑音方向の到来方向推 定精度が劣化し、システム全体の性能が劣化すると言う問題がある。
[0009] また、上記の特許文献 6、 7に記載された方式では、自動車向けなどに低コストのマ イクを使用して雑音成分抑圧装置を構成しょうとした場合、車内音源の初期反射が 大きい、拡散性の雑音成分が大きい、使用するマイク素子のバラつきが大きい(± 3d b程度)、運転者と同乗者とが同時に発話し相関性の強い目的音と特定雑音とが同 時に存在するなどの場合に、適応フィルタ部が所望の動作をせず、全体として所望 の動作を実現できない。
本発明は上記問題点に鑑みてなされたものであり、マイクロホン素子の感度のばら つきに影響を受けることなぐ複数の音源カゝら発せられた音源信号が混合された混合 音の中から、目的音源力 の音源信号を分離することを可能とする音源分離装置、 音声認識装置、携帯電話機、音源分離方法、及び、プログラムを提供することを目的 とする。
[課題を解決するための手段]
上記課題を解決するために、請求項 1に記載の発明は、互いに離して配置された 少なくとも 2つのマイクロホンに対して複数の音源力 発せられた音源信号が混合さ れた混合音を入力し、該混合音から目的音源からの音源信号を分離する音源分離 装置において、前記マイクロホンからの出力信号に対して第 1の係数を用いた演算を 行うことにより、所定の方向から到来する音源信号を減衰させるための第 1のビームフ ォーマ処理を行い、かつ、前記マイクロホン力 の出力信号に対して、前記第 1の係 数と周波数領域で複素共役の関係にある第 2の係数を用いた演算を行うことにより、 2つのマイクロホンを結ぶ直線の垂線に対して前記所定の方向と対称な方向力 到 来する音源信号を減衰させるための第 2のビームフォーマ処理を行うビームフォーマ 手段と、前記ビームフォーマ手段により得られた音源信号各々についてのパワース ベクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパ ワースベクトル情報同士の差分に基づいて、目的とする音源のスペクトル情報を抽出 する目的音スぺ外ル抽出手段とを備えることを特徴とする音源分離装置を提供する
[0010] この発明によれば、音源分離装置は、指向特性がマイクロホン素子の感度に影響 を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影 響を受けることなぐ複数の音源から発せられた音源信号が混合された混合音の中 から、目的音源力もの音源信号を分離することが可能となる。
請求項 2に記載の発明は、請求項 1に記載の音源分離装置において、前記ビーム フォーマ手段は、互いに離して配置された 3つのマイクロホンのうち、何れか 2つのマ イク口ホンの組合せ及び他の 2つのマイクロホンの組合せ各々について、前記第 1の ビームフォーマ処理及び前記第 2のビームフォーマ処理を行うことを特徴とする。
[0011] この発明によれば、 3つのマイクロホンのうち、 2つのマイクロホンを結ぶ直線の垂線 を境界とした各領域に存在する目的音源力ゝらの音源信号を抽出することができる。 請求項 3に記載の発明は、請求項 1又は 2に記載の音源分離装置において、マイク 口ホンからの出力信号に対して遅延を与える指向性制御手段をさらに備えることを特 徴とする。
この発明によれば、遅延を与えることで指向特性を最適な状態に補正することがで き、音源の分離性能を向上させることができる。
[0012] 請求項 4に記載の発明は、請求項 3に記載の音源分離装置において、前記指向性 制御手段は、 2つのマイクロホンのうち少なくとも一方のマイクロホンからの出力信号 に対して遅延を与えることにより、仮想的に 3つのマイクロホンからの出力信号を生成 することを特徴とする。
この発明によれば、仮想的に 3つのマイクロホンからの出力信号を生成することがで きるため、 2つのマイクロホンのみを用いて、 2つのマイクロホンを結ぶ直線の垂線方 向から到来する音源信号を分離抽出することが可能となる。
[0013] 請求項 5に記載の発明は、請求項 3又は 4に記載の音源分離装置において、前記 音源信号が到来する方向を推定する到来方向推定手段をさらに備え、前記指向性 制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、 2つの 音源の位置が仮想的に 2つのマイクロホンを結ぶ直線の垂線に対して対称となるよう に、該マイクロホンからの出力信号に対して遅延を与えることを特徴とする。
この発明によれば、音源の高 、分離性能が得られるように遅延操作を行うことが可 能となる。
[0014] 請求項 6に記載の発明は、請求項 1から 5の何れか 1項に記載の音源分離装置に おいて、前記目的音抽出手段により抽出されたパワースペクトル情報に対して、スぺ タトルサブトラクシヨン処理を行うスペクトルサブトラクシヨン手段をさらに備えたことを 特徴とする。
この発明によれば、スペクトルサブトラクシヨン処理を行うことにより到来方向不明の 定常雑音や拡散性の雑音などを除去することが可能となる。
[0015] 請求項 7に記載の発明は、請求項 1から 6の何れか 1項に記載の音源分離装置に おいて、前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う 定常雑音低減手段をさらに備えることを特徴とする。
この発明によれば、ミュージカルノイズのような聴感上不快な雑音の発生を低減す ることが可能となる。
請求項 8に記載の発明は、請求項 1から 7の何れ力 1項に記載の音源分離装置によ り分離された音源信号の音声認識を行う音声認識手段を備えた音声認識装置を提 供する。
[0016] この発明によれば、精度よく分離された音源信号に基づ!、て、精度のよ!、音声認 識を行うことができる。
請求項 9に記載の発明は、請求項 8に記載の音声認識装置において、車両の運転 席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト及び助手席側 力 発せられる語彙の候補の一覧である助手席側認識語彙リストを記憶する認識語 彙リスト記憶手段をさらに備え、前記音声認識手段は、前記認識語彙リスト記憶手段 に記憶されて 、る運転席側認識語彙リスト及び助手席側認識語彙リストに基づ 、て、 前記音源分離装置により分離された音源信号の音声認識処理を行うことを特徴とす る。
[0017] この発明によれば、音声認識装置は、認識語彙リスト記憶手段に記憶されている助 手席側認識語彙リスト及び運転席側認識語彙リストに基づき音声認識処理を行うた め、運転席、助手席別に語彙リストの中から最適な語彙を選択することができ、精度 よく音声認識を行うことが可能となる。
請求項 10に記載の発明は、請求項 8又は 9に記載の音声認識装置において、現 在の車両の状態を管理する状態遷移手段と、車両の状態に応じた助手席側及び運 転席側における有効な語彙リストを記憶する有効語彙リスト記憶手段と、前記状態遷 移手段で管理されている現在の車両の状態と、前記有効語彙リスト記憶手段に記憶 されている語彙リストとに基づいて、前記音声認識手段により認識された語彙が有効 か否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに備えることを特 徴とする。
[0018] この発明によれば、現在の車両の状態と有効語彙リストとに基づいて、認識された 語彙が有効力否かを判断し、判断結果に応じて制御を行うことができるため、車両内 の搭乗者にとって快適な制御を行うことができる。また、有効語彙リストや制御内容を 自由に設計することができるため、音声認識を使用したアプリケーション設計に自由 度を与えることができる。
請求項 11に記載の発明は、請求項 1から 7の何れ力 1項に記載の音源分離装置を 備えた携帯電話機を提供する。
[0019] この発明によれば、携帯電話機を中規模の会議室などで集音マイクとして利用する ことが可能である。
請求項 12に記載の発明は、互いに離して配置された少なくとも 2つのマイクロホン に対して、複数の音源カゝら発せられた音源信号を入力する音源信号受信ステップと 、前記マイクロホン力もの出力信号に対して、周波数領域で複素共役の関係にある 2 つの重み係数各々を用いて演算を行うことにより、 2つのマイクロホンを結ぶ直線の 垂線に対して対称な所定の方向から到来する音源信号を各々減衰させるための第 1 のビームフォーマ処理及び第 2のビームフォーマ処理を行うビームフォーマ処理ステ ップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々について ノ ヮ一スペクトル情報を算出するパワー計算ステップと、前記パワー計算ステップに おいて計算されたパワースペクトル情報同士の差分に基づいて、目的音源のスぺタト ル情報を抽出する目的音スペクトル抽出ステップとを備えることを特徴とする音源分 離方法を提供する。
請求項 13に記載の発明は、コンピュータに、互いに離して配置された少なくとも 2 つのマイクロホンから、複数の音源カゝら発せられた音源信号が混合された出力信号 を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得され た出力信号に対して、周波数領域で複素共役の関係にある 2つの重み係数各々を 用いて演算を行うことにより、 2つのマイクロホンを結ぶ直線の垂線に対して対称な所 定の方向から到来する音源信号を各々減衰させるための第 1のビームフォーマ処理 及び第 2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォ マ処理ステップにお 、て得られた音源信号各々につ 、てパワースペクトル情報を 算出するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワー スペクトル情報同士の差分に基づいて、目的音源のスペクトル情報を抽出する目的 音スペクトル抽出ステップとを実行させるためのプログラムを提供する。
[発明の効果]
本発明によれば、周波数領域で複素共役の関係にある 2つの重み係数各々を用い て演算を行うことにより、 2つのマイクロホンを結ぶ直線の垂線に対して対称な所定の 方向から到来する音源信号を各々減衰させるための第 1のビームフォーマ処理及び 第 2のビームフォーマ処理を行うことにより、 2つのマイクロホンを結ぶ直線の垂線に 対して対称な方向から到来する音源信号を各々減衰させ、前記第 1のビームフォー マ処理及び前記第 2のビームフォーマ処理により得られた音源信号各々についての ノ ヮ一スペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する ことで、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現する ことができ、マイクロホン素子の感度のばらつきに影響を受けることなぐ複数の音源 から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を 分離することが可能となる。
図面の簡単な説明
[図 1]本発明の第 1実施形態に係る音源分離システムの基本的構成を示す図である
[図 2]同実施形態に係るマイクの種類の一例を示す図である。
[図 3]同実施形態に係るビームフォーマ部の構成を示す図である。
[図 4]同実施形態に係るパワー計算部の構成を示す図である。
[図 5]同実施形態に係る目的音スペクトル抽出部の構成を示す図である。
[図 6]同実施形態に係る死角制御型ビームフォーマを説明するための図である。
[図 7]同実施形態に係る死角制御型ビームフォーマを説明するための図である。
[図 8]同実施形態に係る差分結果の指向特性の一例を示す図である。
[図 9]同実施形態に係るマイクの素子感度差を変動させた場合の共役ビームフォー マの指向特性を示す図である。
[図 10]同実施形態に係るマイクの素子感度差を変動させた場合のビームフォーマ単 体の指向特性を示す図である。
[図 11]同実施形態に係る音源分離装置の 360度の指向特性を求めたグラフを示す 図である。
[図 12]同実施形態に係る音源分離装置の指向特性を利用した 2話者個別録音の実 施例を示す図である。
[図 13]同実施形態に係る音源分離装置の指向特性を利用した簡易ハンズフリー装 置及び音声認識装置用マイクの実施例を示す図である。
[図 14]同実施形態に係る評価実験におけるマイク取り付け箇所を示す図である。
[図 15]同実施形態に係る評価実験の条件を示す図である。
[図 16]同実施形態に係る評価実験結果を示す図である。
[図 17]第 2実施形態に係る音源分離システムの構成を示す図である。
[図 18]同実施形態に係るビームフォーマの構成を示す図である。
[図 19]第 3実施形態に係る音源分離システムの構成を示す図である。 圆 20]同実施形態に係る他の音源分離システムの構成を示す図である。
圆 21]同実施形態に係る目的音スペクトル抽出部の構成を示す図である。
圆 22]第 4実施形態に係る音源分離システムの構成を示す図である。
圆 23]第 5実施形態に係る音源分離システムの構成を示す図である。
圆 24]同実施形態に係る指向性制御の例を示す図である。
圆 25]同実施形態に係る指向性制御部の構成を示す図である。
圆 26]第 6実施形態に係る音源分離システムの構成を示す図である。
圆 27]第 7実施形態に係る音源分離システムの構成を示す図である。
圆 28]同実施形態に係る分離される音源の位置を説明するための図である。
圆 29]同実施形態に係る単一指向性マイクの設置例を示す図である。
圆 30]同実施形態に係る目的音抽出部の構成の一例を示す図である。
圆 31]同実施形態に係る目的音抽出部の構成の一例を示す図である。
圆 32]同実施形態に係る目的音抽出部の構成の一例を示す図である。
圆 33]同実施形態に係る音源分離装置を利用したパソコンへの音声入力の例を示 す図である。
圆 34]第 8実施形態に係る目的音範囲と雑音範囲とを説明するための図である。 圆 35]同実施形態に係る遅延操作を説明するための図である。
圆 36]同実施形態に係る指向性制御手段の構成例を示す図である。
圆 37]同実施形態に係る音源分離装置システムの構成例を示す図である。
圆 38]同実施形態に係る目的音抽出部における処理方式の一例を示す図である。 圆 39]同実施形態に係る目的音抽出部における処理方式の一例を示す図である。 圆 40]第 9実施形態に係る車載機器制御用音声認識システムの構成を示す図である 圆 41]第 10実施形態に係る携帯電話機を示す図である。
圆 42]第 11実施形態に係る音源分離システムにおけるマイク配列を示す図である。 圆 43]第 12実施形態に係る音源分離システムが適用される環境を示す図である。
[図 44]同実施形態に係る音源分離システムが適用される発話音の入力状況を示す 図である。 [図 45]同実施形態に係るガイダンス音声削除部の構成を示す図である。
[図 46]同実施形態に係る目的音声抽出部の構成を示す図である。
[図 47]同実施形態に係るガイダンス音声削除部の他の構成を示す図である。
[図 48]同実施形態に係るガイダンス音声削除部の他の構成における目的音声抽出 部の構成を示す図である。
[図 49]同実施形態に係る音源分離システムが適用される他の環境を示す図である。
[図 50]同実施形態に係る音源分離システムが適用される発話音の他の入力状況を 示す図である。
[図 51]同実施形態に係る音源分離システムの他の構成を示す図である。
発明を実施するための最良の形態
[0022] 以下、図面を参照して、本発明に係る実施の形態について説明する。
[第 1実施形態]
図 1は、本発明の第 1実施形態に係る音源分離システムの基本的構成を示す図で ある。このシステムは、 2つのマイクロホン(以下「マイク」という) 10、 11と、音源分離装 置 1とで構成されている。この音源分離装置 1は、図示せぬ、全体を制御し演算処理 を実行する CPUと、 ROM, RAM,ハードディスク装置等の記憶装置を含むハードウ エアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えてい る。これらのハードウェア及びソフトウェアによって、図 1に示す機能ブロックが実現さ れる。
[0023] 2つのマイク 10、 11は無指向性のマイクであり、平面上に互いに数 cm程度離して 設置されている。なお、マイク 10、 11は無指向性であることが基本である力 図 2に 示すような単一指向性マイクも使用可能である。マイク 10、 11は 2つの音源 R1、R2 から発せられた信号を受信する。このとき、これら 2つの音源 Rl、 R2は、 2つのマイク 10、 11を結ぶ直線に対して引かれた垂線を境界として分割された 2つの領域 (以下「 垂線の左右」という)にそれぞれ位置するものとするが、必ずしも垂線に対し左右対称 の位置に存在する必要はな 、。
[0024] このマイク 10、 11で得た 2つの音源信号を、スペクトル分析部 20、 21においてそれ ぞれマイク出力毎に周波数分析し、ビームフォーマ部 3においてこれらの周波数分析 された信号を 2つのマイク 10、 11を結ぶ直線に対して引かれた垂線の左右に対称に 死角を形成したビームフォーマ 30、 31でフィルタリングを行い、パワー計算部 40、 41 においてそのフィルタ出力のパワーを計算し、目的音スペクトル抽出部 50、 51にお いてそれぞれの差分を計算した結果に対しある一定値以上の値を出力しそれ以下を ゼロとする処理を行う。これらの処理は、通常の特定雑音に関して死角を形成する処 理とは異なり、ビームフォーマ部 3をいくつかの条件の下で形成し上記の処理を実施 することで、従来問題であったマイクの素子感度のバラつきに起因するマイクロホンァ レイの特性の劣化の問題を解決すると同時に、上記垂線を中心として左右からの音 を分離する指向特性を幅広い周波数帯域に対して実現することが可能となる。以下 、各機能ブロックについて詳細に説明する。
[0025] [ビームフォーマ部]
まず、図 3を参照して、ビームフォーマ部 3の構成を説明する。図 3では、スペクトル 分析部 20、スペクトル分析部 21で周波数成分毎に分解された信号 X (ω)、χ (ω)
1 2 を入力として、乗算器 100a、 100b, 100c, 100dにて、フィルタの重み係数 w (ω)
1
W (co (co co) (
2 )、W*
1 )、w*( *
2 は複素共役の関係にあることを示す)と乗算をそれ ぞれ行い、加加算器 100e、 100fにて 2つの乗算結果を加算し、その出力としてフィ ルタリング処理結果 ds (ω)、 ds (ω)を出力する。このように、ビームフォーマ部 3は
1 2
、複素共役フィルタ係数を使用することにより、マイク 10、 11間を結ぶ直線の垂線を 中心として対称な位置に死角を形成している。
[パワー計算部]
次に、図 4を参照して、パワー計算部 40、 41について説明する。パワー計算部 40 、 41は、ビームフォーマ 30、ビームフォーマ 31からの出力 ds (ω)、 ds (ω)を、以下
1 2
の計算式により、パワー計算部 40、パワー計算部 41にてパワースペクトル情報 ps (
1 o>)、ps (ω)に変換する。
2
ps ω ) = [Re(ds ))]2+[Im(ds (ω))]2
1 1 1
ps (ω ) = [Re(ds ))]2+[Im(ds (ω))]2
2 2 2
[0026] [目的音スペクトル抽出部]
次に、図 5を参照して、目的音スペクトル抽出部 50、 51に関して説明すると、パワー 計算部 40、 41の出力 ps ( co )、ps ( ω )は、目的音スペクトル抽出部 50、 51の 2つの
1 2
入力として使用される。目的音スペクトル抽出部 50、 51は、 2つのビームフォーマ 30 、 31出力のパワースペクトル情報を入力として、出力として左右の目的音をそれぞれ 出力するが、内部的には差分計算部 500、 510と係数変換部 501、 511で構成され る。
差分計算部 500は、減算器 500aにてビームフォーマ 30のパワースペクトル情報か らビームフォーマ 31のパワースペクトル情報の減算を行い、同様に、差分計算部 51 0は、減算器 501aにてビームフォーマ 31のパワースペクトル情報からビームフォーマ 30のパワースペクトル情報の減算を行い、その結果をそれぞれ、係数変換部 501、 係数変換部 511へ入力する。係数変換部 501、係数変換部 511は、それぞれ左右 の音を分離するためのブロックであり、それぞれ、値が特定のしきい値以上の値を、 目的とする方向からの信号としてスペクトル情報を出力する。ここで、しきい値の値は 一般的には" 0"であるが、使用環境に応じて最適値を実測より求め別々に設定して も良い。
[動作]
次に、図 1を参照して、音源分離装置システム全体の動作を説明する。
まず、 2つの無指向性あるいは指向性のマイク 10、 11を互いに数 cm程度離して設 置し、 2つの音源力も発せられた信号をマイク 10、マイク 11で受信する。このとき、各 マイク 10、 11で受信された 2つの音源信号が重畳された信号は、スペクトル分析部 2 0、スペクトル分析部 21で周波数分析が行われる。ここでは、一般的には高速フーリ ェ変換などの手法が用いられるが、フィルタバンクなどの周波数分析手法でも良 、。 周波数分析処理は 10msec程度の固定周期毎に行われる。
周波数分析された 2つの信号は、マイク 10、 11を結ぶ直線への垂線に対して対称 に死角が形成されたビームフォーマ 30、ビームフォーマ 31にてフィルタリングされ、 特定方向からの信号が減衰させられる。しかし、ここでは特定の音源到来方向を正確 に推測し、正確に推測された音源方向に死角を向けることを目的とはしていない。こ の 2チャンネルの入力を使用したフィルタリングは各周波数成分毎に行われ、ビーム フォーマ 30、ビームフォーマ 31の出力はパワー計算部 40、パワー計算部 41にてス ベクトルパワー情報に変換されると同時に、ビームフォーマ 30、ビームフォーマ 31の 出力から位相抽出部 60、位相抽出部 61にて位相情報 Φ、 Φが抽出される。次に、
1 2
パワー計算部 40、パワー計算部 41にてスペクトルパワー情報に変換されたビームフ ォーマ 30、ビームフォーマ 31の出力は、目的音スペクトル抽出部 50、目的音スぺタト ル抽出部 51に送られ、目的音スペクトル抽出部 50にて右方向(0〜90° )から来た 音源信号のパワースペクトル情報が抽出され、目的音スペクトル抽出部 51にて左方 向(— 90° 〜0)力 来た音源信号のパワースペクトル情報が抽出される。
[0028] 目的音スペクトル抽出部 51から抽出されたパワースペクトル情報を音声認識処理 の前処理として使用する場合は、当該パワースペクトル情報は図示していない音響 パラメータ解析部に送られ、音響分析処理が行われる。一方、抽出した音源信号の パワースペクトル情報を時間信号に戻す必要がある場合は、位相抽出部 60、位相抽 出部 61で抽出した位相情報と目的音スペクトル抽出部 50、目的音スペクトル抽出部 51で抽出したスペクトル情報とを時間波形変換部 70、時間波形変換部 71に入力し 時間信号情報に戻す処理を行う。
[死角制御型ビームフォーマの設計例]
次に、ビームフォーマ部 3中のビームフォーマ 30、ビームフォーマ 31において、 2 つのマイク 10、 11を結ぶ直線の垂線に対して対称な位置に死角を形成することで、 指向特性 (指向性)がマイク素子の感度の影響を受けないことについて証明する。
[0029] 2つのマイク素子を使用する場合において、図 6に示すように、目的方位 0 に対す
1 るゲインを 1とし、他方向 Θ に 1つの死角(ゲイン 0)を形成する死角制御型ビームフ
2
ォーマの設計例を以下に示す。
死角制御型ビームフォーマの出力信号を S (f) = [s (f)、 s (f) ] '、観測信号を X(f)
1 2
= [x (f)、 x (f) ] 'としたとき、ある周波数 fにおける死角制御型ビームフォーマの重
1 2
み係数ベクトル W(f、 θ , Θ ) = [w (f)、 w (f) ] 'は以下の計算で求めることが出来
1 2 1 2
る (ただし、 ' は転置操作を示す)。
[0030] [数 1]
Figure imgf000017_0001
のとき、
Figure imgf000017_0002
[0031] 一方、図 7に示すように、目的方向、死角方向を 2つのマイク 10、 11を結ぶ直線の 垂線を中心として、図 6に示す位置とは線対称な位置に設定するとき、重み係数べク トノレ W(f、 Θ Θ ) = [w (f)、 w (f) ],は以下の計算で求めることが出来る。
[0032] [数 2]
Figure imgf000017_0003
,ϋ ,
[0033] このとき、
[0034] [数 3]
Figure imgf000017_0004
exp [-ゾ 2^¾sin ] exp [- j2 d2 sin θγ I c]
χ2) exp [— jl7jdx sin θ21 c] exp [— j2rtfd2 sin θ21 c
Figure imgf000017_0005
[0035] と計算され、両者の関係は、
[0036] [数 4]
Figure imgf000018_0001
[0037] となり、各重み係数は複素共役の関係にある。
次に、パワー計算部 40、 41、目的音スペクトル抽出部 50、 51において指向特性の 導出を行う。指向特性の計算のため、重みベクトル W、及び、方位ベクトル Vを以下 の式で定義する。
[0038] [数 5]
Figure imgf000018_0002
Figure imgf000018_0005
[0039] すると、パワー計算部 40の出力 ps ( ω )、パワー計算部 41の出力 ps ( ω )の指向
1 2
特性は以下のように表現することが出来る。
[0040] [数 6]
Figure imgf000018_0003
[0041] ただし、 *は共役操作、 Hは共役転置操作を表す。これより、目的音スぺ外ル抽出 部 50内の差分操作部 500の出力 dr ( ω )は以下のように求めることが出来る。
1
[0042] [数 7] ώ (ω) = vTw*wTv* - vTmvHv* = vT(w*wT - wwHY*
Figure imgf000018_0004
2 x Re^WjVjV [0043] ここで、マイクの素子感度のバラつきを表現するパラメータとして αを導入し、一方 のマイクの素子感度が一方のマイクの素子感度の α倍であると仮定する。このときに 、片方のマイク出力が α倍であるということと、片方のチャンネルに掛ける重みが α倍 であることとは等価であるので、マイク素子感度のバラつきを考慮し、 w = a w とす
2 org2 ると、
[0044] [数 8]
Figure imgf000019_0001
[0045] となり、マイク素子感度が変化しても指向特性は変化しない。
このとき音源がマイクに対して十分離れている場合、すなわち平面波の場合は、方 位ベクトルは、
[0046] [数 9]
1
Figure imgf000019_0002
exp (—ノ—— d sin θ)
Figure imgf000019_0003
[0047] と表現されるので、結局、
[0048] [数 10] l , 2π
- a< 2 x Rei worg2 exP(_ — ^ sm ^) - 2 x Re exp (ゾ十 rf sinの
A
[0049] となる。ただし、上記に述べた手法は球面波の場合も同様の性質が維持される。
図 8は、死角を前記垂線から ±45° 方向に形成する際に、ビームフォーマ 30、 31 のゲインを維持する拘束条件を垂線に対称な位置(±45° )に指定して設計した場 合の差分結果の指向特性例である。図 8から分かるように、 0° 方向を境界として、右 方向(マイク 10、 11から音源 Rl、 R2の方向を見た場合の右方向、以下同様)(0〜9 0° )から来た音源信号は正の値をとり、左方向(一 90° 〜0)から来た音源信号は 負の値をとる。これにより、各周波数成分において左右どちらの方向から到来したの かを判断することが出来る。
[0050] [指向特性の実験結果]
以上述べてきたように、ビームフォーマ 30、ビームフォーマ 31の乗算器で使用する 重み係数をそれぞれ複素共役の関係として上記の処理を行うことで、マイクの素子感 度によりアレイマイクの指向特性が影響を受けないことを示すために、マイクの素子 感度差 αを Odb、 +6db、—6dbと変動させて指向特性の計算を行った例を図 9に示 す。同図にはマイク 10、 11を結ぶ直線への垂線に対して対称な方向の指向特性が 示されていないが、当該指向特性は図 9に示した特性と対称な特性を持つ。図 9を見 て分力るように、ゲインの変動がある場合、アレイマイクの出力レベルの変動は発生 するが、指向特性は変動を受けない。これにより、安価なマイクを使用しマイクの素子 感度にばらつきがある場合でも安定した指向特性を実現することが可能となる。また 、図中に示した指向特性は死角を ±45° 方向に作成したものである力 同図から分 力るように指向特性に幅があるため、死角を実際の目的音源に対して正確に作成す る必要はない。また、マイクの素子感度差 αを Odb、 +6db、 一 6dbと変動させた場合 のビームフォーマ単体の指向特性を図 10に示す力 同図よりマイクの素子感度が 6d b異なると特定の方向に死角を形成すると!/、うビームフォーマに望まれて!/、る所望の 動作を殆ど行えないことがわかる。一方、本発明の特徴として最も注目すべき点とし て、図 10に示すような指向特性が発生するような指向特性の劣化したビームフォー マを使用しても、結果として得られる指向特性はマイクの素子感度が均一な場合と同 一であることである。
特定方向にビームフォーマで鋭 、死角を形成する手法は少数のマイクでも理論上 実現可能であるため、測定した信号は SN比を上げるために使用されたり、適応フィ ルタとして頻繁に使用される一般ィ匕サイドローブキャンセラの参照信号生成部である ブロッキングマトリックス部分に使用されるが、上述したマイクの素子感度差により設 計どおりの性能で死角を生成することが出来ず、量産を目的とした場合、実環境で所 定の性能が実現出来な!/、大きな要因の一つになって!/、る。
[0051] このような音源分離装置 1を用いて、 360度の指向特性を求めた例を図 11に示す。 同図から分力るように、音源分離装置 1は 180° 毎の指向特性を持ち、 2つの指向特 性がその境界において重なることなく分離されている。し力も、その指向特性がマイク の素子感度の影響を受けないことを更なる特徴としている。リニアアレイの場合、 ± 9 0° 以上では 0〜士 90° までの特性と対称となる指向特性となる。このように、指向 特性は、 2つのマイクを結ぶ線に垂直に引いた線を境界として 2つのゾーンに分割す ることが可能となる。
[0052] この特性を利用した実施例を、図 12及び図 13に示す。図 12は音声メモ装置への 応用である。従来、会議や打ち合わせの際に会議のメモの目的で音声メモ装置が使 用されてきた。このような使用例の場合、周りの騒音や 2人の音声が同時に録音され ているため、録音された内容が聞き取りにくい場合がある。この様な場合、 2つのマイ ク 10、 11をそれぞれ 2人の発話者の方に向け、音源分離装置 1でそれぞれ片方の 会話の内容を強調して録音することで後日の聞き取りを容易にする。このように音源 分離装置 1を利用することによって、対向する 2名の音声を分離し収集することが可 能となり、会議の議事録用音声メモとして利用することや、会議議事録で 2名の会話 を個別に同時音声認識することが可能となる。
[0053] 図 13は、簡易ハンズフリー装置、及び、音声認識装置用マイクへの応用例を示す 図である。近年、パーソナルコンピュータ(以下「パソコン」という)を使用してネット会 議などが行われるようになって来ているが、自宅などでパソコンを使用してネット会議 を行う場合、ノ ソコン内部にエコーキャンセラ機能がないためヘッドセットマイクなどを 利用しスピーカ音声力 マイクへのエコーの回り込み量を小さくするなどの対策が行 われている力 ヘッドセットマイクのように身体の一部に器具を密着させることがなか なか受け入れられていない。この対策として、ノ ソコン内部にエコーキャンセラ機能を ソフトウェアとして実装したり、ノソコン外部にエコーキャンセラ機能を内蔵したノヽンズ フリー装置を接続することも可能である。ノ ソコン内部にエコーキャンセラ機能を実装 する場合、スピーカへの再生音声とマイク力 の入力音声との同期をとる必要がある 力 再生音声と入力音声間の遅延が大きぐまた、パソコン機種ごとに遅延の大きさ が異なるなど実装上の問題がある。また、外部にエコーキャンセラ機能を内蔵したノ、 ンズフリー装置を接続する場合、コストがかかる。 [0054] 一方、本実施例では、マイク 10、 11をスピーカと発話者との間に置く必要があるが 、スピーカ再生信号との同期をとる必要もない。 2つのマイク 10、 11を用意し、マイク 10、 11からの信号をパソコンに取り込み、パソコンに記憶されているソフトウェアに基 づ 、て音源分離を実行することが出来るため、実装が容易である。
また、住宅内で音声認識を行う状況で一番頻繁に発生するであろう環境として、テ レビその他被制御機器に向力つて音声コマンドを使用することが考えられる。この場 合、テレビその他被制御機器のスピーカは被制御機器側力 発話者側に向力つて設 置してあり、スピーカから音声が流れていたりさまざまなガイダンスが流れている状況 で、発話者は音声でマイク装置に制御コマンドを入力したい場合がある。この場合、 何らかの手段でスピーカの音声がマイク装置に回り込む量を減衰させる必要がある 力 音源分離装置 1を使用することで容易に被制御機器力 の音声と発話者力 の 音声を分離することができ、音声認識性能が向上する。
[0055] [評価実験結果]
次に、評価実験結果について説明する。従来、自動車内での機器制御その他の目 的で音声認識が使用されている。従来においては、エアコンの送風音、ロードノイズ 、エンジン音などの雑音を低減する技術は確立されているが、音声などの影響を受 けない音声認識技術は確立されていない。これらのことを踏まえ、以下の点を実現可 能とする音声認識技術を提供することが重要となる。 (1)運転席に居る運転者が発し た音声、及び、助手席に居る助手席者が発した音声 (以下「運転席と助手席の音声」 という)の分離、(2)ヘッドポジションの移動を許容可能、(3)広いビーム幅と分離性 能の両立、(4)少数マイクでの機能提供、(5)音声認識使用時、運転者又は助手席 者に黙って 、ることを課さな ヽ
[0056] 音源分離装置 1の有効性を示すために、車内において 2人の発話者に同時発話さ せ、 2つのマイクで収録して音源分離装置で音源分離を行い、音声認識実験を行つ た。この音源分離装置は、 2つの音源の分離を目的に開発されたものであり、自動車 内の利用方法としては、例えば運転席と助手席の音声を分離することが可能となる。 このためのマイクの設置箇所としては、図 14に示すように、取り付け箇所 L1または取 り付け箇所 L2のように自動車内中央部が適している。また、取り付け箇所 L2に設置 した場合には、ルームミラー 400が運転者の方を向くため、マイク取り付け時に、マイ クの取り付け方向が大体正面になるように設置してもよいし、後述する指向性制御機 能を持たせてもよ!/、。音源分離装置 1では本来ビーム幅を広く取ってあるので正確な 位置あわせは必要としない。また、取り付け箇所 L2に設置する場合には、背面から の反射を抑えるためにマイクモジュールを工夫したり指向性マイクを利用することが 有効な場合がある。
評価実験の条件を図 15に、音源分離後の音声認識実験結果を図 16に示す。図 1 6 (a)に示すように、車内での 2話者発話時 (車内同時発話)においては、 1チャンネ ルマイクのみを使用した従来法 1における未処理時には 29% (停車時)、 27% (60k mZh走行時)であったが、本音源分離手法を適応することにより、 78% (停車時)、 7 8% (60kmZh走行時)と改善された。また、図 16 (b)に示すように、助手席側の音 声を運転席側の音声と誤って音声認識結果を出してしまった、ある 、は運転席側の 音声を助手席側の音声と誤って音声認識結果を出してしまった割合を評価すると、 従来の 1チャンネルマイクのみ使用時 (車内 1人発話)では、全発話の 93% (リジエタ シヨン性能 7%)について何らかの音声認識結果が出力されてしまった力 本手法を 適応した場合は、何らかの音声認識結果が出力されたのは 0% (リジェクシヨン率 100 %)であった。 また、 2マイクを使用した従来例として"雑音成分抑圧処理装置およ び雑音成分抑圧処理方法 (特許第 3484112号) "を従来法 2として停止状態での性 能比較を行った。従来法 2は目的音、雑音到来方向を推定しながら適応ビームフォ 一ミング処理を行い目的音および雑音を強調し、目的音が強調された信号から雑音 が強調された信号を周波数領域でスペクトルサブトラクシヨンする方式であるが、到来 方向推定エラーの影響を省くため目的音、雑音とも到来方向を既知(固定方向から 到来するもの)とし、適応ビームフォーマ部の最適値を求めた後に、目的音 (発話者 1 )、雑音 (発話者 2)を同時に再生し目的音声を抽出する処理をおこなった。(図 16 (a )参照のこと)
[第 2実施形態]
次に、第 2実施形態について説明する。図 17には、第 2実施形態に係る音源分離 システムの構成を示す。上述した第 1実施形態においては、マイク 10、 11からの入力 を、まずスペクトル分析部 20、スペクトル分析部 21にて周波数成分に変換したが、本 実施形態にぉ 、ては、まず時間領域にてビームフォーマ 80及びビームフォーマ 81 にて死角を生成して特定の到来方向からの信号を減衰させた信号を生成し、その後 、スペクトル分析部 20及びスペクトル分析部 21にて周波数成分に変換している。な お、図 17では、図 1と同一の機能を持つものには同一の番号がつけてある。ビームフ ォーマ 80、ビームフォーマ 81の構成は図 18に示すような FIRフィルタなどの形式で 構成されたフィルタ処理を実行することで実現される。このとき、 FIRフィルタの係数 は、図 3で示した周波数領域での複素共役の関係にある重み係数を、時間領域のフ ィルタ係数に変換することで求めることができる。
[0058] [第 3実施形態]
次に、第 3実施形態について説明する。図 19及び図 20は、第 3実施形態に係る音 源分離システムの構成を示す図である。上述したように、図 1及び図 17に示す目的 音スペクトル抽出部 50、目的音スペクトル抽出部 51は、図 5で示した構成にて実現さ れており、実験により求めた最適なしきい値を使用して音源分離処理を行う構成とな つている。一方、図 8に示したように、目的音スペクトル抽出部 50、 51中の差分計算 部 500、 510の出力である dr ( ω ) (i= l、 2)は正面 0° を中心として点対称な関係に なっていることが分かる。これより、目的音スペクトル抽出部 50、 51中の係数変換部 5 01、 511においてしきい値を" 0"とすると差分計算部 500、 510の符号のみを見てお くことで、正の時に右方向(0〜90° )から来た音源信号のパワースペクトル情報とし て抽出され、負のときに左方向(一 90° 〜0)力も来た音源信号のパワースペクトル 情報として抽出される。このため、図 1及び図 17で示した全体構成は、図 19及び図 2 0に示すように簡略ィ匕することが可能となる。図 19及び図 20中の目的音スペクトル抽 出部 90は、図 21に示す構成で実現される。
[0059] 図 21において、パワー計算部 40、パワー計算部 41にて計算されたビームフォーマ 30、ビームフォーマ 31のパワースペクトル情報は、目的音スペクトル抽出部 90内部 の差分計算部 900に入力される。そして、減算器 900aにて減算処理が行われ、係 数変換部 910、係数変換部 920においてそれぞれ目的とする方向力もの音源信号 のみが抽出される。具体的には、係数変換部 910は、右方向(0〜90° )からの音源 抽出を行うためのブロックであり、入力が正の場合は、そのスペクトル情報は右方向(
0〜90° )力も来たものとして出力し、負の場合は目的方向外力も到来した音源のス ベクトル情報として出力しない。一方、係数変換部 920は、左方向(一90° 〜0)から の音源抽出を行うためのブロックであり、入力が負の場合は、そのスペクトル情報は 左方向(— 90° 〜0)力 来たものとして出力し、正の場合は目的方向外力 到来し た音源のスペクトル情報として出力しない。以上の動作により、 2つのマイク 10、 11を 結ぶ直線の垂線を中心として左右の方向から到来する音源信号を分離することが可 能となる。
なお、図 19に示す音源分離システムと図 20に示す音源分離システムとは、ビーム フォーマ処理を周波数領域で行うか時間領域で行うかの違いが構成として異なって いる。図 19ではビームフォーマ処理を周波数領域で行っており、図 20では時間領域 で行っている。
[第 4実施形態]
次に、第 4実施形態について説明する。図 22は、第 4実施形態に係る音源分離シ ステムの構成を示す図である。同図に示すスペクトルサブトラクシヨン部 100、 101が 、 目的音スペクトル抽出部 50、 目的音スペクトル抽出部 51で抽出した各目的音に重 畳している到来方向不明の定常雑音や拡散性の雑音などを除去するためのスぺ外 ルサブトラクシヨン処理を行う。このような構成は、会議室中の空調やプロジェクタなど のファンの音などが存在する環境における使用でも有効である力 自動車内での使 用時に特に有効である。 自動車内にお 、て運転者と助手席に同乗者とが搭乗して!/、 る場合など、例えば運転席と助手席の音声は、前述の方式を使用することで別々に 取り出すことが可能である。しかし、エアコンの送風音、ロードノイズ、風きり音など、 到来方向が不明なものや拡散性の雑音は前述の方法では除去することが出来ない 。これらの雑音の影響は、処理の後段にスペクトルサブトラクシヨン処理を入れること で除去することが可能である。スペクトルサブトラクシヨン処理は、 1つのマイクの入力 信号を使用して発話区間検出を行い、無発話区間で雑音スぺ外ルを推定し、発話 区間でその前に推定した雑音成分をスケーリングして減算するタイプと、雑音が優位 に収録された信号と音声が優位に収録された信号を用いて、音声が優位に収録され た信号力 雑音が優位に収録された信号のスペクトルをスケーリングして差分するタ イブとがある。音声認識の場合、 1マイク方式を基本にした処理で十分なことが多い 力 本実施形態においてもこれを採用しており、本実施形態に係る音源分離システ ムは、第 1実施形態に係る音源分離システムに対して、発話区間検出部 110とスぺク トルサブトラクシヨン部 100、 101をあらたに追加することで対応している。
[0061] 図 22において、音源 Rl、音源 R2は目的音であり、音源 R3が到来方向不明の定 常雑音や拡散性の雑音を表して 、る。これらの雑音の多くは明確な指向性を持たな いものが多い。このような雑音の場合、目的音スペクトル抽出部の出力において、弱 い指向性をもつものはその方向の音源を抽出する目的音スペクトル抽出部に多く現 れ、まったく指向性を持たないものや道路の継ぎ目を踏んだ衝撃音などは左右の抽 出されたスペクトルに交互に検出されることが多いが、これらの雑音をスペクトルサブ トラクシヨン部 100、 101で除去可能である。なお、スペクトルサブトラクシヨンとしては 、発話区間検出の不要な連続型スペクトルサブトラクシヨンを使用してもよい。
[第 5実施形態]
次に、第 5実施形態について説明する。図 23には、第 5実施形態に係る音源分離 システムの構成を示す。本実施形態においては、分離したい 2つの目的音源 Rl、 R2 力 つのマイク 10、 11を結ぶ直線への垂線に対して対称と!/、える位置力 大きく外 れている場合の対策が示されている。本実施形態では、この対策のために 2つの目 的音源 Rl、 R2のおおまかな位置を検出するための到来方向推定部 120と、到来方 向推定部 120が推定した 2つの目的音源 Rl、 R2のおおよその音源到来方向情報を 使用し、指向性制御部 140において分離したい 2つの目的音源 Rl、 R2が仮想的に 出来るだけ 2つのマイク 10、 11を結ぶ直線への垂線に対して対称となるように、片方 のマイク入力に遅延操作を与える。
[0062] 図 24には、 2つの音源 Rl、音源 R2がマイク 10、マイク 11を結ぶ直線の垂線に対し て Θ てだけ回転した直線に対して左右対称となる状況を示している。このような場合 、片方のマイクで取得した信号に一定遅延量て dを与えることで、 Θ てだけ回転した ことと等価な状況を実現可能である。また、あら力じめいくつかの 2つの音源について 、 2つのマイクを結ぶ直線の垂線に対する位置関係から、 2音源を分離するのに最適 なビームフォーマ 30、 31のフィルタパラメータを用意しておき、到来方向推定部 120 力 のおおまかな 2つの音源の到来方向情報を元に現在の状況の 2つの音源を分 離するのに最適と思われるビームフォーマのフィルタパラメータをビームフォーマ制 御にて選択して、選択したビームフォーマのフィルタパラメータをビームフォーマ 30、 ビームフォーマ 31に設定するようにしてもよ!、。
[0063] 図 25に指向性制御部 140の構成例を示す。図 25 (a)に示す構成例は、周波数領 域で各周波数成分毎に片方のマイクで取得した信号に一定遅延量 τ dを与える時の 例を示している。図 25 (a)に示す構成例の場合、 X ( ω )に対して乗算器 100aにて e—
1
j co τとの乗算を行うことで遅延操作を実現している。また、時間領域でビームフォー マを行いたい場合は、図 25 (b)に示すような FIRフィルタの形式の遅延器 100bによ りフィルタリング処理を行えばょ 、。
なお、片方のマイク入力に遅延を与えるのではなぐ双方のマイク入力にそれぞれ 半分ずつの遅延を与え全体として同量の遅延操作を実現しても良い。つまり、片方 のマイクで取得した信号に遅延量て dを与えるのではなぐ片方のマイクで取得した 信号に遅延量 τ dZ2、もう片方のマイクで取得した信号に遅延量 τ dZ2を与える ことで、全体の遅延差がて dになるようにしてもよい。
[0064] [第 6実施形態]
次に、第 6実施形態について説明する。図 26は、第 6実施形態に係る音源分離シ ステムの構成を示す図である。本実施形態に係る音源分離システムは聴感を重視す るための構成となっており、自動車内でのハンズフリー通話などへの応用を考慮して いる。 自動車内において運転者と助手席の同乗者とが搭乗している場合などは、例 えば運転席と助手席の音声は前述の方式を使用することで別々に取り出すことが可 能である力 エアコンの送風音、ロードノイズ、風きり音など到来方向が不明なものや 拡散性の雑音は前述の方法では除去することが出来ない。これらの場合、第 4実施 形態で述べた様に、処理の後段にスペクトルサブトラクシヨン処理を入れることでこれ らの雑音の影響を除去することが可能であり、音声認識などの聴感上の音質を問題 としない用途には最適であるが、ハンズフリー通話装置用のマイクなどに使用した場 合に、聴感上ミュージカルノイズと呼ばれる雑音の消し残りが問題になることがある。 本発明においては、 2つのマイク 10、 11を結ぶ直線への垂線を中心にして左右の音 を分離するため、拡散性の雑音などその音の指向性が絶えず変動するような雑音の 場合、左右の分離結果に不規則に振り分けられてしまい音質を劣化させる場合があ る。
[0065] このため、本実施形態では、本発明に係る音源分離方式がマイクゲインの時間変 化に影響を受けないことを利用して、通常アレイマイク処理の後段に使用するポスト フィルタ処理をビームフォーマ処理の前段に入れて、拡散性雑音、定常雑音などを 低減し、音源分離後のミュージカルノイズの発生を防 、で 、る。
[第 7実施形態]
次に、第 7実施形態について説明する。図 27は、第 7実施形態に係る音源分離シ ステムの構成を示す図である。この音源分離システムは、 3つのマイク 10、 11、 12を 使用して 3音源を分離する構成を示している。同図において、マイク 10とマイク 12、 マイク 10とマイク 12を使用して、それぞれ 2つのマイクを結ぶ直線への垂線を中心と して左右の音源信号を分離し、 2組のマイクの組を使用して分離された音源信号合 計 4つを使用して、目的音抽出部 160にてマイク 10、マイク 11の正面方向近辺から 到来する音源 R3を最終的に分離する。
[0066] 図 28を使用して本構成で分離される音源の説明を行うと、図 28に示すように 2つの マイクを結ぶ直線への垂線 aと垂線 bを中心として、垂線の左右から到来する音源を 分離することが可能となる。図 28においては、ゾーン A、 B、 Cの各領域に音源が存 在すると仮定すると、垂線 aを使用して、ゾーン Aとゾーン B、 Cの領域から到来する音 源信号を分離することができ、垂線 bを使用して、ゾーン A、 Bとゾーン C力も到来する 音源の分離をすることができる。図 27において、これらの分離を行うブロックが分離 部 bOと分離部 blである。分離部 bOは、 3つの音源が重畳した信号から、ゾーン Aの 領域からの音源信号 S ( ω )と、ゾーン B、 Cの領域力もの音源信号 S ( ω )、 S (
Bmix Cmix ω )が混合した信号とを分離可能であり、分離部 blは同様に、ゾーン A、 Bの領域か らの音源信号 S ( ω )、 S ( ω )が混合した信号と、ゾーン Cの領域力もの音源信
Amix Bmix
号 S ( ω )とを分離可能で、この段階で、 S ( ω ) ½ ( ω )が分離出来ている。この様
C A C
にして得られた 4つの信号力もパワースペクトル領域で目的音抽出部 160にて所定 の操作を行うことで、 S ( ω )を求めることが出来る。ただし、ここで、 S ( ω )
B Amix 、 S (
Bmix ω )、 S ( ω )は他信号と混合された時の各信号を表す。
Cmix
[0067] 上記では、ゾーン Dに音源情報が無!、かある!/、はあってもレベル的に小さ!/、こと力 前提である力 もしゾーン Dに音源がある場合には、 3つのマイク 10、 11、 12に指向 性マイクを使用することでゾーン Dからの音源信号の混入を大幅に軽減することが可 能である。
図 29には単一指向性マイクの設置例を示す力 一般的にこのように指向性マイク を使用するとアレイマイクのビームフォーマ部において各マイク間の指向性のバラッ キなどで設計時の性能が出ないことが起こるが、本方式でもともとマイクの素子感度 ノ ラつきに影響を受けないのと同様、指向特性のバラツキにも影響を受けない一定 の性能を実現可能できる。
[0068] 図 30〜32を参照して、目的音抽出部 160における処理方式について詳細に説明 する。図 30に示す処理方式は、 2チャンネルのスペクトルサブトラクシヨン処理と同様 の処理方式である。つまり、片方のチャンネル信号としても目的音と妨害音とのパヮ 一スペクトルの和が求まっており、もう片方のチャンネノレ信号としても妨害音のパワー スペクトルが求まっているため、これらを減算器 100aで減算することにより目的音 S (
B
ω )を求めることが出来る。
[0069] 図 31に示す処理方式は、目的音に妨害音が重畳されたものを 2つ求めることが可 能なため、加算器 101bにてこれらを加算することで目的音のパワースペクトル情報 を 2倍の大きさとし、一方、加算器 101aにて妨害音同士を加算することで妨害音の パワースペクトルを求め、これに乗算器 101cで一定ファクタ(O. E. F 1〜2)を掛け て、減算器 lOldで加算器 101bの出力力 差分を計算することにより、目的音を抽 出するものである。なお、減算器 lOldの出力の段階で原音信号より音量が大きいの でレベル調整部 101 eでレベル調整を行う。
[0070] 図 32に示す処理方式は、図 31に示す加算器 101a、 101bの代わりに最小値計算 102a, 102bを使用するものである。尚、図 31では、 O. E. Fは 1. 0より大きい方が 音質が良い場合が多いが、図 32では O. E. Fは 1. 0前後が良い。なお、図 32では 最小値計算を行ったが、最小値計算の代わりに最大値計算でも良い。 また、分離したい目的音源の位置が本手法で最適な分離性能が得られる位置より 大きく外れている場合があるが、第 5実施形態で説明したように、マイク力 出力され る入力信号に遅延を与え音源の到来方向を仮想的に変えることで、出来るだけ最適 な分離性能が得られるように操作することが可能である。
[0071] 図 33には、本実施形態に係る音源分離システムの使用例を示す。パソコンへの音 声入力の用途において、 3つのマイク 10、 11、 12を使用して、小さい実装面積で、 パソコン正面力もの音声を、指向性を持たせて取得する例を示す。
[第 8実施形態]
次に、第 8実施形態について説明する。上述した実施形態においては、 (1) 2つのマイクを使用してマイク間を結ぶ直線を中心として、左右からの音を分離す る実施形態(2) 3つのマイクを使用して正面力 の音とその左右力 の音を分離する 実施形態 について説明した力 図 34に示すように、 2つのマイク 10、 11を使用して 2つのマイク 10、 11を結ぶ直線の正面方向からの音を分離抽出したい場合がある。
[0072] この場合、指向性制御手段により 2つのマイク 10、 11のうち片方マイクのからの出 力信号に図 35 (b)に示すように遅延を与え、仮想的に 3チャンネル目のマイク位置を 作成することで、仮想的に図 35 (a)に示す 3マイク入力を実現することが可能である。 図 36には、図 35で示した遅延操作を行う指向性制御手段の構成例を示す。図中に おいて Di(i= l、 2、 3、 4)は遅延素子を表すが、実際の遅延操作は時間領域で遅 延操作を行っても良いし、スペクトル分析後に周波数領域で遅延操作を行っても良 い。
[0073] 図 37には、本実施形態に係る音源分離装置システムの構成例を示す。指向性制 御手段 141、 142は、スペクトル分析部 20、 21と、遅延処理を行う遅延素子とで構成 されている。処理順としては、スペクトル分析処理を行ってから遅延処理を行ってもよ V、し(図中の Typel)、遅延処理を行ってからスペクトル分析処理を行ってもよ!ヽ(図 中の Type2)。指向性制御手段 141、 142の出力信号は、本手法 NBF以降のブロッ クにおいてビームフォーマ 30、 31、パワー計算部 40、 41等での処理が行われ、処 理後の信号が目的音抽出部 52に入力される。
[0074] 図 38及び図 39には、目的音抽出部 52における処理方式の一例を示す。図 38は 、 0 と 0 とがマイク 11、 12を結ぶ直線の垂線に対して対称な角度である場合の処
1 2
理方式の一例を示し、図 39は、 Θ と 0 とが前記垂線に対して対象な角度でない場
1 2
合の処理方式の一例を示す。
[第 9実施形態]
次に、第 9実施形態について説明する。図 40は、第 9実施形態に係る車載機器制 御用音声認識システムの構成を示す図である。本実施形態においては、自動車等の 車両に設けられた車載機器制御用音声認識システムに本発明に係る音源分離装置 1を応用した例を示している。本応用例では、運転席と助手席の音声を 2つのマイク 1 0、 11で取得し、音源分離装置 1で運転席と助手席の音声を分離し、分離した運転 席と助手席の音声をそれぞれ発話区間検出、音声認識処理、音声認識結果と自動 車走行状態やその他運転状態によって有効な認識結果のみを使用して、機器の制 御、システムの応答などを行うことで、車載機器制御用音声認識システムの信頼性の 向上と車載機器制御用音声認識システムの応答の自由性の拡張などを提供するも のである。
[0075] 車載機器制御用音声認識システムは、本システムに特徴的なデータとして、記憶装 置に助手席側認識語彙リスト 190、運転席側認識語彙リスト 191、助手席側有効語 彙リスト 210、及び、運転席側有効語彙リスト 211を記憶している。運転席側認識語 彙リスト 191は運転席側カゝら発せられる語彙の候補の一覧であり、助手席側認識語 彙リスト 190は助手席側力も発せられる語彙の候補の一覧である。運転席側有効語 彙リスト 211は、車両の状態(自動車走行状態やその他運転状態)に応じた運転席 側における有効な語彙リストである。助手席側有効語彙リスト 210は、車両の状態に 応じた助手席側における有効な語彙リストである。ここで、「有効」とは、語彙 (音声コ マンド)に応じた制御命令を出力することが許されて 、る状態を!、う。
[0076] 本システムの動作を図 40を用いて説明すると、運転者および助手席の同乗者が発 話した音声は 2つのマイク 10、 11で収音され、音源分離装置 1で運転席と助手席と の音声に分離されたのち、それぞれ運転者用、助手席の同乗者用に用意された発 話区間検出部 170、 171、音声認識部 180、 181に入力される。このとき、本発明に 係る音源分離装置 1の出力にお 、て 2人の音声は精度よく分離されて 、るために、 助手席側発話区間検出部 170、運転席側発話区間検出部 171で両者の発話区間 を精度よく分離出来ると同時に、助手席側音声認識部 180、運転席側音声認識部 1 81に相手の音声を抑圧した情報を与えることが可能で、相手の発話に影響を受けな い音声認識処理を精度良く行うことが出来る。
[0077] 本応用例では、各音声認識部 180、 181にそれぞれ専用にシステムの状態に関係 なくどのような語彙を認識すべきカゝを指示するための助手席側認識語彙リスト 190、 運転席側認識語彙リスト 191が提供されており、各音声認識部 180、 181はこの語彙 リストに従って音声認識処理を行い、音声認識結果を制御部 ·状態遷移部 200に出 力する。
制御部 ·状態遷移部 200が備える状態遷移部 201は、音声認識結果及び現在の 状態に基づ 、て次の状態に遷移できるようになって 、る。制御部 ·状態遷移部 200が 備える制御部 202では、状態遷移部 201から得られる現在の状態と、音声認識部 18 0、 181からの音声認識結果とに基づいて、助手席側、運転席側それぞれに用意さ れた助手席側有効語彙リスト 210、運転席側有効語彙リスト 211に基づいて、どの音 声コマンドに応答 (制御命令を出力)して良いかを調べる。同図に示す有効語彙リスト 210、 211においては、状態と音声コマンドの組合せに対して "〇"が対応付けられて いる場合に、音声コマンドに応答可能なことを示している。例えば、運転席側におい ては、状態が"運転中"の場合に応答が許されている音声コマンドは"もっと"、 "ライト つけて"、 "すずしぐ,であり、また、 "エアコン操作"、 "CD"、 "MD"は禁止されている
[0078] そして、許されて!/、る音声コマンドのみに応答し、エアコンを操作したりライトをつけ たりする制御を行うことで、車両の搭乗者は車内において快適に過ごすことができる 。また、車載機器制御用音声認識システムの信頼性を上げることができると同時に、 音声認識を使用したアプリケーション作成に仕様設計の自由度をより多く提供するこ とが可能となる。
以上の使用例によれば、運転席と助手席の同乗者とから同時に発話された音声を 同時に認識することが可能になったり、どちらか 1人が発話した場合でもそれが運転 席側からの発話なの力助手席側からの発話なのかを確実に検出して認識することが 可能となるため、同乗者の行動を制限せず、発話者とその発話者の音声コマンドに 対する応答を個別に設計することが出来るようになる。
[第 10実施形態]
次に、第 10実施形態について説明する。図 41には、本実施形態に係る携帯電話 機 300を示している。携帯電話機 300には、マイク 10、 11及び図示せぬ音源分離装 置が搭載されている。この携帯電話機 300は、通常はテレビ電話用であるが、モード を切り替えて集音マイクとしても使用可能である。図 41 (a)はマイク 10、 11がテレビ 電話用マイクとして動作している時の様子を示す図であり、図 41 (b)はマイク 10、 11 が集音マイクとして動作している時の様子を示す図である。中規模の会議室などで、 発表者がマイクを使うほど大規模な会議室でもなぐしかし、部屋が広く小さな声だと 発表者の声が聞き取り難い場面で使用することができる。
以上説明したように、最小 2本のマイクを互いに離して設置し、 2本のマイクを結ぶ 直線の垂線を中心として左右対称な角度に時間領域あるいは周波数領域にてビー ムフォーマにより死角を形成し、時間領域で死角を作成した場合には周波数領域に 変換し、双方のビームフォーマのパワースペクトルの差分を計算し、得られた結果の 係数変換を行うことで、左右の死角を中心として幅を持たせた指向特性を形成し、音 源分離を行うことが可能となる。このように、マイクの素子感度に指向特性が影響を受 けないという性質を実現することができ、マイクの素子感度のバラつきに影響を受け ず、音源到来方向の想定方向とのずれや大きな初期反射に関しても適度に広い指 向特性によりカバーし、安定した 2つの音源の分離特性を実現することが可能となる
[第 11実施形態] 次に、第 11実施形態について説明する。図 42には抽出したい目 的音がゾーン A (例えば運転席のゾーン)に存在し、それ以外の場所 (ゾーン B,ゾー ン C,ゾーン D)に妨害音が存在する状況下において、ゾーン Aの目的音を抽出する 例が示してある。本手法を使用したアレイマイク 2001 (例えば車室内で前方に配置( 例えばルームミラーに設定))を使用した場合、ゾーン AZC (例えば運転席及びその 後部座席のゾーン)とゾーン BZD (例えば助手席及びその後部座席のゾーン)に存 在する音を分離することは可能であるがゾーン A (例えば運転席のゾーン)とゾーン C (例えばその後部座席のゾーン)とに存在する音を分離することは出来ない。しかし、 本手法を使用したアレイマイク 2002を同図に記載されるようにゾーン AZBとゾーン CZDの境界の位置に配置することでゾーン AZBとゾーン C/Dに存在する音を分離 することが可能となるためゾーン Aの音のみを抽出することが可能となる。
[0080] 具体的には、ゾーン A, B, C, Dに居る発話者 A, B, C, Dが同時に発話した場合 、まずゾーン AZBとゾーン CZDの境界に配置したアレイマイク 2002を使用すること でゾーン AZBからの音とゾーン CZDからの音を分離することが可能となる。次にァ レイマイク 2001によりゾーン AZCからの音とゾーン BZDからの音を分離することが 出来る。最後にアレイマイク 2001を使用して求めたゾーン AZC力もの音とアレイマ イク 2002を使用して求めたゾーン AZBからの音を各周波数領域で比較し双方に共 通にある周波数成分をゾーン A力もの音として分離することが可能となる。同様な処 理により、各ゾーン B, C, Dからの音も個別に求めることが可能である。
[第 12実施形態] 次に、第 12実施形態について説明する。図 43は、自動車などの 環境下において音声認識により機器操作を行う状況を想定している。図 44は、その ときの機器操作のガイダンス音声と発話者の音声との関係を示す。
[0081] この様な場合、スピーカ 15から発話者 Aの発話のタイミングを促す目的で"目的地 をどうぞ"などのガイダンス音が流れた後、機械音たとえば"ピッ"などの様な音が流れ 、その後に発話者 Aは音声コマンドを発声する。しかし、ユーザが音声コマンドによる 機器操作に慣れてくるにつれ、図 44に示すように、ガイダンス音声中に発話者 Aが 発話を始めてしまう状況が発生するようになり、これが音声認識性能を下げる要因に なっている。
この様な状況への対策として、一般的にはエコーキャンセラを使用しマイク 10から の収録音に混在するガイダンス音声を適応的に推定し取り除くことで対応している。 また別の対応策として、図 45〜図 48に示すように、周波数分析後のマイク 10への 1 入力信号に関して、スペクトルサブトラクシヨンを行ったり(図 45、図 46)、各周波数成 分毎にガイダンス音声、発話者 Aの音声のどちらが多く含まれるかを推定し発話者 A の音声のみが多く含まれる周波数成分のみを発話者 Aの音声として取り出すことが 行われている(図 47、図 48)。 [0082] ここで、図 45、図 47において、フイノレタ部 1001は、スピーカ 15からマイク 10までの 音響的な反射ノ スを模擬したフィルタであり、予め求めておいたスピーカ 15からマイ ク 10までのインノ ルス応答を使用しても良いし、適応フィルタ処理により動的に求め ておいても良い。
図 45における、ゲイン操作部 1002は、スペクトルサブトラクシヨンを行う際に使用す るオーバーサブトラクシヨンファクタを決定する部分であり、スピーカ 15の音量に応じ て 1〜10程度のゲインのな力から選択され使用する。
[0083] また、図 45〖こおける、目的音声抽出部 1003は、ゲイン操作部 1002及びスペクトル 分析部 21の出力に基づいて、図 46に示すような処理を行い、処理結果の信号を、 時間波形変換部 1004に出力する。
図 47における、閾値計算部 1011は、ガイダンス音声の平均エネルギーを元に閾 値 thを決定する。
また、図 47における、目的音声抽出部 1012は、閾値計算部 1011及びスペクトル 分析部 21の出力に基づいて、図 48に示すような処理を行い、処理結果の信号を、 時間波形変換部 1004に出力する。なお、図 48に示す th は、同図に示す X ( ω
mm l·aτ
)が有効な入力であると判断するための閾値となる。
[0084] また、時間波形変換部 1004は、第 1の実施形態における時間波形変換部 70、 71 と同様な処理を行う。
しかし、従来方においては図 43のように、発話者 Aのみが発話する状況において は上述のような構成により対応可能であるが、図 49に示すように発話者 A (例えば運 転席の乗員)のみならず発話者 B (例えば助手席の乗員)がいる場合に、図 50に示 すように、発話者 Aのみならず発話者 Bも何らかの発話をする場合が起こりえるが、こ の様な状況には対応することが出来な 、。
[0085] このような状況に対し、図 51に示すように本手法と図 45または図 47で示したガイダ ンス音声削除部 1021、 1022とを組み合わせることで対応が可能となる。
具体的には、図 51においてガイダンス音声は車内のスピーカ 15から再生され、同 時に発話者 A,発話者 Bとも発話している状況下において、マイク 10およびマイク 11 には、ガイダンス音声、発話者 Aの発話音声、発話者 Bの発話音声が重畳されて入 力されている。このとき、ガイダンス音声削除部 1021およびガイダンス音声削除部 1 022では図 45または図 47に示した方法により、ガイダンス音声を除去し、結果として 発話者 Aの音声と発話者 Bの音声の両者の音声が重畳された信号を結果として出力 する。また、ここでは後処理として使用する本手法への入力時の計算の無駄を省くた めに、時間波形には戻さず、周波数成分のまま本手法(図 1)へ入力する。後段の本 手法においても入力として周波数成分情報が入力されるためスペクトル分析部の処 理を省き、ビームフォーマ部へ直接入力を行い、本手法を適用し処理を行うことによ り出力結果として、発話者 Aの音声と発話者 Bの音声を個別に得ることが可能となり、 音声認識装置の信頼性、性能の向上とアプリケーションの自由度を大幅に拡大する ことが出来る。
[0086] また、上述した各種機能の組合せやマイクからの信号の遅延操作により、正面方向 に狭い指向特性を実現したり、特定方向力 の音源信号のみを検出することが可能 となる。
カロえて、マイク間隔を広げなくとも低域まで高い分離性能を確保できるため、実装ス ペースを削減することが可能であり、携帯機器などへの使用も可能となる。
なお、上述した実施形態においては、音源分離システムの各機能ブロックをプログ ラムで実現するとして説明したが、回路等を用いることによりハードウェアで実現する ことも可能である。
産業上の利用の可能性
[0087] 音声認識装置、カーナビゲーシヨン、集音装置、録音装置、音声コマンドによる機 器の制御等、音源を精度よく分離する必要のあるあらゆる産業に利用可能である。

Claims

請求の範囲
[1] 互いに離して配置された少なくとも 2つのマイクロホンに対して複数の音源力 発せ られた音源信号が混合された混合音を入力し、該混合音から目的音源からの音源信 号を分離する音源分離装置において、
前記マイクロホン力 の出力信号に対して第 1の係数を用いた演算を行うことにより 、所定の方向から到来する音源信号を減衰させるための第 1のビームフォーマ処理 を行い、
かつ、
前記マイクロホン力 の出力信号に対して、前記第 1の係数と周波数領域で複素共 役の関係にある第 2の係数を用いた演算を行うことにより、 2つのマイクロホンを結ぶ 直線の垂線に対して前記所定の方向と対称な方向から到来する音源信号を減衰さ せるための第 2のビームフォーマ処理を行うビームフォーマ手段と、
前記ビームフォーマ手段により得られた音源信号各々についてのパワースペクトル 情報を計算するパワー計算手段と、
前記パワー計算手段により計算されたパワースぺ外ル情報同士の差分に基づい て、目的音源のスペクトル情報を抽出する目的音スペクトル抽出手段と
を備えることを特徴とする音源分離装置。
[2] 前記ビームフォーマ手段は、
互いに離して配置された 3つのマイクロホンのうち、何れ力 2つのマイクロホンの組 合せ及び他の 2つのマイクロホンの組合せ各々について、前記第 1のビームフォーマ 処理及び前記第 2のビームフォーマ処理を行うことを特徴とする
請求項 1に記載の音源分離装置。
[3] マイクロホン力 の出力信号に対して遅延を与える指向性制御手段をさらに備える ことを特徴とする
請求項 1又は 2に記載の音源分離装置。
[4] 前記指向性制御手段は、
2つのマイクロホンのうち少なくとも一方のマイクロホンからの出力信号に対して遅延 を与えることにより、仮想的に 3つのマイクロホン力 の出力信号を生成することを特 徴とする
請求項 3に記載の音源分離装置。
[5] 前記音源信号が到来する方向を推定する到来方向推定手段をさらに備え、
前記指向性制御手段は、
前記到来方向推定手段により推定された到来方向に基づいて、 2つの音源の位置 が仮想的に 2つのマイクロホンを結ぶ直線の垂線に対して対称となるように、該マイク 口ホンからの出力信号に対して遅延を与えることを特徴とする
請求項 3又は 4に記載の音源分離装置。
[6] 前記目的音抽出手段により抽出されたパワースペクトル情報に対して、スペクトル サブトラクシヨン処理を行うスペクトルサブトラクシヨン手段をさらに備えたことを特徴と する
請求項 1から 5の何れか 1項に記載の音源分離装置。
[7] 前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う定常雑 音低減手段をさらに備えることを特徴とする
請求項 1から 6の何れか 1項に記載の音源分離装置。
[8] 請求項 1から 7の何れか 1項に記載の音源分離装置により分離された音源信号の 音声認識を行う音声認識手段を備えた音声認識装置。
[9] 車両の運転席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト 及び助手席側から発せられる語彙の候補の一覧である助手席側認識語彙リストを記 憶する認識語彙リスト記憶手段をさらに備え、
前記音声認識手段は、
前記認識語彙リスト記憶手段に記憶されている運転席側認識語彙リスト及び助手 席側認識語彙リストに基づ 、て、前記音源分離装置により分離された音源信号の音 声認識処理を行うことを特徴とする
請求項 8に記載の音声認識装置。
[10] 現在の車両の状態を管理する状態遷移手段と、
車両の状態に応じた助手席側及び運転席側における有効な語彙リストを記憶する 有効語彙リスト記憶手段と、 前記状態遷移手段で管理されて!、る現在の車両の状態と、前記有効語彙リスト記 憶手段に記憶されている語彙リストとに基づいて、前記音声認識手段により認識され た語彙が有効力否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに 備えることを特徴とする
請求項 8又は 9に記載の音声認識装置。
[11] 請求項 1から 7の何れか 1項に記載の音源分離装置を備えた携帯電話機。
[12] 互いに離して配置された少なくとも 2つのマイクロホンに対して、複数の音源から発 せられた音源信号を入力する音源信号受信ステップと、
前記マイクロホン力もの出力信号に対して、周波数領域で複素共役の関係にある 2 つの重み係数各々を用いて演算を行うことにより、 2つのマイクロホンを結ぶ直線の 垂線に対して対称な所定の方向から到来する音源信号を各々減衰させるための第 1 のビームフォーマ処理及び第 2のビームフォーマ処理を行うビームフォーマ処理ステ ップと、
前記ビームフォーマ処理ステップにお 、て得られた音源信号各々につ 、てパワー スペクトル情報を算出するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分に 基づいて、 目的音源のスペクトル情報を抽出する目的音スペクトル抽出ステップと を備えることを特徴とする音源分離方法。
[13] コンピュータに、
互いに離して配置された少なくとも 2つのマイクロホンから、複数の音源力 発せら れた音源信号が混合された出力信号を取得する出力信号取得ステップと、
前記出力信号取得ステップにおいて取得された出力信号に対して、周波数領域で 複素共役の関係にある 2つの重み係数各々を用いて演算を行うことにより、 2つのマ イク口ホンを結ぶ直線の垂線に対して対称な所定の方向から到来する音源信号を各 々減衰させるための第 1のビームフォーマ処理及び第 2のビームフォーマ処理を行う ビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにお 、て得られた音源信号各々につ 、てパワー スペクトル情報を算出するパワー計算ステップと、 前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分に 基づ!/、て、目的音源のスペクトル情報を抽出する目的音スペクトル抽出ステップと を実行させるためのプログラム。
PCT/JP2006/315953 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム WO2007018293A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06782692.5A EP1923866B1 (en) 2005-08-11 2006-08-11 Sound source separating device, speech recognizing device, portable telephone, sound source separating method, and program
CN2006800285029A CN101238511B (zh) 2005-08-11 2006-08-11 声源分离装置、音频识别装置、移动电话机、声源分离方法
JP2007529641A JP4225430B2 (ja) 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US11/990,200 US8112272B2 (en) 2005-08-11 2006-08-11 Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005233195 2005-08-11
JP2005-233195 2005-08-11

Publications (1)

Publication Number Publication Date
WO2007018293A1 true WO2007018293A1 (ja) 2007-02-15

Family

ID=37727469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/315953 WO2007018293A1 (ja) 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Country Status (6)

Country Link
US (1) US8112272B2 (ja)
EP (1) EP1923866B1 (ja)
JP (1) JP4225430B2 (ja)
KR (1) KR100959983B1 (ja)
CN (1) CN101238511B (ja)
WO (1) WO2007018293A1 (ja)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
WO2008142979A1 (ja) * 2007-05-16 2008-11-27 Yamaha Corporation テレビ会議装置
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009134102A (ja) * 2007-11-30 2009-06-18 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
WO2009077152A1 (en) * 2007-12-17 2009-06-25 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung_E.V. Signal pickup with a variable directivity characteristic
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2010056763A (ja) * 2008-08-27 2010-03-11 Murata Machinery Ltd 音声認識装置
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2010160245A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
JP2010193323A (ja) * 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム
JP2010221945A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム
JP2010245984A (ja) * 2009-04-09 2010-10-28 Yamaha Corp マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
JP2011124872A (ja) * 2009-12-11 2011-06-23 Oki Electric Industry Co Ltd 音源分離装置、方法及びプログラム
JP2011124873A (ja) * 2009-12-11 2011-06-23 Oki Electric Industry Co Ltd 音源分離装置、方法及びプログラム
EP2466581A2 (en) 2010-12-17 2012-06-20 Fujitsu Limited Sound processing apparatus and sound processing program
KR101253610B1 (ko) 2009-09-28 2013-04-11 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP2013520858A (ja) * 2010-02-23 2013-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音源位置決め
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
WO2016132409A1 (ja) * 2015-02-16 2016-08-25 パナソニックIpマネジメント株式会社 車載用音響処理装置
WO2019030898A1 (ja) * 2017-08-10 2019-02-14 三菱電機株式会社 雑音除去装置および雑音除去方法
RU2686589C2 (ru) * 2014-03-24 2019-04-29 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание смешанной речи
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium
CN111052766A (zh) * 2017-09-07 2020-04-21 三菱电机株式会社 噪音去除装置及噪音去除方法
JP2020134778A (ja) * 2019-02-21 2020-08-31 新日本無線株式会社 雑音除去装置、雑音除去方法およびプログラム
CN112449236A (zh) * 2019-08-28 2021-03-05 海信视像科技股份有限公司 一种音量调节的方法及显示装置
CN112634931A (zh) * 2020-12-22 2021-04-09 北京声智科技有限公司 语音增强方法及装置
EP3945519A1 (en) 2020-07-30 2022-02-02 Yamaha Corporation Filtering method, filtering device, and filtering program
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Families Citing this family (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2581982C (en) 2004-09-27 2013-06-18 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US8706482B2 (en) * 2006-05-11 2014-04-22 Nth Data Processing L.L.C. Voice coder with multiple-microphone system and strategic microphone placement to deter obstruction for a digital communication device
US9135797B2 (en) * 2006-12-28 2015-09-15 International Business Machines Corporation Audio detection using distributed mobile computing
JP5034595B2 (ja) * 2007-03-27 2012-09-26 ソニー株式会社 音響再生装置および音響再生方法
US20080267423A1 (en) * 2007-04-26 2008-10-30 Kabushiki Kaisha Kobe Seiko Sho Object sound extraction apparatus and object sound extraction method
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
KR101470528B1 (ko) * 2008-06-09 2014-12-15 삼성전자주식회사 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
US8073634B2 (en) * 2008-09-22 2011-12-06 University Of Ottawa Method to extract target signals of a known type from raw data containing an unknown number of target signals, interference, and noise
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
JP4816711B2 (ja) * 2008-11-04 2011-11-16 ソニー株式会社 通話音声処理装置および通話音声処理方法
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5272920B2 (ja) * 2009-06-23 2013-08-28 富士通株式会社 信号処理装置、信号処理方法、および信号処理プログラム
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
KR101612704B1 (ko) * 2009-10-30 2016-04-18 삼성전자 주식회사 다중음원 위치 추적장치 및 그 방법
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
EP2339574B1 (en) 2009-11-20 2013-03-13 Nxp B.V. Speech detector
JP5493850B2 (ja) * 2009-12-28 2014-05-14 富士通株式会社 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
KR101670313B1 (ko) 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US8712069B1 (en) * 2010-04-19 2014-04-29 Audience, Inc. Selection of system parameters based on non-acoustic sensor information
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9203489B2 (en) 2010-05-05 2015-12-01 Google Technology Holdings LLC Method and precoder information feedback in multi-antenna wireless communication systems
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US8433076B2 (en) * 2010-07-26 2013-04-30 Motorola Mobility Llc Electronic apparatus for generating beamformed audio signals with steerable nulls
US9772815B1 (en) 2013-11-14 2017-09-26 Knowles Electronics, Llc Personalized operation of a mobile device using acoustic and non-acoustic information
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
US20120066162A1 (en) * 2010-09-09 2012-03-15 Texas Instruments Incorporated System and Method for Training an Adaptive Filter in an Alternate Domain with Constraints
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
KR101103794B1 (ko) * 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
JP5486694B2 (ja) * 2010-12-21 2014-05-07 日本電信電話株式会社 音声強調方法、装置、プログラム、記録媒体
JP5939161B2 (ja) * 2011-01-13 2016-06-22 日本電気株式会社 音声処理装置及びその制御方法とその制御プログラム、情報処理システム
CN102595281B (zh) * 2011-01-14 2016-04-13 通用汽车环球科技运作有限责任公司 统一标准的麦克风预处理系统和方法
US9357307B2 (en) 2011-02-10 2016-05-31 Dolby Laboratories Licensing Corporation Multi-channel wind noise suppression system and method
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
WO2012145709A2 (en) * 2011-04-20 2012-10-26 Aurenta Inc. A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation
US9794678B2 (en) 2011-05-13 2017-10-17 Plantronics, Inc. Psycho-acoustic noise suppression
GB2491366A (en) * 2011-05-31 2012-12-05 Nokia Corp A configurable microphone or loudspeaker apparatus
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
US9459276B2 (en) 2012-01-06 2016-10-04 Sensor Platforms, Inc. System and method for device self-calibration
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US20130211828A1 (en) * 2012-02-13 2013-08-15 General Motors Llc Speech processing responsive to active noise control microphones
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same
JP6248930B2 (ja) * 2012-07-13 2017-12-20 ソニー株式会社 情報処理システムおよびプログラム
US9131295B2 (en) 2012-08-07 2015-09-08 Microsoft Technology Licensing, Llc Multi-microphone audio source separation based on combined statistical angle distributions
US9269146B2 (en) 2012-08-23 2016-02-23 Microsoft Technology Licensing, Llc Target object angle determination using multiple cameras
US9078057B2 (en) * 2012-11-01 2015-07-07 Csr Technology Inc. Adaptive microphone beamforming
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US9251804B2 (en) 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
WO2014081401A1 (en) * 2012-11-22 2014-05-30 Gedik, Osman Serdar A system for measuring and evaluating preterm feeding maturation based on sucking and swallowing patterns
US9726498B2 (en) 2012-11-29 2017-08-08 Sensor Platforms, Inc. Combining monitoring sensor measurements and system signals to determine device context
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
US9591508B2 (en) 2012-12-20 2017-03-07 Google Technology Holdings LLC Methods and apparatus for transmitting data between different peer-to-peer communication groups
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
WO2014137341A1 (en) * 2013-03-07 2014-09-12 Nuance Communications, Inc. Method for training an automatic speech recognition system
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9813808B1 (en) * 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
US9197930B2 (en) * 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
US20140270241A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc Method, apparatus, and manufacture for two-microphone array speech enhancement for an automotive environment
CN105230044A (zh) 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US9386542B2 (en) 2013-09-19 2016-07-05 Google Technology Holdings, LLC Method and apparatus for estimating transmit power of a wireless device
US9420368B2 (en) 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
WO2015048070A1 (en) * 2013-09-24 2015-04-02 Analog Devices, Inc. Time-frequency directional processing of audio signals
JP6197534B2 (ja) * 2013-09-26 2017-09-20 沖電気工業株式会社 音源分離装置、音源分離方法、及び音源分離プログラム
WO2015065362A1 (en) * 2013-10-30 2015-05-07 Nuance Communications, Inc Methods and apparatus for selective microphone signal combining
US9532138B1 (en) * 2013-11-05 2016-12-27 Cirrus Logic, Inc. Systems and methods for suppressing audio noise in a communication system
US9431013B2 (en) * 2013-11-07 2016-08-30 Continental Automotive Systems, Inc. Co-talker nulling for automatic speech recognition systems
US9497528B2 (en) 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
US9781106B1 (en) 2013-11-20 2017-10-03 Knowles Electronics, Llc Method for modeling user possession of mobile device for user authentication framework
KR101491354B1 (ko) 2013-11-25 2015-02-06 현대자동차주식회사 음성인식 장치 및 방법
US9549290B2 (en) 2013-12-19 2017-01-17 Google Technology Holdings LLC Method and apparatus for determining direction information for a wireless device
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US9491007B2 (en) 2014-04-28 2016-11-08 Google Technology Holdings LLC Apparatus and method for antenna matching
US9478847B2 (en) 2014-06-02 2016-10-25 Google Technology Holdings LLC Antenna system and method of assembly for a wearable electronic device
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
EP3230981B1 (en) * 2014-12-12 2020-05-06 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
US10991362B2 (en) * 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US10657958B2 (en) * 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US10186277B2 (en) 2015-03-19 2019-01-22 Intel Corporation Microphone array speech enhancement
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
JP6648377B2 (ja) * 2015-09-28 2020-02-14 本田技研工業株式会社 音声処理装置及び音声処理方法
CN105590633A (zh) * 2015-11-16 2016-05-18 福建省百利亨信息科技有限公司 一种用于歌曲评分的曲谱生成方法和设备
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US9747920B2 (en) * 2015-12-17 2017-08-29 Amazon Technologies, Inc. Adaptive beamforming to create reference channels
US9773495B2 (en) 2016-01-25 2017-09-26 Ford Global Technologies, Llc System and method for personalized sound isolation in vehicle audio zones
CN109417666B (zh) * 2016-07-21 2020-12-01 三菱电机株式会社 噪声去除装置、回声消除装置和异常音检测装置
RU2760097C2 (ru) * 2017-01-03 2021-11-22 Конинклейке Филипс Н.В. Способ и устройство для захвата аудиоинформации с использованием формирования диаграммы направленности
US10887691B2 (en) * 2017-01-03 2021-01-05 Koninklijke Philips N.V. Audio capture using beamforming
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
EP3574659A1 (en) 2017-01-27 2019-12-04 Shure Acquisition Holdings, Inc. Array microphone module and system
US10085087B2 (en) * 2017-02-17 2018-09-25 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method
WO2018164699A1 (en) * 2017-03-10 2018-09-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107248413A (zh) * 2017-03-19 2017-10-13 临境声学科技江苏有限公司 基于差分波束形成的隐声方法
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
CN107301869B (zh) * 2017-08-17 2021-01-29 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
EP3692704B1 (en) * 2017-10-03 2023-09-06 Bose Corporation Spatial double-talk detector
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
KR102469753B1 (ko) * 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN108711434A (zh) * 2018-04-04 2018-10-26 北京小米移动软件有限公司 车辆降噪方法及装置
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108932949A (zh) * 2018-09-05 2018-12-04 科大讯飞股份有限公司 一种参考信号获取方法及装置
JP2021536640A (ja) * 2018-09-18 2021-12-27 タクチュアル ラブズ シーオー. 生体認証周波数
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
US11109133B2 (en) 2018-09-21 2021-08-31 Shure Acquisition Holdings, Inc. Array microphone module and system
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
WO2020150598A1 (en) * 2019-01-18 2020-07-23 University Of Washington Systems, apparatuses. and methods for acoustic motion tracking
US11741529B2 (en) 2019-02-26 2023-08-29 Xenial, Inc. System for eatery ordering with mobile interface and point-of-sale terminal
US11049509B2 (en) 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
JP6822505B2 (ja) * 2019-03-20 2021-01-27 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
CN111755021B (zh) * 2019-04-01 2023-09-01 北京京东尚科信息技术有限公司 基于二元麦克风阵列的语音增强方法和装置
TWI715027B (zh) * 2019-05-07 2021-01-01 宏碁股份有限公司 揚聲器調整方法與使用此方法的電子裝置
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
WO2020237206A1 (en) 2019-05-23 2020-11-26 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
WO2020248235A1 (zh) * 2019-06-14 2020-12-17 深圳市汇顶科技股份有限公司 差分波束形成方法及模块、信号处理方法及装置、芯片
CN112216303A (zh) * 2019-07-11 2021-01-12 北京声智科技有限公司 一种语音处理方法、装置及电子设备
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
KR102305850B1 (ko) 2019-08-30 2021-09-28 엘지전자 주식회사 차량 내에서 인공 지능 기반의 음성 분리 방법 및 장치
CN110631691B (zh) * 2019-09-09 2021-06-11 国网湖南省电力有限公司 一种电力设备噪声分离效果验证方法、系统、分离设备及介质
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
EP3823315B1 (en) 2019-11-18 2024-01-10 Panasonic Intellectual Property Corporation of America Sound pickup device, sound pickup method, and sound pickup program
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11790900B2 (en) 2020-04-06 2023-10-17 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
US11438695B1 (en) * 2021-03-17 2022-09-06 GM Global Technology Operations LLC Beamforming techniques for acoustic interference cancellation
CN114724574A (zh) * 2022-02-21 2022-07-08 大连理工大学 一种期望声源方向可调的双麦克风降噪方法
US11804207B1 (en) 2022-04-28 2023-10-31 Ford Global Technologies, Llc Motor vehicle workspace with enhanced privacy

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05131866A (ja) 1991-11-13 1993-05-28 Omron Corp 車両用ヘツドアツプデイスプレイ
US6420975B1 (en) * 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
JP4163294B2 (ja) 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
JP2002099297A (ja) 2000-09-22 2002-04-05 Tokai Rika Co Ltd マイクロフォン装置
JP2003153372A (ja) 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
US7577262B2 (en) 2002-11-18 2009-08-18 Panasonic Corporation Microphone device and audio player
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
WO2005125273A1 (ja) * 2004-06-16 2005-12-29 Matsushita Electric Industrial Co., Ltd. ハウリング検出装置およびその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484112B2 (ja) * 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2004187283A (ja) * 2002-11-18 2004-07-02 Matsushita Electric Ind Co Ltd マイクロホン装置および再生装置
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1923866A4 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
WO2008142979A1 (ja) * 2007-05-16 2008-11-27 Yamaha Corporation テレビ会議装置
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009134102A (ja) * 2007-11-30 2009-06-18 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
WO2009077152A1 (en) * 2007-12-17 2009-06-25 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung_E.V. Signal pickup with a variable directivity characteristic
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2010056763A (ja) * 2008-08-27 2010-03-11 Murata Machinery Ltd 音声認識装置
WO2010079526A1 (ja) * 2009-01-06 2010-07-15 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP5377518B2 (ja) * 2009-01-06 2013-12-25 三菱電機株式会社 雑音除去装置及び雑音除去プログラム
JP2010160245A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
JP2010193323A (ja) * 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム
JP2010221945A (ja) * 2009-03-25 2010-10-07 Toshiba Corp 信号処理方法、装置及びプログラム
JP2010245984A (ja) * 2009-04-09 2010-10-28 Yamaha Corp マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
KR101253610B1 (ko) 2009-09-28 2013-04-11 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
JP2011124872A (ja) * 2009-12-11 2011-06-23 Oki Electric Industry Co Ltd 音源分離装置、方法及びプログラム
JP2011124873A (ja) * 2009-12-11 2011-06-23 Oki Electric Industry Co Ltd 音源分離装置、方法及びプログラム
JP2013520858A (ja) * 2010-02-23 2013-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音源位置決め
EP2466581A2 (en) 2010-12-17 2012-06-20 Fujitsu Limited Sound processing apparatus and sound processing program
US9747919B2 (en) 2010-12-17 2017-08-29 Fujitsu Limited Sound processing apparatus and recording medium storing a sound processing program
JP2013078118A (ja) * 2011-09-15 2013-04-25 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
RU2686589C2 (ru) * 2014-03-24 2019-04-29 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание смешанной речи
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
WO2016132409A1 (ja) * 2015-02-16 2016-08-25 パナソニックIpマネジメント株式会社 車載用音響処理装置
JPWO2016132409A1 (ja) * 2015-02-16 2017-08-10 パナソニックIpマネジメント株式会社 車載用音響処理装置
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium
JPWO2019030898A1 (ja) * 2017-08-10 2019-12-26 三菱電機株式会社 雑音除去装置および雑音除去方法
WO2019030898A1 (ja) * 2017-08-10 2019-02-14 三菱電機株式会社 雑音除去装置および雑音除去方法
CN111052766A (zh) * 2017-09-07 2020-04-21 三菱电机株式会社 噪音去除装置及噪音去除方法
CN111052766B (zh) * 2017-09-07 2021-07-27 三菱电机株式会社 噪音去除装置及噪音去除方法
JP2020134778A (ja) * 2019-02-21 2020-08-31 新日本無線株式会社 雑音除去装置、雑音除去方法およびプログラム
JP7252779B2 (ja) 2019-02-21 2023-04-05 日清紡マイクロデバイス株式会社 雑音除去装置、雑音除去方法およびプログラム
CN112449236A (zh) * 2019-08-28 2021-03-05 海信视像科技股份有限公司 一种音量调节的方法及显示装置
EP3945519A1 (en) 2020-07-30 2022-02-02 Yamaha Corporation Filtering method, filtering device, and filtering program
CN112634931A (zh) * 2020-12-22 2021-04-09 北京声智科技有限公司 语音增强方法及装置
CN112634931B (zh) * 2020-12-22 2024-05-14 北京声智科技有限公司 语音增强方法及装置

Also Published As

Publication number Publication date
KR100959983B1 (ko) 2010-05-27
US8112272B2 (en) 2012-02-07
KR20080009211A (ko) 2008-01-25
EP1923866B1 (en) 2014-01-01
CN101238511A (zh) 2008-08-06
US20090055170A1 (en) 2009-02-26
JP4225430B2 (ja) 2009-02-18
CN101238511B (zh) 2011-09-07
EP1923866A1 (en) 2008-05-21
EP1923866A4 (en) 2010-01-06
JPWO2007018293A1 (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US8724829B2 (en) Systems, methods, apparatus, and computer-readable media for coherence detection
US10269369B2 (en) System and method of noise reduction for a mobile device
EP3040984B1 (en) Sound zone arrangment with zonewise speech suppresion
EP1879180B1 (en) Reduction of background noise in hands-free systems
CA2560034C (en) System for selectively extracting components of an audio input signal
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8165310B2 (en) Dereverberation and feedback compensation system
EP1732352A1 (en) Detection and suppression of wind noise in microphone signals
Schmidt et al. Signal processing for in-car communication systems
US11089404B2 (en) Sound processing apparatus and sound processing method
US9544687B2 (en) Audio distortion compensation method and acoustic channel estimation method for use with same
US9532138B1 (en) Systems and methods for suppressing audio noise in a communication system
WO2015086895A1 (en) Spatial audio processing apparatus
Fukui et al. Sound source separation for plural passenger speech recognition in smart mobility system
GB2498009A (en) Synchronous noise removal for speech recognition systems
Zhang et al. CSA-BF: A constrained switched adaptive beamformer for speech enhancement and recognition in real car environments
Saremi Spatial audio signal processing for speech telecommunication inside vehicles
WO2020242758A1 (en) Multi-channel microphone signal gain equalization based on evaluation of cross talk components
Linhard et al. Passenger in-car communication enhancement
Every et al. An Acoustic Front-End to Speech Recognition in a Vehicle
Wang et al. Blind dereverberation based on CMN and spectral subtraction by multi-channel LMS algorithm.
Liria et al. Acoustic quality enhancement in mobile radio communications applications for public emergency services

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680028502.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020077026955

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2007529641

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11990200

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006782692

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE