WO2013054448A1 - 音処理装置、音処理方法及びプログラム - Google Patents

音処理装置、音処理方法及びプログラム Download PDF

Info

Publication number
WO2013054448A1
WO2013054448A1 PCT/JP2011/073726 JP2011073726W WO2013054448A1 WO 2013054448 A1 WO2013054448 A1 WO 2013054448A1 JP 2011073726 W JP2011073726 W JP 2011073726W WO 2013054448 A1 WO2013054448 A1 WO 2013054448A1
Authority
WO
WIPO (PCT)
Prior art keywords
gain
unit
suppression gain
input signal
acoustic echo
Prior art date
Application number
PCT/JP2011/073726
Other languages
English (en)
French (fr)
Inventor
遠藤 香緒里
土永 義照
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to CN201180073541.1A priority Critical patent/CN103814584B/zh
Priority to EP11873877.2A priority patent/EP2768242A4/en
Priority to PCT/JP2011/073726 priority patent/WO2013054448A1/ja
Priority to JP2013538414A priority patent/JP5733414B2/ja
Publication of WO2013054448A1 publication Critical patent/WO2013054448A1/ja
Priority to US14/199,084 priority patent/US9485572B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present invention relates to a sound processing device, a sound processing method, and a program for processing input signals from a plurality of microphones.
  • the disclosed technology has been made in view of the above problems, and an object thereof is to provide a sound processing device, a sound processing method, and a program that can provide a good sound while suppressing the amount of calculation. To do.
  • a sound processing apparatus uses a first calculation unit that calculates a noise suppression gain using input signals input from a plurality of microphones, an acoustic echo suppression gain, and the noise suppression gain.
  • An integration unit for obtaining an integration gain, an application unit for applying the integration gain to one input signal of a plurality of input signals, a signal to which the integration gain is applied, and an output to be output to the playback device
  • a second calculation unit that calculates a suppression gain of the acoustic echo using the signal and the one input signal.
  • FIG. 1 is a block diagram illustrating an example of a configuration of a sound processing device according to Embodiment 1.
  • FIG. 3 is a block diagram illustrating an example of a configuration of a noise suppression gain calculation unit in the first embodiment.
  • FIG. 3 is a block diagram illustrating an example of a configuration of an acoustic echo suppression gain calculation unit according to the first embodiment.
  • summary of a sound processor. 3 is a flowchart illustrating an example of sound processing in the first embodiment.
  • FIG. 6 is a block diagram illustrating an example of a configuration of a sound processing device according to a second embodiment.
  • FIG. 9 is a block diagram illustrating an example of a configuration of a noise suppression gain calculation unit according to the second embodiment.
  • FIG. 9 is a flowchart illustrating an example of sound processing in the second embodiment.
  • FIG. 9 is a block diagram illustrating an example of hardware of a mobile terminal device according to a third embodiment.
  • the perspective view of a portable terminal device (the 1).
  • the perspective view of a portable terminal device (the 2).
  • the perspective view (the 3) of a portable terminal device.
  • the perspective view of a portable terminal device (the 4).
  • FIG. 1 is a block diagram illustrating an example of the configuration of the sound processing device 1 according to the first embodiment.
  • the sound processing device 1 includes a noise suppression gain calculation unit 104, an acoustic echo suppression gain calculation unit 105, a gain integration unit 106, and a gain application unit 107.
  • the sound processing device 1 is connected to a playback device 101, a first microphone 102, and a second microphone 103.
  • the sound processing apparatus 1 may include the reproduction apparatus 101, the first microphone 102, and the second microphone 103. In the example shown in FIG. 1, there are two microphones, but there may be three or more microphones.
  • the playback device 101 is a speaker, a receiver, or the like, and plays back an output signal.
  • the sound reproduced by the reproduction apparatus 101 becomes an acoustic echo and is input to the first microphone 102 and the second microphone 103.
  • the reproduced sound is a voice or a musical sound.
  • the first microphone 102 and the second microphone 103 receive input signals and output the respective input signals to the noise suppression gain calculation unit 104.
  • the input signal may include an acoustic echo.
  • the input signal input to the first microphone 102 is referred to as a first input signal
  • the input signal input to the second microphone 103 is referred to as a second input signal.
  • the noise suppression gain calculation unit 104 acquires the first input signal from the first microphone 102 and acquires the second input signal from the second microphone 103.
  • the noise suppression gain calculation unit 104 performs time frequency conversion on the acquired first input signal and second input signal to estimate a noise component.
  • a technique for estimating the noise component a known technique may be used. Noise is also called noise or noise.
  • Non-Patent Document 1 describes using a filter connected to each of a plurality of macroholons to obtain a noise component by a conditional expression in which the output after passing through the filter is zero.
  • Another technique for estimating the noise component from the spectrum of the input signals of a plurality of microphones for example, a technique such as Japanese Patent Application Laid-Open No. 2011-139378 may be used.
  • the noise suppression gain calculation unit 104 calculates a noise suppression gain for each frequency based on the estimated spectrum of the noise component and the spectrum of the first input signal.
  • a noise suppression gain is calculated based on the first input signal.
  • the noise suppression gain is calculated by the difference between the spectrum of the first input signal and the spectrum of the estimated noise component.
  • the noise suppression gain may be calculated by multiplying this difference by a predetermined value.
  • the acoustic echo suppression gain calculation unit 105 acquires an output signal output to the playback device 101, a signal output from a gain application unit 107 described later, and a first input signal from the first microphone 102.
  • the acoustic echo suppression gain calculation unit 105 performs time-frequency conversion on the output signal and the first input signal, and estimates an acoustic echo using the signal output from the gain application unit 107.
  • a technique for estimating the acoustic echo a known technique may be used.
  • the acoustic echo suppression gain calculation unit 105 calculates a spectrum of an acoustic echo component using a known configuration including a general application filter and a subtractor, and calculates an acoustic echo suppression gain for each frequency.
  • the gain integration unit 106 acquires the noise suppression gain for each frequency from the noise suppression gain calculation unit 104 and the acoustic echo suppression gain for each frequency from the acoustic echo suppression gain calculation unit 105.
  • the gain integration unit 106 obtains one gain from two gains according to a predetermined method. Hereinafter, this one gain is referred to as an integrated gain.
  • the gain integrating unit 106 outputs the integrated gain to the gain applying unit 107. For example, the following four methods can be considered.
  • the gain integration unit 106 selects the smaller one of the noise suppression gain and the acoustic echo suppression gain for each frame and frequency using Equation (1).
  • the gain integrating unit 106 sets the selected gain as an integrated gain.
  • the gain integrating unit 106 selects the larger one of the noise suppression gain and the acoustic echo suppression gain for each frame and frequency using Expression (2).
  • the gain integrating unit 106 sets the selected gain as an integrated gain.
  • the suppression is reduced and the distortion of the voice is reduced.
  • the gain integration unit 106 calculates an average value by Equation (3) using the noise suppression gain and the acoustic echo suppression gain for each frame and frequency. The gain integrating unit 106 sets the calculated average value as an integrated gain.
  • the average value is used as the integrated gain, it is possible to balance the suppression effect between the acoustic echo and the noise and the distortion of the sound.
  • the gain integration unit 106 calculates a weighted average value by Equation (4) using the noise suppression gain and the acoustic echo suppression gain for each frame and frequency. The gain integrating unit 106 sets the calculated weighted average value as an integrated gain.
  • the weighted average value is used as the integrated gain, it is possible to balance the suppression effect between the acoustic echo and the noise and the distortion of the sound, and adjust the balance.
  • the gain integrating unit 106 obtains the integrated gain using any one of the methods 1 to 4 described above. Further, the gain integration unit 106 may select the methods 1 to 4 and obtain the integrated gain using the selected method.
  • the gain applying unit 107 applies the integrated gain acquired from the gain integrating unit 106 to the first input signal acquired from the first microphone 102.
  • the gain application unit 107 converts the first input signal into a frequency component, and multiplies the spectrum of the first input signal by a coefficient indicating the integrated gain.
  • the first input signal to which the integrated gain is applied becomes a signal in which the acoustic echo component and the noise component are suppressed.
  • This signal is output to the subsequent processing unit and the acoustic echo suppression gain calculation unit 105.
  • FIG. 2 is a block diagram illustrating an example of the configuration of the noise suppression gain calculation unit 104 according to the first embodiment.
  • the noise suppression gain calculation unit 104 illustrated in FIG. 2 includes a time-frequency conversion unit 201, a time-frequency conversion unit 202, a noise estimation unit 203, and a comparison unit 204.
  • the time frequency conversion unit 201 performs time frequency conversion on the first input signal to obtain a spectrum.
  • the time frequency conversion unit 202 performs time frequency conversion on the second input signal to obtain a spectrum.
  • the time frequency transform is, for example, a fast Fourier transform (FFT).
  • the time frequency conversion unit 201 outputs the obtained spectrum of the first input signal to the noise estimation unit 203 and the comparison unit 204.
  • the time frequency conversion unit 202 outputs the obtained spectrum of the second input signal to the noise estimation unit 203.
  • the noise estimation unit 203 acquires the spectrum of the first input signal and the spectrum of the second input signal, and performs noise estimation.
  • the noise estimation unit 203 estimates the spectrum of the noise component using a known technique.
  • the spectrum of the estimated noise component is output to the comparison unit 204.
  • the comparison unit 204 compares the spectrum of the first input signal with the spectrum of the noise component, and calculates a gain for suppressing noise for each frequency. Hereinafter, this gain is also referred to as noise suppression gain.
  • the comparison unit 204 sets the ratio of the noise component included in the first input signal as the noise suppression gain. Further, the noise suppression gain may be calculated by a relational expression determined in advance according to the ratio between the first input signal and the noise component.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the acoustic echo suppression gain calculation unit 105 according to the first embodiment.
  • the acoustic echo suppression gain calculation unit 105 illustrated in FIG. 3 includes a time frequency conversion unit 301, a time frequency conversion unit 302, an echo estimation unit 303, and a comparison unit 304.
  • the time frequency conversion unit 301 performs time frequency conversion on the output signal output to the playback device 101 to obtain a spectrum.
  • the time frequency conversion unit 302 performs time frequency conversion on the first input signal to obtain a spectrum.
  • the time frequency transform is, for example, a fast Fourier transform (FFT).
  • the time frequency conversion unit 301 outputs the obtained spectrum of the output signal to the echo estimation unit 303.
  • the time frequency conversion unit 302 outputs the obtained spectrum of the first input signal to the echo estimation unit 303 and the comparison unit 304.
  • the echo estimation unit 303 acquires the spectrum of the first input signal, the spectrum of the output signal, and the output signal from the gain application unit 107, and estimates acoustic echo.
  • the echo estimation unit 303 estimates the spectrum of the acoustic echo component using a known technique.
  • the estimated spectrum of the acoustic echo component is output to the comparison unit 304.
  • the comparison unit 304 compares the spectrum of the first input signal with the spectrum of the acoustic echo component, and calculates a gain for suppressing the acoustic echo for each frequency.
  • this gain is also referred to as acoustic echo suppression gain.
  • the comparison unit 204 sets the ratio of the acoustic echo component included in the first input signal as the acoustic echo suppression gain. Further, the acoustic echo suppression gain may be calculated by a relational expression determined in advance according to the ratio between the first input signal and the acoustic echo component.
  • FIG. 4 is a conceptual diagram for explaining an outline of processing of the sound processing apparatus 1.
  • a frequency characteristic 402 shown in FIG. 4 indicates the frequency characteristic of noise. This frequency characteristic 402 is estimated by the noise suppression gain calculation unit 104.
  • a frequency characteristic 403 illustrated in FIG. 4 indicates the frequency characteristic of an acoustic echo. This frequency characteristic 403 is estimated by the acoustic echo suppression gain calculation unit 105.
  • the noise suppression gain calculation unit 104 calculates a noise suppression gain.
  • the acoustic echo suppression gain calculation unit 105 calculates the acoustic echo suppression gain when the frequency characteristic 403 of the acoustic echo is estimated.
  • the gain integrating unit 106 determines one gain using a predetermined method. Any one of the four methods described above may be used as the predetermined method.
  • the gain applying unit 107 generates an output signal that is suppressed in consideration of acoustic echo and noise by applying the obtained applied gain to one reference input signal.
  • a frequency characteristic 404 illustrated in FIG. 4 indicates a frequency characteristic of an output signal output from the gain application unit 107.
  • FIG. 5 is a flowchart illustrating an example of sound processing according to the first embodiment.
  • the sound processing apparatus 1 acquires input signals from a plurality of microphones.
  • step S102 the noise suppression gain calculation unit 104 calculates a noise suppression gain using a plurality of input signals.
  • a known technique may be used to calculate the noise suppression gain.
  • step S103 the acoustic echo suppression gain calculation unit 105 calculates an acoustic echo suppression gain for one input signal of the plurality of input signals.
  • a known technique may be used for calculating the acoustic echo suppression gain.
  • step S104 the gain integration unit 106 obtains one gain from the noise suppression gain and the acoustic echo suppression gain. Any one of the methods 1 to 4 described above may be used for this determination.
  • step S105 the gain applying unit 107 applies the integrated gain to one input signal among the plurality of input signals.
  • the output signal to which the integrated gain is applied is suppressed in consideration of noise and acoustic echo, so that a good sound can be provided. Further, since the echo canceller is processed once and there are not many conditional expressions as in the prior art, the amount of calculation can be reduced.
  • a reference input signal is selected from a plurality of input signals.
  • the processing of the embodiment can be performed on the basis of an input signal containing a lot of user's voice and the like.
  • FIG. 6 is a block diagram illustrating an example of the configuration of the sound processing device 2 according to the second embodiment. Note that the playback apparatus 101, the first microphone 102, and the second microphone 103 are the same as those in the first embodiment, and thus are denoted by the same reference numerals.
  • the sound processing device 2 shown in FIG. 6 includes a selection unit 501, a noise suppression gain calculation unit 502, an acoustic echo suppression gain calculation unit 503, a gain integration unit 504, and a gain application unit 505.
  • the sound processing device 2 may include the reproduction device 101, the first microphone 102, and the second microphone 103. In the example shown in FIG. 6, there are two microphones, but there may be three or more.
  • the selection unit 501 selects one input signal serving as a reference from input signals input from a plurality of microphones. For example, the selection unit 501 may select an input signal having the highest volume among a plurality of input signals.
  • the selection unit 501 may select one input signal depending on the output value of the illuminance sensor. For example, when the illuminance sensor is provided on the same surface as the first microphone 102 and the second microphone 103 is provided on the surface opposite to the illuminance sensor, the selection unit 501 determines that the output value of the illuminance sensor is greater than or equal to the threshold value. The input signal of one microphone 102 is selected.
  • the housing including the sound processing device 2 when used in a desk or the like, when the output value of the illuminance sensor is larger than the threshold value, it can be determined that the surface on the first microphone 102 side is not in contact with the desk. Therefore, it can be determined that the user is inputting voice to the first microphone 102.
  • the selection unit 501 selects the input signal of the second microphone 103 if the output value of the illuminance sensor is less than the threshold value.
  • the output value of the illuminance sensor is smaller than the threshold value, it can be determined that the surface on the first microphone 102 side is in contact with the desk. Therefore, it can be determined that the user is inputting voice to the second microphone 103.
  • the selection unit 501 outputs the selected input signal to the acoustic echo suppression gain calculation unit 503 and the gain application unit 505.
  • the selection unit 501 also outputs information indicating the selected input signal to the noise suppression gain calculation unit 502.
  • the basic processing of the noise suppression gain calculation unit 502 is the same as that of the first embodiment. The difference is that a reference input signal is selected based on information acquired from the selection unit 501.
  • the noise suppression gain calculation unit 502 calculates a noise suppression gain based on the selected input signal.
  • the acoustic echo suppression gain calculation unit 503 calculates an acoustic echo suppression gain for the input signal acquired from the selection unit 501.
  • the processing for calculating the acoustic echo suppression gain is the same as in the first embodiment.
  • the gain integration unit 504 performs the same processing as the gain application unit 106 of the first embodiment. That is, the gain integration unit 504 obtains one gain from the noise suppression gain and the acoustic echo suppression gain, and outputs this gain to the gain application unit 505.
  • the gain application unit 505 applies the integrated gain to the input signal acquired from the selection unit 501.
  • the gain application unit 505 converts the input signal acquired from the selection unit 501 into a frequency component, and multiplies the spectrum by the integrated gain.
  • the processing described in the embodiment can be performed with reference to an input signal that is estimated to contain a lot of speech.
  • FIG. 7 is a block diagram illustrating an example of the configuration of the noise suppression gain calculation unit 502 according to the second embodiment.
  • the noise suppression gain calculation unit 502 illustrated in FIG. 7 includes a time-frequency conversion unit 201, a time-frequency conversion unit 202, a noise estimation unit 203, a frequency selection unit 601, and a comparison unit 602.
  • the frequency selection unit 601 acquires the spectrum of the first input signal from the time frequency conversion unit 201. Also, the frequency selection unit 601 acquires the spectrum of the second input signal from the time frequency conversion unit 202.
  • the frequency selection unit 601 acquires information indicating the selected input signal from the selection unit 501, and selects the spectrum of the input signal indicated by this information. The frequency selection unit 601 outputs the selected spectrum to the comparison unit 602.
  • the comparison unit 602 compares the spectrum acquired from the frequency selection unit 601 with the spectrum of the noise component, and calculates a noise suppression gain for each frequency.
  • the comparison unit 602 outputs the calculated noise suppression gain to the gain integration unit 504.
  • the noise suppression gain can be calculated for the input signal selected by the selection unit 501.
  • the configuration of the acoustic echo suppression gain calculation unit 503 in the second embodiment is the same as that in the first embodiment, the description thereof is omitted.
  • FIG. 8 is a flowchart illustrating an example of sound processing according to the second embodiment.
  • the sound processing apparatus 2 acquires input signals from a plurality of microphones.
  • step S202 the selection unit 501 selects one input signal from a plurality of input signals based on the output value of the illuminance sensor or the volume of each input signal. Subsequent processing is performed based on the selected input signal.
  • steps S203 to S206 Since the processing of steps S203 to S206 is the same as the processing of steps S102 to S105 shown in FIG.
  • the second embodiment it is possible to select, for example, an input signal containing the most sound from a plurality of input signals and use the selected input signal as a reference. Therefore, it is possible to provide better sound while reducing the amount of calculation.
  • FIG. 9 is a block diagram illustrating an example of hardware of the mobile terminal device 3 according to the third embodiment.
  • the mobile terminal device 3 includes an antenna 701, a wireless unit 702, a baseband processing unit 703, a control unit 704, a terminal interface unit 705, a main storage unit 706, an auxiliary storage unit 707, a first microphone 708, a second microphone 709, and a speaker 710. And a receiver 711.
  • the antenna 701 transmits a radio signal amplified by a transmission amplifier and receives a radio signal from a base station.
  • Radio section 702 D / A converts the transmission signal spread by baseband processing section 703, converts it to a high frequency signal by orthogonal modulation, and amplifies the signal by a power amplifier.
  • Radio section 702 amplifies the received radio signal, A / D converts the signal, and transmits the signal to baseband processing section 703.
  • the baseband unit 703 performs baseband processing such as addition of transmission data error correction code, data modulation, spread modulation, reception signal despreading, reception environment determination, channel signal threshold determination, error correction decoding, and the like. .
  • the control unit 704 performs wireless control such as transmission and reception of control signals.
  • the control unit 704 executes a sound processing program stored in the auxiliary storage unit 707 and performs the sound processing described in each embodiment.
  • the terminal interface unit 705 performs data adapter processing, interface processing with a handset, and an external data terminal.
  • the main storage unit 706 is a ROM (Read Only Memory), a RAM (Random Access Memory), or the like, and stores or temporarily stores programs and data such as OS (Operating System) and application software which are basic software executed by the control unit 704. It is a storage device to save.
  • OS Operating System
  • application software which are basic software executed by the control unit 704. It is a storage device to save.
  • the auxiliary storage unit 707 is an HDD (Hard Disk Drive) or the like, and is a storage device that stores data related to application software and the like.
  • the auxiliary storage unit 707 stores the above-described sound processing program.
  • the first microphone 708 and the second microphone 709 correspond to the first microphone 102 and the second microphone 103, respectively.
  • a speaker 710 and a receiver 711 correspond to the playback device 101.
  • each unit of the sound processing devices 1 and 2 can be realized by, for example, the control unit 704 and the main storage unit 706 as a work memory.
  • FIG. 10A is a perspective view (part 1) of the mobile terminal device 3.
  • FIG. 10A the front surface of the mobile terminal device 3 is viewed from the left direction, and the first microphone 708 represents a front microphone.
  • FIG. 10B is a perspective view (part 2) of the mobile terminal device 3.
  • the front surface of the mobile terminal device 3 is viewed from the right direction, and represents the distance between the first microphone 708 and the receiver 711.
  • FIG. 10C is a perspective view (part 3) of the mobile terminal device 3.
  • the rear surface of the mobile terminal device 3 is viewed from the right direction, and the second microphone 709 represents a rear microphone.
  • FIG. 10D is a perspective view (part 4) of the mobile terminal device 3.
  • the rear surface of the mobile terminal device 3 is viewed from the left direction, and represents the distance between the second microphone 709 and the speaker 710.
  • the selection unit 501 of the second embodiment is effectively used to determine which microphone the user is talking to. .
  • FIGS. 10A to 10D are merely examples, and the positional relationship between the plurality of microphones and the playback device is not limited thereto.
  • the mobile terminal device 3 can provide a good sound while suppressing the calculation amount.
  • the disclosed technology is not limited to the mobile terminal device 3 and can be implemented in other devices.
  • the above-described sound processing apparatuses 1 and 2 can be applied to a videophone conference apparatus, an information processing apparatus having a telephone function, a fixed telephone, a VoIP (Voice over Internet Protocol) system, and the like.
  • the sound processing in each of the embodiments can be performed by a computer.
  • the recording medium is a recording medium that records information optically, electrically, or magnetically, such as a CD-ROM, flexible disk, magneto-optical disk, etc., and information is electrically recorded, such as a ROM, flash memory, etc.
  • Various types of recording media such as a semiconductor memory can be used.
  • the recording medium does not include a carrier wave.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

 音処理装置は、複数のマイクロホンから入力される各入力信号を用いてノイズの抑圧ゲインを算出する第1算出部と、音響エコーの抑圧ゲインとノイズの抑圧ゲインとを用いて統合ゲインを求める統合部と、複数の入力信号のうちの一の入力信号に対し、統合ゲインを適用する適用部と、統合ゲインが適用された信号と、再生装置に出力される出力信号と、一の入力信号とを用いて、音響エコーの抑圧ゲインを算出する第2算出部と、を備える。

Description

音処理装置、音処理方法及びプログラム
 本発明は、複数のマイクロホンからの入力信号を処理する音処理装置、音処理方法及びプログラムに関する。
 従来、複数のマイクロホンの入力信号を用いて騒音抑圧を行う技術と、音響エコー抑圧とを行う技術がある。例えば、適応型マイクロホンアレーとエコーキャンセラを単純に接続した場合、マイクロホンアレーによるエコー経路変動に対し、エコーキャンセラの学習が間に合わず、一時的にエコー消去性能が低下する。
 そこで、マイクロホンアレーの学習と、エコーキャンセラの学習を一つの計算式で行うエコーキャンセラ一体型マイクロホンアレーが提案されている。
小林 和則他,「エコーキャンセラ一体型マイクロホンアレー」,電子情報通信学会論文誌,A Vol.J87-A,No.2,pp.143-152,2004年2月
 しかしながら、従来技術では、音声成分、エコー成分、雑音成分の共分散を求めたり、フィルタ係数を計算する際の条件が増えたりして計算量が増加し、処理量が多くなってしまうという問題点があった。また、エコーキャンセラを行って、騒音を抑圧する場合でも、マイクの数だけエコーキャンセラを行わなければならないため、計算量が多い。
 そこで、開示の技術は、上記問題点に鑑みてなされたものであり、計算量を抑えつつ、良好な音を提供することができる音処理装置、音処理方法及びプログラムを提供することを目的とする。
 開示の一態様の音処理装置は、複数のマイクロホンから入力される各入力信号を用いてノイズの抑圧ゲインを算出する第1算出部と、音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとを用いて統合ゲインを求める統合部と、複数の入力信号のうちの一の入力信号に対し、前記統合ゲインを適用する適用部と、前記統合ゲインが適用された信号と、再生装置に出力される出力信号と、前記一の入力信号とを用いて、前記音響エコーの抑圧ゲインを算出する第2算出部と、を備える。
 開示の技術によれば、計算量を抑えつつ、良好な音を提供することができる。
実施例1における音処理装置の構成の一例を示すブロック図。 実施例1におけるノイズ抑圧ゲイン算出部の構成の一例を示すブロック図。 実施例1における音響エコー抑圧ゲイン算出部の構成の一例を示すブロック図。 音処理装置の処理概要を説明するための概念図。 実施例1における音処理の一例を示すフローチャート。 実施例2における音処理装置の構成の一例を示すブロック図。 実施例2におけるノイズ抑圧ゲイン算出部の構成の一例を示すブロック図。 実施例2における音処理の一例を示すフローチャート。 実施例3における携帯端末装置のハードウェアの一例を示すブロック図。 携帯端末装置の斜視図(その1)。 携帯端末装置の斜視図(その2)。 携帯端末装置の斜視図(その3)。 携帯端末装置の斜視図(その4)。
 1、2 音処理装置
 101 再生装置
 102 第1マイクロホン
 103 第2マイクロホン
 104、502 ノイズ抑圧ゲイン算出部
 105、503 音響エコー抑圧ゲイン算出部
 106、504 ゲイン統合部
 107、505 ゲイン適用部
 201、202、301、302 時間周波数変換部
 203 ノイズ推定部
 204 比較部
 303 エコー推定部
 304 比較部
 501 選択部
 704 制御部
 706 主記憶部
 707 補助記憶部
 以下、図面に基づいて各実施例を説明する。
 [実施例1]
 <構成>
 まず、実施例1における音処理装置1の構成について説明する。図1は、実施例1における音処理装置1の構成の一例を示すブロック図である。図1に示すように、音処理装置1は、ノイズ抑圧ゲイン算出部104、音響エコー抑圧ゲイン算出部105、ゲイン統合部106、ゲイン適用部107を有する。音処理装置1は、再生装置101、第1マイクロホン102、第2マイクロホン103に接続される。
 なお、音処理装置1は、再生装置101、第1マイクロホン102、第2マイクロホン103を含めて構成してもよい。また、図1に示す例では、マイクロホンは2つあるが、3つ以上あってもよい。
 再生装置101は、スピーカやレシーバなどであり、出力信号を再生する。再生装置101により再生された音は、音響エコーとなって、第1マイクロホン102及び第2マイクロホン103に入力されてしまう。再生される音は、音声や楽音などである。
 第1マイクロホン102及び第2マイクロホン103は、入力信号を入力し、それぞれの入力信号をノイズ抑圧ゲイン算出部104に出力する。入力信号には、音響エコーが含まれる場合がある。ここで、第1マイクロホン102に入力される入力信号を第1入力信号と呼び、第2マイクロホン103に入力される入力信号を第2入力信号と呼ぶ。
 ノイズ抑圧ゲイン算出部104は、第1マイクロホン102から第1入力信号を取得し、第2マイクロホン103から第2入力信号を取得する。ノイズ抑圧ゲイン算出部104は、取得した第1入力信号及び第2入力信号に対して時間周波数変換を行い、ノイズ成分を推定する。ノイズ成分を推定する技術は、公知の技術を用いればよい。ノイズは、騒音や雑音とも呼ばれる。
 例えば、非特許文献1には、複数のマクロホロンにそれぞれ接続されたフィルタを用いて、フィルタ通過後の出力が0となる条件式により、雑音成分を求めることが記載されている。また、複数のマイクロホンの入力信号のスペクトルから騒音成分を推定する他の技術、例えば特開2011-139378号公報などの技術を用いてもよい。
 ノイズ抑圧ゲイン算出部104は、推定したノイズ成分のスペクトルと、第1入力信号のスペクトルとに基づき、周波数毎のノイズの抑圧ゲインを算出する。ここで、実施例1では、例えば、第1入力信号を基準にして、ノイズの抑圧ゲインなどを算出する。例えば、ノイズの抑圧ゲインは、第1入力信号のスペクトルと、推定したノイズ成分のスペクトルとの差分で算出される。ノイズの抑圧ゲインは、この差分に所定値を乗算して算出されてもよい。
 音響エコー抑圧ゲイン算出部105は、再生装置101に出力される出力信号と、後述するゲイン適用部107から出力された信号と、第1マイクロホン102からの第1入力信号とを取得する。
 音響エコー抑圧ゲイン算出部105は、出力信号と第1入力信号とに時間周波数変換を行い、ゲイン適用部107から出力された信号を用いて音響エコーを推定する。音響エコーを推定する技術は、公知の技術を用いればよい。
 例えば、音響エコー抑圧ゲイン算出部105は、一般的な適用フィルタと減算器とを含む公知の構成を用いて、音響エコー成分のスペクトルを算出し、周波数毎の音響エコーの抑圧ゲインを算出する。
 ゲイン統合部106は、ノイズ抑圧ゲイン算出部104から周波数毎のノイズの抑圧ゲインと、音響エコー抑圧ゲイン算出部105から周波数毎の音響エコーの抑圧ゲインを取得する。
 ゲイン統合部106は、予め決められた方法にしたがって、2つのゲインから1つのゲインを求める。以下、この1つのゲインを統合ゲインと呼ぶ。ゲイン統合部106は、統合ゲインをゲイン適用部107に出力する。予め定められた方法は、例えば以下の4つが考えられる。
 (方法1)
 ゲイン統合部106は、各フレーム、周波数毎に、ノイズの抑圧ゲインと、音響エコーの抑圧ゲインとのうち、式(1)を用いて小さい方を選択する。ゲイン統合部106は、選択したゲインを統合ゲインとする。
Figure JPOXMLDOC01-appb-M000001
 方法1によれば、振幅スペクトルに乗算する1以下の係数を示すゲインが小さい方を選択するので、抑圧が大きくなり、音響エコーとノイズの抑圧効果が高い。
 (方法2)
 ゲイン統合部106は、各フレーム、周波数毎に、ノイズの抑圧ゲインと、音響エコーの抑圧ゲインとのうち、式(2)を用いて大きい方を選択する。ゲイン統合部106は、選択したゲインを統合ゲインとする。
Figure JPOXMLDOC01-appb-M000002
 方法2によれば、振幅スペクトルに乗算する1以下の係数を示すゲインが大きい方を選択するので、抑圧が小さくなり、音声の歪が小さい。
 (方法3)
 ゲイン統合部106は、各フレーム、周波数毎に、ノイズの抑圧ゲインと、音響エコーの抑圧ゲインとを用いて、式(3)により平均値を算出する。ゲイン統合部106は、算出した平均値を統合ゲインとする。
Figure JPOXMLDOC01-appb-M000003
 方法3によれば、平均値を統合ゲインとするので、音響エコーとノイズとの抑圧効果と、音声の歪のバランスをとることができる。
 (方法4)
 ゲイン統合部106は、各フレーム、周波数毎に、ノイズの抑圧ゲインと、音響エコーの抑圧ゲインとを用いて、式(4)により加重平均値を算出する。ゲイン統合部106は、算出した加重平均値を統合ゲインとする。
Figure JPOXMLDOC01-appb-M000004
 方法4によれば、加重平均値を統合ゲインとするため、音響エコーとノイズとの抑圧効果と、音声の歪のバランスをとり、そのバランスを調整することができる。
 ゲイン統合部106は、前述した方法1~4のいずれかを用いて統合ゲインを求める。また、ゲイン統合部106は、方法1~4を選択可能にしておき、選択された方法を用いて統合ゲインを求めるようにしてもよい。
 ゲイン適用部107は、ゲイン統合部106から取得した統合ゲインを、第1マイクロホン102から取得した第1入力信号に適用する。ゲイン適用部107は、例えば、第1入力信号を周波数成分に変換し、統合ゲインを示す係数を第1入力信号のスペクトルに乗算する。
 これにより、統合ゲインが適用された第1入力信号は、音響エコー成分と、ノイズ成分とが抑圧された信号になる。この信号は、後段の処理部と、音響エコー抑圧ゲイン算出部105とに出力される。
 (ノイズ抑圧ゲイン算出部の構成)
 次に、ノイズ抑圧ゲイン算出部104の構成について説明する。図2は、実施例1におけるノイズ抑圧ゲイン算出部104の構成の一例を示すブロック図である。図2に示すノイズ抑圧ゲイン算出部104は、時間周波数変換部201、時間周波数変換部202、ノイズ推定部203、比較部204を有する。
 時間周波数変換部201は、第1入力信号に対して、時間周波数変換を行い、スペクトルを求める。時間周波数変換部202は、第2入力信号に対して、時間周波数変換を行い、スペクトルを求める。時間周波数変換は、例えば、高速フーリエ変換(FFT)である。
 時間周波数変換部201は、求めた第1入力信号のスペクトルをノイズ推定部203及び比較部204に出力する。時間周波数変換部202は、求めた第2入力信号のスペクトルをノイズ推定部203に出力する。
 ノイズ推定部203は、第1入力信号のスペクトル、第2入力信号のスペクトルを取得し、ノイズ推定を行う。ノイズ推定部203は、公知の技術を用いて、ノイズ成分のスペクトルを推定する。推定されたノイズ成分のスペクトルは、比較部204に出力される。
 比較部204は、第1入力信号のスペクトルと、ノイズ成分のスペクトルとを比較し、周波数毎のノイズを抑圧するゲインを算出する。以下、このゲインをノイズの抑圧ゲインとも呼ぶ。比較部204は、第1入力信号に含まれるノイズ成分の割合をノイズの抑圧ゲインとする。また、第1入力信号とノイズ成分の割合に応じて予め定めた関係式によってノイズの抑圧ゲインを算出しても良い。
 これにより、複数のマイクロホンの入力信号を用いて、ノイズを抑圧することが可能となる。
 (音響エコー抑圧ゲイン算出部の構成)
 次に、音響エコー抑圧ゲイン算出部105の構成について説明する。図3は、実施例1における音響エコー抑圧ゲイン算出部105の構成の一例を示すブロック図である。図3に示す音響エコー抑圧ゲイン算出部105は、時間周波数変換部301、時間周波数変換部302、エコー推定部303、比較部304を有する。
 時間周波数変換部301は、再生装置101に出力される出力信号に対して、時間周波数変換を行い、スペクトルを求める。時間周波数変換部302は、第1入力信号に対して、時間周波数変換を行い、スペクトルを求める。時間周波数変換は、例えば、高速フーリエ変換(FFT)である。
 時間周波数変換部301は、求めた出力信号のスペクトルをエコー推定部303に出力する。時間周波数変換部302は、求めた第1入力信号のスペクトルをエコー推定部303及び比較部304に出力する。
 エコー推定部303は、第1入力信号のスペクトル、出力信号のスペクトル、及びゲイン適用部107からの出力信号を取得し、音響エコーの推定を行う。エコー推定部303は、公知の技術を用いて、音響エコー成分のスペクトルを推定する。推定された音響エコー成分のスペクトルは、比較部304に出力される。
 比較部304は、第1入力信号のスペクトルと、音響エコー成分のスペクトルとを比較し、周波数毎の音響エコーを抑圧するゲインを算出する。以下、このゲインを音響エコーの抑圧ゲインとも呼ぶ。比較部204は、第1入力信号に含まれる音響エコー成分の割合を音響エコーの抑圧ゲインとする。また、第1入力信号と音響エコー成分の割合に応じて予め定めた関係式によって音響エコーの抑圧ゲインを算出しても良い。
 これにより、複数のマイクロホンの入力信号のうち、基準となる1つの入力信号に対して、音響エコーを抑圧することが可能となる。
 <処理概要>
 次に、音処理装置1の各処理の概要について説明する。図4は、音処理装置1の処理概要を説明するための概念図である。
 図4に示す周波数特性401は、入力信号の周波数特性(スペクトル)を示す。入力信号には、例えば音声、音響エコー、騒音が含まれている。図4に示す周波数特性402は、騒音の周波数特性を示す。この周波数特性402は、ノイズ抑圧ゲイン算出部104により推定される。図4に示す周波数特性403は、音響エコーの周波数特性を示す。この周波数特性403は、音響エコー抑圧ゲイン算出部105により推定される。
 ここで、ノイズ抑圧ゲイン算出部104は、騒音の周波数特性402を推定すると、ノイズの抑圧ゲインを算出する。また、音響エコー抑圧ゲイン算出部105は、音響エコーの周波数特性403を推定すると、音響エコーの抑圧ゲインを算出する。
 次に、求められたノイズの抑圧ゲインと、音響エコーの抑圧ゲインとから、ゲイン統合部106により、所定の方法を用いて1つのゲインが求められる。所定の方法は前述した4つの方法のいずれかを用いればよい。
 次に、ゲイン適用部107は、基準となる一の入力信号に対して、求められた適用ゲインを適用することで、音響エコーとノイズとを考慮して抑圧した出力信号が生成される。図4に示す周波数特性404は、ゲイン適用部107から出力される出力信号の周波数特性を示す。
 <動作>
 次に、実施例1における音処理装置1の動作について説明する。図5は、実施例1における音処理の一例を示すフローチャートである。図5に示すステップS101で、音処理装置1は、複数のマイクロホンから入力信号を取得する。
 ステップS102で、ノイズ抑圧ゲイン算出部104は、複数の入力信号を用いて、ノイズの抑圧ゲインを算出する。ノイズの抑圧ゲインの算出については、公知技術を用いればよい。
 ステップS103で、音響エコー抑圧ゲイン算出部105は、複数の入力信号のうちの一の入力信号に対して、音響エコーの抑圧ゲインを算出する。音響エコーの抑圧ゲインの算出については、公知の技術を用いればよい。
 ステップS104で、ゲイン統合部106は、ノイズの抑圧ゲインと音響エコーの抑圧ゲインとから1つのゲインを求める。この求め方は前述した方法1~4のいずれかを用いればよい。
 ステップS105で、ゲイン適用部107は、複数の入力信号のうちの一の入力信号に対して、統合ゲインを適用する。
 以上、実施例1によれば、統合ゲインを適用された出力信号は、ノイズと音響エコーとを考慮して抑圧がなされるので、良好な音を提供することができる。また、エコーキャンセラの処理は一回であり、従来技術のような条件式も多くはないので、計算量を削減することができる。
 [実施例2]
 次に、実施例2における音処理装置2について説明する。実施例2では、複数の入力信号の中から、基準となる入力信号を選択する。これにより、ユーザの音声などが多く含まれている入力信号を基準にして、実施例の処理を行うことができる。
 <構成>
 図6は、実施例2における音処理装置2の構成の一例を示すブロック図である。なお、再生装置101、第1マイクロホン102、第2マイクロホン103は、実施例1と同様であるため、同じ符号を付す。
 図6に示す音処理装置2は、選択部501、ノイズ抑圧ゲイン算出部502、音響エコー抑圧ゲイン算出部503、ゲイン統合部504、ゲイン適用部505を有する。
 なお、音処理装置2は、再生装置101、第1マイクロホン102、第2マイクロホン103を含めて構成してもよい。また、図6に示す例では、マイクロホンは2つあるが、3つ以上あってもよい。
 選択部501は、複数のマイクロホンから入力される入力信号の中から、基準となる一の入力信号を選択する。例えば、選択部501は、複数の入力信号のうち、音量が一番大きい入力信号を選択するようにすればよい。
 また、選択部501は、音処理装置2と同じ筐体内に照度センサが設けられている場合は、その照度センサの出力値によって、一の入力信号を選択してもよい。例えば、照度センサが第1マイクロホン102と同じ面に設けられ、この面に対抗する面に第2マイクロホン103が設けられる場合、選択部501は、照度センサの出力値が閾値以上であれば、第1マイクロホン102の入力信号を選択する。
 これは、例えば音処理装置2を含む筐体を机などにおいて用いる場合、照度センサの出力値が閾値より大きいとき、第1マイクロホン102側の面が机とは接していないと判断できる。よって、この第1マイクロホン102に対して、ユーザが音声を入力していると判断できる。
 また、選択部501は、照度センサの出力値が閾値未満であれば、第2マイクロホン103の入力信号を選択する。これは、照度センサの出力値が閾値より小さいとき、第1マイクロホン102側の面が机に接していると判断できる。よって、第2マイクロホン103に対して、ユーザが音声を入力していると判断できる。
 選択部501は、選択した入力信号を、音響エコー抑圧ゲイン算出部503及びゲイン適用部505に出力する。また、選択部501は、選択した入力信号を示す情報を、ノイズ抑圧ゲイン算出部502に出力する。
 ノイズ抑圧ゲイン算出部502は、基本的な処理は、実施例1と同様である。異なるところは、基準となる一の入力信号を、選択部501から取得した情報に基づいて選択することである。
 ノイズ抑圧ゲイン算出部502は、選択した入力信号を基準にして、ノイズの抑圧ゲインを算出する。
 音響エコー抑圧ゲイン算出部503は、選択部501から取得した入力信号に対して、音響エコーの抑圧ゲインを算出する。音響エコーの抑圧ゲインを算出する処理は、実施例1と同様である。
 ゲイン統合部504は、実施例1のゲイン適用部106と同様の処理を行う。つまり、ゲイン統合部504は、ノイズの抑圧ゲインと、音響エコーの抑圧ゲインとから1つのゲインを求め、このゲインをゲイン適用部505に出力する。
 ゲイン適用部505は、選択部501から取得した入力信号に対して、統合ゲインを適用する。ゲイン適用部505は、例えば、選択部501から取得した入力信号を周波数成分に変換し、統合ゲインをスペクトルに乗算する。
 これにより、音声が多く含まれると推定される入力信号を基準にして、実施例で説明した処理を行うことができる。
 (ノイズ抑圧ゲイン算出部の構成)
 次に、ノイズ抑圧ゲイン算出部502の構成について説明する。図7は、実施例2におけるノイズ抑圧ゲイン算出部502の構成の一例を示すブロック図である。図7に示すノイズ抑圧ゲイン算出部502は、時間周波数変換部201、時間周波数変換部202、ノイズ推定部203、周波数選択部601、比較部602を有する。
 なお、図7に示す構成で、図2に示す構成と同様のものは同じ符号を付し、その説明を省略する。
 周波数選択部601は、時間周波数変換部201から、第1入力信号のスペクトルを取得する。また、周波数選択部601は、時間周波数変換部202から、第2入力信号のスペクトルを取得する。
 周波数選択部601は、選択部501から、選択した入力信号を示す情報を取得し、この情報が示す入力信号のスペクトルを選択する。周波数選択部601は、選択したスペクトルを比較部602に出力する。
 比較部602は、周波数選択部601から取得したスペクトルと、ノイズ成分のスペクトルとを比較し、周波数毎のノイズの抑圧ゲインを算出する。比較部602は、算出したノイズの抑圧ゲインをゲイン統合部504に出力する。
 これにより、選択部501により選択された入力信号に対して、ノイズの抑圧ゲインを算出することができる。
 実施例2における音響エコー抑圧ゲイン算出部503の構成は、実施例1と同様であるため、その説明を省略する。
 <動作>
 次に、実施例2における音処理装置2の動作について説明する。図8は、実施例2における音処理の一例を示すフローチャートである。図8に示すステップS201で、音処理装置2は、複数のマイクロホンから入力信号を取得する。
 ステップS202で、選択部501は、照度センサの出力値、又は各入力信号の音量に基づいて、複数の入力信号の中から1つの入力信号を選択する。選択された入力信号を基準として、以降の処理が行われる。
 ステップS203~S206の処理は、図5に示すステップS102~S105の処理と同様であるため、その説明を省略する。
 以上、実施例2によれば、複数の入力信号の中から、例えば音声が一番多く含まれている入力信号を選択し、選択された入力信号を基準にすることができる。よって、計算量を抑えつつ、より良好な音を提供することが可能となる。
 [実施例3]
 図9は、実施例3における携帯端末装置3のハードウェアの一例を示すブロック図である。携帯端末装置3は、アンテナ701、無線部702、ベースバンド処理部703、制御部704、端末インタフェース部705、主記憶部706、補助記憶部707、第1マイクロホン708、第2マイクロホン709、スピーカ710、レシーバ711を有する。
 アンテナ701は、送信アンプで増幅された無線信号を送信し、また、基地局から無線信号を受信する。無線部702は、ベースバンド処理部703で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部702は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部703に伝送する。
 ベースバンド部703は、送信データの誤り訂正符号の追加、データ変調、拡散変調、受信信号の逆拡散、受信環境の判定、各チャネル信号の閾値判定、誤り訂正復号などのベースバンド処理などを行う。
 制御部704は、制御信号の送受信などの無線制御を行う。また、制御部704は、補助記憶部707などに記憶されている音処理プログラムを実行し、各実施例で説明した音処理を行う。
 端末インタフェース部705は、データ用アダプタ処理、ハンドセットおよび外部データ端末とのインタフェース処理を行う。
 主記憶部706は、ROM(Read Only Memory)やRAM(Random Access Memory)などであり、制御部704が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
 補助記憶部707は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。補助記憶部707は、前述した音処理プログラムを記憶する。
 第1マイクロホン708、第2マイクロホン709は、それぞれ、第1マイクロホン102、第2マイクロホン103に対応する。スピーカ710、レシーバ711は、再生装置101に対応する。
 また、音処理装置1、2の各部は、例えば制御部704、及びワークメモリとしての主記憶部706により実現されうる。
 次に、第1マイクロホン708、第2マイクロホン709、スピーカ710、レシーバ711のそれぞれの位置関係の一例について説明する。
 図10Aは、携帯端末装置3の斜視図(その1)である。図10Aに示す例では、携帯端末装置3の前面を左方向から見ており、第1マイクロホン708がフロントマイクを表す。
 図10Bは、携帯端末装置3の斜視図(その2)である。図10Bに示す例では、携帯端末装置3の前面を右方向から見ており、第1マイクロホン708と、レシーバ711との間の距離を表す。
 図10Cは、携帯端末装置3の斜視図(その3)である。図10Cに示す例では、携帯端末装置3の後面を右方向から見ており、第2マイクロホン709がリアマイクを表す。
 図10Dは、携帯端末装置3の斜視図(その4)である。図10Dに示す例では、携帯端末装置3の後面を左方向から見ており、第2マイクロホン709と、スピーカ710との間の距離を表す。
 よって、図10に示すように、それぞれのマイクロホンが異なる面に設けられている場合、ユーザがどちらのマイクロホンに話しかけているかを判別するために、実施例2の選択部501は効果的に用いられる。
 なお、図10A~Dに示す例は、あくまでも一例であり、複数のマイクロホンと再生装置との位置関係は、これに限られない。
 以上、実施例3によれば、携帯端末装置3において、計算量を抑えつつ、良好な音を提供することができる。
 また、開示の技術は、携帯端末装置3に限らず、他の機器にも実装することができる。例えば、前述した音処理装置1、2は、テレビ電話会議装置や電話機能を有する情報処理装置、固定電話、VoIP(Voice over Internet Protocol)システムなどにも適用可能である。
 また、前述した各実施例で説明した音処理を実現するためのプログラムを記録媒体に記録することで、各実施例での音処理をコンピュータに実施させることができる。
 また、このプログラムを記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末装置に読み取らせて、前述した音処理を実現させることも可能である。なお、記録媒体は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。記録媒体は、搬送波を含まない。
 以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した実施例の構成要素を全部又は複数を組み合わせることも可能である。

Claims (8)

  1.  複数のマイクロホンから入力される各入力信号を用いてノイズの抑圧ゲインを算出する第1算出部と、
     音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとを用いて統合ゲインを求める統合部と、
     複数の入力信号のうちの一の入力信号に対し、前記統合ゲインを適用する適用部と、
     前記統合ゲインが適用された信号と、再生装置に出力される出力信号と、前記一の入力信号とを用いて、前記音響エコーの抑圧ゲインを算出する第2算出部と、
     を備える音処理装置。
  2.  照度センサの出力値、又は前記各入力信号の音量に基づいて、前記複数の入力信号の中から前記一の入力信号を選択する選択部をさらに備える請求項1記載の音処理装置。
  3.  前記統合部は、
     前記音響エコーの抑圧ゲインと、前記ノイズの抑圧ゲインのうち、小さい方を前記統合ゲインにする請求項1又は2記載の音処理装置。
  4.  前記統合部は、
     前記音響エコーの抑圧ゲインと、前記ノイズの抑圧ゲインのうち、大きい方を前記統合ゲインにする請求項1又は2記載の音処理装置。
  5.  前記統合部は、
     前記音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとの平均値を前記統合ゲインにする請求項1又は2記載の音処理装置。
  6.  前記統合部は、
     前記音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとの加重平均値を前記統合ゲインにする請求項1又は2記載の音処理装置。
  7.  複数のマイクロホンから入力される各入力信号を用いてノイズの抑圧ゲインを算出し、
     音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとを用いて統合ゲインを求め、
     複数の入力信号のうちの一の入力信号に対し、前記統合ゲインを適用し、
     前記統合ゲインが適用された信号と、再生装置に出力される出力信号と、前記一の入力信号とを用いて、前記音響エコーの抑圧ゲインを算出する処理をコンピュータが実行する音処理方法。
  8.  複数のマイクロホンから入力される各入力信号を用いてノイズの抑圧ゲインを算出し、
     音響エコーの抑圧ゲインと前記ノイズの抑圧ゲインとを用いて統合ゲインを求め、
     複数の入力信号のうちの一の入力信号に対し、前記統合ゲインを適用し、
     前記統合ゲインが適用された信号と、再生装置に出力される出力信号と、前記一の入力信号とを用いて、前記音響エコーの抑圧ゲインを算出する処理をコンピュータに実行させるためのプログラム。
PCT/JP2011/073726 2011-10-14 2011-10-14 音処理装置、音処理方法及びプログラム WO2013054448A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201180073541.1A CN103814584B (zh) 2011-10-14 2011-10-14 声音处理装置和声音处理方法
EP11873877.2A EP2768242A4 (en) 2011-10-14 2011-10-14 SOUND PROCESSING DEVICE, SOUND PROCESSING PROCESS AND PROGRAM
PCT/JP2011/073726 WO2013054448A1 (ja) 2011-10-14 2011-10-14 音処理装置、音処理方法及びプログラム
JP2013538414A JP5733414B2 (ja) 2011-10-14 2011-10-14 音処理装置、音処理方法及びプログラム
US14/199,084 US9485572B2 (en) 2011-10-14 2014-03-06 Sound processing device, sound processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/073726 WO2013054448A1 (ja) 2011-10-14 2011-10-14 音処理装置、音処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/199,084 Continuation US9485572B2 (en) 2011-10-14 2014-03-06 Sound processing device, sound processing method, and program

Publications (1)

Publication Number Publication Date
WO2013054448A1 true WO2013054448A1 (ja) 2013-04-18

Family

ID=48081521

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/073726 WO2013054448A1 (ja) 2011-10-14 2011-10-14 音処理装置、音処理方法及びプログラム

Country Status (5)

Country Link
US (1) US9485572B2 (ja)
EP (1) EP2768242A4 (ja)
JP (1) JP5733414B2 (ja)
CN (1) CN103814584B (ja)
WO (1) WO2013054448A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049277A (ja) * 2015-08-31 2017-03-09 沖電気工業株式会社 雑音抑圧装置、プログラム及び方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9106196B2 (en) * 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
CN106921911B (zh) * 2017-04-13 2019-11-19 深圳创维-Rgb电子有限公司 语音采集方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH114288A (ja) * 1997-06-11 1999-01-06 Oki Electric Ind Co Ltd エコーキャンセラ装置
WO2009104252A1 (ja) * 2008-02-20 2009-08-27 富士通株式会社 音処理装置、音処理方法及び音処理プログラム
JP2010028653A (ja) * 2008-07-23 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> エコー消去装置、エコー消去方法、そのプログラム、記録媒体
JP2011139378A (ja) 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1127375A (ja) * 1997-07-02 1999-01-29 Toshiba Corp 音声通信装置
US8355511B2 (en) * 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH114288A (ja) * 1997-06-11 1999-01-06 Oki Electric Ind Co Ltd エコーキャンセラ装置
WO2009104252A1 (ja) * 2008-02-20 2009-08-27 富士通株式会社 音処理装置、音処理方法及び音処理プログラム
JP2010028653A (ja) * 2008-07-23 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> エコー消去装置、エコー消去方法、そのプログラム、記録媒体
JP2011139378A (ja) 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUNORI KOBAYASHI ET AL.: "Echo canceller integrated microphone array", IEICE (THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS) JOURNAL, vol. J87-A, no. 2, February 2004 (2004-02-01), pages 143 - 152
See also references of EP2768242A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049277A (ja) * 2015-08-31 2017-03-09 沖電気工業株式会社 雑音抑圧装置、プログラム及び方法

Also Published As

Publication number Publication date
CN103814584B (zh) 2017-02-15
JP5733414B2 (ja) 2015-06-10
US9485572B2 (en) 2016-11-01
EP2768242A4 (en) 2015-04-29
JPWO2013054448A1 (ja) 2015-03-30
US20140185818A1 (en) 2014-07-03
EP2768242A1 (en) 2014-08-20
CN103814584A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
US9363596B2 (en) System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
JP5733414B2 (ja) 音処理装置、音処理方法及びプログラム
JP4286637B2 (ja) マイクロホン装置および再生装置
US9264804B2 (en) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US9407990B2 (en) Apparatus for gain calibration of a microphone array and method thereof
JP5923994B2 (ja) 音声処理装置及び音声処理方法
US10176823B2 (en) System and method for audio noise processing and noise reduction
US20140363008A1 (en) Use of vibration sensor in acoustic echo cancellation
KR101934999B1 (ko) 잡음을 제거하는 장치 및 이를 수행하는 방법
US8462962B2 (en) Sound processor, sound processing method and recording medium storing sound processing program
ES2613494T3 (es) Reducción de ruido
KR100677554B1 (ko) 비임형성 방식을 이용한 녹음 장치 및 그 방법
US20160300563A1 (en) Active noise cancellation featuring secondary path estimation
US9886966B2 (en) System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
US9160404B2 (en) Reverberation reduction device and reverberation reduction method
US9271089B2 (en) Voice control device and voice control method
KR102190833B1 (ko) 에코 억제
JP2016506673A (ja) エコー抑圧
US8897456B2 (en) Method and apparatus for estimating spectrum density of diffused noise
JP2016048872A (ja) 収音装置
JP4116600B2 (ja) 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
US20130044890A1 (en) Information processing device, information processing method and program
US9531884B2 (en) Stereo echo suppressing device, echo suppressing device, stereo echo suppressing method, and non-transitory computer-readable recording medium storing stereo echo suppressing program
JP6075783B2 (ja) エコー消去装置、エコー消去方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11873877

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013538414

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011873877

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE