WO2015159901A1 - 放収音装置及び放収音方法 - Google Patents

放収音装置及び放収音方法 Download PDF

Info

Publication number
WO2015159901A1
WO2015159901A1 PCT/JP2015/061520 JP2015061520W WO2015159901A1 WO 2015159901 A1 WO2015159901 A1 WO 2015159901A1 JP 2015061520 W JP2015061520 W JP 2015061520W WO 2015159901 A1 WO2015159901 A1 WO 2015159901A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
frequency band
reverberation time
signal
speaker
Prior art date
Application number
PCT/JP2015/061520
Other languages
English (en)
French (fr)
Inventor
訓史 鵜飼
高史 山川
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to KR1020167028694A priority Critical patent/KR101837529B1/ko
Priority to EP15779431.4A priority patent/EP3133835B1/en
Priority to US15/304,159 priority patent/US9807215B2/en
Priority to CN201580019820.8A priority patent/CN106233751B/zh
Publication of WO2015159901A1 publication Critical patent/WO2015159901A1/ja
Priority to US15/704,321 priority patent/US10038769B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/62Constructional arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/509Microphone arrays

Definitions

  • the present invention relates to a sound emission and collection device used for remote audio conferences and the like, and more particularly to suppression of reverberation of sound to be emitted.
  • An audio conference system that transmits and receives audio by connecting bases via a network has been put into practical use.
  • the acoustic characteristics of conference rooms used for conferences vary, and conferences may be held in rooms with very long reverberations. If the reverberation is long, the clarity of the sound emitted from the speaker decreases.
  • Patent Document 1 An apparatus for suppressing the reverberation of the emitted sound has been proposed.
  • the device of Patent Document 1 operates the key Kia corresponding to the participant Ma, so that the inverse filter coefficient Ga of the spatial transfer function Ha from the participant Ma to the microphone 31 is read from the ROM 41 and applied to the digital filter 34i.
  • the supplied digital filter 34i performs inverse filter operation in real time to perform inverse filtering on the voice signal of the participant Ma. That is, in this apparatus, the spatial transfer functions from the seats of the participants Ma to Mn to the plurality of microphones 31 are measured in advance, and the inverse filter coefficients Ga to Gn of the transfer functions are stored in the ROM 41 in advance.
  • test signal is played back in the presence of the participant. It is preferable to do this.
  • An object of the present invention is to provide a sound emitting and collecting apparatus and a sound emitting and collecting method capable of suppressing reverberation using a sound collecting and echo canceling function for a conference without reproducing test audio in advance.
  • a sound emission and collection device includes a speaker, a filter that processes a sound emission signal that is an audio signal supplied to the speaker, a plurality of microphones, and each of the plurality of microphones.
  • a plurality of echo cancellers provided correspondingly, each canceling a return sound signal of the sound emitted by the speaker from the sound pickup signal of the corresponding microphone, and adaptive filter coefficients extracted from the plurality of echo cancellers
  • a reverberation time estimation unit for estimating a reverberation time for each frequency band of the space where the speaker and the plurality of microphones exist based on the integrated adaptive filter coefficient, and the estimated Based on the reverberation time, a frequency band having a long reverberation time is identified from the sound emission signal, and the power of the specified frequency band is suppressed.
  • the sound emission and collection method is a method in which a sound emission signal that is an audio signal supplied to a speaker is processed by a filter and collected by the plurality of microphones by a plurality of echo cancellers provided corresponding to each of the plurality of microphones. Canceling the return signal of the sound emitted by the speaker from the sound signal, integrating the adaptive filter coefficients extracted from the plurality of echo cancellers, and based on the integrated adaptive filter coefficients, the speaker and the plurality The reverberation time for each frequency band in the space where the microphone is present is estimated, and based on the estimated reverberation time, a frequency band having a long reverberation time is identified from the sound emission signal, and the power of the identified frequency band is determined. Is calculated and set in the filter.
  • the present invention it is possible to appropriately suppress reverberation using a directional microphone suitable for a conference and using parameters of an echo canceller (such as filter coefficients of an adaptive filter).
  • FIGS. 4A to 4C are diagrams illustrating an example in which individual microphones are grouped to form a sound collector.
  • FIG. 1 is a diagram illustrating an example of an installation form of an audio conference system according to an embodiment of the present invention.
  • the audio conference system 1 is installed on the conference table D in the conference room C.
  • the audio conference system 1 has one communication device 10 and one or a plurality of sound collectors 11 (four in this embodiment).
  • the communication device 10 has a speaker 26.
  • the sound collector 11 includes a plurality of microphone elements 31.
  • the communication device 10 and the sound pickup device 11 are connected to each other by a communication cable 12 and perform digital communication.
  • the sound collector 11 transmits the audio signal collected by the microphone element 31 and the filter coefficient of the echo canceller 32 (see FIG. 3) to the communication device 10.
  • the communication device 10 is connected to a personal computer 2 that is a host device.
  • the personal computer 2 communicates with another voice conference system installed at another base via a network 3 such as the Internet, and is inputted from the communication device 10 of the voice conference system 1 (the microphone element 31 is collected).
  • the sound signal is transmitted to another audio conference system, and the audio signal received from the other audio conference system is input to the communication device 10.
  • the communication device 10 emits an audio signal sent from another audio conference system from the speaker 26.
  • FIG. 2 is a diagram for explaining a form of sound reflection in the conference room C.
  • FIG. The sound emitted from the speaker 26 directly reaches the conference participant M and the microphone element 31, and variously reflects on the wall and ceiling of the conference room C to reach the participant M and the microphone element 31.
  • the so-called sound becomes a so-called echo that is played back.
  • the microphone element 31 is connected to an echo canceller 32 (see FIG. 3) that cancels the sound emitted from the speaker 26.
  • the communicator 10 includes a reverberation suppression filter. 24 (see FIG. 6) is provided.
  • the filter coefficient of the filter 24 is calculated using the filter coefficient of the adaptive filter 35 (see FIG. 5) of the echo canceller 32.
  • the function part incorporated in the communication device 10 and the sound collector 11 described below may be configured by an electronic circuit, or may be realized by cooperation of a processor such as a computer and a program.
  • FIG. 3 is a block diagram of the sound collector 11.
  • FIG. 4 is a diagram illustrating the directivity of each of the three microphone elements 31 of the sound collector 11.
  • FIG. 5 is a block diagram of the echo canceller 32 of the sound collector 11.
  • the sound collector 11 includes three microphone elements 31. As shown in FIGS. 1 and 4, the sound collector 11 has a disk-like planar shape, and three microphone elements 31 face outward (normal direction) at intervals of 120 degrees on the circumference. It is provided radially. Each microphone element 31 is a unidirectional microphone, and has a cardioid sound collection characteristic centering on the direction in which the microphone element 31 faces. The microphone elements 31 are provided at intervals of 120 degrees, and the directivity characteristics thereof are arranged as shown in FIG. 4. Therefore, if the collected sound signals of the microphone elements 31 are synthesized, a signal having characteristics almost omnidirectional is obtained. can get.
  • the microphone element 31 is not limited to the one having directivity characteristics of cardioid. It may have some directivity behind it, or may be bi-directional.
  • each microphone element 31 is provided with an echo canceller 32.
  • the detailed configuration of the echo canceller 32 will be described with reference to FIG. 5, but cancels the sound emitted from the speaker 26 from the sound signal collected by the microphone element 31.
  • An audio signal in which the wraparound sound from the speaker 26 is canceled by the echo canceller 32 is input to the audio selection unit 33.
  • Audio signals picked up by the three microphone elements 31 are input to the audio selector 33.
  • the voice selection unit 33 is estimated as the voice signal input from which microphone element 31 is high, that is, the voice signal of the speaker. And one speech signal estimated as the speech signal is selected.
  • an optimal microphone element 31 is selected from the three microphone elements 31, and an uttered voice with a good S / N ratio is collected. is doing.
  • the selected audio signal is transmitted to the communication device 10 via the communication interface 34.
  • the communicator 10 converts the sound signal received from each sound collector 11 into the sound signal level and duration. Further, one voice signal is selected by comparing the correlation degrees, or a plurality of voice signals are mixed, and the selected voice signal or the mixed voice signal is transmitted to the partner system.
  • FIG. 5 is a block diagram of the echo canceller 32.
  • the echo canceller 32 includes an adaptive filter 35 having a filter coefficient setting unit 35B and a variable filter 35A, and further includes an adder 37.
  • an adaptive filter is a filter that automatically adapts its own transfer function (adaptive filter coefficient sequence) in accordance with a predetermined optimization algorithm.
  • the filter coefficient setting unit 35B estimates the transfer function of the acoustic transfer system (sound propagation path from the speaker 26 to the microphone element 31) of the conference room C, and sets a filter coefficient that becomes a filter of the estimated transfer function to the variable filter 35A. Set to.
  • An audio signal (sound emission signal) emitted from the speaker 26 is input to the variable filter 35A. Since the transfer function of the variable filter 35A is a transfer function simulating the acoustic transfer system (sound propagation path from the speaker 26 to the microphone element 31) of the conference room C, the sound emission signal filtered by the variable filter 35A is This is an audio signal (pseudo-regression sound signal) that simulates an audio signal (regression sound signal) that is emitted from the speaker 26, propagates through the conference room C, and is collected by the microphone element 31. The pseudo regression sound signal is input to the adder 37.
  • the adder 37 receives an audio signal (sound collection signal) picked up by the microphone element 31.
  • the adder 37 subtracts the pseudo regression sound signal from the collected sound signal and outputs the result.
  • the collected sound signal includes a return sound signal that is emitted from the speaker 26 and circulates along with the speech signal of the conference participant M.
  • the adder 37 subtracts the pseudo-regression sound signal from the sound collection signal, thereby removing the return sound from the sound collection signal, that is, canceling the echo.
  • the collected sound signal whose echo has been canceled is input to the sound selection unit 33 and also input to the filter coefficient setting unit 35B as a reference signal.
  • the filter coefficient setting unit 35B also receives a sound emission signal that is a sound signal emitted from the speaker 26 as a reference signal.
  • the filter coefficient setting unit 35B continuously updates the filter coefficient based on these reference signals.
  • the filter coefficient is updated by automatically detecting a time interval in which the sound is emitted from the speaker 26 and the participant M in the conference room C is not speaking and referring to the time interval. This is done using signals.
  • variable filter 35A is an FIR filter. Therefore, the filter coefficient set in the variable filter 35A is simulated by the filter coefficient setting unit 35B estimating the impulse response of the acoustic propagation path from the speaker 26 to the microphone element 31. The filter coefficient setting unit 35B transmits the filter coefficient as an estimated impulse response to the communication device 10 via the communication interface 34.
  • the sound selection unit 33 selects one of the sound signals picked up by the three microphone elements 31 and transmitted to the communication device 10. All three estimated impulse responses are transmitted to the communicator 10. As will be described later, the parameter estimation unit 23 of the communication device 10 combines these three estimated impulse responses. As shown in FIG. 4, the three estimated impulse responses are impulse responses including a reverberation component that arrives from the direction in which the corresponding microphone element 31 faces, but by combining the three, they arrive from all directions. Impulse responses from all directions of the conference room C collected by an omnidirectional microphone including a reverberation component can be simulated.
  • FIG. 6 is a block diagram of the communication device 10.
  • the communication device 10 includes a communication interface 21 for communicating with the personal computer 2, a microphone mixer 22, a parameter estimation unit 23, a filter 24, an audio circuit 25, a speaker 26, and a communication interface 27 for communicating with the sound collector 11. .
  • the communication interface 21 is an interface for performing digital communication with the personal computer 2.
  • a USB interface is used.
  • the personal computer 2 is a host and the communication device 10 is an audio device.
  • a plurality of communication interfaces 27 are provided, and individual sound collectors 11 are connected to each other via the cables 12.
  • a wired LAN interface may be used as the communication interface 27.
  • the communication device 10 receives an audio signal (acquisition signal whose echo is canceled) and three estimated impulse responses from the sound collector 11 via the communication interface 27.
  • the received audio signal is input to the microphone mixer 22.
  • a plurality of audio signals received from different sound collectors 11 are input from the plurality of communication interfaces 27 to the microphone mixer 22.
  • the microphone mixer 22 selects or mixes the audio signals received from the plurality of sound collectors 11 to form a monaural audio signal, and transmits the monaural audio signal to the personal computer 2 via the communication interface 21.
  • the personal computer 2 transmits this audio signal to the audio conference system at another site via the network 3.
  • the microphone mixer 22 may select a speech signal having a good S / N ratio as an uttered speech to be transmitted to the partner system by comparing the level, duration or correlation of the speech signal of the communication device.
  • the personal computer 2 receives an audio signal from the audio conference system at another site.
  • This audio signal is input via the communication interface 21, input to the filter 24 as a sound output signal output from the speaker 26, and transmitted to each sound collector 11 via the communication interface 27.
  • the filter 24 performs a filter process that suppresses a decrease in the intelligibility of the voice due to the reverberation of the conference room C. That is, signal processing is performed on the sound emission signal so as to suppress the level of the frequency band having a long reverberation time. In particular, since reverberation in the low frequency range causes a decrease in clarity, the degree of suppression is increased for the low frequency range.
  • Such filter coefficients are determined by the parameter estimation unit 23.
  • the sound emission signal whose frequency band having a long reverberation time is suppressed by the filter 24 is input to the audio circuit 25.
  • the audio circuit 25 converts the sound emission signal into an analog audio signal, amplifies it at a predetermined level, and inputs it to the speaker 26.
  • the speaker 26 emits the sound emission signal as sound into the conference room C. The emitted sound is heard by the conference participant M and collected by the microphone element 31.
  • the sound emission signal transmitted to the sound collector 11 via the communication interface 27 is input as a reference signal to the filter coefficient setting unit 35B of the echo canceller 32 shown in FIG.
  • FIG. 7 is a block diagram of the parameter estimation unit 23.
  • FIG. 8 is a diagram illustrating a procedure of dereverberation processing executed in the audio conference system 1 including the parameter estimation unit 23.
  • FIGS. 9A and 9B are diagrams illustrating signal waveforms that appear in the reverberation suppression processing procedure.
  • the sound collector 11 performs sound collection by the directional microphone element 31 (S101), echo cancellation processing (S102), and extraction of a filter coefficient (estimated impulse response) from the adaptive filter 35 (S103). Do.
  • the sound collector 11 transmits the filter coefficients of three echo cancellers 32 provided corresponding to the three microphone elements 31 to the communication device 10 as estimated impulse responses.
  • the parameter estimation unit 23 includes a filter coefficient integration unit 40 for each connected sound collector 11, a reverberation time estimation unit 41, a reverberation time integration unit 42 for each connected sound collector 11, and a correction.
  • a characteristic calculation unit 43 and a filter coefficient calculation unit 44 are provided.
  • the communication device 10 receives three estimated impulse responses (filter coefficients) from each sound collector 11.
  • the received estimated impulse response is input to the parameter estimation unit 23.
  • the input estimated impulse response is input to the filter coefficient integration unit 40 provided for each sound collector 11.
  • the filter coefficient integration unit 40 synthesizes the three input estimated impulse responses with the time axis aligned. This synthesis may be simply addition synthesis, the weight of each estimated impulse response may be changed, or the time lag of each impulse response may be corrected.
  • an impulse response including a reverberation component arriving from a wider range than the estimated impulse response for one microphone (ideally 360 degrees omnidirectional). Can be estimated.
  • This process is the previous stage integration of S104 in FIG. This process is performed for each sound collector 11 connected (estimated impulse response is input), and the impulse response at the position of each sound collector 11 is estimated.
  • the wide-directional estimated impulse response synthesized by the filter coefficient integration unit 40 is input to the reverberation time estimation unit 41.
  • the reverberation time estimation unit 41 performs the following processing. First, the estimated impulse response is passed through a band-pass filter of a plurality of channels to divide the band. The number of channels to be divided and the frequency band of each channel are arbitrary. For example, band division such as dividing 315 Hz to 8000 Hz into 15 channels may be performed. By this processing, the impulse response of the signal component of each frequency band (channel) is estimated. This process is the process of S105 in FIG. This process is also performed for each sound collector 11.
  • the reverberation time estimation unit 41 obtains the reverberation time of the signal in each frequency band based on the estimated impulse response in each frequency band.
  • the reverberation time generally refers to the time until the signal level is attenuated to ⁇ 60 dB (parts per million), and there are various calculation / estimation methods.
  • the reverberation time may be obtained by the Schrader method.
  • a Schrader curve reverberation decay curve as shown in FIG. 9A is obtained by Schrader integration or backward cumulative addition of the impulse response, and the time until this curve reaches ⁇ 60 dB can be obtained. It ’s fine.
  • a predetermined section that does not include the direct sound or error component of the Schrader curve may be taken out, and the slope of the section may be defined as the slope of this curve, and the time for attenuation from 0 dB to ⁇ 60 dB due to this slope may be estimated.
  • This process corresponds to S106 in FIG. 8 and is performed for each frequency band for each sound collector 11, and the reverberation time for each frequency band at the position of each sound collector 11 is estimated.
  • the reverberation time for each frequency band at the position of each sound collector 11 estimated by the plurality of reverberation time estimation units 41 is input to the reverberation time integration unit 42.
  • the reverberation time integration unit 42 synthesizes the reverberation time at the position of each sound collector 11 for each frequency band. This process is the latter stage integration process of S107 in FIG. 8, and is performed for each frequency band.
  • this post-integration process is performed by averaging the reverberation times of the sound collectors 11 for each frequency band, but reverberation time values (outliers) that are extremely far from the average value are excluded from the average. May be. Further, the sound collector 11 having many outliers may be installed in a place where a biased characteristic is likely to appear, such as a corner of a room, and the reverberation time of the sound collector 11 is the entire surface in all frequency bands. Specifically, it may be excluded from the subsequent integration process.
  • This exclusion process may be performed based on the judgment of the communication device 10, and a person who installs this system in the conference room C manually operates the sound collection device 11 or the communication device 10 to specify a specific sound collection device 11, for example,
  • the sound collectors 11 and the like installed in the corners of the room may be set so as to be excluded from the targets for subsequent integration. In this case, for the sound collector 11 excluded from the integration target, the processing of S103 and subsequent steps is not necessary, and the processing is reduced.
  • the average reverberation characteristic of the entire conference room C as shown in FIG. 9B is obtained. Based on the reverberation characteristics, it is possible to determine in which frequency band the reverberation time is long.
  • the reverberation characteristic obtained by the reverberation time integration unit 42 is input to the correction characteristic calculation unit 43. Based on the input reverberation characteristic, the correction characteristic calculation unit 43 suppresses a frequency band having a long reverberation time so that the sound emitted from the speaker 26 is not covered by the reverberation sound of the sound. Determine the correction characteristics.
  • the correction characteristics are determined by setting a reverberation time threshold value for each frequency band, extracting a frequency band whose reverberation time exceeds the threshold value, and suppressing the power of this frequency band, or a known method for suppressing reverberation sound.
  • a gain table for each frequency band By using a filtering method, a gain table for each frequency band, a method for determining a power suppression amount for each frequency band can be selected.
  • a gain table for each frequency band as shown in FIG. 10 can be used.
  • the vertical axis represents gain (dB) and the horizontal axis represents reverberation time RT (seconds), and the gain value for each frequency band is indicated by a line segment having a slope.
  • the line segments f1 to fn correspond to the frequency bands divided by the bandpass filter described above, and f1 is on the low sound range side and fn is on the high sound range side. For example, if the reverberation time is 1.0 second in the band f3, the gain is determined to be ⁇ 30 dB.
  • the low-frequency line segment is set to have a steeper slope.
  • the gain is around -24 dB. In this way, when the reverberation time in the low sound region is long, a correction characteristic that suppresses the low sound region more strongly than in the case where the reverberation time in the high sound region is long is determined.
  • the gain table may be set such that the convergence point where a plurality of line segments converge as shown in FIG. 11 is shifted in the positive direction by a certain reverberation time. In this case, when the reverberation time is 1.0 second or less, the gain is 0 dB. This process is S108 in FIG.
  • the determined correction characteristic is input to the filter coefficient calculation unit 44.
  • the filter coefficient calculation unit 44 determines the filter characteristic so that the filter 24 has the correction characteristic calculated by the correction characteristic calculation unit 43.
  • the filter 24 is configured by an FIR filter or an IIR filter.
  • the filter coefficient is calculated by an operation such as a discrete time inverse Fourier transform or a parametric peak filter in accordance with the configuration of the filter 24. This process is S109 of FIG.
  • the calculated filter coefficient is set in the filter 24 (S110).
  • the reverberation characteristics of the conference room C are estimated using the filter coefficient of the echo canceller 32, and the clarity of the emitted sound is prevented from being lowered by suppressing the frequency band having a long reverberation.
  • the frequency characteristic of the conference room C is estimated using the filter coefficient of the echo canceller 32, and the frequency characteristic of the sound emission signal is changed to the frequency of the conference room C so that the emitted sound is heard with a flat characteristic. You may correct
  • FIG. 12 shows a modification of the parameter estimation unit.
  • the parameter estimation unit 23 ′ in this figure determines a correction characteristic for correcting the frequency characteristic in addition to the correction characteristic for suppressing reverberation and sets it in the filter 24.
  • the parameter estimation unit 23 'in this figure further includes a frequency characteristic estimation unit 45 and a frequency characteristic integration unit 46 for each sound collector 11, in addition to the configuration of the parameter estimation unit 23 in FIG.
  • the wide impulse (omnidirectional) estimated impulse response for each sound collector 11 output from the filter coefficient integration unit 40 is input to the reverberation time estimation unit 41 and also to the frequency characteristic estimation unit 45. .
  • the frequency characteristic estimation unit 45 performs a Fourier transform on the input impulse response, and calculates the frequency characteristic at the position of the sound collector 11. This frequency characteristic is input to the frequency characteristic integration unit 46.
  • the frequency characteristic integration unit 46 synthesizes the frequency characteristics in the sound collectors 11 input from the frequency characteristic estimation units 45 to calculate an average value of the entire frequency characteristics in the conference room C. The calculation of the average value may be simply an arithmetic average, or an average may be obtained after normalizing each frequency characteristic.
  • the frequency characteristic of the conference room C obtained by the frequency characteristic integration unit 46 is input to the correction characteristic calculation unit 43 ′.
  • the correction characteristic calculation unit 43 ′ is a characteristic that suppresses a frequency band having a long reverberation time, and cancels the frequency characteristic that the emitted sound is influenced by the conference room C and passes through a flat transfer characteristic. Calculate correction characteristics that reach the listener. In addition, this calculation method may calculate a correction characteristic that reaches the listener via a preset ideal transmission characteristic, instead of a correction characteristic that reaches the listener via a flat transfer characteristic.
  • the calculated correction characteristic is input to the filter coefficient calculation unit 44.
  • the filter coefficient calculation unit 44 determines the filter characteristic so that the filter 24 has the correction characteristic calculated by the correction characteristic calculation unit 43 ′.
  • the calculated filter coefficient is set in the filter 24.
  • the communication device 10 performs the previous stage integration, but the sound collector 11 may perform this integration.
  • the processing of S101 to S103 is performed by the sound collector 11.
  • the communication device 10 performs the processing after S107.
  • the processing of S104 to S106 during that time may be performed by either the sound collector 11 or the communication device 10.
  • the audio conference system in which the sound collector 11 including the microphone element 31 is connected to the communication device 10 including the speaker 26 has been described.
  • the plurality of microphone elements 31 and the speaker 26 are integrated.
  • the present invention can also be applied to the audio conference apparatus (only the communication device 10) provided in the above.
  • connection form between the communication device 10 and the sound pickup device 11 is not limited to wired connection.
  • a wireless connection such as a wireless LAN or a short-range wireless communication standard may be used.
  • the shape of the sound collector 11 and the number of microphone elements 31 are not limited to those shown in FIGS.
  • two or four microphone elements 31 may be provided at equal intervals on the peripheral edge of a disk-shaped housing.
  • the angle of each microphone element 31 is 180 degrees or 90 degrees. Further, the interval (angle) may not be equal.
  • the microphone element 31 may be provided so as to be shifted in the direction toward the conference participant M.
  • a plurality of sound collectors 11 When a plurality of sound collectors 11 are connected to the communication device 10, a plurality of sound collectors 11 may be daisy chain connected with a cable 12 as shown in FIG. 13. By using this connection form, the total cable length can be saved.
  • the communication interfaces 21 and 34 LAN interfaces it is possible to correspond to both the star type connection of FIG. 1 and the daisy chain type connection of FIG.
  • a plurality of microphones 51, 52, 53, and 54 each including one microphone element 31 are combined (grouped), and one group 60 is assigned to one group 60.
  • the sound collector 11 may function.
  • the attendant may set the grouping information of the table microphone 51 in the communication device 10 in advance, and a signal distribution unit is provided in the front end of the communication device 10 so that the communication device 10 performs grouping by itself. You may do it.
  • the signal distribution unit groups the table microphones collecting similar signals into the same group based on the time position of the adaptive filter of the echo canceller, the degree of correlation of the collected sound signals, and the like. You may do it.
  • FIG. 14A shows an example in which a plurality of table microphones (stand microphones) 51 are combined to form a group 60.
  • FIG. 14B shows an example in which a plurality of hand microphones 52 are grouped into 60 groups.
  • the hand microphone 52 may be wired or wireless.
  • a plurality of hand microphones 52 existing at a certain distance may be set as one group 60, and an adaptive filter coefficient sequence may be added for each group 60.
  • the reverberation time described above may be obtained by calculating the reverberation time of each group.
  • the presence of a plurality of hand microphones 52 at a certain distance is determined by detecting the position by calculating the difference in sound collection delay between the two hand microphones 52 and by detecting the intensity of radio waves emitted by the hand microphones 52. be able to.
  • the sound collector 11 may not be placed on the conference table D. That is, as shown in FIG. 14C, a hanging microphone 53 suspended from the ceiling or a wall microphone 54 installed on the wall surface may be used.
  • the sound collector 11, the table microphone 51, the hand microphone 52, the hanging microphone 53, and the wall surface microphone 54 of FIG. 1 may be mixed.
  • a sound emission and collection device of the present invention includes a speaker, a filter that processes a sound emission signal that is an audio signal supplied to the speaker, a plurality of directional microphones, a plurality of echo cancellers, and a first integration unit.
  • the plurality of echo cancellers are provided corresponding to each of the plurality of microphones, and each cancels a return sound signal of the sound emitted by the speaker from the sound collection signal of the corresponding microphone.
  • the first integration unit integrates the adaptive filter coefficient sequences extracted from the echo canceller.
  • the reverberation time estimation unit estimates the reverberation time for each frequency band in the space where the speaker and the microphone exist based on the integrated filter coefficient sequence.
  • the calculation unit extracts a frequency band having a long reverberation time, calculates a filter coefficient that suppresses power in the frequency band, and sets the filter coefficient in the filter.
  • the sound emission and collection device of this invention includes a plurality of microphones.
  • the plurality of microphones are directional microphones suitable for, for example, a conference.
  • Each microphone is provided with an echo canceller for canceling the echo of the speaker sound.
  • the echo canceller includes an adaptive filter that generates a pseudo-regression sound signal, and has an adaptive filter coefficient (estimated impulse response) that simulates an impulse response between a speaker and a microphone. Further, the estimated impulse response is constantly updated based on the sound emission signal and the sound collection signal of the microphone.
  • the microphone is a directional microphone
  • this estimated impulse response contains only a large amount of reverberation components coming from the direction of the microphone's directivity, and cannot be said to completely represent the reverberation characteristics of the entire conference room.
  • the first integration unit can simulate an impulse response including reverberation components coming from a wide range of directions, even though it is a directional microphone for conferences. .
  • a reverberation time is calculated using the integrated parameter (estimated impulse response), and a filter coefficient that suppresses the reverberation is calculated.
  • the reverberation characteristics of the entire conference room can be accurately reproduced, and effective reverberation can be suppressed.
  • the estimated impulse response used by the echo canceller for removing the return sound can be used as it is, no special calculation amount is required, and for this reason, it is not necessary to emit the test sound.
  • a plurality of microphones may be arranged in different directions so that any microphone has sensitivity in all horizontal directions.
  • the calculation unit compares a reverberation time threshold set in advance for each frequency band with a reverberation time for each estimated frequency band, and the reverberation time exceeds the threshold. To extract the frequency band.
  • the filter coefficient set by the arithmetic unit is stronger in power for suppressing the low frequency band in the spatial frequency band than in the power for suppressing the high frequency band in the spatial frequency band.
  • the first integration unit integrates the adaptive filter coefficients by aligning their time axes and changing simple integration or weighting.
  • a sound collector including a plurality of microphones and a plurality of echo cancellers, and a communication device including a speaker and a filter may be provided separately.
  • the degree of freedom of installation is increased and a plurality of sound collectors can be provided.
  • a plurality of sound collectors are provided, a plurality of first integration units are provided corresponding to the plurality of sound collectors, and a reverberation time estimation unit is further integrated with the reverberation time of each sound collector. May be further provided. Then, the calculation unit may calculate the filter coefficient based on the reverberation time integrated by the second integration unit.
  • the at least one sound collector is a plurality of sound collectors
  • a plurality of the first integration units are provided corresponding to the plurality of sound collectors
  • the sound emitting and collecting apparatus includes the plurality of sound collectors.
  • a plurality of frequency characteristic estimation units for calculating a plurality of frequency characteristics at positions of the plurality of sound collectors based on a plurality of adaptive filter coefficients respectively integrated by the first integration unit of the sounder; and the plurality of frequencies
  • a frequency characteristic integration unit that integrates the plurality of frequency characteristics calculated by the characteristic estimation unit;
  • the present invention it is possible to provide a sound emission and collection device that can suppress reverberation by using a sound collection and echo cancellation function for a conference without reproducing test audio in advance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephonic Communication Services (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 放収音装置は、スピーカ(16)と、スピーカ(16)に供給される音声信号である放音信号を処理するフィルタ(24)と、複数のマイク(11)と、複数のマイク(11)の各々に対応して設けられ、各々がその対応するマイクの収音信号からスピーカ(16)によって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラ(32)と、複数のエコーキャンセラ(32)から取り出された適応フィルタ係数を統合する第1統合部と、統合された適応フィルタ係数に基づき、スピーカ(16)および複数のマイク(11)が存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部(41)と、推定された残響時間に基づいて、放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出してフィルタに設定する演算部と、を備える。

Description

放収音装置及び放収音方法
 この発明は、遠隔の音声会議等に用いられる放収音装置に関し、特に放音される音声の残響の抑制に関する。
 拠点間をネットワークで接続して音声を送受信する音声会議システムが実用化されている。会議に使用される会議室の音響特性は様々であり、非常に長い残響を有する部屋で会議が行われる場合もある。残響が長いとスピーカから放音される音声の明瞭度が低下する。これに対処するため、放音される音声の残響を抑制する装置が提案されている(特許文献1)。
 特許文献1の装置は、参加者Maに対応するキーKiaを操作することにより、参加者Maからマイクロホン31までの空間伝達関数Haの逆フィルタ係数Gaが、ROM41から読み出されてデジタルフィルタ34iに供給され、このデジタルフィルタ34iが逆フィルタ演算をリアルタイムで行って参加者Maの音声信号を逆フィルタリング処理するものである。すなわち、この装置では、各参加者Ma~Mnの席から複数のマイクロホン31までの空間伝達関数が予め測定されており、各伝達関数の逆フィルタ係数Ga~GnがROM41に予め格納されている。
日本国特開平09-247788号公報
 しかしながら、上記従来の装置では、予めインパルス応答を測定する必要があるため、会議開始直前にテスト信号を再生するか、会議の途中でテスト信号を再生する必要があり、テスト信号の再生中は会議室内を静かな環境にする必要があるため、会議の円滑な進行の妨げになった。
 会議参加者が入場する前に行っておくことも考えられるが、参加者が居るときと不在のときとでは会議室の音響特性が変化するため、やはり参加者が存在する状態でテスト信号を再生するのが好ましい。
 この発明は、事前にテスト音声を再生しなくても、会議用の収音およびエコーキャンセル機能を利用して残響を抑制できる放収音装置及び放収音方法を提供することを目的とする。
 上記目的を達成するため本発明に係る放収音装置は、スピーカと、前記スピーカに供給される音声信号である放音信号を処理するフィルタと、複数のマイクと、前記複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラと、前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合する第1統合部と、統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部と、前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する演算部と、を備える。
 また、放収音方法は、スピーカに供給される音声信号である放音信号をフィルタによって処理し、複数のマイクの各々に対応して設けられた複数のエコーキャンセラによって、前記複数のマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルし、前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合し、統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定し、前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する。
 この発明によれば、会議に好適な指向性マイクを用い、且つ、エコーキャンセラのパラメータ(適応フィルタのフィルタ係数など)を利用して、適切な残響の抑制が可能になる。
この発明の実施形態である音声会議システムの設置形態の一例を示す図 会議室における音声の反射の形態を説明する図 音声会議システムの収音器のブロック図 音声会議システムの収音器のマイクの指向性を示す図 収音器のエコーキャンセラのブロック図 音声会議システムの通信器のブロック図 通信器のパラメータ推定部の機能ブロック図 残響抑制のプロセスの流れを示す図 (A)及び(B)は、パラメータ推定部において現れる信号波形を例示した図 通信器の補正特性算出部のゲインテーブルの例を示す図 ゲインテーブルの他の例を示す図 パラメータ推定部に周波数特性補正機能を追加した実施形態を示す図 音声会議システムの収音器の他の結線形態を示す図 (A)~(C)は、個別のマイクをグルーピングして収音器を構成する例を示す図
 図面を参照して本発明の実施形態である音声会議システムについて説明する。図1は、本発明の実施形態である音声会議システムの設置形態の一例を示す図である。
 音声会議システム1は、会議室Cの会議机D上に設置される。音声会議システム1は、1台の通信器10および1または複数台の収音器11を有する(この実施形態では4台)。通信器10は、スピーカ26を有する。収音器11は、複数のマイク素子31を備える。通信器10および収音器11は通信ケーブル12で相互に接続され、デジタル通信を行う。収音器11は、マイク素子31で収音した音声信号およびエコーキャンセラ32(図3参照)のフィルタ係数を通信器10に送信する。通信器10は、ホスト装置であるパーソナルコンピュータ2に接続される。パーソナルコンピュータ2は、インターネットなどのネットワーク3を介して、他の拠点に設置されている他の音声会議システムと通信し、この音声会議システム1の通信器10から入力された(マイク素子31が収音した)音声信号を他の音声会議システムに送信するとともに、他の音声会議システムから受信した音声信号を通信器10に入力する。通信器10は、他の音声会議システムから送られてきた音声信号をスピーカ26から放音する。
 図2は、会議室Cにおける音声の反射の形態を説明する図である。スピーカ26から放音された音声は、会議の参加者Mおよびマイク素子31に直接到達するとともに、会議室Cの壁および天井で様々に反射して、参加者Mおよびマイク素子31に到達する。
 スピーカ26から放音された音声、すなわち、他拠点に設置された他の音声会議システムで収音された音声が、マイク素子31によって収音され、他の音声会議システムに送信されると、送信した音声が戻って再生されるいわゆるエコーになる。このエコーを防止するため、マイク素子31には、スピーカ26から放音された音声をキャンセルするエコーキャンセラ32(図3参照)が接続される。また、スピーカ26から放音された音声が会議室Cの壁や天井で反射する残響によってこもった音声になり明瞭度が低下するのを改善するため、通信器10には、残響抑制用のフィルタ24(図6参照)が設けられている。このフィルタ24のフィルタ係数は、エコーキャンセラ32の適応フィルタ35(図5参照)のフィルタ係数を利用して算出される。
 エコーキャンセラ32および残響抑制用のフィルタ24の機能・動作については、図3以下の図面を参照して後述する。なお、以下に説明する、通信器10および収音器11に内蔵の機能部は、電子回路で構成されてもよく、コンピュータなどのプロセッサとプログラムの協働によって実現されてもよい。
 図3は、収音器11のブロック図である。図4は、収音器11の3つのマイク素子31のそれぞれの指向性を示す図である。図5は、収音器11のエコーキャンセラ32のブロック図である。
 収音器11は、3つのマイク素子31を備える。図1および図4に示すように、収音器11は円盤状の平面形状をしており、その円周上に120度ずつの間隔で3つのマイク素子31が外向き(法線方向)に放射状に設けられている。各マイク素子31は単一指向性マイクであり、マイク素子31が向いている方向を中心にカージオイド形状の収音特性を有する。各マイク素子31は120度の間隔で設けられ、その指向特性は図4に示すような配置になるため、各マイク素子31の収音信号を合成すればほぼ無指向性に近い特性の信号が得られる。なお、マイク素子31は、指向特性がカージオイドのものに限定されない。後方に若干の指向性を持つものであってもよく、双指向性のものであってもよい。
 図3において、各マイク素子31にはそれぞれエコーキャンセラ32が設けられている。エコーキャンセラ32の詳細構成は、図5で説明するが、マイク素子31で収音された音声信号のなかからスピーカ26から放音された音声をキャンセルする。エコーキャンセラ32によって、スピーカ26の回り込み音声をキャンセルされた音声信号が、音声選択部33に入力される。音声選択部33には、3つのマイク素子31で収音された音声信号がそれぞれ入力される。音声選択部33は、入力された3つの音声信号のレベル・持続時間等に基づいて、どのマイク素子31から入力されている音声信号のレベルが高いか、すなわち話者の発話音声信号と推定されるかを推定し、発話音声信号と推定された1つの音声信号を選択する。すなわち、会議における音声信号の収音においては、指向性マイクの特性を利用して、3つのマイク素子31から最適な1つのマイク素子31を選択し、S/N比の良い発話音声を収音している。選択された音声信号は、通信インタフェース34を介して通信器10に送信される。通信器10に複数の収音器11が接続されている場合、通信器10(マイクミキサ22:図6参照)は、各収音器11から受信した音声信号を、音声信号のレベル、持続時間及び相関度について比較してさらに1つの音声信号を選択し、または、複数の音声信号をミキシングし、この選択された音声信号またはミキシングした音声信号を相手システムに送信する。
 次に、図5を参照して、エコーキャンセラ32の構成について説明する。図5は、エコーキャンセラ32のブロック図である。エコーキャンセラ32は、フィルタ係数設定部35Bおよび可変フィルタ35Aを有する適応フィルタ35を有し、さらに加算器37を有している。一般的に適応フィルタとは、所定の最適化アルゴリズムに従って自己の伝達関数(適応フィルタ係数列)を自動適応させるフィルタである。
 フィルタ係数設定部35Bは、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)の伝達関数を推定し、推定した伝達関数のフィルタとなるようなフィルタ係数を可変フィルタ35Aに設定する。
 可変フィルタ35Aには、スピーカ26から放音される音声信号(放音信号)が入力される。可変フィルタ35Aの伝達関数は、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)が模擬された伝達関数であるため、可変フィルタ35Aでフィルタリングされた放音信号は、スピーカ26から放音され会議室Cを伝搬してマイク素子31に収音された音声信号(回帰音信号)を模擬した音声信号(擬似回帰音信号)である。この擬似回帰音信号は加算器37に入力される。
 また、加算器37には、マイク素子31が収音した音声信号(収音信号)が、入力される。加算器37は、収音信号から疑似回帰音信号を減算して出力する。収音信号には、会議の参加者Mの発話音声信号とともにスピーカ26から放音されて回り込んだ回帰音信号も含まれている。加算器37が、収音信号から疑似回帰音信号を減算することにより、収音信号から回帰音を除去する、すなわちエコーをキャンセルすることができる。エコーをキャンセルされた収音信号は、音声選択部33に入力されるとともに、参照信号としてフィルタ係数設定部35Bに入力される。また、フィルタ係数設定部35Bには、参照信号としてスピーカ26から放音される音声信号である放音信号も入力される。フィルタ係数設定部35Bは、これらの参照信号に基づいてフィルタ係数を継続的に更新する。また、このフィルタ係数の更新は、スピーカ26から音声が放音されていて、かつ、会議室Cにいる参加者Mが発話をしていない時間区間を自動的に検出し、その時間区間の参照信号を用いて行われる。
 ここで、可変フィルタ35AはFIRフィルタである。したがって、可変フィルタ35Aに設定されるフィルタ係数は、フィルタ係数設定部35Bが、スピーカ26からマイク素子31に至る音響伝搬経路のインパルス応答を推定して模擬したものである。フィルタ係数設定部35Bは、このフィルタ係数を推定インパルス応答として、通信インタフェース34を介して通信器10に送信する。
 上述したように、3つマイク素子31がそれぞれ収音した音声信号は、音声選択部33により、そのうちの1つが選択されて通信器10に送信されるが、3つのマイク素子31に対応する3つの推定インパルス応答は、3つともに通信器10に送信される。後述するように通信器10のパラメータ推定部23では、これら3つの推定インパルス応答が合成される。3つの推定インパルス応答は、図4に示すように対応するマイク素子31の向いている方向から到来する残響成分を含むインパルス応答であるが、3つを合成することにより、全ての方向から到来する残響成分を含む無指向性マイクで収音した会議室Cの全方向からのインパルス応答を模擬することができる。
 図6は、通信器10のブロック図である。通信器10は、パーソナルコンピュータ2と通信するための通信インタフェース21、マイクミキサ22、パラメータ推定部23、フィルタ24、オーディオ回路25、スピーカ26および収音器11と通信するための通信インタフェース27を有する。通信インタフェース21は、パーソナルコンピュータ2とデジタル通信を行うためのインタフェースであり、たとえばUSBインタフェースが用いられる。USBインタフェースを用いた場合、パソコン2がホストであり通信器10がオーディオデバイスとなる。通信インタフェース27は複数設けられており、それぞれケーブル12を介して個別の収音器11が接続される。通信インタフェース27は例えば有線LANのインタフェースを用いればよい。
 通信器10は、通信インタフェース27を介して収音器11から音声信号(エコーをキャンセルされた収音信号)および3つの推定インパルス応答を受信する。受信した音声信号はマイクミキサ22に入力される。マイクミキサ22には複数の通信インタフェース27から、それぞれ別の収音器11から受信した複数の音声信号が入力される。マイクミキサ22は、複数の収音器11から受信した音声信号を選択またはミキシングしてモノラルの音声信号とし、通信インタフェース21を介してパーソナルコンピュータ2に送信する。パーソナルコンピュータ2は、この音声信号をネットワーク3を介して他拠点の音声会議システムに送信する。マイクミキサ22は、通信器の音声信号のレベル、持続時間または相関度を比較してS/N比の良い音声信号を相手システムに送信する発話音声として選択すればよい。
 また、パーソナルコンピュータ2は、他拠点の音声会議システムから音声信号を受信する。この音声信号は、通信インタフェース21を介して入力され、スピーカ26から放音される放音信号としてフィルタ24に入力されるとともに、通信インタフェース27を介して各収音器11に送信される。
 フィルタ24は、会議室Cの残響による音声の明瞭度の低下を抑制するようなフィルタ処理を施す。すなわち、放音信号に対して、残響時間の長い周波数帯域のレベルを抑制するような信号処理を行う。特に、低音域の残響が明瞭度の低下の原因になるため、低音域に対しては抑制の度合いを強くする。このようなフィルタ係数は、パラメータ推定部23によって決定される。フィルタ24によって残響時間の長い周波数帯域が抑制された放音信号は、オーディオ回路25に入力される。オーディオ回路25は、放音信号をアナログの音声信号に変換し、所定のレベルで増幅してスピーカ26に入力する。スピーカ26は、この放音信号を音声として会議室Cに放音する。放音された音声は会議の参加者Mに聴取されるとともに、マイク素子31によって収音される。
 通信インタフェース27を介して収音器11に送信された放音信号は、図5に示したエコーキャンセラ32のフィルタ係数設定部35Bに参照信号として入力される。
 図7はパラメータ推定部23のブロック図である。また、図8は、パラメータ推定部23を含む音声会議システム1で実行される残響抑制処理の手順を示す図である。また、図9(A)、(B)は、残響抑制処理の手順のなかで現れる信号波形を例示した図である。
 図8において、指向性のマイク素子31による収音(S101)、エコーキャンセル処理(S102)、および、適応フィルタ35からのフィルタ係数(推定インパルス応答)の取り出し(S103)は、収音器11が行う。収音器11は、3つのマイク素子31に対応して設けられた3つのエコーキャンセラ32のフィルタ係数を推定インパルス応答として通信器10に対して送信する。
 図7において、パラメータ推定部23は、接続している収音器11ごとのフィルタ係数統合部40、同じく接続している収音器11ごとの残響時間推定部41、残響時間統合部42、補正特性算出部43、および、フィルタ係数算出部44を備える。
 通信器10は、各収音器11から、それぞれ3つずつの推定インパルス応答(フィルタ係数)を受信する。受信した推定インパルス応答は、パラメータ推定部23に入力される。パラメータ推定部23では、入力された推定インパルス応答が、各収音器11ごとに設けられたフィルタ係数統合部40にそれぞれ入力される。フィルタ係数統合部40は、入力された3つの推定インパルス応答を時間軸を揃えて合成する。この合成は、単純に加算合成してもよいし、各推定インパルス応答の重みづけを変えてもよいし、各インパルス応答の時間ずれを補正しても良い。図4に示した3方向の推定インパルス応答を合成することにより、1マイクに関する推定インパルス応答よりも広い方向の範囲から到来する残響成分を含む(理想的には360度無指向性の)インパルス応答を推定することが可能である。この処理が、図8におけるS104の前段統合である。この処理は、接続された(推定インパルス応答が入力された)収音器11毎に行われ、各収音器11の位置におけるインパルス応答が推定される。
 フィルタ係数統合部40で合成された広指向性の推定インパルス応答は、残響時間推定部41に入力される。残響時間推定部41では以下の処理が行われる。まず、推定インパルス応答を複数チャンネルのバンドパスフィルタに通して帯域を分割する。分割するチャンネルの数や各チャンネルの周波数帯域は任意であるが、例えば、315Hz~8000Hzまでを15のチャンネルに分割するなどの帯域分割を行えばよい。この処理により、各周波数帯域(チャンネル)の信号成分のインパルス応答が推定される。この処理が図8のS105の処理である。この処理も各収音器11毎に行われる。
 残響時間推定部41は、各周波数帯域の推定インパルス応答に基づき、各周波数帯域の信号の残響時間を求める。残響時間は、一般的に信号レベルが-60dB(100万分の1)に減衰するまでの時間を言い、その算出・推定方法は種々あるが、ここではシュレーダー法により残響時間を求めればよい。シュレーダー法は、インパルス応答をシュレーダー積分または後方累積加算によって、図9(A)に例示するようなシュレーダー曲線(残響減衰曲線)を求め、この曲線が-60dBになるまでの時間を求めれば良い。簡略にはシュレーダー曲線の直接音や誤差成分等の含まれない所定区間を取り出してその区間の傾きをこの曲線の傾きとし、この傾きにより0dBから-60dBまで減衰する時間を推定してもよい。この処理が、図8のS106に相当し、各収音器11毎の周波数帯域毎に行われ、各収音器11の位置における周波数帯域毎の残響時間が推定される。
 そして、複数の残響時間推定部41によって推定された、各収音器11の位置における周波数帯域毎の残響時間は、残響時間統合部42に入力される。残響時間統合部42は、各収音器11の位置における残響時間を周波数帯域毎に合成する。この処理が図8のS107の後段統合処理であり、各周波数帯域毎に行われる。
 この後段統合処理の合成は、周波数帯域毎に各収音器11の残響時間を加算平均することによって行われるが、平均値から極端に離れている残響時間値(外れ値)は、平均から除外してもよい。また、外れ値が多い収音器11については、部屋の隅など偏った特性が出やすい場所に設置されている可能性があるとして、その収音器11の残響時間は全ての周波数帯域において全面的に後段統合処理から除外するようにしてもよい。この除外の処理は、通信器10の判断で行ってもよく、会議室Cにこのシステムを設置する係員が、収音器11または通信器10に対するマニュアル操作で、特定の収音器11、たとえば上記部屋の隅に設置される収音器11などをこの後段統合の対象から除外するように設定可能にしてもよい。この場合、統合対象から除外された収音器11については、S103以下の処理は不要になり、処理が軽減される。
 後段統合処理によって求められた各周波数帯域毎の残響時間を周波数軸にプロットすることにより、例えば、図9(B)に示すような会議室C全体の平均した残響特性が求められる。この残響特性に基づき、どの周波数帯域の残響時間が長いかなどの判定が可能になる。
 残響時間統合部42によって求められた残響特性は、補正特性算出部43に入力される。補正特性算出部43は、入力された残響特性に基づき、スピーカ26から放音された音声が、その音声の残響音によって覆い隠されないように、残響時間の長い周波数帯域を抑制するような周波数領域の補正特性を決定する。補正特性の決定は、周波数帯域ごとに残響時間の閾値を定めておき、残響時間が閾値を超えている周波数帯域を抽出してこの周波数帯域のパワーを抑制する方法や、残響音を抑制する既知のフィルタリング法、周波数帯域ごとのゲインテーブルを用いることで周波数帯域ごとのパワーの抑制量を定める方法などを選択することができる。周波数帯域ごとのゲインテーブルは図10に示すようなものが使用できる。このゲインテーブルは縦軸がゲイン(dB)、横軸が残響時間RT(秒)となっており、周波数帯域ごとのゲイン値が傾きを有する線分で示されている。f1~fnの線分は、上述したバンドパスフィルタにより分割された周波数帯域に対応し、f1が低音域側、fnが高音域側となっている。例えば帯域f3において残響時間が1.0秒であればゲインは-30dBと定められる。このゲインテーブルでは低音域の線分がより急峻な傾きをもつように設定されている。高帯域側のf4では残響時間が1.0秒であればゲインは-24dB付近となる。このように低音域の残響時間が長い場合には、この低音域を高音域の残響時間が長い場合よりも強く抑制するような補正特性が決定される。
 なお、ゲイン値には下限があり、所定の値(図に示したゲインテーブルでは-30dB)を超える抑制は行われないようにしている。また各周波数帯域において所定の残響時間(f3においては1.0秒)を超えた場合はゲインの下限値を適用するようにしている。また、ゲインテーブルは図11のように複数の線分が収束する収束点が一定の残響時間だけ正方向にずれて設定されているものでもよい。この図の場合は残響時間が1.0秒以下の場合はゲインが0dBとなる。この処理が図8のS108である。決定された補正特性はフィルタ係数算出部44に入力される。
 フィルタ係数算出部44は、フィルタ24が補正特性算出部43で算出された補正特性を持つようにフィルタ特性を決定する。フィルタ24は、FIRフィルタやIIRフィルタで構成される。フィルタ係数は、フィルタ24の構成に合わせて、離散時間逆フーリエ変換や、パラメトリックなピークフィルタなどの演算によって算出される。この処理が図8のS109である。算出されたフィルタ係数は、フィルタ24に設定される(S110)。このフィルタ24で放音信号をフィルタリングすることにより、スピーカ26から放音された音声の残響が抑制され、参加者Mにとって明瞭度の高い音声となる。
 以上の実施形態では、エコーキャンセラ32のフィルタ係数を用いて会議室Cの残響特性を推定し、残響の長い周波数帯域を抑制することによって放音された音声の明瞭度が低下しないようにした。さらに、エコーキャンセラ32のフィルタ係数を用いて会議室Cの周波数特性を推定し、放音された音声がフラットな特性で聴取されるように、放音信号の周波数特性を、会議室Cの周波数特性をキャンセルするように補正してもよい。これにより、残響だけでなく会議室Cの周波数特性を原因とする明瞭度の低下も防ぐことができる。
 図12に、パラメータ推定部の変形例を示す。この図のパラメータ推定部23′は、残響を抑制する補正特性に加えて、周波数特性を補正する補正特性を決定してフィルタ24に設定する。図12において、図7と同一構成の部分は同一番号を付して説明を省略する。この図のパラメータ推定部23′は、図7のパラメータ推定部23の構成に加えて、各収音器11毎の周波数特性推定部45、および、周波数特性統合部46をさらに備えている。
 フィルタ係数統合部40から出力された各収音器11毎の広指向性(無指向性)の推定インパルス応答は、残響時間推定部41に入力されるとともに、周波数特性推定部45に入力される。周波数特性推定部45は、入力されたインパルス応答をフーリエ変換して、その収音器11の位置における周波数特性を算出する。この周波数特性は周波数特性統合部46に入力される。周波数特性統合部46は、各周波数特性推定部45から入力された各収音器11における周波数特性を合成して、会議室Cにおける全体の周波数特性の平均値を算出する。この平均値の算出は、単純に相加平均してもよく、各周波数特性を正規化したのち平均を求めても良い。
 周波数特性統合部46によって求められた会議室Cの周波数特性は、補正特性算出部43′に入力される。補正特性算出部43′は、残響時間の長い周波数帯域を抑制するような特性であり、且つ、放音された音声が会議室Cに影響された周波数特性をキャンセルしてフラットな伝達特性を経て聴者に届くような補正特性を算出する。またこの算出方法は、フラットな伝達特性を経て聴者に届くような補正特性ではなく、あらかじめ設定された任意の理想的な伝達特性を経て聴者に届くような補正特性を算出してもよい。算出された補正特性はフィルタ係数算出部44に入力される。フィルタ係数算出部44は、フィルタ24が補正特性算出部43′で算出された補正特性を持つようにフィルタ特性を決定する。算出されたフィルタ係数は、フィルタ24に設定される。このフィルタ24で放音信号をフィルタリングすることにより、スピーカ26から放音された音声はフラットな伝達特性を経たような特性を有するとともにその残響が抑制され、参加者Mにとって明瞭度の高い音声となる。
 上記の実施形態では、前段統合を通信器10が行っているが、これを収音器11に行わせてもよい。図8において、S101-S103の処理は収音器11で行うことが好適である。また、S107以下の処理は通信器10が行うことが好適である。その間のS104-S106の処理は、収音器11、通信器10のいずれが行ってもよい。
 上記の実施形態では、スピーカ26を備えた通信器10に、マイク素子31を備えた収音器11が接続される形態の音声会議システムについて説明したが、複数のマイク素子31とスピーカ26を一体に備えた(通信器10のみの)音声会議装置に対しても、本発明は適用可能である。
 また、通信器10と収音器11との接続の形態は、有線接続に限定されない。たとえば、無線LANや近距離無線通信規格などの無線接続であってもよい。
 また、収音器11の形状やマイク素子31の数は、図1や図4に示したものに限定されない。たとえば、円盤状の筐体の周縁部に2つまたは4つのマイク素子31を等間隔に設けてもよい。この場合、各マイク素子31の角度は、180度または90度となる。また、間隔(角度)は等間隔でなくてもよい。会議参加者Mに向ける方向に片寄せてマイク素子31を設けても良い。
 通信器10に複数台の収音器11を接続する場合、図13に示すように、複数の収音器11をケーブル12でディジーチェーン接続する形態でもよい。この接続形態にすることで、全ケーブル長を節約することができる。通信インタフェース21および34をLANインタフェースとすることで、図1のスター型の接続および図13のディジーチェーン型の接続の両方に対応させることも可能である。
 また、図14(A)~(C)に示すように、1つのマイク素子31を内蔵するマイク51,52,53,54を複数組み合わせて(グループ化)し、この1つのグループ60を1つの収音器11として機能させてもよい。この場合、係員がテーブルマイク51のグルーピング情報を予め通信器10に設定しておくようにしてもよく、通信器10のフロントエンドに信号振分部を設けて、通信器10が自らグルーピングを行うようにしてもよい。この場合、信号振分部は、エコーキャンセラの適応フィルタの時間位置や、収音された音声信号の相関度などに基づき、類似した信号を収音しているテーブルマイク同士を同じグループとしてグルーピングするようにしてもよい。
 図14(A)は、複数のテーブルマイク(スタンドマイク)51を組み合わせてグループ60とした例を示している。また、図14(B)は、複数のハンドマイク52をグループ60化した例を示している。ハンドマイク52は有線であっても無線であってもよい。この場合はハンドマイクを持った話者が動くため一定距離に存在する複数のハンドマイク52を1つのグループ60として、各グループ60ごとに適応フィルタ係数列を加算してもよい。ハンドマイク52のグループ60が複数存在する場合は、各グループの残響時間を算出して上述した残響特性を求めればよい。複数のハンドマイク52が一定距離に存在することは、2つのハンドマイク52の収音遅延差を算出することによる位置検出や、ハンドマイク52が発する無線の強度を相互に検出することで判定することができる。
 また、収音器11は、会議机D上に載置されるものでなくてもよい。すなわち、図14(C)に示すように、天井から吊り下げられる吊りマイク53や壁面に設置される壁面マイク54などを用いてもよい。勿論、図1の収音器11、テーブルマイク51、ハンドマイク52、吊りマイク53および壁面マイク54が混在していてもよい。
 また、本実施形態の音声会議システム1は、会議以外に用いることも当然可能である。また、使用される場所も会議室に限定されない。
 本発明の放収音装置は、スピーカと、スピーカに供給される音声信号である放音信号を処理するフィルタと、指向性を有する複数のマイクと、複数のエコーキャンセラと、第1統合部と、残響特性推定部と、演算部と、を備える。複数のエコーキャンセラは、複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号からスピーカによって放音された音声の回帰音信号をキャンセルする。第1統合部は、エコーキャンセラから取り出された適応フィルタ係数列を統合する。残響時間推定部は、統合されたフィルタ係数列に基づき、スピーカおよびマイクが存在する空間の周波数帯域ごとの残響時間を推定する。演算部は、残響時間の長い周波数帯域を抽出し、その周波数帯域のパワーを抑制するフィルタ係数を算出してフィルタに設定する。
 以下に、本開示を例示的に要約する。
 この発明の放収音装置は、複数のマイクを備える。前記複数のマイクは例えば会議などに好適化された指向性マイクである。各マイクには、スピーカ音のエコーをキャンセルするためのエコーキャンセラが設けられている。エコーキャンセラは、疑似回帰音信号を生成する適応フィルタを備え、スピーカとマイクとの間のインパルス応答を模擬した適応フィルタ係数(推定インパルス応答)を持つ。また、この推定インパルス応答は、放音信号およびマイクの収音信号に基づいて常に更新されている。マイクは指向性マイクであるため、この推定インパルス応答はマイクの指向性の方向から到来する残響成分しか多く含まず、会議室全体の残響特性を完全に現しているとはいえない。しかし、第1統合部が、複数の指向性マイクのパラメータを統合することにより、会議用の指向性マイクでありながら、広い範囲の方向から到来する残響成分を含むインパルス応答を模擬することができる。そして、この統合されたパラメータ(推定インパルス応答)を用いて残響時間を算出し、この残響を抑制するようなフィルタ係数を算出する。これにより、会議室全体の残響特性を正確に再現でき、効果的な残響の抑制ができる。また、推定インパルス応答は、エコーキャンセラが回帰音除去に使用するものがそのまま流用できるので、特別な計算量が必要にならず、また、このためにテスト音声を放音する必要も無い。
 例えば、複数のマイクを、水平の全方向にいずれかのマイクが感度を持つようそれぞれ異なる方向に向けて配置してもよい。マイクをこのように配置することにより、第1統合部で統合されたパラメータをほぼ無指向性のパラメータとすることが可能になる。
 例えば、前記演算部は、周波数帯域ごとに予め設定されている残響時間のしきい値と、前記推定された周波数帯域毎の残響時間とをそれぞれ比較し、前記残響時間が前記しきい値を超えている周波数帯域を抽出する。
 例えば、前記演算部が設定するフィルタ係数は、前記空間の周波数帯域における高音域の周波数帯域を抑制するパワーよりも前記空間の周波数帯域における低音域の周波数帯域を抑制するパワーの方が強い。
 例えば、前記第1統合部は、前記適応フィルタ係数をそれらの時間軸を揃えて、単純統合又は重み付けを変更して統合する。
 例えば、複数のマイクおよび複数のエコーキャンセラを含む収音器、および、スピーカおよびフィルタを含む通信器を、それぞれ別体としてもよい。これにより、設置の自由度が増すとともに、収音器を複数設けることも可能になる。
 例えば、収音器を複数設けるともに、第1統合部を、複数の収音器に対応して複数設け、さらに、残響時間推定部に、各収音器の残響時間を統合する第2統合部をさらに設けてもよい。そして、演算部は、第2統合部によって統合された残響時間に基づいてフィルタ係数を算出するようにしてもよい。
 これにより、装置が設置される部屋の複数の場所に集音器を設置することができ、多人数が参加する会議でも漏れなく発話音声を収音することができる。さらに、部屋の各所の残響時間を算出して第2統合部でこれを統合することができるため、偏りのない平均的な残響時間を得ることが可能になる。
 例えば、前記少なくとも一つの収音器は複数の収音器であり、前記第1統合部は、前記複数の収音器に対応して複数設けられ、前記放収音装置は、前記複数の収音器の前記第1統合部でそれぞれ統合された複数の適応フィルタ係数に基づいて、前記複数の収音器の位置における複数の周波数特性を算出する複数の周波数特性推定部と、前記複数の周波数特性推定部で算出された前記複数の周波数特性を統合する周波数特性統合部と、をさらに備える。
 本発明を詳細にまた特定の実施態様を参照して説明してきたが、本発明の精神、範囲または意図の範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
 本発明は、2014年4月14日出願の日本特許出願(特願2014-083209)に基づくものであり、その内容はここに参照として取り込まれる。
 本発明によれば、事前にテスト音声を再生しなくても、会議用の収音およびエコーキャンセル機能を利用して残響を抑制できる放収音装置を提供することができる。
 C…会議室、D…会議机、M…会議の参加者、1…音声会議システム、2…パーソナルコンピュータ、3…ネットワーク、10…通信器、11…収音器、26…スピーカ、31…マイク素子、51…テーブルマイク、52…ハンドマイク、53…吊りマイク、54…壁面マイク、60…グループ

Claims (10)

  1.  スピーカと、
     前記スピーカに供給される音声信号である放音信号を処理するフィルタと、
     複数のマイクと、
     前記複数のマイクの各々に対応して設けられ、各々がその対応するマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルする複数のエコーキャンセラと、
     前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合する第1統合部と、
     統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定する残響時間推定部と、
     前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する演算部と、
    を備えた放収音装置。
  2.  前記複数のマイクは、指向性を有する請求項1に記載の放収音装置。
  3.  前記複数のマイクは、水平の全方向にいずれかのマイクが感度を持つようそれぞれ異なる方向に向けて配置されている請求項1または2に記載の放収音装置。
  4.  前記演算部は、周波数帯域ごとに予め設定されている残響時間のしきい値と、前記推定された周波数帯域毎の残響時間とをそれぞれ比較し、前記残響時間が前記しきい値を超えている周波数帯域を抽出する請求項1から3のいずれか1項に記載の放収音装置。
  5.  前記演算部が設定するフィルタ係数は、前記空間の周波数帯域における高音域の周波数帯域を抑制するパワーよりも前記空間の周波数帯域における低音域の周波数帯域を抑制するパワーの方が強い請求項1から4のいずれか1項に記載の放収音装置。
  6.  前記第1統合部は、前記適応フィルタ係数をそれらの時間軸を揃えて、単純統合又は重み付けを変更して統合する請求項1から5のいずれか1項に記載の放収音装置。
  7.  前記複数のマイクおよび前記複数のエコーキャンセラが含まれる少なくとも一つの収音器と、前記スピーカおよび前記フィルタが含まれる少なくとも一つの通信器と、
     を備え、
     前記収音器及び前記通信器は別体に構成されている請求項1から6のいずれか1項に記載の放収音装置。
  8.  前記少なくとも一つの収音器は複数の収音器であり、
     前記第1統合部は、前記複数の収音器に対応して複数設けられ、
     前記残響時間推定部は、前記複数の収音器のそれぞれの残響時間を統合する第2統合部をさらに有し、
     前記演算部は、前記第2統合部によって統合された残響時間に基づいて、前記フィルタ係数を算出する請求項7に記載の放収音装置。
  9.  前記少なくとも一つの収音器は複数の収音器であり、
     前記第1統合部は、前記複数の収音器に対応して複数設けられ、
     当該放収音装置は、
     前記複数の収音器の前記第1統合部でそれぞれ統合された複数の適応フィルタ係数に基づいて、前記複数の収音器の位置における複数の周波数特性を算出する複数の周波数特性推定部と、
     前記複数の周波数特性推定部で算出された前記複数の周波数特性を統合する周波数特性統合部と、
    をさらに備える請求項7に記載の放収音装置。
  10.  スピーカに供給される音声信号である放音信号をフィルタによって処理し、
     複数のマイクの各々に対応して設けられた複数のエコーキャンセラによって、前記複数のマイクの収音信号から前記スピーカによって放音された音声の回帰音信号をキャンセルし、
     前記複数のエコーキャンセラから取り出された適応フィルタ係数を統合し、
     統合された前記適応フィルタ係数に基づき、前記スピーカおよび前記複数のマイクが存在する空間の周波数帯域毎の残響時間を推定し、
     前記推定された残響時間に基づいて、前記放音信号から残響時間の長い周波数帯域を特定し、該特定された周波数帯域のパワーを抑制するフィルタ係数を算出して前記フィルタに設定する放収音方法。
PCT/JP2015/061520 2014-04-14 2015-04-14 放収音装置及び放収音方法 WO2015159901A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020167028694A KR101837529B1 (ko) 2014-04-14 2015-04-14 방수음 장치 및 방수음 방법
EP15779431.4A EP3133835B1 (en) 2014-04-14 2015-04-14 Sound emission and collection device, and sound emission and collection method
US15/304,159 US9807215B2 (en) 2014-04-14 2015-04-14 Sound emission and collection device, and sound emission and collection method
CN201580019820.8A CN106233751B (zh) 2014-04-14 2015-04-14 声音发射和采集装置及声音发射和采集方法
US15/704,321 US10038769B2 (en) 2014-04-14 2017-09-14 Sound emission and collection device, and sound emission and collection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014083209A JP6349899B2 (ja) 2014-04-14 2014-04-14 放収音装置
JP2014-083209 2014-04-14

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/304,159 A-371-Of-International US9807215B2 (en) 2014-04-14 2015-04-14 Sound emission and collection device, and sound emission and collection method
US15/704,321 Continuation US10038769B2 (en) 2014-04-14 2017-09-14 Sound emission and collection device, and sound emission and collection method

Publications (1)

Publication Number Publication Date
WO2015159901A1 true WO2015159901A1 (ja) 2015-10-22

Family

ID=54324106

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/061520 WO2015159901A1 (ja) 2014-04-14 2015-04-14 放収音装置及び放収音方法

Country Status (6)

Country Link
US (2) US9807215B2 (ja)
EP (1) EP3133835B1 (ja)
JP (1) JP6349899B2 (ja)
KR (1) KR101837529B1 (ja)
CN (2) CN110213453B (ja)
WO (1) WO2015159901A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155642A (zh) * 2016-03-09 2019-01-04 雅马哈株式会社 回声降低装置、语音通信装置、回声降低方法及回声降低程序
CN112804620A (zh) * 2019-11-14 2021-05-14 浙江宇视科技有限公司 回声处理方法、装置、电子设备及可读存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6349899B2 (ja) * 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置
KR20170071121A (ko) * 2015-12-15 2017-06-23 현대오트론 주식회사 초음파 신호 최적화 장치 및 방법
CN106782584B (zh) * 2016-12-28 2023-11-07 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN110140346B (zh) * 2016-12-30 2021-07-27 哈曼贝克自动系统股份有限公司 声回波消除
US10367948B2 (en) * 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN106937009B (zh) * 2017-01-18 2020-02-07 苏州科达科技股份有限公司 一种级联回声抵消系统及其控制方法及装置
WO2018230062A1 (ja) * 2017-06-12 2018-12-20 株式会社オーディオテクニカ 音声信号処理装置と音声信号処理方法と音声信号処理プログラム
WO2019070328A1 (en) * 2017-10-04 2019-04-11 Google Llc METHODS AND SYSTEMS FOR AUTOMATICALLY EQUALIZING AUDIO OUTPUT BASED ON THE CHARACTERISTICS OF THE PART
WO2019079523A1 (en) 2017-10-17 2019-04-25 Magic Leap, Inc. SPACE AUDIO WITH MIXED REALITY
CN111713091A (zh) 2018-02-15 2020-09-25 奇跃公司 混合现实虚拟混响
CN108449688A (zh) * 2018-03-19 2018-08-24 长沙世邦通信技术有限公司 室内广播音频处理方法、装置及系统
CN108962272A (zh) * 2018-06-21 2018-12-07 湖南优浪语音科技有限公司 拾音方法和系统
CN108986799A (zh) * 2018-09-05 2018-12-11 河海大学 一种基于倒谱滤波的混响参数估计方法
US10887467B2 (en) 2018-11-20 2021-01-05 Shure Acquisition Holdings, Inc. System and method for distributed call processing and audio reinforcement in conferencing environments
CN110312189A (zh) * 2019-06-10 2019-10-08 安徽沧浪网络科技有限公司 一种基于无线自组网的音频采集系统
US11304017B2 (en) 2019-10-25 2022-04-12 Magic Leap, Inc. Reverberation fingerprint estimation
CN111916098A (zh) * 2020-08-13 2020-11-10 科大讯飞(苏州)科技有限公司 语音信号处理方法、装置及设备
CN114143668A (zh) * 2020-09-04 2022-03-04 阿里巴巴集团控股有限公司 音频信号处理、混响检测和会议方法、设备及存储介质
CN114390425A (zh) * 2020-10-20 2022-04-22 深圳海翼智新科技有限公司 会议音频处理方法、设备、系统及存储装置
CN113726969B (zh) * 2021-11-02 2022-04-26 阿里巴巴达摩院(杭州)科技有限公司 混响检测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6429094A (en) * 1987-07-24 1989-01-31 Nippon Telegraph & Telephone Echo erasing device
JPH10150343A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法および装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247788A (ja) 1996-03-13 1997-09-19 Sony Corp 音声処理装置および会議用音声システム
EP1704748B1 (en) * 2004-01-07 2008-04-30 Koninklijke Philips Electronics N.V. Audio system providing for filter coefficient copying
US7856240B2 (en) * 2004-06-07 2010-12-21 Clarity Technologies, Inc. Distributed sound enhancement
JP4946090B2 (ja) 2006-02-21 2012-06-06 ヤマハ株式会社 収音放音一体型装置
US7773743B2 (en) * 2006-04-28 2010-08-10 Microsoft Corporation Integration of a microphone array with acoustic echo cancellation and residual echo suppression
CN101106405A (zh) * 2006-07-12 2008-01-16 北京大学深圳研究生院 回声消除器、回声消除方法及其双端通话检测系统
JP2008154056A (ja) * 2006-12-19 2008-07-03 Yamaha Corp 音声会議装置および音声会議システム
JP2008177632A (ja) * 2007-01-16 2008-07-31 Oki Electric Ind Co Ltd 無線音声通信回路
JP2008288785A (ja) * 2007-05-16 2008-11-27 Yamaha Corp テレビ会議装置
JP5394373B2 (ja) * 2007-06-21 2014-01-22 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号を処理する装置及び方法
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
DE102008039330A1 (de) * 2008-01-31 2009-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
JP2009207021A (ja) 2008-02-29 2009-09-10 Yamaha Corp 音響エコーキャンセラ
WO2010000878A2 (en) * 2009-10-27 2010-01-07 Phonak Ag Speech enhancement method and system
JP5572445B2 (ja) * 2010-04-30 2014-08-13 本田技研工業株式会社 残響抑圧装置、及び残響抑圧方法
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
EP2444967A1 (en) 2010-10-25 2012-04-25 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Echo suppression comprising modeling of late reverberation components
US8462936B2 (en) * 2011-02-28 2013-06-11 Qnx Software Systems Limited Adaptive delay compensation for acoustic echo cancellation
JP5923994B2 (ja) 2012-01-23 2016-05-25 富士通株式会社 音声処理装置及び音声処理方法
JP5887535B2 (ja) * 2012-02-17 2016-03-16 パナソニックIpマネジメント株式会社 エコー消去装置、エコー消去方法、及び、通話装置
JP5897343B2 (ja) * 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
TWI449438B (zh) * 2012-04-09 2014-08-11 Quanta Comp Inc 具有迴音消除機制之通訊系統及方法
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9386373B2 (en) * 2012-07-03 2016-07-05 Dts, Inc. System and method for estimating a reverberation time
US9549079B2 (en) * 2013-09-05 2017-01-17 Cisco Technology, Inc. Acoustic echo cancellation for microphone array with dynamically changing beam forming
CN103561184B (zh) * 2013-11-05 2015-04-22 武汉烽火众智数字技术有限责任公司 基于近端音频信号标定和修正的消除变频回声的方法
JP6349899B2 (ja) * 2014-04-14 2018-07-04 ヤマハ株式会社 放収音装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6429094A (en) * 1987-07-24 1989-01-31 Nippon Telegraph & Telephone Echo erasing device
JPH10150343A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155642A (zh) * 2016-03-09 2019-01-04 雅马哈株式会社 回声降低装置、语音通信装置、回声降低方法及回声降低程序
CN109155642B (zh) * 2016-03-09 2022-03-15 雅马哈株式会社 回声降低装置、语音通信装置、回声降低方法及记录介质
CN112804620A (zh) * 2019-11-14 2021-05-14 浙江宇视科技有限公司 回声处理方法、装置、电子设备及可读存储介质
CN112804620B (zh) * 2019-11-14 2022-07-19 浙江宇视科技有限公司 回声处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
EP3133835A4 (en) 2017-12-06
CN106233751B (zh) 2019-06-21
CN106233751A (zh) 2016-12-14
EP3133835A1 (en) 2017-02-22
KR101837529B1 (ko) 2018-03-12
EP3133835B1 (en) 2018-09-12
JP6349899B2 (ja) 2018-07-04
US10038769B2 (en) 2018-07-31
US9807215B2 (en) 2017-10-31
CN110213453A (zh) 2019-09-06
CN110213453B (zh) 2021-12-17
JP2015204535A (ja) 2015-11-16
US20180007186A1 (en) 2018-01-04
KR20160132475A (ko) 2016-11-18
US20170041445A1 (en) 2017-02-09

Similar Documents

Publication Publication Date Title
JP6349899B2 (ja) 放収音装置
KR102125443B1 (ko) 고도 렌더링을 실현하는 필터링된 오디오 신호를 생성하기 위한 장치 및 방법
US8644517B2 (en) System and method for automatic disabling and enabling of an acoustic beamformer
JP5249207B2 (ja) 適応性のある方向性信号処理を備えた補聴装置
JP5985108B2 (ja) マイクロフォンの位置を決定するための方法及び機器
JP2009542057A5 (ja)
WO2008041878A2 (en) System and procedure of hands free speech communication using a microphone array
JP3582712B2 (ja) 収音方法および収音装置
CN103534942B (zh) 处理音频信号
JP6631010B2 (ja) マイク選択装置、マイクシステムおよびマイク選択方法
CN111354368B (zh) 补偿处理后的音频信号的方法
JP6631657B2 (ja) 放収音装置
WO2023081535A1 (en) Automated audio tuning and compensation procedure
CN113179476B (zh) 配置参数的获取方法、配置方法、电子设备及存储装置
CN115410593A (zh) 音频信道的选择方法、装置、设备及存储介质
US10916257B2 (en) Method and device for equalizing audio signals
WO2017142916A1 (en) Diffusivity based sound processing method and apparatus
WO2023125537A1 (zh) 声音信号处理方法、装置、设备及存储介质
US10923132B2 (en) Diffusivity based sound processing method and apparatus
WO2023081534A1 (en) Automated audio tuning launch procedure and report
JPH08211116A (ja) 伝達特性測定装置とそれを用いたエコーキャンセラ及び拡声装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15779431

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20167028694

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015779431

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15304159

Country of ref document: US

Ref document number: 2015779431

Country of ref document: EP