WO2019098178A1 - 音声コミュニケーション装置、音声コミュニケーション方法、プログラム - Google Patents
音声コミュニケーション装置、音声コミュニケーション方法、プログラム Download PDFInfo
- Publication number
- WO2019098178A1 WO2019098178A1 PCT/JP2018/041945 JP2018041945W WO2019098178A1 WO 2019098178 A1 WO2019098178 A1 WO 2019098178A1 JP 2018041945 W JP2018041945 W JP 2018041945W WO 2019098178 A1 WO2019098178 A1 WO 2019098178A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- collected
- speaker
- microphone
- voice communication
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims description 10
- 230000005540 biological transmission Effects 0.000 claims abstract description 38
- 230000003044 adaptive effect Effects 0.000 claims description 56
- 230000005236 sound signal Effects 0.000 claims description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012937 correction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- 230000003111 delayed effect Effects 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 230000006866 deterioration Effects 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B3/00—Line transmission systems
- H04B3/02—Details
- H04B3/20—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
- H04B3/23—Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/10—Applications
- G10K2210/108—Communication systems, e.g. where useful sound is kept and noise is cancelled
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/50—Miscellaneous
- G10K2210/505—Echo cancellation, e.g. multipath-, ghost- or reverberation-cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Definitions
- the present invention relates to an echo cancellation technology that cancels an echo, which is a sound that has passed from a speaker to a microphone in a handsfree call.
- FIG. 16 shows the configuration of a voice communication apparatus 800 including a prior art echo canceller 805 disclosed in Patent Document 1.
- the echo cancellation apparatus 805 includes a subtraction unit 820, an addition unit 830, a first adaptive filter 840, and a second adaptive filter 850.
- a configuration in which a speaker 890, a main microphone 892, and a sub microphone 894 are added to the echo canceling device 800 is a voice communication device 800.
- the echo canceller 805 picks up the voice of the near end talker 10 as much as possible and arranges the main microphone 892 so as not to pick up the sound from the speaker 890 as much as possible, and the near end talker 10 picks up the sound from the speaker 890 as much as possible.
- the sub microphone 894 is connected so as not to pick up the voice of the The main microphone 892 and the sub microphone 894 are respectively realized by a directional microphone directed to the speaker direction and a directional microphone directed to the speaker direction.
- the echo canceller 805 includes a first adaptive filter 840 for processing a sound pickup signal by the sub microphone 894 and a reception signal before output from the speaker (that is, a far-end speaker (not shown) transmitted through the network 900).
- the echo is canceled using two adaptive filters of a second adaptive filter 850 that processes the (voice signal).
- a second adaptive filter 850 that processes the (voice signal).
- the directional microphone used for the configuration of the voice communication device 800 is more expensive than the nondirectional microphone.
- a large number of sound holes are required when the directional microphone is incorporated into the housing of the voice communication device 800, and there is a large design restriction.
- a speaker for emitting a reception signal that is a voice signal of a far-end speaker, and an acoustic signal including a speaker voice that is a voice emitted by a near-end speaker and a reproduced sound that has emitted the reception signal.
- a second microphone that picks up an audio signal including the speaker voice and the reproduced sound as a second pick-up signal, the first microphone pick-up signal or the first pick-up signal
- a correction unit that generates a corrected sound collection signal that is a signal obtained by correcting a difference; a signal obtained by subtracting the second sound collection signal from the corrected sound collection signal; or the corrected sound collection signal from the first sound collection signal
- Generating a first subtracted first collected signal which is a signal obtained by subtracting An subtracting unit, and an adaptive filter for generating an adaptively filtered second collected signal by eliminating an echo that changes with time from the second collected signal and a transmission signal transmitted to the far-end speaker
- a second subtracting unit that generates, as the transmission signal, a signal obtained by subtracting the adaptive filtered second collected signal from the
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- FIG. 1 is a block diagram showing an example of the configuration of a voice communication device 100.
- 5 is a flowchart showing an example of the operation of the voice communication device 100. It is a figure which shows the example of the positional relationship of a speaker and a microphone. It is a figure which shows the example of the positional relationship of a speaker and a microphone. It is a figure which shows the example of the positional relationship of a speaker and a microphone. It is a figure which shows the example of the positional relationship of a speaker and a microphone.
- FIG. 2 is a block diagram showing an example of the configuration of a voice communication device 200. 7 is a flowchart showing an example of the operation of the voice communication device 200.
- FIG. 1 is a block diagram showing an example of the configuration of a voice communication device 100.
- 5 is a flowchart showing an example of the operation of the voice communication device 100. It is a figure which shows the example of the positional relationship of a speaker and a microphone. It is a figure
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 300. 7 is a flowchart showing an example of the operation of the voice communication device 300.
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 400. 7 is a flowchart showing an example of the operation of the voice communication device 400.
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 500. 7 is a flowchart showing an example of the operation of the voice communication device 500.
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 600. 7 is a flowchart showing an example of the operation of the voice communication device 600.
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 601. 6 is a flowchart showing an example of the operation of the voice communication device 601.
- FIG. 16 is a block diagram showing an example of the configuration of a voice communication device 800.
- FIG. 1 is a block diagram showing the configuration of the voice communication device 100.
- FIG. 2 is a flowchart showing the operation of the voice communication device 100.
- the voice communication device 100 includes a speaker 102, a first microphone 104, a second microphone 106, a multiplication unit 110, a first subtraction unit 120, a second subtraction unit 130, and an adaptive filter 140. including.
- the speaker 102 emits a far-end speaker's (not shown) speech signal (hereinafter referred to as a reception signal) transmitted through the network 900.
- a reception signal a speech signal transmitted through the network 900.
- the near-end speaker 10 speaks appropriately.
- the voice emitted by the near-end speaker 10 is called a speaker voice.
- the first microphone 104 is disposed at a position farther from the speaker 102 than the second microphone 106. That is, the second microphone 106 is disposed at a position closer to the speaker 102 than the first microphone 104.
- the first microphone 104 and the second microphone 106 may be nondirectional microphones.
- the speaker 102, the first microphone 104, and the second microphone 106 are accommodated in the housing of the voice communication device 100.
- the distance between the speaker 102 and the first microphone 104 is about 30 mm
- the distance between the speaker 102 and the second microphone 106 is about 10 mm
- the size of the casing of the voice communication device 100 is relatively small at about 80 mm ⁇ 40 mm. It is good.
- the voice communication device 100 outputs a transmission signal to be transmitted to the far-end speaker.
- the transmission signal is transmitted to the far-end speaker via the network 900.
- the multiplication unit 110 generates a signal (hereinafter, referred to as a second gain-completed sound pickup signal) obtained by multiplying a sound collection signal collected by the second microphone 106 (hereinafter referred to as a second sound collection signal) by a predetermined fixed coefficient. (S110).
- the second collected signal is a signal obtained by collecting a speaker's voice, a reproduction sound generated by uttering a reception signal, and the like. The method of determining the fixed coefficient will be described later.
- the first subtraction unit 120 is a signal obtained by subtracting the second sound-collected signal after gaining from the sound-collected signal collected by the first microphone 104 (hereinafter referred to as a first collected-sound signal) (hereinafter referred to as first-collected first collected).
- a sound signal is generated (S120).
- the first collected signal is also a signal obtained by collecting the speaker's voice, the reproduced sound, and the like.
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the adaptive filter 140 receives the second collected signal as an input and generates an adaptive filtered second collected signal in which the echo is eliminated from the transmission signal.
- the echo component includes the reproduced sound component remaining due to the influence of the variation of the microphone characteristic, the housing characteristic of the voice communication device 100, the echo characteristic of the room using the voice communication device 100, and the like. That is, the adaptive filter 140 is used to cancel echoes due to the influence of the room's reverberation characteristics that can not be considered in advance.
- the filter coefficients set in the adaptive filter 140 are successively updated to correspond to echoes that change with time. The method of updating the filter coefficients (adaptive algorithm) will be described later.
- the processing of S140 is executed using the second collected signal obtained by collecting the reproduction sound including this distortion by the second microphone 106 located closer to the speaker 102. Be done.
- the second subtraction unit 130 generates, as a transmission signal, a signal obtained by subtracting the adaptively filtered second collected signal from the first subtracted first collected signal (S130).
- the sound reaching the first microphone 104 directly from the speaker 102 is estimated and subtracted.
- the value calculated from the microphone arrangement that is, the ratio d2 / d1 of the distance d2 between the speaker 102 and the second microphone 106 and the distance d1 between the speaker 102 and the first microphone 104 is a fixed coefficient
- the second sound collection A signal obtained by multiplying the signal by the fixed coefficient d2 / d1 (a second sound collection signal after gain) is subtracted from the first sound collection signal.
- the second sound collection signal collected by the second microphone 106 includes the reproduction sound from the speaker 102 as a main component.
- FIG. 3A shows a positional relationship in which the microphone is at only one side with respect to the speaker
- two microphones may be arranged so as to sandwich the speaker as shown in FIG. 3B.
- the speakers may be arranged to be at approximately equal distances from the two microphones.
- FIG. 3D in the figure, it may be arranged so as to be biased in the left-right direction.
- the adaptive filter uses an adaptive algorithm that sequentially updates filter coefficients.
- Typical examples of this adaptive algorithm include NLMS (Normalized Least Mean Squares) algorithm and LMS (Least Mean Squares) algorithm.
- the filter coefficients are updated using the received signal x (t) from the far-end speaker and the transmitted signal e (t) for the far-end speaker.
- NLMS Normalized Least Mean Squares
- LMS Least Mean Squares
- the NLMS algorithm is an algorithm that updates filter coefficients using only the latest one-sample transmission signal e (t) that has been observed, and has a feature with a small amount of calculation.
- the filter coefficient update equation is expressed by the following two equations.
- X (t) is a vector of L samples of the reception signal x (t) at time t
- X (t) (x (t-0),..., X (t-L + 1))
- T Represented by Y (t) is the vector of L samples of the received sound signal y (t) at time t
- Y m (t) (y m (t-0), ..., y m (t-L + 1)
- T (a received signal y m (t) is an audio signal collected by the microphone m).
- LMS algorithm Similar to the NLMS algorithm, the LMS algorithm is also an algorithm for updating filter coefficients using only the latest one-sample observed transmission signal e (t), and has a feature with a small amount of calculation.
- the update equation of the LMS algorithm can be expressed by the following two equations.
- the filter coefficients may be updated to eliminate near-end speaker's voice (speaker voice).
- the output signal (transmission signal) of the second subtraction unit 130 attention is paid to the fact that the voice signal (reception signal) of the far-end speaker from the speaker is attenuated.
- the power of the output signal (second collected signal) of the second microphone 106 and the power of the output signal (transmission signal) of the second subtraction unit 130 are compared, and the output signal (transmission signal) of the second subtraction unit 130 is compared.
- the adaptive filter is learned (that is, the filter coefficients of the adaptive filter are updated).
- a sufficiently small value is, for example, about 0.5 to 0.1 times.
- the threshold value is a predetermined real number (for example, a certain real number between 0.1 and 0.5), the power Pow1 of the output signal (transmission signal) of the second subtraction unit 130 and the output signal of the second microphone 106 (second collected signal)
- the ratio Pow1 / Pow2 of the power Pow2 of) is less than or less than the threshold.
- the fact that the ratio Pow1 / Pow2 is equal to or less than the threshold value or smaller than the threshold value is referred to as a predetermined range indicating that the ratio Pow1 / Pow2 is small.
- Patent Document 1 Japanese Patent Application Laid-Open No. 2006-135886
- Echo canceller includes a speaker and a vector h * of length L having as elements the impulse response of the echo path between the microphone (hereinafter, * * denotes a vector) is simulated characteristics h '* (k) (k given Let us have a simulated echo path that holds the number of steps pointing to the discrete time of the interval). Here, the simulated characteristic h ′ * (k) corresponds to the filter coefficient.
- the update equation of the simulated characteristic h ′ * (k) is expressed by the following equation.
- x (k) is the received signal from the far-end speaker
- x * (k) (x (k), x (k-1), ..., x (k-L + 1)) T
- X * (k) (x * (k), x * (k-1), ..., x * (k-p + 1)) T
- ⁇ (k) are fixed or time-variant update adjustment coefficients (0 ⁇ (k) ⁇ 2)
- e (k) is a transmission signal to the far-end speaker
- e * (k) is an error signal vector represented by the following equation.
- the limiter function a (a) is an arbitrary function having a characteristic of suppressing the value as the input value a increases.
- the upper limit value of the limiter function ⁇ (a) is set to a value less than 1, and the learning of the adaptive filter is delayed in the section in which the speech component of the near-end speaker is abundant. That is, the threshold value is a predetermined real number (for example, a real number of 0.1 or more and 0.5 or less), and the upper limit of the limiter function ⁇ (a) is less than or equal to the threshold value.
- the fact that the upper limit of the limiter function) (a) is less than or equal to the threshold is said to be within a predetermined range indicating that the upper limit of the limiter function ⁇ (a) is smaller.
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- the fixed coefficient is set in advance with the known information (ratio d2 / d1)
- echo cancellation can be performed from the initial state.
- the adaptive filter it is possible to further eliminate the reproduced sound component remaining due to the influence of the variation of the microphone characteristic, the housing characteristic of the voice communication device, the echo characteristic of the room using the voice communication device, and the like. As a result, stable echo cancellation can be performed even if there are large variations in microphone characteristics and mounting errors with the housing.
- the distance d2 between the speaker 102 and the second microphone 106 is smaller than the distance d1 between the speaker 102 and the first microphone 104, the reproduction sound of the received signal being emitted from the speaker 102 corresponds to that of the second microphone 106 and the first microphone 104. Sounds picked up in order. It is possible to further improve the echo cancellation performance by considering the timing deviation of the sound collection.
- a second embodiment in which the difference in the sound collection timing is considered will be described.
- FIG. 4 is a block diagram showing the configuration of the voice communication device 200.
- FIG. 5 is a flowchart showing the operation of the voice communication device 200.
- the voice communication device 200 includes the speaker 102, the first microphone 104, the second microphone 106, the delay unit 210, the multiplication unit 110, the first subtraction unit 120, and the second subtraction unit 130. And an adaptive filter 140. That is, the voice communication device 200 differs from the voice communication device 100 in that the voice communication device 200 further includes the delay unit 210.
- the delay unit 210 generates a signal obtained by adding a predetermined delay to the second collected sound signal (hereinafter, referred to as a delayed second collected sound signal) (S210). The method of determining the delay time will be described later.
- the multiplying unit 110 multiplies the delayed second collected sound signal by a predetermined fixed coefficient to generate a gain-completed second collected sound signal (S110).
- the first subtraction unit 120 generates a first subtracted first sound collection signal by subtracting the second sound collection signal after gaining from the first sound collection signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second subtraction unit 130 subtracts the adaptively filtered second collected signal from the first subtracted first collected signal to generate a transmission signal (S130).
- the delay time ⁇ taken for the sound to travel may be taken as the delay time, which is the distance d1 ⁇ d2 corresponding to the difference between the distance d1 between the speaker 102 and the first microphone 104 and the distance d2 between the speaker 102 and the second microphone 106.
- v the speed of sound
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- the delay unit 210 and the multiplication unit 110 according to the second embodiment can take into consideration the difference in the sound collection timing (delay time difference) between the first microphone 104 and the second microphone 106 and the difference in the amplitude of the sound collection signal.
- the difference in frequency characteristics between the first microphone 104 and the second microphone 106 can not be considered. Therefore, in the third embodiment, a configuration using a fixed filter that can handle the difference in frequency characteristics between the first microphone 104 and the second microphone 106 will be described.
- FIG. 6 is a block diagram showing the configuration of the voice communication device 300.
- FIG. 7 is a flowchart showing the operation of the voice communication device 300.
- the voice communication device 300 includes the speaker 102, the first microphone 104, the second microphone 106, the fixed filter 310, the first subtraction unit 120, the second subtraction unit 130, and the adaptive filter 140. including. That is, the voice communication device 300 differs from the voice communication device 200 in that the fixed filter 310 is included instead of the delay unit 210 and the multiplication unit 110.
- Fixed filter 310 generates a filtered second collected sound signal by performing predetermined filtering on the second collected sound signal (S310).
- S310 For example, an FIR (Finite Impulse Response) filter can be used as the fixed filter 310.
- FIR Finite Impulse Response
- the setting of the fixed filter will be described below. It is considered that there may be a difference in the frequency characteristics of the direct sound component of the echo reaching the first microphone 104 and the second microphone 106 due to the variation of the radiation characteristics of the sound of the speaker 102 and the microphone characteristics. Therefore, the delay time difference, the amplitude difference, and the frequency characteristic difference between the first microphone 104 and the second microphone 106 are obtained by experiment or simulation, and the difference is set as a fixed filter.
- the first subtraction unit 120 subtracts the filtered second collected signal from the first collected signal to generate a first subtracted first collected signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second subtraction unit 130 subtracts the adaptively filtered second collected signal from the first subtracted first collected signal to generate a transmission signal (S130).
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- the estimation accuracy of the echo direct sound component is improved more than the first embodiment or the second embodiment, and the echo cancellation performance is improved.
- the filtered second collected signal is subtracted from the first collected signal, this may cause deterioration of the frequency characteristic to the voice of the near end speaker who is the target sound. is there. This deterioration becomes greater as the distance d1 between the speaker 102 and the first microphone 104 and the distance d2 between the speaker 102 and the second microphone 106 are shorter. Therefore, in the fourth embodiment, a configuration to which a fixed filter for correcting the deterioration of the frequency characteristic is added will be described.
- FIG. 8 is a block diagram showing the configuration of voice communication apparatus 400.
- FIG. 9 is a flowchart showing the operation of the voice communication device 400.
- the voice communication device 400 includes the speaker 102, the first microphone 104, the second microphone 106, the fixed filter 310, the second fixed filter 410, the first subtraction unit 120, and the second subtraction. And an adaptive filter 140. That is, the voice communication device 400 differs from the voice communication device 300 in that the voice communication device 400 further includes the second fixed filter 410.
- the second fixed filter 410 generates a first filtered sound collection signal by performing predetermined filtering on the first sound collection signal (S410).
- a FIR (Finite Impulse Response) filter can be used as the fixed filter 410.
- Fixed filter 310 generates a filtered second collected sound signal by performing predetermined filtering on the second collected sound signal (S310).
- the first subtraction unit 120 subtracts the filtered second collected signal from the filtered first collected signal to generate a first subtracted first collected signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second subtraction unit 130 subtracts the adaptively filtered second collected signal from the first subtracted first collected signal to generate a transmission signal (S130).
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- echo cancellation is performed using the adaptive filter 140 that receives the second collected signal.
- a configuration in which a second adaptive filter that receives a reception signal is added will be described as a fifth embodiment.
- the adaptive filter is added to any of the first to third embodiments instead of the fourth embodiment. It is good also as composition.
- FIG. 10 is a block diagram showing the configuration of voice communication apparatus 500.
- FIG. 11 is a flowchart showing the operation of the voice communication device 500.
- the voice communication device 500 includes the speaker 102, the first microphone 104, the second microphone 106, the fixed filter 310, the second fixed filter 410, the first subtraction unit 120, and the second subtraction. Unit 130, an adaptive filter 140, and a second adaptive filter 540. That is, the voice communication device 500 differs from the voice communication device 400 in that the voice communication device 500 further includes the second adaptive filter 540.
- the second fixed filter 410 generates a first filtered sound collection signal by performing predetermined filtering on the first sound collection signal (S410).
- Fixed filter 310 generates a filtered second collected sound signal by performing predetermined filtering on the second collected sound signal (S310).
- the first subtraction unit 120 subtracts the filtered second collected signal from the filtered first collected signal to generate a first subtracted first collected signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second adaptive filter 540 generates an adaptively filtered reception signal by canceling echoes that change with time from the reception signal and the transmission signal (S 540).
- the second adaptive filter 540 receives the reception signal as an input and generates an adaptive filtered reception signal in which the echo is eliminated from the transmission signal.
- the second subtraction unit 130 generates, as a transmission signal, a signal obtained by subtracting the adaptive filtered second collected signal and the adaptive filtered reception signal from the first subtracted first collected signal (S130).
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- FIG. 12 is a block diagram showing the configuration of voice communication apparatus 600.
- FIG. 13 is a flowchart showing the operation of the voice communication device 600.
- the voice communication device 600 includes the speaker 102, the first microphone 104, the second microphone 106, the correction unit 610, the first subtraction unit 120, the second subtraction unit 130, and the adaptive filter 140. including.
- voice communication apparatus 600 differs from voice communication apparatus 100 in that it includes correction unit 610 instead of multiplication unit 110.
- the correction unit 610 is a signal obtained by correcting the difference in amplitude based on the difference between the distance d1 from the speaker 102 to the first microphone 104 and the distance d2 from the speaker 102 to the second microphone 106 from the first sound collection signal.
- a finished sound pickup signal is generated (S610).
- the degree of correction may be determined in consideration of, for example, the equation (1) described in the [fixed coefficient] of the first embodiment.
- the first subtraction unit 120 subtracts the second collected signal from the corrected collected signal generated in S610 to generate a first subtracted first collected signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second subtraction unit 130 subtracts the adaptively filtered second collected signal from the first subtracted first collected signal to generate a transmission signal (S130).
- the voice communication device 600 is configured to correct the first collected sound signal, it may be configured to correct the second collected sound signal.
- a voice communication device 601 having such a configuration will be described.
- FIG. 14 is a block diagram showing the configuration of the voice communication device 601.
- FIG. 15 is a flowchart showing the operation of the voice communication device 601.
- the voice communication device 601 includes the speaker 102, the first microphone 104, the second microphone 106, the correction unit 611, the first subtraction unit 120, the second subtraction unit 130, and the adaptive filter 140. including. That is, the voice communication device 601 differs from the voice communication device 600 in that the voice communication device 601 includes the correction unit 611 instead of the correction unit 610.
- the correction unit 611 is a signal obtained by correcting the difference in amplitude based on the difference between the distance d1 from the speaker 102 to the first microphone 104 and the distance d2 from the speaker 102 to the second microphone 106 from the second collected sound signal A finished sound pickup signal is generated (S611).
- the degree of correction may be determined in consideration of, for example, the equation (1) described in the [fixed coefficient] of the first embodiment.
- the first subtraction unit 120 subtracts the corrected sound collection signal generated in S611 from the first sound collection signal to generate a first subtracted first sound collection signal (S120).
- the adaptive filter 140 generates an adaptively filtered second collected sound signal by removing an echo that changes with time from the second collected sound signal and the transmission signal (S140).
- the second subtraction unit 130 subtracts the adaptively filtered second collected signal from the first subtracted first collected signal to generate a transmission signal (S130).
- voice communication can be realized which achieves high echo cancellation even using a nondirectional microphone.
- high echo cancellation can be realized using an inexpensive nondirectional microphone.
- the apparatus is, for example, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected as a single hardware entity, or a communication apparatus (eg, communication cable) capable of communicating outside the hardware entity.
- Communication unit that can be connected, CPU (central processing unit, cache memory, registers, etc. may be provided), RAM or ROM that is memory, external storage device that is hard disk, input unit for these, output unit, communication unit , CPU, RAM, ROM, and a bus connected so as to enable exchange of data between external storage devices.
- the hardware entity may be provided with a device (drive) capable of reading and writing a recording medium such as a CD-ROM. Examples of physical entities provided with such hardware resources include general purpose computers.
- the external storage device of the hardware entity stores a program necessary for realizing the above-mentioned function, data required for processing the program, and the like (not limited to the external storage device, for example, the program is read) It may be stored in the ROM which is a dedicated storage device). In addition, data and the like obtained by the processing of these programs are appropriately stored in a RAM, an external storage device, and the like.
- each program stored in the external storage device (or ROM etc.) and data necessary for processing of each program are read into the memory as necessary, and interpreted and processed appropriately by the CPU .
- the CPU realizes predetermined functions (each component requirement expressed as the above-mentioned,...
- the processing function in the hardware entity (the apparatus of the present invention) described in the above embodiment is implemented by a computer, the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on a computer, the processing function of the hardware entity is realized on the computer.
- the program describing the processing content can be recorded in a computer readable recording medium.
- the computer readable recording medium any medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, etc. may be used.
- a magnetic recording device a hard disk drive, a flexible disk, a magnetic tape or the like as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (Rewritable), etc. as magneto-optical recording medium, MO (Magneto-Optical disc) etc., as semiconductor memory, EEP-ROM (Electronically Erasable and Programmable Only Read Memory) etc. Can be used.
- this program is carried out, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM, etc. in which the program is recorded.
- this program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, at the time of execution of the process, this computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer Each time, processing according to the received program may be executed sequentially.
- ASP Application Service Provider
- the program in the present embodiment includes information provided for processing by a computer that conforms to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).
- the hardware entity is configured by executing a predetermined program on a computer, but at least a part of the processing content may be realized as hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
無指向性マイクを用いても高いエコー消去を実現することができる音声コミュニケーション技術を提供する。近端話者が発した音声を話者音声、スピーカが遠端話者の音声信号である受話信号を放声した音を再生音、第1マイクが話者音声と再生音を含む音響信号を収音した信号を第1収音信号、第2マイクが話者音声と再生音を含む音響信号を収音した信号を第2収音信号とし、スピーカと第1マイクの距離d1とスピーカと第2マイクの距離d2(d2≦d1)との違いに基づく振幅の違いに基づいて第1収音信号または第2収音信号のいずれか1つの信号を補正した補正済収音信号と、第2収音信号または第1収音信号の差である第1減算済第1収音信号を生成する第1減算部と、第1減算済第1収音信号から、エコーを消去した適応フィルタリング済第2収音信号を減じることにより、遠端話者に送信する送話信号を生成する第2減算部とを含む。
Description
本発明は、ハンズフリー通話においてスピーカからマイクロホンへ回り込んだ音であるエコーを消去するエコー消去技術に関する。
TV会議や音声会議などのハンズフリー通話においてスピーカからマイクロホンへ回り込んだ音であるエコー(音響エコー)を消去する装置はエコー消去装置と呼ばれる。図16は、特許文献1で開示されている従来技術のエコー消去装置805を含む音声コミュニケーション装置800の構成を示す。図16に示すようにエコー消去装置805は、減算部820と、加算部830と、第1適応フィルタ840と、第2適応フィルタ850を含む。また、エコー消去装置800に、スピーカ890とメインマイク892とサブマイク894を加えた構成が音声コミュニケーション装置800である。エコー消去装置805は、近端話者10の音声をなるべく大きく拾いスピーカ890からの音をなるべく拾わないように配置されたメインマイク892と、スピーカ890からの音をなるべく大きく拾い近端話者10の音声をなるべく拾わないように配置されたサブマイク894に接続する。メインマイク892、サブマイク894は、話者方向を向いた指向性マイク、スピーカ方向を向いた指向性マイクによりそれぞれ実現される。エコー消去装置805は、サブマイク894による収音信号を処理する第1適応フィルタ840とスピーカから出力される前の受話信号(つまり、ネットワーク900を介して伝達された、遠端話者(図示しない)の音声信号)を処理する第2適応フィルタ850の2つの適応フィルタを用いて、エコーを消去する。これにより、スピーカ音の歪成分も含めエコーを消去することが可能となり、音声コミュニケーション装置800の筐体が小型であっても、高性能なハンズフリー通話を実現することが可能となる。
しかし、音声コミュニケーション装置800の構成に用いる指向性マイクは無指向性マイクと比べコストが高い。また、指向性マイクを音声コミュニケーション装置800の筐体に組み込む際に多数の音孔が必要であり、デザイン上の制約が大きい。
そこで本発明では、無指向性マイクを用いても高いエコー消去を実現することができる音声コミュニケーション技術を提供することを目的とする。
本発明の一態様は、遠端話者の音声信号である受話信号を放声するスピーカと、近端話者が発した音声である話者音声と前記受話信号を放声した再生音を含む音響信号を第1収音信号として収音する第1マイクと、前記話者音声と前記再生音を含む音響信号を第2収音信号として収音する第2マイクと、前記第1収音信号または前記第2収音信号のいずれか1つの信号から、前記スピーカから前記第1マイクまでの距離d1と前記スピーカから前記第2マイクまでの距離d2(ただし、d2≦d1)との違いに基づく振幅の違いを補正した信号である補正済収音信号を生成する補正部と、前記補正済収音信号から前記第2収音信号を減じた信号または前記第1収音信号から前記補正済収音信号を減じた信号である第1減算済第1収音信号を生成する第1減算部と、前記第2収音信号と前記遠端話者に送信する送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する適応フィルタと、前記第1減算済第1収音信号から前記適応フィルタリング済第2収音信号を減じた信号を前記送話信号として生成する第2減算部とを含む。
本発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<第一実施形態>
以下、図1~図2を参照して音声コミュニケーション装置100を説明する。図1は、音声コミュニケーション装置100の構成を示すブロック図である。図2は、音声コミュニケーション装置100の動作を示すフローチャートである。図1に示すように音声コミュニケーション装置100は、スピーカ102と、第1マイク104と、第2マイク106と、乗算部110と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。
以下、図1~図2を参照して音声コミュニケーション装置100を説明する。図1は、音声コミュニケーション装置100の構成を示すブロック図である。図2は、音声コミュニケーション装置100の動作を示すフローチャートである。図1に示すように音声コミュニケーション装置100は、スピーカ102と、第1マイク104と、第2マイク106と、乗算部110と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。
スピーカ102は、ネットワーク900を介して伝達された、遠端話者(図示しない)の音声信号(以下、受話信号という)を放声する。また、近端話者10は、適宜発話する。近端話者10が発した音声を話者音声という。
第1マイク104は、第2マイク106よりもスピーカ102から遠い位置に配置される。つまり、第2マイク106は、第1マイク104よりもスピーカ102に近い位置に配置される。第1マイク104、第2マイク106は、無指向性マイクでよい。スピーカ102、第1マイク104、第2マイク106は音声コミュニケーション装置100の筐体に収容されている。例えば、スピーカ102と第1マイク104の距離は30mm程度、スピーカ102と第2マイク106の距離は10mm程度であり、音声コミュニケーション装置100の筐体の大きさは80mm×40mm程度と比較的小型のものでよい。
音声コミュニケーション装置100は遠端話者に送信する送話信号を出力する。送話信号はネットワーク900を介して遠端話者に伝達される。
以下、図2を参照し、音声コミュニケーション装置100の動作について説明する。乗算部110は、第2マイク106で収音した収音信号(以下、第2収音信号という)に所定の固定係数を乗じた信号(以下、ゲイン済第2収音信号という)を生成する(S110)。第2収音信号は、話者音声や受話信号を放声した再生音などを収音した信号である。固定係数の決定方法については後述する。
第1減算部120は、第1マイク104で収音した収音信号(以下、第1収音信号という)からゲイン済第2収音信号を減じた信号(以下、第1減算済第1収音信号という)を生成する(S120)。第1収音信号も、第2収音信号同様、話者音声や再生音などを収音した信号である。S120により、第1収音信号に含まれるエコー成分が消去され、エコー成分が小さくなった信号(つまり、第1減算済第1収音信号)が得られる。
適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。換言すると、適応フィルタ140は、第2収音信号を入力として、送話信号からエコーを消去した適応フィルタリング済第2収音信号を生成する。エコー成分には、マイク特性のばらつき、音声コミュニケーション装置100の筐体特性や音声コミュニケーション装置100を利用する部屋の反響特性などの影響により残留した再生音成分が含まれる。つまり、適応フィルタ140は、事前に考慮できていない部屋の反響特性などの影響によるエコーを消去するために用いられるものである。経時的に変化するエコーに対応するため、適応フィルタ140に設定されるフィルタ係数は逐次更新される。フィルタ係数の更新方法(適応アルゴリズム)については、後述する。
スピーカ102で発生する歪成分も含め消去するために、スピーカ102により近い位置にある第2マイク106でこの歪みを含む再生音を収音した第2収音信号を用いて、S140の処理は実行される。
第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じた信号を送話信号として生成する(S130)。
[固定係数]
ここでは、固定係数について説明する。自由空間に均等に放射される音声信号は、距離に反比例して振幅が小さくなる。スピーカ102から第2マイク106までの距離をd2、スピーカ102から第1マイク104までの距離をd1とする(ただし、d2≦d1)と、第1マイク104で観測される音の振幅P1と第2マイク106で観測される音の振幅P2の間には以下の関係が成立する。
ここでは、固定係数について説明する。自由空間に均等に放射される音声信号は、距離に反比例して振幅が小さくなる。スピーカ102から第2マイク106までの距離をd2、スピーカ102から第1マイク104までの距離をd1とする(ただし、d2≦d1)と、第1マイク104で観測される音の振幅P1と第2マイク106で観測される音の振幅P2の間には以下の関係が成立する。
この関係を利用して、スピーカ102から直接第1マイク104に到達する音を推定して減算する。具体的には、マイク配置から算出される値、すなわち、スピーカ102と第2マイク106の距離d2とスピーカ102と第1マイク104の距離d1の比d2/d1を固定係数とし、第2収音信号に固定係数d2/d1を乗じた信号(ゲイン済第2収音信号)を第1収音信号から減算する。
ここで、第2マイク106が収音する第2収音信号は、スピーカ102による再生音を主たる成分として含んでいることを期待している。
なお、単純に2つの距離の比d2/d1を用いる代わりに、第1減算部120が出力するエコーが最小となる値を実験的に求め、その値を固定係数としてもよい。
[スピーカと2つのマイクの位置関係]
上記説明では、第2マイク106が第1マイク104よりスピーカ102に近い位置にあることのみを要求した。図3A、図3B、図3C、図3Dにスピーカとマイクの位置関係の例を示す。図3Aはスピーカに対してマイクが片側にしかないような位置関係であるが、図3Bのようにスピーカを挟み込むように2つのマイクを配置してもよい。また、図3Cのようにスピーカが2つのマイクからほぼ等しい距離にあるように配置してもよい。さらに、図3Dのように(当該図上)左右方向に偏りがあるように配置してもよい。
上記説明では、第2マイク106が第1マイク104よりスピーカ102に近い位置にあることのみを要求した。図3A、図3B、図3C、図3Dにスピーカとマイクの位置関係の例を示す。図3Aはスピーカに対してマイクが片側にしかないような位置関係であるが、図3Bのようにスピーカを挟み込むように2つのマイクを配置してもよい。また、図3Cのようにスピーカが2つのマイクからほぼ等しい距離にあるように配置してもよい。さらに、図3Dのように(当該図上)左右方向に偏りがあるように配置してもよい。
[適応アルゴリズム]
適応フィルタではフィルタ係数を逐次更新する適応アルゴリズムが用いられる。この適応アルゴリズムの代表的なものとして、NLMS(Normalized Least Mean Squares)アルゴリズムやLMS(Least Mean Squares)アルゴリズムなどがある。フィルタ係数は、遠端話者からの受話信号x(t)と遠端話者への送話信号e(t)等を用いて更新される。以下、NLMSアルゴリズムとLMSアルゴリズムについて、簡単に説明する(特許文献1参照)。
適応フィルタではフィルタ係数を逐次更新する適応アルゴリズムが用いられる。この適応アルゴリズムの代表的なものとして、NLMS(Normalized Least Mean Squares)アルゴリズムやLMS(Least Mean Squares)アルゴリズムなどがある。フィルタ係数は、遠端話者からの受話信号x(t)と遠端話者への送話信号e(t)等を用いて更新される。以下、NLMSアルゴリズムとLMSアルゴリズムについて、簡単に説明する(特許文献1参照)。
(NLMSアルゴリズム)
NLMSアルゴリズムは、観測された最新の1サンプルの送話信号e(t)のみを用いてフィルタ係数を更新するアルゴリズムであり、演算量が少ない特徴を持つ。フィルタ係数の更新式は、以下の2つ式で表される。
NLMSアルゴリズムは、観測された最新の1サンプルの送話信号e(t)のみを用いてフィルタ係数を更新するアルゴリズムであり、演算量が少ない特徴を持つ。フィルタ係数の更新式は、以下の2つ式で表される。
ただし、H1(t)、Hm(t)(m=2, …, M、Mは2以上の整数であり、マイクロホンの数を表す)は、時刻tにおける受話信号x(t)に対するフィルタ係数のベクトルであり、Hm(t)=(hm(t, 0), …, hm(t, L-1))T(m=1, …, M)で表され、Lはタップ数である。a1とam(m=2, …, M)は事前に設定されたNLMSアルゴリズムのステップサイズであり、0<a1<2, 0<am<2を満たす。また、X(t)は時刻tにおける受話信号x(t)のLサンプル分のベクトルであり、X(t)=(x(t-0), …, x(t-L+1))Tで表す。Y(t)は時刻tにおける受音信号y(t)のLサンプル分のベクトルであり、Ym(t)=(ym(t-0), …, ym(t-L+1))Tで表す(受音信号ym(t)は、マイクロホンmで収音した音声信号である)。
(LMSアルゴリズム)
LMSアルゴリズムも、NLMSアルゴリズムと同様、観測された最新の1サンプルの送話信号e(t)のみを用いてフィルタ係数を更新するアルゴリズムであり、演算量が少ない特徴を持つ。LMSアルゴリズムの更新式は、以下の2つの式で表すことができる。
LMSアルゴリズムも、NLMSアルゴリズムと同様、観測された最新の1サンプルの送話信号e(t)のみを用いてフィルタ係数を更新するアルゴリズムであり、演算量が少ない特徴を持つ。LMSアルゴリズムの更新式は、以下の2つの式で表すことができる。
ただし、b1とbm(m=2, …, M)は事前に設定されたLMSアルゴリズムのステップサイズである。
スピーカから遠端話者の音声信号(受話信号)が出力されるのと同時に近端話者の音声(話者音声)が発せられているダブルトーク状態において、フィルタ係数更新のための適応フィルタの学習を行うと近端話者の音声(話者音声)も消去するようフィルタ係数を更新してしまう可能性がある。これを防ぐために、第2減算部130の出力信号(送話信号)において、スピーカからの遠端話者の音声信号(受話信号)が減衰していることに着目する。第2マイク106の出力信号(第2収音信号)のパワーと第2減算部130の出力信号(送話信号)のパワーを比較し、第2減算部130の出力信号(送話信号)のパワーが第2マイク106の出力信号(第2収音信号)のパワーよりも十分に小さい場合に適応フィルタを学習する(つまり、適応フィルタのフィルタ係数を更新する)。十分に小さいとは、例えば0.5~0.1倍程度である。つまり、閾値を所定の実数(例えば、0.1以上0.5以下のある実数)とし、第2減算部130の出力信号(送話信号)のパワーPow1と第2マイク106の出力信号(第2収音信号)のパワーPow2の比Pow1/Pow2が閾値以下となるか、閾値より小さくなることである。なお、比Pow1/Pow2が閾値以下となるか、閾値より小さくなることを比Pow1/Pow2が小さいことを示す所定の範囲にあるという。
また、参考特許文献1に記載の適応アルゴリズム(以下、修正アフィン射影アルゴリズムという)を用いてもよい。
(参考特許文献1:特開2006-135886号公報)
(参考特許文献1:特開2006-135886号公報)
エコー消去装置は、スピーカとマイクロホンの間の反響路のインパルス応答を要素として持つ長さLのベクトルh*(以下、**はベクトルを表わす)の模擬特性h'*(k)(kは所定間隔の離散時間を指すステップ数)を保持する模擬反響路を有するものとする。ここで、模擬特性h'*(k)がフィルタ係数に対応するものである。模擬特性h'*(k)の更新式は以下の式で表される。
ただし、x(k)は遠端話者からの受話信号、x*(k)=(x(k), x(k-1), …, x(k-L+1))T、X*(k)=(x*(k), x*(k-1), …, x*(k-p+1))T、μ(k)は固定または時変の更新調整係数(0<μ(k)<2)、e(k)は遠端話者への送話信号であり、e*(k)は次式で表される誤差信号ベクトルである。
また、リミッタ関数ψ(a)は、入力値aが大きくなるほどその値を抑圧する特性を持つ任意の関数である。
修正アフィン射影アルゴリズムにおいて、リミッタ関数ψ(a)の上限値を1未満の値に設定し、近端話者の音声成分が多く含まれる区間では適応フィルタの学習を遅くする。つまり、閾値を所定の実数(例えば、0.1以上0.5以下のある実数)とし、リミッタ関数ψ(a)の上限値が閾値以下となるか、閾値より小さくなることである。なお、リミッタ関数ψ(a)の上限値が閾値以下となるか、閾値より小さくなることをリミッタ関数ψ(a)の上限値が小さいことを示す所定の範囲にあるという。
リミッタ関数ψ(a)の上限値を所定の値より小さい値に設定して、修正アフィン射影アルゴリズムによりフィルタ係数を更新することにより、近端話者の音声(話者音声)を消去することを防止することができる。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
本実施形態の発明では、あらかじめ既知の情報(比d2/d1)で固定係数を設定しているため、初期状態からエコー消去が可能となる。さらに、適応フィルタを用いることにより、マイク特性のばらつき、音声コミュニケーション装置の筐体特性や音声コミュニケーション装置を利用する部屋の反響特性などの影響により残留した再生音成分をさらに消去することができる。これにより、マイク特性のばらつきや筐体への組み付け誤差が大きくても安定したエコー消去が可能となる。
<第二実施形態>
スピーカ102と第2マイク106の距離d2がスピーカ102と第1マイク104の距離d1より小さいことから、受音信号がスピーカ102から放声された再生音は、第2マイク106、第1マイク104の順に収音される。この収音のタイミングのずれを考慮することにより、エコー消去性能をさらに高めることが可能となる。以下、収音タイミングのずれを考慮した第二実施形態について説明する。
スピーカ102と第2マイク106の距離d2がスピーカ102と第1マイク104の距離d1より小さいことから、受音信号がスピーカ102から放声された再生音は、第2マイク106、第1マイク104の順に収音される。この収音のタイミングのずれを考慮することにより、エコー消去性能をさらに高めることが可能となる。以下、収音タイミングのずれを考慮した第二実施形態について説明する。
以下、図4~図5を参照して音声コミュニケーション装置200を説明する。図4は、音声コミュニケーション装置200の構成を示すブロック図である。図5は、音声コミュニケーション装置200の動作を示すフローチャートである。図4に示すように音声コミュニケーション装置200は、スピーカ102と、第1マイク104と、第2マイク106と、遅延部210と、乗算部110と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置200は、遅延部210をさらに含む点において音声コミュニケーション装置100と異なる。
以下、図5を参照し、音声コミュニケーション装置200の動作について説明する。遅延部210は、第2収音信号に所定の遅延を加えた信号(以下、遅延済第2収音信号という)を生成する(S210)。遅延時間の決定方法については後述する。
乗算部110は、遅延済第2収音信号に所定の固定係数を乗じることにより、ゲイン済第2収音信号を生成する(S110)。第1減算部120は、第1収音信号からゲイン済第2収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じることにより、送話信号を生成する(S130)。
[遅延時間]
ここでは、遅延部210で加える遅延時間について説明する。スピーカ102と第1マイク104の距離d1とスピーカ102と第2マイク106の距離d2の差に相当する距離d1-d2を音が進むのにかかる時間τを遅延時間とすればよい。
ここでは、遅延部210で加える遅延時間について説明する。スピーカ102と第1マイク104の距離d1とスピーカ102と第2マイク106の距離d2の差に相当する距離d1-d2を音が進むのにかかる時間τを遅延時間とすればよい。
ただし、vは音速を表す。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
本実施形態の発明では、スピーカとマイクの位置関係に起因する収音タイミングのずれを考慮するため、エコー消去性能をさらに高めることが可能となる。
<第三実施形態>
第二実施形態の遅延部210と乗算部110では、第1マイク104と第2マイク106の間の収音タイミングのずれ(遅延時間差)や収音信号の振幅の差については考慮することができるが、第1マイク104と第2マイク106の間の周波数特性の差については考慮することができない。そこで、第三実施形態では、第1マイク104と第2マイク106の間の周波数特性の差についても扱える固定フィルタを用いた構成について説明する。
第二実施形態の遅延部210と乗算部110では、第1マイク104と第2マイク106の間の収音タイミングのずれ(遅延時間差)や収音信号の振幅の差については考慮することができるが、第1マイク104と第2マイク106の間の周波数特性の差については考慮することができない。そこで、第三実施形態では、第1マイク104と第2マイク106の間の周波数特性の差についても扱える固定フィルタを用いた構成について説明する。
以下、図6~図7を参照して音声コミュニケーション装置300を説明する。図6は、音声コミュニケーション装置300の構成を示すブロック図である。図7は、音声コミュニケーション装置300の動作を示すフローチャートである。図6に示すように音声コミュニケーション装置300は、スピーカ102と、第1マイク104と、第2マイク106と、固定フィルタ310と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置300は、遅延部210と乗算部110の代わりに固定フィルタ310を含む点において音声コミュニケーション装置200と異なる。
以下、図7を参照し、音声コミュニケーション装置300の動作について説明する。固定フィルタ310は、第2収音信号に所定のフィルタリングを行うことにより、フィルタリング済第2収音信号を生成する(S310)。固定フィルタ310には、例えば、FIR(Finite Impulse Response)フィルタを用いることができる。以下、固定フィルタの設定について説明する。スピーカ102の音の放射特性やマイク特性のばらつきにより、第1マイク104と第2マイク106に到達するエコーの直接音成分の周波数特性に差が出ることがあると考えられる。そこで、第1マイク104と第2マイク106の間の遅延時間差、振幅差、周波数特性差を実験やシミュレーションで求め、これらの差を固定フィルタに設定する。
第1減算部120は、第1収音信号からフィルタリング済第2収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じることにより、送話信号を生成する(S130)。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
本実施形態の発明では、マイクの周波数特性差についても固定フィルタで考慮するため、第一実施形態や第二実施形態よりもエコー直接音成分の推定精度が上がり、エコー消去性能が向上する。
<第四実施形態>
第三実施形態では、第1収音信号からフィルタリング済第2収音信号を減算しているが、これにより、目的音である近端話者の音声に対する周波数特性の劣化が生じてしまうことがある。この劣化は、スピーカ102と第1マイク104の距離d1とスピーカ102と第2マイク106の距離d2が近い場合ほど大きくなる。そこで、この周波数特性の劣化を補正する固定フィルタを加えた構成について第四実施形態では説明する。
第三実施形態では、第1収音信号からフィルタリング済第2収音信号を減算しているが、これにより、目的音である近端話者の音声に対する周波数特性の劣化が生じてしまうことがある。この劣化は、スピーカ102と第1マイク104の距離d1とスピーカ102と第2マイク106の距離d2が近い場合ほど大きくなる。そこで、この周波数特性の劣化を補正する固定フィルタを加えた構成について第四実施形態では説明する。
以下、図8~図9を参照して音声コミュニケーション装置400を説明する。図8は、音声コミュニケーション装置400の構成を示すブロック図である。図9は、音声コミュニケーション装置400の動作を示すフローチャートである。図8に示すように音声コミュニケーション装置400は、スピーカ102と、第1マイク104と、第2マイク106と、固定フィルタ310と、第2固定フィルタ410と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置400は、第2固定フィルタ410をさらに含む点において音声コミュニケーション装置300と異なる。
以下、図9を参照し、音声コミュニケーション装置400の動作について説明する。第2固定フィルタ410は、第1収音信号に所定のフィルタリングを行うことにより、フィルタリング済第1収音信号を生成する(S410)。固定フィルタ410には、例えば、FIR(Finite Impulse Response)フィルタを用いることができる。
固定フィルタ310は、第2収音信号に所定のフィルタリングを行うことにより、フィルタリング済第2収音信号を生成する(S310)。第1減算部120は、フィルタリング済第1収音信号からフィルタリング済第2収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じることにより、送話信号を生成する(S130)。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
本実施形態の発明では、第1収音信号に所定のフィルタリングを加え補正することにより、目的音である近端話者の音声の周波数特性の劣化を抑えることが可能となる。
<第五実施形態>
これまで説明してきた各実施形態では、第2収音信号を入力とする適応フィルタ140を用いてエコー消去を行った。ここでは、受話信号を入力とする第2の適応フィルタを追加した構成を第五実施形態として説明する。なお、ここでは、第四実施形態に第2の適応フィルタを追加した構成について説明するが、第四実施形態の代わりに第一実施形態~第三実施形態のいずれかに当該適応フィルタを追加する構成としてもよい。
これまで説明してきた各実施形態では、第2収音信号を入力とする適応フィルタ140を用いてエコー消去を行った。ここでは、受話信号を入力とする第2の適応フィルタを追加した構成を第五実施形態として説明する。なお、ここでは、第四実施形態に第2の適応フィルタを追加した構成について説明するが、第四実施形態の代わりに第一実施形態~第三実施形態のいずれかに当該適応フィルタを追加する構成としてもよい。
以下、図10~図11を参照して音声コミュニケーション装置500を説明する。図10は、音声コミュニケーション装置500の構成を示すブロック図である。図11は、音声コミュニケーション装置500の動作を示すフローチャートである。図10に示すように音声コミュニケーション装置500は、スピーカ102と、第1マイク104と、第2マイク106と、固定フィルタ310と、第2固定フィルタ410と、第1減算部120と、第2減算部130と、適応フィルタ140と、第2適応フィルタ540を含む。つまり、音声コミュニケーション装置500は、第2適応フィルタ540をさらに含む点において音声コミュニケーション装置400と異なる。
以下、図11を参照し、音声コミュニケーション装置500の動作について説明する。第2固定フィルタ410は、第1収音信号に所定のフィルタリングを行うことにより、フィルタリング済第1収音信号を生成する(S410)。固定フィルタ310は、第2収音信号に所定のフィルタリングを行うことにより、フィルタリング済第2収音信号を生成する(S310)。第1減算部120は、フィルタリング済第1収音信号からフィルタリング済第2収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。
第2適応フィルタ540は、受話信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済受話信号を生成する(S540)。換言すると、第2適応フィルタ540は、受話信号を入力として、送話信号からエコーを消去した適応フィルタリング済受話信号を生成する。
第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号と適応フィルタリング済受話信号を減じた信号を送話信号として生成する(S130)。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
本実施形態の発明では、受話信号を入力とする適応フィルタを追加することにより、残留しているスピーカ音をさらに消去することでき、エコー消去性能が向上する。
<第六実施形態>
以下、図12~図13を参照して音声コミュニケーション装置600を説明する。図12は、音声コミュニケーション装置600の構成を示すブロック図である。図13は、音声コミュニケーション装置600の動作を示すフローチャートである。図12に示すように音声コミュニケーション装置600は、スピーカ102と、第1マイク104と、第2マイク106と、補正部610と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置600は、乗算部110の代わりに補正部610を含む点において音声コミュニケーション装置100と異なる。
以下、図12~図13を参照して音声コミュニケーション装置600を説明する。図12は、音声コミュニケーション装置600の構成を示すブロック図である。図13は、音声コミュニケーション装置600の動作を示すフローチャートである。図12に示すように音声コミュニケーション装置600は、スピーカ102と、第1マイク104と、第2マイク106と、補正部610と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置600は、乗算部110の代わりに補正部610を含む点において音声コミュニケーション装置100と異なる。
以下、図13を参照し、音声コミュニケーション装置600の動作について説明する。補正部610は、第1収音信号から、スピーカ102から第1マイク104までの距離d1とスピーカ102から第2マイク106までの距離d2との違いに基づく振幅の違いを補正した信号である補正済収音信号を生成する(S610)。補正の程度は、例えば、第一実施形態の[固定係数]で説明した式(1)を考慮して決定するとよい。
第1減算部120は、S610で生成した補正済収音信号から第2収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じることにより、送話信号を生成する(S130)。
(変形例)
音声コミュニケーション装置600では、第1収音信号を補正するように構成したが、第2収音信号を補正するよう構成することもできる。このような構成である音声コミュニケーション装置601について説明する。
音声コミュニケーション装置600では、第1収音信号を補正するように構成したが、第2収音信号を補正するよう構成することもできる。このような構成である音声コミュニケーション装置601について説明する。
以下、図14~図15を参照して音声コミュニケーション装置601を説明する。図14は、音声コミュニケーション装置601の構成を示すブロック図である。図15は、音声コミュニケーション装置601の動作を示すフローチャートである。図14に示すように音声コミュニケーション装置601は、スピーカ102と、第1マイク104と、第2マイク106と、補正部611と、第1減算部120と、第2減算部130と、適応フィルタ140を含む。つまり、音声コミュニケーション装置601は、補正部610の代わりに補正部611を含む点において音声コミュニケーション装置600と異なる。
以下、図15を参照し、音声コミュニケーション装置601の動作について説明する。補正部611は、第2収音信号から、スピーカ102から第1マイク104までの距離d1とスピーカ102から第2マイク106までの距離d2との違いに基づく振幅の違いを補正した信号である補正済収音信号を生成する(S611)。補正の程度は、例えば、第一実施形態の[固定係数]で説明した式(1)を考慮して決定するとよい。
第1減算部120は、第1収音信号からS611で生成した補正済収音信号を減じることにより、第1減算済第1収音信号を生成する(S120)。適応フィルタ140は、第2収音信号と送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する(S140)。第2減算部130は、第1減算済第1収音信号から適応フィルタリング済第2収音信号を減じることにより、送話信号を生成する(S130)。
本実施形態の発明によれば、無指向性マイクを用いても高いエコー消去を実現する音声コミュニケーションが可能となる。特に、スピーカ音の歪が大きい小型の音声コミュニケーション装置であっても、安価な無指向性マイクを用いて高いエコー消去を実現することが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。
Claims (7)
- 遠端話者の音声信号である受話信号を放声するスピーカと、
近端話者が発した音声である話者音声と前記受話信号を放声した再生音を含む音響信号を第1収音信号として収音する第1マイクと、
前記話者音声と前記再生音を含む音響信号を第2収音信号として収音する第2マイクと、
前記第1収音信号または前記第2収音信号のいずれか1つの信号から、前記スピーカから前記第1マイクまでの距離d1と前記スピーカから前記第2マイクまでの距離d2(ただし、d2≦d1)との違いに基づく振幅の違いを補正した信号である補正済収音信号を生成する補正部と、
前記補正済収音信号から前記第2収音信号を減じた信号または前記第1収音信号から前記補正済収音信号を減じた信号である第1減算済第1収音信号を生成する第1減算部と、
前記第2収音信号と前記遠端話者に送信する送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する適応フィルタと、
前記第1減算済第1収音信号から前記適応フィルタリング済第2収音信号を減じた信号を前記送話信号として生成する第2減算部と
を含む音声コミュニケーション装置。 - 遠端話者の音声信号である受話信号を放声するスピーカと、
近端話者が発した音声である話者音声と前記受話信号を放声した再生音を含む音響信号を第1収音信号として収音する第1マイクと、
前記話者音声と前記再生音を含む音響信号を第2収音信号として収音する第2マイクと、
前記第2収音信号に所定の遅延を加えた信号である遅延済第2収音信号を生成する遅延部と、
前記遅延済第2収音信号に所定の固定係数を乗じた信号であるゲイン済第2収音信号を生成する乗算部と、
前記第1収音信号から前記ゲイン済第2収音信号を減じた信号である第1減算済第1収音信号を生成する第1減算部と、
前記第2収音信号と前記遠端話者に送信する送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する適応フィルタと、
前記第1減算済第1収音信号から前記適応フィルタリング済第2収音信号を減じた信号を前記送話信号として生成する第2減算部とを含む音声コミュニケーション装置であって、
前記スピーカから前記第1マイクまでの距離d1は、前記スピーカから前記第2マイクまでの距離d2以上であり、
前記固定係数は、前記距離d2と前記距離d1の比d2/d1である
音声コミュニケーション装置。 - 請求項1または2に記載の音声コミュニケーション装置であって、
前記適応フィルタのフィルタ係数は、前記送話信号のパワーPow1と前記第2収音信号のパワーPow2の比Pow1/Pow2が小さいことを示す所定の範囲にある場合にNLMS(Normalized Least Mean Squares)アルゴリズムまたはLMS(Least Mean Squares)アルゴリズムを用いて更新される
ことを特徴とする音声コミュニケーション装置。 - 請求項1または2に記載の音声コミュニケーション装置であって、
前記適応フィルタのフィルタ係数は、修正アフィン射影アルゴリズムで用いるリミッタ関数ψ(a)の上限値が小さいことを示す所定の範囲にある場合に前記修正アフィン射影アルゴリズムを用いて更新される
ことを特徴とする音声コミュニケーション装置。 - 遠端話者の音声信号である受話信号を放声するスピーカと、近端話者が発した音声である話者音声と前記受話信号を放声した再生音を含む音響信号を第1収音信号として収音する第1マイクと、前記話者音声と前記再生音を含む音響信号を第2収音信号として収音する第2マイクとを含む音声コミュニケーション装置が、前記遠端話者に送信する送話信号を生成する音声コミュニケーション方法であって、
前記音声コミュニケーション装置が、前記第1収音信号または前記第2収音信号のいずれか1つの信号から、前記スピーカから前記第1マイクまでの距離d1と前記スピーカから前記第2マイクまでの距離d2(ただし、d2≦d1)との違いに基づく振幅の違いを補正した信号である補正済収音信号を生成する補正ステップと、
前記音声コミュニケーション装置が、前記補正済収音信号から前記第2収音信号を減じた信号または前記第1収音信号から前記補正済収音信号を減じた信号である第1減算済第1収音信号を生成する第1減算ステップと、
前記音声コミュニケーション装置が、前記第2収音信号と前記送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する適応フィルタリングステップと、
前記音声コミュニケーション装置が、前記第1減算済第1収音信号から前記適応フィルタリング済第2収音信号を減じた信号を前記送話信号として生成する第2減算ステップと
を含む音声コミュニケーション方法。 - 遠端話者の音声信号である受話信号を放声するスピーカと、近端話者が発した音声である話者音声と前記受話信号を放声した再生音を含む音響信号を第1収音信号として収音する第1マイクと、前記話者音声と前記再生音を含む音響信号を第2収音信号として収音する第2マイクとを含む音声コミュニケーション装置が、前記遠端話者に送信する送話信号を生成する音声コミュニケーション方法であって、
前記音声コミュニケーション装置が、前記第2収音信号に所定の遅延を加えた信号である遅延済第2収音信号を生成する遅延ステップと、
前記音声コミュニケーション装置が、前記遅延済第2収音信号に所定の固定係数を乗じた信号であるゲイン済第2収音信号を生成する乗算ステップと、
前記音声コミュニケーション装置が、前記第1収音信号から前記ゲイン済第2収音信号を減じた信号である第1減算済第1収音信号を生成する第1減算ステップと、
前記音声コミュニケーション装置が、前記第2収音信号と前記送話信号から、経時的に変化するエコーを消去することにより、適応フィルタリング済第2収音信号を生成する適応フィルタリングステップと、
前記音声コミュニケーション装置が、前記第1減算済第1収音信号から前記適応フィルタリング済第2収音信号を減じた信号を前記送話信号として生成する第2減算ステップとを含み、
前記スピーカから前記第1マイクまでの距離d1は、前記スピーカから前記第2マイクまでの距離d2以上であり、
前記固定係数は、前記距離d2と前記距離d1の比d2/d1である
音声コミュニケーション方法。 - 請求項1ないし4のいずれか1項に記載の音声コミュニケーション装置としてコンピュータを機能させるためのプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/652,199 US11232806B2 (en) | 2017-11-14 | 2018-11-13 | Voice communication device, voice communication method, and program |
JP2019554218A JP6954370B2 (ja) | 2017-11-14 | 2018-11-13 | 音声コミュニケーション装置、音声コミュニケーション方法、プログラム |
RU2020115442A RU2744518C1 (ru) | 2017-11-14 | 2018-11-13 | Устройство голосовой связи, способ голосовой связи и программа |
CN201880073209.7A CN111345048A (zh) | 2017-11-14 | 2018-11-13 | 语音通信装置、语音通信方法、程序 |
ES18879623T ES2943483T3 (es) | 2017-11-14 | 2018-11-13 | Dispositivo de comunicación por voz, método de comunicación por voz, y programa |
EP18879623.9A EP3713250B1 (en) | 2017-11-14 | 2018-11-13 | Voice communication device, voice communication method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017218825 | 2017-11-14 | ||
JP2017-218825 | 2017-11-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019098178A1 true WO2019098178A1 (ja) | 2019-05-23 |
Family
ID=66538618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/041945 WO2019098178A1 (ja) | 2017-11-14 | 2018-11-13 | 音声コミュニケーション装置、音声コミュニケーション方法、プログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US11232806B2 (ja) |
EP (1) | EP3713250B1 (ja) |
JP (1) | JP6954370B2 (ja) |
CN (1) | CN111345048A (ja) |
ES (1) | ES2943483T3 (ja) |
RU (1) | RU2744518C1 (ja) |
WO (1) | WO2019098178A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148203A (zh) * | 2022-06-06 | 2022-10-04 | 青岛海尔科技有限公司 | 拾音校准方法、装置、非易失性存储介质及电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112153547A (zh) * | 2020-09-03 | 2020-12-29 | 海尔优家智能科技(北京)有限公司 | 音频信号的校正方法、装置、存储介质及电子装置 |
CN113726966A (zh) * | 2021-07-28 | 2021-11-30 | 台湾立讯精密有限公司 | 通讯终端、通讯系统和音频信息处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05241582A (ja) * | 1992-02-28 | 1993-09-21 | Nec Corp | ノイズキャンセラ |
JPH06189395A (ja) * | 1992-07-13 | 1994-07-08 | Minnesota Mining & Mfg Co <3M> | 収斂される適応フィルタ機能を備えた聴覚補助装置、ノイズ抑制装置およびフィードバック抑制装置 |
JPH08223275A (ja) * | 1995-02-15 | 1996-08-30 | Matsushita Electric Works Ltd | ハンズフリー通話装置 |
JPH1141342A (ja) * | 1997-07-15 | 1999-02-12 | Calsonic Corp | 自動車電話装置 |
JP2006135886A (ja) | 2004-11-09 | 2006-05-25 | Nippon Telegr & Teleph Corp <Ntt> | 反響消去方法、反響消去装置、反響消去プログラム、及びこれを記録した記録媒体 |
JP2007336132A (ja) * | 2006-06-14 | 2007-12-27 | Matsushita Electric Ind Co Ltd | エコー抑圧装置 |
JP2011160429A (ja) | 2011-02-15 | 2011-08-18 | Nippon Telegr & Teleph Corp <Ntt> | エコー消去装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06153289A (ja) * | 1992-11-05 | 1994-05-31 | Sony Corp | 音声入出力装置 |
JPH08223274A (ja) * | 1995-02-15 | 1996-08-30 | Matsushita Electric Works Ltd | ハンズフリー通話装置 |
US5793864A (en) * | 1996-12-12 | 1998-08-11 | At&T Corp. | Nonintrusive measurement of echo power and echo path delay present on a transmission path |
JP3139405B2 (ja) * | 1997-02-28 | 2001-02-26 | 日本電気株式会社 | エコーキャンセラ |
JPWO2002095975A1 (ja) * | 2001-05-22 | 2004-09-09 | 三菱電機株式会社 | エコー処理装置 |
US20040059571A1 (en) * | 2002-09-24 | 2004-03-25 | Marantz Japan, Inc. | System for inputting speech, radio receiver and communication system |
JP2004343262A (ja) * | 2003-05-13 | 2004-12-02 | Sony Corp | マイクロフォン・スピーカ一体構成型・双方向通話装置 |
CN1701528A (zh) * | 2003-07-17 | 2005-11-23 | 松下电器产业株式会社 | 通话装置 |
CN101233561B (zh) * | 2005-08-02 | 2011-07-13 | 皇家飞利浦电子股份有限公司 | 通过根据背景噪声控制振动器的操作来增强移动通信设备中的语音可懂度 |
JP5075042B2 (ja) * | 2008-07-23 | 2012-11-14 | 日本電信電話株式会社 | エコー消去装置、エコー消去方法、そのプログラム、記録媒体 |
JP5241582B2 (ja) * | 2009-03-27 | 2013-07-17 | 三菱電機株式会社 | マルチメディア送信装置 |
CN103051818B (zh) * | 2012-12-20 | 2014-10-29 | 歌尔声学股份有限公司 | 一种用于小型免提语音通讯系统中的回声消除装置和方法 |
US9936290B2 (en) * | 2013-05-03 | 2018-04-03 | Qualcomm Incorporated | Multi-channel echo cancellation and noise suppression |
CN107636758B (zh) * | 2015-05-15 | 2022-05-24 | 哈曼国际工业有限公司 | 声学回声消除系统和方法 |
JP6189395B2 (ja) * | 2015-10-20 | 2017-08-30 | 株式会社フジエンジニアリング | 膜厚測定装置 |
JP2017191987A (ja) * | 2016-04-12 | 2017-10-19 | 日本電信電話株式会社 | エコー消去装置、その方法、プログラム、及び記録媒体 |
-
2018
- 2018-11-13 EP EP18879623.9A patent/EP3713250B1/en active Active
- 2018-11-13 WO PCT/JP2018/041945 patent/WO2019098178A1/ja unknown
- 2018-11-13 CN CN201880073209.7A patent/CN111345048A/zh active Pending
- 2018-11-13 JP JP2019554218A patent/JP6954370B2/ja active Active
- 2018-11-13 ES ES18879623T patent/ES2943483T3/es active Active
- 2018-11-13 US US16/652,199 patent/US11232806B2/en active Active
- 2018-11-13 RU RU2020115442A patent/RU2744518C1/ru active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05241582A (ja) * | 1992-02-28 | 1993-09-21 | Nec Corp | ノイズキャンセラ |
JPH06189395A (ja) * | 1992-07-13 | 1994-07-08 | Minnesota Mining & Mfg Co <3M> | 収斂される適応フィルタ機能を備えた聴覚補助装置、ノイズ抑制装置およびフィードバック抑制装置 |
JPH08223275A (ja) * | 1995-02-15 | 1996-08-30 | Matsushita Electric Works Ltd | ハンズフリー通話装置 |
JPH1141342A (ja) * | 1997-07-15 | 1999-02-12 | Calsonic Corp | 自動車電話装置 |
JP2006135886A (ja) | 2004-11-09 | 2006-05-25 | Nippon Telegr & Teleph Corp <Ntt> | 反響消去方法、反響消去装置、反響消去プログラム、及びこれを記録した記録媒体 |
JP2007336132A (ja) * | 2006-06-14 | 2007-12-27 | Matsushita Electric Ind Co Ltd | エコー抑圧装置 |
JP2011160429A (ja) | 2011-02-15 | 2011-08-18 | Nippon Telegr & Teleph Corp <Ntt> | エコー消去装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3713250A4 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115148203A (zh) * | 2022-06-06 | 2022-10-04 | 青岛海尔科技有限公司 | 拾音校准方法、装置、非易失性存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3713250A4 (en) | 2021-06-23 |
ES2943483T3 (es) | 2023-06-13 |
JP6954370B2 (ja) | 2021-10-27 |
JPWO2019098178A1 (ja) | 2020-11-19 |
US11232806B2 (en) | 2022-01-25 |
EP3713250A1 (en) | 2020-09-23 |
EP3713250B1 (en) | 2023-04-05 |
CN111345048A (zh) | 2020-06-26 |
RU2744518C1 (ru) | 2021-03-11 |
US20200251121A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3170173B1 (en) | Active noise cancellation device | |
EP2987316B1 (en) | Echo cancellation | |
JP5075042B2 (ja) | エコー消去装置、エコー消去方法、そのプログラム、記録媒体 | |
US9667803B2 (en) | Nonlinear acoustic echo cancellation based on transducer impedance | |
WO2019098178A1 (ja) | 音声コミュニケーション装置、音声コミュニケーション方法、プログラム | |
CN112863532A (zh) | 回音抑制装置、回音抑制方法以及存储介质 | |
CN112929506B (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
JP2016503262A (ja) | エコー抑圧 | |
JP4709714B2 (ja) | エコー消去装置、その方法、そのプログラム、およびその記録媒体 | |
CN114466297B (zh) | 一种具有改进的反馈抑制的听力辅助装置及抑制方法 | |
JP2011160429A (ja) | エコー消去装置 | |
JP2017191987A (ja) | エコー消去装置、その方法、プログラム、及び記録媒体 | |
JP2938076B2 (ja) | エコーキャンセラー装置 | |
JP3583998B2 (ja) | 多チャネルエコー消去方法、その装置及びプログラム記録媒体 | |
JP4425114B2 (ja) | 反響消去方法、反響消去装置、反響消去プログラム、及びこれを記録した記録媒体 | |
JP6075783B2 (ja) | エコー消去装置、エコー消去方法及びプログラム | |
JP4324036B2 (ja) | エコーキャンセル装置 | |
WO2022195955A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
JP5264686B2 (ja) | エコーキャンセル方法、エコーキャンセル装置、エコーキャンセルプログラム | |
WO2019244535A1 (ja) | エコー消去装置、エコー消去方法、プログラム | |
JP5058052B2 (ja) | エコー消去装置 | |
JP2001251224A (ja) | 反響消去方法および反響消去装置 | |
CN115512713A (zh) | 回声消除方法、装置及设备 | |
JP5264687B2 (ja) | エコーキャンセル方法、エコーキャンセル装置、エコーキャンセルプログラム | |
CN115512712A (zh) | 回声消除方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18879623 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019554218 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018879623 Country of ref document: EP Effective date: 20200615 |