WO2024042938A1 - 通話装置、通話方法及び通話プログラム - Google Patents

通話装置、通話方法及び通話プログラム Download PDF

Info

Publication number
WO2024042938A1
WO2024042938A1 PCT/JP2023/026716 JP2023026716W WO2024042938A1 WO 2024042938 A1 WO2024042938 A1 WO 2024042938A1 JP 2023026716 W JP2023026716 W JP 2023026716W WO 2024042938 A1 WO2024042938 A1 WO 2024042938A1
Authority
WO
WIPO (PCT)
Prior art keywords
reproduced sound
remote
call
volume
acoustic echo
Prior art date
Application number
PCT/JP2023/026716
Other languages
English (en)
French (fr)
Inventor
博基 古川
亘平 林田
義雅 本田
雄太 下間
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024042938A1 publication Critical patent/WO2024042938A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present disclosure relates to a technology for amplifying a predetermined reproduced sound to the surrounding area and for communicating between a person in the surrounding area and a remote speaker.
  • the audio detection section of the acoustic echo canceller device with amplification function shown in Patent Document 1 detects the level of the received signal from the far end, and when the level of the received signal is below a certain level, the coefficient correction section corrects the coefficient. Outputs a signal to stop. Thereby, the coefficient modification section modifies the coefficients of the echo canceller only when a received signal of a certain level or higher is input.
  • the audio communication device of Patent Document 2 has a function of resetting the acoustic echo cancellation function (adaptive filter) by remote control. Thereby, when performing voice communication via a communication network, it is possible to check whether the voice data transmitted from the own terminal is being normally reproduced on the other party's terminal.
  • acoustic echo cancellation function adaptive filter
  • the present disclosure was made in order to solve the above problems, and is capable of canceling the acoustic echo caused by amplifying the call voice of a remote talker, and also allows the remote talker to confirm whether or not the reproduced sound has been amplified.
  • the purpose of this is to provide technology that can be verified by individuals.
  • a telephone device is a telephone device that amplifies a predetermined reproduced sound to the surrounding area and performs a telephone call between a person in the vicinity and a remote talker
  • the telephone device is a telephone device that amplifies a predetermined reproduced sound to the surrounding area and performs a telephone call between a person in the vicinity and a remote talker, a first addition unit that adds the reproduced sound and outputs the call audio to which the reproduced sound has been added to a speaker; and an input signal acquired by a microphone that picks up surrounding sounds using the call audio as a reference signal. and an acoustic echo canceller that cancels an echo component of the voice included in the call.
  • the remote talker can confirm whether or not the reproduced sound has been amplified.
  • FIG. 1 is a diagram showing the configuration of a telephone call system in Embodiment 1 of the present disclosure.
  • FIG. 2 is a block diagram showing a detailed configuration of an acoustic echo canceller in Embodiment 1 of the present disclosure.
  • 3 is a flowchart for explaining the operation of the telephone device in Embodiment 1 of the present disclosure.
  • FIG. 2 is a diagram showing the configuration of a telephone call system in Embodiment 2 of the present disclosure. It is a flowchart for explaining the operation of the communication device in Embodiment 2 of the present disclosure.
  • FIG. 3 is a diagram showing the configuration of a telephone call system in Embodiment 3 of the present disclosure.
  • 13 is a flowchart for explaining the operation of the communication device in Embodiment 3 of the present disclosure.
  • FIG. 12 is a flowchart for explaining the operation of the communication device in Embodiment 4 of the present disclosure. It is a figure showing the composition of the call system in Embodiment 5 of this indication.
  • FIG. 9 is a diagram showing the relationship between the power of the filter coefficient and the first suppression gain when reproduced sound is detected in the fifth embodiment.
  • 12 is a first flowchart for explaining the operation of the communication device in Embodiment 5 of the present disclosure.
  • 12 is a second flowchart for explaining the operation of the communication device in Embodiment 5 of the present disclosure. It is a figure showing the composition of the call system in Embodiment 6 of this indication.
  • FIG. 12 is a diagram showing the relationship between the echo cancellation amount and the first suppression gain when reproduced sound is detected in the sixth embodiment. It is a figure showing the composition of the call system in Embodiment 7 of this indication. 12 is a flowchart for explaining the operation of the communication device in Embodiment 7 of the present disclosure.
  • FIG. 12 is a diagram showing the configuration of a telephone call system in Embodiment 8 of the present disclosure.
  • FIG. 12 is a diagram showing the configuration of a telephone call system in Embodiment 9 of the present disclosure.
  • FIG. 12 is a diagram showing the configuration of a telephone call system in Embodiment 10 of the present disclosure.
  • FIG. 12 is a diagram showing the configuration of a telephone call system in Embodiment 11 of the present disclosure.
  • FIG. 1 is a diagram showing the configuration of a vehicle equipped with a communication device and a remote monitoring device in Embodiment 1.
  • FIG. 2 is a diagram showing another configuration of a vehicle equipped with a communication device and a remote monitoring device in Embodiment 1.
  • BACKGROUND ART Conventionally, there is a transportation system in which cargo is transported by a vehicle that travels autonomously and is remotely controlled.
  • a remote monitor remotely controls the movement of the vehicle, but it is necessary for the remote monitor to communicate with the recipient who receives the package.
  • the vehicle is equipped with speakers, microphones, and acoustic echo cancellers, so that the recipient receiving the package can make a loudspeaker call with a remote supervisor.
  • the speaker amplifies the voice of the remote monitor, and the microphone picks up the voice of the receiver.
  • the acoustic echo canceller cancels the echo component of the remote supervisor's speech included in the input signal acquired by the microphone.
  • the vehicle amplifies playback sounds such as "I'm leaving” and “I'm backing up” to alert people in the vicinity.
  • the remote monitor After instructing the remote monitor to amplify the reproduced sound, the remote monitor starts moving the vehicle. Therefore, the remote monitor needs to confirm that the reproduced sound is being amplified from the vehicle and that the amplification of the reproduced sound has ended.
  • Patent Document 1 when the speaker amplifies the received signal and reproduced sound on the far end side, not only the received signal that goes around from the speaker to the microphone, but also the reproduced sound that goes around from the speaker to the microphone is removed as an acoustic echo. Ru. Therefore, the remote monitor cannot hear the reproduced sound, and it is difficult to confirm whether the reproduced sound has been properly amplified.
  • the filter coefficients are reset so that the echo that goes around from the speaker to the microphone is not removed by the echo canceling means, making it impossible for the own terminal to confirm that the voice has been amplified at the other party's terminal. can.
  • the filter coefficients of the echo canceling means are updated, the echoes that circulate from the speaker to the microphone are removed. Therefore, depending on the length of the reproduced sound, it may not be possible to confirm that the amplification of the reproduced sound has ended.
  • a communication device is a communication device that amplifies a predetermined reproduced sound to the surrounding area and performs a communication between a person in the surrounding area and a remote speaker, a first addition unit that adds the reproduced sound to a call voice of a speaker and outputs the call voice to which the reproduced sound has been added to a speaker; and a microphone that picks up surrounding sounds using the call voice as a reference signal. and an acoustic echo canceller that cancels an echo component of the telephone conversation voice included in the input signal acquired by the telephone.
  • the call voice of the remote talker is input to the acoustic echo canceller as a reference signal, and the reproduced sound is not input to the acoustic echo canceller as a reference signal, so the reproduction sound that has passed from the speaker to the microphone is added to the voice call.
  • the echo component of the call voice is canceled by the acoustic echo canceller, but the echo component of the reproduced sound is not canceled and is output to the remote party.
  • the telephone device further includes a reproduced sound detection unit that detects the presence or absence of the reproduced sound, and the acoustic echo canceller is configured to: when the reproduced sound is detected by the reproduced sound detection unit; The updating of the filter coefficients of the adaptive filter may be stopped.
  • the filter coefficients of the adaptive filter are not updated, so that only the echo component of the call voice of the remote speaker can be canceled with high accuracy.
  • a first volume adjustment unit that adjusts the volume of the reproduced sound and outputs the volume-adjusted reproduced sound to the first addition unit. It may further include.
  • the reproduced sound and the call voice whose volume has been adjusted are output from the speaker, the reproduced sound can be reliably heard by people around the speaker.
  • the telephone device may further include an automatic gain control section that automatically adjusts the volume of the output signal from the acoustic echo canceller.
  • the volume of the output signal from the acoustic echo canceller is automatically adjusted. Therefore, the volume of the echo of the reproduced sound and the volume of the voice uttered by the near-end speaker near the microphone can be made equal, and on the remote speaker side, the echo of the reproduced sound and the voice uttered by the near-end speaker can be made equal. Both can be made easier to hear.
  • a first suppression gain is set for suppressing the volume of the output signal from the acoustic echo canceller.
  • a suppression gain setting unit that sets a second suppression gain for not suppressing the volume of the output signal from the acoustic echo canceller when the playback sound is not detected by the playback sound detection unit; and the suppression gain setting unit.
  • the acoustic echo canceller may further include a variable amplifier that multiplies the output signal from the acoustic echo canceller by the first suppression gain or the second suppression gain set by the acoustic echo canceller.
  • the first suppression gain multiplied by the output signal from the acoustic echo canceller is the same as the volume of the echo of the reproduced sound heard by the far-end speaker and the near-end speaker.
  • the volume of the spoken voice is set to be the same as the volume of the spoken voice. This makes it possible to match the volume of the echo of the reproduced sound with the volume of the voice uttered by the near-end speaker in the vicinity of the microphone, and on the remote speaker side, the echo of the reproduced sound and the voice uttered by the near-end speaker Both can be made easier to hear.
  • a volume suppressing section suppresses the volume of the reproduced sound
  • a second volume suppressing section adding the reproduced sound whose volume has been suppressed by the volume suppressing section to the call voice.
  • the acoustic echo canceller further includes an adder, and the acoustic echo canceller uses the output signal from the second adder as a reference signal to suppress the call voice and volume contained in the input signal acquired by the microphone. The echo component of the reproduced sound may be canceled.
  • the volume of the reproduced sound output from the speaker and the volume of the reproduced sound input as a reference signal to the acoustic echo canceller are different, some echo components of the reproduced sound are not affected by the acoustic echo canceller.
  • the sound will be output without being canceled, and the remote speaker can confirm whether or not the reproduced sound has been amplified.
  • the telephone device further includes a reproduced sound detection unit that detects the presence or absence of the reproduced sound, and the acoustic echo canceller is configured to: when the reproduced sound is detected by the reproduced sound detection unit; The updating of the filter coefficients of the adaptive filter may be stopped.
  • the filter coefficients of the adaptive filter are not updated, so that only the echo component of the call voice of the remote speaker can be canceled with high accuracy.
  • the amount of echo cancellation of the acoustic echo canceller is estimated, and the amount of echo cancellation is determined according to the estimated amount of echo cancellation.
  • a first suppression gain for suppressing the volume of the output signal from the acoustic echo canceller, and when the reproduction sound is not detected by the reproduction sound detection section, the volume of the output signal from the acoustic echo canceller is set.
  • a suppression gain setting unit that sets a second suppression gain for not suppressing the acoustic echo canceller; and a suppression gain setting unit that sets a second suppression gain for not suppressing
  • the device may further include a variable amplifier that multiplies the output signal.
  • the first suppression gain multiplied by the output signal from the acoustic echo canceller is set on the remote talker's side depending on the echo cancellation status of the acoustic echo canceller.
  • the volume of the echo of the reproduced sound that can be heard is set to be the same as the volume of the voice uttered by the near-end speaker. This makes it possible to match the volume of the echo of the reproduced sound with the volume of the voice uttered by the near-end speaker in the vicinity of the microphone, and on the remote speaker side, the echo of the reproduced sound and the voice uttered by the near-end speaker Both can be made easier to hear.
  • the suppression gain setting unit may calculate the power of the filter coefficient, and estimate the echo cancellation amount from the calculated power of the filter coefficient.
  • the filter coefficients when the filter coefficients have not been updated and the power of the filter coefficients is small, the amount of echo cancellation becomes small and the volume of the echo of the reproduced sound output from the acoustic echo canceller becomes large. Therefore, the echo component of the reproduced sound is suppressed by the first suppression gain until the filter coefficients are updated and the power of the filter coefficients becomes large.
  • This makes it possible to match the volume of the echo of the reproduced sound with the volume of the voice uttered by the near-end speaker in the vicinity of the microphone, and on the remote speaker side, the echo of the reproduced sound and the voice uttered by the near-end speaker Both can be made easier to hear.
  • the suppression gain setting section is configured to adjust the level of the input signal input from the microphone to the acoustic echo canceller and the level of the output signal from the acoustic echo canceller. Based on this, the amount of echo cancellation may be estimated.
  • the amount of echo cancellation represents the ratio between the level of the input signal input from the microphone to the acoustic echo canceller and the level of the output signal from the acoustic echo canceller. If the acoustic echo canceller does not cancel the echo, the echo cancellation amount becomes 1, and the volume of the echo of the reproduced sound output from the acoustic echo canceller increases. Therefore, the echo component of the reproduced sound is suppressed by the first suppression gain until the acoustic echo canceler sufficiently cancels the echo.
  • the acoustic echo canceller uses the output signal from the first addition unit as a reference signal to suppress the telephone conversation sound included in the input signal acquired by the microphone.
  • the apparatus may further include a second adding section that cancels an echo component of the reproduced sound and adds the reproduced sound to an output signal from the acoustic echo canceller.
  • the echo component of the reproduced sound that circulates from the speaker to the microphone is removed by the acoustic echo canceler. Then, the reproduced sound is added to the output signal from the acoustic echo canceller, from which the echo component of the reproduced sound has been removed, and the output signal to which the reproduced sound that has not passed through the acoustic echo path is added is output to the remote speaker. . Therefore, the remote speaker can confirm clear reproduced sound that is not an acoustic echo.
  • the communication device further includes a second volume adjustment section that adjusts the volume of the reproduced sound, and the second addition section adds the output signal from the acoustic echo canceller to the output signal from the acoustic echo canceller.
  • the reproduced sound whose volume has been adjusted by a second volume adjustment section may be added.
  • the volume of the reproduced sound to be added to the output signal from the acoustic echo canceller is adjusted. Therefore, the volume of the reproduced sound and the volume of the voice uttered by the near-end speaker near the microphone can be made equal, and the remote speaker can hear both the reproduced sound and the voice uttered by the near-end speaker. It can be made easier.
  • the communication voice is used as the reference signal based on a control signal indicating whether or not the communication voice is to be sent back to a remote side.
  • the device further includes a switch that can be switched between an on state in which the call voice is input to the acoustic echo canceller and an off state in which the call voice is not input to the acoustic echo canceller as the reference signal, and the switch is configured to send the call voice back to the remote side.
  • the control signal may be switched to the off state when the control signal indicating the above is input.
  • the switch when a control signal indicating that the call voice is to be sent back to the remote side is input, the switch is switched to an off state in which the call voice is not input to the acoustic echo canceller as a reference signal. Therefore, since the acoustic echo canceller does not remove the call voice, the remote party can confirm that his/her call voice is being amplified on the other party's side.
  • the telephone device according to any one of (1) to (3) above, further comprising: a third addition unit that adds the telephone call sound to the output signal from the acoustic echo canceller; further comprising: a third volume adjustment unit that adjusts the volume of the call audio input to the third addition unit based on a control signal indicating whether to send it back to the third addition unit, the third volume adjustment unit
  • the control signal indicating that the call audio is to be sent back to the remote party is input, the unit adjusts the call audio to the volume that can be heard by the remote party and does not send the call audio back to the remote party. If the control signal indicating this is input, the call audio may be adjusted to the volume that the remote party cannot hear.
  • the call voice is adjusted to a volume that can be heard by the remote party. Therefore, the call sound adjusted to a volume that the remote talker can hear by the third volume adjustment section is added to the output signal from the acoustic echo canceller, so that the remote talker knows that his or her own call sound is heard by the other party. You can confirm that the sound is being amplified.
  • the output signal from the first adding section is converted to the reference signal based on a control signal indicating whether or not the telephone conversation voice is to be sent back to a remote side.
  • the switch further includes a switch that can be switched between an on state in which the output signal from the first adder is not inputted to the acoustic echo canceller as the reference signal, and an off state in which the output signal from the first addition section is not inputted to the acoustic echo canceller as the reference signal.
  • the switch may be switched to the off state.
  • the switch when a control signal indicating that the call audio is to be sent back to the remote side is input, the switch is switched to an OFF state in which the output signal from the first adder is not input to the acoustic echo canceller as a reference signal. It will be done. Therefore, since the acoustic echo canceller does not remove the call voice, the remote party can confirm that his/her call voice is being amplified on the other party's side.
  • the telephone device includes a third addition section that adds the telephone conversation voice to the output signal from the second addition section, and a third addition section that sends the telephone conversation voice back to a remote side.
  • the third volume adjustment section further includes a third volume adjustment section that adjusts the volume of the call audio input to the third addition section based on a control signal indicating whether or not the call sound is input to the third addition section.
  • the control signal indicating that the call audio is to be sent back to the remote side is input, the call audio is adjusted to the volume that can be heard by the remote party, and the call audio is not sent back to the remote side. If a control signal is input, the call audio may be adjusted to the volume that the remote party cannot hear.
  • the call voice is adjusted to a volume that can be heard by the remote party. Therefore, the call sound adjusted to a volume that can be heard by the remote talker is added to the output signal from the second adder, so that the remote talker can hear his or her own call sound. You can confirm that the other party is being amplified.
  • a storage unit stores in advance a plurality of playback sounds, and a playback sound to be outputted from among the plurality of playback sounds is specified.
  • the communication device may further include a communication unit that receives playback information from a remote communication device, and a reading unit that reads out the playback sound specified by the playback information from the storage unit.
  • the reproduced sound stored in the communication device can be read out, and the read reproduced sound can be output from the speaker.
  • the communication device may further include a communication unit that receives the reproduced sound transmitted by the remote communication device.
  • the present disclosure can be implemented not only as a telephone device having the above-described characteristic configuration, but also as a telephone communication method that executes characteristic processing corresponding to the characteristic configuration of the telephone device. You can also. Further, it can also be realized as a computer program that causes a computer to execute the characteristic processing included in such a telephone call method. Therefore, the following other aspects can also provide the same effects as the above communication device.
  • a communication method is a communication method using a communication device that amplifies a predetermined reproduced sound to the surrounding area and performs a communication between a person in the surrounding area and a remote speaker. adding the reproduced sound to the call voice of the remote talker, outputting the call voice with the added playback sound to a speaker, and using the call voice as a reference signal, acquiring by a microphone that picks up surrounding sounds; The echo component of the call voice included in the input signal is canceled.
  • a telephone call program is a telephone call program for amplifying a predetermined reproduced sound to the surrounding area and for carrying out a telephone call between a person in the surrounding area and a remote speaker. , a first addition unit that adds the reproduced sound to the call voice of the remote talker and outputs the call voice added with the playback sound to a speaker; and a first addition unit that collects surrounding sounds using the call voice as a reference signal.
  • the computer functions as an acoustic echo canceler that cancels the echo component of the speech voice included in the input signal acquired by the microphone.
  • a non-temporary computer-readable recording medium recording a telephone call program amplifies a predetermined playback sound to the surrounding area and communicates with people in the surrounding area and a remote speaker.
  • a non-temporary computer-readable recording medium that records a telephone call program for making a telephone call between the parties, the reproduction sound being added to the telephone call voice of the remote party; a first addition unit that outputs sound to a speaker; and an acoustic echo canceler that uses the call sound as a reference signal and cancels an echo component of the call sound included in an input signal acquired by a microphone that picks up surrounding sounds. make the computer function as
  • FIG. 1 is a diagram showing the configuration of a telephone call system in Embodiment 1 of the present disclosure.
  • the telephone call system is installed in the vehicle.
  • the vehicle is, for example, an electric robot, an electric car, an electric truck, or an electric drone.
  • a vehicle moves within a predetermined area and carries users' luggage.
  • the vehicle is monitored by a remote monitor.
  • the vehicle will run both autonomously and remotely.
  • the call system shown in FIG. 1 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 100.
  • the telephone device 100 amplifies a predetermined reproduced sound to the surrounding area, and also performs a telephone conversation between a person in the surrounding area and a remote monitor.
  • a remote monitor is an example of a remote talker.
  • the reproduced sound is a sound such as "I'm leaving" and “I'm backing up” to alert people in the vicinity. For example, when the vehicle starts moving, the reproduced sound is amplified.
  • the call audio input unit 21 outputs the remote call audio by a remote monitor received from a remote monitoring device (not shown) on the receiver side to the call device 100.
  • the reproduced sound input section 22 outputs reproduced sound to the telephone device 100.
  • the speaker 1 amplifies the remote call voice by the remote monitor and also amplifies the reproduced sound.
  • the sound output from the speaker 1 is picked up by the microphone 2, the sound uttered by the speaker on the receiving side is played back from the speaker on the receiving side with a delay, so-called acoustic echo. occurs. Therefore, an acoustic echo canceller 3, which will be described later, suppresses the acoustic echo signal included in the input signal output from the microphone 2.
  • the microphone 2 collects surrounding sounds.
  • the microphone 2 picks up the voice of a near-end speaker (speaker).
  • Microphone 2 outputs an input signal indicating the collected sound to telephone device 100 .
  • the telephone device 100 includes an acoustic echo canceller 3, a first amplifier 4, a first adder 5, and a reproduced sound detector 6. Note that the communication device 100 may include at least one of the speaker 1 and the microphone 2.
  • the acoustic echo canceller 3 cancels the echo component of the remote call voice included in the input signal acquired by the microphone 2, using the remote call voice of the remote monitor as a reference signal.
  • the acoustic echo canceller 3 receives the remote call voice xf(j) as a reference signal, and also receives the input signal y(j) from the microphone 2.
  • the acoustic echo canceller 3 removes acoustic echoes caused by remote call voices amplified from the speaker 1 and transmitted to the microphone 2.
  • the acoustic echo canceller 3 removes the echo component of the remote call voice xf(j) from the input signal y(j) acquired by the microphone 2 and outputs an echo-cancelled signal e(j).
  • the detailed configuration of the acoustic echo canceller 3 will be described later.
  • the first amplifier 4 controls the volume of the reproduced sound so that the reproduced sound can be heard in the necessary amplification area.
  • the first amplifier 4 is an example of a first volume adjustment section.
  • the first amplifier 4 adjusts the volume of the reproduced sound, and outputs the volume-adjusted reproduced sound to the first adder 5.
  • the first adding unit 5 adds the reproduced sound output from the first amplifier 4 to the remote call audio output from the call audio input unit 21.
  • the first adder 5 adds the reproduced sound to the remote call voice from the remote talker, and outputs the call voice to which the reproduced sound has been added to the speaker 1 .
  • the remote call voice xf(j) is a reference signal for the acoustic echo canceller 3.
  • the first amplifier 4 multiplies the reproduced sound xr(j) by a predetermined gain G1.
  • Gain G1 is predetermined according to the environment in which communication device 100 is used.
  • Gain G1 is a value greater than zero.
  • the first addition unit 5 adds G1 ⁇ xr(j) to the remote call voice xf(j).
  • Speaker 1 amplifies xf(j)+G1 ⁇ xr(j).
  • the acoustic echo canceller 3 estimates the impulse response H from the speaker 1 to the microphone 2.
  • the reproduced sound detection unit 6 detects the presence or absence of the reproduced sound xr(j).
  • the reproduced sound detection unit 6 calculates the amplitude level xr ⁇ (j) of the reproduced sound xr(j) by short-time amplitude averaging processing shown in equation (1) below.
  • the reproduced sound detection section 6 determines whether the amplitude level xr ⁇ (j) is larger than a threshold value.
  • xr ⁇ (j) B ⁇
  • is the absolute value of the reproduced sound xr(j)
  • xr ⁇ (j) is the short-term average of the absolute value of the reproduced sound xr(j).
  • j is the time and B is the update gain (0 ⁇ B ⁇ 1).
  • the reproduced sound detection unit 6 determines that there is a reproduced signal when the amplitude level is greater than the threshold value. Further, the reproduced sound detection unit 6 determines that there is no reproduced signal when the amplitude level is less than or equal to the threshold value.
  • the acoustic echo canceller 3 estimates the impulse response from the speaker 1 to the microphone 2 when the reproduced sound detection unit 6 does not detect the reproduced sound. Furthermore, when the reproduced sound detection section 6 detects reproduced sound, the acoustic echo canceller 3 stops estimating the impulse response from the speaker 1 to the microphone 2. That is, the acoustic echo canceller 3 stops updating the filter coefficients of the adaptive filter when the reproduced sound detection section 6 detects the reproduced sound.
  • the call audio output unit 23 outputs the echo canceled signal e(j) output from the acoustic echo canceller 3 as near-end call audio.
  • the call audio input section 21, the reproduced sound input section 22, and the call audio output section 23 are connected to a communication section (not shown).
  • the communication unit transmits near-end call audio to a remote monitoring device (not shown) on the receiving side via the network, and receives remote call audio from the remote monitoring device (not shown) on the receiving side via the network.
  • the communication unit also receives reproduced sound from a remote monitoring device (not shown) on the receiving side via the network.
  • the network is, for example, the Internet.
  • FIG. 2 is a block diagram showing a detailed configuration of the acoustic echo canceller 3 in Embodiment 1 of the present disclosure.
  • the acoustic echo canceller 3 includes an adaptive filter 31, a subtracter 32, and a filter coefficient updater 33.
  • the adaptive filter 31 generates the estimated echo yhat(j) by convolving the filter coefficient HHAT(j) and the reference signal sequence Xf(j).
  • the subtraction unit 32 subtracts the estimated echo yhat(j) from the input signal y(j) from the microphone 2, thereby removing the echo component of the remote call voice xf(j) included in the input signal y(j). .
  • the subtraction unit 32 outputs an echo-cancelled signal e(j) obtained by removing the echo component from the input signal y(j).
  • the filter coefficient update unit 33 updates the filter coefficient HHAT(j) using the echo-cancelled signal e(j) output from the subtraction unit 32 and the reference signal sequence Xf(j).
  • the input signal y(j) output from the microphone 2 is calculated using the input signal sequence Xf(j)+G1 ⁇ Xr(j) of the speaker 1 and the impulse response H of the acoustic echo path from the speaker 1 to the microphone 2. , is expressed by the following equation (2).
  • y(j) H*(Xf(j)+G1 ⁇ Xr(j))...(2) Note that in the above formula (2), Xf(j), Xr(j), and H are represented by the following formulas (3), (4), and (5). Moreover, in the above equation (2), * represents a convolution operation.
  • N represents the filter tap length.
  • the number of taps of the impulse response H is assumed to be the same as the number of taps of the filter coefficient HHAT(j) of the acoustic echo canceller 3.
  • the impulse response decays over time. Therefore, if the acoustic echo canceller 3 can sufficiently remove acoustic echoes, there is no problem in practical terms if the number of taps of the impulse response H and the number of taps of the filter coefficient HHAT(j) are considered to be the same.
  • the estimated echo yhat(j) generated by the adaptive filter 31 is expressed by the following equation (6).
  • HHAT(j) hhat(j,0),hhat(j,1),...,hhat(j,N-1)...(7) Further, the echo canceled signal e(j) output from the subtraction unit 32 is expressed by the following equation (8).
  • ⁇ e(j)/
  • in the above equation (10) represents the norm of Xf(j), and is expressed by the following equation (11). Further, ⁇ represents a gain (0 ⁇ 1).
  • the filter coefficient HHAT(j) whose update is stopped by the filter coefficient update unit 33 is expressed by the following equation (12).
  • HHAT(j+1) HHAT(j)...(12)
  • the entire band is processed at once, but the entire band may be divided into a plurality of bands and processed.
  • the above equations (2) to (12) are processed in the time domain, they may be processed in the frequency domain.
  • the filter coefficient HHAT(j) of the acoustic echo canceller 3 can accurately estimate the impulse response H of the actual acoustic echo path, HHAT(j) ⁇ H.
  • the reference signal of the acoustic echo canceller 3 becomes Xf(j).
  • the echo canceled signal e(j) output from the acoustic echo canceller 3 is e(j) ⁇ 0. become. Therefore, echo can be removed.
  • FIG. 3 is a flowchart for explaining the operation of telephone device 100 in Embodiment 1 of the present disclosure.
  • step S1 the acoustic echo canceller 3 and the first addition unit 5 acquire the remote call audio output from the call audio input unit 21.
  • the call voice input unit 21 outputs the remote call voice received from a remote monitoring device (not shown) on the receiver side to the acoustic echo canceller 3 and the first addition unit 5.
  • the acoustic echo canceller 3 acquires only the remote call voice as a reference signal.
  • step S2 the first amplifier 4 acquires the reproduced sound output from the reproduced sound input section 22.
  • the playback sound input section 22 outputs the playback sound received from a remote monitoring device (not shown) on the receiving side to the first amplifier 4 .
  • step S3 the first amplifier 4 adjusts the volume of the reproduced sound.
  • the first amplifier 4 multiplies the reproduced sound by a predetermined gain G1.
  • the first amplifier 4 outputs the volume-adjusted reproduced sound to the first adder 5.
  • step S4 the first addition unit 5 adds the reproduced sound whose volume has been adjusted by the first amplifier 4 to the remote call voice.
  • step S5 the first adding unit 5 outputs the remote call audio to which the reproduced sound has been added to the speaker 1.
  • the speaker 1 amplifies the remote call audio to which the reproduced sound has been added.
  • step S6 the acoustic echo canceller 3 acquires the input signal from the microphone 2.
  • the microphone 2 picks up surrounding sounds and outputs an input signal to the acoustic echo canceller 3.
  • the input signal includes the voice uttered by the near-end speaker and the remote call voice obtained by adding the reproduced sound from the speaker 1 to the microphone 2.
  • step S7 the reproduced sound detection unit 6 detects the presence or absence of reproduced sound.
  • step S8 the reproduced sound detection unit 6 determines whether or not reproduced sound is detected.
  • the process moves to step S10.
  • the reproduced sound detection unit 6 outputs a detection result signal det indicating whether or not reproduced sound has been detected to the acoustic echo canceller 3.
  • step S8 if it is determined that reproduced sound is detected (YES in step S8), the acoustic echo canceller 3 stops updating the filter coefficients of the adaptive filter 31 in step S9.
  • step S10 the acoustic echo canceller 3 cancels the echo component of the remote call voice included in the input signal acquired by the microphone 2, using the remote call voice as a reference signal.
  • step S11 the acoustic echo canceller 3 outputs an echo-cancelled signal obtained by removing the echo component of the remote call voice from the input signal.
  • the acoustic echo canceller 3 outputs an echo canceled signal to the call audio output section 23.
  • the call audio output unit 23 transmits the echo cancellation signal output from the acoustic echo canceller 3 to a remote monitoring device (not shown) on the receiving side as near-end call audio.
  • the voice of the remote talker is input to the acoustic echo canceller 3 as a reference signal, and the reproduced sound is not input to the acoustic echo canceller 3 as a reference signal, so the reproduced sound that has passed from the speaker 1 to the microphone 2 is added.
  • the echo component of the call voice is canceled by the acoustic echo canceller 3, but the echo component of the reproduced sound is output to the remote party without being canceled. Therefore, it is possible to cancel the acoustic echo caused by amplifying the call voice of the remote talker, and it is also possible for the remote talker to confirm whether or not the reproduced sound has been amplified.
  • the remote call voice xf(j) is amplified by the speaker 1 and simultaneously input to the acoustic echo canceller 3 as a reference signal sequence Xf(j).
  • the remote call voice xf(j) goes around from the speaker 1 to the microphone 2.
  • the adaptive filter 31 in the acoustic echo canceller 3 generates the estimated echo yhat(j) by convolving the reference signal sequence Xf(j) and the estimated filter coefficient HHAT(j). By subtracting the generated estimated echo yhat(j) from the input signal y(j) output from the microphone 2, the echo component due to the remote call voice xf(j) is removed from the input signal y(j). .
  • the volume of the reproduced sound xr(j) is adjusted by the first amplifier 4, and then added to the remote call sound xf(j) by the first adder 5.
  • the reproduced sound xr(j) added to the remote call sound xf(j) is amplified from the speaker 1 and collected by the microphone 2.
  • the reproduced sound xr(j) is not included in the reference signal sequence Xf(j) of the acoustic echo canceller 3. Therefore, the estimated echo yhat(j) does not include the echo component H*G1 ⁇ Xr(j) of the reproduced sound. Therefore, the echo component of the reproduced sound xr(j) is not removed by the acoustic echo canceller 3, but is transmitted to the remote monitoring device.
  • the echo component of the remote call voice xf(j) is removed, but the echo component of the reproduced sound xr(j) is not removed, so the remote monitor cannot hear the acoustic echo of the reproduced sound xr(j). can.
  • the telephone device 100 does not need to include the reproduced sound detection section 6. Furthermore, in the first embodiment, the communication device 100 does not need to include the first amplifier 4.
  • the volume of a playback sound to alert people around the vehicle may be set high in order to ensure that the people around the vehicle can hear the sound.
  • the volume of the reproduced sound picked up by the microphone 2 may be higher than the volume of the voice uttered by nearby near-end speakers.
  • the distance between the speaker 1 and the microphone 2 is short, the volume of the reproduced sound picked up by the microphone 2 becomes even louder.
  • the volume of the reproduced sound is higher than the volume of the uttered voice of a nearby near-end speaker, and the difference in volume between the two sounds causes both the echo of the reproduced sound and the uttered voice to be heard. It may become difficult to hear. Therefore, the communication device of the second embodiment automatically adjusts the gain so that the volume of the echo cancellation signal output from the acoustic echo canceller 3 does not exceed the threshold value.
  • FIG. 4 is a diagram showing the configuration of a telephone call system in Embodiment 2 of the present disclosure.
  • the call system shown in FIG. 4 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 101.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a call audio input section 21
  • a reproduced sound input section 22 a call audio output section 23
  • a call device 101 a call device 101.
  • the communication device 101 includes an acoustic echo canceller 3, a first amplifier 4, a first addition section 5, a reproduced sound detection section 6, and an automatic gain control section 7.
  • the telephone device 101 shown in FIG. 4 is the same as the telephone device 100 shown in FIG. This is the same as in FIG. Note that the communication device 101 may include at least one of the speaker 1 and the microphone 2.
  • the acoustic echo canceller 3 outputs an echo cancellation signal to the automatic gain control section 7.
  • the automatic gain control unit 7 automatically adjusts the volume of the output signal from the acoustic echo canceller 3.
  • the automatic gain control section 7 automatically adjusts the gain so that the magnitude of the input signal falls within a predetermined range.
  • the automatic gain control unit 7 reduces the amplitude of the input signal to make the volume of the echo of the reproduced sound equal to the volume of the voice uttered by the near-end speaker. This makes it easier for the remote side to hear both the echo of the reproduced sound and the voice uttered by the near-end speaker.
  • FIG. 5 is a flowchart for explaining the operation of the communication device 101 in Embodiment 2 of the present disclosure.
  • step S21 to step S30 shown in FIG. 5 is the same as the processing from step S1 to step S10 shown in FIG. 3, so a description thereof will be omitted.
  • step S31 the automatic gain control unit 7 automatically adjusts the volume of the echo cancellation signal output from the acoustic echo canceller 3.
  • the automatic gain control unit 7 automatically adjusts the gain so that the volume of the echo-cancelled signal falls within a predetermined range.
  • step S32 the automatic gain control section 7 outputs an echo cancellation signal with the volume adjusted.
  • the automatic gain control section 7 outputs an echo-cancelled signal whose volume has been adjusted to the call audio output section 23 .
  • the call audio output unit 23 transmits the echo cancellation signal output from the automatic gain control unit 7 to a remote monitoring device (not shown) on the receiving side as near-end call audio.
  • the volume of the output signal from the acoustic echo canceller 3 is automatically adjusted. Therefore, the volume of the echo of the reproduced sound and the volume of the voice uttered by the near-end speaker in the vicinity of the microphone 2 can be made equal, and on the remote speaker side, the echo of the reproduced sound and the voice uttered by the near-end speaker can be made equal. Both can be made easier to hear.
  • the telephone device 101 does not need to include the reproduced sound detection section 6. Furthermore, in the second embodiment, the communication device 101 does not need to include the first amplifier 4.
  • Embodiment 3 Similar to Embodiment 2, Embodiment 3 reduces the volume difference between the echo of the reproduced sound on the remote side and the voice uttered by the near-end speaker.
  • FIG. 6 is a diagram showing the configuration of a telephone call system in Embodiment 3 of the present disclosure.
  • the call system shown in FIG. 6 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 102.
  • the same components as in the first embodiment are given the same reference numerals, and the description thereof will be omitted.
  • the communication device 102 includes an acoustic echo canceller 3, a first amplifier 4, a first adder 5, a reproduced sound detector 6, a suppression gain setting unit 8, and a variable amplifier 9.
  • the telephone communication device 102 shown in FIG. 6 is the same as the telephone communication device 100 shown in FIG. 1, except that it further includes a suppression gain setting section 8 and a variable amplifier 9. Note that the communication device 102 may include at least one of the speaker 1 and the microphone 2.
  • the suppression gain setting section 8 sets a first suppression gain for suppressing the volume of the output signal from the acoustic echo canceller 3 when the reproduction sound is detected by the reproduction sound detection section 6. Furthermore, when the reproduced sound detection unit 6 does not detect the reproduced sound, the suppression gain setting unit 8 sets a second suppression gain for not suppressing the volume of the output signal from the acoustic echo canceller 3.
  • the suppression gain setting unit 8 sets the suppression gain Gsup(j) of the variable amplifier 9 to the first suppression gain Gsup0 for suppressing the signal. Furthermore, when the reproduced sound detection unit 6 does not detect the reproduced sound, the suppression gain setting unit 8 sets the suppression gain Gsup(j) of the variable amplifier 9 to a second suppression gain Gsup1 that does not suppress the signal.
  • the first suppression gain Gsup0 is a predetermined value in the range of 0 ⁇ Gsup0 ⁇ 1.
  • the second suppression gain Gsup1 is 1.
  • the value of the first suppression gain Gsup0 is set in advance so that the volume of the echo of the reproduced sound heard on the remote side is the same as the volume of the voice uttered by the near-end speaker.
  • variable amplifier 9 multiplies the output signal from the acoustic echo canceller 3 by the first suppression gain or the second suppression gain set by the suppression gain setting section 8.
  • FIG. 7 is a flowchart for explaining the operation of the communication device 102 in Embodiment 3 of the present disclosure.
  • step S41 to step S49 shown in FIG. 7 is the same as the processing from step S1 to step S9 shown in FIG. 3, so a description thereof will be omitted.
  • step S50 the suppression gain setting unit 8 sets the first suppression gain Gsup0 for suppressing the volume of the output signal from the acoustic echo canceller 3 in the variable amplifier 9.
  • step S51 the suppression gain setting unit 8 sets the second A suppression gain Gsup1 is set in the variable amplifier 9.
  • the second suppression gain Gsup1 is 1.
  • step S52 shown in FIG. 7 is the same as the process of step S10 shown in FIG. 3, so the explanation will be omitted.
  • step S53 the variable amplifier 9 multiplies the echo cancellation signal output from the acoustic echo canceller 3 by the first suppression gain or the second suppression gain set by the suppression gain setting section 8.
  • step S54 the variable amplifier 9 outputs an echo cancellation signal multiplied by the first suppression gain or the second suppression gain.
  • the variable amplifier 9 outputs the echo-cancelled signal to the call audio output section 23.
  • the call audio output unit 23 transmits the echo-removed signal output from the variable amplifier 9 to a remote monitoring device (not shown) on the receiving side as near-end call audio.
  • the first suppression gain multiplied by the output signal from the acoustic echo canceller 3 is determined based on the volume of the echo of the reproduced sound heard by the remote speaker and the near-end speaker.
  • the volume is set to be the same as the volume of the spoken voice.
  • the communication device 102 does not need to include the first amplifier 4.
  • Embodiment 4 Similar to Embodiment 2, Embodiment 4 reduces the volume difference between the echo of the reproduced sound on the remote side and the voice uttered by the near-end speaker.
  • FIG. 8 is a diagram showing the configuration of a telephone call system in Embodiment 4 of the present disclosure.
  • the call system shown in FIG. 8 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 103.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a call audio input section 21
  • a reproduced sound input section 22 a call audio output section 23
  • a call device 103 a call device 103.
  • the same components as Embodiment 1 are given the same reference numerals, and the description thereof will be omitted.
  • the communication device 103 includes an acoustic echo canceller 3A, a first amplifier 4, a first adder 5, a reproduced sound detector 6, a second amplifier 10, and a second adder 11.
  • the telephone communication device 103 shown in FIG. 8 is the same as the telephone communication device 100 shown in FIG. 1 except that it further includes a second amplifier 10 and a second adder 11, and the other configurations are the same as those in FIG. Note that the communication device 103 may include at least one of the speaker 1 and the microphone 2.
  • the second amplifier 10 suppresses the volume of the reproduced sound.
  • the second amplifier 10 is an example of a volume suppressor.
  • the second amplifier 10 multiplies the output signal G1 ⁇ xr(j) from the first amplifier 4 by a predetermined gain G2 (0 ⁇ G2 ⁇ 1).
  • the second amplifier 10 controls the amplitude of the output signal from the first amplifier 4.
  • the second adder 11 adds the reproduced sound whose volume has been suppressed by the second amplifier 10 to the remote call voice.
  • the second adder 11 adds the output signals G1, G2, and xr(j) from the second amplifier 10 to the remote call voice xf(j).
  • the second adder 11 creates a reference signal xf(j)+G1 ⁇ G2 ⁇ xr(j) for the acoustic echo canceller 3A.
  • the acoustic echo canceller 3A uses the output signal from the second adder 11 as a reference signal to cancel echo components of the remote call voice and the reproduced sound whose volume has been suppressed, which are included in the input signal acquired by the microphone 2.
  • the filter coefficient HHAT(j) of the acoustic echo canceller 3A has been updated, the impulse response H of the acoustic echo path from the speaker 1 to the microphone 2 has been estimated with high accuracy, and the echo of the remote call voice xf(j) has been removed.
  • the output signals G1, G2, xr(j) from the second amplifier 10 are added to the remote call voice xf(j) by the second adder 11. be done.
  • the input signal y(j) output from the microphone 2 is calculated using the input signal sequence Xf(j)+G1 ⁇ Xr(j) of the speaker 1 and the impulse response H of the acoustic echo path from the speaker 1 to the microphone 2. , is expressed by the above equation (2).
  • the acoustic echo canceller 3A adds the estimated filter coefficient HHAT(j) to the output signal sequence Xf(j)+G1 ⁇ G2 ⁇ Xr(j) of the second adder 11, as shown in equation (13) below. Convolve to create an estimated echo yhat(j).
  • the echo cancellation signal e(j) output from the acoustic echo canceller 3A is expressed by the following equation (14).
  • the acoustic echo canceller 3A removes the G1 and G2 echoes of the remote call voice xf(j) and the reproduced sound xr(j). - (1-G2) echo component G1.(1-G2).H*Xr(j) is not removed and is output from the acoustic echo canceller 3A.
  • the signal amplified from the speaker 1 is xf(j)+G1 ⁇ xr(j), and the reference signal is xf(j)+G1 ⁇ G2 ⁇ xr(j). Since the signal amplified from the speaker 1 and the reference signal are different, when the filter coefficient HHAT(j) is updated, the filter coefficient is not updated correctly. Therefore, similarly to Embodiment 1, when the reproduced sound detector 6 detects the reproduced sound xr(j), the acoustic echo canceller 3A stops updating the filter coefficient HHAT(j). If the reproduced sound xr(j) is not detected, the acoustic echo canceller 3A updates the filter coefficients.
  • the echo component G1 ⁇ (1 ⁇ G2) ⁇ H* of the reproduced sound included in the echo cancellation signal e(j) output from the acoustic echo canceller 3A The volume of Xr(j) can be controlled to be equal to the volume of the near-end speaker's speech. As a result, in the remote monitoring device, it becomes easier to hear both the near-end speaker's uttered voice and the reproduced sound.
  • FIG. 9 is a flowchart for explaining the operation of the communication device 103 in Embodiment 4 of the present disclosure.
  • step S61 to step S65 shown in FIG. 9 is the same as the processing from step S1 to step S5 shown in FIG. 3, so a description thereof will be omitted.
  • step S66 the second amplifier 10 multiplies the output signal (G1 ⁇ xr(j)) from the first amplifier 4 by a predetermined gain G2.
  • the second amplifier 10 outputs the reproduced sound (G1 ⁇ G2 ⁇ xr(j)) multiplied by the gains G1 and G2 to the second adder 11.
  • step S67 the second adder 11 adds the output signal from the second amplifier 10 to the remote call voice.
  • the second adder 11 outputs the remote call voice (xf(j)+G1 ⁇ G2 ⁇ xr(j)) obtained by adding the output signal from the second amplifier 10 to the acoustic echo canceller 3A as a reference signal.
  • step S68 to step S71 shown in FIG. 9 is the same as the processing from step S6 to step S9 shown in FIG. 3, so a description thereof will be omitted.
  • step S72 the acoustic echo canceller 3A uses the remote call audio added with the reproduced sound whose volume has been suppressed by the gains G1 and G2 as a reference signal, and uses the remote call audio included in the input signal acquired by the microphone 2 as a reference signal. and cancels the echo component of the reproduced sound multiplied by the gains G1 and G2.
  • step S73 the acoustic echo canceller 3A outputs an echo-removed signal obtained by removing the echo components of the remote call voice and the reproduced sound multiplied by the gains G1 and G2 from the input signal.
  • the acoustic echo canceller 3A outputs an echo canceled signal to the call audio output section 23.
  • the call audio output unit 23 transmits the echo cancellation signal output from the acoustic echo canceller 3A to a remote monitoring device (not shown) on the receiving side as near-end call audio.
  • the remote speaker can confirm whether or not the reproduced sound has been amplified.
  • Embodiments 2 and 3 the suppression gain changes depending on whether or not there is reproduced sound. Therefore, in Embodiment 2 and Embodiment 3, there is a possibility that the background noise will fluctuate due to the fluctuation of the suppression gain. Furthermore, in Embodiments 2 and 3, when the reproduced sound is played simultaneously with the input of the near-end speaker's speech, there is a risk that the near-end speaker's speech may be suppressed due to fluctuations in the suppression gain. There is. On the other hand, in the fourth embodiment, when the reproduced sound is reproduced at the same time as the input of the near-end speaker's utterance voice, the output of the acoustic echo canceller 3A is not suppressed, so the background noise does not fluctuate. This has the advantage that the speech voice of the near-end speaker is not suppressed.
  • the volume of the reproduced sound included in the output of the acoustic echo canceller 3A is appropriately controlled in a state where the acoustic echo canceller 3A is able to sufficiently remove echoes.
  • the volume of the reproduced sound included in the output of the acoustic echo canceller 3A is appropriately controlled even when the acoustic echo canceller 3A is unable to remove the echo.
  • FIG. 10 is a diagram showing the configuration of a telephone call system in Embodiment 5 of the present disclosure.
  • the call system shown in FIG. 10 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 104.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a call audio input section 21
  • a reproduced sound input section 22 a call audio output section 23
  • a call device 104 a call device 104.
  • Embodiment 5 the same components as in Embodiments 1 to 4 are given the same reference numerals and their explanations will be omitted.
  • the communication device 104 includes an acoustic echo canceller 3A, a first amplifier 4, a first addition section 5, a reproduced sound detection section 6, a variable amplifier 9, a second amplifier 10, a second addition section 11, and a suppression gain setting section. 81.
  • the telephone communication device 104 shown in FIG. 10 is the same as the communication device 103 shown in FIG. 8, except that it further includes a suppression gain setting section 81 and a variable amplifier 9. The other configurations are the same as those in FIG. Note that the communication device 104 may include at least one of the speaker 1 and the microphone 2.
  • the suppression gain setting unit 81 estimates the amount of echo cancellation of the acoustic echo canceller 3A.
  • the suppression gain setting unit 81 calculates the power of the filter coefficient, and estimates the amount of echo cancellation from the calculated power of the filter coefficient.
  • the suppression gain setting unit 81 calculates a first suppression gain for suppressing the volume of the output signal from the acoustic echo canceller 3A according to the estimated amount of echo cancellation, and sets the calculated first suppression gain. .
  • the suppression gain setting unit 81 sets a second suppression gain for not suppressing the volume of the output signal from the acoustic echo canceller 3A.
  • variable amplifier 9 multiplies the output signal from the acoustic echo canceller 3A by the first suppression gain or the second suppression gain set by the suppression gain setting section 81.
  • the suppression gain setting unit 81 uses the filter coefficient HHAT(j) of the acoustic echo canceller 3A to estimate the amount of echo cancellation of the acoustic echo canceller 3A (
  • represents the norm of HHAT(j), and is expressed by the following equation (16).
  • Pwrh0 represents the square root of the total impulse response power of the acoustic echo path ((
  • the suppression gain setting unit 81 sets the suppression gain Gsup(j) of the variable amplifier 9 to a second suppression gain Gsup1 that does not suppress the signal when the playback sound detection unit 6 does not detect the playback sound.
  • the second suppression gain Gsup1 is 1.
  • variable amplifier 9 suppresses the output signal of the acoustic echo canceller 3A using the first suppression gain Gsup0 or the second suppression gain Gsup1 set by the suppression gain setting section 81.
  • the suppression gain setting unit 81 sets the first suppression gain Gsup0 according to the following equation (17).
  • Gsup0 min((1-G2)/(1-G2 ⁇ (
  • min(a, b) indicates that the smaller of a and b is selected.
  • G1 represents the gain of the first amplifier 4 (0 ⁇ G1)
  • G2 represents the gain of the second amplifier 10 (0 ⁇ G2 ⁇ 1)
  • j represents time.
  • FIG. 11 is a diagram showing the relationship between the power of the filter coefficient and the first suppression gain when reproduced sound is detected in the fifth embodiment.
  • the first suppression gain Gsup0 becomes closer to 1.
  • the filter coefficient HHAT(j) of the acoustic echo canceller 3A is not updated at all, that is,
  • 0, the first suppression gain Gsup0 becomes 1-G2, and the variable amplifier 9, the echo component of the reproduced sound is suppressed.
  • the volume of the echo of the reproduced sound on the remote side is the same as the volume of the echo of the reproduced sound when the acoustic echo canceller 3A has sufficiently removed the echo.
  • the first suppression gain Gsup0 becomes 1. This is the same state as in the fourth embodiment.
  • the suppression gain of the reproduced sound can be controlled according to the echo cancellation status of the acoustic echo canceller 3A, and the reproduction sound and nearby talk can be controlled on the remote side without depending on the amount of echo cancellation of the acoustic echo canceller 3A.
  • the volume of the voice spoken by the other person becomes the same.
  • FIG. 12 is a first flowchart for explaining the operation of the communication device 104 in the fifth embodiment of the present disclosure
  • FIG. 13 is a first flowchart for explaining the operation of the communication device 104 in the fifth embodiment of the present disclosure.
  • 2 is a second flowchart.
  • step S81 to step S91 shown in FIGS. 12 and 13 is the same as the processing from step S61 to step S71 shown in FIG. 9, so a description thereof will be omitted.
  • step S92 the suppression gain setting unit 81 calculates the power of the filter coefficient of the acoustic echo canceller 3A, and estimates the amount of echo cancellation of the acoustic echo canceller 3A from the calculated power of the filter coefficient.
  • step S93 the suppression gain setting unit 81 calculates a first suppression gain Gsup0 for suppressing the volume of the output signal from the acoustic echo canceller 3A according to the estimated amount of echo cancellation.
  • a first suppression gain Gsup0 is set in the variable amplifier 9.
  • step S94 the suppression gain setting unit 81 sets the second A suppression gain Gsup1 is set in the variable amplifier 9.
  • the second suppression gain Gsup1 is 1.
  • step S95 shown in FIG. 13 is the same as the process of step S72 shown in FIG. 9, so the explanation will be omitted. Further, the processing in step S96 and step S97 shown in FIG. 13 is the same as the processing in step S53 and step S54 shown in FIG. 7, so the explanation will be omitted.
  • the first suppression gain multiplied by the output signal from the acoustic echo canceller 3A is adjusted on the remote talker's side depending on the echo cancellation status of the acoustic echo canceller 3A.
  • the volume of the echo of the reproduced sound that can be heard is set to be the same as the volume of the voice uttered by the near-end speaker.
  • the volume of the echo of the reproduced sound and the volume of the utterance of the near-end speaker near the microphone 2 can be made equal, and on the remote speaker side, the echo of the reproduced sound and the utterance of the near-end speaker can be matched. It is possible to make it easier to hear both the voice and the voice.
  • the filter coefficients have not been updated and the power of the filter coefficients is small, the amount of echo cancellation becomes small and the volume of the echo of the reproduced sound output from the acoustic echo canceller 3A becomes large. Therefore, the echo component of the reproduced sound is suppressed by the first suppression gain until the filter coefficients are updated and the power of the filter coefficients becomes large.
  • the volume of the echo of the reproduced sound and the volume of the utterance of the near-end speaker near the microphone 2 can be made equal, and on the remote speaker side, the echo of the reproduced sound and the utterance of the near-end speaker can be matched. It is possible to make it easier to hear both the voice and the voice.
  • the suppression gain setting unit 81 in the fifth embodiment described above estimates the amount of echo cancellation from the power of the filter coefficient of the acoustic echo canceller 3A.
  • the suppression gain setting unit in the sixth embodiment performs echo cancellation based on the level of the input signal input from the microphone 2 to the acoustic echo canceller 3A and the level of the output signal from the acoustic echo canceller 3A. Estimate the amount.
  • FIG. 14 is a diagram showing the configuration of a telephone call system in Embodiment 6 of the present disclosure.
  • the call system shown in FIG. 14 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 105.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a call audio input section 21
  • a reproduced sound input section 22 a call audio output section 23
  • a call device 105 a call device 105.
  • the same components as in Embodiments 1 to 5 are designated by the same reference numerals, and the description thereof will be omitted.
  • the communication device 105 includes an acoustic echo canceller 3A, a first amplifier 4, a first addition section 5, a reproduced sound detection section 6, a variable amplifier 9, a second amplifier 10, a second addition section 11, and a suppression gain setting section. 82.
  • a telephone communication device 105 shown in FIG. 14 includes a suppression gain setting section 82 in place of the suppression gain setting section 81 of the communication device 104 shown in FIG. 10, and other configurations are the same as those in FIG. 10.
  • the communication device 105 may include at least one of the speaker 1 and the microphone 2.
  • the suppression gain setting unit 82 estimates the amount of echo cancellation of the acoustic echo canceller 3A when the reproduced sound detection unit 6 detects the reproduced sound.
  • the suppression gain setting unit 82 estimates the amount of echo cancellation based on the level of the input signal input from the microphone 2 to the acoustic echo canceller 3A and the level of the output signal from the acoustic echo canceller 3A.
  • the suppression gain setting unit 82 calculates a first suppression gain for suppressing the volume of the output signal from the acoustic echo canceller 3A according to the estimated amount of echo cancellation, and sets the calculated first suppression gain. .
  • the suppression gain setting unit 82 sets a second suppression gain for not suppressing the volume of the output signal from the acoustic echo canceller 3A.
  • the suppression gain setting unit 82 determines the echo cancellation amount can based on the ratio of the level of the input signal of the acoustic echo canceller 3A and the level of the output signal of the acoustic echo canceller 3A. Estimate (j).
  • the suppression gain setting unit 82 calculates the echo cancellation amount can(j) based on the following equation (18).
  • e ⁇ (j) represents the short-term average value of the absolute value of the echo canceled signal e (j)
  • y ⁇ (j) represents the absolute value of the input signal y (j).
  • min(a, b) represents selecting the smaller of a and b
  • j represents the time.
  • the short-time average value of the input signal y (j) of the acoustic echo canceller 3A: y ⁇ (j) and the short-time average value e ⁇ (j) of the output signal e (j) are xr ⁇ ( j) in the above equation (1). Calculated using the same method as (j).
  • the suppression gain setting unit 82 holds the previously estimated echo cancellation amount.
  • the suppression gain setting unit 82 calculates the echo cancellation amount can(j) based on the following equation (19).
  • the suppression gain setting unit 82 calculates a first suppression gain Gsup0 based on the following equation (20), and calculates the first suppression gain Gsup0 of the variable amplifier 9 as the suppression gain Gsup(j). is set to the calculated first suppression gain Gsup0.
  • Gsup0 (1-G2)/(1-G2+G2 ⁇ can(j))...(20)
  • G1 represents the gain of the first amplifier 4 (0 ⁇ G1)
  • G2 represents the gain of the second amplifier 10 (0 ⁇ G2 ⁇ 1)
  • j represents the time.
  • the suppression gain setting unit 82 sets the suppression gain Gsup(j) of the variable amplifier 9 to a second suppression gain Gsup1 that does not suppress the signal.
  • the second suppression gain Gsup1 is 1.
  • FIG. 15 is a diagram showing the relationship between the echo cancellation amount and the first suppression gain when reproduced sound is detected in the sixth embodiment.
  • the suppression gain Gsup(j) of the variable amplifier 9 is 1 (second suppression gain Gsup1).
  • the echo cancellation amount can(j) becomes 1 and the first suppression gain Gsup0 becomes the minimum.
  • the first suppression gain Gsup0 becomes 1-G2.
  • the echo cancellation amount can(j) becomes small.
  • the first suppression gain Gsup0 becomes 1.
  • the sixth embodiment differs from the fifth embodiment only in the suppression gain calculation process, and the other processes are the same as the fifth embodiment. Therefore, a description of the operation of communication device 105 in the sixth embodiment will be omitted.
  • the echo cancellation amount represents the ratio between the level of the input signal input from the microphone 2 to the acoustic echo canceller 3A and the level of the output signal from the acoustic echo canceller 3A. If the acoustic echo canceller 3A does not cancel the echo, the amount of echo cancellation becomes 1, and the volume of the echo of the reproduced sound output from the acoustic echo canceller 3A increases. Therefore, the echo component of the reproduced sound is suppressed by the first suppression gain until the acoustic echo canceller 3A sufficiently cancels the echo.
  • the volume of the echo of the reproduced sound and the volume of the utterance of the near-end speaker near the microphone 2 can be made equal, and on the remote speaker side, the echo of the reproduced sound and the utterance of the near-end speaker can be matched. It is possible to make it easier to hear both the voice and the voice.
  • FIG. 16 is a diagram showing the configuration of a telephone call system in Embodiment 7 of the present disclosure.
  • the call system shown in FIG. 16 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, and a call device 106.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a call audio input section 21
  • a reproduced sound input section 22 a call audio output section 23
  • a call device 106 a call device 106.
  • Embodiment 7 the same components as in Embodiment 1 are given the same reference numerals, and explanations thereof will be omitted.
  • the communication device 106 includes an acoustic echo canceller 3B, a first amplifier 4, a first adder 5, a third amplifier 12, and a third adder 13. Note that the communication device 106 may include at least one of the speaker 1 and the microphone 2.
  • the first adding unit 5 adds the remote call voice and the output signal G1 ⁇ xr(j) from the first amplifier.
  • the first adder 5 adds the reproduced sound to the remote call voice from the remote talker, and outputs the call voice to which the reproduced sound has been added to the speaker 1 and the acoustic echo canceller 3B.
  • the output signal xf(j)+G1 ⁇ xr(j) from the first adder 5 is a reference signal for the acoustic echo canceller 3B.
  • the output signal from the first adder 5 is also amplified by the speaker 1.
  • the acoustic echo canceller 3B uses the output signal from the first adder 5 as a reference signal to cancel echo components of the call voice and reproduced sound contained in the input signal acquired by the microphone 2.
  • the acoustic echo canceller 3B removes not only the echo component of the remote call voice but also the echo component of the reproduced sound.
  • the acoustic echo canceller 3B is input with the remote call voice xf(j) obtained by adding the reproduced sound G1 ⁇ xr(j) whose volume has been adjusted as a reference signal, and also receives the input signal y(j) from the microphone 2. be done.
  • the acoustic echo canceller 3B removes acoustic echoes that are amplified from the speaker 1 and wrap around the microphone 2.
  • the third amplifier 12 multiplies the reproduced sound by a predetermined gain G3.
  • the third amplifier 12 adjusts the volume of the reproduced sound, and outputs the volume-adjusted reproduced sound to the third adder 13.
  • the third amplifier 12 is an example of a second volume adjustment section.
  • the gain G3 of the third amplifier 12 is determined so that the voice uttered by the near-end speaker and the reproduced sound are equivalent on the far side.
  • the third adder 13 adds the output signal from the third amplifier 12 and the output signal from the acoustic echo canceller 3B.
  • the third adder 13 adds the reproduced sound to the output signal from the acoustic echo canceller 3B.
  • the third adder 13 is an example of a second adder.
  • the third adder 13 adds the reproduced sound whose volume has been adjusted by the third amplifier 12 to the output signal from the acoustic echo canceller 3B.
  • the remote call voice xf(j) is amplified from the speaker 1 and collected by the microphone 2 as an echo component, but the echo component is removed by the acoustic echo canceller 3B. Furthermore, unlike the first embodiment, the echo component of the reproduced sound xr(j) is removed by the acoustic echo canceller 3B.
  • the reproduced sound G1, G3, xr(j) whose volume has been adjusted by the third amplifier 12 is added to the echo cancellation signal e(j) output from the acoustic echo canceller 3B in the third adder 13, and then e(j)+G1 ⁇ G3 ⁇ xr(j) is sent to the side. Therefore, it becomes possible to check the reproduced sound on the remote side.
  • the echo of the reproduced sound amplified from the speaker 1 and collected by the microphone 2 is sent to the remote side, but in the seventh embodiment, the echo of the reproduced sound input to the speaker 1 G1 xr (The reproduced sounds G1, G3, and xr(j) obtained by multiplying the gain G3 of the third amplifier 12 by the gain G3 of the third amplifier 12 are sent to the remote side. Therefore, there is an effect that clear reproduced sound without passing through an acoustic echo path can be confirmed from a remote side.
  • FIG. 17 is a flowchart for explaining the operation of telephone device 106 in Embodiment 7 of the present disclosure.
  • step S101 to step S102 shown in FIG. 17 is the same as the processing from step S1 to step S2 shown in FIG. 3, so a description thereof will be omitted.
  • step S103 the first amplifier 4 adjusts the volume of the reproduced sound.
  • the first amplifier 4 multiplies the reproduced sound by a predetermined gain G1.
  • Gain G1 is predetermined according to the environment in which communication device 100 is used.
  • the first amplifier 4 outputs the reproduced sound whose volume has been adjusted to the first adding section 5 and the third amplifier 12.
  • step S104 shown in FIG. 17 is the same as the process of step S4 shown in FIG. 3, so the explanation will be omitted.
  • step S105 the first adding unit 5 outputs the remote call audio to which the reproduced sound has been added to the speaker 1 and the acoustic echo canceller 3B.
  • the speaker 1 amplifies the remote call audio to which the reproduced sound has been added.
  • the acoustic echo canceller 3B uses the remote call audio to which the reproduced sound has been added as a reference signal.
  • step S106 shown in FIG. 17 is the same as the process of step S6 shown in FIG. 3, so the explanation will be omitted.
  • step S107 the acoustic echo canceller 3B cancels the echo components of the remote call voice and the playback sound included in the input signal acquired by the microphone 2, using the remote call sound to which the playback sound has been added as a reference signal.
  • step S108 the third amplifier 12 adjusts the volume of the reproduced sound multiplied by the gain G1 output from the first amplifier 4.
  • the third amplifier 12 multiplies the output signal from the first amplifier 4 by a predetermined gain G3.
  • the gain G3 is predetermined so that the voice uttered by the near-end speaker and the reproduced sound are equivalent on the far side.
  • the third amplifier 12 outputs the volume-adjusted reproduced sound to the third adder 13.
  • step S109 the third adder 13 adds the reproduced sound output from the third amplifier 12 to the echo cancellation signal output from the acoustic echo canceller 3B.
  • the third adder 13 adds reproduced sounds G1, G3, and xr(j) whose volumes have been adjusted by the first amplifier 4 and the third amplifier 12 to the echo canceled signal e(j) from the acoustic echo canceller 3B. Add.
  • step S110 the third adding unit 13 outputs the echo-removed signal to which the reproduced sound has been added to the call audio output unit 23.
  • the call audio output unit 23 transmits the echo-removed signal obtained by adding the reproduced sound output from the third adder 13 to a remote monitoring device (not shown) on the receiving side as near-end call audio.
  • the remote speaker can confirm clear reproduced sound that is not an acoustic echo.
  • the communication device 106 does not need to include the first amplifier 4 and the third amplifier 12.
  • the communication device of the eighth embodiment amplifies the remote communication voice from the speaker 1, and sends the remote communication voice picked up by the microphone 2 back to the receiving side remote communication device.
  • FIG. 18 is a diagram showing the configuration of a telephone call system in Embodiment 8 of the present disclosure.
  • the call system shown in FIG. 18 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, a control signal input section 24, and a call device 107A.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a reproduced sound input section 22
  • a call audio output section 23 a control signal input section 24
  • a call device 107A a call device 107A.
  • the control signal input unit 24 outputs a control signal to the communication device 107A indicating whether or not to send the remote call voice back to the remote side.
  • the control signal is transmitted by a remote communication device (not shown) on the receiving end.
  • the control signal input section 24 is connected to a communication section (not shown).
  • the communication unit receives a control signal from the remote monitoring device on the receiving side via the network.
  • the remote monitoring device accepts input from the remote speaker as to whether or not to transmit the remote call audio back to the remote party.
  • the communication device 107A includes an acoustic echo canceller 3, a first amplifier 4, a first addition section 5, a reproduced sound detection section 6, and a reference changeover switch 14.
  • a telephone communication device 107A shown in FIG. 18 is the same as the telephone communication device 100 shown in FIG. Same as 1. Note that the communication device 107A may include at least one of the speaker 1 and the microphone 2.
  • the reference changeover switch 14 is configured to switch between an ON state in which the remote call voice is input to the acoustic echo canceller 3 as a reference signal, and an ON state in which the remote call voice is input as a reference signal, based on a control signal indicating whether or not to send the remote call voice back to the remote side. It is switched to an off state in which no input is made to the acoustic echo canceller 3.
  • the reference changeover switch 14 is turned on/off by a control signal input from the control signal input section 24. Normally, the reference changeover switch 14 is set to on.
  • the reference changeover switch 14 is turned off when a control signal indicating that the remote call voice is to be sent back to the remote side is input. That is, when the remote talker confirms that the remote call voice is being amplified on the other party's side, the control signal input unit 24 acquires a control signal for setting the reference changeover switch 14 to OFF. Then, the reference changeover switch 14 is set to OFF.
  • the remote call voice is removed by the acoustic echo canceller 3. In this case, the remote talker cannot hear the remote call audio amplified on the other party's side.
  • the acoustic echo canceller 3 does not remove the remote call voice. In this case, the remote talker can hear the remote call audio amplified on the other party's side.
  • the reference changeover switch 14 is switched to the OFF state in which the remote call voice is not input to the acoustic echo canceller as a reference signal. Therefore, since the remote call voice is not removed by the acoustic echo canceller 3, the remote talker can confirm that his or her own call voice is being amplified on the other party's side.
  • the communication device of the ninth embodiment amplifies the remote communication voice from the speaker 1, and sends the remote communication voice collected by the microphone 2 back to the receiving side remote communication device.
  • FIG. 19 is a diagram showing the configuration of a telephone call system in Embodiment 9 of the present disclosure.
  • the call system shown in FIG. 19 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, a control signal input section 24, and a call device 107B.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a reproduced sound input section 22
  • a call audio output section 23 a control signal input section 24
  • a call device 107B a call device 107B.
  • the control signal input unit 24 outputs a control signal to the communication device 107B indicating whether or not to send the remote call voice back to the remote party.
  • the control signal is transmitted by a remote communication device (not shown) on the receiving end.
  • the control signal input section 24 is connected to a communication section (not shown).
  • the communication unit receives a control signal from the remote monitoring device on the receiving side via the network.
  • the remote monitoring device accepts input from the remote speaker as to whether or not to transmit the remote call audio back to the remote party.
  • the communication device 107B includes an acoustic echo canceller 3, a first amplifier 4, a first addition section 5, a reproduced sound detection section 6, a fourth amplifier 15, and a fourth addition section 16.
  • a telephone communication device 107B shown in FIG. 19 is different from the telephone communication device 100 shown in FIG.
  • a fourth amplifier 15 is added between the fourth adder 16 and the fourth adder 16, and the other configurations are the same as in FIG.
  • the communication device 107B may include at least one of the speaker 1 and the microphone 2.
  • the fourth amplifier 15 adjusts the volume of the remote call audio input to the fourth adder 16 based on a control signal indicating whether or not to send the remote call audio back to the remote side.
  • the fourth amplifier 15 is an example of a third volume adjustment section.
  • the fourth amplifier 15 adjusts the volume of the remote call audio from the call audio input unit 21 based on the control signal input from the control signal input unit 24 .
  • the fourth amplifier 15 adjusts the remote call audio to a volume that can be heard by the remote speaker.
  • the fourth amplifier 15 receives a control signal indicating that the remote call audio is not to be sent back to the remote side
  • the fourth amplifier 15 adjusts the remote call audio to a volume that cannot be heard by the remote speaker.
  • the fourth amplifier 15 changes the gain according to the control signal input from the control signal input section 24.
  • the fourth amplifier 15 multiplies the remote call voice from the call voice input section 21 by a predetermined gain G4.
  • the gain G4 is predetermined so that the voice uttered by the near-end speaker and the voice of the remote call are equivalent on the remote side. If the control signal is an instruction not to send the remote call audio back to the remote side, the fourth amplifier 15 multiplies the remote call audio from the call audio input unit 21 by 0, and mutes the remote call audio.
  • the fourth adder 16 adds the output signal from the fourth amplifier 15 and the output signal from the acoustic echo canceller 3.
  • the fourth adder 16 is an example of a third adder.
  • the fourth adder 16 adds the remote call audio whose volume has been amplified by the fourth amplifier 15 to the output signal from the acoustic echo canceller 3. Add audio.
  • the fourth addition section 16 does not add the remote call audio to the output signal from the acoustic echo canceller 3.
  • the call audio is adjusted to a volume that can be heard by the remote party. Therefore, the output signal from the acoustic echo canceller 3 is added to the remote call audio that has been adjusted by the fourth amplifier 15 to a volume that can be heard by the remote talker. You can confirm that the sound is being amplified on the side.
  • Embodiment 10 Similar to the communication devices of Embodiments 8 and 9, the communication device of Embodiment 10 amplifies the remote communication voice from speaker 1, and transmits the remote communication voice picked up by microphone 2 to the receiving side. It is sent back to the communication device.
  • FIG. 20 is a diagram showing the configuration of a telephone call system in Embodiment 10 of the present disclosure.
  • the call system shown in FIG. 20 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, a control signal input section 24, and a call device 108A.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a reproduced sound input section 22
  • a call audio output section 23 a control signal input section 24
  • a call device 108A a call device 108A.
  • the control signal input unit 24 outputs a control signal to the communication device 108A indicating whether or not to send back the remote call voice to the remote side.
  • the control signal is transmitted by a remote communication device (not shown) on the receiving end.
  • the control signal input section 24 is connected to a communication section (not shown).
  • the communication unit receives a control signal from the remote monitoring device on the receiving side via the network.
  • the remote monitoring device accepts input from the remote speaker as to whether or not to transmit the remote call audio back to the remote party.
  • the communication device 108A includes an acoustic echo canceller 3B, a first amplifier 4, a first adder 5, a third amplifier 12, a third adder 13, and a reference changeover switch 14.
  • the communication device 108A shown in FIG. 20 is the same as the communication device 106 shown in FIG. 16 except that a reference changeover switch 14 is added between the first adding section 5 and the acoustic echo canceller 3B. This is the same as FIG. 16.
  • the communication device 108A may include at least one of the speaker 1 and the microphone 2.
  • the reference changeover switch 14 is in an on state in which the output signal from the first addition section 5 is input to the acoustic echo canceller 3B as a reference signal based on a control signal indicating whether or not to send back the remote call voice to the remote side; It is switched to an off state in which the output signal from the first adder 5 is not input to the acoustic echo canceller 3B as a reference signal.
  • the reference changeover switch 14 is turned on/off by a control signal input from the control signal input section 24. Normally, the reference changeover switch 14 is set to on.
  • the reference changeover switch 14 is turned off when a control signal indicating that the remote call voice is to be sent back to the remote side is input. That is, when the remote talker confirms that the remote call voice is being amplified on the other party's side, the control signal input unit 24 acquires a control signal for setting the reference changeover switch 14 to OFF. Then, the reference changeover switch 14 is set to OFF.
  • the reference changeover switch 14 When the reference changeover switch 14 is set to ON, the output signal xf(j)+G1 ⁇ xr(j) from the first adder 5 is removed by the acoustic echo canceller 3B. In this case, the remote talker cannot hear the remote call audio amplified on the other party's side.
  • the reference changeover switch 14 when the reference changeover switch 14 is set to OFF, the output signal xf(j)+G1 ⁇ xr(j) from the first adder 5 is not removed by the acoustic echo canceller 3B. In this case, the remote talker can hear the remote call audio amplified on the other party's side.
  • the reference changeover switch 14 does not input the output signal from the first adding section 5 as a reference signal to the acoustic echo canceller 3B. Can be switched to off state. Therefore, since the remote call voice is not removed by the acoustic echo canceller 3B, the remote talker can confirm that his or her call voice is being amplified on the other party's side.
  • Embodiment 11 The telephone device of Embodiment 11, like the telephone devices of Embodiments 8 to 10, amplifies the remote call voice from speaker 1 and transmits the remote call voice picked up by microphone 2 to the receiving side. It is sent back to the communication device.
  • FIG. 21 is a diagram showing the configuration of a telephone call system in Embodiment 11 of the present disclosure.
  • the call system shown in FIG. 21 includes a speaker 1, a microphone 2, a call audio input section 21, a reproduced sound input section 22, a call audio output section 23, a control signal input section 24, and a call device 108B.
  • a speaker 1 a microphone 2
  • a call audio input section 21 a reproduced sound input section 22
  • a call audio output section 23 a control signal input section 24
  • a call device 108B a call device 108B.
  • the same components as Embodiment 1 and Embodiment 7 are given the same reference numerals, and their explanations are omitted.
  • the control signal input unit 24 outputs a control signal to the communication device 108B indicating whether or not to send the remote call voice back to the remote side.
  • the control signal is transmitted by a remote communication device (not shown) on the receiving end.
  • the control signal input section 24 is connected to a communication section (not shown).
  • the communication unit receives a control signal from the remote monitoring device on the receiving side via the network.
  • the remote monitoring device accepts input from the remote speaker as to whether or not to transmit the remote call audio back to the remote party.
  • the communication device 108B includes an acoustic echo canceller 3B, a first amplifier 4, a first adder 5, a third amplifier 12, a third adder 13, a fourth amplifier 15, and a fourth adder 16. .
  • the telephone device 108B shown in FIG. 21 is different from the telephone device 106 shown in FIG.
  • a fourth amplifier 15 is added between the section 21 and the fourth addition section 16, and the other configurations are the same as in FIG. Note that the communication device 108B may include at least one of the speaker 1 and the microphone 2.
  • the fourth amplifier 15 adjusts the volume of the remote call audio input to the fourth adder 16 based on a control signal indicating whether or not to send the remote call audio back to the remote side.
  • the fourth amplifier 15 is an example of a third volume adjustment section.
  • the fourth amplifier 15 adjusts the volume of the remote call audio from the call audio input unit 21 based on the control signal input from the control signal input unit 24 .
  • the fourth amplifier 15 receives a control signal indicating that the remote call audio is to be sent back to the remote side
  • the fourth amplifier 15 adjusts the call audio to a volume that can be heard by the remote speaker.
  • the fourth amplifier 15 receives a control signal indicating that the remote call voice is not to be sent back to the remote side
  • the fourth amplifier 15 adjusts the call voice to a volume that cannot be heard by the remote party.
  • the fourth amplifier 15 changes the gain according to the control signal input from the control signal input section 24.
  • the fourth amplifier 15 multiplies the remote call voice from the call voice input section 21 by a predetermined gain G4.
  • the gain G4 is predetermined so that the voice uttered by the near-end speaker and the voice of the remote call are equivalent on the remote side. If the control signal is an instruction not to send the remote call audio back to the remote side, the fourth amplifier 15 multiplies the remote call audio from the call audio input unit 21 by 0, and mutes the remote call audio.
  • the fourth adder 16 adds the output signal from the fourth amplifier 15 and the output signal e(j)+G1 ⁇ G3 ⁇ xr(j) from the third adder 13.
  • the fourth adder 16 is an example of a third adder.
  • the fourth adder 16 amplifies the volume of the output signal from the third adder 13 by the fourth amplifier 15. Add remote call audio.
  • the fourth addition section 16 does not add the remote call voice to the output signal from the third addition section 13.
  • the remote call audio is adjusted to a volume that can be heard by the remote speaker. Therefore, the remote call voice adjusted by the fourth amplifier 15 to a volume that can be heard by the remote talker is added to the output signal from the third adder 13, so that the remote talker can listen to his or her own call voice. You can confirm that the other party is being amplified.
  • FIG. 22 is a diagram showing the configuration of a vehicle 201 equipped with the communication device 100 and a remote monitoring device 202 in the first embodiment.
  • the vehicle 201 includes a speaker 1, a microphone 2, a communication device 100, and a communication unit 110. Note that in FIG. 22, the same components as those in Embodiment 1 are designated by the same reference numerals, and the description thereof will be omitted. Furthermore, vehicle 201 may include any of the communication devices 101 to 108B of embodiments 2 to 11 instead of communication device 100 of embodiment 1.
  • the communication unit 110 includes a call audio input unit 21, a reproduced sound input unit 22, and a call audio output unit 23.
  • the communication unit 110 receives the remote call voice transmitted by the remote monitoring device 202 by the remote monitoring person. Communication unit 110 outputs the received remote call voice to call device 100 . Communication unit 110 transmits near-end call audio output from call device 100 to remote monitoring device 202 .
  • the near-end call voice is an audio signal that includes echoes of the near-end talker's call voice and reproduced sound, and has echo components of the remote call voice removed.
  • the communication unit 110 receives the playback sound transmitted by the remote monitoring device 202. Communication unit 110 outputs the received reproduced sound to telephone device 100 .
  • the communication device 100 may include the communication section 110.
  • the vehicle 201 is connected to a remote monitoring device 202 via a network 203 so as to be able to communicate with each other.
  • Network 203 is, for example, the Internet or a mobile phone network.
  • the remote monitoring device 202 includes a microphone 41, an operation section 42, a speaker 43, a storage section 210, a reading section 211, and a communication section 212.
  • Remote monitoring device 202 is an example of a remote communication device.
  • the microphone 41 picks up the voice of the remote monitor.
  • the microphone 2 outputs remote call audio indicating the collected audio to the communication unit 212.
  • the operation unit 42 is, for example, a keyboard, a mouse, a touch panel, etc., and accepts input operations by a remote monitor.
  • the operation unit 42 accepts selection by the remote monitor of the reproduced sound to be output to the outside of the vehicle 201 from among the plurality of reproduced sounds.
  • the operation unit 42 may receive input of control information for remotely controlling the vehicle 201.
  • the remote monitor uses the operation unit 42 to move the vehicle 201.
  • the storage unit 210 stores a plurality of reproduced sounds in advance.
  • the reading unit 211 reads out the reproduced sound selected by the operation unit 42 from among the plurality of reproduced sounds stored in the storage unit 210.
  • the communication unit 212 transmits the remote call voice output from the microphone 41 to the vehicle 201.
  • the communication unit 212 receives the near-end call audio transmitted by the vehicle 201 and outputs it to the speaker 43.
  • the communication unit 212 transmits the reproduced sound read out by the reading unit 211 to the vehicle 201.
  • the speaker 43 amplifies the near-end call audio transmitted from the vehicle 201 side.
  • the telephone device 100 may acquire the reproduced sound transmitted by the remote monitoring device 202.
  • FIG. 23 is a diagram showing another configuration of the vehicle 201A and the remote monitoring device 202A including the communication device 100 in the first embodiment.
  • the vehicle 201A includes a speaker 1, a microphone 2, a communication device 100, a storage section 111, a communication section 112, and a reading section 113. Note that in FIG. 23, the same components as in Embodiment 1 are given the same reference numerals, and the description thereof will be omitted. Further, vehicle 201A may include any of the communication devices 101 to 108B of embodiments 2 to 11 instead of communication device 100 of embodiment 1.
  • the storage unit 111 stores a plurality of reproduced sounds in advance.
  • the communication unit 112 includes a call audio input unit 21 and a call audio output unit 23.
  • the communication unit 112 receives the remote call voice by the remote monitor transmitted by the remote monitoring device 202A. Communication unit 112 outputs the received remote call voice to call device 100 . The communication unit 112 transmits the near-end call audio output from the communication device 100 to the remote monitoring device 202A.
  • the near-end call voice is an audio signal that includes echoes of the near-end talker's call voice and reproduced sound, and has echo components of the remote call voice removed.
  • the communication unit 112 receives from the remote monitoring device 202A playback information specifying which playback sound to output from among the plurality of playback sounds.
  • the reading unit 113 reads out the reproduced sound specified by the reproduction information received by the communication unit 112 from the storage unit 111.
  • the reading unit 113 outputs the read playback sound to the communication device 100.
  • the reading section 113 includes a reproduced sound input section 22 .
  • the communication device 100 may include a storage section 111, a communication section 112, and a reading section 113.
  • the vehicle 201A is connected to the remote monitoring device 202A via the network 203 so as to be able to communicate with each other.
  • Network 203 is, for example, the Internet.
  • the remote monitoring device 202A includes a microphone 41, an operation section 42, a speaker 43, and a communication section 213.
  • the remote monitoring device 202A is an example of a remote communication device.
  • the microphone 41 and speaker 43 shown in FIG. 23 are the same as the microphone 41 and speaker 43 shown in FIG. 22.
  • the operation unit 42 is, for example, a keyboard, a mouse, a touch panel, etc., and accepts input operations by a remote monitor.
  • the operation unit 42 accepts selection by the remote monitor of a reproduced sound to be output to the outside of the vehicle 201A from among the plurality of reproduced sounds.
  • the communication unit 213 transmits the remote call voice output from the microphone 41 to the vehicle 201A.
  • the communication unit 213 receives the near-end call audio transmitted by the vehicle 201A, and outputs it to the speaker 43.
  • the communication unit 213 transmits to the vehicle 201A reproduction information specifying the reproduction sound selected by the operation unit 42 and output from the vehicle 201A from among the plurality of reproduction sounds.
  • the telephone device 100 may acquire reproduced sound stored in advance in the vehicle 201A or the telephone device 100.
  • each component may be configured with dedicated hardware, or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the program may be executed by another independent computer system by recording the program on a recording medium and transferring it, or by transferring the program via a network.
  • LSI Large Scale Integration
  • circuit integration is not limited to LSI, and may be realized using a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
  • a processor such as a CPU executing a program.
  • the technology according to the present disclosure can cancel the acoustic echo caused by amplifying the call voice of a remote talker, and also allows the remote talker to confirm whether or not the reproduced sound has been amplified.
  • This technology is useful as a technology for amplifying a predetermined reproduced sound and for communicating between people in the vicinity and remote talkers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

通話装置(100)は、遠隔話者の通話音声に再生音を加算し、再生音を加算した通話音声をスピーカ(1)へ出力する第1の加算部(5)と、通話音声を参照信号として、周辺の音を収音するマイクロホン(2)によって取得された入力信号に含まれる通話音声のエコー成分をキャンセルする音響エコーキャンセラ(3)とを備える。

Description

通話装置、通話方法及び通話プログラム
 本開示は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う技術に関する。
 例えば、特許文献1に示す拡声機能付き音響エコーキャンセラ装置の音声検出部は、遠端からの受信信号のレベルを検出し、受信信号のレベルが一定レベル以下である場合、係数修正部に係数修正を停止する信号を出力する。これにより、係数修正部は、一定レベル以上の受信信号が入力された場合にのみエコーキャンセラの係数を修正する。
 また、例えば、特許文献2の音声通信装置は、遠隔操作によって音響エコーキャンセル機能(適応フィルタ)をリセットする機能を備える。これにより、通信ネットワークを介して音声通信を行う際に、自端末から送信した音声データが、相手側端末で正常に再生されているかを確認することができる。
 しかしながら、上記従来の技術では、再生音が拡声されたか否かを遠隔話者が確認することが困難であり、更なる改善が必要とされていた。
特開昭63-79449号公報 特許第5245884号公報
 本開示は、上記の問題を解決するためになされたもので、遠隔話者の通話音声を拡声することによって生じる音響エコーをキャンセルすることができるとともに、再生音が拡声されたか否かを遠隔話者が確認することができる技術を提供することを目的とするものである。
 本開示に係る通話装置は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う通話装置であって、前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラと、を備える。
 本開示によれば、遠隔話者の通話音声を拡声することによって生じる音響エコーをキャンセルすることができるとともに、再生音が拡声されたか否かを遠隔話者が確認することができる。
本開示の実施の形態1における通話システムの構成を示す図である。 本開示の実施の形態1における音響エコーキャンセラの詳細な構成を示すブロック図である。 本開示の実施の形態1における通話装置の動作を説明するためのフローチャートである。 本開示の実施の形態2における通話システムの構成を示す図である。 本開示の実施の形態2における通話装置の動作を説明するためのフローチャートである。 本開示の実施の形態3における通話システムの構成を示す図である。 本開示の実施の形態3における通話装置の動作を説明するためのフローチャートである。 本開示の実施の形態4における通話システムの構成を示す図である。 本開示の実施の形態4における通話装置の動作を説明するためのフローチャートである。 本開示の実施の形態5における通話システムの構成を示す図である。 実施の形態5において、再生音が検出された場合のフィルタ係数のパワーと第1の抑圧ゲインとの関係を示す図である。 本開示の実施の形態5における通話装置の動作を説明するための第1のフローチャートである。 本開示の実施の形態5における通話装置の動作を説明するための第2のフローチャートである。 本開示の実施の形態6における通話システムの構成を示す図である。 実施の形態6において、再生音が検出された場合のエコー打消し量と第1の抑圧ゲインとの関係を示す図である。 本開示の実施の形態7における通話システムの構成を示す図である。 本開示の実施の形態7における通話装置の動作を説明するためのフローチャートである。 本開示の実施の形態8における通話システムの構成を示す図である。 本開示の実施の形態9における通話システムの構成を示す図である。 本開示の実施の形態10における通話システムの構成を示す図である。 本開示の実施の形態11における通話システムの構成を示す図である。 実施の形態1における通話装置を備える車両及び遠隔監視装置の構成を示す図である。 実施の形態1における通話装置を備える車両及び遠隔監視装置の別の構成を示す図である。
 (本開示の基礎となった知見)
 従来、自律走行するとともに遠隔制御で走行する車両が荷物を搬送する搬送システムがある。この搬送システムでは、遠隔監視者が車両の移動を遠隔制御するが、遠隔監視者と、荷物を受け取る受領者とが会話する必要がある。車両はスピーカ、マイクロホン及び音響エコーキャンセラを備えており、荷物を受け取る受領者は、遠隔監視者と拡声通話を行う。スピーカは、遠隔監視者の通話音声を拡声し、マイクロホンは、受領者の発話音声を収音する。音響エコーキャンセラは、マイクロホンによって取得された入力信号に含まれる遠隔監視者の通話音声のエコー成分をキャンセルする。
 また、車両は、「発車します」及び「バックします」等の周辺の人物に向かって注意を喚起するための再生音を拡声する。遠隔監視者は、再生音を拡声するよう指示した後、車両の移動を開始させる。そのため、遠隔監視者は、再生音が車両から拡声されていること及び再生音の拡声が終了したことを確認する必要がある。
 しかしながら、上記の特許文献1では、スピーカが遠端側の受信信号と再生音とを拡声する場合、スピーカからマイクロホンに回り込む受信信号だけでなく、スピーカからマイクロホンに回り込む再生音も音響エコーとして除去される。そのため、遠隔監視者は再生音を聞くことができず、再生音が正常に拡声されたか否かを確認することが困難である。
 また、上記の特許文献2では、フィルタ係数がリセットされることでスピーカからマイクロホンに回り込むエコーがエコーキャンセル手段で除去されず、相手側端末で音声が拡声されたことを自端末で確認することができる。しかしながら、エコーキャンセル手段のフィルタ係数の更新が進むにつれて、スピーカからマイクロホンに回り込むエコーが除去される。そのため、再生音の長さによっては、再生音の拡声が終了したことを確認できないおそれがある。
 また、上記の特許文献2では、自端末の音声信号と再生音との両方が相手側端末から送信されるので、自端末の音声信号に再生音が重畳されて再生音を聞き取ることができず、再生音が正常に拡声されたか否かを確認することができないおそれがある。
 以上の課題を解決するために、下記の技術が開示される。
 (1)本開示の一態様に係る通話装置は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う通話装置であって、前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラと、を備える。
 この構成によれば、遠隔話者の通話音声が参照信号として音響エコーキャンセラに入力され、再生音が参照信号として音響エコーキャンセラに入力されないので、スピーカからマイクロホンに回り込んだ再生音を加算した通話音声のうち、通話音声のエコー成分は音響エコーキャンセラによってキャンセルされるが、再生音のエコー成分はキャンセルされずに遠隔話者側に出力される。
 したがって、遠隔話者の通話音声を拡声することによって生じる音響エコーをキャンセルすることができるとともに、再生音が拡声されたか否かを遠隔話者が確認することができる。
 (2)上記(1)記載の通話装置において、前記再生音の有無を検出する再生音検出部をさらに備え、前記音響エコーキャンセラは、前記再生音検出部によって前記再生音が検出された場合、適応フィルタのフィルタ係数の更新を停止してもよい。
 この構成によれば、再生音が検出された場合、適応フィルタのフィルタ係数が更新されないので、遠隔話者の通話音声のエコー成分のみを精度よくキャンセルすることができる。
 (3)上記(1)又は(2)に記載の通話装置において、前記再生音の音量を調整し、音量を調整した前記再生音を前記第1の加算部に出力する第1の音量調整部をさらに備えてもよい。
 この構成によれば、音量が調整された再生音と通話音声とがスピーカから出力されるので、スピーカの周囲にいる人物に再生音を確実に聞かせることができる。
 (4)上記(1)~(3)のいずれか1つに記載の通話装置において、前記音響エコーキャンセラからの出力信号の音量を自動で調整する自動ゲイン制御部をさらに備えてもよい。
 この構成によれば、音響エコーキャンセラからの出力信号の音量が自動で調整される。したがって、再生音のエコーの音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (5)上記(2)記載の通話装置において、前記再生音検出部によって前記再生音が検出された場合、前記音響エコーキャンセラからの出力信号の音量を抑圧するための第1の抑圧ゲインを設定し、前記再生音検出部によって前記再生音が検出されない場合、前記音響エコーキャンセラからの前記出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する抑圧ゲイン設定部と、前記抑圧ゲイン設定部によって設定された前記第1の抑圧ゲイン又は前記第2の抑圧ゲインを、前記音響エコーキャンセラからの前記出力信号に乗算する可変アンプとをさらに備えてもよい。
 この構成によれば、再生音が検出された場合に、音響エコーキャンセラからの出力信号に乗算される第1の抑圧ゲインが、遠隔話者側で聞こえる再生音のエコーの音量と近端話者の発話音声の音量とが同じとなるように設定される。これにより、再生音のエコーの音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (6)上記(1)記載の通話装置において、前記再生音の音量を抑圧する音量抑圧部と、前記通話音声に、前記音量抑圧部によって音量が抑圧された前記再生音を加算する第2の加算部とをさらに備え、前記音響エコーキャンセラは、前記第2の加算部からの出力信号を参照信号として、前記マイクロホンによって取得された前記入力信号に含まれる前記通話音声及び音量が抑圧された前記再生音のエコー成分をキャンセルしてもよい。
 この構成によれば、スピーカから出力される再生音の音量と、音響エコーキャンセラに参照信号として入力される再生音の音量とが異なることにより、再生音の一部のエコー成分が音響エコーキャンセラによってキャンセルされずに出力されることになり、再生音が拡声されたか否かを遠隔話者が確認することができる。
 (7)上記(6)記載の通話装置において、前記再生音の有無を検出する再生音検出部をさらに備え、前記音響エコーキャンセラは、前記再生音検出部によって前記再生音が検出された場合、適応フィルタのフィルタ係数の更新を停止してもよい。
 この構成によれば、再生音が検出された場合、適応フィルタのフィルタ係数が更新されないので、遠隔話者の通話音声のエコー成分のみを精度よくキャンセルすることができる。
 (8)上記(7)記載の通話装置において、前記再生音検出部によって前記再生音が検出された場合、前記音響エコーキャンセラのエコー打消し量を推定し、推定した前記エコー打消し量に応じて前記音響エコーキャンセラからの出力信号の音量を抑圧するための第1の抑圧ゲインを設定し、前記再生音検出部によって前記再生音が検出されない場合、前記音響エコーキャンセラからの前記出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する抑圧ゲイン設定部と、前記抑圧ゲイン設定部によって設定された前記第1の抑圧ゲイン又は前記第2の抑圧ゲインを、前記音響エコーキャンセラからの前記出力信号に乗算する可変アンプと、をさらに備えてもよい。
 この構成によれば、再生音が検出された場合に、音響エコーキャンセラからの出力信号に乗算される第1の抑圧ゲインが、音響エコーキャンセラのエコー除去の状況に応じて、遠隔話者側で聞こえる再生音のエコーの音量と近端話者の発話音声の音量とが同じとなるように設定される。これにより、再生音のエコーの音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (9)上記(8)記載の通話装置において、前記抑圧ゲイン設定部は、前記フィルタ係数のパワーを算出し、算出した前記フィルタ係数のパワーから前記エコー打消し量を推定してもよい。
 この構成によれば、フィルタ係数が更新されておらず、フィルタ係数のパワーが小さい場合、エコー打消し量は小さくなり、音響エコーキャンセラから出力される再生音のエコーの音量が大きくなる。そこで、フィルタ係数の更新が進み、フィルタ係数のパワーが大きくなるまで、第1の抑圧ゲインにより再生音のエコー成分が抑圧される。これにより、再生音のエコーの音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (10)上記(8)記載の通話装置において、前記抑圧ゲイン設定部は、前記マイクロホンから前記音響エコーキャンセラに入力される前記入力信号のレベルと、前記音響エコーキャンセラからの出力信号のレベルとに基づいて、前記エコー打消し量を推定してもよい。
 この構成によれば、例えば、エコー打消し量は、マイクロホンから音響エコーキャンセラに入力される入力信号のレベルと、音響エコーキャンセラからの出力信号のレベルとの比を表す。音響エコーキャンセラがエコーを打ち消していない場合、エコー打消し量は1になり、音響エコーキャンセラから出力される再生音のエコーの音量が大きくなる。そこで、音響エコーキャンセラがエコーを十分に打ち消すまで、第1の抑圧ゲインにより再生音のエコー成分が抑圧される。これにより、再生音のエコーの音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (11)上記(1)記載の通話装置において、前記音響エコーキャンセラは、前記第1の加算部からの出力信号を参照信号として、前記マイクロホンによって取得された前記入力信号に含まれる前記通話音声及び前記再生音のエコー成分をキャンセルし、前記音響エコーキャンセラからの出力信号に前記再生音を加算する第2の加算部をさらに備えてもよい。
 この構成によれば、スピーカからマイクロホンに回り込む再生音のエコー成分は音響エコーキャンセラによって除去される。そして、再生音のエコー成分が除去された音響エコーキャンセラからの出力信号に再生音が加算され、音響エコー経路を通過していない再生音が加算された出力信号が遠隔話者側に出力される。そのため、遠隔話者は、音響エコーではない明瞭な再生音を確認することができる。
 (12)上記(11)記載の通話装置において、前記再生音の音量を調整する第2の音量調整部をさらに備え、前記第2の加算部は、前記音響エコーキャンセラからの出力信号に、前記第2の音量調整部によって音量が調整された前記再生音を加算してもよい。
 この構成によれば、音響エコーキャンセラからの出力信号に加算する再生音の音量が調整される。したがって、再生音の音量と、マイクロホンの周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音と近端話者の発話音声との両方を聞き取り易くすることができる。
 (13)上記(1)~(3)のいずれか1つに記載の通話装置において、前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記通話音声を前記参照信号として前記音響エコーキャンセラに入力するオン状態と、前記通話音声を前記参照信号として前記音響エコーキャンセラに入力しないオフ状態とに切り替えられるスイッチをさらに備え、前記スイッチは、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記オフ状態に切り替えられてもよい。
 この構成によれば、通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、スイッチが、通話音声を参照信号として音響エコーキャンセラに入力しないオフ状態に切り替えられる。したがって、音響エコーキャンセラによって通話音声が除去されないので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (14)上記(1)~(3)のいずれか1つに記載の通話装置において、前記音響エコーキャンセラからの出力信号に前記通話音声を加算する第3の加算部と、前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第3の加算部に入力される前記通話音声の音量を調整する第3の音量調整部と、をさらに備え、前記第3の音量調整部は、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記遠隔話者が聴取可能な前記音量に前記通話音声を調整し、前記通話音声を遠隔側へ送り返さないことを示す前記制御信号が入力された場合、前記遠隔話者が聴取不可能な前記音量に前記通話音声を調整してもよい。
 この構成によれば、通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に通話音声が調整される。したがって、音響エコーキャンセラからの出力信号に、第3の音量調整部によって遠隔話者が聴取可能な音量に調整された通話音声が加算されるので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (15)上記(11)又は(12)記載の通話装置において、前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第1の加算部からの出力信号を前記参照信号として前記音響エコーキャンセラに入力するオン状態と、前記第1の加算部からの出力信号を前記参照信号として前記音響エコーキャンセラに入力しないオフ状態とに切り替えられるスイッチをさらに備え、前記スイッチは、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記オフ状態に切り替えられてもよい。
 この構成によれば、通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、スイッチが、第1の加算部からの出力信号を参照信号として音響エコーキャンセラに入力しないオフ状態に切り替えられる。したがって、音響エコーキャンセラによって通話音声が除去されないので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (16)上記(11)又は(12)記載の通話装置において、前記第2の加算部からの出力信号に前記通話音声を加算する第3の加算部と、前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第3の加算部に入力される前記通話音声の音量を調整する第3の音量調整部と、をさらに備え、前記第3の音量調整部は、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記遠隔話者が聴取可能な前記音量に前記通話音声を調整し、前記通話音声を遠隔側へ送り返さないことを示す前記制御信号が入力された場合、前記遠隔話者が聴取不可能な前記音量に前記通話音声を調整してもよい。
 この構成によれば、通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に通話音声が調整される。したがって、第2の加算部からの出力信号に、第3の音量調整部によって遠隔話者が聴取可能な音量に調整された通話音声が加算されるので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (17)上記(1)~(16)のいずれか1つに記載の通話装置において、複数の再生音を予め記憶する記憶部と、前記複数の再生音のうち、出力する再生音を指定する再生情報を遠隔通話装置から受信する通信部と、前記再生情報によって指定された前記再生音を前記記憶部から読み出す読出部と、をさらに備えてもよい。
 この構成によれば、通話装置に記憶されている再生音を読み出し、読み出した再生音をスピーカから出力することができる。
 (18)上記(1)~(16)のいずれか1つに記載の通話装置において、遠隔通話装置によって送信された前記再生音を受信する通信部をさらに備えてもよい。
 この構成によれば、遠隔通話装置から再生音を受信し、受信した再生音をスピーカから出力することができる。
 また、本開示は、以上のような特徴的な構成を備える通話装置として実現することができるだけでなく、通話装置が備える特徴的な構成に対応する特徴的な処理を実行する通話方法などとして実現することもできる。また、このような通話方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の通話装置と同様の効果を奏することができる。
 (19)本開示の他の態様に係る通話方法は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う通話装置における通話方法であって、前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力し、前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする。
 (20)本開示の他の態様に係る通話プログラムは、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行うための通話プログラムであって、前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラとしてコンピュータを機能させる。
 (21)本開示の他の態様に係る通話プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行うための通話プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体であって、前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラとしてコンピュータを機能させる。
 以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態1)
 図1は、本開示の実施の形態1における通話システムの構成を示す図である。
 通話システムは、車両に搭載される。車両は、例えば、電動ロボット、電動自動車、電動トラック又は電動ドローンである。例えば、車両は、所定の地域内を移動し、利用者の荷物を運ぶ。車両は、遠隔監視者によって監視される。車両は、自律走行するとともに遠隔制御で走行する。
 図1に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置100を備える。
 通話装置100は、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔監視者との間で通話を行う。遠隔監視者は、遠隔話者の一例である。再生音は、「発車します」及び「バックします」等の周辺の人物に向かって注意を喚起するための音声である。例えば、車両が移動を開始する際に、再生音が拡声される。
 通話音声入力部21は、受話側の遠隔監視装置(不図示)から受信した遠隔監視者による遠隔通話音声を通話装置100へ出力する。
 再生音入力部22は、再生音を通話装置100へ出力する。
 スピーカ1は、遠隔監視者による遠隔通話音声を拡声するとともに、再生音を拡声する。ここで、スピーカ1から出力された音声が、マイクロホン2によって収音された場合、受話側のスピーカからは、受話側の話者の発話した音声が遅れて再生されることになり、いわゆる音響エコーが発生する。そこで、後述する音響エコーキャンセラ3は、マイクロホン2から出力される入力信号に含まれる音響エコー信号を抑圧する。
 マイクロホン2は、周辺の音を収音する。マイクロホン2は、近端話者(送話者)の音声を収音する。マイクロホン2は、収音した音声を示す入力信号を通話装置100に出力する。
 通話装置100は、音響エコーキャンセラ3、第1のアンプ4、第1の加算部5及び再生音検出部6を備える。なお、通話装置100は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 音響エコーキャンセラ3は、遠隔監視者の遠隔通話音声を参照信号として、マイクロホン2によって取得された入力信号に含まれる遠隔通話音声のエコー成分をキャンセルする。音響エコーキャンセラ3には、遠隔通話音声xf(j)が参照信号として入力されるとともに、マイクロホン2からの入力信号y(j)が入力される。音響エコーキャンセラ3は、スピーカ1から拡声されマイクロホン2に回り込む遠隔通話音声による音響エコーを除去する。音響エコーキャンセラ3は、マイクロホン2によって取得された入力信号y(j)から遠隔通話音声xf(j)のエコー成分を除去したエコー除去信号e(j)を出力する。音響エコーキャンセラ3の詳細な構成については後述する。
 第1のアンプ4は、再生音が必要な拡声エリアに聞こえるように再生音の音量を制御する。第1のアンプ4は、第1の音量調整部の一例である。第1のアンプ4は、再生音の音量を調整し、音量を調整した再生音を第1の加算部5に出力する。
 第1の加算部5は、通話音声入力部21から出力された遠隔通話音声に、第1のアンプ4から出力された再生音を加算する。第1の加算部5は、遠隔話者による遠隔通話音声に再生音を加算し、再生音を加算した通話音声をスピーカ1へ出力する。
 遠隔通話音声xf(j)は、音響エコーキャンセラ3の参照信号である。第1のアンプ4は、再生音xr(j)に所定のゲインG1を乗算する。ゲインG1は、通話装置100が使用される環境に応じて予め決められる。ゲインG1は、0より大きい値である。第1の加算部5は、遠隔通話音声xf(j)にG1・xr(j)を加算する。スピーカ1は、xf(j)+G1・xr(j)を拡声する。また、音響エコーキャンセラ3は、スピーカ1からマイクロホン2に至るインパルス応答Hを推定する。
 再生音検出部6は、再生音xr(j)の有無を検出する。再生音検出部6は、下記の式(1)に示す振幅の短時間平均処理により、再生音xr(j)の振幅レベルxr(j)を計算する。再生音検出部6は、振幅レベルxr(j)が閾値より大きいか否かを判断する。
 xr(j)=B・|xr(j)|+(1-B)・xr(j-1)・・・(1)
 なお、上記の式(1)において、|xr(j)|は、再生音xr(j)の絶対値であり、xr(j)は、再生音xr(j)の絶対値の短時間平均値であり、jは、時刻であり、Bは、更新ゲイン(0<B<1)である。
 再生音検出部6は、振幅レベルが閾値より大きい場合、再生信号が有ると判定する。また、再生音検出部6は、振幅レベルが閾値以下である場合、再生信号が無いと判定する。
 音響エコーキャンセラ3は、再生音検出部6によって再生音が検出されない場合、スピーカ1からマイクロホン2に至るインパルス応答の推定を行う。また、音響エコーキャンセラ3は、再生音検出部6によって再生音が検出された場合、スピーカ1からマイクロホン2に至るインパルス応答の推定を停止する。すなわち、音響エコーキャンセラ3は、再生音検出部6によって再生音が検出された場合、適応フィルタのフィルタ係数の更新を停止する。
 通話音声出力部23は、音響エコーキャンセラ3から出力されたエコー除去信号e(j)を近端通話音声として出力する。
 なお、通話音声入力部21、再生音入力部22及び通話音声出力部23は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の遠隔監視装置(不図示)へ近端通話音声を送信するとともに、ネットワークを介して受話側の遠隔監視装置(不図示)から遠隔通話音声を受信する。また、通信部は、ネットワークを介して受話側の遠隔監視装置(不図示)から再生音を受信する。ネットワークは、例えば、インターネットである。
 図2は、本開示の実施の形態1における音響エコーキャンセラ3の詳細な構成を示すブロック図である。
 音響エコーキャンセラ3は、適応フィルタ31、減算部32及びフィルタ係数更新部33を備える。
 適応フィルタ31は、フィルタ係数HHAT(j)と参照信号系列Xf(j)とを畳み込むことにより、推定エコーyhat(j)を生成する。
 減算部32は、マイクロホン2からの入力信号y(j)から推定エコーyhat(j)を減算することにより、入力信号y(j)に含まれる遠隔通話音声xf(j)のエコー成分を除去する。減算部32は、入力信号y(j)からエコー成分を除去したエコー除去信号e(j)を出力する。
 フィルタ係数更新部33は、減算部32から出力されたエコー除去信号e(j)と参照信号系列Xf(j)とを用いてフィルタ係数HHAT(j)を更新する。
 マイクロホン2から出力された入力信号y(j)は、スピーカ1の入力信号系列Xf(j)+G1・Xr(j)と、スピーカ1からマイクロホン2までの音響エコー経路のインパルス応答Hとを用いて、下記の式(2)で表される。
 y(j)=H*(Xf(j)+G1・Xr(j))・・・(2)
 なお、上記の式(2)において、Xf(j)、Xr(j)及びHは、下記の式(3)、式(4)及び式(5)で表される。また、上記の式(2)において、*は、畳み込み演算を表す。
 Xf(j)=xf(j),xf(j-1),・・・,xf(j-N+1)・・・(3)
 Xr(j)=xr(j),xr(j-1),・・・,xr(j-N+1)・・・(4)
 H=h(0),h(1),・・・,h(N-1)・・・(5)
 なお、上記の式(3)、式(4)及び式(5)において、Nは、フィルタタップ長を表す。
 ここで、インパルス応答Hのタップ数は、音響エコーキャンセラ3のフィルタ係数HHAT(j)のタップ数と同じとしている。実際に、インパルス応答は時間とともに減衰する。そのため、音響エコーキャンセラ3が十分に音響エコーを除去できる場合、インパルス応答Hのタップ数とフィルタ係数HHAT(j)のタップ数とを同じと見做して実用上は問題ない。
 また、適応フィルタ31によって生成される推定エコーyhat(j)は、下記の式(6)で表される。
 yhat(j)=HHAT(j)*Xf(j)・・・(6)
 なお、上記の式(6)におけるHHAT(j)は、下記の式(7)で表される。
 HHAT(j)=hhat(j,0),hhat(j,1),・・・,hhat(j,N-1)・・・(7)
 また、減算部32から出力されるエコー除去信号e(j)は、下記の式(8)で表される。
 e(j)=y(j)-yhat(j)
     =H*(Xf(j)+G1・Xr(j))-HHAT(j)*Xf(j)
     =(H-HHAT(j))*Xf(j)+G1・H*Xr(j)・・・(8)
 再生音検出部6によって再生音が検出されない場合、フィルタ係数更新部33によって更新されるフィルタ係数HHAT(j)は、下記の式(9)で表される。
 HHAT(j+1)=HHAT(j)+Δ・Xf(j)・・・(9)
 なお、上記の式(9)におけるΔは、下記の式(10)で表される。
 Δ=α・e(j)/||Xf(j)||・・・(10)
 また、上記の式(10)における||Xf(j)||は、Xf(j)のノルムを表し、下記の式(11)で表される。また、αは、ゲイン(0≦α≦1)を表す。
 ||Xf(j)||=xf(j)+xf(j-1)+・・・+xf(j-N+1)・・・(11)
 なお、上記の式(9)においては、係数更新のアルゴリズムとして正規化平均最小二乗アルゴリズムが用いられているが、係数更新のアルゴリズムとしては他のアルゴリズムが用いられてもよい。
 また、再生音検出部6によって再生音が検出された場合、フィルタ係数更新部33によって更新が停止されるフィルタ係数HHAT(j)は、下記の式(12)で表される。
 HHAT(j+1)=HHAT(j)・・・(12)
 なお、上記の式(2)~式(12)では全帯域を一括処理しているが、全帯域を複数のバンドに分割して処理してもよい。また、上記の式(2)~式(12)では時間領域で処理しているが、周波数領域で処理してもよい。
 音響エコーキャンセラ3のフィルタ係数HHAT(j)が実際の音響エコー経路のインパルス応答Hを正確に推定できると、HHAT(j)≒Hとなる。再生音系列Xr(j)=0の時には音響エコーキャンセラ3の参照信号はXf(j)となる。上記の式(8)において、HHAT(j)≒Hであり、Xr(j)=0である場合、音響エコーキャンセラ3から出力されるエコー除去信号e(j)は、e(j)≒0になる。したがって、エコーが除去できる。
 続いて、本開示の実施の形態1における通話装置100の動作について説明する。
 図3は、本開示の実施の形態1における通話装置100の動作を説明するためのフローチャートである。
 まず、ステップS1において、音響エコーキャンセラ3及び第1の加算部5は、通話音声入力部21から出力された遠隔通話音声を取得する。通話音声入力部21は、受話側の遠隔監視装置(不図示)から受信した遠隔通話音声を音響エコーキャンセラ3及び第1の加算部5へ出力する。音響エコーキャンセラ3は、遠隔通話音声のみを参照信号として取得する。
 次に、ステップS2において、第1のアンプ4は、再生音入力部22から出力された再生音を取得する。再生音入力部22は、受話側の遠隔監視装置(不図示)から受信した再生音を第1のアンプ4へ出力する。
 次に、ステップS3において、第1のアンプ4は、再生音の音量を調整する。第1のアンプ4は、再生音に所定のゲインG1を乗算する。第1のアンプ4は、音量を調整した再生音を第1の加算部5に出力する。
 次に、ステップS4において、第1の加算部5は、遠隔通話音声に、第1のアンプ4によって音量が調整された再生音を加算する。
 次に、ステップS5において、第1の加算部5は、再生音を加算した遠隔通話音声をスピーカ1へ出力する。スピーカ1は、再生音を加算した遠隔通話音声を拡声する。
 次に、ステップS6において、音響エコーキャンセラ3は、マイクロホン2からの入力信号を取得する。このとき、マイクロホン2は、周辺の音を収音し、入力信号を音響エコーキャンセラ3へ出力する。入力信号は、近端話者が発話した音声と、スピーカ1からマイクロホン2に回り込む再生音を加算した遠隔通話音声とを含む。
 次に、ステップS7において、再生音検出部6は、再生音の有無を検出する。
 次に、ステップS8において、再生音検出部6は、再生音が検出されたか否かを判断する。ここで、再生音が検出されていないと判断された場合(ステップS8でNO)、ステップS10に処理が移行する。再生音検出部6は、再生音を検出したか否かを示す検出結果信号detを音響エコーキャンセラ3へ出力する。
 一方、再生音が検出されたと判断された場合(ステップS8でYES)、ステップS9において、音響エコーキャンセラ3は、適応フィルタ31のフィルタ係数の更新を停止する。
 次に、ステップS10において、音響エコーキャンセラ3は、遠隔通話音声を参照信号として、マイクロホン2によって取得された入力信号に含まれる遠隔通話音声のエコー成分をキャンセルする。
 次に、ステップS11において、音響エコーキャンセラ3は、入力信号から遠隔通話音声のエコー成分を除去したエコー除去信号を出力する。音響エコーキャンセラ3は、エコー除去信号を通話音声出力部23に出力する。通話音声出力部23は、音響エコーキャンセラ3から出力されたエコー除去信号を近端通話音声として受話側の遠隔監視装置(不図示)に送信する。
 このように、遠隔話者の通話音声が参照信号として音響エコーキャンセラ3に入力され、再生音が参照信号として音響エコーキャンセラ3に入力されないので、スピーカ1からマイクロホン2に回り込んだ再生音を加算した通話音声のうち、通話音声のエコー成分は音響エコーキャンセラ3によってキャンセルされるが、再生音のエコー成分はキャンセルされずに遠隔話者側に出力される。したがって、遠隔話者の通話音声を拡声することによって生じる音響エコーをキャンセルすることができるとともに、再生音が拡声されたか否かを遠隔話者が確認することができる。
 図1の構成により、遠隔通話音声xf(j)は、スピーカ1で拡声されると同時に音響エコーキャンセラ3に参照信号系列Xf(j)として入力される。遠隔通話音声xf(j)は、スピーカ1からマイクロホン2へ回り込む。音響エコーキャンセラ3内の適応フィルタ31は、参照信号系列Xf(j)と、推定したフィルタ係数HHAT(j)とを畳み込むことにより、推定エコーyhat(j)を生成する。生成された推定エコーyhat(j)がマイクロホン2から出力された入力信号y(j)から減算されることにより、遠隔通話音声xf(j)によるエコー成分が入力信号y(j)から除去される。
 一方、再生音xr(j)は、第1のアンプ4によって音量が調整された後、第1の加算部5によって遠隔通話音声xf(j)に加算される。遠隔通話音声xf(j)に加算された再生音xr(j)は、スピーカ1から拡声され、マイクロホン2によって収音される。再生音xr(j)は、音響エコーキャンセラ3の参照信号系列Xf(j)に含まれていない。そのため、推定エコーyhat(j)は、再生音のエコー成分H*G1・Xr(j)を含まない。このため、再生音xr(j)のエコー成分は、音響エコーキャンセラ3によって除去されることはなく、遠隔監視装置に送信される。つまり、遠隔通話音声xf(j)のエコー成分は除去されるが、再生音xr(j)のエコー成分は除去されないので、遠隔監視者は、再生音xr(j)の音響エコーを聞くことができる。
 なお、本実施の形態1において、通話装置100は、再生音検出部6を備えていなくてもよい。また、本実施の形態1において、通話装置100は、第1のアンプ4を備えていなくてもよい。
 (実施の形態2)
 例えば、車両の周辺にいる人に注意喚起を促すための再生音の音量は、周辺にいる人に確実に聞こえるようにするため、大きく設定される場合がある。この場合、マイクロホン2で収音される再生音の音量は、周辺にいる近端話者の発話音声の音量より大きくなるおそれがある。また、スピーカ1とマイクロホン2との距離が近い場合、マイクロホン2で収音される再生音の音量は更に大きくなる。実施の形態1の通話装置100では、再生音の音量が、周辺にいる近端話者の発話音声の音量より大きくなり、2つの音の音量差によって再生音のエコーと発話音声との両方を聞きとることが困難になるおそれがある。そこで、実施の形態2の通話装置は、音響エコーキャンセラ3から出力されるエコー除去信号の音量が閾値を超えないようにゲインを自動的に調整する。
 図4は、本開示の実施の形態2における通話システムの構成を示す図である。
 図4に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置101を備える。なお、実施の形態2において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 通話装置101は、音響エコーキャンセラ3、第1のアンプ4、第1の加算部5、再生音検出部6及び自動ゲイン制御部7を備える。図4に示す通話装置101は、図1に示す通話装置100に対して、音響エコーキャンセラ3と通話音声出力部23との間に自動ゲイン制御部7を追加したものであり、その他の構成は図1と同じである。なお、通話装置101は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 音響エコーキャンセラ3は、エコー除去信号を自動ゲイン制御部7に出力する。
 自動ゲイン制御部7は、音響エコーキャンセラ3からの出力信号の音量を自動で調整する。自動ゲイン制御部7は、入力された信号の大きさが所定の範囲になるようにゲインを自動的に調整する。自動ゲイン制御部7は、入力信号の音量が所定の範囲より大きい場合、入力信号の振幅を減少させることにより、再生音のエコーの音量と近端話者の発話音声の音量とを揃える。これにより、遠隔側において、再生音のエコーと近端話者の発話音声との両方が聞き取り易くなる。
 続いて、本開示の実施の形態2における通話装置101の動作について説明する。
 図5は、本開示の実施の形態2における通話装置101の動作を説明するためのフローチャートである。
 図5に示すステップS21~ステップS30の処理は、図3に示すステップS1~ステップS10の処理と同じであるので説明を省略する。
 次に、ステップS31において、自動ゲイン制御部7は、音響エコーキャンセラ3から出力されたエコー除去信号の音量を自動的に調整する。自動ゲイン制御部7は、エコー除去信号の音量が所定の範囲になるようにゲインを自動的に調整する。
 次に、ステップS32において、自動ゲイン制御部7は、音量を調整したエコー除去信号を出力する。自動ゲイン制御部7は、音量を調整したエコー除去信号を通話音声出力部23に出力する。通話音声出力部23は、自動ゲイン制御部7から出力されたエコー除去信号を近端通話音声として受話側の遠隔監視装置(不図示)に送信する。
 このように、音響エコーキャンセラ3からの出力信号の音量が自動で調整される。したがって、再生音のエコーの音量と、マイクロホン2の周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 なお、本実施の形態2において、通話装置101は、再生音検出部6を備えていなくてもよい。また、本実施の形態2において、通話装置101は、第1のアンプ4を備えていなくてもよい。
 (実施の形態3)
 本実施の形態3は、実施の形態2と同様に、遠隔側における再生音のエコーと近端話者の発話音声との音量差を低減する。
 図6は、本開示の実施の形態3における通話システムの構成を示す図である。
 図6に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置102を備える。なお、実施の形態3において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 通話装置102は、音響エコーキャンセラ3、第1のアンプ4、第1の加算部5、再生音検出部6、抑圧ゲイン設定部8及び可変アンプ9を備える。図6に示す通話装置102は、図1に示す通話装置100に対して、抑圧ゲイン設定部8及び可変アンプ9をさらに備え、その他の構成は図1と同じである。なお、通話装置102は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 抑圧ゲイン設定部8は、再生音検出部6によって再生音が検出された場合、音響エコーキャンセラ3からの出力信号の音量を抑圧するための第1の抑圧ゲインを設定する。また、抑圧ゲイン設定部8は、再生音検出部6によって再生音が検出されない場合、音響エコーキャンセラ3からの出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する。
 抑圧ゲイン設定部8は、再生音検出部6によって再生音が検出された場合、可変アンプ9の抑圧ゲインGsup(j)を、信号を抑圧する第1の抑圧ゲインGsup0に設定する。また、抑圧ゲイン設定部8は、再生音検出部6によって再生音が検出されない場合、可変アンプ9の抑圧ゲインGsup(j)を、信号を抑圧しない第2の抑圧ゲインGsup1に設定する。第1の抑圧ゲインGsup0は0<Gsup0<1の範囲の予め決められた値である。第2の抑圧ゲインGsup1は1である。第1の抑圧ゲインGsup0の値は、遠隔側で聞こえる再生音のエコーの音量と近端話者の発話音声の音量とが同じとなるように予め設定される。
 可変アンプ9は、抑圧ゲイン設定部8によって設定された第1の抑圧ゲイン又は第2の抑圧ゲインを、音響エコーキャンセラ3からの出力信号に乗算する。
 続いて、本開示の実施の形態3における通話装置102の動作について説明する。
 図7は、本開示の実施の形態3における通話装置102の動作を説明するためのフローチャートである。
 図7に示すステップS41~ステップS49の処理は、図3に示すステップS1~ステップS9の処理と同じであるので説明を省略する。
 次に、ステップS50において、抑圧ゲイン設定部8は、音響エコーキャンセラ3からの出力信号の音量を抑圧するための第1の抑圧ゲインGsup0を可変アンプ9に設定する。
 一方、再生音が検出されていないと判断された場合(ステップS48でNO)、ステップS51において、抑圧ゲイン設定部8は、音響エコーキャンセラ3からの出力信号の音量を抑圧しないための第2の抑圧ゲインGsup1を可変アンプ9に設定する。第2の抑圧ゲインGsup1は1である。
 図7に示すステップS52の処理は、図3に示すステップS10の処理と同じであるので説明を省略する。
 次に、ステップS53において、可変アンプ9は、音響エコーキャンセラ3から出力されたエコー除去信号に、抑圧ゲイン設定部8によって設定された第1の抑圧ゲイン又は第2の抑圧ゲインを乗算する。
 次に、ステップS54において、可変アンプ9は、第1の抑圧ゲイン又は第2の抑圧ゲインを乗算したエコー除去信号を出力する。可変アンプ9は、エコー除去信号を通話音声出力部23に出力する。通話音声出力部23は、可変アンプ9から出力されたエコー除去信号を近端通話音声として受話側の遠隔監視装置(不図示)に送信する。
 このように、再生音が検出された場合に、音響エコーキャンセラ3からの出力信号に乗算される第1の抑圧ゲインが、遠隔話者側で聞こえる再生音のエコーの音量と近端話者の発話音声の音量とが同じとなるように設定される。これにより、再生音のエコーの音量と、マイクロホン2の周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 なお、本実施の形態3において、通話装置102は、第1のアンプ4を備えていなくてもよい。
 (実施の形態4)
 本実施の形態4は、実施の形態2と同様に、遠隔側における再生音のエコーと近端話者の発話音声との音量差を低減する。
 図8は、本開示の実施の形態4における通話システムの構成を示す図である。
 図8に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置103を備える。なお、実施の形態4において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 通話装置103は、音響エコーキャンセラ3A、第1のアンプ4、第1の加算部5、再生音検出部6、第2のアンプ10及び第2の加算部11を備える。図8に示す通話装置103は、図1に示す通話装置100に対して、第2のアンプ10及び第2の加算部11をさらに備え、その他の構成は図1と同じである。なお、通話装置103は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 第2のアンプ10は、再生音の音量を抑圧する。第2のアンプ10は、音量抑圧部の一例である。第2のアンプ10は、第1のアンプ4からの出力信号G1・xr(j)に所定のゲインG2(0<G2<1)を乗算する。第2のアンプ10は、第1のアンプ4からの出力信号の振幅を制御する。
 第2の加算部11は、遠隔通話音声に、第2のアンプ10によって音量が抑圧された再生音を加算する。第2の加算部11は、第2のアンプ10からの出力信号G1・G2・xr(j)を遠隔通話音声xf(j)に加算する。第2の加算部11は、音響エコーキャンセラ3Aの参照信号xf(j)+G1・G2・xr(j)を作成する。
 音響エコーキャンセラ3Aは、第2の加算部11からの出力信号を参照信号として、マイクロホン2によって取得された入力信号に含まれる遠隔通話音声及び音量が抑圧された再生音のエコー成分をキャンセルする。
 音響エコーキャンセラ3Aのフィルタ係数HHAT(j)の更新が進み、スピーカ1からマイクロホン2に回り込む音響エコー経路のインパルス応答Hが精度良く推定され、遠隔通話音声xf(j)のエコーが除去されている状態で、再生音xr(j)が再生された場合、第2のアンプ10からの出力信号G1・G2・xr(j)が、遠隔通話音声xf(j)に第2の加算部11によって加算される。
 マイクロホン2から出力された入力信号y(j)は、スピーカ1の入力信号系列Xf(j)+G1・Xr(j)と、スピーカ1からマイクロホン2までの音響エコー経路のインパルス応答Hとを用いて、上記の式(2)で表される。
 音響エコーキャンセラ3Aは、下記の式(13)に示すように、第2の加算部11の出力信号系列Xf(j)+G1・G2・Xr(j)に、推定したフィルタ係数HHAT(j)を畳み込んで推定エコーyhat(j)を作成する。
 yhat(j)=HHAT(j)*(Xf(j)+G1・G2・Xr(j))・・・(13)
 また、音響エコーキャンセラ3Aから出力されるエコー除去信号e(j)は、下記の式(14)で表される。
 e(j)=y(j)-yhat(j)
     =H*(Xf(j)+G1・Xr(j))-HHAT(j)*(Xf(j)+G1・G2・Xr(j))
     =(H-HHAT(j))*(Xf(j)+G1・Xr(j))+G1・(1-G2)・HHAT(j)*Xr(j)・・・(14)
 上記の式(14)において、HHAT(j)=Hである場合、音響エコーキャンセラ3Aから出力されるエコー除去信号e(j)は、下記の式(15)で表される。
 e(j)=G1・(1-G2)・H*Xr(j)・・・(15)
 上記の式(14)及び式(15)に示すように、音響エコーキャンセラ3Aによって、遠隔通話音声xf(j)及び再生音xr(j)のG1・G2分のエコーは除去されるが、G1・(1-G2)分のエコー成分G1・(1-G2)・H*Xr(j)は除去されず、音響エコーキャンセラ3Aから出力される。
 再生音がある場合、スピーカ1から拡声される信号は、xf(j)+G1・xr(j)であり、参照信号はxf(j)+G1・G2・xr(j)である。スピーカ1から拡声される信号と参照信号とは異なるため、フィルタ係数HHAT(j)を更新するとフィルタ係数が正しく更新されない。そのため、実施の形態1と同様に、再生音検出部6によって再生音xr(j)が検出された場合、音響エコーキャンセラ3Aは、フィルタ係数HHAT(j)の更新を停止する。再生音xr(j)が検出されていない場合、音響エコーキャンセラ3Aは、フィルタ係数を更新する。
 また、第2のアンプ10のゲインG2が調整されることで、音響エコーキャンセラ3Aから出力されるエコー除去信号e(j)に含まれる再生音のエコー成分G1・(1-G2)・H*Xr(j)の音量が、近端話者の発話音声の音量と同等となるように制御することができる。その結果、遠隔監視装置において、近端話者の発話音声と再生音との両方が聞き取り易くなる。
 続いて、本開示の実施の形態4における通話装置103の動作について説明する。
 図9は、本開示の実施の形態4における通話装置103の動作を説明するためのフローチャートである。
 図9に示すステップS61~ステップS65の処理は、図3に示すステップS1~ステップS5の処理と同じであるので説明を省略する。
 次に、ステップS66において、第2のアンプ10は、第1のアンプ4からの出力信号(G1・xr(j))に所定のゲインG2を乗算する。第2のアンプ10は、ゲインG1及びG2を乗算した再生音(G1・G2・xr(j))を第2の加算部11に出力する。
 次に、ステップS67において、第2の加算部11は、遠隔通話音声に、第2のアンプ10からの出力信号を加算する。第2の加算部11は、第2のアンプ10からの出力信号を加算した遠隔通話音声(xf(j)+G1・G2・xr(j))を参照信号として音響エコーキャンセラ3Aに出力する。
 図9に示すステップS68~ステップS71の処理は、図3に示すステップS6~ステップS9の処理と同じであるので説明を省略する。
 次に、ステップS72において、音響エコーキャンセラ3Aは、ゲインG1及びG2により音量が抑圧された再生音を加算した遠隔通話音声を参照信号として、マイクロホン2によって取得された入力信号に含まれる遠隔通話音声及びゲインG1及びG2が乗算された再生音のエコー成分をキャンセルする。
 次に、ステップS73において、音響エコーキャンセラ3Aは、入力信号から遠隔通話音声及びゲインG1及びG2が乗算された再生音のエコー成分を除去したエコー除去信号を出力する。音響エコーキャンセラ3Aは、エコー除去信号を通話音声出力部23に出力する。通話音声出力部23は、音響エコーキャンセラ3Aから出力されたエコー除去信号を近端通話音声として受話側の遠隔監視装置(不図示)に送信する。
 このように、スピーカ1から出力される再生音の音量と、音響エコーキャンセラ3Aに参照信号として入力される再生音の音量とが異なることにより、再生音の一部のエコー成分が音響エコーキャンセラ3Aによってキャンセルされずに出力されることになり、再生音が拡声されたか否かを遠隔話者が確認することができる。
 なお、実施の形態2及び実施の形態3では、再生音があるか否かによって抑圧ゲインが変化する。そのため、実施の形態2及び実施の形態3では、抑圧ゲインの変動により背景ノイズが変動するおそれがある。また、実施の形態2及び実施の形態3では、近端話者の発話音声の入力と同時に再生音が再生された場合に、抑圧ゲインの変動により近端話者の発話音声が抑圧されるおそれがある。これに対し、実施の形態4では、近端話者の発話音声の入力と同時に再生音が再生された場合に、音響エコーキャンセラ3Aの出力が抑圧されないため、背景ノイズが変動することがなく、近端話者の発話音声が抑圧されないという利点がある。
 (実施の形態5)
 実施の形態4では、音響エコーキャンセラ3Aが十分にエコーを除去できている状態で、音響エコーキャンセラ3Aの出力に含まれる再生音の音量を適切に制御している。これに対し、実施の形態5では、音響エコーキャンセラ3Aがエコーを除去できていない状態でも、音響エコーキャンセラ3Aの出力に含まれる再生音の音量を適切に制御する。
 図10は、本開示の実施の形態5における通話システムの構成を示す図である。
 図10に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置104を備える。なお、実施の形態5において、実施の形態1~4と同じ構成については同じ符号を付し説明を省略する。
 通話装置104は、音響エコーキャンセラ3A、第1のアンプ4、第1の加算部5、再生音検出部6、可変アンプ9、第2のアンプ10、第2の加算部11及び抑圧ゲイン設定部81を備える。図10に示す通話装置104は、図8に示す通話装置103に対して、抑圧ゲイン設定部81及び可変アンプ9をさらに備え、その他の構成は図8と同じである。なお、通話装置104は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 抑圧ゲイン設定部81は、再生音検出部6によって再生音が検出された場合、音響エコーキャンセラ3Aのエコー打消し量を推定する。抑圧ゲイン設定部81は、フィルタ係数のパワーを算出し、算出したフィルタ係数のパワーからエコー打消し量を推定する。抑圧ゲイン設定部81は、推定したエコー打消し量に応じて音響エコーキャンセラ3Aからの出力信号の音量を抑圧するための第1の抑圧ゲインを算出し、算出した第1の抑圧ゲインを設定する。
 また、抑圧ゲイン設定部81は、再生音検出部6によって再生音が検出されない場合、音響エコーキャンセラ3Aからの出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する。
 可変アンプ9は、抑圧ゲイン設定部81によって設定された第1の抑圧ゲイン又は第2の抑圧ゲインを、音響エコーキャンセラ3Aからの出力信号に乗算する。
 抑圧ゲイン設定部81は、再生音検出部6によって再生音が検出された場合、音響エコーキャンセラ3Aのフィルタ係数HHAT(j)を用いて、音響エコーキャンセラ3Aのエコー打消し量の推定値(||HHAT(j)||)1/2/Pwrh0を算出する。||HHAT(j)||は、HHAT(j)のノルムを表し、下記の式(16)で表される。Pwrh0は、音響エコー経路のインパルス応答総パワーの平方根を表す((||H||)1/2)。そして、抑圧ゲイン設定部81は、エコー打消し量の推定値に基づき、可変アンプ9の抑圧ゲインGsup(j)を、第1の抑圧ゲインGsup0に設定する。
 ||HHAT(j)||=hhat(j,0)+hhat(j,1)+・・・+hhat(j,N-1)・・・(16)
 抑圧ゲイン設定部81は、再生音検出部6によって再生音が検出されない場合、可変アンプ9の抑圧ゲインGsup(j)を、信号を抑圧しない第2の抑圧ゲインGsup1に設定する。第2の抑圧ゲインGsup1は1である。
 可変アンプ9は、抑圧ゲイン設定部81によって設定された第1の抑圧ゲインGsup0又は第2の抑圧ゲインGsup1により、音響エコーキャンセラ3Aの出力信号を抑圧する。
 具体的には、抑圧ゲイン設定部81は、再生音検出部6によって再生音が検出された場合、下記の式(17)に従い第1の抑圧ゲインGsup0を設定する。
 Gsup0=min((1-G2)/(1-G2・(||HHAT(j)||)1/2/Pwrh0),1)・・・(17)
 なお、式(17)において、min(a,b)は、a及びbのうちの小さい方を選択することを示す。G1は、第1のアンプ4のゲイン(0<G1)を表し、G2は、第2のアンプ10のゲイン(0<G2≦1)を表し、jは、時刻を表す。
 図11は、実施の形態5において、再生音が検出された場合のフィルタ係数のパワーと第1の抑圧ゲインとの関係を示す図である。
 音響エコーキャンセラ3Aのフィルタ係数HHAT(j)の更新が進み、徐々に||HHAT(j)||が大きくなるに連れて、第1の抑圧ゲインGsup0は1に近くなる。一方、音響エコーキャンセラ3Aのフィルタ係数HHAT(j)が全く更新されていない状態、すなわち、||HHAT(j)||=0では、第1の抑圧ゲインGsup0は、1-G2となり、可変アンプ9において再生音のエコー成分が抑圧される。このとき、遠隔側での再生音のエコーの音量は、音響エコーキャンセラ3Aが十分にエコーを除去している時の再生音のエコーの音量と同じとなる。音響エコーキャンセラ3Aが十分にエコーを打ち消すようになると、第1の抑圧ゲインGsup0は1となる。これは、実施の形態4と同じ状態である。実施の形態5では、音響エコーキャンセラ3Aのエコー除去の状況に応じて、再生音の抑圧ゲインを制御でき、音響エコーキャンセラ3Aのエコー打消し量に依存せず、遠隔側で再生音と近傍話者の発話音声とが同じ音量になる。
 続いて、本開示の実施の形態5における通話装置104の動作について説明する。
 図12は、本開示の実施の形態5における通話装置104の動作を説明するための第1のフローチャートであり、図13は、本開示の実施の形態5における通話装置104の動作を説明するための第2のフローチャートである。
 図12及び図13に示すステップS81~ステップS91の処理は、図9に示すステップS61~ステップS71の処理と同じであるので説明を省略する。
 次に、ステップS92において、抑圧ゲイン設定部81は、音響エコーキャンセラ3Aのフィルタ係数のパワーを算出し、算出したフィルタ係数のパワーから音響エコーキャンセラ3Aのエコー打消し量を推定する。
 次に、ステップS93において、抑圧ゲイン設定部81は、推定したエコー打消し量に応じて音響エコーキャンセラ3Aからの出力信号の音量を抑圧するための第1の抑圧ゲインGsup0を算出し、算出した第1の抑圧ゲインGsup0を可変アンプ9に設定する。
 一方、再生音が検出されていないと判断された場合(ステップS90でNO)、ステップS94において、抑圧ゲイン設定部81は、音響エコーキャンセラ3Aからの出力信号の音量を抑圧しないための第2の抑圧ゲインGsup1を可変アンプ9に設定する。第2の抑圧ゲインGsup1は1である。
 図13に示すステップS95の処理は、図9に示すステップS72の処理と同じであるので説明を省略する。また、図13に示すステップS96及びステップS97の処理は、図7に示すステップS53及びステップS54の処理と同じであるので説明を省略する。
 このように、再生音が検出された場合に、音響エコーキャンセラ3Aからの出力信号に乗算される第1の抑圧ゲインが、音響エコーキャンセラ3Aのエコー除去の状況に応じて、遠隔話者側で聞こえる再生音のエコーの音量と近端話者の発話音声の音量とが同じとなるように設定される。これにより、再生音のエコーの音量と、マイクロホン2の周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 また、フィルタ係数が更新されておらず、フィルタ係数のパワーが小さい場合、エコー打消し量は小さくなり、音響エコーキャンセラ3Aから出力される再生音のエコーの音量が大きくなる。そこで、フィルタ係数の更新が進み、フィルタ係数のパワーが大きくなるまで、第1の抑圧ゲインにより再生音のエコー成分が抑圧される。これにより、再生音のエコーの音量と、マイクロホン2の周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (実施の形態6)
 上記の実施の形態5における抑圧ゲイン設定部81は、音響エコーキャンセラ3Aのフィルタ係数のパワーからエコー打消し量を推定している。これに対し、実施の形態6における抑圧ゲイン設定部は、マイクロホン2から音響エコーキャンセラ3Aに入力される入力信号のレベルと、音響エコーキャンセラ3Aからの出力信号のレベルとに基づいて、エコー打消し量を推定する。
 図14は、本開示の実施の形態6における通話システムの構成を示す図である。
 図14に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置105を備える。なお、実施の形態6において、実施の形態1~5と同じ構成については同じ符号を付し説明を省略する。
 通話装置105は、音響エコーキャンセラ3A、第1のアンプ4、第1の加算部5、再生音検出部6、可変アンプ9、第2のアンプ10、第2の加算部11及び抑圧ゲイン設定部82を備える。図14に示す通話装置105は、図10に示す通話装置104の抑圧ゲイン設定部81に替えて、抑圧ゲイン設定部82を備え、その他の構成は図10と同じである。なお、通話装置105は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出された場合、音響エコーキャンセラ3Aのエコー打消し量を推定する。抑圧ゲイン設定部82は、マイクロホン2から音響エコーキャンセラ3Aに入力される入力信号のレベルと、音響エコーキャンセラ3Aからの出力信号のレベルとに基づいて、エコー打消し量を推定する。抑圧ゲイン設定部82は、推定したエコー打消し量に応じて音響エコーキャンセラ3Aからの出力信号の音量を抑圧するための第1の抑圧ゲインを算出し、算出した第1の抑圧ゲインを設定する。
 また、抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出されない場合、音響エコーキャンセラ3Aからの出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する。
 抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出されない場合、音響エコーキャンセラ3Aの入力信号のレベルと、音響エコーキャンセラ3Aの出力信号のレベルとの比から、エコー打消し量can(j)を推定する。抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出されない場合、下記の式(18)に基づいてエコー打消し量can(j)を算出する。
 can(j)=min(e(j)/y(j),1)・・・(18)
 なお、上記の式(18)において、e(j)は、エコー除去信号e(j)の絶対値の短時間平均値を表し、y(j)は、入力信号y(j)の絶対値の短時間平均値を表し、min(a,b)は、a及びbのうちの小さい方を選択することを表し、jは、時刻を表す。音響エコーキャンセラ3Aの入力信号y(j)の短時間平均値:y(j)及び出力信号e(j)の短時間平均値e(j)は、上記の式(1)のxr(j)と同様の方法で算出される。
 また、抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出された場合、前回推定されたエコー打消し量を保持する。抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出された場合、下記の式(19)に基づいてエコー打消し量can(j)を算出する。
 can(j)=can(j-1)・・・(19)
 抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出された場合、下記の式(20)に基づいて第1の抑圧ゲインGsup0を算出し、可変アンプ9の抑圧ゲインGsup(j)を、算出した第1の抑圧ゲインGsup0に設定する。
 Gsup0=(1-G2)/(1-G2+G2・can(j))・・・(20)
 なお、上記の式(20)において、G1は、第1のアンプ4のゲイン(0<G1)を表し、G2は、第2のアンプ10のゲイン(0<G2≦1)を表し、jは、時刻を表す。
 抑圧ゲイン設定部82は、再生音検出部6によって再生音が検出されない場合、可変アンプ9の抑圧ゲインGsup(j)を、信号を抑圧しない第2の抑圧ゲインGsup1に設定する。第2の抑圧ゲインGsup1は1である。
 図15は、実施の形態6において、再生音が検出された場合のエコー打消し量と第1の抑圧ゲインとの関係を示す図である。
 再生音検出部6が再生音を検出していない場合は、エコー抑圧が行われないので、可変アンプ9の抑圧ゲインGsup(j)は1(第2の抑圧ゲインGsup1)である。
 再生音検出部6が再生音を検出しており、音響エコーキャンセラ3Aが全くエコーを打ち消していない場合、エコー打消し量can(j)は1となり、第1の抑圧ゲインGsup0は最小となる。このとき、第1の抑圧ゲインGsup0は、1-G2となる。
 一方、再生音検出部6が再生音を検出しており、音響エコーキャンセラ3Aが十分にエコーを打ち消している場合、エコー打消し量can(j)は小さくなる。そして、can(j)≒0の場合、第1の抑圧ゲインGsup0は、1となる。
 実施の形態6は、実施の形態5と抑圧ゲインの算出処理が異なるのみで、その他の処理は実施の形態5と同じである。そのため、実施の形態6における通話装置105の動作の説明は省略する。
 本実施の形態6によれば、例えば、エコー打消し量は、マイクロホン2から音響エコーキャンセラ3Aに入力される入力信号のレベルと、音響エコーキャンセラ3Aからの出力信号のレベルとの比を表す。音響エコーキャンセラ3Aがエコーを打ち消していない場合、エコー打消し量は1になり、音響エコーキャンセラ3Aから出力される再生音のエコーの音量が大きくなる。そこで、音響エコーキャンセラ3Aがエコーを十分に打ち消すまで、第1の抑圧ゲインにより再生音のエコー成分が抑圧される。これにより、再生音のエコーの音量と、マイクロホン2の周辺にいる近端話者の発話音声の音量とを揃えることができ、遠隔話者側において、再生音のエコーと近端話者の発話音声との両方を聞き取り易くすることができる。
 (実施の形態7)
 実施の形態1では、遠隔通話音声のみが音響エコーキャンセラ3に参照信号として入力される。これに対し、実施の形態7では、再生音が加算された遠隔通話音声が音響エコーキャンセラに参照信号として入力されるとともに、音響エコーキャンセラからの出力信号に再生音が加算される。
 図16は、本開示の実施の形態7における通話システムの構成を示す図である。
 図16に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23及び通話装置106を備える。なお、実施の形態7において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 通話装置106は、音響エコーキャンセラ3B、第1のアンプ4、第1の加算部5、第3のアンプ12及び第3の加算部13を備える。なお、通話装置106は、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 第1の加算部5は、遠隔通話音声と第1のアンプからの出力信号G1・xr(j)とを加算する。第1の加算部5は、遠隔話者による遠隔通話音声に再生音を加算し、再生音を加算した通話音声をスピーカ1及び音響エコーキャンセラ3Bへ出力する。第1の加算部5からの出力信号xf(j)+G1・xr(j)は、音響エコーキャンセラ3Bの参照信号である。第1の加算部5からの出力信号は、スピーカ1からも拡声される。
 音響エコーキャンセラ3Bは、第1の加算部5からの出力信号を参照信号として、マイクロホン2によって取得された入力信号に含まれる通話音声及び再生音のエコー成分をキャンセルする。音響エコーキャンセラ3Bは、遠隔通話音声のエコー成分だけでなく、再生音のエコー成分も除去する。音響エコーキャンセラ3Bには、音量を調整した再生音G1・xr(j)を加算した遠隔通話音声xf(j)が参照信号として入力されるとともに、マイクロホン2からの入力信号y(j)が入力される。音響エコーキャンセラ3Bは、スピーカ1から拡声されマイクロホン2に回り込む音響エコーを除去する。
 第3のアンプ12は、再生音に所定のゲインG3を乗算する。第3のアンプ12は、再生音の音量を調整し、音量を調整した再生音を第3の加算部13に出力する。第3のアンプ12は、第2の音量調整部の一例である。第3のアンプ12のゲインG3は、近端話者の発話音声と再生音とが遠隔側で同等になるように定められる。
 第3の加算部13は、第3のアンプ12からの出力信号と音響エコーキャンセラ3Bからの出力信号とを加算する。第3の加算部13は、音響エコーキャンセラ3Bからの出力信号に再生音を加算する。第3の加算部13は、第2の加算部の一例である。第3の加算部13は、音響エコーキャンセラ3Bからの出力信号に、第3のアンプ12によって音量が調整された再生音を加算する。
 実施の形態1と同様に、遠隔通話音声xf(j)は、スピーカ1から拡声され、マイクロホン2でエコー成分として収音されるが、当該エコー成分は、音響エコーキャンセラ3Bで除去される。また、実施の形態1とは異なり、再生音xr(j)のエコー成分は、音響エコーキャンセラ3Bで除去される。
 第3のアンプ12によって音量が調整された再生音G1・G3・xr(j)は、音響エコーキャンセラ3Bから出力されたエコー除去信号e(j)と第3の加算部13で加算され、遠隔側には、e(j)+G1・G3・xr(j)が送出される。そのため、遠隔側では再生音の確認が可能となる。
 実施の形態1では、スピーカ1から拡声されマイクロホン2で収音された再生音のエコーが遠隔側に送出されるが、本実施の形態7では、スピーカ1に入力された再生音G1・xr(j)に第3のアンプ12のゲインG3を乗じた再生音G1・G3・xr(j)が遠隔側に送出される。そのため、音響エコー経路を通過しておらず、エコーのない明瞭な再生音を遠隔側で確認できるという効果がある。
 続いて、本開示の実施の形態7における通話装置106の動作について説明する。
 図17は、本開示の実施の形態7における通話装置106の動作を説明するためのフローチャートである。
 図17に示すステップS101~ステップS102の処理は、図3に示すステップS1~ステップS2の処理と同じであるので説明を省略する。
 次に、ステップS103において、第1のアンプ4は、再生音の音量を調整する。第1のアンプ4は、再生音に所定のゲインG1を乗算する。ゲインG1は、通話装置100が使用される環境に応じて予め決められる。第1のアンプ4は、音量を調整した再生音を第1の加算部5及び第3のアンプ12に出力する。
 図17に示すステップS104の処理は、図3に示すステップS4の処理と同じであるので説明を省略する。
 次に、ステップS105において、第1の加算部5は、再生音を加算した遠隔通話音声をスピーカ1及び音響エコーキャンセラ3Bへ出力する。スピーカ1は、再生音を加算した遠隔通話音声を拡声する。音響エコーキャンセラ3Bは、再生音を加算した遠隔通話音声を参照信号として用いる。
 図17に示すステップS106の処理は、図3に示すステップS6の処理と同じであるので説明を省略する。
 次に、ステップS107において、音響エコーキャンセラ3Bは、再生音を加算した遠隔通話音声を参照信号として、マイクロホン2によって取得された入力信号に含まれる遠隔通話音声及び再生音のエコー成分をキャンセルする。
 次に、ステップS108において、第3のアンプ12は、第1のアンプ4から出力されたゲインG1が乗算された再生音の音量を調整する。第3のアンプ12は、第1のアンプ4からの出力信号に所定のゲインG3を乗算する。ゲインG3は、近端話者の発話音声と再生音とが遠隔側で同等になるように予め決められる。第3のアンプ12は、音量を調整した再生音を第3の加算部13に出力する。
 次に、ステップS109において、第3の加算部13は、音響エコーキャンセラ3Bから出力されたエコー除去信号に、第3のアンプ12から出力された再生音を加算する。第3の加算部13は、音響エコーキャンセラ3Bからのエコー除去信号e(j)に、第1のアンプ4及び第3のアンプ12によって音量が調整された再生音G1・G3・xr(j)を加算する。
 次に、ステップS110において、第3の加算部13は、再生音を加算したエコー除去信号を通話音声出力部23に出力する。通話音声出力部23は、第3の加算部13から出力された再生音を加算したエコー除去信号を近端通話音声として受話側の遠隔監視装置(不図示)に送信する。
 このように、スピーカ1からマイクロホン2に回り込む再生音のエコー成分は音響エコーキャンセラ3Bによって除去される。そして、再生音のエコー成分が除去された音響エコーキャンセラ3Bからの出力信号に再生音が加算され、音響エコー経路を通過していない再生音が加算された出力信号が遠隔話者側に出力される。そのため、遠隔話者は、音響エコーではない明瞭な再生音を確認することができる。
 なお、本実施の形態7において、通話装置106は、第1のアンプ4及び第3のアンプ12を備えていなくてもよい。
 (実施の形態8)
 遠隔会議又は遠隔講演などが行われる場合、遠隔話者が自身の通話音声が相手側で拡声されていることを確認したいという要望がある。そこで、実施の形態8の通話装置は、遠隔通話音声をスピーカ1から拡声し、マイクロホン2によって収音された遠隔通話音声を受話側の遠隔通話装置へ送り返す。
 図18は、本開示の実施の形態8における通話システムの構成を示す図である。
 図18に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23、制御信号入力部24及び通話装置107Aを備える。なお、実施の形態8において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 制御信号入力部24は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号を通話装置107Aへ出力する。制御信号は、受話側の遠隔通話装置(不図示)によって送信される。制御信号入力部24は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の遠隔監視装置から制御信号を受信する。遠隔監視装置は、遠隔通話音声を遠隔側へ送り返すか否かについての遠隔話者による入力を受け付ける。
 通話装置107Aは、音響エコーキャンセラ3、第1のアンプ4、第1の加算部5、再生音検出部6及び参照切替スイッチ14を備える。図18に示す通話装置107Aは、図1に示す通話装置100に対して、通話音声入力部21と音響エコーキャンセラ3との間に参照切替スイッチ14を追加したものであり、その他の構成は図1と同じである。なお、通話装置107Aは、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 参照切替スイッチ14は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、遠隔通話音声を参照信号として音響エコーキャンセラ3に入力するオン状態と、遠隔通話音声を参照信号として音響エコーキャンセラ3に入力しないオフ状態とに切り替えられる。参照切替スイッチ14のオン/オフは、制御信号入力部24から入力される制御信号によって切り替えられる。通常、参照切替スイッチ14は、オンに設定される。
 参照切替スイッチ14は、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、オフ状態に切り替えられる。すなわち、遠隔話者が遠隔通話音声が相手側で拡声されていることを確認する場合、制御信号入力部24は、参照切替スイッチ14をオフに設定するための制御信号を取得する。そして、参照切替スイッチ14は、オフに設定される。
 参照切替スイッチ14がオンに設定された場合、遠隔通話音声は、音響エコーキャンセラ3で除去される。この場合、遠隔話者は、相手側で拡声された遠隔通話音声を聞くことはできない。一方、参照切替スイッチ14がオフに設定された場合、遠隔通話音声は、音響エコーキャンセラ3で除去されない。この場合、遠隔話者は、相手側で拡声された遠隔通話音声を聞くことができる。
 また、参照切替スイッチ14がオフに設定される場合は、音響エコーキャンセラ3の参照信号としては、遠隔通話音声xf(j)の代わりに0が入力される。これにより、音響エコーキャンセラ3の適応フィルタの係数更新は停止される。
 このように、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、参照切替スイッチ14が、遠隔通話音声を参照信号として音響エコーキャンセラに入力しないオフ状態に切り替えられる。したがって、音響エコーキャンセラ3によって遠隔通話音声が除去されないので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (実施の形態9)
 実施の形態9の通話装置は、実施の形態8の通話装置と同様に、遠隔通話音声をスピーカ1から拡声し、マイクロホン2によって収音された遠隔通話音声を受話側の遠隔通話装置へ送り返す。
 図19は、本開示の実施の形態9における通話システムの構成を示す図である。
 図19に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23、制御信号入力部24及び通話装置107Bを備える。なお、実施の形態9において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 制御信号入力部24は、遠隔通話音声を遠隔話者へ送り返すか否かを示す制御信号を通話装置107Bへ出力する。制御信号は、受話側の遠隔通話装置(不図示)によって送信される。制御信号入力部24は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の遠隔監視装置から制御信号を受信する。遠隔監視装置は、遠隔通話音声を遠隔側へ送り返すか否かについての遠隔話者による入力を受け付ける。
 通話装置107Bは、音響エコーキャンセラ3、第1のアンプ4、第1の加算部5、再生音検出部6、第4のアンプ15及び第4の加算部16を備える。図19に示す通話装置107Bは、図1に示す通話装置100に対して、音響エコーキャンセラ3と通話音声出力部23との間に第4の加算部16を追加するとともに、通話音声入力部21と第4の加算部16との間に第4のアンプ15を追加したものであり、その他の構成は図1と同じである。なお、通話装置107Bは、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 第4のアンプ15は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、第4の加算部16に入力される遠隔通話音声の音量を調整する。第4のアンプ15は、第3の音量調整部の一例である。第4のアンプ15は、制御信号入力部24から入力される制御信号に基づいて、通話音声入力部21からの遠隔通話音声の音量を調整する。第4のアンプ15は、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に遠隔通話音声を調整する。また、第4のアンプ15は、遠隔通話音声を遠隔側へ送り返さないことを示す制御信号が入力された場合、遠隔話者が聴取不可能な音量に遠隔通話音声を調整する。
 第4のアンプ15は、制御信号入力部24から入力される制御信号によってゲインを変更する。制御信号が遠隔通話音声を遠隔側に送り返す指示である場合、第4のアンプ15は、通話音声入力部21からの遠隔通話音声に所定のゲインG4を乗算する。ゲインG4は、近端話者の発話音声と遠隔通話音声とが遠隔側で同等になるように予め決められる。制御信号が遠隔通話音声を遠隔側に送り返さない指示である場合、第4のアンプ15は、通話音声入力部21からの遠隔通話音声に0を乗算し、遠隔通話音声をミュートする。
 第4の加算部16は、第4のアンプ15からの出力信号と音響エコーキャンセラ3からの出力信号とを加算する。第4の加算部16は、第3の加算部の一例である。遠隔通話音声を遠隔側に送り返すことを示す制御信号が入力された場合、第4の加算部16は、音響エコーキャンセラ3からの出力信号に、第4のアンプ15によって音量が増幅された遠隔通話音声を加算する。遠隔通話音声を遠隔側に送り返さないことを示す制御信号が入力された場合、第4の加算部16は、音響エコーキャンセラ3からの出力信号に、遠隔通話音声を加算しない。
 このように、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に通話音声が調整される。したがって、音響エコーキャンセラ3からの出力信号に、第4のアンプ15によって遠隔話者が聴取可能な音量に調整された遠隔通話音声が加算されるので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (実施の形態10)
 実施の形態10の通話装置は、実施の形態8及び実施の形態9の通話装置と同様に、遠隔通話音声をスピーカ1から拡声し、マイクロホン2によって収音された遠隔通話音声を受話側の遠隔通話装置へ送り返す。
 図20は、本開示の実施の形態10における通話システムの構成を示す図である。
 図20に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23、制御信号入力部24及び通話装置108Aを備える。なお、実施の形態10において、実施の形態1及び実施の形態7と同じ構成については同じ符号を付し説明を省略する。
 制御信号入力部24は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号を通話装置108Aへ出力する。制御信号は、受話側の遠隔通話装置(不図示)によって送信される。制御信号入力部24は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の遠隔監視装置から制御信号を受信する。遠隔監視装置は、遠隔通話音声を遠隔側へ送り返すか否かについての遠隔話者による入力を受け付ける。
 通話装置108Aは、音響エコーキャンセラ3B、第1のアンプ4、第1の加算部5、第3のアンプ12、第3の加算部13及び参照切替スイッチ14を備える。図20に示す通話装置108Aは、図16に示す通話装置106に対して、第1の加算部5と音響エコーキャンセラ3Bとの間に参照切替スイッチ14を追加したものであり、その他の構成は図16と同じである。なお、通話装置108Aは、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 参照切替スイッチ14は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、第1の加算部5からの出力信号を参照信号として音響エコーキャンセラ3Bに入力するオン状態と、第1の加算部5からの出力信号を参照信号として音響エコーキャンセラ3Bに入力しないオフ状態とに切り替えられる。参照切替スイッチ14のオン/オフは、制御信号入力部24から入力される制御信号によって切り替えられる。通常、参照切替スイッチ14は、オンに設定される。
 参照切替スイッチ14は、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、オフ状態に切り替えられる。すなわち、遠隔話者が遠隔通話音声が相手側で拡声されていることを確認する場合、制御信号入力部24は、参照切替スイッチ14をオフに設定するための制御信号を取得する。そして、参照切替スイッチ14は、オフに設定される。
 参照切替スイッチ14がオンに設定された場合、第1の加算部5からの出力信号xf(j)+G1・xr(j)は、音響エコーキャンセラ3Bで除去される。この場合、遠隔話者は、相手側で拡声された遠隔通話音声を聞くことはできない。一方、参照切替スイッチ14がオフに設定された場合、第1の加算部5からの出力信号xf(j)+G1・xr(j)は、音響エコーキャンセラ3Bで除去されない。この場合、遠隔話者は、相手側で拡声された遠隔通話音声を聞くことができる。
 また、参照切替スイッチ14がオフに設定される場合は、音響エコーキャンセラ3Bの参照信号としては、第1の加算部5からの出力信号xf(j)+G1・xr(j)の代わりに0が入力される。これにより、音響エコーキャンセラ3Bの適応フィルタの係数更新は停止される。
 このように、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、参照切替スイッチ14が、第1の加算部5からの出力信号を参照信号として音響エコーキャンセラ3Bに入力しないオフ状態に切り替えられる。したがって、音響エコーキャンセラ3Bによって遠隔通話音声が除去されないので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 (実施の形態11)
 実施の形態11の通話装置は、実施の形態8~実施の形態10の通話装置と同様に、遠隔通話音声をスピーカ1から拡声し、マイクロホン2によって収音された遠隔通話音声を受話側の遠隔通話装置へ送り返す。
 図21は、本開示の実施の形態11における通話システムの構成を示す図である。
 図21に示す通話システムは、スピーカ1、マイクロホン2、通話音声入力部21、再生音入力部22、通話音声出力部23、制御信号入力部24及び通話装置108Bを備える。なお、実施の形態11において、実施の形態1及び実施の形態7と同じ構成については同じ符号を付し説明を省略する。
 制御信号入力部24は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号を通話装置108Bへ出力する。制御信号は、受話側の遠隔通話装置(不図示)によって送信される。制御信号入力部24は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の遠隔監視装置から制御信号を受信する。遠隔監視装置は、遠隔通話音声を遠隔側へ送り返すか否かについての遠隔話者による入力を受け付ける。
 通話装置108Bは、音響エコーキャンセラ3B、第1のアンプ4、第1の加算部5、第3のアンプ12、第3の加算部13、第4のアンプ15及び第4の加算部16を備える。図21に示す通話装置108Bは、図16に示す通話装置106に対して、第3の加算部13と通話音声出力部23との間に第4の加算部16を追加するとともに、通話音声入力部21と第4の加算部16との間に第4のアンプ15を追加したものであり、その他の構成は図16と同じである。なお、通話装置108Bは、スピーカ1及びマイクロホン2の少なくとも一方を備えてもよい。
 第4のアンプ15は、遠隔通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、第4の加算部16に入力される遠隔通話音声の音量を調整する。第4のアンプ15は、第3の音量調整部の一例である。第4のアンプ15は、制御信号入力部24から入力される制御信号に基づいて、通話音声入力部21からの遠隔通話音声の音量を調整する。第4のアンプ15は、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に通話音声を調整する。また、第4のアンプ15は、遠隔通話音声を遠隔側へ送り返さないことを示す制御信号が入力された場合、遠隔話者が聴取不可能な音量に通話音声を調整する。
 第4のアンプ15は、制御信号入力部24から入力される制御信号によってゲインを変更する。制御信号が遠隔通話音声を遠隔側に送り返す指示である場合、第4のアンプ15は、通話音声入力部21からの遠隔通話音声に所定のゲインG4を乗算する。ゲインG4は、近端話者の発話音声と遠隔通話音声とが遠隔側で同等になるように予め決められる。制御信号が遠隔通話音声を遠隔側に送り返さない指示である場合、第4のアンプ15は、通話音声入力部21からの遠隔通話音声に0を乗算し、遠隔通話音声をミュートする。
 第4の加算部16は、第4のアンプ15からの出力信号と第3の加算部13からの出力信号e(j)+G1・G3・xr(j)とを加算する。第4の加算部16は、第3の加算部の一例である。遠隔通話音声を遠隔側に送り返すことを示す制御信号が入力された場合、第4の加算部16は、第3の加算部13からの出力信号に、第4のアンプ15によって音量が増幅された遠隔通話音声を加算する。遠隔通話音声を遠隔側に送り返さないことを示す制御信号が入力された場合、第4の加算部16は、第3の加算部13からの出力信号に、遠隔通話音声を加算しない。
 このように、遠隔通話音声を遠隔側へ送り返すことを示す制御信号が入力された場合、遠隔話者が聴取可能な音量に遠隔通話音声が調整される。したがって、第3の加算部13からの出力信号に、第4のアンプ15によって遠隔話者が聴取可能な音量に調整された遠隔通話音声が加算されるので、遠隔話者は、自身の通話音声が相手側で拡声されていることを確認することができる。
 続いて、実施の形態1における通話装置100を備える車両及び遠隔監視装置の構成について説明する。
 図22は、実施の形態1における通話装置100を備える車両201及び遠隔監視装置202の構成を示す図である。
 車両201は、スピーカ1、マイクロホン2、通話装置100及び通信部110を備える。なお、図22において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。また、車両201は、実施の形態1の通話装置100に替えて、実施の形態2~11の通話装置101~108Bのいずれかを備えてもよい。
 通信部110は、通話音声入力部21、再生音入力部22及び通話音声出力部23を含む。
 通信部110は、遠隔監視装置202によって送信された遠隔監視者による遠隔通話音声を受信する。通信部110は、受信した遠隔通話音声を通話装置100に出力する。通信部110は、通話装置100から出力された近端通話音声を遠隔監視装置202に送信する。近端通話音声は、近端話者の通話音声及び再生音のエコーを含むとともに、遠隔通話音声のエコー成分が除去された音声信号である。通信部110は、遠隔監視装置202によって送信された再生音を受信する。通信部110は、受信した再生音を通話装置100に出力する。なお、通話装置100が通信部110を備えてもよい。
 車両201は、ネットワーク203を介して遠隔監視装置202と互いに通信可能に接続されている。ネットワーク203は、例えば、インターネット又は携帯電話網である。
 遠隔監視装置202は、マイクロホン41、操作部42、スピーカ43、記憶部210、読出部211及び通信部212を備える。遠隔監視装置202は、遠隔通話装置の一例である。
 マイクロホン41は、遠隔監視者の音声を収音する。マイクロホン2は、収音した音声を示す遠隔通話音声を通信部212に出力する。
 操作部42は、例えば、キーボード、マウス及びタッチパネル等であり、遠隔監視者による入力操作を受け付ける。操作部42は、複数の再生音のうち、車両201の外部に出力する再生音の遠隔監視者による選択を受け付ける。
 また、操作部42は、車両201を遠隔制御するための制御情報の入力を受け付けてもよい。遠隔監視者は、操作部42を用いて車両201を移動させる。
 記憶部210は、複数の再生音を予め記憶する。
 読出部211は、記憶部210に記憶されている複数の再生音のうち、操作部42によって選択された再生音を読み出す。
 通信部212は、マイクロホン41から出力された遠隔通話音声を車両201に送信する。通信部212は、車両201によって送信された近端通話音声を受信し、スピーカ43に出力する。通信部212は、読出部211によって読み出された再生音を車両201に送信する。
 スピーカ43は、車両201側から送信された近端通話音声を拡声する。
 図22に示すように、通話装置100は、遠隔監視装置202によって送信された再生音を取得してもよい。
 図23は、実施の形態1における通話装置100を備える車両201A及び遠隔監視装置202Aの別の構成を示す図である。
 車両201Aは、スピーカ1、マイクロホン2、通話装置100、記憶部111、通信部112及び読出部113を備える。なお、図23において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。また、車両201Aは、実施の形態1の通話装置100に替えて、実施の形態2~11の通話装置101~108Bのいずれかを備えてもよい。
 記憶部111は、複数の再生音を予め記憶する。
 通信部112は、通話音声入力部21及び通話音声出力部23を含む。
 通信部112は、遠隔監視装置202Aによって送信された遠隔監視者による遠隔通話音声を受信する。通信部112は、受信した遠隔通話音声を通話装置100に出力する。通信部112は、通話装置100から出力された近端通話音声を遠隔監視装置202Aに送信する。近端通話音声は、近端話者の通話音声及び再生音のエコーを含むとともに、遠隔通話音声のエコー成分が除去された音声信号である。通信部112は、複数の再生音のうち、出力する再生音を指定する再生情報を遠隔監視装置202Aから受信する。
 読出部113は、通信部112によって受信された再生情報によって指定された再生音を記憶部111から読み出す。読出部113は、読み出した再生音を通話装置100に出力する。読出部113は、再生音入力部22を含む。
 なお、通話装置100が、記憶部111、通信部112及び読出部113を備えてもよい。
 車両201Aは、ネットワーク203を介して遠隔監視装置202Aと互いに通信可能に接続されている。ネットワーク203は、例えば、インターネットである。
 遠隔監視装置202Aは、マイクロホン41、操作部42、スピーカ43及び通信部213を備える。遠隔監視装置202Aは、遠隔通話装置の一例である。図23に示すマイクロホン41及びスピーカ43は、図22に示すマイクロホン41及びスピーカ43と同じである。
 操作部42は、例えば、キーボード、マウス及びタッチパネル等であり、遠隔監視者による入力操作を受け付ける。操作部42は、複数の再生音のうち、車両201Aの外部に出力する再生音の遠隔監視者による選択を受け付ける。
 通信部213は、マイクロホン41から出力された遠隔通話音声を車両201Aに送信する。通信部213は、車両201Aによって送信された近端通話音声を受信し、スピーカ43に出力する。通信部213は、複数の再生音のうち、操作部42によって選択されるとともに、車両201Aから出力する再生音を指定する再生情報を車両201Aに送信する。
 図23に示すように、通話装置100は、車両201A又は通話装置100に予め記憶されている再生音を取得してもよい。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。
 本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
 また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
 また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 本開示に係る技術は、遠隔話者の通話音声を拡声することによって生じる音響エコーをキャンセルすることができるとともに、再生音が拡声されたか否かを遠隔話者が確認することができるので、周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う技術として有用である。

Claims (20)

  1.  周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う通話装置であって、
     前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、
     前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラと、
     を備える通話装置。
  2.  前記再生音の有無を検出する再生音検出部をさらに備え、
     前記音響エコーキャンセラは、前記再生音検出部によって前記再生音が検出された場合、適応フィルタのフィルタ係数の更新を停止する、
     請求項1記載の通話装置。
  3.  前記再生音の音量を調整し、音量を調整した前記再生音を前記第1の加算部に出力する第1の音量調整部をさらに備える、
     請求項1又は2記載の通話装置。
  4.  前記音響エコーキャンセラからの出力信号の音量を自動で調整する自動ゲイン制御部をさらに備える、
     請求項1又は2記載の通話装置。
  5.  前記再生音検出部によって前記再生音が検出された場合、前記音響エコーキャンセラからの出力信号の音量を抑圧するための第1の抑圧ゲインを設定し、前記再生音検出部によって前記再生音が検出されない場合、前記音響エコーキャンセラからの前記出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する抑圧ゲイン設定部と、
     前記抑圧ゲイン設定部によって設定された前記第1の抑圧ゲイン又は前記第2の抑圧ゲインを、前記音響エコーキャンセラからの前記出力信号に乗算する可変アンプとをさらに備える、
     請求項2記載の通話装置。
  6.  前記再生音の音量を抑圧する音量抑圧部と、
     前記通話音声に、前記音量抑圧部によって音量が抑圧された前記再生音を加算する第2の加算部とをさらに備え、
     前記音響エコーキャンセラは、前記第2の加算部からの出力信号を参照信号として、前記マイクロホンによって取得された前記入力信号に含まれる前記通話音声及び音量が抑圧された前記再生音のエコー成分をキャンセルする、
     請求項1記載の通話装置。
  7.  前記再生音の有無を検出する再生音検出部をさらに備え、
     前記音響エコーキャンセラは、前記再生音検出部によって前記再生音が検出された場合、適応フィルタのフィルタ係数の更新を停止する、
     請求項6記載の通話装置。
  8.  前記再生音検出部によって前記再生音が検出された場合、前記音響エコーキャンセラのエコー打消し量を推定し、推定した前記エコー打消し量に応じて前記音響エコーキャンセラからの出力信号の音量を抑圧するための第1の抑圧ゲインを設定し、前記再生音検出部によって前記再生音が検出されない場合、前記音響エコーキャンセラからの前記出力信号の音量を抑圧しないための第2の抑圧ゲインを設定する抑圧ゲイン設定部と、
     前記抑圧ゲイン設定部によって設定された前記第1の抑圧ゲイン又は前記第2の抑圧ゲインを、前記音響エコーキャンセラからの前記出力信号に乗算する可変アンプと、
     をさらに備える請求項7記載の通話装置。
  9.  前記抑圧ゲイン設定部は、前記フィルタ係数のパワーを算出し、算出した前記フィルタ係数のパワーから前記エコー打消し量を推定する、
     請求項8記載の通話装置。
  10.  前記抑圧ゲイン設定部は、前記マイクロホンから前記音響エコーキャンセラに入力される前記入力信号のレベルと、前記音響エコーキャンセラからの出力信号のレベルとに基づいて、前記エコー打消し量を推定する、
     請求項8記載の通話装置。
  11.  前記音響エコーキャンセラは、前記第1の加算部からの出力信号を参照信号として、前記マイクロホンによって取得された前記入力信号に含まれる前記通話音声及び前記再生音のエコー成分をキャンセルし、
     前記音響エコーキャンセラからの出力信号に前記再生音を加算する第2の加算部をさらに備える、
     請求項1記載の通話装置。
  12.  前記再生音の音量を調整する第2の音量調整部をさらに備え、
     前記第2の加算部は、前記音響エコーキャンセラからの出力信号に、前記第2の音量調整部によって音量が調整された前記再生音を加算する、
     請求項11記載の通話装置。
  13.  前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記通話音声を前記参照信号として前記音響エコーキャンセラに入力するオン状態と、前記通話音声を前記参照信号として前記音響エコーキャンセラに入力しないオフ状態とに切り替えられるスイッチをさらに備え、
     前記スイッチは、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記オフ状態に切り替えられる、
     請求項1又は2記載の通話装置。
  14.  前記音響エコーキャンセラからの出力信号に前記通話音声を加算する第3の加算部と、
     前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第3の加算部に入力される前記通話音声の音量を調整する第3の音量調整部と、
     をさらに備え、
     前記第3の音量調整部は、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記遠隔話者が聴取可能な前記音量に前記通話音声を調整し、前記通話音声を遠隔側へ送り返さないことを示す前記制御信号が入力された場合、前記遠隔話者が聴取不可能な前記音量に前記通話音声を調整する、
     請求項1又は2記載の通話装置。
  15.  前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第1の加算部からの出力信号を前記参照信号として前記音響エコーキャンセラに入力するオン状態と、前記第1の加算部からの出力信号を前記参照信号として前記音響エコーキャンセラに入力しないオフ状態とに切り替えられるスイッチをさらに備え、
     前記スイッチは、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記オフ状態に切り替えられる、
     請求項11又は12記載の通話装置。
  16.  前記第2の加算部からの出力信号に前記通話音声を加算する第3の加算部と、
     前記通話音声を遠隔側へ送り返すか否かを示す制御信号に基づいて、前記第3の加算部に入力される前記通話音声の音量を調整する第3の音量調整部と、
     をさらに備え、
     前記第3の音量調整部は、前記通話音声を遠隔側へ送り返すことを示す前記制御信号が入力された場合、前記遠隔話者が聴取可能な前記音量に前記通話音声を調整し、前記通話音声を遠隔側へ送り返さないことを示す前記制御信号が入力された場合、前記遠隔話者が聴取不可能な前記音量に前記通話音声を調整する、
     請求項11又は12記載の通話装置。
  17.  複数の再生音を予め記憶する記憶部と、
     前記複数の再生音のうち、出力する再生音を指定する再生情報を遠隔通話装置から受信する通信部と、
     前記再生情報によって指定された前記再生音を前記記憶部から読み出す読出部と、
     をさらに備える請求項1又は2記載の通話装置。
  18.  遠隔通話装置によって送信された前記再生音を受信する通信部をさらに備える、
     請求項1又は2記載の通話装置。
  19.  周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行う通話装置における通話方法であって、
     前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力し、
     前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする、
     通話方法。
  20.  周辺に対して所定の再生音を拡声するとともに、周辺にいる人と遠隔話者との間で通話を行うための通話プログラムであって、
     前記遠隔話者の通話音声に前記再生音を加算し、前記再生音を加算した前記通話音声をスピーカへ出力する第1の加算部と、
     前記通話音声を参照信号として、周辺の音を収音するマイクロホンによって取得された入力信号に含まれる前記通話音声のエコー成分をキャンセルする音響エコーキャンセラとしてコンピュータを機能させる、
     通話プログラム。
PCT/JP2023/026716 2022-08-22 2023-07-21 通話装置、通話方法及び通話プログラム WO2024042938A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-131967 2022-08-22
JP2022131967 2022-08-22

Publications (1)

Publication Number Publication Date
WO2024042938A1 true WO2024042938A1 (ja) 2024-02-29

Family

ID=90013160

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/026716 WO2024042938A1 (ja) 2022-08-22 2023-07-21 通話装置、通話方法及び通話プログラム

Country Status (1)

Country Link
WO (1) WO2024042938A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198093A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2005217547A (ja) * 2004-01-27 2005-08-11 Matsushita Electric Works Ltd 拡声通話装置
JP2010154482A (ja) * 2008-12-26 2010-07-08 Yamaha Corp 通信装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005198093A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2005217547A (ja) * 2004-01-27 2005-08-11 Matsushita Electric Works Ltd 拡声通話装置
JP2010154482A (ja) * 2008-12-26 2010-07-08 Yamaha Corp 通信装置

Similar Documents

Publication Publication Date Title
KR100338657B1 (ko) 비선형회로용반향소거기
US10930297B2 (en) Acoustic echo canceling
US11297178B2 (en) Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters
US7477735B2 (en) System and method for enhanced stereo audio
US8774399B2 (en) System for reducing speakerphone echo
US8811602B2 (en) Full duplex speakerphone design using acoustically compensated speaker distortion
US20080031469A1 (en) Multi-channel echo compensation system
US8160239B2 (en) Echo canceller and speech processing apparatus
US8116448B2 (en) Acoustic echo canceler
US7403608B2 (en) Echo processing devices for single-channel or multichannel communication systems
US8064966B2 (en) Method of detecting a double talk situation for a “hands-free” telephone device
US11081124B2 (en) Acoustic echo canceling
US20090067615A1 (en) Echo cancellation using gain control
US8126160B2 (en) Use of non-audible band to relay information for echo cancellation in a distributed media system
WO2024042938A1 (ja) 通話装置、通話方法及び通話プログラム
JP2007274714A (ja) エコーキャンセラ
JP2006067127A (ja) 残響除去方法及びその装置
JP2007336132A (ja) エコー抑圧装置
JP7434845B2 (ja) エコーキャンセル装置、エコーキャンセル方法およびプログラム
WO2024009892A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2009094707A (ja) 音声信号処理装置、音声信号処理方法
JP2001189795A (ja) 通信装置
Szabolcs et al. Hands-Free VoIP Terminal with Gain Control Based on Neural Network
JP4639910B2 (ja) エコーキャンセラ制御装置
JP2009260699A (ja) エコー消去装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23857054

Country of ref document: EP

Kind code of ref document: A1