WO2012160778A1 - 通話機 - Google Patents

通話機 Download PDF

Info

Publication number
WO2012160778A1
WO2012160778A1 PCT/JP2012/003174 JP2012003174W WO2012160778A1 WO 2012160778 A1 WO2012160778 A1 WO 2012160778A1 JP 2012003174 W JP2012003174 W JP 2012003174W WO 2012160778 A1 WO2012160778 A1 WO 2012160778A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio signal
unit
speaker
broadcast wave
Prior art date
Application number
PCT/JP2012/003174
Other languages
English (en)
French (fr)
Inventor
一任 阿部
宮阪 修二
直田 清吾
弘志 谷内
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201280024204.8A priority Critical patent/CN103548329B/zh
Priority to JP2013516192A priority patent/JP5960128B2/ja
Publication of WO2012160778A1 publication Critical patent/WO2012160778A1/ja
Priority to US14/081,776 priority patent/US8774398B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Definitions

  • the present invention relates to a telephone set equipped with an echo canceller.
  • Some telephones have a hands-free call function that allows users to talk without using a handset or headset.
  • the telephone has at least a speaker that reproduces a voice of a callee (hereinafter referred to as a far end) speaker and a microphone that receives a voice of a caller (hereinafter referred to as a near end) speaker and transmits the voice to a far end. Yes.
  • FIG. 9 is a diagram showing a configuration of a call system using a conventional call machine.
  • the call system shown in FIG. 9 receives and transmits voices of a near-end phone 900 used by a caller speaker, a far-end phone 920 used by a callee speaker, and voices of the caller 900 and the caller 920. And a communication network 930 used for the communication.
  • the telephone set 900 includes a decoder 901, a speaker 903, a microphone 904, an echo removing unit 905, and an encoder 906.
  • the communication device 920 includes a decoder 921, a speaker 923, a microphone 924, an echo removal unit 925, and an encoder 926.
  • the echo removal unit 905 and the echo removal unit 925 are not configured in this call system.
  • the voice of the far-end phone 920 is emitted from the speaker 903 of the near-end phone 900, and the sound is received by the microphone 904 of the near-end phone 900 and again the far-end phone. To 920.
  • the voice uttered by the far-end speaker is output from the speaker 923 of the user (the telephone 920), and this is heard as an echo. This is uncomfortable when the far-end speaker talks.
  • the near-end telephone 900 and the voice uttered by the near-end speaker is heard as an echo from the speaker 903 of the user (the telephone 900).
  • the sound received by the microphone 904 of the near-end phone 900 such as the near-end phone 900-far-end phone 920-near-end phone 900, is returned to the near-end phone 900 again.
  • output from the speaker 903 closed loop.
  • a continuous loud sound called howling is emitted from the speaker 903 at that frequency. This is not only very uncomfortable for the near-end speaker, but can also damage the speaker 903 in some cases.
  • an echo removing unit 905 and an echo removing unit 925 for preventing echo and howling from being installed are mounted on these telephone sets (the telephone sets 900 and 920).
  • the echo removing unit 905 identifies the acoustic characteristics of the route from the speaker 903 in the near-end telephone 900 to the microphone 904 via space. Then, using the identified acoustic characteristics and a signal transmitted to the speaker 903, a signal when the transmitted signal is output as sound by the speaker 903 and reaches the microphone 904 can be electrically estimated.
  • the estimated signal is called a pseudo echo. Then, by subtracting the pseudo echo from the signal actually received by the microphone 904, the signal transmitted from the far-end telephone 920 passes through the speaker 903 and the microphone 904 of the near-end telephone 900. It is possible to prevent returning to the far end again as an echo. Since the same applies to the echo removing unit 925, the description thereof is omitted.
  • Non-patent document 1 discloses a technique for suppressing such echo removal and howling.
  • the above-described pseudo echo needs to be generated before sound (acoustic signal) emitted from the speaker 903 reaches the microphone 904, for example.
  • the microphone 904 if the sound is received by the microphone 904 before the pseudo echo is generated due to some factor, the echo cannot be estimated and the echo is not removed.
  • the same voice may be received by both the far-end phone 920 and the near-end phone 900.
  • FIG. 10 is a diagram for explaining a problem in a telephone call system using a conventional telephone.
  • symbol is attached
  • the TV receiver 1000 and the TV receiver 1020 receive broadcast waves and both the near-end speaker and the far-end speaker are watching the same TV program.
  • the sound emitted by the TV receiver 1020 in the vicinity of the far-end telephone 920 is received by the microphone 924 of the far-end telephone 920.
  • the sound emitted from the TV receiver 1000 in the vicinity of the near-end telephone device 900 is received by the microphone 904 of the near-end telephone device 900.
  • the sound emitted from the far-end TV receiver 1020 is received by the microphone 924 of the far-end talker 920, and the voice signal of the talker 920 is sent to the near-end talker 900 together with the voice uttered by the far-end talker. And is input to the echo removing unit 905 of the near-end telephone 900.
  • the same voice is emitted from the TV receiver 1000 in the near-end telephone 900.
  • the TV receiver 1020 received by the microphone 924 of the far-end telephone 920 reaches the echo removal unit 905 of the near-end telephone 900, the TV receiver has already been reached. 1000 TV voices reach the microphone 904.
  • the TV sound of the TV receiver 1000 cannot be removed by the pseudo echo estimated from the TV sound of the TV receiver 1020 included in the sound signal of the telephone 920 input to the echo removing unit 905. As a result, the TV sound is transmitted to the far-end telephone 920, and an unpleasant echo is generated.
  • Patent Document 1 discloses a countermeasure method for this problem.
  • Embodiment 1 of Patent Document 1 for a case where the TV receiver is a separate housing, the TV sound reaching the near end from the far end, the TV sound generated at the near end, and the sound of the far end speaker are described.
  • a method for performing echo cancellation is disclosed.
  • Embodiment 2 of Patent Document 1 when the TV receiver and the telephone are integrated, the TV sound that reaches the near end from the far end, the TV sound that occurs at the near end, and the far end speaker Disclosed is a method of performing echo cancellation for a certain voice.
  • Patent Document 1 always performs echo cancellation of TV sound regardless of whether or not the far-end TV receiver 1020 and the near-end TV receiver 1000 receive broadcast waves. ing. That is, even when no broadcast wave is received, unnecessary echo estimation is always performed, and there is a problem that power consumption is large.
  • call frequency and the TV audio are usually different in sampling frequency and number of channels.
  • call voice has lower quality and TV voice has higher quality.
  • the above-mentioned patent document 1 does not consider this, and there is a problem that not only unnecessary power is consumed but also the TV sound quality may be deteriorated.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a communication device that can reduce power consumption without performing unnecessary echo estimation when a broadcast wave is not received.
  • a communication device is a communication device having at least a speaker and a microphone, which receives a broadcast wave and receives a first audio signal from the received broadcast wave.
  • the second audio signal is added and transmitted to the speaker, and an adder that outputs a reference signal, a pseudo echo component is estimated from the reference signal, and the sound output from the speaker is output by the microphone.
  • An echo removal unit that removes the pseudo echo component from the collected sound signal, and the addition unit, when the reception unit is receiving the broadcast wave, the first audio signal and the first 2 Thereby transmitted to the speaker by adding a voice signal, and outputs a signal obtained by adding the first audio signal and the second audio signal to the echo removing portion as the reference signal.
  • the receiving unit when the receiving unit is receiving a broadcast wave, echo cancellation is performed so that the sound of the broadcast wave (TV) of the phone at the near end is not transmitted to the other phone at the far end. it can. Further, when the receiving unit does not receive the broadcast wave, it is not necessary to remove the echo. Thereby, when a broadcast wave is not received, it is possible to realize a telephone that can reduce power consumption without performing unnecessary echo estimation.
  • TV broadcast wave
  • the communication device further includes a control unit that controls the addition unit, and the control unit is configured such that when the reception unit is receiving the broadcast wave, and the other communication device is the broadcast wave.
  • the adding unit adds the first audio signal and the second audio signal to transmit to the speaker, and the first audio signal.
  • a signal obtained by adding the second audio signal to the echo removing unit as the reference signal and the control unit is configured to receive the broadcast wave when the receiving unit is receiving the broadcast wave and the other call.
  • the adding unit receives the first audio signal and the The second audio signal is added and transmitted to the speaker. May the second audio signal as is output to the echo removing portion as the reference signal.
  • the broadcast wave (TV) received by the near-end telephone is determined depending on whether or not the same broadcast wave is received by the near-end telephone and another far-end telephone. It is possible to select whether or not to transmit the sound to another far end telephone. As a result, when different broadcast waves are received by the near-end telephone and other far-end telephones, unnecessary echo estimation is not performed, so that a telephone capable of reducing power consumption can be realized. it can.
  • control unit determines whether the receiving unit is receiving the broadcast wave based on a broadcast wave identification signal received by the receiving unit, and the control unit Even if it is determined based on the identification number of the broadcast wave received by the caller whether or not the other caller is receiving the same broadcast wave as the broadcast wave received by the receiving unit. Good.
  • the addition unit is configured to receive the first broadcast wave.
  • the sampling frequency of the audio signal is converted into a signal of the sampling frequency of the second audio signal and then added to the signal of the sampling frequency of the second audio signal, whereby the first audio signal and the second audio signal are added.
  • the signal is added and transmitted to the speaker, and a signal obtained by adding the first audio signal converted to the sampling frequency signal of the second audio signal and the second audio signal is used as the reference signal.
  • the sampling frequency of the second audio signal is converted into a signal of the sampling frequency of the first audio signal, and then added to the signal of the sampling frequency of the first audio signal.
  • the first audio signal and the second audio signal are added and transmitted to the speaker, and the second audio signal converted into a signal having a sampling frequency of the first audio signal is converted to the second audio signal.
  • the reference signal may be output to the echo removing unit.
  • the addition unit is configured to receive the first broadcast wave.
  • the number of channels of the audio signal is converted into a signal of the number of channels of the second audio signal and then added to the signal of the number of channels of the second audio signal, whereby the first audio signal and the second audio signal are added.
  • the signal is added to the speaker and transmitted to the speaker, and a signal obtained by adding the first audio signal converted to the signal of the number of channels of the second audio signal and the second audio signal is added to the reference signal.
  • the number of channels of the second sound signal is converted into a signal of the number of channels of the first sound signal, and then added to the signal of the number of channels of the first sound signal, thereby the first sound signal.
  • the audio signal and the second audio signal are added and transmitted to the speaker, and the second audio signal converted into a signal having the number of channels of the first audio signal is used as the reference signal to remove the echo. It may be output to the section.
  • a communication device is a communication device including at least a speaker and a microphone, which receives a broadcast wave, and receives a first sound from the received broadcast wave.
  • a reception unit that generates a signal; a decoding unit that generates a second audio signal by decoding a reception signal received from another telephone; and adds the first audio signal and the second audio signal
  • an adder that outputs a reference signal, estimates a pseudo echo component from the reference signal, and collects the sound output from the speaker from the collected sound signal collected by the microphone.
  • An echo removing unit that removes a component
  • the addition unit includes a first volume adjusting unit that adjusts a volume of the first audio signal, and a second volume that adjusts the volume of the second audio signal.
  • an adjustment section When the receiving unit is receiving the broadcast wave and outputting the second audio signal as the reference signal to the echo removing unit, the adding unit is configured to The second sound signal and the first sound signal having a smaller output level than the second sound signal are added by reducing the output level of the first sound volume adjustment unit compared to the output level. To the speaker.
  • the output level of the first volume control unit may be zero.
  • echo estimation can be performed with priority given to call volume. That is, when listening to the broadcast wave (TV) and calling at the same time with a near-end telephone, the sound volume of the call can be output with priority.
  • a communication device outputs a first audio signal when a speaker and a receiver that receives a broadcast wave output the first audio signal.
  • a communication device having at least a microphone that collects sound, a decoding unit that decodes a reception signal received from another communication device to generate a second audio signal, and a first pseudo echo component from the first reference signal
  • a first echo removing unit that removes the first pseudo echo component from a collected sound signal obtained by collecting at least the sound output from the speaker by the microphone, and the first echo removing unit
  • a second echo removing unit that estimates the second pseudo echo component using the collected sound signal from which the first pseudo echo component is removed as a second reference signal, and removes the second pseudo echo component from the second audio signal.
  • the decoding unit outputs the second sound including the third audio signal in the other caller.
  • the first echo removing unit collects the sound output from the speaker and the first audio signal output from the receiver from the collected sound signal collected by the microphone.
  • the first pseudo echo component is removed, and the second echo removal unit removes the second pseudo echo component including the third voice signal in the other telephone from the second voice signal,
  • the first reference signal is the second audio signal from which the second pseudo echo component has been removed by the second echo removal unit.
  • the second audio signal is obtained when the other call device picks up an audio signal output from a receiver that receives the same broadcast wave as the broadcast wave. It is almost the same as an audio signal.
  • a communication device is a communication device including at least a speaker and a microphone, and an audio stream is input and a first audio signal is received from the audio stream.
  • the first audio signal and the second audio signal are added and transmitted to the speaker, a reference signal is output, and a pseudo echo component is estimated from the reference signal.
  • An echo removing unit that removes the pseudo echo component from a collected sound signal obtained by collecting the output sound with the microphone, and the adding unit includes the receiving unit that receives the audio stream.
  • the first audio signal and the second audio signal are added and transmitted to the speaker, and the first audio signal and the second audio signal are added. Is output to the echo removing unit as the reference signal.
  • an echo removal apparatus is an echo removal apparatus that transmits an audio signal to a speaker and inputs a sound collection signal collected by a microphone.
  • a receiving unit that generates a first audio signal from the received broadcast wave, a decoding unit that decodes a received signal received from another telephone and generates a second audio signal, and the first Or the second audio signal is transmitted to the speaker, or the first audio signal and the second audio signal are added and transmitted to the speaker, and a reference signal is output.
  • an echo removal unit that estimates a pseudo echo component from the reference signal and removes the pseudo echo component from a sound collection signal obtained by collecting the sound output from the speaker with the microphone
  • the adding unit adds the first audio signal and the second audio signal and transmits the added signal to the speaker when the receiving unit receives the broadcast wave, and also transmits the first audio signal.
  • the second audio signal are output as the reference signal to the echo removing unit.
  • FIG. 1A is a diagram showing an example of a configuration of a call system according to Embodiment 1 of the present invention.
  • FIG. 1B is a diagram showing an example of a configuration of a call system according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram illustrating a detailed configuration of the addition unit and the control unit according to Embodiment 1 of the present invention.
  • FIG. 3 is a diagram showing a configuration of a call system in the first modification of the first embodiment of the present invention.
  • FIG. 4 is a diagram showing a configuration of a call system according to the second modification of the first embodiment of the present invention.
  • FIG. 5 is a diagram showing another configuration of the call system according to the second modification of the first embodiment of the present invention.
  • FIG. 1A is a diagram showing an example of a configuration of a call system according to Embodiment 1 of the present invention.
  • FIG. 1B is a diagram showing an example of a configuration of a call system according to Embod
  • FIG. 6 is a diagram showing still another configuration of the call system according to Modification 2 of Embodiment 1 of the present invention.
  • FIG. 7 is a diagram showing a configuration of a near-end telephone in Embodiment 2 of the present invention.
  • FIG. 8 is a diagram showing a configuration of the telephone communication system according to Embodiment 3 of the present invention.
  • FIG. 9 is a diagram showing a configuration of a call system using a conventional call machine.
  • FIG. 10 is a diagram for explaining a problem in a telephone call system using a conventional telephone.
  • FIG. 11 is a diagram illustrating a detailed configuration of the addition unit and the control unit according to Embodiment 4 of the present invention.
  • FIG. 12 is a diagram illustrating a detailed configuration of the adding unit, the control unit, and the echo removing unit when a speaker is provided for each frequency band.
  • FIG. 13 is a diagram illustrating a detailed configuration of the echo removing unit in the case where a speaker for each frequency band is provided.
  • FIG. 14 is a diagram showing another detailed configuration of the echo removing unit in the case of having a speaker for each frequency band.
  • FIG. 15 is a diagram illustrating a detailed configuration of an adding unit that performs lip sync delay processing.
  • FIG. 16 is a diagram showing another configuration of the near-end telephone in the second embodiment of the present invention.
  • FIG. 1A and FIG. 1B are diagrams showing an example of a configuration of a call system according to Embodiment 1 of the present invention.
  • the call system shown in FIG. 1A receives and transmits the near-end phone 10 used by the caller, the far-end phone 20 used by the caller, and the voices of the caller 10 and the caller 20. And a communication network 30 used for the communication.
  • the telephone 10 includes a TV signal receiving unit 100, a decoder 101, an adding unit 102, a speaker 103, a microphone 104, an echo removing unit 105, an encoder 106, and a control unit 107.
  • the TV signal receiving unit 100 is an example of the receiving unit of the present invention, and generates a first audio signal from the received broadcast wave (TV signal) when receiving the broadcast wave (TV signal). Specifically, the TV signal receiving unit 100 receives a TV signal from a broadcast wave and generates a first audio signal L11.
  • an audio signal of a TV signal included in a recent broadcast wave is a wide-band (32 kHz, 48 kHz, etc.) multi-channel signal (2ch signal or 5.1ch signal).
  • the audio stream input through the communication network may be received and decoded by the audio stream receiving / decoding unit 100a.
  • the audio stream receiving / decoding unit 100a generates the first audio signal L11 in the same manner as described above.
  • the audio stream receiving / decoding unit 100a may receive an audio stream after decoding a TV video / audio multiplexed stream being broadcast live through an Internet communication network, or may be an audio / An audio stream included in a radio broadcast may be input.
  • the present invention is not limited to this, and the same processing can be performed as long as the audio stream is input through a communication network.
  • the decoder 101 is an example of a decoding unit according to the present invention, and decodes a received signal received from another telephone and generates a second audio signal. Specifically, the decoder 101 receives a reception signal transmitted from the far-end telephone 20 via the communication network 30, and generates a second audio signal L12.
  • a signal used for a call is a narrow band signal of about 8 kHz in the past, but in recent years it is becoming a relatively wide band signal such as 16 kHz or 24 kHz. However, it is still narrower than the audio signal of television.
  • a call signal is a monaural signal.
  • the control unit 107 is an example of the control unit of the present invention, and controls the adding unit 102. Specifically, the control unit 107 receives a signal (Y1) indicating whether the TV signal receiving unit 100 is receiving a signal and a signal (X1) indicating whether the decoder 101 is receiving a reception signal. Then, the control signal S11 for controlling the operation of the adding unit 102 is generated.
  • the control unit 107 adds the signal when the TV signal receiving unit 100 is receiving a broadcast wave (TV signal) and the decoder 101 is decoding a received signal received from another telephone.
  • the unit 102 adds the first audio signal L11 and the second audio signal L12 to be transmitted to the speaker 103, and uses the signal obtained by adding the first audio signal L11 and the second audio signal L12 as a reference signal R11.
  • the control unit 107 adds the signal when the TV signal receiving unit 100 receives a broadcast wave (TV signal) and the decoder 101 does not decode the received signal received from another telephone.
  • the first audio signal L11 is directly transmitted to the speaker 103, and nothing is transmitted to the echo removing unit 105. In this case, needless to say, the right adder in the adder 102 is not necessary.
  • the adding unit 102 is an example of the adding unit of the present invention, and transmits the first audio signal or the second audio signal to the speaker 103 or adds the first audio signal and the second audio signal to the speaker. And a reference signal is output.
  • the adding unit 102 adds the first audio signal and the second audio signal, transmits the added signal to the speaker 103, and first A signal obtained by adding the audio signal and the second audio signal is output to the echo removing unit 105 as a reference signal R11.
  • the adding unit 102 is controlled by the control signal S11, and outputs the second audio signal L12 or a signal obtained by adding the first audio signal L11 and the second audio signal L12 to the speaker 103.
  • the adder 102 outputs an echo signal reference signal R 11 described later to the echo remover 105.
  • R 11 an echo signal reference signal R 11 described later to the echo remover 105.
  • how to add the first audio signal L11 and the second audio signal L12, and how to add the reference signal R11 from the added first audio signal L11 and second audio signal L12. Whether it is generated is controlled by a control signal S11. Since this will be described later with reference to FIG. 2, a description thereof is omitted here.
  • the speaker 103 converts the output signal transmitted from the adding unit 102 into a spatial acoustic signal. And the speaker 103 changes the acoustic signal of the converted space into the physical vibration according to it, and outputs a sound.
  • the microphone 104 collects sound and converts the collected sound into an electric signal. Specifically, the microphone 104 receives an acoustic signal in the space including the acoustic signal from the speaker 103 and converts it into an electrical signal. Here, the acoustic signal output by the speaker 103 is picked up by the microphone 104 directly or indirectly by being reflected on a wall or the like. If there is nothing, the acoustic signal collected by the microphone 104 is echoed and transmitted to the far-end telephone 20. The echo removing unit 105 suppresses the echo.
  • the echo removing unit 105 is an example of the echo removing unit of the present invention, which estimates a pseudo echo component from the reference signal R11, and produces a pseudo echo from a sound collection signal obtained by collecting the sound output from the speaker 103 with the microphone 104. Remove ingredients. Specifically, the echo removing unit 105 receives the output signal from the microphone 104 and the reference signal R11, and estimates a pseudo echo component from the reference signal R11. The echo removing unit 105 removes a pseudo echo component from the signal collected by the microphone 104. In other words, the echo removal unit 105 estimates the pseudo echo from the signal component included in the reference signal R11 and the signal component of the signal collected including the echo, thereby echoing from the signal collected including the echo. Remove.
  • the echo removing unit 105 may be any conventionally known echo removing means.
  • the echo removal unit 105 outputs a signal from which the pseudo echo component is removed to the encoder 106.
  • the encoder 106 transmits (transmits) the output signal transmitted from the echo removing unit 105 to the far-end telephone 20.
  • the telephone 10 is configured as described above.
  • the telephone set 20 is similar to the telephone set 10 in that the TV signal receiving unit 120, the decoder 121, the adding unit 122, the speaker 123, the microphone 124, the echo removing unit 125, the encoder 126, and the control unit. 127. Since the function of each part is the same as the above-mentioned content, description is abbreviate
  • the call system is configured as described above.
  • FIG. 2 is a diagram showing a detailed configuration of the adding unit 102 and the control unit 107.
  • the adding unit 102 includes a signal degeneration unit 1021, a first adder 1022, a signal expansion unit 1023, and a second adder 1024, and includes a first audio signal and a second adder 1024.
  • the reference signal R11 transmitted to the echo removing unit 105 and the output signal transmitted to the speaker 103 are generated.
  • the control unit 107 receives a signal X1 indicating whether or not a received signal is received and a signal Y1 indicating whether or not a TV signal is received.
  • the control unit 107 generates a control signal S11 that controls the operation of the addition unit 102 based on the signal X1 and the signal Y1.
  • the control signal S11 is used to switch between sending the first audio signal L11 to the signal degeneration unit 1021 or sending it to the second adder 1024.
  • the first audio signal L11 is a wideband multi-channel signal (multi-channel signal), for example, a 48 kHz stereo signal.
  • the second audio signal L12 is a narrow-band small channel signal, for example, a 16 kHz monaural signal.
  • the reference signal is a narrow-band small channel signal, and the output signal is a wideband multi-channel signal.
  • the signal degeneration unit 1021 performs a downsampling process and a downmix process.
  • the signal degeneration unit 1021 converts a 48 kHz stereo signal input as the first audio signal L11 into a 16 kHz monaural signal.
  • the signal degeneration unit 1021 only needs to perform the downmix processing.
  • the signal degeneration unit 1021 only needs to perform the downsampling process.
  • the signal expansion unit 1023 performs upsampling processing and upmix processing.
  • the signal expansion unit 1023 converts a 16 kHz monaural signal into a 48 kHz stereo signal.
  • the signal expansion unit 1023 only needs to perform the upmix processing.
  • the signal degeneration unit 1021 only needs to perform the upsampling process.
  • the first adder 1022 adds the output signal of the signal degeneration unit 1021 and the second audio signal L12 and outputs the result to the signal expansion unit 1023. At the same time, the first adder 1022 outputs the reference signal R11 to the echo removing unit 105.
  • the second adder 1024 adds the output signal of the signal expansion unit 1023 and the first audio signal L11 and outputs the result to the speaker 103.
  • the adding unit 102 is configured as described above.
  • control unit 107 and the addition unit 102 configured as described above will be described.
  • the control unit 107 sets the switch in the addition unit 102 to the left side.
  • a control signal S11 for controlling to be tilted is generated and transmitted to the adder 102.
  • the adding unit 102 tilts the internal switch to the left side. That is, the adding unit 102 transmits the received first audio signal L11 of the TV signal receiving unit 100 to the signal degeneration unit 1021.
  • the signal degeneration unit 1021 that has received the first audio signal L11 of the TV signal receiving unit 100 performs downsampling processing and downmixing processing on the signal (first audio signal L11), and the far-end telephone 20
  • the received signal (second audio signal L12) is converted into the same sampling frequency and the same number of channels and output to the first adder 1022.
  • the first adder 1022 adds the reception signal of the far-end telephone 20 and the first audio signal L11 converted by the signal degeneration unit 1021, and outputs the result to the echo removal unit 105 as a reference signal R11. , And output to the signal expansion unit 1023.
  • the reference signal is obtained by down-sampling and down-mixing the first audio signal L11 and converting the first audio signal L11 into the same sampling frequency and number of channels as the reception signal (second audio signal L12) of the far-end telephone 20. Since R11 can be a narrow-band small channel, there is also an advantage that the amount of computation of the echo removing unit 105 can be reduced.
  • the control unit 107 switches in the addition unit 102.
  • a control signal S11 for controlling to tilt to the right is generated and transmitted to the adder 102.
  • the addition unit 102 tilts the internal switch to the right side. That is, the adding unit 102 transmits the received first audio signal L11 of the TV signal receiving unit 100 to the second adder 1024.
  • the second adder 1024 substantially does not perform the addition process.
  • the first TV signal input to the adder 1024 is output to the speaker 103 as it is.
  • the control unit 107 controls the adding unit 102 so that when the speaker of the near-end telephone 10 is not talking to the speaker of the far-end telephone 20, the TV signal receiving unit 100
  • the voice signal (first voice signal L11) can be received by the speaker of the near-end telephone 10 using the original broadband multi-channel voice.
  • the TV signal (first audio signal) is input to the reference signal R11 input to the echo removing unit 105.
  • L11 can be added, so that the TV sound (first audio signal L11 of the TV signal receiving unit 100) received by the near-end phone 10 is not sent to the far-end phone 20. it can.
  • the adder 102 receives the first signal when the TV signal receiver 100 is receiving a broadcast wave (TV signal) and the decoder 101 is decoding a received signal received from another telephone.
  • the sampling frequency of the first audio signal L11 is converted into the signal of the sampling frequency of the second audio signal L12, and then added to the signal of the sampling frequency of the second audio signal L12.
  • the two audio signals L12 are added and transmitted to the speaker 103.
  • the adder 102 adds a signal obtained by adding the first audio signal L11 and the second audio signal L12 converted into a signal having a sampling frequency of the second audio signal L12 to the echo removing unit 105 as a reference signal R11. Output.
  • the adding unit 102 adds the broadcast wave (TV signal).
  • the first audio signal L11 is directly transmitted to the speaker 103, and nothing is transmitted to the echo removing unit 105.
  • the right adder in the adder 102 is not necessary.
  • the control unit 107 generates the control signal S11 from the presence / absence of the TV signal received by the TV signal receiving unit 100 and the presence / absence of the received signal from the far-end telephone 20. Not limited to.
  • the control unit may not receive the input signal and generate the control signal S11 according to a user instruction. This case will be described as a first modification.
  • FIG. 3 is a diagram showing a configuration of a call system in the first modification of the first embodiment of the present invention. Elements similar to those in FIG. 1 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • control unit 3 is different from the caller 10 according to Embodiment 1 in the configuration of the control unit 307.
  • the control unit 107 receives the reception signal (signal Y1) transmitted from the far-end telephone 20 and the TV signal (signal X1) of the TV signal reception unit 100.
  • the control unit 307 is different in that a user instruction is input.
  • control unit 307 transmits to the addition unit 102 a control signal S11 for controlling the switch in the addition unit 102 shown in FIG.
  • the near-end TV signal can be removed by the near-end-side echo removal unit 105, so that the near-end-side TV sound is transmitted to the far-end side, and the far-end side that received it returns as if a significant echo is returned. It is possible to avoid a state like that.
  • the control unit 307 transmits to the addition unit 102 a control signal S11 for controlling the switch in the addition unit 102 shown in FIG.
  • the TV signal can be heard by the user as an original wideband multi-channel signal on the near end side.
  • the second adder 1024 outputs the TV signal. Add (first audio signal L11).
  • the signal expansion unit 1023 expands the reception signal (second audio signal L12) to the sampling frequency of the TV signal (first audio signal L11), and further expands the number of channels to the number of channels of the TV signal. Also good.
  • Modification 2 In the first modification, the user determines whether or not to add the near-end TV signal to the reference signal R11 and gives a user instruction to the control unit 307.
  • the present invention is not limited to this. This determination and control may be performed automatically. This example will be described as a second modification.
  • FIG. 4 is a diagram showing a configuration of a call system in the second modification of the first embodiment of the present invention. Elements similar to those in FIGS. 1 and 3 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the TV signal receiving unit 100 outputs the TV signal (signal X) received by the near-end telephone 14 to the control unit 307, whereas the TV signal receiving unit 400 The difference is that the TV broadcast identification signal (Y11) received by the end caller 14 is output to the control unit 407 and also output to the far end caller 24 via the communication network 30.
  • the control unit 107 receives the reception signal (signal Y1) transmitted from the far-end telephone 20 and the TV signal (signal X1) of the TV signal reception unit 100, whereas the control unit 407 Is configured in that a TV broadcast identification signal (Y11) received by the near-end telephone 14 and a TV broadcast identification signal (Y12) received by the far-end telephone 24 are input. Is different.
  • the configuration of the TV signal receiving unit 420 and the control unit 427 of the telephone set 24 shown in FIG. 4 is different from that of the telephone set 20 according to the first embodiment.
  • the TV signal reception unit 120 outputs the TV signal (signal Y2) received by the far-end telephone 20 to the control unit 127, whereas the TV signal reception unit 420
  • the difference is that the TV broadcast identification signal (Y12) received by the end phone 14 is output to the control unit 427 and also output to the near end phone 14 via the communication network 30.
  • the control unit 127 receives the TV signal (signal Y2) from the far-end TV signal reception unit 120 and the reception signal (signal X2) transmitted from the near-end telephone 10,
  • the control unit 427 receives the TV broadcast identification signal (Y11) received by the near-end telephone 14 and the TV broadcast identification signal (Y12) received by the TV signal receiving unit 420.
  • the configuration is different.
  • the TV broadcast identification signal (Y11) received by the near-end telephone 14 is sent to the far-end telephone 24, and the TV broadcast identification signal ( Y12) is sent to the near-end telephone 14 and the identification signals are compared. Thereby, for example, the near-end telephone 14 can determine whether the same TV program as the far-end telephone 24 is received.
  • the identification signal may be a symbol assigned to each TV broadcast program or a symbol for identifying a broadcasting station.
  • the TV signal receiving unit 420 is described as outputting a TV broadcast identification signal received by the far-end telephone 24 to the near-end telephone 14 via the communication network 30. But it is not limited to that.
  • the TV signal receiving unit 400 may output an identification signal to the encoder 506, be encoded by the encoder 506, and be sent to the far-end telephone 25 as side information of the call signal.
  • the decoder 521 may separate the identification signal after decoding and send it to the control unit 527.
  • FIG. 5 is a diagram showing another configuration of the call system in the second modification of the first embodiment of the present invention.
  • the encoder 506 encodes the identification signal and sends it to the far-end telephone 24 as side information of the call signal, but is not limited thereto.
  • the TV signal receiving unit 400 outputs an identification signal to the audio watermark encoder 609 instead of the encoder 506, and the audio watermark encoder 609 uses the audio watermark technology to convert the identification signal into a call signal. It may be multiplexed to itself.
  • the encoder 106 encodes the multiplexed identification signal and transmits it to the far-end telephone 26. Then, the far-end telephone 26 may send the signal decoded by the decoder 121 to the audio watermark decoder 628. Further, the audio watermark decoder 628 may separate the identification signal and the call signal of the caller 16, output the identification signal to the control unit 627, and output the call signal of the caller 16 to the adding unit 122.
  • FIG. 7 is a diagram showing the configuration of the near-end telephone 17 in Embodiment 2 of the present invention. Elements similar to those in FIG. 1A are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the adding unit 702 includes a first volume adjusting unit 711, a second volume adjusting unit 712, and an adder 713, and gives priority to the received signal transmitted from the far-end telephone 20. And output to the speaker 103. More specifically, the adding unit 702 is an example of the adding unit of the present invention, and the first volume adjusting unit 711 that adjusts the volume of the first audio signal L11 and the volume of the second audio signal L12. A second sound volume adjusting unit 712 that adjusts the first sound signal L11 and the second sound signal L12, and transmits the result to the speaker 103 and outputs a reference signal R71.
  • the adder 702 receives the second By making the output level of the first volume adjustment unit 711 smaller than the output level of the volume adjustment unit 712, the second audio signal L12 and the first output level lower than the second audio signal L12 are compared.
  • the audio signal L11 is added and transmitted to the speaker 103. More specifically, the first volume adjustment unit 711 adjusts the volume of the first audio signal L11 that is a TV signal by the control signal S71.
  • the second volume adjustment unit 712 adjusts the volume of the second audio signal L12, which is a received signal, according to the control signal S71.
  • the control unit 707 generates a control signal S71 for controlling the adding unit 702 based on the received signal (signal X1) of the TV signal receiving unit 100 and the received signal (signal Y1) of the decoder 101, and the adding unit 702 Output to.
  • control unit 707 sets the output level of the second volume adjustment unit to be higher than the output level of the first volume adjustment unit in order to prioritize the voice of the call when listening to TV and a call are performed simultaneously.
  • the control signal S71 to be generated is generated and output to the adding unit 702.
  • the control unit 707 when the output level of the second volume adjustment unit 712 is not 0, the control unit 707 generates a control signal S71 that sets the output level of the first volume adjustment unit 711 to 0 and outputs the control signal S71 to the addition unit 702. It is good.
  • the reference signal R71 is an input signal to the adder 713, but it goes without saying that an output signal to the adder 713 may be the reference signal R71.
  • the control of the first volume adjusting unit 711 and the second volume adjusting unit 712 is performed by the control signal S71, it is needless to say that it may be performed by a user instruction. That is, the configuration of the telephone 17 shown in FIG. 7 may be similar to the telephone 17a shown in FIG. 16 adds the reference signal R71 as an output signal of the adder 713, and indicates the level of the volume adjustment set in the first volume adjustment unit 711 and the second volume adjustment unit 712 by the user. 7 is the same as the adding unit 102 shown in FIG.
  • Embodiments 1 and 2 have described the case where the caller can simultaneously process the broadcast wave reception function and the call function, that is, the case where the TV receiver is integrated with the communication device.
  • Embodiment 3 a case where the TV receiver is a separate housing from the communication device will be described.
  • FIG. 8 is a diagram showing a configuration of the communication system in the third embodiment of the present invention.
  • the call system shown in FIG. 8 receives and transmits the voices of the near-end phone 80 used by the caller speaker, the far-end phone 90 used by the caller speaker, and the caller 80 and the caller 90. And a communication network 30 used for this. Elements similar to those in FIG. 1 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the telephone 80 includes a speaker 103 and a microphone 104 that picks up at least the third audio signal L81 when the TV receiver 840 that receives a broadcast wave (TV signal) outputs the third audio signal L81.
  • the telephone 80 includes a decoder 101, a speaker 103, a microphone 104, a first echo removal unit 811, a second echo removal unit 812, and an encoder 106.
  • the telephone set 90 includes a decoder 121, a speaker 123, a microphone 124, a first echo removal unit 831, a second echo removal unit 832, and an encoder 126.
  • the TV receiver 840 is a separate housing from the telephone 80 and is installed on the near end side, receives a TV signal from a broadcast wave, and generates a third audio signal L81.
  • the TV receiver 850 is a separate housing from the telephone 90 and is installed on the far end side, receives a TV signal from a broadcast wave, and generates a fourth audio signal L82.
  • the microphone 104 picks up the third audio signal L81 generated by the TV receiver 840 and outputs it to the first echo removing unit 811.
  • the first echo removing unit 811 is an example of the first echo removing unit of the present invention.
  • the first echo removing unit 811 estimates the first pseudo echo component from the reference signal R81, and at least the sound output from the speaker 103 is output by the microphone 104.
  • the first pseudo echo component is removed from the collected sound signal.
  • the first echo removing unit 811 collects the sound output from the speaker 103 and the TV when the telephone 90 collects an audio signal output from the TV receiver 850 that receives a broadcast wave.
  • the first pseudo echo component is removed from the collected sound signal obtained by collecting the third sound signal L81 output from the receiver 840 with the microphone 104.
  • the reference signal R81 is the fourth audio signal L82 from which the second pseudo echo component has been removed by the second echo removal unit 812.
  • the fourth audio signal L82 is substantially the same as the third audio signal L81 when the telephone 90 collects the audio signal output from the TV receiver 850 that receives the same broadcast wave as the broadcast wave. is there.
  • the first echo removing unit 811 removes an echo generated by collecting an acoustic signal emitted from the speaker 103 with the microphone 104.
  • the first echo removing unit 811 sends the output signal from which the echo has been removed to the far-end telephone 90 via the encoder 106 and the communication network 30, and as the reference signal R82 of the second echo removing unit 812, 2 is transmitted to the second echo removing unit 812.
  • the first echo removing unit 811 cannot remove the third audio signal L81. This is because the reference signal R81 of the first echo removing unit 811 is configured to be a signal output from the speaker 103, as can be seen from FIG.
  • the second echo removal unit 812 removes echoes included in the audio signal output from the decoder 101. Specifically, the second echo removal unit 812 removes the fourth audio signal L82 included in the audio signal output from the decoder 101 as a pseudo echo estimated based on the reference signal R82.
  • the reference signal R82 of the second echo removing unit 812 is the third audio signal L81
  • the third audio signal L81 and the fourth audio signal L82 are originally the audio of the same TV program.
  • the echo of the third audio signal L81 is as if it were the fourth audio signal L82. Therefore, the second echo removal unit 812 can remove the fourth audio signal L82 included in the audio signal output from the decoder 101 as a pseudo echo estimated based on the reference signal R82.
  • the second echo removing unit 812 is an example of the second echo removing unit of the present invention, and the collected sound signal from which the first pseudo echo component is removed by the first echo removing unit 811 is used as a reference signal R82. Two pseudo echo components are estimated, and the second pseudo echo component is removed from the fourth audio signal L82. Specifically, the second echo removal unit 812 removes the second pseudo echo component including the fourth voice signal L82 in the telephone 90 from the voice signal output from the decoder 101. More specifically, the second echo removing unit 812 removes the TV sound from the sound signal output from the decoder 101 and outputs it to the speaker 103. Therefore, the speaker 103 outputs the voice of the far-end speaker with the TV voice removed.
  • the microphone 124 collects the fourth audio signal L82 generated by the TV receiver 850 and outputs it to the first echo removing unit 831.
  • the first echo removing unit 831 removes an echo generated by collecting the acoustic signal emitted from the speaker 123 with the microphone 124.
  • the first echo removing unit 831 sends the output signal from which the echo has been removed to the near-end telephone 80 via the communication network 30 and uses the second echo as a reference signal R84 of the second echo removing unit 832. This is transmitted to the removal unit 832.
  • the first echo removing unit 831 cannot remove the fourth audio signal L82. This is because the reference signal R83 of the first echo removing unit 831 is configured to be a signal output from the speaker 123, as can be seen from FIG.
  • the second echo removal unit 832 removes echoes included in the audio signal output from the decoder 121. Specifically, the second echo removing unit 832 removes the third audio signal L81 included in the audio signal output from the decoder 121 as a pseudo echo estimated based on the reference signal R84.
  • the reference signal R84 of the second echo removing unit 832 is the fourth audio signal L82
  • the third audio signal L81 and the fourth audio signal L82 are originally the audio of the same TV program.
  • the echo of the fourth audio signal L82 is in a state as if it were the third audio signal L81. Therefore, the second echo removal unit 832 can remove the third audio signal L81 included in the audio signal output from the decoder 121 as a pseudo echo estimated based on the reference signal R84.
  • the second echo removing unit 832 removes the TV sound from the sound signal output from the decoder 121 and outputs it to the speaker 123. Therefore, the speaker 123 outputs the voice of the far-end speaker with the TV voice removed.
  • the telephone system is configured.
  • the TV audio signal cannot be added to the reference signal, for example, even when the TV reception function and the call function are configured as separate devices (separate cases),
  • the TV sound from the far end can be removed at the near end, so that the call is not hindered.
  • the second echo removal unit is used when the same TV program is not received at the far end and the near end. 812 may not be operated. In that case, when it is determined that the control unit is provided and the same broadcast wave (TV program) is not received at the far end and the near end, the operation of the second echo removal unit 812 is stopped. Accordingly, when the same broadcast wave is not received at the far end and the near end, unnecessary echo estimation is not performed, and the power consumption can be reduced.
  • the first audio signal L11 is degenerated by the signal degeneration unit 1021, and then the first adder 1022 degenerates the degenerated first audio signal.
  • L11 and the second audio signal L12 are added, and the added signal is enlarged by the signal enlargement unit 1023 and transmitted to the speaker 103, but this is not restrictive.
  • FIG. 11 is a diagram showing a detailed configuration of the adding unit 202 and the control unit 107 in the fourth embodiment of the present invention. Elements similar to those in FIGS. 1 and 2 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the adding unit 202 includes a signal expanding unit 2021, an adder 2022, and a signal degeneration unit 2023, and receives the first audio signal, the second audio signal, and the control signal, A reference signal R11 transmitted to the echo removing unit 105 and an output signal transmitted to the speaker 103 are generated.
  • the control unit 107 receives a signal X1 indicating whether or not a received signal is received and a signal Y1 indicating whether or not a TV signal is received.
  • the control unit 107 generates a control signal S11 that controls the operation of the addition unit 202 based on the signal X1 and the signal Y1.
  • the control signal S11 is used to switch between transmitting the output signal of the adder 2022 to the speaker 103, transmitting the first audio signal L11 to the speaker 103, and outputting the reference signal R11. used.
  • the adding unit 202 is configured as described above.
  • control unit 107 and the addition unit 202 configured as described above will be described.
  • the control unit 107 When the signal X1 is ON (when receiving a reception signal) and the signal Y1 is ON (when a TV signal is received), the control unit 107 has two switches in the addition unit 202. Is generated and transmitted to the adder 202. Then, the adding unit 202 tilts the internal switches downward. In this case, the adding unit 202 expands the received second audio signal L12 from the decoder 101 by the signal expanding unit 2021, and the expanded signal and the received first audio signal L11 from the TV signal receiving unit 100. Is added to the speaker 103 by the adder 2022. At the same time, a signal transmitted to the speaker 103 is transmitted to the signal degeneration unit 2023.
  • the signal expansion unit 2021 that has received the second audio signal L12 from the decoder 101 performs an upsampling process and a channel expansion process on the signal (second audio signal L12), and generates a TV signal (first audio signal L12). ) To the same sampling frequency and number of channels, and transmitted to the adder 2022.
  • the adder 2022 adds the signal obtained by enlarging the reception signal (second audio signal L12) from the far-end telephone 20 in this way and the first audio signal L11, and adds the reference signal to the echo removing unit 105.
  • the reference signal R11 is not the output signal itself of the adder 2022, but is degenerated by the signal degeneration unit 2023 so that at least the sampling frequency is the same as the sampling frequency of the second audio signal L12.
  • the control unit 107 2 in the addition unit 202 A control signal S11 for controlling the two switches to be tilted upward is generated and transmitted to the adder 102. Then, the adding unit 102 tilts the internal switches upward. In that case, the received first audio signal L 11 from the TV signal receiving unit 100 is transmitted to the speaker 103.
  • the reference signal is not generated, there are the following two advantages. That is, one is that the second audio signal L12 is up-sampled and channel-enlarged and converted to the same sampling frequency and number of channels as the signal from the TV signal receiving unit 100 (first audio signal L11). There is an advantage that the sound can be reproduced from the speaker 103 without deteriorating the sound quality of the TV signal. The other is an advantage that the calculation amount of the echo removing unit 105 can be reduced because the reference signal R11 can be narrowed.
  • the control unit 107 controls the adding unit 202 so that when the speaker of the near-end telephone 10 is not talking to the speaker of the far-end telephone 20, the TV signal receiving unit 100
  • the voice signal (first voice signal L11) can be heard by the speaker of the near-end telephone 10 using the original broadband multi-channel voice.
  • the TV signal (first audio signal) is input to the reference signal R11 input to the echo removing unit 105. L11) can be added, so that the TV sound (first audio signal L11 of the TV signal receiving unit 100) received by the near-end phone 10 is not sent to the far-end phone 20. it can.
  • the TV sound reproduced from the speaker 103 is maintained as a wideband signal, so that the speaker of the near-end telephone 10 can receive a good sound.
  • the adder 2022 has an input of two or more channels. In the case of a multi-channel signal, it is necessary to make the addition output mono.
  • the configuration of the speaker 103 described in the first to fourth embodiments is not particularly limited.
  • a normal speaker that is, a speaker intended to reproduce the entire frequency band of the input signal is used. It is.
  • the speaker 103 is not limited to this configuration.
  • a low-frequency speaker that reproduces the low-frequency part as faithfully as possible may be provided separately.
  • a configuration example of the adding unit and the echo removing unit in that case will be described.
  • FIG. 12 is a diagram illustrating a detailed configuration of the adding unit, the control unit, and the echo removing unit when a speaker is provided for each frequency band.
  • symbol is attached
  • FIG. 12 is substantially the same as FIG. 12 includes a high-pass filter 2024 and a low-pass filter 2025 for separating the output signal into a high-side speaker signal and a low-side speaker signal, and the reference signal is also referred to the high side.
  • 11 differs from the adding unit 202 shown in FIG. 11 in that two reference signals, that is, a signal and a low-side reference signal are output.
  • FIG. 12 shows an echo removing unit 205 that receives the reference signal of the adding unit 302.
  • the high-pass filter 2024 having a predetermined cut-off frequency and the cut-off determined in accordance therewith are sent.
  • the signal is separated into two signals processed by a low-pass filter 2025 of frequency.
  • Each signal is transmitted to the speaker 103 and also to the signal degeneration unit 2023. Since the operation of the signal degeneration unit 2023 is the same as that described above, description thereof is omitted.
  • the echo removing unit 205 can be configured in various ways in addition to those shown in the first to third embodiments.
  • the echo removing unit 205 is configured as shown in FIG.
  • FIG. 13 is a diagram showing a detailed configuration of the echo removing unit in the case of having a speaker for each frequency band.
  • the high-side reference signal and the low-side reference signal are added and transmitted to the echo estimation unit 2051, and the echo is generated by subtracting the pseudo echo generated by the echo estimation unit 2051 from the input signal. Remove. In this case, it may seem equivalent to using the signal before processing by the high-pass filter 2024 and the low-pass filter 2025 in FIG. 12 as a reference signal as it is, but this is not the case.
  • the signals processed by the high-pass filter 2024 and the low-pass filter 2025 are subjected to equalizer processing, AGC (Auto Gain Control) and volume processing according to speaker characteristics and user preference, respectively.
  • the echo removing unit 205 As shown in FIG. 13, the signal actually output from the speaker 103 is similar to the signal input to the echo estimating unit 2051 as a reference signal. As a result, the accuracy of echo estimation is improved.
  • the process of adding the high-side reference signal and the low-side reference signal may be performed before the signal degeneration unit 2023 in FIG. Needless to say.
  • FIG. 14 is a diagram showing another detailed configuration of the echo removing unit in the case of having a speaker for each frequency band.
  • the echo removal unit 305 shown in FIG. 14 uses a so-called subband echo removal technique having subband division and synthesis. That is, the input signal from the microphone 104 and the reference signal are each divided into subbands.
  • FIG. 14 shows a case of four divisions, but this is merely an example. That is, any number of band divisions may be used.
  • echo estimation is performed for each divided subband.
  • echo estimation is first performed using the low-side reference signal, and the generated pseudo echo is subtracted from the lowest band signal of the input signal to perform echo cancellation.
  • echo cancellation may be performed using the high-side reference signal.
  • the cutoff frequency of the high-pass filter 2024 or the low-pass filter 2025 is 300 Hz and the frequency band of the lowest band is 0 to 1 kHz, the lowest band is referred to the high side. This is because both the signal and the low-side reference signal are included.
  • the boundary between the subbands and the cut-off frequency can be regarded as substantially the same frequency, it is not necessary to do so.
  • echo cancellation may be performed using the high-side reference signal.
  • the subband signal after echo removal is subjected to band synthesis to generate a normal full-band signal.
  • the reason why echo cancellation is originally performed on a signal obtained by dividing the sub-band is to reduce the amount of calculation.
  • the echo for the sound reproduced from the high-side speaker and the echo for the sound reproduced from the low-side speaker can be removed independently, so that a high-precision echo can be maintained while maintaining a small amount of computation. Can be removed.
  • a TV reception signal is handled.
  • processing for delaying an audio signal is necessary for AV synchronization with the TV screen (so-called lip sync).
  • lip sync processing for AV synchronization with the TV screen
  • FIG. 15 is a diagram showing a detailed configuration of an adding unit that performs a delay process for lip sync.
  • symbol is attached
  • the delay process for the lip sync of the TV signal is performed before the adder 2022 in the adder 402 shown in FIG. This is because a signal for a voice call needs to have a delay as small as possible, and if a delay for lip sync is performed after adding a TV signal and a call signal, the call is hindered.
  • the adding unit 402 As shown in FIG. 15, it is possible to maintain the lip sync of the TV screen and prevent the delay of the call voice.
  • a lip sync of the call screen may be required. In that case, although not shown, it is needless to say that it is desirable to place the delay for the lip sync on the call screen in front of the adder.
  • TV is not necessarily limited to what is called a television broadcast by radio waves.
  • it may be an AV signal distributed over the Internet network regardless of wired or wireless, or may be an audio broadcast (audio distribution) that does not include a video signal.
  • this includes on-site broadcasts that are broadcast simultaneously at schools, workplaces, and commercial facilities. That is, all signals including at least an audio signal that are simultaneously broadcast or distributed over a wide range are signals handled in the present application.
  • the communication device of the present invention has been described based on the embodiment, but the present invention is not limited to this embodiment. Unless it deviates from the meaning of this invention, the form which carried out the various deformation
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the above-described communication device may be configured as an echo removing device having a configuration excluding a speaker and a microphone.
  • an echo removing apparatus that transmits a sound signal to a speaker and inputs a sound collection signal picked up by a microphone, receives a broadcast wave, and generates a first sound signal from the received broadcast wave.
  • a receiving unit a decoding unit that decodes a received signal received from another telephone and generates a second audio signal, and transmits the first audio signal or the second audio signal to the speaker, or The first audio signal and the second audio signal are added and transmitted to the speaker, and an adder that outputs a reference signal; a pseudo echo component is estimated from the reference signal; An echo removing unit that removes the pseudo echo component from the collected sound signal obtained by collecting the sound that has been collected by the microphone, and the adding unit, when the receiving unit is receiving the broadcast wave, And adding the first audio signal and the second audio signal to the speaker, and using the signal obtained by adding the first audio signal and the second audio signal as the reference signal. Output to.
  • the echo canceller further includes a control unit that controls the adding unit, and the control unit is configured to receive the broadcast wave when the receiving unit receives the broadcast wave, and to the other communication device.
  • the adding unit adds the first audio signal and the second audio signal and transmits the added signal to the speaker.
  • a signal obtained by adding the first audio signal and the second audio signal is output to the echo removing unit as the reference signal, and the control unit, when the receiving unit is receiving the broadcast wave, and
  • the adder receives the first wave Add the audio signal and the second audio signal to the speaker.
  • the second audio signal may be generated as is output to the echo removing portion as the reference signal.
  • each functional block constituting the telephone may be realized as an LSI (Large Scale Integration) that is typically an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI, depending on the degree of integration, it may also be called IC (Integrated Circuit), system LSI, super LSI, or ultra LSI.
  • LSI Large Scale Integration
  • IC Integrated Circuit
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the telephone set according to the present invention has a TV signal reception function and a telephone call function, and even if the same program is being listened to at the same time at the near end and the far end, the audio signal of both TVs is used. It is possible to make a call without being disturbed, and in other cases, it is possible to listen to the TV sound signal with the high sound quality inherent to the TV, so that it can be widely applied to a telephone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 本発明の一形態に係る通話機は、受信した放送波から第1の音声信号を生成するTV信号受信部(100)と、通話機(20)から受信した受話信号を復号して第2の音声信号を生成するデコーダ(101)と、第2の音声をスピーカ(103)に伝達または第1の音声信号と第2の音声信号を加算してスピーカ(103)に伝達するとともに、参照信号を出力する加算部(102)と、参照信号から擬似エコー成分を推定し、スピーカ(103)から出音された音をマイクロホン(104)で収音した収音信号から擬似エコー成分を除去するエコー除去部(105)とを備え、加算部(102)は、TV信号受信部(100)が放送波を受信している場合、第1の音声信号と第2の音声信号を加算してスピーカ(103)に伝達するとともに、その加算した信号を参照信号としてエコー除去部(105)に出力する。

Description

通話機
 本発明は、エコー除去装置を搭載した通話機に関する。
 携帯電話や電話会議システムなどの通話機がある。通話機のなかに、ハンドセットやヘッドセットを使用することなく、通話することができるハンズフリー通話機能を実現しているものがある。
 通話機は、通話先(以下、遠端)話者の音声を再生するスピーカと、通話元(以下、近端)話者の音声を受け取り、遠端に送信するためのマイクロホンとを少なくとも備えている。
 図9は、従来の通話機を使用した通話システムの構成を示す図である。
 図9に示す通話システムは、通話元の話者が用いる近端の通話機900と、通話先の話者が用いる遠端の通話機920と、通話機900と通話機920の音声を受送信するのに用いられる通信網930とで構成されている。
 通話機900は、デコーダ901と、スピーカ903と、マイクロホン904と、エコー除去部905と、エンコーダ906とを備える。同様に、通話機920は、デコーダ921と、スピーカ923と、マイクロホン924と、エコー除去部925と、エンコーダ926とを備える。
 ここで、この通話システムにおいて、エコー除去部905とエコー除去部925とが構成されていない場合について説明する。その場合、通話時には、遠端の通話機920の音声が近端の通話機900のスピーカ903から発せられ、その音は近端の通話機900のマイクロホン904で受信されて再び遠端の通話機920に送信される。
 遠端の通話機920では遠端の話者の発声した音声が自分(通話機920)のスピーカ923から出力されることとなり、これがエコーとして聞こえてしまう。これは、遠端の話者が通話する際に不快なものである。近端の通話機900でも同様であり、近端の話者の発声した音声が自分(通話機900)のスピーカ903からエコーとして聞こえてしまう。
 さらに、近端の通話機900-遠端の通話機920-近端の通話機900といったように、近端の通話機900のマイクロホン904で受信された音が再び近端の通話機900に戻ってきてスピーカ903から出力される(閉ループ)。この閉ループにおける音響周波数特性に1倍を超えるゲインとなる周波数が存在する場合には、その周波数においてハウリングとよばれる連続的な大音量がスピーカ903から発せられる。これは、近端の話者にとって非常に不快であるだけでなく、場合によってはスピーカ903を破損することもある。そのため、これらの通話機(通話機900および通話機920)には、エコーやハウリングが発生しないようにするためのエコー除去部905とエコー除去部925とが搭載されている。
 例えばエコー除去部905では、近端の通話機900におけるスピーカ903から空間を介してマイクロホン904に到達するまでの経路の音響特性を同定する。そして、この同定した音響特性とスピーカ903に伝達される信号を用いて、この伝達される信号がスピーカ903で音声として出力されマイクロホン904に到達した場合の信号を電気的に推定することができる。ここで、推定された信号を擬似エコーと呼ぶ。そして、擬似エコーを、実際にマイクロホン904で受信して得られた信号から減算することで、遠端の通話機920から送話された信号が近端の通話機900のスピーカ903およびマイクロホン904を通じてエコーとして再度遠端に戻るのを防ぐことができる。なお、エコー除去部925でも同様であるので、説明を省略する。
 このようなエコー除去やハウリングの発生を抑える技術は,非特許文献1において開示されている。
 しかし、上記の擬似エコーは、例えばスピーカ903から発せられる音声(音響信号)がマイクロホン904に到達する前に生成される必要がある。つまり、何らかの要因によって、擬似エコーが生成される前にマイクロホン904で音声が受信されてしまう場合には、それに対する擬似エコーを推定できないのでエコーが除去されない。一例として、遠端の通話機920と近端の通話機900の双方で同じ音声を受信している場合がある。以下、それについて図10を用いて説明する。
 図10は、従来の通話機を使用した通話システムでの課題を説明するための図である。なお、図9と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図10では、近端の通話機900の近傍に通話機900とは別筐体のTV受信機1000と遠端の通話機920の近傍に通話機920とは別筐体のTV受信機1020とがあり、TV受信機1000とTV受信機1020とで放送波を受信して近端の話者と遠端の話者の双方が同一のTV番組を視聴している場合を示している。
 ここで、図10において、遠端の通話機920の近傍にあるTV受信機1020で発せられた音は、遠端の通話機920のマイクロホン924で受信されている。同様に、近端の通話機900の近傍にあるTV受信機1000で発せられた音は、近端の通話機900のマイクロホン904で受信されている。
 遠端のTV受信機1020から発せられた音は遠端の通話機920のマイクロホン924で受信され、遠端の話者が発声した音声とともに、近端の通話機900に通話機920の音声信号として送信され、近端の通話機900のエコー除去部905に入力される。
 このとき、近端の通話機900においても同じ音声がTV受信機1000から発せられている。しかし、通常の場合、遠端の通話機920のマイクロホン924で受信されたTV受信機1020のTV音声が近端の通話機900のエコー除去部905に到達する時間には、既に、TV受信機1000のTV音声がマイクロホン904に到達している。
 つまり、エコー除去部905に入力された通話機920の音声信号に含まれるTV受信機1020のTV音声から推定された擬似エコーでは、TV受信機1000のTV音声を除去することできない。その結果、TV音声は、遠端の通話機920に伝達され、不快なエコーが生じることになる。
 この課題に対する対策方法が例えば特許文献1で開示されている。特許文献1の実施の形態1では、TV受信機が別筐体である場合について、遠端から近端に到達するTV音声と近端で発生するTV音声と遠端の話者の音声とについてそれぞれエコー除去を行う方法が開示されている。また、特許文献1の実施の形態2では、TV受信機と通話機が一体型である場合について、遠端から近端に到達するTV音声と近端で発生するTV音声と遠端の話者の音声についてエコー除去を行う方法が開示されている。
特開2010-258941号公報
「音響システムとディジタル処理」電子情報通信学会編発行、大賀寿郎著、山崎芳男著、金田豊著
 しかしながら、上記特許文献1で開示された技術では、遠端のTV受信機1020および近端のTV受信機1000で放送波を受信しているか否かによらず、常にTV音声のエコー除去を行っている。つまり、放送波を受信していない場合でも不要なエコー推定を常に実施しており、消費電力が大きいという課題がある。
 また、通常、通話音声とTV音声とはサンプリング周波数やチャンネル数が異なっている。一般的には、通話音声のほうが低品質で、TV音声は高品質である。上記特許文献1ではこのことを考慮しておらず、不要な電力を消費するだけでなく、TV音声品質が劣化する場合があるという課題もある。
 本発明は、上述の事情を鑑みてなされたもので、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を提供することを目的とする。
 上記の課題を解決するために、本発明の一形態における通話機は、スピーカとマイクロホンとを少なくとも有する通話機であって、放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、前記第2の音声信号を前記スピーカに伝達または前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、前記加算部は、前記受信部が前記放送波を受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する。
 この構成によれば、受信部が放送波を受信している場合には、近端である通話機の放送波(TV)の音を遠端である他の通話機に送信されないようにエコー除去できる。また、受信部が放送波を受信していない場合には、エコー除去する必要がない。それにより、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を実現することができる。
 また、前記通話機は、さらに、前記加算部を制御する制御部を備え、前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力させ、前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第2の音声信号を前記参照信号として前記エコー除去部に出力させるとしてもよい。
 この構成によれば、近端の通話機と遠端の他の通話機とで同一の放送波を受信しているか否かで、近端の通話機で受信している放送波(TV)の音を遠端の他の通話機に送信するか否かを選択できる。それにより、近端の通話機と遠端の他の通話機とで異なる放送波を受信している場合には不要なエコー推定を行わないので、消費電力を低減できる通話機を実現することができる。
 また、前記制御部は、前記受信部が受信している放送波の識別信号に基づいて、前記受信部が前記放送波を受信しているか否かを判定し、前記制御部は、前記他の通話機が受信している放送波の識別番号に基づいて、前記他の通話機が前記受信部の受信している前記放送波と同一の放送波を受信しているか否かを判定するとしてもよい。
 この構成によれば、近端の通話機と遠端の他の通話機とが同じ放送波を受信しているかどうかを自動的に判断できる。
 また、前記加算部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記第1の音声信号のサンプリング周波数を前記第2の音声信号のサンプリング周波数の信号に変換した後前記第2の音声信号のサンプリング周波数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第2の音声信号のサンプリング周波数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記第2の音声信号のサンプリング周波数を前記第1の音声信号のサンプリング周波数の信号に変換した後前記第1の音声信号のサンプリング周波数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第1の音声信号のサンプリング周波数の信号に変換した前記第2の音声信号を前記参照信号として前記エコー除去部に出力するとしてもよい。
 この構成によれば、近端の通話機で受信している放送波(TV)の音を遠端の他の通話機に送信しないようにすることもできる、また、その放送波(TV)の音が遠端の他の通話機に送信してもよい場合は、放送波(TV)本来の高音質(高サンプリング周波数)で受聴できるという効果を奏する。
 また、前記加算部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記第1の音声信号のチャンネル数を前記第2の音声信号のチャンネル数の信号に変換した後前記第2の音声信号のチャンネル数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第2の音声信号のチャンネル数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記第2の音信号のチャンネル数を前記第1の音信号のチャンネル数の信号に変換した後前記第1の音信号のチャンネル数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第1の音声信号のチャンネル数の信号に変換した前記第2の音声信号を前記参照信号として前記エコー除去部に出力するとしてもよい。
 この構成によれば、近端の通話機で受信している放送波(TV)の音を遠端の他の通話機に送信しないようにすることもできる、また、その放送波(TV)の音が遠端の他の通話機に送信してもよい場合は、放送波(TV)本来の高音質(多チャンネル)で受聴できるという効果を奏する。
 また、上記の課題を解決するために、本発明の一形態における通話機は、スピーカとマイクロホンとを少なくとも有する通話機であって、放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部とを備え、前記加算部は、前記第1の音声信号の音量を調整する第1の音量調整部と、前記第2の音声信号の音量を調整する第2の音量調整部とを有し、前記加算部は、前記受信部が前記放送波を受信している場合、かつ、前記第2の音声信号を前記参照信号として前記エコー除去部に出力する場合に、前記第2の音量調整部の出力レベルに比べて前記第1の音量調整部の出力レベルを小さくすることで、前記第2の音声信号と前記第2の音声信号に比べて小さな出力レベルの前記第1の音声信号とを加算して前記スピーカに伝達する。
 ここで、前記第1の音量調整部の出力レベルは0であるとしてもよい。
 この構成によれば、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を実現することができる。さらに、放送波を受信していても、通話音量を優先させたエコー推定を行うことができる。すなわち、近端の通話機で放送波(TV)の受聴と通話とを同時に行う場合、通話の音声の音量を優先的に出力できるという効果を奏する。
 また、上記の課題を解決するために、本発明の一形態における通話機は、スピーカと、放送波を受信する受信機が第1の音声信号を出音する場合に当該第1の音声信号を少なくとも収音するマイクロホンとを少なくとも有する通話機であって、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、第1参照信号から第1擬似エコー成分を推定し、少なくとも前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記第1擬似エコー成分を除去する第1のエコー除去部と、前記第1のエコー除去部で前記第1擬似エコー成分が除去された前記収音信号を第2参照信号として第2擬似エコー成分を推定し、前記第2の音声信号から前記第2擬似エコー成分を除去する第2のエコー除去部とを備え、前記他の通話機が放送波を受信する他の受信機から出音される音声信号を収音する場合、前記復号部は、他の通話機における第3の音声信号を含む第2の音声信号を生成し、前記第1のエコー除去部は、前記スピーカから出音された音と前記受信機から出音された前記第1の音声信号とを前記マイクロホンで収音した収音信号から前記第1擬似エコー成分を除去し、前記第2のエコー除去部は、前記第2の音声信号から、前記他の通話機における前記第3の音声信号を含む前記第2擬似エコー成分を除去し、前記第1参照信号は、前記第2のエコー除去部で前記第2擬似エコー成分が除去された前記第2の音声信号である。
 ここで、好ましくは、前記第2の音声信号は、前記他の通話機が前記放送波と同一の放送波を受信する受信機から出音される音声信号を収音する場合、前記第1の音声信号と略同一である。
 この構成によれば、放送波を受信する受信機と通話機とが別筐体であり、放送波(TV)の音声信号を参照信号に加えられない場合でも、近端の通話機と遠端の他の通話機とで同じ放送波(TV)の番組を受聴しているときには、遠端からの放送波(TV)の音を近端で除去できる。
 それにより、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を実現することができる。
 また、上記の課題を解決するために、本発明の一形態における通話機は、スピーカとマイクロホンとを少なくとも有する通話機であって、音声ストリームを入力し、前記音声ストリームから第1の音声信号を生成する受信部と、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、前記加算部は、前記受信部が前記音声ストリームを受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する。
 また、上記の課題を解決するために、本発明の一形態におけるエコー除去装置は、スピーカに音声信号を伝達するとともにマイクロホンで収音した収音信号を入力するエコー除去装置であって、放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、前記加算部は、前記受信部が前記放送波を受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する。
 本発明によれば、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を実現することができる。
図1Aは、本発明の実施の形態1における通話システムの構成の1例を示す図である。 図1Bは、本発明の実施の形態1における通話システムの構成の1例を示す図である。 図2は、本発明の実施の形態1における加算部と制御部の詳細構成を示す図である。 図3は、本発明の実施の形態1の変形例1における通話システムの構成を示す図である。 図4は、本発明の実施の形態1の変形例2における通話システムの構成を示す図である。 図5は、本発明の実施の形態1の変形例2における通話システムの別の構成を示す図である。 図6は、本発明の実施の形態1の変形例2における通話システムのさらに別の構成を示す図である。 図7は、本発明の実施の形態2における近端の通話機の構成を示す図である。 図8は、本発明の実施の形態3における通話機システムの構成を示す図である。 図9は、従来の通話機を使用した通話システムの構成を示す図である。 図10は、従来の通話機を使用した通話システムでの課題を説明するための図である。 図11は、本発明の実施の形態4における加算部と制御部の詳細構成を示す図である。 図12は、周波数帯域毎のスピーカを有する場合における加算部と制御部とエコー除去部の詳細構成を示す図である。 図13は、周波数帯域毎のスピーカを有する場合におけるエコー除去部の詳細構成を示す図である。 図14は、周波数帯域毎のスピーカを有する場合におけるエコー除去部の別の詳細構成を示す図である。 図15は、リップシンク用遅延処理を行う加算部の詳細構成を示す図である。 図16は、本発明の実施の形態2における近端の通話機の別の構成を示す図である。
 (実施の形態1)
 以下、本発明の実施の形態1における通話機について図面を参照しながら説明する。
 図1Aおよび図1Bは、本発明の実施の形態1における通話システムの構成の1例を示す図である。
 図1Aに示す通話システムは、通話元の話者が用いる近端の通話機10と、通話先の話者が用いる遠端の通話機20と、通話機10と通話機20の音声を受送信するのに用いられる通信網30とで構成されている。
 通話機10は、TV信号受信部100と、デコーダ101と、加算部102と、スピーカ103と、マイクロホン104と、エコー除去部105と、エンコーダ106と、制御部107とを備える。
 TV信号受信部100は、本発明の受信部の一例であって、放送波(TV信号)を受信する場合に、受信した放送波(TV信号)から第1の音声信号を生成する。具体的には、TV信号受信部100は、放送波からTV信号を受信し第1の音声信号L11を生成する。ここで、近年の放送波に含まれるTV信号の音声信号は広帯域(32kHzや48kHzなど)のマルチチャンネル信号(2ch信号や5.1ch信号)である。
 なお、TV信号受信部100の代わりに、図1Bに示すように、通信網を通して入力した音声ストリームを音声ストリーム受信・デコード部100aで受信・デコードする構成としてもよい。この場合も上記と同様に、音声ストリーム受信・デコード部100aは、第1の音声信号L11を生成する。音声ストリーム受信・デコード部100aには、インターネットの通信網を通してライブで放送されているTVの映像・音声多重化ストリームをデコードした後の音声ストリームが入力される場合もあれば、音声のみのインターネット・ラジオ放送に含まれる音声ストリームが入力される場合もあるが、これに限らず、通信網を通して入力される音声ストリームであれば同様の処理を行うことができる。
 デコーダ101は、本発明の復号部の一例であって、他の通話機から受信した受話信号を復号して第2の音声信号を生成する。具体的には、デコーダ101は、遠端の通話機20から通信網30を介して伝達される受話信号を受信し、第2の音声信号L12を生成する。ここで、通話のために用いられる信号は従来8kHz程度の狭帯域信号であるが、近年では16kHzや24kHzといった比較的広帯域な信号になりつつある。しかし、依然テレビの音声信号と比べると狭帯域である。また、一般的に通話信号はモノラル信号である。
 制御部107は、本発明の制御部の一例であって、加算部102を制御する。具体的には、制御部107は、TV信号受信部100が信号を受信しているかどうかを示す信号(Y1)とデコーダ101が受話信号を受信しているかどうかを示す信号(X1)とを受信し、加算部102の動作を制御する制御信号S11を生成する。
 また、制御部107は、TV信号受信部100が放送波(TV信号)を受信している場合、かつ、デコーダ101が他の通話機から受信した受話信号を復号している場合には、加算部102に、第1の音声信号L11と第2の音声信号L12とを加算してスピーカ103に伝達させるとともに、第1の音声信号L11と第2の音声信号L12を加算した信号を参照信号R11としてエコー除去部105に出力させる。また、制御部107は、TV信号受信部100が放送波(TV信号)を受信している場合、かつ、デコーダ101が他の通話機から受信した受話信号を復号していない場合には、加算部102内のスイッチを右側に倒すことで、第1の音声信号L11をスピーカ103に直接伝達し、エコー除去部105には何も伝送しない。この場合、加算部102内の右側の加算器は不要であることはいうまでもない。
 加算部102は、本発明の加算部の一例であって、第1の音声信号もしくは第2の音声信号をスピーカ103に伝達または第1の音声信号と第2の音声信号とを加算してスピーカ103に伝達するとともに、参照信号を出力する。また、加算部102は、TV信号受信部100が放送波(TV信号)を受信している場合、第1の音声信号と第2の音声信号を加算してスピーカ103に伝達するとともに、第1の音声信号と第2の音声信号を加算した信号を参照信号R11としてエコー除去部105に出力する。具体的には、加算部102は、制御信号S11により制御され、第2の音声信号L12または第1の音声信号L11と第2の音声信号L12とを加算した信号をスピーカ103に出力する。それと同時に、加算部102は、後述するエコー信号の参照信号R11をエコー除去部105に出力する。ここで、第1の音声信号L11と第2の音声信号L12とをどのように加算するか、また、加算した第1の音声信号L11と第2の音声信号L12からどのように参照信号R11を生成するかは、制御信号S11によって制御される。このことについては後ほど図2を用いて説明するため、ここでの説明は省略する。
 スピーカ103は、加算部102から伝達された出力信号を空間の音響信号に変換する。そして、スピーカ103は、変換した空間の音響信号をそれに応じた物理振動に換えて出音する。
 マイクロホン104は、収音し、収音した音を電気信号に変換する。具体的には、マイクロホン104は、スピーカ103からの音響信号を含む空間の音響信号を受信し電気信号に変換する。ここで、スピーカ103によって出音された音響信号は、直接に、または壁などに反射して間接的に、マイクロホン104で収音される。マイクロホン104で収音されたその音響信号はなにもしなければエコーとなって遠端の通話機20に送話されてしまう。エコーとなるのを抑制するのがエコー除去部105である。
 エコー除去部105は、本発明のエコー除去部の一例であって、参照信号R11から擬似エコー成分を推定し、スピーカ103から出音された音をマイクロホン104で収音した収音信号から擬似エコー成分を除去する。具体的には、エコー除去部105は、マイクロホン104からの出力信号と参照信号R11とが入力され、参照信号R11から擬似エコー成分を推定する。また、エコー除去部105は、マイクロホン104で収音した信号から擬似エコー成分を除去する。つまり、エコー除去部105は、参照信号R11に含まれる信号成分と、エコーを含んで収音された信号の信号成分とから擬似エコーを推定することでエコーを含んで収音された信号からエコーを除去する。
 ここで、スピーカ103から出力される信号のうちエコー除去部105で除去したい信号は参照信号R11に含ませておく必要があり、除去する必要のない信号は参照信号R11に含ませておく必要がない。このことが後で述べる加算部102の動作と関係する。なお、本実施の形態では、エコー除去部105は従来知られているどのようなエコー除去手段でもよい。
 そして、エコー除去部105は、擬似エコー成分を除去した信号をエンコーダ106に出力する。
 エンコーダ106は、エコー除去部105から伝達された出力信号を遠端の通話機20に送出(伝達)する。
 以上のように通話機10は構成される。
 なお、通話機20は、通話機10と同様に、TV信号受信部120と、デコーダ121と、加算部122と、スピーカ123と、マイクロホン124と、エコー除去部125と、エンコーダ126と、制御部127とを備える。各部の機能は上述の内容と同様のため、説明を省略する。
 以上のように通話システムは構成される。
 次に、加算部102と制御部107との詳細構成について図2を用いて説明する。
 図2は、加算部102と制御部107の詳細構成を示す図である。
 図2に示すように、加算部102は、信号縮退部1021と、第1の加算器1022と、信号拡大部1023と、第2の加算器1024とを備え、第1の音声信号と第2の音声信号と制御信号とを受信し、エコー除去部105に伝達する参照信号R11とスピーカ103に伝達する出力信号とを生成する。
 また、図2に示すように、制御部107は、受話信号の受信有無を示す信号X1とTV信号の受信有無を示す信号Y1とを受け取る。制御部107は、信号X1と信号Y1とに基づいて、加算部102の動作を制御する制御信号S11を生成する。制御信号S11は、第1の音声信号L11を信号縮退部1021へ送るか、第2の加算器1024に送るかを切り替えるために使われる。
 ここで、本実施の形態において、第1の音声信号L11は、広帯域の多チャンネル信号(マルチチャンネル信号)であり、例えば48kHzのステレオ信号とする。第2の音声信号L12は、狭帯域の少チャンネル信号であり、例えば16kHzのモノラル信号とする。また、参照信号は、狭帯域の少チャンネル信号であり、出力信号は、広帯域の多チャンネル信号であるとする。
 信号縮退部1021は、ダウンサンプリング処理とダウンミックス処理とを行う。例えば、本実施の形態では、信号縮退部1021は、第1の音声信号L11として入力された48kHzのステレオ信号を16kHzのモノラル信号に変換する。もちろんこれは一例に過ぎず、第1の音声信号L11と第2の音声信号L12とが同じサンプリング周波数である場合には、信号縮退部1021はダウンミックス処理だけを行えばよい。また、第1の音声信号L11と第2の音声信号L12とが同じチャンネル数である場合には、信号縮退部1021はダウンサンプリング処理だけを行えばよい。
 信号拡大部1023は、アップサンプリング処理とアップミックス処理とを行う。例えば、本実施の形態では、信号拡大部1023は、16kHzのモノラル信号を48kHzのステレオ信号に変換する。なお、もちろんこれは一例に過ぎず、第1の音声信号L11と第2の音声信号L12とが同じサンプリング周波数である場合には、信号拡大部1023はアップミックス処理だけを行えばよい。また、第1の音声信号L11と第2の音声信号L12とが同じチャンネル数である場合には、信号縮退部1021はアップサンプリング処理だけを行えばよい。
 第1の加算器1022は、信号縮退部1021の出力信号と第2の音声信号L12とを加算して信号拡大部1023に出力する。それとともに、第1の加算器1022は、参照信号R11をエコー除去部105に出力する。
 第2の加算器1024は、信号拡大部1023の出力信号と第1の音声信号L11とを加算して、スピーカ103に出力する。
 以上のように加算部102は構成される。
 次に、以上のように構成された制御部107と加算部102との動きについて説明する。
 制御部107は、信号X1がONの時(受話信号を受信している時)で、かつ、信号Y1がONになった場合(TV信号を受信した場合)、加算部102内のスイッチを左側に倒すよう制御する制御信号S11を生成し、加算部102に伝達する。すると、加算部102は、内部のスイッチを左側に倒す。すなわち、加算部102は、受信したTV信号受信部100の第1の音声信号L11を信号縮退部1021に伝達する。
 そして、TV信号受信部100の第1の音声信号L11を受信した信号縮退部1021は、当該信号(第1の音声信号L11)をダウンサンプリング処理およびダウンミックス処理して遠端の通話機20の受話信号(第2の音声信号L12)と同じサンプリング周波数およびチャンネル数に変換して、第1の加算器1022に出力する。第1の加算器1022では、遠端の通話機20の受話信号と信号縮退部1021により変換された第1の音声信号L11とが加算され、エコー除去部105に参照信号R11として出力されるとともに、信号拡大部1023に出力される。
 なお、第1の音声信号L11をダウンサンプリング処理およびダウンミックス処理して遠端の通話機20の受話信号(第2の音声信号L12)と同じサンプリング周波数およびチャンネル数に変換することによって、参照信号R11を狭帯域の少チャンネルとすることができるので、エコー除去部105の演算量が少なくてすむという利点もある。
 一方、制御部107は、信号X1がOFFの時(受話信号を受信していない時)で、かつ、信号Y1がONになった場合(TV信号を受信した場合)、加算部102内のスイッチを右側に倒すよう制御する制御信号S11を生成し、加算部102に伝達する。すると、加算部102は、内部のスイッチを右側に倒す。すなわち、加算部102は、受信したTV信号受信部100の第1の音声信号L11を第2の加算器1024に伝達する。もちろん、この場合、通話機10は遠端の通話機20からの受話信号を受信していないのであるから、実質的に第2の加算器1024は加算処理を行わないことになるので、第2の加算器1024に入力された第1のTV信号をそのままスピーカ103に出力することになる。
 このように、制御部107は加算部102を制御することによって、近端の通話機10の話者が遠端の通話機20の話者と通話していないときは、TV信号受信部100の音声信号(第1の音声信号L11)を本来の広帯域の多チャンネルのままの音声で近端の通話機10の話者に受聴することができる。一方、近端の通話機10の話者が遠端の通話機20の話者と通話しているときは、エコー除去部105に入力される参照信号R11に当該TV信号(第1の音声信号L11)を加えることができるので、遠端の通話機20に対して近端の通話機10で受聴しているTV音声(TV信号受信部100の第1の音声信号L11)を送出しないようにできる。
 それによって、遠端側と近端側とで同じTV信号を受信していたとしても、近端側のTVの音声信号が遠端側に送出されないので、遠端側で良好にTV受聴できることになる。
 換言すると、遠端側と近端側とで同じTV信号を受信していたとしても、遠端側であたかもTVの音声信号に対する著しいエコーが返ってくるかのような状況を抑制できる。
 以上のようにして、放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できる通話機を実現することができる。
 つまり、加算部102は、TV信号受信部100が放送波(TV信号)を受信している場合、かつ、デコーダ101が他の通話機から受信した受話信号を復号している場合には、第1の音声信号L11のサンプリング周波数を第2の音声信号L12のサンプリング周波数の信号に変換した後、第2の音声信号L12のサンプリング周波数の信号に加算することにより、第1の音声信号L11と第2の音声信号L12とを加算してスピーカ103に伝達する。それとともに、加算部102は、第2の音声信号L12のサンプリング周波数の信号に変換した第1の音声信号L11と第2の音声信号L12とを加算した信号を参照信号R11としてエコー除去部105に出力する。一方、加算部102は、TV信号受信部100が放送波(TV信号)を受信している場合、かつ、デコーダ101が他の通話機から受信した受話信号を復号していない場合には、加算部102内のスイッチを右側に倒すことで、第1の音声信号L11をスピーカ103に直接伝達し、エコー除去部105には何も伝送しない。この場合、加算部102内の右側の加算器は不要であることはいうまでもない。
 (変形例1)
 実施の形態1では、制御部107は、TV信号受信部100のTV信号の受信有無と、遠端の通話機20からの受話信号の有無とから制御信号S11を生成していたが、その場合に限られない。制御部は、入力信号は受け取らず、ユーザの指示によって制御信号S11を生成してもよい。この場合を変形例1として説明する。
 図3は、本発明の実施の形態1の変形例1における通話システムの構成を示す図である。図1と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図3に示す通話機13は、実施の形態1に係る通話機10に対して、制御部307の構成が異なる。具体的には、制御部107は、遠端の通話機20から伝達される受話信号(信号Y1)と、TV信号受信部100のTV信号(信号X1)とが入力されているのに対して、制御部307は、ユーザの指示が入力されている点で異なる。
 例えば、ユーザ(近端の通話機13の話者)は、遠端の通話機20と通話している時に、遠端側でも近端側と同じTV番組を視聴していると分かった場合、参照信号R11に近端側のTV信号を加える旨を示すユーザ指示を制御部307に与える。このユーザ指示により、制御部307は、図2に示す加算部102内のスイッチを左側に倒す制御を行う制御信号S11を加算部102に伝達する。
 それにより、近端側のTV信号を近端側のエコー除去部105で除去できるので、遠端側に近端側のTV音声が送出され、それを受信した遠端側があたかも著しいエコーが返ってきたかのような状態となるのを回避することができる。
 また、例えば、ユーザ(近端の通話機13の話者)は、遠端の通話機20と通話している時に、遠端側がTVを受聴していても、近端側と同じ番組でない場合、それは単に近端側のTV音声が遠端側に伝わるだけであって、特に除去しなければならない信号とはならないので、参照信号R11に近端側のTV信号を加えない旨を示すユーザ指示を制御部307に与える。このユーザ指示により、制御部307は、図2に示す加算部102内のスイッチを右側に倒す制御を行う制御信号S11を加算部102に伝達する。
 それにより、近端側ではTV信号を本来の広帯域の多チャンネルの信号としてユーザに受聴させることができる。なお、その場合には、信号拡大部1023で受話信号(第2の音声信号L12)をTV信号(第1の音声信号L11)のサンプリング周波数まで拡大後、第2の加算器1024で、TV信号(第1の音声信号L11)と加算する。ここで、信号拡大部1023は、受話信号(第2の音声信号L12)をTV信号(第1の音声信号L11)のサンプリング周波数まで拡大し、さらにチャンネル数もTV信号のチャンネル数まで拡大するとしてもよい。
 以上、本変形例によれば、TVの音を遠端に送信されないようにすることもでき、かつ、遠端に送信されてもよい場合、または近端の話者が遠端の話者と通話を行っていない場合は、TV本来の高音質で音声を受聴することができるという効果を奏する。
 (変形例2)
 変形例1では、ユーザが参照信号R11に近端側のTV信号を加えるか否かを判断して、制御部307にユーザ指示を与えていたが、それに限らない。この判断と制御とは自動的に行ってもよい。その例を変形例2として説明する。
 図4は、本発明の実施の形態1の変形例2における通話システムの構成を示す図である。図1および図3と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図4に示す通話機13は、実施の形態1に係る通話機10に対して、TV信号受信部400と制御部407との構成が異なる。具体的には、TV信号受信部100が近端の通話機14で受信しているTV信号(信号X)を制御部307に出力しているのに対して、TV信号受信部400は、近端の通話機14で受信しているTV放送の識別信号(Y11)を制御部407に出力し、かつ、通信網30を介して遠端の通話機24に出力している点で異なる。
 また、制御部107が遠端の通話機20から伝達される受話信号(信号Y1)と、TV信号受信部100のTV信号(信号X1)とが入力されているのに対して、制御部407は、近端の通話機14で受信しているTV放送の識別信号(Y11)と遠端の通話機24で受信しているTV放送の識別信号(Y12)とが入力されている点で構成が異なる。
 同様に、図4に示す通話機24は、実施の形態1に係る通話機20に対して、TV信号受信部420と制御部427との構成が異なる。具体的には、TV信号受信部120が遠端の通話機20で受信しているTV信号(信号Y2)を制御部127に出力しているのに対して、TV信号受信部420は、遠端の通話機14で受信しているTV放送の識別信号(Y12)を制御部427に出力し、かつ、通信網30を介して近端の通話機14に出力している点で異なる。また、制御部127が遠端のTV信号受信部120のTV信号(信号Y2)と、近端の通話機10から伝達される受話信号(信号X2)とが入力されているのに対して、制御部427は、近端の通話機14で受信しているTV放送の識別信号(Y11)とTV信号受信部420で受信しているTV放送の識別信号(Y12)とが入力されている点で構成が異なる。
 要約すると、近端の通話機14で受信しているTV放送の識別信号(Y11)を遠端の通話機24に送出し、遠端の通話機24で受信しているTV放送の識別信号(Y12)を近端の通話機14に送出するようにし、その識別信号を比較する。それにより、例えば近端の通話機14は遠端の通話機24と同じTV番組を受信しているかを判定することができる。
 ここで、識別信号は、TV放送の番組ごとに付与された記号でもよいし、放送局を識別する記号でもよい。
 なお、上記では、TV信号受信部420は、遠端の通話機24で受信しているTV放送の識別信号を、通信網30を介して近端の通話機14に出力するとして説明しているがそれに限らない。図5に示すように、TV信号受信部400は識別信号をエンコーダ506に出力し、エンコーダ506で符号化され、通話信号のサイド情報として遠端の通話機25に送出されるとしてもよい。その場合、遠端の通話機25では、デコーダ521で当該識別信号をデコード後分離して制御部527に送ればよい。ここで、図5は、本発明の実施の形態1の変形例2における通話システムの別の構成を示す図である。
 以上、本変形例によれば、近端と遠端とが同じ放送波を受信しているかどうかを自動的に判断できる。それにより、近端と遠端とが同じ放送波を受信している場合は、TVの音を遠端側に送信しないようにすることができるだけでなく、近端と遠端とが同じ放送波を受信していない場合には、TV本来の高音質な音声を近端側のユーザに受聴させることができる効果を奏する。
 なお、図5において、エンコーダ506が識別信号を符号化し、通話信号のサイド情報として遠端の通話機24に送出されるとしたがそれに限られない。例えば、図6に示すようにTV信号受信部400が識別信号をエンコーダ506ではなく、オーディオウォーターマークエンコーダ609に出力し、オーディオウォーターマークエンコーダ609で、オーディオウォーターマーク技術を用いて識別信号を通話信号自体に多重化するとしてもよい。
 その場合には、エンコーダ106は、多重化された識別信号を符号化し、遠端の通話機26に送信する。そして、遠端の通話機26では、デコーダ121でデコードした信号をオーディオウォーターマークデコーダ628に送ればよい。また、オーディオウォーターマークデコーダ628では、識別信号と通話機16の通話信号とを分離し、識別信号を制御部627に出力し、通話機16の通話信号を加算部122に出力すればよい。
 (実施の形態2)
 実施の形態1では、TV受聴と通話とが同時に行われるときに、第1の音声信号L11と第2の音声信号L12とを加算した信号でスピーカ103が出音する場合について説明したが、それに限らない。例えば、TV受聴と通話とが同時に行われる場合に、通話の音声を優先させてスピーカ103から出音されるとしてもよい。以下、その場合を実施の形態2として説明する。
 図7は、本発明の実施の形態2における近端の通話機17の構成を示す図である。図1Aと同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図7に示す通話機17は、実施の形態1に係る通話機10に対して、制御部707と加算部702の構成が異なる。
 具体的には、加算部702は、第1の音量調整部711と、第2の音量調整部712と、加算器713とを有し、遠端の通話機20から伝達される受話信号を優先させてスピーカ103に出力する。より具体的には、加算部702は、本発明の加算部の一例であって、第1の音声信号L11の音量を調整する第1の音量調整部711と、第2の音声信号L12の音量を調整する第2の音量調整部712とを有し、第1の音声信号L11と第2の音声信号L12とを加算してスピーカ103に伝達するとともに、参照信号R71を出力する。加算部702は、TV信号受信部100が放送波(TV信号)を受信している場合、かつ、第2の音声信号L12を参照信号R71としてエコー除去部105に出力する場合に、第2の音量調整部712の出力レベルに比べて第1の音量調整部711の出力レベルを小さくすることで、第2の音声信号L12と、第2の音声信号L12に比べて小さな出力レベルの第1の音声信号L11とを加算してスピーカ103に伝達する。より詳細には、第1の音量調整部711は、制御信号S71により、TV信号である第1の音声信号L11の音量を調整する。
 第2の音量調整部712は、制御信号S71により、受話信号である第2の音声信号L12の音量を調整する。
 制御部707は、TV信号受信部100の受信信号(信号X1)とデコーダ101の受話信号(信号Y1)とに基づいて、加算部702を制御するための制御信号S71を生成し、加算部702に出力する。
 例えば、制御部707は、TV受聴と通話とが同時に行われる場合に、通話の音声を優先させるため、第2の音量調整部の出力レベルを、第1の音量調整部の出力レベルより大とする制御信号S71を生成し、加算部702に出力する。特に、制御部707は、第2の音量調整部712の出力レベルが0でないときは、第1の音量調整部711の出力レベルを0とする制御信号S71を生成し、加算部702に出力するとしてもよい。
 なお、本実施の形態2では、参照信号R71は、加算器713への入力信号としたが、加算器713への出力信号を参照信号R71としてもよいことは言うまでもない。また、第1の音量調整部711および第2の音量調整部712の制御は制御信号S71によって行われるとしたが、ユーザの指示によって行われるとしても良いことは言うまでもない。すなわち、図7に示した通話機17の構成は、図16に示す通話機17aのようなものであってもよい。図16に示す加算部703は、参照信号R71を加算器713の出力信号としている点と、第1の音量調整部711と第2の音量調整部712に設定する音量調整のレベルをユーザの指示によって行われる点とを除いては図7に示す加算部102と同じものである。
 (実施の形態3)
 実施の形態1および実施の形態2では、通話機が放送波受信機能と通話機能とを同時に処理できる場合、すなわちTV受信機が通信機と一体型である場合について説明した。実施の形態3では、TV受信機が通信機と別筐体の場合について説明する。
 なお、以下では、近端側および遠端側それぞれに別筐体のTV受信機が設置されていて、双方が同じTV番組を受聴しながら通話しているという状態を前提に説明する。
 以下、本発明の実施の形態3における通話機について図面を参照しながら説明する。
 図8は、本発明の実施の形態3における通話機システムの構成を示す図である。
 図8に示す通話システムは、通話元の話者が用いる近端の通話機80と、通話先の話者が用いる遠端の通話機90と、通話機80および通話機90の音声を受送信するのに用いられる通信網30とで構成されている。なお、図1と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 通話機80は、スピーカ103と、放送波(TV信号)を受信するTV受信機840が第3の音声信号L81を出音する場合に当該第3の音声信号L81を少なくとも収音するマイクロホン104とを少なくとも有する。具体的には、通話機80は、デコーダ101と、スピーカ103と、マイクロホン104と、第1のエコー除去部811と、第2のエコー除去部812と、エンコーダ106とを備える。同様に、通話機90は、デコーダ121と、スピーカ123と、マイクロホン124と、第1のエコー除去部831と、第2のエコー除去部832と、エンコーダ126とを備える。
 ここで、TV受信機840は、通話機80とは別筐体で、近端側に設置されており、放送波からTV信号を受信し、第3の音声信号L81を生成する。また、同様に、TV受信機850は、通話機90とは別筐体で、遠端側に設置されており、放送波からTV信号を受信し、第4の音声信号L82を生成する。
 マイクロホン104は、TV受信機840が生成した第3の音声信号L81を収音し、第1のエコー除去部811に出力する。
 第1のエコー除去部811は、本発明の第1のエコー除去部の一例であって、参照信号R81から第1擬似エコー成分を推定し、少なくともスピーカ103から出音された音をマイクロホン104で収音した収音信号から第1擬似エコー成分を除去する。具体的には、第1のエコー除去部811は、通話機90が放送波を受信するTV受信機850から出音される音声信号を収音する場合、スピーカ103から出音された音とTV受信機840から出音された第3の音声信号L81とをマイクロホン104で収音した収音信号から第1擬似エコー成分を除去する。ここで、参照信号R81は、第2のエコー除去部812で第2擬似エコー成分が除去された第4の音声信号L82である。この第4の音声信号L82は、通話機90が放送波と同一の放送波を受信するTV受信機850から出音される音声信号を収音する場合、第3の音声信号L81と略同一である。
 より具体的には、第1のエコー除去部811は、スピーカ103から発せられた音響信号をマイクロホン104で収音することによって生じるエコーを除去する。第1のエコー除去部811は、エコーを除去した出力信号を、エンコーダ106および通信網30を介して遠端の通話機90に送出するとともに第2のエコー除去部812の参照信号R82として、第2のエコー除去部812に伝達する。
 ここで、第1のエコー除去部811は、第3の音声信号L81を除去できない。これは、図8からもわかるように、第1のエコー除去部811の参照信号R81は、スピーカ103から出音される信号となるように構成されているからである。
 第2のエコー除去部812は、デコーダ101より出力された音声信号に含まれるエコーを除去する。具体的には、第2のエコー除去部812は、デコーダ101より出力された音声信号に含まれる第4の音声信号L82を、参照信号R82に基づき推定された擬似エコーとして除去する。
 ここで第2のエコー除去部812の参照信号R82は、第3の音声信号L81であり、第3の音声信号L81と第4の音声信号L82は、もともと同じTV番組の音声であるので、あたかも、第3の音声信号L81のエコーが第4の音声信号L82であるかのような状態となっている。そのため、第2のエコー除去部812は、デコーダ101より出力された音声信号に含まれる第4の音声信号L82を、参照信号R82に基づき推定された擬似エコーとして除去することができる。
 第2のエコー除去部812は、本発明の第2のエコー除去部の一例であって、第1のエコー除去部811で第1擬似エコー成分が除去された収音信号を参照信号R82として第2擬似エコー成分を推定し、第4の音声信号L82から第2擬似エコー成分を除去する。具体的には、第2のエコー除去部812は、デコーダ101より出力された音声信号から、通話機90における第4の音声信号L82を含む第2擬似エコー成分を除去する。より具体的には、第2のエコー除去部812は、デコーダ101より出力された音声信号からTV音声を除去し、スピーカ103に出力する。したがって、スピーカ103は、TV音声が除かれた状態で遠端側の話者の音声が出音されることとなる。
 一方、遠端側でも同様である。
 すなわち、マイクロホン124は、TV受信機850が生成した第4の音声信号L82を収音し、第1のエコー除去部831に出力する。
 第1のエコー除去部831は、スピーカ123から発せられた音響信号をマイクロホン124で収音することによって生じるエコーを除去する。第1のエコー除去部831は、エコーを除去した出力信号を、通信網30を介して近端の通話機80に送出するとともに第2のエコー除去部832の参照信号R84として、第2のエコー除去部832に伝達する。
 ここで、第1のエコー除去部831は、第4の音声信号L82を除去できない。これは、図8からもわかるように、第1のエコー除去部831の参照信号R83は、スピーカ123から出音される信号となるように構成されているからである。
 第2のエコー除去部832は、デコーダ121より出力された音声信号に含まれるエコーを除去する。具体的には、第2のエコー除去部832は、デコーダ121より出力された音声信号に含まれる第3の音声信号L81を、参照信号R84に基づき推定された擬似エコーとして除去する。
 ここで第2のエコー除去部832の参照信号R84は、第4の音声信号L82であり、第3の音声信号L81と第4の音声信号L82は、もともと同じTV番組の音声であるので、あたかも、第4の音声信号L82のエコーが第3の音声信号L81であるかのような状態となっている。そのため、第2のエコー除去部832は、デコーダ121より出力された音声信号に含まれる第3の音声信号L81を、参照信号R84に基づき推定された擬似エコーとして除去することができる。
 第2のエコー除去部832は、デコーダ121より出力された音声信号からTV音声を除去し、スピーカ123に出力する。したがって、スピーカ123は、TV音声が除かれた状態で遠端側の話者の音声が出音されることとなる。
 以上のように通話機システムは構成される。
 以上、本実施の形態によれば、TVの音声信号を参照信号に加えられない場合、例えばTV受信機能と通話機能とが別々の装置(別筐体)で構成されているような場合でも、遠端と近端で同じTV番組を受聴しているときには遠端からのTVの音を近端で除去でき、通話に支障をきたさない状態にすることができる。
 なお、TV受信機能と通話機能とが別々の装置(別筐体)で構成されているような場合でも、遠端と近端で同じTV番組を受聴していないときには、第2のエコー除去部812を動作しないようにするとしてもよい。その場合、制御部を備え、遠端と近端で同じ放送波(TV番組)を受信していないと判断した場合には、第2のエコー除去部812の動作を停止させる。それにより、遠端と近端で同じ放送波を受信していない場合には不要なエコー推定を行わず、消費電力を低減できるという効果を奏する。
 (実施の形態4)
 実施の形態1では、TV受聴と通話とが同時に行われるときに、第1の音声信号L11を信号縮退部1021で縮退した後、第1の加算器1022で、当該縮退した第1の音声信号L11と第2の音声信号L12とを加算するようにし、当該加算した信号を信号拡大部1023で拡大してスピーカ103に伝達したが、それに限らない。
 本実施の形態では、加算部102とは別の詳細構成について図11を用いて説明する。
 図11は、本発明の実施の形態4における加算部202と制御部107の詳細構成を示す図である。なお、図1および図2と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図11に示すように、加算部202は、信号拡大部2021と、加算器2022と、信号縮退部2023とを備え、第1の音声信号と第2の音声信号と制御信号とを受信し、エコー除去部105に伝達する参照信号R11とスピーカ103に伝達する出力信号とを生成する。
 また、図11に示すように、制御部107は、受話信号の受信有無を示す信号X1とTV信号の受信有無を示す信号Y1とを受け取る。制御部107は、信号X1と信号Y1とに基づいて、加算部202の動作を制御する制御信号S11を生成する。制御信号S11は、加算器2022の出力信号をスピーカ103に伝達するか、または、第1の音声信号L11をスピーカ103に伝達するか、および、参照信号R11を出力するかしないかを切り替えるために使われる。以上のように加算部202は構成される。
 次に、以上のように構成された制御部107と加算部202との動きについて説明する。
 制御部107は、信号X1がONの時(受話信号を受信している時)で、かつ、信号Y1がONになった場合(TV信号を受信した場合)、加算部202内の2つのスイッチをそれぞれ下側に倒すよう制御する制御信号S11を生成し、加算部202に伝達する。すると、加算部202は、内部のスイッチをそれぞれ下側に倒す。その場合、加算部202は、受信したデコーダ101からの第2の音声信号L12を信号拡大部2021で拡大し、当該拡大した信号と受信したTV信号受信部100からの第1の音声信号L11とを加算器2022で加算した信号をスピーカ103へ伝達することになる。それと共に、スピーカ103へ伝達する信号を信号縮退部2023へ伝達する。
 デコーダ101からの第2の音声信号L12を受信した信号拡大部2021は、当該信号(第2の音声信号L12)をアップサンプリング処理およびチャネル拡大処理をして、TV信号(第1の音声信号L12)と同じサンプリング周波数およびチャンネル数に変換して、加算器2022に伝送する。加算器2022では、そのようにして遠端の通話機20からの受話信号(第2の音声信号L12)を拡大した信号と第1の音声信号L11とが加算され、エコー除去部105に参照信号R11として出力すると同時に、スピーカ103に出力信号として出力される。その時、参照信号R11は、加算器2022の出力信号そのものではなく、信号縮退部2023で、少なくともサンプリング周波数を第2の音声信号L12のサンプリング周波数と同じになるよう縮退されている。
 一方、制御部107は、信号X1がOFFの時(受話信号を受信していない時)で、かつ、信号Y1がONになった場合(TV信号を受信した場合)、加算部202内の2つのスイッチをそれぞれ上側に倒すよう制御する制御信号S11を生成し、加算部102に伝達する。すると、加算部102は、内部のスイッチをそれぞれ上側に倒す。その場合、受信したTV信号受信部100からの第1の音声信号L11がスピーカ103へ伝達される。
 なお、この場合には、参照信号は生成されないものの次の2つの利点がある。すなわち、1つは、第2の音声信号L12をアップサンプリング処理およびチャネル拡大処理してTV信号受信部100からの信号(第1の音声信号L11)と同じサンプリング周波数およびチャンネル数に変換することによって、TV信号の音質を劣化させずにスピーカ103から再生できるという利点がある。もう1つは、参照信号R11を狭帯域とすることができるので、エコー除去部105の演算量が少なくてすむという利点である。
 このように、制御部107は加算部202を制御することによって、近端の通話機10の話者が遠端の通話機20の話者と通話していないときは、TV信号受信部100の音声信号(第1の音声信号L11)を本来の広帯域の多チャンネルのままの音声で近端の通話機10の話者に受聴させることができる。一方、近端の通話機10の話者が遠端の通話機20の話者と通話しているときは、エコー除去部105に入力される参照信号R11に当該TV信号(第1の音声信号L11)を加えることができるので、遠端の通話機20に対して近端の通話機10で受聴しているTV音声(TV信号受信部100の第1の音声信号L11)を送出しないようにできる。さらにその場合でも、スピーカ103から再生されるTV音声は、広帯域信号のまま維持されるので、近端の通話機10の話者が良好な音声を受聴することができる。
 それによって、遠端側と近端側とで同じTV信号を受信していたとしても、近端側のTVの音声信号が遠端側に送出されないので、遠端側で良好にTV受聴できることになる。換言すると、遠端側と近端側とで同じTV信号を受信していたとしても、遠端側であたかもTVの音声信号に対する著しいエコーが返ってくるかのような状況を抑制できる。
 なお、参照信号R11がモノラル信号である必要がある場合は(エコー除去部105がモノラル信号対応の場合は)、図11内では図示していないが、加算器2022は、入力が2チャンネル以上のマルチチャネル信号である場合、加算の出力をモノラル化する必要がある。
 また、実施の形態1~実施の形態4において説明したスピーカ103は、特にその構成を限定していなかったが、例えば通常のスピーカ、すなわち、入力信号の全周波数帯域を再生することを意図したスピーカである。しかし、スピーカ103は、この構成に限らないのは言うまでもない。例えば、近年TV音声の高音質化のために、低音部をできるだけ忠実に再生する低音用スピーカを別途設けるとしてもよい。以下、その場合の加算部とエコー除去部の構成例について説明する。
 図12は、周波数帯域毎のスピーカを有する場合における加算部と制御部とエコー除去部の詳細構成を示す図である。なお、図11と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図12は図11と概ね同様のものである。図12に示す加算部302は、出力信号をハイ側スピーカ用信号とロー側スピーカ用信号とに分離するためのハイパスフィルタ2024とローパスフィルタ2025とを備えている点と、参照信号もハイ側参照信号とロー側参照信号との2本の参照信号を出力している点とにおいて図11に示す加算部202と異なる。また、図12では加算部302の参照信号を受信するエコー除去部205を示している。
 図12に示すように、加算器2022の出力あるいは第1の音声信号L11は、スピーカ103に伝送される前に、予め定められたカットオフ周波数のハイパスフィルタ2024とそれに応じて定められたカットオフ周波数のローパスフィルタ2025とで処理された2本の信号に分離される。それぞれの信号は、スピーカ103に伝送されるとともに、信号縮退部2023にも伝送される。信号縮退部2023の動作は先に述べたものと同様であるので、説明は省略する。
 また、エコー除去部205は、実施の形態1~3に示したものの他、いろいろな構成方法がとれるが、例えば図13のように構成する。
 図13は、周波数帯域毎のスピーカを有する場合におけるエコー除去部の詳細構成を示す図である。
 図13に示すエコー除去部205では、ハイ側参照信号とロー側参照信号とが加算されてエコー推定部2051に伝送され、エコー推定部2051で生成された疑似エコーを入力信号から差し引くことでエコーを除去する。この場合、図12におけるハイパスフィルタ2024とローパスフィルタ2025とで処理する前の信号をそのまま参照信号とすることと等価と思われるかもしれないがそうではない。図12には図示していないが、ハイパスフィルタ2024とローパスフィルタ2025で処理された信号はそれぞれ、スピーカ特性やユーザの嗜好に応じたイコライザ処理やAGC(Auto Gain Control)やボリューム処理が行われる。そのため、スピーカ103に出力される直前のハイ側信号とロー側信号をそれぞれ参照信号とした方が疑似エコー生成に有利となる。したがって、図13に示すようにエコー除去部205を構成にすることで、実際にスピーカ103から出音される信号と、参照信号としてエコー推定部2051に入力される信号とが類似のものとなるので、結果としてエコー推定の精度が向上する。
 なお、図13に示すように、エコー除去部205を構成する場合、ハイ側参照信号とロー側参照信号とを加算する処理は図12における信号縮退部2023の前に行われてもよいことは言うまでもない。
 次に、エコー除去部の別の構成例について図14を用いて説明する。
 図14は、周波数帯域毎のスピーカを有する場合におけるエコー除去部の別の詳細構成を示す図である。
 まず、図14に示すエコー除去部305は、サブバンド分割・合成を有する所謂サブバンドエコー除去の技術を利用している。すなわち、マイクロホン104からの入力信号と参照信号とはそれぞれサブバンドに分割される。図14には4分割の場合を示しているが、これは単なる一例に過ぎない。つまり、何バンド分割であってもよい。
 次に、分割されたサブバンドごとにエコー推定が行われる。図14において、最低域のサブバンド信号については、先にロー側参照信号を用いてエコー推定が行われ、生成された疑似エコーを入力信号の最低域信号から差し引いてエコー除去をおこなう。また、最低域信号については、ハイ側参照信号を用いてエコー除去を行ってもよい。これは、例えば、ハイパスフィルタ2024やローパスフィルタ2025のカットオフ周波数が300Hzであって、最低域のサブバンドの周波数帯域が0から1kHzであった場合、最低域のサブバンドには、ハイ側参照信号もロー側参照信号も含まれているからである。もちろん、サブバンドの境目とカットオフ周波数とが実質的に同じ周波数とみなせる場合は、そのようにする必要はない。
 一方、中域および高域のサブバンドについては、ハイ側参照信号を用いてエコー除去を行えばよい。
 このようにして、サブバンドごとにエコー除去を行うことにより、エコー除去後のサブバンド信号は帯域合成され通常のフルバンドの信号が生成される。
 なお、もともとエコー除去をサブバンド分割した信号に対して行う理由は演算量の削減である。しかし、上記説明した方法をとれば、ハイ側スピーカから再生された音に対するエコーとロー側スピーカから再生された音に対するエコーをそれぞれ独立に除去できるので、少ない演算量を維持したまま高精度のエコー除去が行える。
 また、本実施の形態ではTV受信信号を扱っているが、その場合、TV画面とのAV同期(所謂リップシンク)のために音声信号を遅延させる処理が必要である。以下、加算部にリップシンクの処理を行わせる場合について説明する。
 図15は、リップシンク用遅延処理を行う加算部の詳細構成を示す図である。なお、図11と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図15に示す加算部402では、TV信号のリップシンク用の遅延の処理は、加算器2022の手前で実施することが望ましい。それは、音声通話のための信号はできるだけ遅延を少なくすることが必要であるので、TV信号と通話信号を加算した後でリップシンク用の遅延を実施すると通話に支障をきたすためである。図15に示すように加算部402を構成することによって、TV画面のリップシンクは保たれ、かつ通話音声の遅延を生じなくすることができる。
 一方、通話も所謂テレビ電話である場合は、通話用画面のリップシンクが必要な場合もある。その場合は、図示していないが、通話用画面のリップシンク用遅延も加算器の手前に置くことが望ましいことは言うまでもない。
 なお、本明細書において、「TV」と表現しているものは、必ずしも無線電波で放送される所謂テレビに限定されるものではない。例えば、有線、無線を問わず、インターネット網などで配信されるAV信号であってもよいし、ビデオ信号を含まない音声放送(音声配信)でもよい。さらに、学校や職場や商業施設などで一斉に行われる構内放送などもこれに含まれる。すなわち、広範囲に同時に放送或いは配信される、少なくともオーディオ信号を含む信号は全て、本願で扱う信号である。
 以上、本発明の通話機について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 例えば、上述した通話機をスピーカ、マイクロホンを除いた構成からなるエコー除去装置として構成してもよい。その場合、例えばスピーカに音声信号を伝達するとともにマイクロホンで収音した収音信号を入力するエコー除去装置であって、放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、前記加算部は、前記受信部が前記放送波を受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する。ここで、例えば、前記エコー除去装置は、さらに、前記加算部を制御する制御部を備え、前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力させ、前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第2の音声信号を前記参照信号として前記エコー除去部に出力させるとしてもよい。
 また、上記実施の形態において、通話機を構成する、例えば図1に示す各機能ブロックは、典型的には集積回路であるLSI(Large Scale Integration)として実現するとしてもよい。これらを個別に1チップ化するとしても良いし、一部または全てを含むように1チップ化するとしても良い。なお、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
 本発明にかかる通話機は、TV信号受信機能と、通話機能と、を備えており、近端と遠端とで同時に同じ番組を受聴しているような場合でも、双方のTVの音声信号に邪魔されることなく通話することができ、かつ、そうでない場合は、TV本来の高音質でTVの音声信号を受聴することができるので、幅広く通話機に応用できる。
 10、13、14、15、16、17、17a、20、24、25、26、80、90、900、920  通話機
 30、930  通信網
 100、120、400、420  TV信号受信部
 100a、120a  音声ストリーム受信・デコード部
 101、121、501、521、901、921  デコーダ
 102、202、302、402、122、702、703  加算部
 103、123、903、923  スピーカ
 104、124、904、924  マイクロホン
 105、125、205、305、905、925  エコー除去部
 106、126、506、526、906、926  エンコーダ
 107、127、307、407、427、507、527、607、627、707  制御部
 608、628  オーディオウォーターマークデコーダ
 609、629  オーディオウォーターマークエンコーダ
 711  第1の音量調整部
 712  第2の音量調整部
 713、2022  加算器
 811、831  第1のエコー除去部
 812、832  第2のエコー除去部
 840、850、1000、1020  TV受信機
 1021、2023  信号縮退部
 1022  第1の加算器
 1023、2021  信号拡大部
 1024  第2の加算器
 2024  ハイパスフィルタ
 2025  ローパスフィルタ

Claims (18)

  1.  スピーカとマイクロホンとを少なくとも有する通話機であって、
     放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、
     他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、
     前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、
     前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、
     前記加算部は、前記受信部が前記放送波を受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する
     通話機。
  2.  前記通話機は、さらに、
     前記加算部を制御する制御部を備え、
     前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力させ、
     前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第2の音声信号を前記参照信号として前記エコー除去部に出力させる
     請求項1に記載の通話機。
  3.  前記制御部は、前記受信部が受信している放送波の識別信号に基づいて、前記受信部が前記放送波を受信しているか否かを判定し、
     前記制御部は、前記他の通話機が受信している放送波の識別番号に基づいて、前記他の通話機が前記受信部の受信している前記放送波と同一の放送波を受信しているか否かを判定する
     請求項2に記載の通話機。
  4.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記第1の音声信号のサンプリング周波数を前記第2の音声信号のサンプリング周波数の信号に変換した後前記第2の音声信号のサンプリング周波数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第2の音声信号のサンプリング周波数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記第2の音声信号のサンプリング周波数を前記第1の音声信号のサンプリング周波数の信号に変換した後前記第1の音声信号のサンプリング周波数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第1の音声信号のサンプリング周波数の信号に変換した前記第2の音声信号を前記参照信号として前記エコー除去部に出力する
     請求項2または3に記載の通話機。
  5.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記第1の音声信号のチャンネル数を前記第2の音声信号のチャンネル数の信号に変換した後前記第2の音声信号のチャンネル数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第2の音声信号のチャンネル数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記第2の音信号のチャンネル数を前記第1の音信号のチャンネル数の信号に変換した後前記第1の音信号のチャンネル数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第1の音声信号のチャンネル数の信号に変換した前記第2の音声信号を前記参照信号として前記エコー除去部に出力する
     請求項2~4のいずれか1項に記載の通話機。
  6.  スピーカとマイクロホンとを少なくとも有する通話機であって、
     放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、
     他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、
     前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、
     前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部とを備え、
     前記加算部は、前記第1の音声信号の音量を調整する第1の音量調整部と、前記第2の音声信号の音量を調整する第2の音量調整部とを有し、
     前記加算部は、前記受信部が前記放送波を受信している場合、かつ、前記第2の音声信号を前記参照信号として前記エコー除去部に出力する場合に、前記第2の音量調整部の出力レベルに比べて前記第1の音量調整部の出力レベルを小さくすることで、前記第2の音声信号と前記第2の音声信号に比べて小さな出力レベルの前記第1の音声信号とを加算して前記スピーカに伝達する
     通話機。
  7.  前記第1の音量調整部の出力レベルは0である
     請求項6に記載の通話機。
  8.  スピーカと、放送波を受信する受信機が第1の音声信号を出音する場合に当該第1の音声信号を少なくとも収音するマイクロホンとを少なくとも有する通話機であって、
     他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、
     第1参照信号から第1擬似エコー成分を推定し、少なくとも前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記第1擬似エコー成分を除去する第1のエコー除去部と、
     前記第1のエコー除去部で前記第1擬似エコー成分が除去された前記収音信号を第2参照信号として第2擬似エコー成分を推定し、前記第2の音声信号から前記第2擬似エコー成分を除去する第2のエコー除去部とを備え、
     前記他の通話機が放送波を受信する他の受信機から出音される音声信号を収音する場合、
     前記復号部は、他の通話機における第3の音声信号を含む第2の音声信号を生成し、
     前記第1のエコー除去部は、前記スピーカから出音された音と前記受信機から出音された前記第1の音声信号とを前記マイクロホンで収音した収音信号から前記第1擬似エコー成分を除去し、
     前記第2のエコー除去部は、前記第2の音声信号から、前記他の通話機における前記第3の音声信号を含む前記第2擬似エコー成分を除去し、
     前記第1参照信号は、前記第2のエコー除去部で前記第2擬似エコー成分が除去された前記第2の音声信号である
     通話機。
  9.  前記第2の音声信号は、前記他の通話機が前記放送波と同一の放送波を受信する受信機から出音される音声信号を収音する場合、前記第1の音声信号と略同一である
     請求項8に記載の通話機。
  10.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号している場合には、前記第1の音声信号のサンプリング周波数を、前記第2の音声信号のサンプリング周波数の信号に変換した後前記第2の音声信号のサンプリング周波数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第2の音声信号のサンプリング周波数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号していない場合には、前記第1の音声信号を前記スピーカに伝達する
     請求項1に記載の通話機。
  11.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号している場合には、前記第1の音声信号のチャンネル数を、前記第2の音声信号のチャンネル数の信号に変換した後前記第2の音声信号のチャンネル数の信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して、前記スピーカに伝達するとともに、前記第2の音声信号のチャンネル数の信号に変換した当該第1の音声信号と当該第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号していない場合には、前記第1の音声信号を前記スピーカに伝達する
     請求項1に記載の通話機。
  12.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号している場合には、前記第2の音声信号のサンプリング周波数を、前記第1の音声信号のサンプリング周波数の信号に変換した後前記第1の音声信号に加算することにより、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号のサンプリング周波数の信号に変換した当該第2の音声信号と当該第1の音声信号とを加算した信号を前記第2の音声信号のサンプリング周波数に変換して前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号していない場合には、前記第1の音声信号を前記スピーカに伝達する
     請求項1に記載の通話機。
  13.  前記加算部は、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号している場合には、前記第2の音声信号のチャンネル数を、前記第1の音声信号のチャンネル数の信号に変換した後前記第1の音声信号に加算することにより、前記第2の音声信号と前記第1の音声信号とを加算して、前記スピーカに伝達するとともに、前記第1の音声信号のチャンネル数の信号に変換した当該第2の音声信号と当該第1の音声信号とを加算した信号を前記第2の音声信号のチャンネル数に変換して前記参照信号として前記エコー除去部に出力し、
     前記受信部が前記放送波を受信している場合、かつ、前記復号部が他の通話機から受信した受話信号を復号していない場合には、前記第1の音声信号を前記スピーカに伝達する
     請求項1に記載の通話機。
  14.  前記加算部で加算された信号は、低周波数成分を通過させるローパスフィルタで処理された信号Lと、少なくとも前記ローパスフィルタによって欠落した周波数成分を有する信号Hとに分離され、
     前記スピーカは、前記信号Lと信号Hとをそれぞれ再生する少なくも2個のスピーカ素子からなり、
     前記参照信号は、少なくとも前記信号Lと前記信号Hを含む信号である
     請求項1に記載の通話機。
  15.  スピーカとマイクロホンとを少なくとも有する通話機であって、
     音声ストリームを入力し、前記音声ストリームから第1の音声信号を生成する受信部と、
     他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、
     前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、
     前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、
     前記加算部は、前記受信部が前記音声ストリームを受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する
     通話機。
  16.  前記通話機は、さらに、
     前記加算部を制御する制御部を備え、
     前記制御部は、前記受信部が前記音声ストリームを受信している場合、かつ、前記他の通話機が前記音声ストリームと同一の音声ストリームを受信している場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力させ、
     前記制御部は、前記受信部が前記音声ストリームを受信している場合、かつ、前記他の通話機が前記音声ストリームと異なる放送波を受信している場合には、または、前記他の通話機が音声ストリームを受信していない場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第2の音声信号を前記参照信号として前記エコー除去部に出力させる
     請求項15に記載の通話機。
  17.  スピーカに音声信号を伝達するとともにマイクロホンで収音した収音信号を入力するエコー除去装置であって、
     放送波を受信し、受信した前記放送波から第1の音声信号を生成する受信部と、
     他の通話機から受信した受話信号を復号して第2の音声信号を生成する復号部と、
     前記第1の音声信号もしくは前記第2の音声信号を前記スピーカに伝達、または、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、参照信号を出力する加算部と、
     前記参照信号から擬似エコー成分を推定し、前記スピーカから出音された音を前記マイクロホンで収音した収音信号から前記擬似エコー成分を除去するエコー除去部と、を備え、
     前記加算部は、前記受信部が前記放送波を受信している場合、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達するとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力する
     エコー除去装置。
  18.  前記エコー除去装置は、さらに、
     前記加算部を制御する制御部を備え、
     前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と同一の放送波を受信している場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第1の音声信号と前記第2の音声信号とを加算した信号を前記参照信号として前記エコー除去部に出力させ、
     前記制御部は、前記受信部が前記放送波を受信している場合、かつ、前記他の通話機が前記放送波と異なる放送波を受信している場合には、または、前記他の通話機が放送波を受信していない場合には、前記加算部に、前記第1の音声信号と前記第2の音声信号とを加算して前記スピーカに伝達させるとともに、前記第2の音声信号を前記参照信号として前記エコー除去部に出力させる
     請求項17に記載のエコー除去装置。
     
PCT/JP2012/003174 2011-05-20 2012-05-15 通話機 WO2012160778A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280024204.8A CN103548329B (zh) 2011-05-20 2012-05-15 通话机
JP2013516192A JP5960128B2 (ja) 2011-05-20 2012-05-15 通話機
US14/081,776 US8774398B2 (en) 2011-05-20 2013-11-15 Transceiver

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011113997 2011-05-20
JP2011-113997 2011-05-20
JP2011148697 2011-07-04
JP2011-148697 2011-07-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/081,776 Continuation US8774398B2 (en) 2011-05-20 2013-11-15 Transceiver

Publications (1)

Publication Number Publication Date
WO2012160778A1 true WO2012160778A1 (ja) 2012-11-29

Family

ID=47216871

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/003174 WO2012160778A1 (ja) 2011-05-20 2012-05-15 通話機

Country Status (4)

Country Link
US (1) US8774398B2 (ja)
JP (1) JP5960128B2 (ja)
CN (1) CN103548329B (ja)
WO (1) WO2012160778A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019008733A1 (ja) * 2017-07-07 2019-01-10 ヤマハ株式会社 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8925003B2 (en) * 2013-03-08 2014-12-30 Silicon Image, Inc. Mechanism for facilitating synchronization of audio and video between multiple media devices
US9712866B2 (en) 2015-04-16 2017-07-18 Comigo Ltd. Cancelling TV audio disturbance by set-top boxes in conferences
US9900735B2 (en) * 2015-12-18 2018-02-20 Federal Signal Corporation Communication systems
JP7281788B2 (ja) * 2019-07-08 2023-05-26 パナソニックIpマネジメント株式会社 スピーカシステム、音処理装置、音処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219240A (ja) * 2007-03-01 2008-09-18 Yamaha Corp 放収音システム
JP2010258941A (ja) * 2009-04-28 2010-11-11 Sony Corp エコー除去装置、エコー除去方法および通信装置
JP2011205353A (ja) * 2010-03-25 2011-10-13 Yamaha Corp 視聴状況認識装置および視聴状況認識システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4264605B2 (ja) * 1999-03-29 2009-05-20 ソニー株式会社 受信装置および方法、並びに記録媒体
US7224794B1 (en) * 1999-09-13 2007-05-29 Agere Systems Inc. Transmitting message playback concurrent with speakerphone operation
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
EP1602208B1 (en) * 2003-03-03 2006-09-06 Matsushita Electric Industrial Co., Ltd. Mobile terminal having functions of program reception through broadcasting and through network communication, and program reception controlling method
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
US8253772B2 (en) * 2008-04-04 2012-08-28 Centurylink Intellectual Property Llc Method, apparatus and system for incorporating voice or video communication into a television or compatible audio capable visual display
JP5266995B2 (ja) * 2008-09-12 2013-08-21 ヤマハ株式会社 放音装置
JP5410720B2 (ja) 2008-09-25 2014-02-05 日立コンシューマエレクトロニクス株式会社 ディジタル情報信号送受信装置、およびディジタル情報信号送受信方法
JP5332733B2 (ja) * 2009-03-03 2013-11-06 沖電気工業株式会社 エコーキャンセラ
KR101688139B1 (ko) * 2010-05-14 2016-12-20 엘지전자 주식회사 이동 단말기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219240A (ja) * 2007-03-01 2008-09-18 Yamaha Corp 放収音システム
JP2010258941A (ja) * 2009-04-28 2010-11-11 Sony Corp エコー除去装置、エコー除去方法および通信装置
JP2011205353A (ja) * 2010-03-25 2011-10-13 Yamaha Corp 視聴状況認識装置および視聴状況認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019008733A1 (ja) * 2017-07-07 2019-01-10 ヤマハ株式会社 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法
US11259116B2 (en) 2017-07-07 2022-02-22 Yamaha Corporation Sound processing method, remote conversation method, sound processing device, remote conversation device, headset, and remote conversation system

Also Published As

Publication number Publication date
CN103548329A (zh) 2014-01-29
US8774398B2 (en) 2014-07-08
JPWO2012160778A1 (ja) 2014-07-31
US20140072118A1 (en) 2014-03-13
CN103548329B (zh) 2016-10-05
JP5960128B2 (ja) 2016-08-02

Similar Documents

Publication Publication Date Title
US7689248B2 (en) Listening assistance function in phone terminals
KR100800725B1 (ko) 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치
US9082389B2 (en) Pre-shaping series filter for active noise cancellation adaptive filter
US8750526B1 (en) Dynamic bandwidth change detection for configuring audio processor
US20120121096A1 (en) Intelligibility control using ambient noise detection
US20070263847A1 (en) Environmental noise reduction and cancellation for a cellular telephone communication device
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
KR20170100582A (ko) 카메라 선택에 기초한 오디오 처리
JP5960128B2 (ja) 通話機
WO2008045476A2 (en) System and method for utilizing omni-directional microphones for speech enhancement
US10964332B2 (en) Audio communication method and apparatus for watermarking an audio signal with spatial information
WO2012164153A1 (en) Spatial audio processing apparatus
US20060008091A1 (en) Apparatus and method for cross-talk cancellation in a mobile device
JP2003249996A (ja) 音声信号入出力装置
KR100842590B1 (ko) 이동 단말에서 음향 반향 제거 방법 및 장치
JP2009147654A (ja) 音声処理装置、音声処理システム及び音声処理プログラム
WO2007120734A2 (en) Environmental noise reduction and cancellation for cellular telephone and voice over internet packets (voip) communication devices
US8879721B2 (en) Audio communication system
WO2010137203A1 (ja) 通信装置および信号処理方法
US20190156850A1 (en) Noise suppressor and method of improving audio intelligibility
US8185042B2 (en) Apparatus and method of improving sound quality of FM radio in portable terminal
US10264116B2 (en) Virtual duplex operation
JP5480226B2 (ja) 信号処理装置および信号処理方法
JP2008311848A (ja) 音声信号処理装置、音声信号処理方法
JP2008141310A (ja) 電話端末、通話信号調節方法及び通話信号調節プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12790291

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013516192

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12790291

Country of ref document: EP

Kind code of ref document: A1