WO2019008733A1 - 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法 - Google Patents
遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法 Download PDFInfo
- Publication number
- WO2019008733A1 WO2019008733A1 PCT/JP2017/024887 JP2017024887W WO2019008733A1 WO 2019008733 A1 WO2019008733 A1 WO 2019008733A1 JP 2017024887 W JP2017024887 W JP 2017024887W WO 2019008733 A1 WO2019008733 A1 WO 2019008733A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- far
- end side
- speaker
- microphone
- signal
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Definitions
- the present invention relates to a remote conversation apparatus, a headset, a remote conversation system, and a remote conversation method for conducting conversations via communication between a near end and a far end.
- Patent Documents 1 and 2 describe an apparatus and method for reproducing the far-end (reproduction environment) sound field on the near-end side.
- Patent Documents 1 and 2 on the far end side, a plurality of speakers and a plurality of microphones are arranged.
- the transmission characteristics of the far end side are acquired by emitting sounds with a plurality of speakers and collecting the sounds with a plurality of microphones.
- the collected sound signal obtained on the far end side is adjusted by the transfer coefficient, and sound is emitted from a plurality of speakers arranged to surround the user.
- the apparatus and method of Patent Document 2 installs a plurality of microphones and a plurality of speakers so as to surround the user.
- the apparatus and method of Patent Document 2 pick up the user's voice with a plurality of microphones arranged to surround the user.
- the apparatus and method of Patent Document 2 adjust the collected user's voice using a transfer coefficient, and emit the sound from a plurality of speakers arranged to surround the user.
- Patent Documents 1 and 2 a large number of microphones and speakers capable of reproducing a sound field are installed in advance, and the transfer characteristics are acquired. Further, in Patent Documents 1 and 2, when reproducing the sound field, the same number of loudspeakers as in the acquisition of the transfer characteristic is arranged at the same position as in the acquisition of the transmission characteristic.
- an object of the present invention is to provide a remote conversation apparatus and a remote conversation system for realizing the feeling that the near-end speaker talks with the far-end speaker on the far-end side with a simple configuration on the near-end side. And providing a remote conversation method.
- a remote conversation device of the present invention includes a near-end microphone, a transfer characteristic acquisition unit, a near-end filter, and a near-end speaker.
- the near-end microphone acquires near-end speech and generates a collected signal.
- the transfer characteristic acquisition unit acquires the transfer characteristic on the far end side.
- the near-end filter adjusts the collected signal using the transfer characteristic.
- the near-end speaker emits the far-end audio signal and the collected sound signal after adjustment.
- the far-end side transfer characteristic is used to adjust the sound pickup signal on the near-end side.
- the near-end speaker can hear his / her own voice corresponding to the far-end sound along with the far-end speaker's voice.
- the remote conversation apparatus of the present invention can realize the feeling that the near-end speaker talks with the far-end speaker on the far-end side with a simple configuration on the near-end side.
- FIG. 1 is a block diagram showing configurations of a remote conversation device and a remote conversation system according to a first embodiment of the present invention. It is a figure which shows arrangement
- FIG. 1 is a block diagram showing the configuration of a remote conversation device and a remote conversation system according to a first embodiment of the present invention.
- FIG. 2 is a view showing the arrangement of the microphone and the speaker on the near end side.
- FIG. 3 is a diagram showing the arrangement of the far-end microphones and speakers.
- the remote conversation system 1 includes a near-end conversation device 10 and a far-end conversation device 20.
- the near-end conversation device 10 corresponds to the "remote conversation device" of the present invention.
- the near-end conversation device 10 and the far-end conversation device 20 communicate wirelessly or by wire.
- the remote conversation referred to in the present invention is not limited to a normal conversation, but includes one that exchanges voices between remote locations such as a conference between remote locations.
- the near-end conversation device 10 includes a microphone 11, a transmission unit 12, a reception unit 13, a near-end filter 14, and a speaker 15.
- the near-end filter 14 includes a filter 141 and a filter 142.
- the speaker 15 has a speaker 151 and a speaker 152, and constitutes a stereo speaker.
- the transmission unit 12, the reception unit 13, and the near-end side filter 14 constitute a signal processing unit B10.
- the signal processing unit B ⁇ b> 10 is realized by hardware such as an IC that executes the functions of the transmission unit 12, the reception unit 13, and the near-end filter 14.
- the microphone 11, the speaker 151, and the speaker 152 make up a headset.
- the signal processing unit B ⁇ b> 10 is attached to the headset and connected to the microphone 11, the speaker 151, and the speaker 152.
- the microphone 11 is disposed at a substantially central position in the lateral direction of the headset and at a lower position in the vertical direction.
- the microphone 11 is disposed at the center side of the headset with the center of the sound collection directivity oriented.
- the speaker 151 is disposed at a first lateral end of the headset, and the speaker 152 is disposed at a second lateral end of the headset.
- the loudspeakers 151 and the loudspeakers 152 are arranged in line symmetry with respect to a straight line passing through the microphone 11 and extending in the vertical direction.
- the speaker 151 and the speaker 152 are disposed on the center side of the headset with the center of the sound emission directivity facing the center.
- the microphone 11 When the near-end user 91 wears the headset, the microphone 11 is placed near the mouth 911 of the user 91. Thereby, when the user 91 utters, the microphone 11 picks up this voice.
- the speaker 151 is attached to the left ear 915L by the user 91, and the speaker 152 is attached to the right ear 915R of the user 91.
- the user 91 can listen to the sound emitted from the speaker 151 with the left ear 915L, and can hear the sound emitted from the speaker 152 with the right ear 915R.
- the signal processing unit B ⁇ b> 10 is attached to the headset and connected to the microphone 11, the speaker 151, and the speaker 152.
- the microphone 11 picks up the voice of the user 91 and generates a pick-up signal S11.
- the microphone 11 outputs the collected signal S11 to the filters 141 and 142 of the near-end filter 14 and the transmission unit 12.
- the transmitting unit 12 converts the collected signal S11 into a communication signal S12 and transmits the communication signal S12 to the receiving unit 21 of the far-end conversation device 20.
- the receiving unit 13 receives a communication signal S25 from the far-end conversation device 20 described later.
- the receiver 13 demodulates the sound emission signals S131 and S132, and the filter coefficients Co131 and Co132 from the communication signal S25. Therefore, the receiving unit 13 has the function of the “transmission characteristic acquisition unit” in the present invention.
- the receiver 13 outputs the sound emission signal S131 to the speaker 151, and outputs the sound emission signal S132 to the speaker 152.
- the receiving unit 13 outputs the filter coefficient Co131 to the filter 141, and outputs the filter coefficient Co132 to the filter 142.
- the sound emission signal S131 is a sound signal collected by the microphone 231 of the far-end conversation device 20 and echo-cancelled by the echo canceller 241.
- the sound emission signal S132 is a sound signal collected by the microphone 232 of the far-end conversation device 20 and echo-cancelled by the echo canceller 242.
- the filter coefficient Co131 is the same as the filter coefficient Co241 of the echo canceller 241, and the filter coefficient Co132 is the same as the filter coefficient Co242 of the echo canceller 241.
- the filter coefficients Co131, Co132, Co241, and Co242 correspond to the "transfer characteristic" of the present invention.
- the filter 141 filters the collected signal S11 using the filter coefficient Co131.
- the filter 141 is formed of, for example, an IIR filter, and performs filter processing by performing a convolution operation using the filter coefficient Co 131 on the collected signal S11.
- the filter 141 outputs the sound collection signal (the sound collection signal after adjustment) S141 after the filtering process to the speaker 151.
- the filter 142 filters the collected signal S11 using the filter coefficient Co132.
- the filter 142 is formed of, for example, an IIR filter, and performs the filtering process on the collected signal S11 by performing a convolution operation using a filter coefficient Co132.
- the filter 142 outputs the sound collection signal (the sound collection signal after adjustment) S142 after the filtering process to the speaker 152.
- the collected sound signals S141 and S142 after filtering become audio signals according to the transfer characteristic of the sound field on the far end side.
- the speaker 151 emits the sound emission signal S131 and the sound collection signal S141 after the filtering process.
- the speaker 152 emits the sound emission signal S132 and the collected sound signal S142 after the filtering process.
- the near-end user 91 hears the voice of the far-end user 92 while listening to his / her voice with the transfer characteristics of the far-end sound field. be able to. Therefore, the near-end user 91 can feel as if he / she is on the far-end side and is in conversation with the far-end user 92, that is, can obtain a sense of realism in conversation.
- the far-end conversation device 20 may realize, for example, the following configuration and processing specifically.
- the far-end conversation device 20 includes a reception unit 21, a speaker 22, a microphone 231, a microphone 232, a far-end filter 24, and a transmission unit 25.
- the far-end filter 24 includes an echo canceller 241 and an echo canceller 242.
- the microphone 231 and the microphone 232 constitute a stereo microphone.
- the receiving unit 21, the far-end side filter 24, and the transmitting unit 25 constitute a signal processing unit B20.
- the signal processing unit B ⁇ b> 20 is realized by hardware such as an IC that executes the functions of the receiving unit 21, the far-end side filter 24, and the transmitting unit 25.
- the speaker 22, the microphone 231, the microphone 232, and the signal processing unit B 20 are mounted on the face type robot 200.
- the face type robot 200 is not necessarily required, as long as at least the speaker 22, the microphone 231, and the microphone 232 can be held in a predetermined positional relationship.
- the signal processing unit B ⁇ b> 20 is connected to the speaker 22, the microphone 231, and the microphone 232.
- the speaker 22 is disposed at a substantially central position in the lateral direction of the robot 200 and at a lower position in the vertical direction.
- the speaker 22 is disposed on the front side of the robot 200 so that the center of the sound emission directivity is directed.
- the microphone 231 is disposed at a first lateral end of the robot 200, and the microphone 232 is disposed at a second lateral end of the robot 200.
- the microphones 231 and the microphones 232 are disposed at positions symmetrical with respect to a straight line extending in the vertical direction through the speaker 22.
- the microphone 231 and the microphone 232 are disposed on the front side of the robot 200 so that the center of the sound collection directivity is oriented.
- the positional relationship between the speaker 22 and the microphone 231 corresponds to the positional relationship between the microphone 11 on the near end side and the speaker 151. Furthermore, the positional relationship between the speaker 22 and the microphone 232 corresponds to the positional relationship between the microphone 11 on the near end side and the speaker 152.
- the receiving unit 21 receives the communication signal S12 from the transmitting unit 12 of the near-end side conversation apparatus 10, and demodulates the far-end side emission signal S21.
- the far-end side sound emission signal S21 is the same audio signal as the near-end side collected sound signal S11.
- the receiver 21 outputs the far-end side sound emission signal S21 to the speaker 22 and the echo cancellers 241 and 242.
- the speaker 22 emits the far-end side emission signal S21.
- the microphone 231 and the microphone 232 pick up the voice of the user 92 on the far end side. At this time, the microphone 231 picks up the voice echo SE22R, and the microphone 232 picks up the voice echo SE22L.
- the sound echo SE22R is an echo whose characteristics are determined by the positional relationship between the speaker 22 and the microphone 231, the sound emission directivity of the speaker 22, the sound collection directivity of the microphone 231, and the acoustic characteristics of the far end.
- the voice echo SE22L is an echo whose characteristics are determined by the positional relationship between the speaker 22 and the microphone 232, the sound emission directivity of the speaker 22, the sound collection directivity of the microphone 232, and the acoustic characteristics of the far end. That is, the characteristics of the sound echo SE22R and the sound echo SE22L are determined by the transfer characteristic of the sound field on the far end side.
- the microphone 231 generates a collected signal S 231 including the collected voice and echo, and outputs the collected signal S 231 to the echo canceller 241.
- the microphone 232 generates a collected signal S 232 including the collected voice and echo, and outputs it to the echo canceller 242.
- the echo canceller 241 performs echo cancellation processing on the collected signal S231 using a known echo cancellation technique. By this processing, the echo canceller 241 suppresses the voice echo SE22R included in the collected signal S231.
- the echo canceller 241 outputs the collected sound signal S241 after the echo cancellation to the transmission unit 25. Further, the echo canceller 241 outputs the filter coefficient Co 241 used for the echo cancellation processing to the transmission unit 25.
- the echo canceller 242 performs an echo cancellation process on the collected signal S232 using a known echo cancellation technique. By this processing, the echo canceller 242 suppresses the voice echo SE22L included in the collected signal S232.
- the echo canceller 241 outputs the sound collection signal S 242 after this echo cancellation to the transmission unit 25.
- the echo canceller 242 outputs the filter coefficient Co 242 used for the echo cancellation processing to the transmission unit 25.
- the transmitter 25 combines the collected signals S241 and S242 with the filter coefficients Co241 and Co241, converts them into a communication signal S25, and transmits the communication signal S25 to the receiver 13 of the near-end conversation device 10.
- the sound collection signal S241 is demodulated as the sound emission signal S131 of the above-mentioned near-end side conversation apparatus 10, and the sound collection signal S242 is demodulated as the sound emission signal S132 of the above-mentioned near-end side conversation apparatus 10.
- the filter coefficient Co 241 is demodulated as the filter coefficient Co 131 of the above-described near-end conversation device 10, and the filter coefficient Co 242 is demodulated as the filter coefficient Co 132 of the above-described near-end conversation device 10. Then, the process of the near-end conversation device 10 described above is performed.
- the voice of the user 92 on the far end side is emitted to the user 91 on the near end side as clear echo-cancelled voice. Therefore, while the near-end user 91 is on the far-end side and gets a sense of realism of conversation as if talking with the far-end user 92, the voice of the far-end user 92 becomes clear I can hear it.
- the filter coefficient Co 241 of the echo canceller 241 on the far end side can be used as the filter coefficient Co 131 of the filter 141 on the near end side, and the filter coefficient Co 242 of the echo canceller 242 on the far end side is It can be used as the filter coefficient Co 132 of the filter 142. Therefore, it is possible to realize a realistic conversation between distant places without performing complicated processing.
- the filter coefficient Co131 may not be the same as the filter coefficient Co241, and may be set based on the filter coefficient Co241.
- the filter coefficient Co132 may not be the same as the filter coefficient Co242, and may be set based on the filter coefficient Co241.
- the filter coefficient is used to adjust the sound collection signal S11 on the near end side. However, if it is a numerical value representing the transfer characteristic of the sound field at the far end, the filter coefficient is substituted. It can be used. Specifically, any impulse response itself or one that can be substituted for the impulse response may be used. In the case of an impulse response, on the far end side, an impulse response may be measured using a speaker and a microphone, and a convolution process may be performed on the collected sound signal on the near end side using the impulse response.
- the filter coefficients Co 241 and Co 242 are acquired from the far-end conversation device 20 for each transmission and reception, and the filter coefficients Co 131 and Co 132 of the near-end conversation device 10 are transmitted and received. It may be updated sequentially according to Thereby, the transfer characteristic of the sound field on the far end side at the time of conversation can be reproduced more faithfully on the near end side. Therefore, the near-end user 91 can realize a more realistic conversation.
- the amount of data to be communicated can be reduced by using filter coefficients Co 241 and Co 242 on the far end side as the transfer characteristics of the far end side sound field.
- the time delay of the filter processing in the filters 141 and 142 on the near end side can be suppressed. Therefore, the transfer characteristic of the sound field on the far end side can be reproduced on the near end side with almost no time delay, and a conversation with a sense of reality can be realized.
- FIG. 4 is a flowchart showing a remote conversation method executed by the near-end conversation device according to the first embodiment of the present invention.
- the near-end conversation device picks up the voice of the near-end user and generates a pick-up signal (S101). This processing corresponds to "near end side sound collection processing".
- the near-end conversation device obtains the transfer characteristic on the far-end side (S102). This process corresponds to the "transfer characteristic acquisition process".
- the method shown in FIG. 5 may be used as a method of acquiring the transfer characteristics on the far end side.
- FIG. 5 is a flowchart showing the method of acquiring the transfer characteristic.
- the near-end conversation device transmits the near-end sound collection signal to the far-end conversation device (S201).
- the far-end conversation device emits the near-end sound collection signal (S202).
- This processing corresponds to "far-end side sound emission processing”.
- the far-end conversation device picks up sound at the far-end side and generates a far-end side picked-up signal.
- This processing corresponds to "far end side sound pickup processing”.
- the far-end conversation device executes an echo cancellation process for suppressing an echo caused by the collected signal at the near end (S203).
- This process corresponds to "far end side filtering process”.
- the far-end conversation device transmits the filter coefficient for echo cancellation to the near-end conversation device (S204).
- the near-end conversational apparatus receives the filter coefficient on the far-end side, and uses the far-end-side transfer characteristic (S205). By these processes, the near-end conversation device can obtain the far-end transfer characteristic.
- the near-end side conversation apparatus adjusts the collected sound signal acquired in step S101 using the transfer characteristic on the far end side (S103). This process corresponds to “near-end side filtering process”.
- the near-end conversation device emits the collected sound signal after adjustment on the near-end side (S104). This processing corresponds to "near end side sound emission processing”.
- the near-end user can realize a real-life conversation with the far-end user while listening to his / her voice with the transfer characteristics of the far-end's sound field.
- the number of microphones and the number of speakers are not limited to this. At this time, it is preferable that the number of microphones and the number of speakers are not too large.
- the number of microphones and the number of speakers are configured by configuring two stereo speakers with two speakers on the near end side and two stereo microphones at the far end side. It is effective to be able to get a sense of reality while keeping the In this case, the filter coefficients to be communicated are small, and the filter coefficients on the far end side can be transmitted to the near end at high speed. Therefore, the filter coefficients on the near end side can be set with almost no delay, which is more effective for a remote conversation system in which real time is important.
- the number of microphones on the near end side is the same as the number of speakers on the far end side, and the number of speakers on the near end side is the same as the number of microphones on the far end side.
- the arrangement of the speaker with respect to the microphone at the near end side and the arrangement of the microphone with respect to the speaker at the far end side are the same.
- FIG. 6 is a block diagram showing the configuration of the remote conversation device according to the second embodiment of the present invention.
- the near-end conversation device 10A according to the second embodiment differs from the near-end conversation device 10 according to the first embodiment in the configuration of the near-end filter 14A.
- the other configuration of the near-end conversation device 10A is the same as that of the near-end conversation device 10, and the description of the same parts will be omitted.
- the near-end filter 14A includes a filter 141, a filter 142, a transmission difference adjustment filter 143, and a transmission difference adjustment filter 144.
- the filter 141 and the filter 142 are the same as the filters constituting the near-end side filter 14 according to the first embodiment.
- the filter coefficient of the transfer difference adjustment filter 143 is set to a value that cancels out the difference between the transfer characteristics of the near-end microphone 11 and the speaker 151 and the transfer characteristics of the far-end speaker 22 and the microphone 231. .
- the filter coefficient of the transfer difference adjustment filter 144 is a value that cancels out the difference between the transfer characteristic between the near-end microphone 11 and the speaker 152 and the transfer characteristic between the far-end speaker 22 and the microphone 232. It is set.
- the filter coefficients of the transmission difference adjustment filters 143 and 144 are the positional relationship between the microphone 11 and the speakers 151 and 152 in the headset, the sound collecting directivity and the sound emitting directivity, and the speaker 22 and the microphones 231 and 232 in the robot 200. Can be estimated and calculated in advance from the difference between the positional relationship with the sound emission directivity and the sound collection directivity.
- the transmission difference adjustment filter 143 filters the collected sound signal S11 and outputs it to the filter 141.
- the filter 141 filters the collected sound signal S ⁇ b> 11 that has been subjected to the filter processing by the transmission difference adjustment filter 143, and outputs it to the speaker 151.
- the transmission difference adjustment filter 144 filters the collected sound signal S11 and outputs it to the filter 142.
- the filter 142 filters the collected sound signal S11 filtered by the transmission difference adjustment filter 144, and outputs it to the speaker 152.
- the near-end conversation device 10A can more faithfully reproduce the transfer characteristics of the far-end side sound field. Therefore, the near-end user can realize a more realistic conversation with the far-end user.
- a mode is shown in which the far-end side filter coefficient and the far-end side collected sound signal are communicated in combination, but the far-end side filter coefficient and the far-end side collected sound signal It may communicate by another route.
- the filter coefficient on the far end side may be received by the near end conversation device faster than the collected sound signal on the far end side.
- the remote conversation apparatus using only voice and the remote conversation system are shown, but the function of capturing an image on the far end side and the function of reproducing the image on the near end side Provides a more realistic conversation.
- the far-end side conversation apparatus 20 may be movable. In this case, filter processing according to the moved position is performed, and a conversation with a sense of reality can be realized according to each position.
- the aspect which has an individual function by the near-end side conversation apparatus and the far-end side conversation apparatus was shown.
- the functions of the near-end conversation device and the features of the far-end conversation device described above can be provided in one conversation device. Thereby, similar processing and effects can be realized on the near end side and the far end side.
- the present invention is not limited to a robot, and may be a stationary remote conversation device or a portable remote conversation device such as a portable communication terminal. Also, for example, it may be a mode including a microphone and a speaker provided in a predetermined housing, and may be a mode including a microphone and a speaker provided in a car, for example.
- the configuration of the portable remote conversation apparatus such as these portable communication terminals and the remote conversation apparatus installed in a car is not limited to the far-end remote conversation apparatus, but is applied to the near-end remote conversation apparatus. It is also possible.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】近端側の話者が遠端側において遠端側の話者と会話している感覚を、近端側において簡素な構成で実現する。 【解決手段】近端側会話装置10は、近端側のマイクロホン11、受信部13、近端側フィルタ14、および、近端側のスピーカ15を備える。近端側のマイクロホン11は、近端側の音声を取得し、収音信号を生成する。受信部13は、遠端側の音声信号を受信するとともに、遠端側の伝達特性を取得する。近端側フィルタ14は、伝達特性を用いて収音信号を調整する。近端側のスピーカ15は、遠端側の音声信号と調整後の収音信号とを放音する。
Description
本発明は、近端側と遠端側との間で通信を介した会話を行う遠隔会話装置、ヘッドセット、遠隔会話システム、および、遠隔会話方法に関する。
特許文献1、2には、遠端側(再現環境)の音場を近端側で再現する装置および方法が記載されている。特許文献1、2では、遠端側において、複数のスピーカと複数のマイクとを配置する。遠端側において、複数のスピーカで放音し、この音を複数のマイクで収音することで、遠端側の伝達特性を取得する。
特許文献1の装置および方法は、遠端側で得た収音信号を伝達係数によって調整し、ユーザを取り囲むように配置した複数のスピーカから放音する。
特許文献2の装置および方法は、ユーザを取り囲むように複数のマイクと複数のスピーカとを設置している。特許文献2の装置および方法は、ユーザを取り囲むように配置した複数のマイクでユーザの音声を収音する。特許文献2の装置および方法は、収音したユーザの音声を伝達係数を用いて調整し、ユーザを取り囲むように配置した複数のスピーカから放音する。
このように、特許文献1、2では、音場を再現できる程度の多くの数のマイクとスピーカとを予め設置し、伝達特性を取得している。また、特許文献1、2では、音場の再現時には、伝達特性の取得時と同じ数のスピーカを、伝達特性の取得時と同じ位置に配置している。
しかしながら、特許文献1、2に記載の装置および方法では、近端側と遠端側とで会話を行う場合に、近端側の話者が遠端側の話者と遠端側において会話している感覚を、容易な構成で実現できない。
したがって、本発明の目的は、近端側の話者が遠端側において遠端側の話者と会話している感覚を、近端側において簡素な構成で実現する遠隔会話装置、遠隔会話システム、および、遠隔会話方法を提供することにある。
この発明の遠隔会話装置は、近端側マイクロホン、伝達特性取得部、近端側フィルタ、および、近端側スピーカを備える。近端側マイクロホンは、近端側の音声を取得し、収音信号を生成する。伝達特性取得部は、遠端側の伝達特性を取得する。近端側フィルタは、伝達特性を用いて収音信号を調整する。近端側スピーカは、遠端側の音声信号と調整後の収音信号とを放音する。
この構成の遠隔会話装置、近端側と遠端側との会話を実現しながら、遠端側の伝達特性を用いて、近端側の収音信号を調整する。これにより、近端側の話者は、遠端側の話者の声とともに、遠端側の音響に応じた自分の声を聞ける。
この発明の遠隔会話装置は、近端側の話者が遠端側において遠端側の話者と会話している感覚を、近端側において簡素な構成で実現できる。
本発明の第1の実施形態に係る遠隔会話装置、遠隔会話方法、および、遠隔会話システムについて、図を参照して説明する。図1は、本発明の第1の実施形態に係る遠隔会話装置および遠隔会話システムの構成を示すブロック図である。図2は、近端側のマイクロホンとスピーカとの配置を示す図である。図3は、遠端側のマイクロホンとスピーカとの配置を示す図である。
図1に示すように、遠隔会話システム1は、近端側会話装置10と遠端側会話装置20とを備える。近端側会話装置10が本発明の「遠隔会話装置」に対応する。近端側会話装置10と遠端側会話装置20とは、無線または有線で通信を行う。なお、本発明で言う、遠隔会話とは、通常の会話に限るものではなく、遠隔地間の会議等、遠隔地間で音声のやり取りを行うものを含む。
近端側会話装置10は、マイクロホン11、送信部12、受信部13、近端側フィルタ14、および、スピーカ15を備える。近端側フィルタ14は、フィルタ141とフィルタ142とを備える。スピーカ15は、スピーカ151とスピーカ152とを有し、ステレオスピーカを構成している。送信部12、受信部13、および、近端側フィルタ14は、信号処理部B10を構成している。信号処理部B10は、送信部12、受信部13、および、近端側フィルタ14のそれぞれの機能を実行するIC等のハードウエアによって実現されている。
図2に示すように、マイクロホン11、スピーカ151、および、スピーカ152は、ヘッドセットを構成している。信号処理部B10は、ヘッドセットに装着されており、マイクロホン11、スピーカ151、および、スピーカ152に接続している。
マイクロホン11は、ヘッドセットの横方向の略中央位置で、且つ、上下方向の下側の位置に配置されている。マイクロホン11は、ヘッドセットの中央側に収音指向性の中心を向けて配置されている。
スピーカ151は、ヘッドセットの横方向の第1端に配置されており、スピーカ152は、ヘッドセットの横方向の第2端に配置されている。言い換えれば、スピーカ151とスピーカ152とは、マイクロホン11を通り上下方向に延びる直線を基準にして線対称の位置に配置されている。スピーカ151とスピーカ152は、ヘッドセットの中央側に放音指向性の中心を向けて配置されている。
近端側のユーザ91がヘッドセットを装着すると、マイクロホン11はユーザ91の口911の近くに配置される。これにより、ユーザ91が発声すると、マイクロホン11は、この音声を収音する。
スピーカ151は、ユーザ91に左耳915Lに装着され、スピーカ152は、ユーザ91の右耳915Rに装着される。これにより、ユーザ91は、スピーカ151から放音された音声を左耳915Lで聞き、スピーカ152から放音された音声を右耳915Rで聞くことができる。
信号処理部B10は、ヘッドセットに装着されており、マイクロホン11、スピーカ151、および、スピーカ152に接続している。
マイクロホン11は、ユーザ91の音声を収音して、収音信号S11を生成する。マイクロホン11は、収音信号S11を、近端側フィルタ14のフィルタ141、142と送信部12とに出力する。
送信部12は、収音信号S11を、通信信号S12に変換して、遠端側会話装置20の受信部21に送信する。
受信部13は、後述の遠端側会話装置20からの通信信号S25を受信する。受信部13は、通信信号S25から、放音信号S131、S132、フィルタ係数Co131、Co132を復調する。したがって、受信部13は、本発明の「伝達特性取得部」の機能を有する。受信部13は、放音信号S131をスピーカ151に出力し、放音信号S132をスピーカ152に出力する。受信部13は、フィルタ係数Co131をフィルタ141に出力し、フィルタ係数Co132をフィルタ142に出力する。
なお、詳細は後述するが、放音信号S131は、遠端側会話装置20のマイクロホン231で収音され、エコーキャンセラ241でエコーキャンセル処理された音声信号である。放音信号S132は、遠端側会話装置20のマイクロホン232で収音され、エコーキャンセラ242でエコーキャンセル処理された音声信号である。フィルタ係数Co131は、エコーキャンセラ241のフィルタ係数Co241と同じであり、フィルタ係数Co132は、エコーキャンセラ241のフィルタ係数Co242と同じである。これら、フィルタ係数Co131、Co132、Co241、Co242が、本発明の「伝達特性」に対応する。
フィルタ141は、フィルタ係数Co131を用いて、収音信号S11をフィルタ処理する。フィルタ141は、例えば、IIRフィルタによって構成されており、収音信号S11に対して、フィルタ係数Co131を用いた畳み込み演算を行うことによって、フィルタ処理を実行する。フィルタ141は、このフィルタ処理後の収音信号(調整後の収音信号)S141を、スピーカ151に出力する。
フィルタ142は、フィルタ係数Co132を用いて、収音信号S11をフィルタ処理する。フィルタ142は、例えば、IIRフィルタによって構成されており、収音信号S11に対して、フィルタ係数Co132を用いた畳み込み演算を行うことによって、フィルタ処理を実行する。フィルタ142は、このフィルタ処理後の収音信号(調整後の収音信号)S142を、スピーカ152に出力する。
このような処理を行うことによって、フィルタ処理後の収音信号S141、S142は、遠端側の音場の伝達特性に応じた音声信号となる。
スピーカ151は、放音信号S131とフィルタ処理後の収音信号S141とを放音する。スピーカ152は、放音信号S132とフィルタ処理後の収音信号S142とを放音する。
このように、近端側会話装置10を用いることによって、近端側のユーザ91は、遠端側の音場の伝達特性で自分の声を聞きながら、遠端側のユーザ92の音声を聞くことができる。したがって、近端側のユーザ91は、あたかも遠端側に居て、遠端側のユーザ92と会話しているような感覚、すなわち会話の臨場感を得ることができる。
そして、この構成を用いれば、近端側に1個のマイクロホンと2個のスピーカを備えればよく、遠端側の音場の伝達特性を実現するための大掛かりな構成を近端側に必要としない。したがって、簡素な構成で、離れた場所間での臨場感の有る会話を実現できる。
この際、遠端側会話装置20は、例えば、具体的に次の構成および処理を実現すればよい。
遠端側会話装置20は、受信部21、スピーカ22、マイクロホン231、マイクロホン232、遠端側フィルタ24、および、送信部25を備える。遠端側フィルタ24は、エコーキャンセラ241とエコーキャンセラ242とを備える。マイクロホン231とマイクロホン232とは、ステレオマイクを構成している。受信部21、遠端側フィルタ24、および、送信部25は、信号処理部B20を構成している。信号処理部B20は、受信部21、遠端側フィルタ24、および、送信部25のそれぞれの機能を実行するIC等のハードウエアによって実現されている。
図3に示すように、スピーカ22、マイクロホン231、マイクロホン232、および、信号処理部B20は、顔型のロボット200に実装されている。なお、必ずしも、顔型のロボット200である必要はなく、少なくとも、スピーカ22、マイクロホン231、および、マイクロホン232を所定の位置関係に保持できればよい。信号処理部B20は、スピーカ22、マイクロホン231、および、マイクロホン232に接続している。
スピーカ22は、ロボット200の横方向の略中央位置で、且つ、上下方向の下側の位置に配置されている。スピーカ22は、ロボット200の正面側に放音指向性の中心を向けて配置されている。
マイクロホン231は、ロボット200の横方向の第1端に配置されており、マイクロホン232は、ロボット200の横方向の第2端に配置されている。言い換えれば、マイクロホン231とマイクロホン232とは、スピーカ22を通り上下方向に延びる直線を基準にして線対称の位置に配置されている。マイクロホン231とマイクロホン232とは、ロボット200の正面側に収音指向性の中心を向けて配置されている。
すなわち、スピーカ22とマイクロホン231との位置関係は、近端側のマイクロホン11とスピーカ151との位置関係に対応している。さらに、スピーカ22とマイクロホン232との位置関係は、近端側のマイクロホン11とスピーカ152との位置関係に対応している。
受信部21は、近端側会話装置10の送信部12からの通信信号S12を受信し、遠端側放音信号S21を復調する。遠端側放音信号S21は、近端側の収音信号S11と同じ音声信号である。受信部21は、遠端側放音信号S21を、スピーカ22とエコーキャンセラ241、242とに出力する。スピーカ22は、遠端側放音信号S21を放音する。
マイクロホン231およびマイクロホン232は、遠端側のユーザ92の音声を収音する。この際、マイクロホン231は、音声エコーSE22Rを収音し、マイクロホン232は、音声エコーSE22Lを収音してしまう。
音声エコーSE22Rは、スピーカ22とマイクロホン231との位置関係、スピーカ22の放音指向性、マイクロホン231の収音指向性、および、遠端側の音響特性によって、特性が決まるエコーである。音声エコーSE22Lは、スピーカ22とマイクロホン232との位置関係、スピーカ22の放音指向性、マイクロホン232の収音指向性、および、遠端側の音響特性によって、特性が決まるエコーである。すなわち、音声エコーSE22R、音声エコーSE22Lは、遠端側の音場の伝達特性によって、特性が決定される。
マイクロホン231は、収音した音声およびエコーを含む収音信号S231を生成して、エコーキャンセラ241に出力する。マイクロホン232は、収音した音声およびエコーを含む収音信号S232を生成して、エコーキャンセラ242に出力する。
エコーキャンセラ241は、既知のエコーキャンセル技術を用いて、収音信号S231に対してエコーキャンセル処理を実行する。この処理によって、エコーキャンセラ241は、収音信号S231に含まれる音声エコーSE22Rを抑圧する。エコーキャンセラ241は、このエコーキャンセル後の収音信号S241を、送信部25に出力する。また、エコーキャンセラ241は、エコーキャンセル処理に利用したフィルタ係数Co241を送信部25に出力する。
エコーキャンセラ242は、既知のエコーキャンセル技術を用いて、収音信号S232に対してエコーキャンセル処理を実行する。この処理によって、エコーキャンセラ242は、収音信号S232に含まれる音声エコーSE22Lを抑圧する。エコーキャンセラ241は、このエコーキャンセル後の収音信号S242を、送信部25に出力する。
また、エコーキャンセラ242は、エコーキャンセル処理に利用したフィルタ係数Co242を送信部25に出力する。
送信部25は、収音信号S241、S242と、フィルタ係数Co241、Co241とを組にして、これらを通信信号S25に変換して、近端側会話装置10の受信部13に送信する。
この収音信号S241は、上述の近端側会話装置10の放音信号S131として復調され、収音信号S242は、上述の近端側会話装置10の放音信号S132として復調される。また、フィルタ係数Co241は、上述の近端側会話装置10のフィルタ係数Co131として復調され、フィルタ係数Co242は、上述の近端側会話装置10のフィルタ係数Co132として復調される。そして、上述した近端側会話装置10の処理が実行される。
このような構成の遠隔会話システム1を用いることによって、遠端側のユーザ92の音声は、エコーキャンセルされた鮮明な音声として、近端側のユーザ91に放音される。したがって、近端側のユーザ91は、あたかも遠端側に居て、遠端側のユーザ92と会話しているような会話の臨場感を得ながら、遠端側のユーザ92の音声を鮮明に聞き取ることができる。
そして、この構成を用いれば、遠端側に1個のスピーカと2個のマイクロホンを備えればよく、遠端側の音場の伝達特性を実現するための大掛かりな構成を遠端側にも必要としない。したがって、遠隔会話システム1としても、簡素な構成で、離れた場所間での臨場感の有る会話を実現できる。
また、この構成では、遠端側のエコーキャンセラ241のフィルタ係数Co241を、近端側のフィルタ141のフィルタ係数Co131として利用でき、遠端側のエコーキャンセラ242のフィルタ係数Co242を、近端側のフィルタ142のフィルタ係数Co132として利用できる。したがって、複雑な処理を行うことなく、離れた場所間での臨場感の有る会話を実現できる。
なお、フィルタ係数Co131は、フィルタ係数Co241と同じでなくてもよく、フィルタ係数Co241を基に設定されたものであってもよい。フィルタ係数Co132は、フィルタ係数Co242と同じでなくてもよく、フィルタ係数Co241を基に設定されたものであってもよい。
また、本実施形態では、フィルタ係数を用いて、近端側の収音信号S11を調整する態様を示したが、遠端の音場の伝達特性を表す数値であれば、フィルタ係数に代えて用いることができる。具体的には、インパルス応答そのものまたはインパルス応答に代用できるものであればよい。インパルス応答の場合、遠端側において、スピーカとマイクロホンを用いて、インパルス応答を測定し、当該インパルス応答を用いて、近端側で収音信号に対して畳み込み処理を行えばよい。
また、上述の説明では、1回の音声の送受信の場合を示した。しかしながら、会話を継続する際には、複数回の音声の送受信を行う。このように複数回の音声の送受信を行う場合には、送受信毎に遠端側会話装置20からフィルタ係数Co241、Co242を取得し、近端側会話装置10のフィルタ係数Co131、Co132を、この送受信に合わせて逐次的に更新すればよい。これにより、会話を行っている時間における遠端側の音場の伝達特性を、近端側において、さらに忠実に再現できる。したがって、近端側のユーザ91は、さらに臨場感の有る会話を実現できる。
この際、遠端側の音場の伝達特性として遠端側のフィルタ係数Co241、Co242を用いることによって、通信されるデータ量を小さくできる。これにより、近端側のフィルタ141、142におけるフィルタ処理の時間遅れを抑制できる。したがって、時間遅れを殆ど発生することなく、遠端側の音場の伝達特性を、近端側において再現でき、さらに臨場感の有る会話を実現できる。
上述の説明では、近端側会話装置10および遠隔会話システム1の処理のそれぞれを機能ブロック毎に実行する態様を示した。しかしながら、次のフローチャートに示す方法をプログラム化しておき、当該プログラムを、情報処理装置(例えばCPU)等の適切なハードウエアで実行することでも、上述の会話を実現できる。
図4は、本発明の第1の実施形態に係る近端側会話装置で実行する遠隔会話方法を示すフローチャートである。
近端側会話装置は、近端側のユーザの音声を収音し、収音信号を生成する(S101)。この処理は「近端側収音処理」に対応する。
近端側会話装置は、遠端側の伝達特性を取得する(S102)。この処理は「伝達特性取得処理」に対応する。遠端側の伝達特性の取得方法としては、例えば、図5に示す方法を用いればよい。図5は、伝達特性の取得方法を示すフローチャートである。
近端側会話装置は、近端側の収音信号を、遠端側会話装置に送信する(S201)。遠端側会話装置は、近端側の収音信号を放音する(S202)。この処理は「遠端側放音処理」に対応する。遠端側会話装置は、遠端側で収音して遠端側の収音信号を生成する。この処理は「遠端側収音処理」に対応する。遠端側会話装置は、近端側の収音信号に起因するエコーを抑圧するエコーキャンセル処理を実行する(S203)。この処理は「遠端側フィルタ処理」に対応する。遠端側会話装置は、エコーキャンセルのフィルタ係数を、近端側会話装置に送信する(S204)。近端側会話装置は、遠端側のフィルタ係数を受信し、遠端側の伝達特性とする(S205)。これらの処理により、近端側会話装置は、遠端側の伝達特性を取得できる。
近端側会話装置は、遠端側の伝達特性を用いて、ステップS101で取得した収音信号を調整する(S103)。この処理は「近端側フィルタ処理」に対応する。近端側会話装置は、調整後の収音信号を近端側で放音する(S104)。この処理は「近端側放音処理」に対応する。
このような遠隔会話方法を用いることによって、近端側のユーザは、遠端側の音場の伝達特性で自分の声を聞きながら、遠端側のユーザと臨場感のある会話を実現できる。
なお、上述の説明では、近端側において、1個のマイクロホンと2個のスピーカとが配置され、遠端側において、1個のスピーカと2個のマイクロホンとが配置される態様を示した。しかしながら、マイクロホンの個数とスピーカの個数とは、これに限るものではない。この際、マイクロホンの個数とスピーカの個数は、多すぎない方が好ましい。ただし、上述の説明のように、近端側において、スピーカを2個としてステレオスピーカを構成し、遠端側において、マイクロホンを2個としてステレオマイクロホンを構成することによって、マイクロホンの個数とスピーカの個数とを少なく抑えながら、臨場感を得ることができ、有効である。この場合、通信されるフィルタ係数が少なく、遠端側のフィルタ係数を近端側に高速に送信できる。したがって、近端側でのフィルタ係数を殆ど遅延させることなく設定でき、リアルタイム性が重要な遠隔会話システムにとっては、より有効である。
また、近端側のマイクロホンの個数と遠端側のスピーカの個数は同じであり、近端側のスピーカの個数と遠端側のマイクロホンの個数は同じであることが好ましい。さらに、近端側におけるマイクロホンに対するスピーカの配置と、遠端側におけるスピーカに対するマイクロホンの配置とは、同じであることが好ましい。これにより、遠端側のフィルタ係数は、近端側のフィルタ係数として容易に利用可能になる。したがって、近端側でのフィルタ係数の決定を速くでき、リアルタイム性が重要な遠隔会話システムにとっては、より有効である。
なお、近端側におけるマイクロホンに対するスピーカの配置と、遠端側におけるスピーカに対するマイクロホンの配置とが異なる場合には、次に示す第2の実施形態に係る構成を用いるとよい。
図6は、本発明の第2の実施形態に係る遠隔会話装置の構成を示すブロック図である。図6に示すように、第2の実施形態に係る近端側会話装置10Aは、第1の実施形態に係る近端側会話装置10に対して、近端側フィルタ14Aの構成において異なる。近端側会話装置10Aの他の構成は、近端側会話装置10と同様であり、同様の箇所の説明は省略する。
近端側フィルタ14Aは、フィルタ141、フィルタ142、伝達差調整フィルタ143、および、伝達差調整フィルタ144を備える。フィルタ141、フィルタ142は、第1の実施形態に係る近端側フィルタ14を構成するフィルタと同じである。
伝達差調整フィルタ143のフィルタ係数は、近端側のマイクロホン11とスピーカ151との伝達特性と、遠端側のスピーカ22とマイクロホン231との伝達特性との差を相殺する値に設定されている。
伝達差調整フィルタ144のフィルタ係数は、近端側のマイクロホン11とスピーカ152との間の伝達特性と、遠端側のスピーカ22とマイクロホン232との間の伝達特性との差を相殺する値に設定されている。
伝達差調整フィルタ143、144のフィルタ係数は、ヘッドセットにおけるマイクロホン11とスピーカ151、152との位置関係、収音指向性、および、放音指向性と、ロボット200におけるスピーカ22とマイクロホン231、232との位置関係、放音指向性、および、収音指向性との差から、予め推定算出できる。
伝達差調整フィルタ143は、収音信号S11をフィルタ処理し、フィルタ141に出力する。フィルタ141は、伝達差調整フィルタ143でフィルタ処理された収音信号S11をフィルタ処理し、スピーカ151に出力する。
伝達差調整フィルタ144は、収音信号S11をフィルタ処理し、フィルタ142に出力する。フィルタ142は、伝達差調整フィルタ144でフィルタ処理された収音信号S11をフィルタ処理し、スピーカ152に出力する。
このような構成および処理を行うことによって、近端側会話装置10Aは、遠端側の音場の伝達特性を更に忠実に再現できる。したがって、近端側のユーザは、遠端側のユーザとさらに臨場感のある会話を実現できる。
なお、上述の実施形態では遠端側のフィルタ係数と遠端側の収音信号とを組にして通信する態様を示したが、遠端側のフィルタ係数と遠端側の収音信号とを別の経路で通信してもよい。この場合、遠端側のフィルタ係数が、遠端側の収音信号よりも速く、近端側会話装置に受信されるようにすればよい。
また、上述の各実施形態では、音声のみを用いた遠隔会話装置、および、遠隔会話システムを示したが、遠端側に映像を撮影する機能を備え、近端側に当該映像を再生する機能を備えることによって、より臨場感のある会話を実現できる。
また、上述の各実施形態では、遠端側会話装置20が静止している態様を示したが、遠端側会話装置20は移動可能であってもよい。この場合、移動した位置に応じたフィルタ処理が実行され、それぞれの位置に応じて、臨場感のある会話を実現できる。
また、上述の各実施形態では、近端側会話装置と遠端側会話装置とで個別の機能を有する態様を示した。しかしながら、上述の近端側会話装置の機能と遠端側会話装置の機能とは、1個の会話装置に備えさせることも可能である。これにより、近端側と遠端側とで同様の処理および作用効果を実現できる。
また、上述の説明では、遠端側の遠隔会話装置としてロボット等を用いる態様を示した。しかしながら、ロボットに限らず、据え置き型の遠隔会話装置であってもよく、携帯通信端末等のポータブル型の遠隔会話装置であってもよい。また、例えば、所定の筐体に備え付けられたマイクロホンとスピーカを含む態様であってもよく、例えば、自動車に備え付けられたマイクロホンとスピーカを含む態様であってもよい。
また、これらの携帯通信端末等のポータブル型の遠隔会話装置、自動車に備え付けられた遠隔会話装置の構成は、遠端側の遠隔会話装置に限るものではなく、近端側の遠隔会話装置に適用することも可能である。
1:遠隔会話システム
10、10A:近端側会話装置
11:マイクロホン
12:送信部
13:受信部
14、14A:近端側フィルタ
15:スピーカ
20:遠端側会話装置
21:受信部
22:スピーカ
24:遠端側フィルタ
25:送信部
91、92:ユーザ
141、142:フィルタ
143、144:伝達差調整フィルタ
151、152:スピーカ
200:ロボット
231、232:マイクロホン
241:Co
241:エコーキャンセラ
242:Co
242:エコーキャンセラ
911:口
915L:左耳
915R:右耳
B10、B20:信号処理部
Co131、Co132:フィルタ係数
Co241、Co242:フィルタ係数
S11:収音信号
S12:通信信号
S131:放音信号
S132:放音信号
S141:収音信号
S142:収音信号
S21:遠端側放音信号
S231:収音信号
S232:収音信号
S241:収音信号
S242:収音信号
S25:通信信号
SE22L:音声エコー
SE22R:音声エコー
10、10A:近端側会話装置
11:マイクロホン
12:送信部
13:受信部
14、14A:近端側フィルタ
15:スピーカ
20:遠端側会話装置
21:受信部
22:スピーカ
24:遠端側フィルタ
25:送信部
91、92:ユーザ
141、142:フィルタ
143、144:伝達差調整フィルタ
151、152:スピーカ
200:ロボット
231、232:マイクロホン
241:Co
241:エコーキャンセラ
242:Co
242:エコーキャンセラ
911:口
915L:左耳
915R:右耳
B10、B20:信号処理部
Co131、Co132:フィルタ係数
Co241、Co242:フィルタ係数
S11:収音信号
S12:通信信号
S131:放音信号
S132:放音信号
S141:収音信号
S142:収音信号
S21:遠端側放音信号
S231:収音信号
S232:収音信号
S241:収音信号
S242:収音信号
S25:通信信号
SE22L:音声エコー
SE22R:音声エコー
Claims (11)
- 近端側の音声を取得し、収音信号を生成する近端側のマイクロホンと、
遠端側の伝達特性を取得する伝達特性取得部と、
前記伝達特性を用いて前記収音信号を調整する近端側フィルタと、
前記遠端側の音声信号と調整後の前記収音信号とを放音する近端側のスピーカと、
を備える、
遠隔会話装置。 - 前記伝達特性取得部は、逐次的に前記伝達特性を取得し、
前記近端側フィルタは、前記逐次的に取得した前記伝達特性を用いて、前記収音信号を調整する、
請求項1に記載の遠隔会話装置。 - 前記近端側のフィルタは、
前記近端側のスピーカから前記近端側のマイクロホンに回り込む前記遠端側の前記収音信号を前記近端側の音声信号から抑圧して、抑圧後の近端側の音声信号とフィルタ係数とを出力する、
請求項1または請求項2に記載の遠隔会話装置。 - 近端側の収音信号を放音する遠端側のスピーカと、
前記遠端側で収音し、前記遠端側の音声信号を生成する遠端側のマイクロホンと、
前記遠端側のスピーカから前記遠端側のマイクロホンに回り込む前記近端側の前記収音信号を前記遠端側の音声信号から抑圧して、抑圧後の遠端側の音声信号とフィルタ係数とを出力する遠端側フィルタと、
を備える、
遠隔会話装置。 - 請求項1乃至請求項3のいずれかに記載の遠隔会話装置の構成を備え、
前記近端側のスピーカは、
右用スピーカと左用スピーカとを備えるステレオスピーカであり、
前記近端側のスピーカと前記近端側のマイクロホンとが所定の位置関係で固定されている、
ヘッドセット。 - 請求項1乃至請求項3のいずれかに記載の遠隔会話装置と、前記遠端側に配置され、前記遠隔会話装置と通信する遠端側会話装置と、を備え、
前記遠端側会話装置は、
前記近端側の前記収音信号を放音する遠端側のスピーカと、
前記遠端側で収音し、前記遠端側の音声信号を生成する遠端側のマイクロホンと、
前記遠端側のスピーカから前記遠端側のマイクロホンに回り込む前記近端側の前記収音信号を前記遠端側の音声信号から抑圧する遠端側フィルタと、
を備え、
前記伝達特性は、前記遠端側フィルタのフィルタ係数である、
遠隔会話システム。 - 前記近端側フィルタは、
前記近端側の前記収音信号に対して前記フィルタ係数を用いた畳み込み演算を行うことで、前記近端側の前記収音信号を調整する、
請求項6に記載の遠隔会話システム。 - 前記遠端側会話装置は、
前記遠端側の音声信号と前記フィルタ係数とを組にして前記遠隔会話装置に送信する、
請求項6または請求項7に記載の遠隔会話システム。 - 前記近端側のスピーカは、第1のスピーカと第2のスピーカを有し、
前記第1のスピーカと前記第2のスピーカとの組は、ステレオスピーカを構成しており、
前記遠端側のマイクロホンは、第1のマイクロホンと第2のマイクロホンとを有し、
前記第1のマイクロホンと前記第2のマイクロホンとの組は、ステレオマイクを構成しており、
前記第1のマイクロホンに対応する前記伝達特性は、前記第1のスピーカで放音される前記収音信号に用いられ、
前記第2のマイクロホンに対応する前記伝達特性は、前記第2のスピーカで放音される前記収音信号に用いられている、
請求項6乃至請求項8のいずれかに記載の遠隔会話システム。 - 前記第1のスピーカと前記第2のスピーカとは、前記近端側のマイクロホンの位置を通り上下方向に延びる直線を挟んで、当該直線における互いに異なる側に配置されており、
前記第1のマイクロホンと前記第2のマイクロホンとは、前記遠端側のスピーカの位置を通り上下方向に延びる直線を挟んで、当該直線における互いに異なる側に配置されている、
請求項9に記載の遠隔会話システム。 - 近端側の音声を収音して、収音信号を生成する近端側収音処理と、
遠端側の伝達特性を取得する伝達特性取得処理と、
前記伝達特性を用いて前記収音信号を調整する近端側フィルタ処理と、
前記遠端側の音声信号と調整後の前記収音信号とを近端側のスピーカから放音する近端側放音処理と、
を行う、遠隔会話方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/024887 WO2019008733A1 (ja) | 2017-07-07 | 2017-07-07 | 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法 |
JP2019528292A JP6977772B2 (ja) | 2017-07-07 | 2017-07-07 | 音声処理方法、音声処理装置、ヘッドセット、および、遠隔会話システム |
US16/720,687 US11259116B2 (en) | 2017-07-07 | 2019-12-19 | Sound processing method, remote conversation method, sound processing device, remote conversation device, headset, and remote conversation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/024887 WO2019008733A1 (ja) | 2017-07-07 | 2017-07-07 | 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US16/720,687 Continuation US11259116B2 (en) | 2017-07-07 | 2019-12-19 | Sound processing method, remote conversation method, sound processing device, remote conversation device, headset, and remote conversation system |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019008733A1 true WO2019008733A1 (ja) | 2019-01-10 |
Family
ID=64949798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/024887 WO2019008733A1 (ja) | 2017-07-07 | 2017-07-07 | 遠隔会話装置、ヘッドセット、遠隔会話システム、遠隔会話方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11259116B2 (ja) |
JP (1) | JP6977772B2 (ja) |
WO (1) | WO2019008733A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005033771A (ja) * | 2003-06-16 | 2005-02-03 | Matsushita Electric Ind Co Ltd | エコーキャンセル装置、エコーキャンセル方法および記録媒体 |
JP2011176638A (ja) * | 2010-02-24 | 2011-09-08 | Panasonic Corp | 通信端末及び通信方法 |
JP2012524434A (ja) * | 2009-04-15 | 2012-10-11 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音響エコー抑制ユニットと会議開催フロントエンド |
WO2012160778A1 (ja) * | 2011-05-20 | 2012-11-29 | パナソニック株式会社 | 通話機 |
JP2016502779A (ja) * | 2012-10-23 | 2016-01-28 | インタラクティブ・インテリジェンス・インコーポレイテッド | 音響エコー除去のためのシステムおよび方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008227775A (ja) * | 2007-03-12 | 2008-09-25 | Sanyo Electric Co Ltd | 通信端末装置 |
JP5245884B2 (ja) * | 2009-02-06 | 2013-07-24 | ヤマハ株式会社 | 音声通信システム及び音声通信装置 |
US9094496B2 (en) * | 2010-06-18 | 2015-07-28 | Avaya Inc. | System and method for stereophonic acoustic echo cancellation |
JP2012094945A (ja) * | 2010-10-25 | 2012-05-17 | Hitachi Ltd | 音声通信システム、及び、音声通信装置 |
JP5538249B2 (ja) * | 2011-01-20 | 2014-07-02 | 日本電信電話株式会社 | ステレオヘッドセット |
JP6064159B2 (ja) | 2011-07-11 | 2017-01-25 | パナソニックIpマネジメント株式会社 | エコーキャンセル装置、それを用いた会議システム、およびエコーキャンセル方法 |
JP5620350B2 (ja) * | 2011-09-05 | 2014-11-05 | 日本電信電話株式会社 | 場内拡声方法、場内拡声装置とそのプログラム |
WO2014069112A1 (ja) | 2012-11-02 | 2014-05-08 | ソニー株式会社 | 信号処理装置、信号処理方法 |
EP2916567B1 (en) | 2012-11-02 | 2020-02-19 | Sony Corporation | Signal processing device and signal processing method |
US9445196B2 (en) * | 2013-07-24 | 2016-09-13 | Mh Acoustics Llc | Inter-channel coherence reduction for stereophonic and multichannel acoustic echo cancellation |
US9426300B2 (en) * | 2013-09-27 | 2016-08-23 | Dolby Laboratories Licensing Corporation | Matching reverberation in teleconferencing environments |
-
2017
- 2017-07-07 WO PCT/JP2017/024887 patent/WO2019008733A1/ja active Application Filing
- 2017-07-07 JP JP2019528292A patent/JP6977772B2/ja active Active
-
2019
- 2019-12-19 US US16/720,687 patent/US11259116B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005033771A (ja) * | 2003-06-16 | 2005-02-03 | Matsushita Electric Ind Co Ltd | エコーキャンセル装置、エコーキャンセル方法および記録媒体 |
JP2012524434A (ja) * | 2009-04-15 | 2012-10-11 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 音響エコー抑制ユニットと会議開催フロントエンド |
JP2011176638A (ja) * | 2010-02-24 | 2011-09-08 | Panasonic Corp | 通信端末及び通信方法 |
WO2012160778A1 (ja) * | 2011-05-20 | 2012-11-29 | パナソニック株式会社 | 通話機 |
JP2016502779A (ja) * | 2012-10-23 | 2016-01-28 | インタラクティブ・インテリジェンス・インコーポレイテッド | 音響エコー除去のためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019008733A1 (ja) | 2020-07-09 |
US20200128323A1 (en) | 2020-04-23 |
US11259116B2 (en) | 2022-02-22 |
JP6977772B2 (ja) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10327071B2 (en) | Head-wearable hearing device | |
US9955250B2 (en) | Low-latency multi-driver adaptive noise canceling (ANC) system for a personal audio device | |
US11037544B2 (en) | Sound output device, sound output method, and sound output system | |
JP6573624B2 (ja) | 周波数依存側音較正 | |
US20150063584A1 (en) | Assisting Conversation | |
KR20100022492A (ko) | 음성 신호 처리 장치 및 지연 시간의 설정 방법 | |
US9542957B2 (en) | Procedure and mechanism for controlling and using voice communication | |
CN109688513A (zh) | 无线主动降噪耳机及双主动降噪耳机通话数据处理方法 | |
US8923530B2 (en) | Speakerphone feedback attenuation | |
JP5151352B2 (ja) | 放収音装置 | |
JP5417821B2 (ja) | 音声信号再生装置、携帯電話端末 | |
JP5538249B2 (ja) | ステレオヘッドセット | |
JP6977772B2 (ja) | 音声処理方法、音声処理装置、ヘッドセット、および、遠隔会話システム | |
CN113038315A (zh) | 一种语音信号处理方法及装置 | |
CN218788831U (zh) | 耳机与基于耳机的组网通信系统 | |
JP7565529B2 (ja) | ヘッドセットおよび通話用マイクの指向性制御方法 | |
CN101534358A (zh) | 具有立体声效果的网络通话系统 | |
CN115705848A (zh) | 一种降噪方法、设备及存储介质 | |
ES2572747T3 (es) | Bloque de audio | |
WO2019082330A1 (ja) | イヤフォンマイク |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17917120 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019528292 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17917120 Country of ref document: EP Kind code of ref document: A1 |