WO2019106914A1 - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2019106914A1
WO2019106914A1 PCT/JP2018/034411 JP2018034411W WO2019106914A1 WO 2019106914 A1 WO2019106914 A1 WO 2019106914A1 JP 2018034411 W JP2018034411 W JP 2018034411W WO 2019106914 A1 WO2019106914 A1 WO 2019106914A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
transfer characteristic
sound
signal processing
signal
Prior art date
Application number
PCT/JP2018/034411
Other languages
English (en)
French (fr)
Inventor
和也 立石
高橋 秀介
高橋 晃
和樹 落合
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/766,284 priority Critical patent/US11270718B2/en
Publication of WO2019106914A1 publication Critical patent/WO2019106914A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Definitions

  • the present disclosure relates to a signal processing device, a signal processing method, and a program.
  • an echo canceller control system capable of immediately following the correction of the transfer characteristic of the echo path even when connecting to any connection destination and suppressing the echo immediately after the start of a call (for example, Patent Document 1) reference).
  • an echo canceller control system is disclosed that shortens the initial convergence time by setting a filter coefficient approximately equal to the transfer characteristic of the echo path to the initial value of the echo canceller.
  • the estimated transfer characteristic in a space until the reproduction signal from the speaker is input to the microphone is learned, and an echo cancellation unit that performs echo cancellation based on the learned estimated transfer characteristic, and an environmental change is detected.
  • a signal processing device comprising: an environmental change detection unit, wherein the echo cancellation unit causes the speaker to reproduce a learning sound based on the detection of the environmental change to learn the estimated transfer characteristic.
  • learning of an estimated transfer characteristic in a space until a reproduction signal from a speaker is input to the microphone performing echo cancellation based on the learned estimated transfer characteristic, and detecting an environmental change.
  • the processor causes the speaker to reproduce a learning sound based on the detection of the environmental change to learn the estimated transfer characteristic.
  • an echo cancellation unit that learns the estimated transfer characteristic in a space until the reproduction signal from the speaker is input to the microphone, and performs echo cancellation based on the learned estimated transfer characteristic, and a computer
  • the echo cancellation unit functions as a signal processing device for causing the speaker to reproduce the learning sound based on the detection of the environment change and learning the estimated transfer characteristic
  • an echo cancellation technology that can flexibly cope with environmental changes.
  • the above-mentioned effects are not necessarily limited, and, along with or in place of the above-mentioned effects, any of the effects shown in the present specification, or other effects that can be grasped from the present specification May be played.
  • a plurality of components having substantially the same or similar functional configurations may be distinguished by attaching different numerals after the same reference numerals. However, when it is not necessary to distinguish each of a plurality of components having substantially the same or similar functional configuration, only the same reference numeral is given. Also, similar components in different embodiments may be distinguished by attaching different alphabets after the same reference numerals. However, when it is not necessary to distinguish each of similar components in particular, only the same reference numeral is attached.
  • the echo canceller can not learn unless it produces a sound at a sufficient volume from the speaker of its own device, and during a period of insufficient learning, the sound emitted by the user is superimposed on the sound emitted by the user. If the voice emitted by the user is used for a call with the other party due to the phenomenon (double talk), it is possible to transmit a difficult sound to the other party. Alternatively, when the voice emitted by the user is used for voice recognition, the voice recognition rate is extremely reduced.
  • the transfer characteristic of space is estimated from the sound reproduced from the speaker of the own device and the sound looped around and input to the microphone, and the transfer characteristic is learned sequentially. Cancel the echo. At this time, the signal input to the microphone is separated on the frequency axis by fast Fourier transform, and echo cancellation is performed for each frequency.
  • the speaker of the own device when it is determined from the magnitude of the error signal that is a signal processed by the echo canceller that the learning of the transfer characteristic of the environment is insufficient, the speaker of the own device is used for learning. Play the sound of and automatically learn the estimated transfer characteristics. At this time, learning may be performed for each frequency band. Then, it is possible to reproduce the time sound until the learning is completed only in the frequency band where the learning of the estimated transfer characteristic is required.
  • FIG. 1 is a diagram illustrating an exemplary configuration of an information processing system according to an embodiment of the present disclosure.
  • the information processing system 1 has a user terminal 10-1 and a user terminal 10-2.
  • the user terminal 10-1 can be used by the user U1.
  • the user terminal 10-2 can be used by the user U2.
  • the user terminal 10-1 and the user terminal 10-2 are connected to the network 90, and are configured to be able to communicate with each other via the network 90.
  • the user terminal 10-1 and the user terminal 10-2 are used for a call between the user U1 and the user U2. That is, the voice uttered by the user U1 is transmitted from the user terminal 10-1 to the user terminal 10-2, and the voice uttered by the user U2 is transmitted from the user terminal 10-2 to the user terminal 10-1 . At this time, it is assumed that a sound in which echo cancellation is performed on the sound input to the microphone is transmitted to the other terminal.
  • the configuration example of the information processing system 1 is not limited to such an example.
  • the information processing system according to the embodiment of the present disclosure may be configured such that the sound emitted by the user U1 is used for the content being reproduced by the user terminal 10-1.
  • a sound in which echo cancellation is performed on the sound input to the microphone of the user terminal 10-1 is input to the speech recognizer, and the result of the speech recognition is input to the reproduction content. That is, the information processing system may not include the user terminal 10-2 (the user U2 may not exist either).
  • the user terminal 10-1 and the user terminal 10-2 are PCs (Personal Computers).
  • the user terminal 10-1 and the user terminal 10-2 are not limited to the PC.
  • at least a part of the user terminal 10-1 and the user terminal 10-2 may be a mobile phone, a tablet terminal, a smartphone, or a head mounted display. It may be a camera.
  • the other party with the user U1 may be an AI speaker or the like.
  • the response by the user U2 may be replaced by a response by artificial intelligence.
  • Each of the user terminal 10-1 and the user terminal 10-2 can function as a signal processing device.
  • FIG. 2 is a diagram showing an example of a functional configuration of the user terminal 10.
  • the user terminal 10 includes an input unit 110, a microphone (sound collection unit) 120, a sensor unit 130, a control unit 140, a storage unit 150, a communication unit 160, a speaker (sound output unit) 170 and an output. It has a portion 180.
  • these functional blocks included in the user terminal 10 will be described.
  • the input unit 110 has a function of receiving an input of an operation by the user.
  • the input unit 110 includes a mouse and a keyboard.
  • the input unit 110 may include a touch panel, a button, a switch, a lever, and the like.
  • the input unit 110 may include a microphone for detecting the voice of the user.
  • the microphone 120 can function as an example of a sound collection unit.
  • the microphone 120 detects ambient sound (the ambient sound is input to the microphone 120).
  • the sound input to the microphone 120 includes the sound reproduced by the speaker 170 and may also include an utterance by the user. Also, the sound detected by the microphone 120 may include noise and the like. Echo cancellation is applied to the sound input to the microphone 120.
  • the sound input to the microphone 120 is also used to learn the estimated transfer characteristic.
  • sensing data by the sensor unit 130 includes data (image) sensed by a camera (for example, RGB camera, Depth camera, polarization camera, etc.) and data (infrared rays) sensed by an infrared sensor.
  • a camera for example, RGB camera, Depth camera, polarization camera, etc.
  • data infrared rays
  • sensing data by the sensor unit 130 may be sensed by at least one of a camera, an infrared sensor, an ultrasonic sensor, an acceleration sensor, a gyro sensor, a laser sensor, a vibration sensor, and a GPS (Global Positioning System) sensor. .
  • the control unit 140 may be configured by, for example, a processing device such as one or more CPUs (central processing units). When these blocks are configured by a processing unit such as a CPU, the processing unit may be configured by an electronic circuit. The control unit 140 can be realized by executing a program by such a processing device. Here, the detailed configuration of the control unit 140 will be described.
  • the storage unit 150 is configured to include a memory, and is a recording medium that stores a program executed by the control unit 140 and stores data necessary for the execution of the program. In addition, the storage unit 150 temporarily stores data for the calculation by the control unit 140.
  • the storage unit 150 is configured of a magnetic storage device, a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the communication unit 160 includes a communication circuit, and has a function of communicating with another device via the network 90.
  • the communication unit 160 has a function of acquiring data from the other device and providing data to the other device.
  • the communication unit 160 is configured by a communication interface.
  • a voice recognition engine or an agent dialogue application on the cloud may be used by the control unit 140 described above. At this time, the speech recognition engine and the dialogue application may be present inside the device (user terminal 10) without passing through the communication circuit.
  • the speaker 170 can function as an example of a sound output unit.
  • the speaker 170 is a far-end speaker (for example, in the example shown in FIG. 1, the user U2 is a far-end speaker for the user U1, and the user U1 is a far-end speaker for the user U2.
  • the user terminal 10 reproduces the content (audio signal) reproduced by the user terminal 10 and the sound generated by the user's own user terminal 10. The sound reproduced by the speaker 170 is perceived by the user's hearing.
  • the output unit 180 outputs various types of information.
  • the output unit 180 may include a display capable of providing a display visible to the user.
  • the display may be a liquid crystal display, an organic EL (Electro-Luminescence) display, or a projector capable of projecting on a wall or the like.
  • the output unit 180 may be a light such as a light-emitting diode (LED).
  • the user terminal 10 may not have the output unit 180 when there is no need to display information.
  • the input unit 110, the microphone 120, the sensor unit 130, the storage unit 150, the communication unit 160, the speaker 170, and the output unit 180 exist inside the user terminal 10. .
  • at least one of the input unit 110, the microphone 120, the sensor unit 130, the storage unit 150, the communication unit 160, the speaker 170, and the output unit 180 may be present outside the user terminal 10.
  • FIG. 3 is a diagram illustrating a detailed configuration example of the control unit 140A according to the first embodiment of the present disclosure.
  • the control unit 140A according to the first embodiment of the present disclosure includes an audio signal generation unit 141, an echo canceller (echo cancellation unit) 142, and an environmental change detection unit 143.
  • the audio signal generation unit 141 uses the signal provided by the far-end speaker (for example, when the control unit 140A shown in FIG. 3 is present in the user terminal 10-1 of the user U1, the user U2). Based on this, a signal reproduced from the speaker (speaker reproduction signal) is generated.
  • the echo canceller 142 performs echo cancellation based on the speaker reproduction signal and the signal (microphone input signal) input to the microphone, and provides the processed signal to the far-end speaker. Specifically, the estimated transfer characteristic in the space until the speaker reproduction signal is input to the microphone is learned, and echo cancellation is performed based on the learned estimated transfer characteristic.
  • the echo canceller 142 causes the speaker to reproduce the learning sound based on the detection of the environmental change by the environmental change detection unit 143 to learn the estimated transfer characteristic.
  • the environmental change detection unit 143 detects an environmental change. More specifically, the environmental change detection unit 143 detects an environmental change based on detection data (environmental information) related to the environment. In the embodiment of the present disclosure, it is mainly assumed that such detection data is sensing data.
  • the environmental change detection unit 143 is based on the signal processed by the echo canceller 142 and sensing data (for example, an image sensed by a camera and an infrared sensed by an infrared sensor). , To detect environmental changes.
  • sensing data may be obtained by other sensors.
  • the environmental change may be detected based on data notifying the environmental change (for example, a notification of the environmental change may be received from a user or an external device).
  • FIG. 4 is a diagram for explaining the basic operation of the echo canceller 142.
  • a signal reproduced from the speaker 170 in a certain time frame n is a reference signal x (n)
  • x (n) is input to the microphone 120 through space after coming out of the speaker 170.
  • the space transfer characteristic h until x (n) reaches the microphone 120 as the microphone input signal d (n) is unknown.
  • the echo canceller 142 estimates the unknown transfer characteristic h and realizes echo cancellation by subtracting the reference signal in consideration of the estimated transfer characteristic from the microphone input signal d (n).
  • the estimated transfer characteristic is w.
  • the speaker reproduction signal that reaches the microphone 120 includes a component that directly reaches from the speaker 170 and may also include a component that has a certain time delay such as being reflected back to a wall or the like. Therefore, when the delay time to be a target in the past is expressed as the tap length L, the speaker reproduction signal x (n) and the estimated transfer characteristic w are expressed as in (Expression 1) below.
  • FIG. 5 is a diagram for explaining the concept of estimated transfer characteristics.
  • the echo canceller 142 estimates N number of frequency bins actually subjected to fast Fourier transform for the time frame n.
  • H represents hermitian transposition
  • * represents a complex conjugate
  • is a step size for determining the learning speed, and any value of 0 ⁇ ⁇ 2 is usually selected as the value of ⁇ .
  • the echo canceller 142 obtains an error signal e (k, n) by subtracting an estimated wraparound signal obtained from the reference signal of tap length L in which the estimated transfer characteristic is convoluted from the microphone input signal.
  • w is sequentially updated so that the average power (for example, the root mean square value) of the error signal e (k, n) is minimized.
  • NLMS Normalized LMS
  • APA Affine Projection Algorithm
  • RLS Recursive least square
  • FIG. 6 is a diagram showing a state of erroneous learning of the estimated transfer characteristic.
  • the speech s (n) by the near-end speaker and the noise n (n) emitted by the television device are also input to the microphone 120.
  • FIG. 7 is a diagram showing an example of the reference signal x (n), the microphone input signal d (n) and the error signal e (n) when the learning period of the estimated transfer characteristic is not provided.
  • FIG. 8 shows the reference signal x (n), the microphone input signal d (n) and the error signal e (n) when the learning period of the estimated transfer characteristic is provided (especially when white noise is reproduced from the speaker).
  • the horizontal axis is a time axis.
  • a large signal fluctuation immediately after the start of measurement in the reference signal x (n) and the microphone input signal d (n) corresponds to the white noise reproduction period.
  • the echo canceller 142 has information of both the microphone input signal d (n) and the error signal e (n) after the echo cancellation processing. Therefore, the echo canceller 142 can calculate how much the echo is canceled for each frequency band when the echo cancellation converges. This index is called ERLE (Echo Return Loss Enhancement) and is expressed by the following (Equation 3).
  • Equation (3) E [] represents an expected value, and y (k, n) is an estimated wraparound signal obtained by multiplying the complex conjugate of the estimated transfer characteristic w by x.
  • E [] represents an expected value
  • y (k, n) is an estimated wraparound signal obtained by multiplying the complex conjugate of the estimated transfer characteristic w by x.
  • the environmental change detection unit 143 can capture the environmental change of the space by ERLE. Specifically, when the ERLE is lower than a predetermined threshold, the environmental change detection unit 143 may detect that the ERLE is lower than a predetermined threshold as the environmental change.
  • ERLE may similarly decrease during double talk. Therefore, in the embodiment of the present disclosure, it is assumed that sensing data by a sensor such as a camera or an infrared sensor is used in addition to ERLE in order to accurately capture an environmental change. In this case, when the value based on the sensing data becomes larger than the predetermined threshold, it can be detected as the environmental change that the value based on the sensing data is larger than the predetermined threshold.
  • both ERLE and sensing data do not necessarily have to be used for detection of environmental change, and only one of ERLE and sensing data may be used for detection of environmental change.
  • the echo canceller 142 automatically detects an environmental change based on at least one of the information from the ERLE, an image sensed by a camera, and an infrared ray sensed by an infrared sensor by the environmental change detection unit 143.
  • the learning sound is reproduced from the speaker 170 to learn the estimated transfer characteristic.
  • a frequency band may not appear that does not contain a sufficient signal for learning depending on the type of sound source. It may happen that learning does not progress quickly even if a learning sound is output from the speaker. Therefore, as the learning sound, it is necessary to select or generate a sound including a sufficient signal in a frequency band to be learned in advance (a frequency band requiring learning).
  • the same sound may not always be constantly output as a learning sound. That is, the learning sound may have a rhythm or scale like normal music. In such a case, convergence of the estimated transfer characteristic is awaited by reproducing the learning sound for a longer time than when white noise is used as the learning sound.
  • the echo canceller 142 may finish the reproduction of the learning sound by the speaker 170 when it is determined that the estimated transfer characteristic has sufficiently converged.
  • the method by which the estimated transfer characteristic is determined to be sufficiently converged by the echo canceller 142 is not particularly limited.
  • ERLE becomes a stable high value
  • the average mobility of w of the estimated transfer characteristic update equation becomes smaller than a predetermined value
  • the estimated transfer characteristic of the estimated transfer characteristics update equation by the average mobility of w becomes smaller than a predetermined value. May be determined to have converged sufficiently.
  • FIG. 9 is a diagram showing an example of the average value of the estimated transfer characteristic w.
  • the root mean square value of the norm of the estimated transfer characteristic w is used as an example of the average value of the estimated transfer characteristic w.
  • FIG. 10 is a diagram showing the state of the temporal change of the square mean value of the norm of the estimated transfer characteristic w together with the change of the error signal.
  • the mobility of the mean square value of the norm of the estimated transfer characteristic w decreases with time. At this time, it may be determined that the estimated transfer characteristics have sufficiently converged because the mobility of the root mean square of the estimated transfer characteristics w becomes smaller than a predetermined value.
  • the environmental change detection unit 143 may detect that learning of the estimated transfer characteristic is insufficient as an environmental change. At this time, the environmental change detection unit 143 detects that the echo cancellation amount (ERLE) based on the estimated transfer characteristic learned by the echo canceller 142 is lower than a predetermined threshold value as the learning of the estimated transfer characteristic is insufficient. You may
  • a learning sound (speaker reproduction sound source) having a signal in a frequency band in which the estimated transfer characteristic is desired to be learned (a frequency band requiring learning) is prepared in advance.
  • the estimated transfer characteristics of the specific frequency band by the echo canceller 142 can be learned by causing the speaker 170 to reproduce the learning sound (speaker reproduction sound source) by the echo canceller 142.
  • FIGS. 11 to 13 show temporal changes in the waveform and frequency spectrum of the error signal for each sound source.
  • a, b and c indicate three different types of sound sources.
  • _t following a, b, c indicates the temporal change of the waveform of the error signal for each sound source
  • _f indicates the temporal change of the frequency spectrum for each sound source.
  • a is a sound source close to white noise including signal components in the entire frequency band.
  • b is a sound source having a small number of signals in the high band and low band and having many signal components in the middle band.
  • c is a sound source in which many signal components gather in the low band.
  • the echo canceller 142 prepares such a sound source in advance, and when it is determined that the learning of the estimated transfer characteristic in the middle band is insufficient, adopts the sound source b and estimates the low band. If it is determined that the learning of the transfer characteristic is insufficient, the sound source of c is adopted, and the adopted sound source is reproduced from the speaker 170 to perform automatic learning. As described above, by selecting the optimum sound source according to the learning state for each frequency band of the estimated transfer characteristic, it is possible to avoid the reproduction of white noise that makes the user uncomfortable.
  • the learning sound may be a sound including a signal of a predetermined frequency band for which the estimated transfer characteristic is to be learned by the echo canceller 142.
  • a signal of a predetermined frequency band may be determined based on the amount of echo cancellation for each frequency band.
  • Other embodiments relating to sound including a signal of a predetermined frequency band whose estimated transfer characteristic is to be learned by the echo canceller 142 will be described in the second embodiment of the present disclosure.
  • FIG. 14 is a flowchart showing the overall flow of processing of the user terminal 10 according to the first embodiment of the present disclosure.
  • the environment change detection unit 143 determines the necessity of learning (learning necessity or not) (S11).
  • the environmental change detection unit 143 determines the necessity (learning necessity or not) of learning for each frequency band based on information such as an echo cancellation amount, an image sensed by a camera, and infrared rays sensed by an infrared sensor. .
  • the echo canceller 142 shifts the operation to S11.
  • the environment change detection unit 143 determines that learning is necessary (“Yes” in S12)
  • the echo canceller 142 determines a frequency band that requires learning (S13).
  • the audio signal generation unit 141 generates a sound source including many components of the frequency band necessary for learning (S14), and the echo canceller 142 reproduces the generated sound source from the speaker 170 to learn estimated transfer characteristics.
  • S15 the overall processing of the user terminal 10 is ended.
  • FIG. 15 is a flowchart showing the flow of details of the learning necessity determination S11.
  • the environmental change detection unit 143 checks the ERLE while the sound is being reproduced by the speaker 170 (S111). If the environmental change detection unit 143 acquires an image sensed by a camera when ERLE is lower than a threshold (S112), whether there is a movement in the arrangement of people or furniture depending on whether or not the image has a predetermined level of change It is determined whether or not it is (S113).
  • the infrared rays sensed by the infrared sensor instead of the image or in addition to the image may be used for such determination.
  • ERLE may decrease. In such a case, ERLE is expected to return to a large value again by ending the speech or stopping the noise source, and since the space transfer characteristic itself has not changed, the environmental change detection unit 143 It is determined that learning is unnecessary (S117).
  • the environmental change detection unit 143 may monitor ERLE, and may determine that learning is necessary if a state where ERLE is lower than a predetermined threshold continues for a predetermined time (“Yes” in S115) ( S118). On the other hand, the environment change detection unit 143 may shift the operation to S111 if the state in which ERLE is lower than the predetermined threshold does not continue for a predetermined time (“No” in S115).
  • the sound for learning may be automatically reproduced from the speaker 170 immediately every time, or the user may feel bothersome. Therefore, even if it is determined that the learning is necessary, the timing at which the learning is actually performed may be selectable by the user or the user terminal 10.
  • the echo canceller 142 may notify the user via the output unit 180 that the learning of the estimated transfer characteristic is insufficient. At this time, the echo canceller 142 may cause the speaker 170 to reproduce the learning sound when an environmental change is detected and an instruction to reproduce the learning sound is received.
  • Second embodiment> Hereinafter, a second embodiment of the present disclosure will be described.
  • the learning sound of the estimated transfer characteristic (speaker reproduction sound source) is selected from among several candidates in accordance with the internal state.
  • the sound source is prepared in advance, it is not necessarily the sound source preferred by the user.
  • a mechanism will be described in which a sound source tailored to the user's preference is used for automatic learning with reference to user information.
  • FIG. 16 is a diagram illustrating a detailed configuration example of the control unit 140B according to the second embodiment of the present disclosure.
  • the control unit 140B according to the second embodiment of the present disclosure includes an audio signal generation unit 141, an echo canceller (echo controller, and the like as the control unit 140A according to the first embodiment of the present disclosure.
  • a cancellation unit 142 and an environmental change detection unit 143 are provided.
  • the control unit 140B according to the second embodiment of the present disclosure includes a user information acquisition unit 144.
  • the genre of music (songs) that the user normally reproduces using the user terminal 10 equipped with the echo canceller 142, tunes (melody lines etc.), tempo, volume (reproduction)
  • the storage unit 150 stores user information such as volume) for each playback time zone. As a result, by pre-associating music corresponding to user information, information indicating music that matches the user's preference may be acquired by the user information acquisition unit 144.
  • FIG. 17 is a diagram showing an example of user information.
  • User information may be configured, as shown in FIG.
  • the individual who uses the user terminal 10 can be specified by the log-in state of the user to the application provided in the user terminal 10, personal recognition based on the image sensed by the camera, personal identification by voice operation, etc.
  • User information can also be held for each user.
  • the environmental change detection unit 143 determines which frequency band needs to be mainly learned, and an audio signal
  • the generation unit 141 generates a speaker reproduction sound source that matches the user's preference (or is close to the preference) and is suitable for automatic learning of the echo canceller 142 in combination with the user information acquired in advance by the user information acquisition unit 144. Do.
  • the audio signal generator 141 may generate a sound source including many low frequencies.
  • FIG. 18 is a diagram showing an example of types of frequency bands for which estimated transfer characteristics should be learned.
  • the type of frequency band to be learned for the estimated transfer characteristic specific frequency, plural frequencies, low band, middle band, high band, middle band or less, middle band or more, low band + high band, etc. Can be mentioned.
  • the type of frequency band to be learned, as well as user information (FIG. 17) can have many variations.
  • the method of determining what kind of sound source should be reproduced is not limited for each combination of the type of frequency band to be learned and user information.
  • the melody line or speed of a song that matches the user's preference may be determined in advance based on user information, and the frequency band of the song may be controlled by changing the selected instrument.
  • an automatic generator such as machine learning may be used to determine what sound source to play.
  • the sound including the signal of the predetermined frequency band for which the estimated transfer characteristic is to be learned by the echo canceller 142 may be a sound including a song according to the preference of the user.
  • the sound including a signal in a predetermined frequency band may be a sound including a song selected from one or more songs prepared in advance according to the preference of the user, or the preference of the user It may be a sound including a song generated by speech synthesis according to.
  • the sound including the signal of the predetermined frequency band for which the estimated transfer characteristic is to be learned by the echo canceller 142 may be a sound including the tune reproduced from the speaker based on the operation of the user. Further, the sound including the signal of the predetermined frequency band for which the estimated transfer characteristic is to be learned by the echo canceller 142 may be a sound including the sound generated by the speech synthesis.
  • FIG. 19 is a flow chart showing an overall process flow of the user terminal 10 according to the second embodiment of the present disclosure.
  • S11 to S13 are executed in the user terminal 10 as in the first embodiment of the present disclosure.
  • the user information acquisition unit 144 searches for user information, and acquires information such as tunes and genres that match (or are close to) preference of the user. These pieces of information are used for sound source generation in S14.
  • FIG. 20 is a block diagram showing an example of the hardware configuration of the signal processing device 10 according to the embodiment of the present disclosure.
  • the signal processing device 10 includes a central processing unit (CPU) 901, a read only memory (ROM) 903, and a random access memory (RAM) 905.
  • the signal processing device 10 may also include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the signal processing device 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the signal processing apparatus 10 may have a processing circuit such as a digital signal processor (DSP) or an application specific integrated circuit (ASIC) in place of or in addition to the CPU 901.
  • DSP digital signal processor
  • ASIC application specific integrated circuit
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation or a part of the signal processing unit 10 according to various programs recorded in the ROM 903, the RAM 905, the storage unit 919 or the removable recording medium 927.
  • the ROM 903 stores programs used by the CPU 901, calculation parameters, and the like.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that appropriately change in the execution, and the like.
  • the CPU 901, the ROM 903 and the RAM 905 are mutually connected by a host bus 907 configured by an internal bus such as a CPU bus. Furthermore, the host bus 907 is connected to an external bus 911 such as a peripheral component interconnect / interface (PCI) bus via the bridge 909.
  • PCI peripheral component interconnect / interface
  • the input device 915 is, for example, a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone corresponding to the operation of the signal processing device 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the generated signal to the CPU 901.
  • the user operates the input device 915 to input various data to the signal processing device 10 or to instruct processing operations.
  • an imaging device 933 described later can also function as an input device by imaging the movement of the user's hand, the finger of the user, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is configured of a device capable of visually or aurally notifying the user of the acquired information.
  • the output device 917 is, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a display device such as a projector, a display device of a hologram, a sound output device such as a speaker and headphones, And a printer device.
  • the output device 917 outputs the result obtained by the processing of the signal processing device 10 as an image such as text or an image or outputs it as an audio such as sound or sound.
  • the output device 917 may include a light such as a light-emitting diode (LED).
  • LED light-emitting diode
  • the storage device 919 is a device for data storage configured as an example of a storage unit of the signal processing device 10.
  • the storage device 919 is configured of, for example, a magnetic storage unit device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the signal processing apparatus 10.
  • the drive 921 reads out the information recorded in the mounted removable recording medium 927 and outputs it to the RAM 905.
  • the drive 921 also writes a record on the attached removable recording medium 927.
  • connection port 923 is a port for directly connecting a device to the signal processing device 10.
  • the connection port 923 may be, for example, a Universal Serial Bus (USB) port, an IEEE 1394 port, a Small Computer System Interface (SCSI) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, a high-definition multimedia interface (HDMI (registered trademark)) port, or the like.
  • HDMI registered trademark
  • the communication device 925 is, for example, a communication interface configured of a communication device or the like for connecting to the communication network 931.
  • the communication device 925 may be, for example, a communication card for a wired or wireless Local Area Network (LAN), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for Asymmetric Digital Subscriber Line (ADSL), or a modem for various types of communication.
  • the communication device 925 transmits and receives signals and the like to and from the Internet or another communication device using a predetermined protocol such as TCP / IP.
  • a communication network 931 connected to the communication device 925 is a network connected by wire or wireless, and is, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like.
  • the imaging device 933 uses various members such as an imaging device such as a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS), and a lens for controlling the formation of an object image on the imaging device. It is an apparatus which images real space and generates a captured image.
  • the imaging device 933 may capture a still image, or may capture a moving image.
  • the sensor 935 is, for example, various sensors such as a distance measuring sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a vibration sensor, an optical sensor, and a sound sensor.
  • the sensor 935 acquires information on the surrounding environment of the signal processing apparatus 10, such as information on the state of the signal processing apparatus 10 itself, such as the attitude of the housing of the signal processing apparatus 10, and brightness and noise around the signal processing apparatus 10, for example. Do.
  • the sensor 935 may also include a GPS sensor that receives a Global Positioning System (GPS) signal and measures the latitude, longitude and altitude of the device.
  • GPS Global Positioning System
  • the device automatically holds the information indicating the music that the user normally plays, etc. in advance, and automatically generates a tone generator sound source that matches the user's taste that contains many frequency components that require learning. You can enjoy the effect of alleviating the discomfort of the sound generated by Furthermore, if the reproduction sound source is changed each time according to user information and a frequency band of poor performance of the echo canceller, it is difficult to give the user an impression of automatic adjustment of a simple device.
  • Example> An example of the embodiment of the present disclosure described above will be described. For example, if the arrangement of furniture in the room changes, things are placed near the device, etc., the transfer characteristic between the speaker and the microphone changes, and if the amount of echo cancellation decreases, the device automatically plays music and echoes The correction starts so that the canceller works well.
  • the performance of the speech canceller and the performance of the speech recognition deteriorate because the performance of the echo canceller is insufficient.
  • a change in one's position can be detected from information such as a camera image, and a change in the environment can be recognized.
  • a sound source capable of learning the entire frequency band can be prepared, and a poor frequency band can be detected while reproducing from the speaker to change the sound source halfway.
  • a program for causing hardware such as a CPU, a ROM, and a RAM built into a computer to exhibit the same function as the function of the control unit 140 described above can be created.
  • a computer readable recording medium having the program recorded thereon may also be provided.
  • the audio signal generation unit 141, the echo cancellation unit 142, and the environment change detection unit 143 are incorporated in the user terminal (signal processing device) 10 has been mainly described. However, some of these functions may be incorporated in an apparatus different from the user terminal (signal processing apparatus) 10.
  • the audio signal generation unit 141 may be incorporated in an apparatus (for example, a server or the like) different from the user terminal (signal processing apparatus) 10.
  • An echo cancellation unit that learns an estimated transfer characteristic in a space until a reproduction signal from a speaker is input to the microphone, and performs echo cancellation based on the learned estimated transfer characteristic;
  • An environmental change detection unit that detects environmental changes; The echo cancellation unit causes the speaker to reproduce a learning sound based on the detection of the environmental change to learn the estimated transfer characteristic.
  • Signal processor (2)
  • the environmental change detection unit detects, as the environmental change, that learning of the estimated transfer characteristic is insufficient.
  • the signal processing device according to (1).
  • the environment change detection unit detects that the amount of echo cancellation based on the estimated transfer characteristic learned by the echo cancellation unit is lower than a predetermined threshold value as the learning of the estimated transfer characteristic is insufficient.
  • the signal processing device according to (2).
  • the environmental change detection unit detects the environmental change based on detection data related to the environment.
  • the signal processing apparatus according to any one of (1) to (3).
  • the detection data includes data notifying sensing of the environmental change or sensing data.
  • the sensing data is sensed by at least one of a camera, an infrared sensor, an ultrasonic sensor, an acceleration sensor, a gyro sensor, a laser sensor, a vibration sensor, and a GPS sensor.
  • the echo cancellation unit learns the estimated transfer characteristic for each frequency band.
  • the signal processing device according to any one of the above (1) to (6).
  • the learning sound is white noise, The signal processing apparatus according to any one of the above (1) to (7).
  • the learning sound is a sound including a signal of a predetermined frequency band for which the estimated transfer characteristic is to be learned by the echo cancellation unit.
  • the signal processing apparatus according to any one of the above (1) to (7).
  • the signal of the predetermined frequency band is determined based on an echo cancellation amount for each frequency band, The signal processing device according to (9).
  • the sound including the signal of the predetermined frequency band is a sound including a song according to the preference of the user, The signal processing device according to (9) or (10).
  • the sound including the signal of the predetermined frequency band is a sound including a song selected from one or more songs prepared in advance according to the preference of the user.
  • the signal processing device (11).
  • the sound including the signal of the predetermined frequency band is a sound including a song generated by voice synthesis according to the preference of the user.
  • the sound including the signal of the predetermined frequency band is a sound including a song reproduced from the speaker based on a user operation.
  • the sound including the signal of the predetermined frequency band is a sound including a sound generated by speech synthesis,
  • the signal processing device includes an audio signal generation unit that generates the learning sound.
  • the signal processing apparatus according to any one of (1) to (15).
  • the echo cancellation unit detects that the learning of the estimated transfer characteristic is insufficient, the echo cancellation unit notifies the user that the learning of the estimated transfer characteristic is insufficient through an output unit.
  • the signal processing device according to any one of the above (1) to (16).
  • the echo cancellation unit causes the speaker to reproduce the learning sound based on the detection of the environmental change and a reproduction instruction of the learning sound.
  • the signal processing device according to any one of the above (1) to (17). (19) Learning an estimated transfer characteristic in a space until a reproduction signal from a speaker is input to the microphone, and performing echo cancellation based on the learned estimated transfer characteristic; Detecting environmental changes, and Causing the processor to reproduce a learning sound on the speaker based on the detection of the environmental change to learn the estimated transfer characteristic. Signal processing method.
  • Reference Signs List 90 network 110 input unit 120 microphone 130 sensor unit 140 control unit 141 audio signal generation unit 142 echo canceller (echo cancellation unit) 143 environment change detection unit 144 user information acquisition unit 150 storage unit 160 communication unit 170 speaker 180 output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

【課題】環境変化に対して柔軟に対応可能なエコーキャンセル技術が提供されることが望ましい。 【解決手段】スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、環境変化を検出する環境変化検出部と、を備え、前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、信号処理装置が提供される。

Description

信号処理装置、信号処理方法およびプログラム
 本開示は、信号処理装置、信号処理方法およびプログラムに関する。
 近年、エコーキャンセルを行う技術として様々な技術が開示されている。例えば、任意の接続先に接続してもエコー経路の伝達特性の追随修正を速やかに行い、通話開始直後のエコーを抑圧することができるエコーキャンセラ制御システムが開示されている(例えば、特許文献1参照)。具体的には、エコーキャンセラの初期値にエコー経路の伝達特性にほぼ等しいフィルタ係数を設定することにより、初期収束時間を短くするエコーキャンセラ制御システムが開示されている。
 かかる技術においては、通話中にフィルタ係数が推定誤りを起こしたときに、保存しているフィルタ係数を転送することにより、知覚するエコーが継続する時間を短くするように構成されている。
特開2005-236596号公報
 しかし、部屋に家具が置かれた場合などといった環境変化が起きた場合に、空間における伝達特性も変化し得るが、かかる伝達特性の変化に柔軟に対応するのは困難であるのが一般的である。したがって、環境変化に対して柔軟に対応可能なエコーキャンセル技術が提供されることが望ましい。
 本開示によれば、スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、環境変化を検出する環境変化検出部と、を備え、前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、信号処理装置が提供される。
 本開示によれば、スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うことと、環境変化を検出することと、を含み、プロセッサにより、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習することを含む、信号処理方法が提供される。
 本開示によれば、コンピュータを、スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、環境変化を検出する環境変化検出部と、を備え、前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、信号処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、環境変化に対して柔軟に対応可能なエコーキャンセル技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係るユーザ端末の機能構成例を示す図である。 本開示の第1の実施形態に係る制御部の詳細構成例を示す図である。 エコーキャンセラの基本動作を説明するための図である。 推定伝達特性の概念を説明するための図である。 推定伝達特性の誤学習の様子を示す図である。 推定伝達特性の学習期間を設けない場合における参照信号、マイク入力信号および誤差信号の例を示す図である。 推定伝達特性の学習期間を設けた場合(特にホワイトノイズをスピーカから再生した場合)における参照信号、マイク入力信号および誤差信号の例を示す図である。 推定伝達特性の平均値の例を示す図である。 推定伝達特性のノルムの2乗平均値の時間変化の様子を誤差信号の変化とともに示した図である。 ある音源に対する誤差信号の波形および周波数スペクトルそれぞれの時間変化を示す図である。 他の音源に対する誤差信号の波形および周波数スペクトルそれぞれの時間変化を示す図である。 他の音源に対する誤差信号の波形および周波数スペクトルそれぞれの時間変化を示す図である。 本開示の第1の実施形態に係るユーザ端末の全体的な処理の流れを示すフローチャートである。 学習要否判定の詳細の流れを示すフローチャートである。 本開示の第2の実施形態に係る制御部の詳細構成例を示す図である。 ユーザ情報の例を示す図である。 推定伝達特性を学習すべき周波数帯域の種類の例を示す図である。 本開示の第2の実施形態に係るユーザ端末の全体的な処理の流れを示すフローチャートである。 本開示の実施形態に係る信号処理装置のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、類似する構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 1.概要
 2.実施形態の詳細
  2.1.システム構成例
  2.2.ユーザ端末の機能構成例
 3.第1の実施形態
  3.1.エコーキャンセラの動作
  3.2.推定伝達特性の自動学習
  3.3.学習用の音の選択
  3.4.全体の流れ
 4.第2の実施形態
  4.1.学習用の音の自動生成
  4.2.全体の流れ
 5.ハードウェア構成例
 6.むすび
 7.実施例
 <1.概要>
 まず、本開示の実施形態の概要について説明する。エコーキャンセラ技術が必要な製品が置かれる場所、部屋の大きさ、家具や壁の材質などはユーザにより様々である。したがって、自機器のスピーカから再生される音(以下、「音源」とも言う。)がその空間をどのように伝達して自機器のマイクロフォン(以下、単に「マイク」とも言う。)に到達するかを逐次的に学習しながらエコーを消去する必要がある。
 エコーキャンセラはその特徴から、必ず自機器のスピーカから十分な音量で音を出さなければ学習ができず、学習が不十分である期間は、ユーザが発する音声に自機器の再生する音が重なってしまう現象(ダブルトーク)によって、ユーザが発する音声が相手との通話に利用される場合には、相手に聞き取りづらい音を送信してしまうことになる。あるいは、ユーザが発する音声が音声認識に利用される場合には、極端に音声認識率が低下してしまう。
 これを回避するために、機器の初期設定時などに伝達特性推定用の音を一定時間再生し、推定伝達特性を学習させる機能を有する製品が存在する。しかし、一度学習が完了しても、その後家具の配置が変わったり、カーテンの開け閉めが行われたり、人の動きが生じたりしても、空間の伝達特性は変わり得る。そのため、環境変化が起きるたびに伝達特性の推定に時間がかかり、その時間は通話品質や音声認識率が低下してしまう。
 また、初期設定時などにおける学習時にある周波数帯域に定常的な雑音が鳴っていると、その周波数帯域の伝達特性は十分に学習ができず、初期設定時における学習だけでは性能が出しきれない可能性がある。
 そこで、本開示の実施形態においては、自機器のスピーカから再生された音と当該音が回り込んでマイクに入力された音から空間の伝達特性を推定し、逐次的に伝達特性を学習してエコーを消去する。このとき、マイクに入力された信号は高速フーリエ変換により周波数軸上に分離され、周波数ごとにエコーキャンセルが行われる。
 また、本開示の実施形態においては、エコーキャンセラによる処理後の信号である誤差信号の大きさから、その環境の伝達特性の学習が不十分だと判定された場合、自機器のスピーカから学習用の音を再生し、推定伝達特性の学習を自動で行う。このとき、学習は周波数帯域ごとに行われてよい。そうすれば、推定伝達特性の学習が必要な周波数帯域のみ、学習が完了するまでの時間音を再生することができる。
 さらに、推定伝達特性の学習にはスピーカから十分な音量で学習用の音を再生する必要があるが、特定の周波数の音だけの再生は、ユーザにとって不快と感じる可能性がある。なおかつ、推定伝達特性の学習が不十分かどうかは機器の内部状態であるため、ユーザには分かりづらく、いつ学習用の音が再生されるかも把握しづらい。そのため、本開示の実施形態においては、ユーザの操作に基づいて日頃再生される音楽などの趣味を把握しておき、ユーザの趣味に合う音楽、かつ、推定伝達特性の学習に必要な周波数帯域の音を十分に含んだ音楽を、選択もしくは生成してスピーカから再生する。
 以上、本開示の実施形態の概要について説明した。
 <2.実施形態の詳細>
 以下、本開示の実施形態の詳細について説明する。
 [2.1.システム構成例]
 まず、本開示の実施形態に係る情報処理システムの構成例について説明する。
 図1は、本開示の実施形態に係る情報処理システムの構成例を示す図である。図1に示すように、情報処理システム1は、ユーザ端末10-1およびユーザ端末10-2を有している。ユーザ端末10-1は、ユーザU1によって利用され得る。また、ユーザ端末10-2は、ユーザU2によって利用され得る。ユーザ端末10-1およびユーザ端末10-2は、ネットワーク90に接続されており、ネットワーク90を介して相互に通信可能に構成されている。
 本開示の実施形態においては、ユーザU1とユーザU2との通話にユーザ端末10-1およびユーザ端末10-2が利用される場合を想定する。すなわち、ユーザU1による発せられた音声は、ユーザ端末10-1からユーザ端末10-2に送信され、ユーザU2による発せられた音声は、ユーザ端末10-2からユーザ端末10-1に送信される。このとき、マイクに入力された音声に対してエコーキャンセルが施された音が相手端末に送信される場合を想定する。
 しかし、情報処理システム1の構成例は、かかる例に限定されない。例えば、本開示の実施形態に係る情報処理システムは、ユーザU1によって発せられた音声が、ユーザ端末10-1によって再生されているコンテンツに利用されるような形態であってもよい。かかる場合には、ユーザ端末10-1のマイクに入力された音声に対してエコーキャンセルが施された音が、音声認識器に入力され、音声認識の結果が再生コンテンツに入力される。すなわち、情報処理システムには、ユーザ端末10-2が含まれなくてもよい(ユーザU2も存在しなくてよい)。
 また、本開示の実施形態においては、ユーザ端末10-1およびユーザ端末10-2がPC(Personal Computer)である場合を主に想定する。しかし、ユーザ端末10-1およびユーザ端末10-2はPCに限定されない。例えば、ユーザ端末10-1およびユーザ端末10-2の少なくとも一部は、携帯電話であってもよいし、タブレット端末であってもよいし、スマートフォンであってもよいし、ヘッドマウントディスプレイであってもよいし、カメラであってもよい。その他、ユーザU1との通話相手は、AIスピーカなどであってもよい。このとき、ユーザU2による応答は、人工知能による応答に置き換わり得る。ユーザ端末10-1およびユーザ端末10-2それぞれは、信号処理装置として機能し得る。
 以上、本開示の実施形態に係る情報処理システム1の構成例について説明した。
 [2.2.ユーザ端末の機能構成例]
 続いて、ユーザ端末10の機能構成例について説明する。
 図2は、ユーザ端末10の機能構成例を示す図である。図2に示したように、ユーザ端末10は、入力部110、マイクロフォン(集音部)120、センサ部130、制御部140、記憶部150、通信部160、スピーカ(音出力部)170および出力部180を有している。以下、ユーザ端末10が備えるこれらの機能ブロックについて説明する。
 入力部110は、ユーザによる操作の入力を受け付ける機能を有する。本開示の実施形態においては、入力部110が、マウスおよびキーボードを含む場合を主に想定する。しかし、入力部110は、タッチパネルを含んでもよいし、ボタンを含んでもよいし、スイッチを含んでもよいし、レバーなどを含んでもよい。また、入力部110は、ユーザの音声を検出するマイクロフォンを含んでもよい。
 マイクロフォン120は、集音部の一例として機能し得る。マイクロフォン120は、周囲の音を検出する(マイクロフォン120には周囲の音が入力される)。マイクロフォン120に入力される音には、スピーカ170によって再生された音が含まれる他、ユーザによる発話が含まれ得る。また、マイクロフォン120によって検出される音には、雑音なども含まれ得る。マイクロフォン120に入力される音には、エコーキャンセルが施される。また、マイクロフォン120に入力される音は、推定伝達特性の学習にも利用される。
 センサ部130は、環境をセンシングすることによってセンシングデータを得る。本開示の実施形態では、センサ部130によるセンシングデータが、カメラ(例えば、RGBカメラ、Depthカメラ、偏光カメラなど)によってセンシングされたデータ(画像)および赤外線センサによってセンシングされたデータ(赤外線)を含む場合を主に想定する。しかし、センサ部130によるセンシングデータは、カメラ、赤外線センサ、超音波センサ、加速度センサ、ジャイロセンサ、レーザセンサ、振動センサおよびGPS(Global Positioning System)センサの少なくともいずれか一つによってセンシングされてもよい。
 制御部140は、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などといった処理装置によって構成されてよい。これらのブロックがCPUなどといった処理装置によって構成される場合、かかる処理装置は電子回路によって構成されてよい。制御部140は、かかる処理装置によってプログラムが実行されることによって実現され得る。ここで、制御部140の詳細な構成について説明する。
 記憶部150は、メモリを含んで構成され、制御部140によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部150は、制御部140による演算のためにデータを一時的に記憶する。例えば、記憶部150は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスにより構成される。
 通信部160は、通信回路を含んで構成され、ネットワーク90を介して他の装置との間で通信を行う機能を有する。例えば、通信部160は、当該他の装置からのデータの取得および当該他の装置へのデータの提供を行う機能を有する。例えば、通信部160は、通信インターフェースにより構成される。なお、上記した制御部140によって、音声認識エンジンやクラウド上のエージェント対話アプリケーションなども利用され得る。このとき、音声認識エンジンや対話アプリケーションは、通信回路を通さず、機器(ユーザ端末10)の内部に存在してもよい。
 スピーカ170は、音出力部の例として機能し得る。具体的に、スピーカ170は、遠端話者(例えば、図1に示された例では、ユーザU1にとってユーザU2が遠端話者であり、ユーザU2にとってユーザU1が遠端話者である。)のユーザ端末10によって再生されたコンテンツ(オーディオ信号)と、ユーザ自身のユーザ端末10において生成された音とを再生する。スピーカ170によって再生された音は、ユーザの聴覚によって知覚される。
 出力部180は、各種の情報を出力する。例えば、出力部180は、ユーザに視認可能な表示を行うことが可能なディスプレイを含んでよい。このとき、ディスプレイは、液晶ディスプレイであってもよいし、有機EL(Electro-Luminescence)ディスプレイであってもよいし、壁などに投影できるプロジェクタであってもよい。あるいは、出力部180は、LED(light-emitting diode)などのライトであってもよい。なお、情報表示の必要がない場合などには、ユーザ端末10は、出力部180を有していなくてもよい。
 なお、本開示の実施形態においては、入力部110、マイクロフォン120、センサ部130、記憶部150、通信部160、スピーカ170および出力部180がユーザ端末10の内部に存在する場合を主に想定する。しかし、入力部110、マイクロフォン120、センサ部130、記憶部150、通信部160、スピーカ170および出力部180の少なくともいずれか一つは、ユーザ端末10の外部に存在していてもよい。
 以上、本開示の実施形態に係るユーザ端末10の機能構成例について説明した。
 <3.第1の実施形態>
 以下、本開示の第1の実施形態について説明する。図3は、本開示の第1の実施形態に係る制御部140Aの詳細構成例を示す図である。図3に示されるように、本開示の第1の実施形態に係る制御部140Aは、オーディオ信号生成部141、エコーキャンセラ(エコーキャンセル部)142および環境変化検出部143を有する。
 オーディオ信号生成部141は、遠端話者(例えば、図3に示された制御部140AがユーザU1のユーザ端末10-1の内部に存在する場合には、ユーザU2)から提供された信号に基づいて、スピーカから再生される信号(スピーカ再生信号)を生成する。
 エコーキャンセラ142は、スピーカ再生信号とマイクに入力された信号(マイク入力信号)とに基づいてエコーキャンセルを行い、処理後の信号を遠端話者に提供する。具体的に、スピーカ再生信号がマイクに入力されるまでの空間における推定伝達特性を学習し、学習した推定伝達特性に基づいてエコーキャンセルを行う。エコーキャンセラ142は、環境変化検出部143による環境変化の検出に基づいて学習用の音をスピーカに再生させて推定伝達特性を学習する。
 環境変化検出部143は、環境変化を検出する。より具体的に、環境変化検出部143は、環境に関する検出データ(環境情報)に基づいて環境変化を検出する。本開示の実施形態では、かかる検出データがセンシングデータである場合を主に想定する。
 一例として、本開示の実施形態では、環境変化検出部143が、エコーキャンセラ142による処理後の信号およびセンシングデータ(例えば、カメラによってセンシングされた画像および赤外線センサによってセンシングされた赤外線など)に基づいて、環境変化を検出する。しかし、センシングデータは、他のセンサによって得られてもよい。また、センシングデータの代わりに、環境変化を通知するデータに基づいて、環境変化を検出してもよい(例えば、ユーザまたは外部装置から環境変化の通知を受けてもよい)。
 以下では、各ブロックの機能についてより詳細に説明する。
 (3.1.エコーキャンセラの動作)
 図4を参照しながら、エコーキャンセラ142の基本動作を説明する。図4は、エコーキャンセラ142の基本動作を説明するための図である。ある時間フレームnにおいてスピーカ170から再生される信号を参照信号x(n)とすると、x(n)はスピーカ170から出た後、空間を通してマイクロフォン120に入力される。x(n)がマイク入力信号d(n)としてマイクロフォン120に到達するまでの空間伝達特性hは未知である。エコーキャンセラ142は、この未知の伝達特性hを推定し、マイク入力信号d(n)からこの推定伝達特性を考慮した参照信号を差し引くことでエコーキャンセルを実現する。
 ここで、推定伝達特性をwとする。マイクロフォン120に到達するスピーカ再生信号には、スピーカ170から直接届く成分も含まれる他、壁などに反射して戻ってくるような、ある程度時間遅れを持った成分も含まれ得る。そのため、過去の対象とする遅延時間をタップ長Lと表現した場合、スピーカ再生信号x(n)および推定伝達特性wは、下記の(数式1)のように表現される。
Figure JPOXMLDOC01-appb-M000001
 ここで、Tは転置を表す。図5は、推定伝達特性の概念を説明するための図である。エコーキャンセラ142は、実際には時間フレームnに対して高速フーリエ変換した周波数ビン数N個の推定を行う。エコーキャンセラ142による周波数k(k=1~N)番目のエコーキャンセルの処理は、一般的なLMS(Least Mean Square)法を用いた場合、下記の(数式2)に示されたように実行される。
Figure JPOXMLDOC01-appb-M000002
 (数式2)において、Hはエルミート転置を表し、*は複素共役を表す。μは学習速度を決定するステップサイズであり、μの値としては、通常0<μ≦2のいずれかの値が選択される。エコーキャンセラ142は、マイク入力信号から推定伝達特性を畳み込まれたタップ長L個分の参照信号から得られる推定回り込み信号を差し引くことで誤差信号e(k,n)を得る。LMS法ではこの誤差信号e(k,n)の平均パワー(例えば、2乗平均値)が最小になるようにwを逐次的に更新していく。
 エコーキャンセル処理には、LMS法の他に、更新式の参照信号を正規化したNLMS(Normalized LMS)、APA(Affine Projection Algorithm)、RLS(Recursive least square)などの手法が提供され得る。いずれの手法においても参照信号xが存在しなければ推定伝達特性を学習することができない。
 なお、マイク入力信号に近端話者の発話や突発的に発生した雑音などが含まれてしまった場合などには、これらも学習に利用されてしまうため、推定伝達特性の学習が精度よく行われないという現象(ダブルトーク)が生じてしまう可能性がある。図6は、推定伝達特性の誤学習の様子を示す図である。図6に示された例では、近端話者による発話s(n)、テレビジョン装置によって発せられた雑音n(n)もマイクロフォン120に入力されてしまっている。このような場合には、推定伝達特性の誤学習回避のために、少なくともs(n)やn(n)がなくなってから学習されるのが望ましい。
 (3.2.推定伝達特性の自動学習)
 ここで、エコーキャンセラ142の性能を十分に発揮するための推定伝達特性の学習にはある程度の時間がかかり、かつ、その収束速度は再生する音源に依存する。周波数帯域ごとに伝達特性の推定を行うエコーキャンセラ142において、最も速くすべての周波数帯域の伝達特性を推定するためには、全周波数帯域の信号が含まれたホワイトノイズが適している。
 図7は、推定伝達特性の学習期間を設けない場合における参照信号x(n)、マイク入力信号d(n)および誤差信号e(n)の例を示す図である。一方、図8は、推定伝達特性の学習期間を設けた場合(特にホワイトノイズをスピーカから再生した場合)における参照信号x(n)、マイク入力信号d(n)および誤差信号e(n)の例を示す図である。図7に示された例および図8に示された例ともに、横軸は時間軸である。図8に示された例において、参照信号x(n)およびマイク入力信号d(n)における測定開始直後の大きな信号の揺れは、ホワイトノイズの再生期間に該当する。
 図8を参照すると、誤差信号e(n)の抑圧量が時間経過とともに増えていることがわかる。これは、空間の伝達特性の推定精度が徐々に増していることを表し、その推定伝達特性に基づくエコーキャンセル量はやがて性能限界まで到達して収束する。エコーキャンセラ142は、マイク入力信号d(n)とエコーキャンセル処理後の誤差信号e(n)との両方の情報を持っている。そのため、エコーキャンセラ142は、エコーキャンセルの収束時に周波数帯域ごとにどれだけエコーがキャンセルされたかを計算することができる。この指標をERLE(Echo Return Loss Enhancement)と呼び、下記の(数式3)によって表現される。
Figure JPOXMLDOC01-appb-M000003
 (数式3)において、E[]は期待値を表し、y(k,n)は推定伝達特性wの複素共役をxにかけた推定回り込み信号である。例えば、空間の伝達特性hがh’に変わった場合に、空間の伝達特性hと推定伝達特性wとの間に乖離が大きくなるために、エコーキャンセル量が低下する。それに伴い、(数式3)におけるERLEの値が低下する。したがって、環境変化検出部143は、ERLEによって空間の環境変化を捉えることができる。具体的には、環境変化検出部143は、ERLEが所定の閾値よりも低い場合に、ERLEが所定の閾値よりも低いことを環境変化として検出し得る。
 ただし、ダブルトーク時にも同様にERLEの値は低下し得る。そのため、本開示の実施形態においては、環境変化を正確に捉えるために、ERLE以外にも、カメラや赤外線センサなどといったセンサによるセンシングデータを利用する場合を想定する。かかる場合、センシングデータに基づく値が所定の閾値よりも大きくなった場合に、センシングデータに基づく値が所定の閾値よりも大きいことを環境変化として検出し得る。しかし、ERLEおよびセンシングデータの両方が必ず環境変化の検出に利用されなくてはならない訳ではなく、ERLEおよびセンシングデータのうち、いずれか一方だけが環境変化の検出に利用されてもよい。
 環境変化検出部143によって、ERLE、カメラによってセンシングされた画像、赤外線センサによってセンシングされた赤外線の少なくともいずれか一つの情報に基づいて環境変化が検出された場合に、エコーキャンセラ142は、自動的にスピーカ170から学習用の音を再生させ、推定伝達特性の学習を行う。
 ここで、エコーキャンセラ142の性能だけを求めれば、ホワイトノイズを長時間再生しておけば学習は可能である。しかし、ユーザ端末10が検出した環境変化を契機として自動的にホワイトノイズが再生されてしまうと、ユーザにとっては、いつ学習用の音がユーザ端末10から出力されるのかが分からない。さらに、突然大きな音量で再生されるホワイトノイズは非常に耳障りなため、ホワイトノイズをそのまま用いて自動学習を行うことはユーザを不快にさせてしまう可能性もある。
 とはいえ、推定伝達特性の学習用の音(スピーカ再生音源)をホワイトノイズから他の音源に変更すると、音源の種類によっては学習に十分な信号が含まれない周波数帯域が出てくるため、せっかくスピーカから学習用の音が出力されても学習がなかなか進まないということが起こり得る。そこで、学習用の音としては、あらかじめ学習させたい周波数帯域(学習が必要な周波数帯域)に十分な信号が含まれた音が選択または生成される必要がある。
 また、学習用の音として、常に同じ音が定常的に出力されていなくてもよい。すなわち、学習用の音は、通常の音楽のようにリズムや音階を有していてもよい。かかる場合には、学習用の音としてホワイトノイズが利用される場合よりも、学習用の音が長い時間再生されることによって推定伝達特性の収束が待たれる。エコーキャンセラ142は、推定伝達特性が十分に収束したと判定した場合に、スピーカ170による学習用の音の再生を終了すればよい。
 ここで、エコーキャンセラ142によって推定伝達特性が十分に収束したと判定される手法は特に限定されない。一例として、ERLEが安定して高い値となった場合に、ERLEが安定して高い値となったことによって推定伝達特性が十分に収束したと判定されてもよい。あるいは、推定伝達特性更新式のwの平均移動度が所定の値よりも小さくなった場合に、推定伝達特性更新式のwの平均移動度が所定の値よりも小さくなったことによって推定伝達特性が十分に収束したと判定されてもよい。
 図9は、推定伝達特性wの平均値の例を示す図である。図9に示された例では、推定伝達特性wの平均値の例として、推定伝達特性wのノルムの2乗平均値が用いられている。また、図10は、推定伝達特性wのノルムの2乗平均値の時間変化の様子を誤差信号の変化とともに示した図である。図10に示されたように、推定伝達特性wのノルムの2乗平均値の移動度は、時間経過とともに小さくなっていく。このとき、推定伝達特性wのノルムの2乗平均値の移動度が所定の値よりも小さくなったことによって推定伝達特性が十分に収束したと判定されてもよい。
 以上に説明したように、環境変化検出部143は、推定伝達特性の学習が不十分であることを環境変化として検出してよい。このとき、環境変化検出部143は、エコーキャンセラ142によって学習された推定伝達特性に基づくエコーキャンセル量(ERLE)が所定の閾値よりも低いことを推定伝達特性の学習が不十分であることとして検出してよい。
 (3.3.学習用の音の選択)
 ここで、初期設定時などにおける学習時に雑音が混入したことによって、推定伝達特性が正しく学習されなかった周波数帯域のERLEが小さくなったり、家具の配置の変化などによって実際に空間の伝達特性が変わったことによって特定の周波数のERLEが小さくなったりして、推定伝達特性の再学習が必要になった場合を想定する。かかる場合、学習用の音(スピーカ再生音源)は、ホワイトノイズである必要はなく、少なくとも推定伝達特性の学習が必要な周波数帯域に信号が含まれれば十分である。
 つまり、あらかじめ推定伝達特性の学習したい周波数帯域(学習が必要な周波数帯域)に信号を有する学習用の音(スピーカ再生音源)が用意されているとよい。このとき、エコーキャンセラ142が、学習用の音(スピーカ再生音源)をスピーカ170に再生させることによって、エコーキャンセラ142による特定周波数帯域の推定伝達特性は学習され得る。
 図11~図13に例を示す。図11~図13は、各音源に対する誤差信号の波形および周波数スペクトルそれぞれの時間変化を示す図である。図11~図13に示される例では、a,b,cは、異なる3種類の音源を示している。a,b,cに続く_tは、各音源に対する誤差信号の波形の時間変化を示し、_fは、各音源に対する周波数スペクトルの時間変化を示している。aは、全周波数帯域に信号成分を含むホワイトノイズに近い音源である。bは、高域と低域に信号は少なく、中域に多くの信号成分を持つ音源である。cは、低域に信号成分が多く集まる音源である。
 例えば、エコーキャンセラ142は、このような音源をあらかじめ用意しておき、中域の推定伝達特性の学習が不十分であると判定された場合には、bの音源を採用し、低域の推定伝達特性の学習が不十分であると判定されたされた場合にはcの音源を採用して、採用した音源をスピーカ170から再生させて自動学習を行う。このように推定伝達特性の周波数帯域ごとの学習状態に応じて最適な音源を選択することによって、ユーザを不快にさせるホワイトノイズの再生を回避できる。
 以上に説明したように、学習用の音は、エコーキャンセラ142によって推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音であってよい。このとき、所定の周波数帯域の信号は、周波数帯域ごとのエコーキャンセル量に基づいて決定されてよい。エコーキャンセラ142によって推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音に関する他の実施形態については、本開示の第2の実施形態において説明する。
 (3.4.全体の流れ)
 続いて、以上に説明したユーザ端末10の全体的な処理の流れを説明する。図14は、本開示の第1の実施形態に係るユーザ端末10の全体的な処理の流れを示すフローチャートである。図14に示されたように、まず、本開示の第1の実施形態に係るユーザ端末10において、環境変化検出部143は、学習の必要性(学習要否)を判定する(S11)。例えば、環境変化検出部143は、エコーキャンセル量、カメラによってセンシングされた画像、赤外線センサによってセンシングされた赤外線などの情報に基づいて、学習の必要性(学習要否)を周波数帯域ごとに判定する。
 エコーキャンセラ142は、環境変化検出部143によって学習が必要であると判定された場合(S12において「No」)、S11に動作を移行させる。一方、エコーキャンセラ142は、環境変化検出部143によって学習が必要であると判定された場合(S12において「Yes」)、学習が必要な周波数帯域を決定する(S13)。続いて、オーディオ信号生成部141は、学習に必要な周波数帯域の成分を多く含む音源を生成し(S14)、エコーキャンセラ142は、生成した音源をスピーカ170から再生させて推定伝達特性の学習を行い(S15)、ユーザ端末10の全体的な処理が終了される。
 図15は、学習要否判定S11の詳細の流れを示すフローチャートである。図15に示されるように、環境変化検出部143は、スピーカ170によって音の再生が行われている最中のERLEをチェックする(S111)。環境変化検出部143は、ERLEが閾値よりも低い場合に、カメラによってセンシングされた画像を取得し(S112)、画像に所定レベルの変化があったか否かによって人や家具の配置などに動きがあったか否かを判定する(S113)。なお、かかる判定には、画像の代わりに、または、画像に追加して赤外線センサによってセンシングされた赤外線が利用されてよい。
 環境変化検出部143によって、動きがあったと判定された場合には(S113において「Yes」)、空間の伝達特性が変化したためにERLEが低下したと考えられるため、推定伝達特性の学習が必要と判定する(S116)。一方、画像に所定レベルの動きがなく(S113において「No」)、ERLEの低下の原因が人や家具の配置変化でないと判定された場合、ERLEの低下の原因は別にあると考えられる。
 例えば、ユーザ発話があったり突発的な雑音などが入ったりすると(S114において「Yes」)、ERLEは低下し得る。かかる場合には、発話が終わったり雑音源が停止したりすることでERLEは再び大きな値に戻ることが期待され、空間の伝達特性自体が変化したわけではないため、環境変化検出部143によって、学習は不要と判定される(S117)。
 一方、ERLEは低下したものの、画像または赤外線からは所定レベルの動きが検出されず(物の移動が検出されず)、さらにユーザ発話や雑音もなかったような場合(S114において「No」)、学習が必要か、そうでないかの判断が難しい。かかる場合には、環境変化検出部143は、ERLEを監視し、ERLEが所定の閾値より低い状態が所定時間連続した場合には(S115において「Yes」)、学習が必要と判定してよい(S118)。一方、環境変化検出部143は、ERLEが所定の閾値より低い状態が所定時間連続しない場合には(S115において「No」)、S111に動作を移行させてよい。
 なお、実際に学習が必要と判定されたとしても、毎回すぐにスピーカ170から学習用の音が自動的に再生されることもユーザにとっては煩わしく感じてしまう場合もあり得る。そこで、学習が必要と判定されたとしても、実際に学習をさせるタイミングは、ユーザまたはユーザ端末10によって選択可能であってもよい。
 すなわち、エコーキャンセラ142は、推定伝達特性の学習が不十分であることを検出した場合、出力部180を介して推定伝達特性の学習が不十分であることをユーザに通知してもよい。このとき、エコーキャンセラ142は、環境変化が検出され、かつ、学習用の音の再生指示を受けた場合に、学習用の音をスピーカ170に再生させればよい。
 <4.第2の実施形態>
 以下、本開示の第2の実施形態について説明する。本開示の第1の実施形態においては、推定伝達特性の学習用の音(スピーカ再生音源)を、内部状態に合わせていくつかの候補の中から選択する場合について主に説明した。しかし、それでも音源はあらかじめ用意されているため、ユーザによって好まれる音源であるとは限らない。本開示の第2の実施形態においては、ユーザ情報を参照してユーザの嗜好に合わせた音源を自動学習に利用する仕組みについて説明する。
 図16は、本開示の第2の実施形態に係る制御部140Bの詳細構成例を示す図である。図16に示されるように、本開示の第2の実施形態に係る制御部140Bは、本開示の第1の実施形態に係る制御部140Aと同様に、オーディオ信号生成部141、エコーキャンセラ(エコーキャンセル部)142および環境変化検出部143を有する。その他、本開示の第2の実施形態に係る制御部140Bは、ユーザ情報取得部144を有する。
 以下では、ユーザ情報取得部144の機能を中心に、各ブロックの機能についてより詳細に説明する。
 (4.1.学習用の音の自動生成)
 本開示の第2の実施形態においては、エコーキャンセラ142を搭載したユーザ端末10を使用してユーザが普段再生させている音楽(曲)のジャンル、曲調(メロディラインなど)、テンポ、音量(再生音量)などのユーザ情報を、記憶部150が再生時間帯ごとに記憶する。これによって、ユーザ情報に対応する音楽があらかじめ紐付けられることによって、ユーザの嗜好に合う音楽を示す情報がユーザ情報取得部144によって取得され得る。
 図17は、ユーザ情報の例を示す図である。図17に示されるように、ユーザ情報が構成され得る。なお、ユーザ端末10に備わっているアプリケーションなどへのユーザのログイン状態や、カメラによってセンシングされた画像に基づく個人認識、音声操作による個人識別などによって、ユーザ端末10を利用する個人を特定できる場合は、ユーザ情報をユーザごとに保持することもできる。
 次に、環境変化検出部143は、エコーキャンセラ142の性能が十分に発揮できていない周波数帯域が検出された場合に、どの周波数帯域の学習を主に行う必要があるかを決定し、オーディオ信号生成部141は、ユーザ情報取得部144によってあらかじめ取得されたユーザ情報と合わせて、ユーザの嗜好に合い(あるいは、嗜好に近く)、かつ、エコーキャンセラ142の自動学習に適したスピーカ再生音源を生成する。
 例えば、低域の周波数帯域の推定伝達特性を学習する必要があると判断され、ユーザが普段よく再生させる曲(ユーザの嗜好に合う曲)のジャンルとしてロックがあった場合が想定される。かかる場合、ロックの音は周波数帯域が低域であることが多いため、オーディオ信号生成部141は、低域を多く含んだ音源を生成するとよい。
 一方、低域の周波数帯域の推定伝達特性を学習する必要であるのに対して、ユーザが普段よく再生させる曲(ユーザの嗜好に合う曲)のジャンルとしてオーケストラのような曲があった場合も想定される。かかる場合、オーケストラのような曲は周波数帯域が高域であることが多いため、オーケストラのような曲の主旋律を強調しておきながら、他の楽器音で低頻度に低域を織り交ぜ、再生時間を長くとることで、ユーザの嗜好と学習効率の両立を実現するとよい。
 図18は、推定伝達特性を学習すべき周波数帯域の種類の例を示す図である。図18に示されるように、推定伝達特性を学習すべき周波数帯域の種類として、特定周波数、複数周波数、低域、中域、高域、中域以下、中域以上、低域+高域などが挙げられる。このように、学習すべき周波数帯域の種類は、ユーザ情報(図17)とともに、多くのバリエーションが存在し得る。
 学習すべき周波数帯域の種類とユーザ情報との組み合わせごとに、どのような音源を再生すべきか決定する手法は、限定されない。例えば、あらかじめユーザ情報に基づいてユーザの嗜好に合う曲のメロディラインや速度が決められ、選択する楽器の変更によって曲の周波数帯域がコントロールされてもよい。あるいは、機械学習のような自動生成器を用いてどのような音源を再生すべきか決定されてもよい。
 以上に説明したように、エコーキャンセラ142によって推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音は、ユーザの嗜好に応じた曲を含んだ音であってよい。このとき、所定の周波数帯域の信号を含んだ音は、あらかじめ用意された1または複数の曲から前記ユーザの嗜好に応じて選択された曲を含んだ音であってもよいし、ユーザの嗜好に応じて音声合成によって生成された曲を含んだ音であってもよい。
 あるいは、エコーキャンセラ142によって推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音は、ユーザの操作に基づいて前記スピーカから再生される曲を含んだ音であってもよい。また、エコーキャンセラ142によって推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音は、音声合成によって生成された音を含んだ音であってもよい。
 (4.2.全体の流れ)
 続いて、以上に説明したユーザ端末10の全体的な処理の流れを説明する。図19は、本開示の第2の実施形態に係るユーザ端末10の全体的な処理の流れを示すフローチャートである。図19に示されたように、本開示の第1の実施形態と同様に、ユーザ端末10において、S11~S13が実行される。次に、ユーザ情報取得部144は、ユーザ情報を検索し、ユーザの嗜好に合う(あるいは、嗜好に近い)曲調やジャンルなどの情報を取得する。これらの情報は、S14における音源生成に利用される。
 <5.ハードウェア構成例>
 次に、図20を参照して、本開示の実施形態に係る信号処理装置(ユーザ端末)10のハードウェア構成について説明する。図20は、本開示の実施形態に係る信号処理装置10のハードウェア構成例を示すブロック図である。
 図20に示すように、信号処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、信号処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、信号処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。信号処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、信号処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、信号処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、信号処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音出力装置、ならびにプリンタ装置などであり得る。出力装置917は、信号処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置917は、LED(light-emitting diode)などのライトを含んでもよい。
 ストレージ装置919は、信号処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、信号処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を信号処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、信号処理装置10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば信号処理装置10の筐体の姿勢など、信号処理装置10自体の状態に関する情報や、信号処理装置10の周辺の明るさや騒音など、信号処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 <6.むすび>
 以上説明したように、本開示の実施形態によれば、通常のエコーキャンセラの性能が劣化したときに自動でそれを検出して学習を行う。周波数帯域ごとに持っている推定伝達特性のうち、性能が劣化した周波数帯域が一部であった場合、その周波数帯域を効率よく学習できるようなスピーカ再生音源を再生することで、エコーキャンセラの推定伝達特性の学習を高速に行うことができる。
 また、あらかじめユーザの普段再生する音楽を示す情報などを保持しておき、学習が必要な周波数成分を多く含むユーザの趣味に合う曲調の音源を自動で生成することでユーザに対して機器が自動で発生する音に対する不快感を緩和する効果が享受される。さらに、再生音源をユーザ情報やエコーキャンセラの性能不足の周波数帯域によって毎回変化すれば、単純な機器の自動調整という印象をユーザに与えにくい。
 <7.実施例>
 上記した本開示の実施形態の一実施例について説明する。例えば、部屋の家具の配置が変わる、機器の近くにモノが置かれるなどにより、スピーカとマイクの間の伝達特性が変化し、エコー消去量が減少すると、機器が自動で音楽を再生し、エコーキャンセラが十分に機能するように補正が始まる。
 据え置きのスピーカおよびマイクを有する機器の配置をユーザが変更した場合、機器が最初にスピーカから音を再生するとエコーキャンセラの性能が不十分のため、通話品質や音声認識の性能は低下する。あるいはスピーカから音を再生する前にもカメラ画像などの情報から自らの位置の変化を検出し、環境の変化を認識することができる。環境変化を検知した場合、全周波数帯域の学習ができるような音源を用意し、スピーカから再生しながら苦手な周波数帯域を検出し音源を途中で変化させることもできる。
 スピーカ再生中にどの周波数帯域の学習がどれくらい進んでいるかを検出でき、性能に影響を与えないレベルまで全体的に学習が進んだと判定されたときに自動で音楽を止める。ユーザにとって心地よい音楽としても、突然音楽が再生されること自体ユーザに不快感を与える可能性があるため、あらかじめユーザに表示装置、あるいはスピーカから音声を再生することで通知することもできる。
 また、自動学習の専用の時間を設けずとも、普段のユーザの使用中に対して、機器が対話でTTS(Text to Speech)のように音声を再生するときに自然に歌い出すように、あるいは背景の音楽として重畳しながら自然に学習をすることもできる。
 <8.変形例>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した制御部140が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 上記では、オーディオ信号生成部141、エコーキャンセル部142および環境変化検出部143が、ユーザ端末(信号処理装置)10に組み込まれている場合について主に説明した。しかし、これらの機能の一部は、ユーザ端末(信号処理装置)10とは異なる装置に組み込まれてもよい。例えば、オーディオ信号生成部141は、ユーザ端末(信号処理装置)10とは異なる装置(例えば、サーバなど)に組み込まれていてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、
 環境変化を検出する環境変化検出部と、を備え、
 前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、
 信号処理装置。
(2)
 前記環境変化検出部は、前記推定伝達特性の学習が不十分であることを前記環境変化として検出する、
 前記(1)に記載の信号処理装置。
(3)
 前記環境変化検出部は、前記エコーキャンセル部によって学習された前記推定伝達特性に基づくエコーキャンセル量が所定の閾値よりも低いことを前記推定伝達特性の学習が不十分であることとして検出する、
 前記(2)に記載の信号処理装置。
(4)
 前記環境変化検出部は、環境に関する検出データに基づいて前記環境変化を検出する、
 前記(1)~(3)のいずれか一項に記載の信号処理装置。
(5)
 前記検出データは、前記環境変化を通知するデータまたはセンシングデータを含む、
 前記(4)に記載の信号処理装置。
(6)
 前記センシングデータは、カメラ、赤外線センサ、超音波センサ、加速度センサ、ジャイロセンサ、レーザセンサ、振動センサおよびGPSセンサの少なくともいずれか一つによってセンシングされる、
 前記(5)に記載の信号処理装置。
(7)
 前記エコーキャンセル部は、周波数帯域ごとに前記推定伝達特性を学習する、
 前記(1)~(6)のいずれか一項に記載の信号処理装置。
(8)
 前記学習用の音は、ホワイトノイズである、
 前記(1)~(7)のいずれか一項に記載の信号処理装置。
(9)
 前記学習用の音は、前記エコーキャンセル部によって前記推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音である、
 前記(1)~(7)のいずれか一項に記載の信号処理装置。
(10)
 前記所定の周波数帯域の信号は、周波数帯域ごとのエコーキャンセル量に基づいて決定される、
 前記(9)に記載の信号処理装置。
(11)
 前記所定の周波数帯域の信号を含んだ音は、ユーザの嗜好に応じた曲を含んだ音である、
 前記(9)または(10)に記載の信号処理装置。
(12)
 前記所定の周波数帯域の信号を含んだ音は、あらかじめ用意された1または複数の曲から前記ユーザの嗜好に応じて選択された曲を含んだ音である、
 前記(11)に記載の信号処理装置。
(13)
 前記所定の周波数帯域の信号を含んだ音は、前記ユーザの嗜好に応じて音声合成によって生成された曲を含んだ音である、
 前記(11)に記載の信号処理装置。
(14)
 前記所定の周波数帯域の信号を含んだ音は、ユーザの操作に基づいて前記スピーカから再生される曲を含んだ音である、
 前記(9)または(10)に記載の信号処理装置。
(15)
 前記所定の周波数帯域の信号を含んだ音は、音声合成によって生成された音を含んだ音である、
 前記(9)または(10)に記載の信号処理装置。
(16)
 前記信号処理装置は、前記学習用の音を生成するオーディオ信号生成部を備える、
 前記(1)~(15)のいずれか一項に記載の信号処理装置。
(17)
 前記エコーキャンセル部は、前記推定伝達特性の学習が不十分であることを検出した場合、出力部を介して前記推定伝達特性の学習が不十分であることをユーザに通知する、
 前記(1)~(16)のいずれか一項に記載の信号処理装置。
(18)
 前記エコーキャンセル部は、前記環境変化の検出と前記学習用の音の再生指示とに基づいて前記学習用の音を前記スピーカに再生させる、
 前記(1)~(17)のいずれか一項に記載の信号処理装置。
(19)
 スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うことと、
 環境変化を検出することと、を含み、
 プロセッサにより、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習することを含む、
 信号処理方法。
(20)
 コンピュータを、
 スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、
 環境変化を検出する環境変化検出部と、を備え、
 前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、
 信号処理装置として機能させるためのプログラム。
 1   情報処理システム
 10  ユーザ端末(信号処理装置)
 90  ネットワーク
 110 入力部
 120 マイクロフォン
 130 センサ部
 140 制御部
 141 オーディオ信号生成部
 142 エコーキャンセラ(エコーキャンセル部)
 143 環境変化検出部
 144 ユーザ情報取得部
 150 記憶部
 160 通信部
 170 スピーカ
 180 出力部

Claims (20)

  1.  スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、
     環境変化を検出する環境変化検出部と、を備え、
     前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、
     信号処理装置。
  2.  前記環境変化検出部は、前記推定伝達特性の学習が不十分であることを前記環境変化として検出する、
     請求項1に記載の信号処理装置。
  3.  前記環境変化検出部は、前記エコーキャンセル部によって学習された前記推定伝達特性に基づくエコーキャンセル量が所定の閾値よりも低いことを前記推定伝達特性の学習が不十分であることとして検出する、
     請求項2に記載の信号処理装置。
  4.  前記環境変化検出部は、環境に関する検出データに基づいて前記環境変化を検出する、
     請求項1に記載の信号処理装置。
  5.  前記検出データは、前記環境変化を通知するデータまたはセンシングデータを含む、
     請求項4に記載の信号処理装置。
  6.  前記センシングデータは、カメラ、赤外線センサ、超音波センサ、加速度センサ、ジャイロセンサ、レーザセンサ、振動センサおよびGPSセンサの少なくともいずれか一つによってセンシングされる、
     請求項5に記載の信号処理装置。
  7.  前記エコーキャンセル部は、周波数帯域ごとに前記推定伝達特性を学習する、
     請求項1に記載の信号処理装置。
  8.  前記学習用の音は、ホワイトノイズである、
     請求項1に記載の信号処理装置。
  9.  前記学習用の音は、前記エコーキャンセル部によって前記推定伝達特性が学習されるべき所定の周波数帯域の信号を含んだ音である、
     請求項1に記載の信号処理装置。
  10.  前記所定の周波数帯域の信号は、周波数帯域ごとのエコーキャンセル量に基づいて決定される、
     請求項9に記載の信号処理装置。
  11.  前記所定の周波数帯域の信号を含んだ音は、ユーザの嗜好に応じた曲を含んだ音である、
     請求項9に記載の信号処理装置。
  12.  前記所定の周波数帯域の信号を含んだ音は、あらかじめ用意された1または複数の曲から前記ユーザの嗜好に応じて選択された曲を含んだ音である、
     請求項11に記載の信号処理装置。
  13.  前記所定の周波数帯域の信号を含んだ音は、前記ユーザの嗜好に応じて音声合成によって生成された曲を含んだ音である、
     請求項11に記載の信号処理装置。
  14.  前記所定の周波数帯域の信号を含んだ音は、ユーザの操作に基づいて前記スピーカから再生される曲を含んだ音である、
     請求項9に記載の信号処理装置。
  15.  前記所定の周波数帯域の信号を含んだ音は、音声合成によって生成された音を含んだ音である、
     請求項9に記載の信号処理装置。
  16.  前記信号処理装置は、前記学習用の音を生成するオーディオ信号生成部を備える、
     請求項1に記載の信号処理装置。
  17.  前記エコーキャンセル部は、前記推定伝達特性の学習が不十分であることを検出した場合、出力部を介して前記推定伝達特性の学習が不十分であることをユーザに通知する、
     請求項1に記載の信号処理装置。
  18.  前記エコーキャンセル部は、前記環境変化の検出と前記学習用の音の再生指示とに基づいて前記学習用の音を前記スピーカに再生させる、
     請求項1に記載の信号処理装置。
  19.  スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うことと、
     環境変化を検出することと、を含み、
     プロセッサにより、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習することを含む、
     信号処理方法。
  20.  コンピュータを、
     スピーカによる再生信号がマイクロフォンに入力されるまでの空間における推定伝達特性を学習し、学習した前記推定伝達特性に基づいてエコーキャンセルを行うエコーキャンセル部と、
     環境変化を検出する環境変化検出部と、を備え、
     前記エコーキャンセル部は、前記環境変化の検出に基づいて学習用の音を前記スピーカに再生させて前記推定伝達特性を学習する、
     信号処理装置として機能させるためのプログラム。
PCT/JP2018/034411 2017-11-30 2018-09-18 信号処理装置、信号処理方法およびプログラム WO2019106914A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/766,284 US11270718B2 (en) 2017-11-30 2018-09-18 Signal processing apparatus and signal processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-230801 2017-11-30
JP2017230801 2017-11-30

Publications (1)

Publication Number Publication Date
WO2019106914A1 true WO2019106914A1 (ja) 2019-06-06

Family

ID=66665599

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/034411 WO2019106914A1 (ja) 2017-11-30 2018-09-18 信号処理装置、信号処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11270718B2 (ja)
WO (1) WO2019106914A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247246A (ja) * 1996-03-08 1997-09-19 Nec Eng Ltd エコーキャンセラのトレーニング制御装置
JP2000252884A (ja) * 1999-02-26 2000-09-14 Toshiba Corp 適応フィルタ学習方式
JP2002280938A (ja) * 2001-03-21 2002-09-27 Oki Electric Ind Co Ltd エコーキャンセラ装置
JP2008141718A (ja) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd 音響エコーキャンセラシステム
JP2009033216A (ja) * 2007-07-24 2009-02-12 Xanavi Informatics Corp ハンズフリー通話装置
JP2015002460A (ja) * 2013-06-17 2015-01-05 沖電気工業株式会社 エコー抑圧装置及びプログラム
JP2016116036A (ja) * 2014-12-12 2016-06-23 株式会社リコー 音響制御装置、音響装置、通信装置及び音響制御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005236596A (ja) 2004-02-19 2005-09-02 Iwatsu Electric Co Ltd エコーキャンセラ
US8126161B2 (en) 2006-11-02 2012-02-28 Hitachi, Ltd. Acoustic echo canceller system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09247246A (ja) * 1996-03-08 1997-09-19 Nec Eng Ltd エコーキャンセラのトレーニング制御装置
JP2000252884A (ja) * 1999-02-26 2000-09-14 Toshiba Corp 適応フィルタ学習方式
JP2002280938A (ja) * 2001-03-21 2002-09-27 Oki Electric Ind Co Ltd エコーキャンセラ装置
JP2008141718A (ja) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd 音響エコーキャンセラシステム
JP2009033216A (ja) * 2007-07-24 2009-02-12 Xanavi Informatics Corp ハンズフリー通話装置
JP2015002460A (ja) * 2013-06-17 2015-01-05 沖電気工業株式会社 エコー抑圧装置及びプログラム
JP2016116036A (ja) * 2014-12-12 2016-06-23 株式会社リコー 音響制御装置、音響装置、通信装置及び音響制御方法

Also Published As

Publication number Publication date
US20210264934A1 (en) 2021-08-26
US11270718B2 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
KR102487957B1 (ko) 개인화된 실시간 오디오 프로세싱
US8503669B2 (en) Integrated latency detection and echo cancellation
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP7482147B2 (ja) 人工現実環境のためのオーディオシステム
US11437004B2 (en) Audio performance with far field microphone
CN113192527B (zh) 用于消除回声的方法、装置、电子设备和存储介质
CN106664473A (zh) 信息处理装置、信息处理方法和程序
US20200211540A1 (en) Context-based speech synthesis
JP2022542962A (ja) 分散配置されたオーディオデバイスのための音響エコー除去制御
WO2022066393A1 (en) Hearing augmentation and wearable system with localized feedback
EP4120242A1 (en) Method for in-chorus mixing, apparatus, electronic device and storage medium
WO2021149441A1 (ja) 情報処理装置および情報処理方法
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2019106914A1 (ja) 信号処理装置、信号処理方法およびプログラム
US20180108356A1 (en) Voice processing apparatus, wearable apparatus, mobile terminal, and voice processing method
US20220360935A1 (en) Sound field control apparatus and method for the same
JPWO2018211750A1 (ja) 情報処理装置および情報処理方法
US20230198486A1 (en) Adaptive music selection using machine learning of noise features, music features and correlated user actions

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18883258

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18883258

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP