WO2021171829A1 - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2021171829A1
WO2021171829A1 PCT/JP2021/001467 JP2021001467W WO2021171829A1 WO 2021171829 A1 WO2021171829 A1 WO 2021171829A1 JP 2021001467 W JP2021001467 W JP 2021001467W WO 2021171829 A1 WO2021171829 A1 WO 2021171829A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
processing
speaker
mixed sound
suppression
Prior art date
Application number
PCT/JP2021/001467
Other languages
English (en)
French (fr)
Inventor
和也 立石
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to DE112021001228.2T priority Critical patent/DE112021001228T5/de
Priority to US17/904,320 priority patent/US20230060081A1/en
Publication of WO2021171829A1 publication Critical patent/WO2021171829A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present disclosure relates to signal processing devices, signal processing methods and programs.
  • Patent Document 1 describes a technique in which a component that has a large reproduction volume and is left unerased by double talk is suppressed by an attenuation processing unit.
  • Patent Document 1 cannot cope with noise that does not depend on the playback volume, for example, vibration of the housing and distortion of the speaker, and distorts the user's utterance, so that it is not suitable as an echo canceling technique. It was enough.
  • One of the purposes of the present disclosure is to provide a signal processing device, a signal processing method and a program having improved echo canceling performance.
  • the present disclosure is, for example,
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.
  • This is a signal processing device having a processing unit that outputs a second suppression signal in which the speaker reproduction signal is further suppressed from the first suppression signal by non-linear processing.
  • the present disclosure is, for example,
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.
  • This is a signal processing method that outputs a second suppression signal in which the speaker reproduction signal is further suppressed from the first suppression signal by non-linear processing.
  • the present disclosure is, for example,
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.
  • This is a program that causes a computer to execute a signal processing method that outputs a second suppression signal in which the speaker reproduction signal is further suppressed from the first suppression signal by non-linear processing.
  • FIG. 1 is a diagram referred to when the basic concept of echo cancellation processing is explained.
  • FIG. 2 is a block diagram showing a configuration example of the signal processing device according to the embodiment.
  • FIG. 3 is a diagram showing details of a part of the configuration of the signal processing device according to the embodiment.
  • 4A and 4B are diagrams that are referred to when an example of operation of AES according to one embodiment is described.
  • FIG. 5 is a diagram for explaining a first example regarding an input when the AES according to the embodiment performs DNN.
  • FIG. 6 is a diagram for explaining a second example regarding an input when the AES according to the embodiment performs DNN.
  • FIG. 7 is a diagram for explaining a third example regarding the input when the AES according to the embodiment performs DNN.
  • FIG. 5 is a diagram for explaining a first example regarding an input when the AES according to the embodiment performs DNN.
  • FIG. 6 is a diagram for explaining a second example regarding an input when the AES according to the embodiment
  • FIG. 8 is a diagram for explaining a third example regarding the input when the AES according to the embodiment performs DNN.
  • FIG. 9 is a diagram for explaining a third example regarding the input when the AES according to the embodiment performs DNN.
  • FIG. 10 is a diagram for explaining an example of a learning method of the RMI unit with reference to the database.
  • FIG. 11 is a diagram for explaining a third example regarding the input when the AES according to the embodiment performs DNN.
  • FIG. 12 is a diagram for explaining a third example regarding the input when the AES according to the embodiment performs DNN.
  • FIG. 13 is a diagram for explaining a fourth example regarding an input when the AES according to the embodiment performs DNN.
  • the basic concept of the echo canceling process will be schematically described with reference to FIG.
  • the output signal from the speaker 1A in a certain time frame n is referred to as a reference signal x (n).
  • the reference signal x (n) is output from the speaker 1A and then input to the microphone 1B through the space.
  • the signal (sound pick-up signal) obtained by the microphone 1B is referred to as a microphone input signal d (n).
  • the spatial transmission characteristic h until the output sound from the speaker 1A reaches the microphone 1B is unknown, and in the echo canceling process, this unknown spatial transmission characteristic h is estimated and estimated from the microphone input signal d (n).
  • the process of subtracting the reference signal x (n) in consideration of the spatial transmission characteristic is performed.
  • -Echo canceller AEC: Acoustic Echo Canceller
  • AEC Acoustic Echo Canceller
  • Linear echo canceller A technology that subtracts the transmission characteristics of the speaker and microphone by linear filtering in the most basic AEC. In real-time processing, the LMS (Least Mean Square) method or the like is used as an adaptive filter.
  • LMS Least Mean Square
  • -Non-linear echo canceller Noise due to speaker distortion and housing resonance, components that cannot be modeled as spatial transmission paths such as clipping, and the estimation accuracy of linear filtering in the previous stage could not be eliminated.
  • the non-linear echo canceller is referred to as an echo suppression (AES) as opposed to a linear echo canceller.
  • AES echo suppression
  • the processing is usually different depending on the factors that generate the nonlinear component.
  • “cancel” means a process of generating an estimated signal and subtracting the estimated signal from an input signal
  • “suppression” means a technique of suppressing a level.
  • “suppression” includes “cancellation”.
  • FIG. 2 is a diagram showing a configuration example of the signal processing device (signal processing device 100) according to the present embodiment.
  • the signal processing device 100 is mounted on an electronic device such as a smartphone, a smart speaker, or a robot, for example.
  • a mixed sound signal (hereinafter, also referred to as a microphone input signal) which is a mixed sound of a speaker reproduction signal reproduced from a speaker of the signal processing device 100 and a predetermined target signal via a microphone of the signal processing device 100. Is picked up. Echoes and the like contained in the microphone input signal are effectively suppressed (reduced). Predetermined processing is performed on the signal in which the echo or the like is suppressed.
  • the predetermined process is at least one of a beamforming process, a noise reduction process, and a voice recognition process.
  • the electronic device to which the signal processing device 100 is applied executes the process according to the application. Since the component of the speaker reproduction signal propagating in space is effectively removed from the microphone input signal, the accuracy of voice recognition and the call quality can be improved.
  • the signal processing device 100 includes, for example, AEC10 which is an example of an echo canceling processing unit, AES11 which is an example of a processing unit, BF (BeamForming) 12, and NR (Noise Reduction) 13. have.
  • AEC10 which is an example of an echo canceling processing unit
  • AES11 which is an example of a processing unit
  • BF BeamForming
  • NR Noise Reduction
  • AEC10 which is an example of the echo canceling processing unit, applies the LMS method or the like as a linear echo canceller, and subtracts the transmission coefficients of the speaker and the microphone of the electronic device by linear filtering. That is, the AEC 10 generates and outputs a first suppression signal (hereinafter, appropriately referred to as an Aec signal) by suppressing the speaker reproduction signal from the microphone input signal by linear processing.
  • the Aec signal is supplied to the AES11.
  • the AES11 contains a component that cannot be modeled as a spatial transmission path such as speaker distortion, noise due to resonance of the housing, and clipping, and a component that cannot be erased due to the estimation accuracy of linear filtering in the AEC10 in the previous stage. Suppress the echo.
  • the AES 11 generates a learning model by performing machine learning based on a predetermined input.
  • the AES 11 generates a second suppression signal (hereinafter, appropriately referred to as an Aes signal) in which the speaker reproduction signal is further suppressed from the AEC signal by non-linear processing using the generated learning model.
  • DNN deep neural network
  • a mechanism multilayer perceptron
  • DNN inputs a large amount of input data prepared in advance to a mechanism (multilayer perceptron) that learns by itself, automatically learns the features of the input data in the mechanism, and newly unknown input data is sent to that mechanism. It is a mechanism that can judge and classify highly accurate output results when input.
  • a learning model that optimizes the predicted output is derived.
  • parameters and masks are used in the present specification.
  • the BF12 performs beamforming processing. Specifically, the BF12, for example, when there are a plurality of microphones, causes signals whose phases and amplitudes are controlled by delays and filters to interfere with each other based on the fact that sound wave propagation from a sound source to each microphone is different. Performs processing to emphasize or reduce the signal from a specific direction.
  • NR13 performs noise reduction processing.
  • the noise reduction process a known process can be applied.
  • the microphone input signal collected by a microphone (not shown) and converted into a digital format is input to the AEC10. Further, a speaker reproduction signal (hereinafter, also referred to as a reference signal (REF)) reproduced by a speaker (not shown) is input to each of AEC10 and AES11.
  • the microphone input signal and the speaker reproduction signal may be supplied via a wire or may be supplied via a radio.
  • FIG. 3 is a diagram showing details of a part of the configuration of the signal processing device 100.
  • the signal processing device 100 includes STFTs (Short Time Fourier Transforms) 21 and 22, and ISTF (Inverse STFT) 23.
  • the STFT21 converts the microphone input signal, which is a time waveform, into a signal in the frequency domain by dividing the microphone input signal into short frames and performing a short-time Fourier transform.
  • the STFT 22 converts the microphone input signal, which is a time waveform, into a frequency domain signal by dividing the speaker reproduction signal into short frames and performing a short-time Fourier transform.
  • the audio signals output from the STFT 21 and the STFT 22 are supplied to the AEC 10 and the AES 11, respectively.
  • the ISTFT23 converts the frequency domain signal into a time waveform signal by performing a short-time Fourier inverse transform on the output signal of the AES11. As a result, the Aes signal, which is the output signal of the AES11, is generated.
  • AES11 performs time frequency mask processing on the Aec signal which is the output signal of AEC10.
  • the AES 11 obtains a mask by performing a DNN on a predetermined input.
  • the mask is, for example, a value set between 0 and 1 corresponding to each time frequency.
  • the AES 11 has, for example, a multiplier 25, and obtains the FTFT features by multiplying the Aec signal, which is the output signal of the AEC 10, by a mask.
  • An Aes signal is generated by performing a short-time Fourier transform on the STFT features by the ISFT23.
  • a learning model is generated by performing learning by DNN by AES11 in advance, and time-frequency mask processing is performed by applying the learning model, but both are performed in parallel, that is, while DNN is performed.
  • the time frequency mask processing to which the learning model obtained as a result is applied may be performed.
  • the input / output can be a time waveform without performing a short-time Fourier transform or the like, and the output can be a time-frequency spectrogram corresponding to the mask processing.
  • the AES 11 performs machine learning (for example, DNN) to learn various non-linear environments in advance and suppress non-linear components having different causes (speaker distortion, noise due to housing resonance, etc.). Generate a learning model to output the suppression signal. By generating such a learning model, it is possible to suppress an increase in the number of parameters as compared with the method of preparing the number of parameters corresponding to each factor of the non-linear component, and the difficulty of tuning does not increase. Processing can be performed in one block.
  • machine learning for example, DNN
  • the echo component can be suppressed to some extent while suppressing speech distortion, and low delay and low calculation can be performed without providing a large model size. It becomes possible to efficiently extract the components of the target speaker with resources.
  • FIG. 5 is a diagram for explaining a first example regarding an input when the AES 11 performs DNN.
  • AES11 creates a model in which the unerased signal is learned in advance by many non-linear components based on the information of the AEC signal and the speaker reproduction signal (Ref signal) which are the output signals of the AEC10. .. Specifically, learning to suppress the speaker reproduction signal is repeated so that the Aec signal becomes the correct answer data, and as a result, parameters are obtained. By applying such a parameter, the AES 11 operates so as to suppress the echo component when an unknown signal is input to the signal processing device 100.
  • FIG. 7 shows.
  • the RMI (Reference Model Information) unit 31 models the characteristics of the character's speech (hereinafter, abbreviated as appropriate) by pre-learning.
  • the accuracy of determining the signal to be suppressed can be improved. More specifically, it is possible to extract and suppress only the voice component of a specific character while suppressing the non-linear component having different causes.
  • the characteristics of a predetermined character are supplied to the RMI unit 31 from the database (DB).
  • Character characteristics are information that can be distinguished from other character characteristics, such as character ID (Identification), character speaking style, character gender, character voice frequency characteristics, character emotions, and character speaking speed.
  • the volume of the character can be mentioned. These features are held, for example, as a numerical vector so that the RMI unit 31 can learn.
  • the database may be built in an electronic device having a signal processing device 100, or may be a server device or the like on the cloud. In the latter case, the character features are supplied to the RMI unit 31 of the signal processing device 100 via a network such as the Internet.
  • the characteristics of each character are input to the RMI unit 31.
  • the RMI unit 31 extracts the utterance of the character by learning to input the clean TTS data of each character and the TTS data from the speaker in various environments and the TTS data via the space.
  • a learning model is generated for each character.
  • FIG. 10 is a diagram for explaining a learning method of the RMI unit 31 with reference to the database.
  • a large amount of input signals including the data of each database (characteristics for each character) and the corresponding spatial transmission characteristics of the reproduced signal and speaker distortion are input, and the output result corresponds to the correct answer data (corresponding to the database in which echo is suppressed).
  • the RMI unit 31 learns to approach the voice component of the character to play.
  • the parameters may be updated by the AES 11 learning at the same time (multitask learning) as in the first example or the second example described above, or the parameters of the AES 11 may be updated. It may be fixed and only the parameters of the RMI unit 31 may be updated.
  • the parameters obtained as a result of learning are applied to, for example, the Aes signal.
  • a learning model corresponding to a specific character may be supplied to the RMI unit 31 or AES 11 and used.
  • a new character for example, character D
  • the trained database corresponding to the character D can be added by using an external memory or by providing the trained data to the signal processing device 100 via the network.
  • the feature corresponding to the character D may be simply input to the RMI unit 31.
  • the RMI unit 31 sufficiently repeats learning using the characteristics of another character
  • the RMI unit 31 generates parameters corresponding to the character simply by inputting the characteristics of the new character. It can be supplied to AES11.
  • each RMI unit 31 is a model including the characteristics of the database, and each holds parameters obtained by learning.
  • a switch unit switch unit SWA, switch unit SWB, switch unit SWC . Is provided in front of each RMI unit. The switch section corresponding to the character whose voice is to be extracted is selected and turned on, and the other switch sections are turned off. The on / off of each switch unit is controlled based on the reproduced signal information.
  • the reproduced signal information may be generated in response to an operation on the signal processing device 100, may be automatically generated inside the signal processing device 100, or may be supplied from the outside of the signal processing device 100. .. According to such an example, the target character can be switched in real time by switching the switch unit.
  • the characteristics of the near-end speaker (user) are pre-learned as a model and used as an auxiliary input.
  • UMI User Model Information
  • Part 41 pre-learns to model and obtain parameters. Processing using the parameter is performed in AES11. More specifically, the UMI unit 41 learns the spectrum of a section (speech section) in which a person is speaking without a speaker reproduction signal. By using the parameters obtained by such learning, it is possible to detect the utterance section with high accuracy. Processing using the parameters supplied from the RMI unit 31 is performed on the utterance section.
  • Pre-learning by the parameter UMI unit 41 can be performed by another terminal such as a smartphone instead of the signal processing device 100.
  • echo components can be suppressed to some extent while suppressing speech distortion, and the target speaker can efficiently use low delay and low arithmetic resources without providing a large model size for machine learning. It becomes possible to extract the components.
  • the echo canceller processing is usually used in the previous stage at the time of signal processing, and it is required to reduce the system delay as much as possible. ..
  • future information is not used, the latest frame information of the output of the linear echo canceller is used as an input, and processing can be performed without delay in principle.
  • the number of speakers and microphones included in the signal processing device 100 may be one or a plurality.
  • the configuration of the signal processing device 100 can be appropriately changed according to the configuration of the device to which the signal processing device 100 is applied without departing from the gist of the present disclosure.
  • the present disclosure may also adopt the following configuration.
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.
  • a signal processing device having a processing unit that outputs a second suppression signal obtained by further suppressing the speaker reproduction signal from the first suppression signal by non-linear processing.
  • the signal processing apparatus according to (1) wherein the processing unit generates the second suppression signal by non-linear processing using a learning model obtained by machine learning.
  • the signal processing apparatus includes at least one processing of beamforming processing, noise reduction processing, and voice recognition processing.
  • the signal processing device which has the microphone and the speaker for reproducing the speaker reproduction signal.
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.
  • the mixed sound signal which is the mixed sound of the speaker reproduction signal and the target signal, is picked up by the microphone.
  • the first suppression signal obtained by suppressing the speaker reproduction signal from the mixed sound signal by linear processing, the speaker reproduction signal, and the mixed sound signal picked up by the microphone are input.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、混合音信号からスピーカ再生信号を線形処理により抑圧した第1抑圧信号と、スピーカ再生信号と、マイクロホンで収音された混合音信号とを入力し、非線形処理により第1抑圧信号からスピーカ再生信号を更に抑圧した第2抑圧信号を出力する処理部を有する信号処理装置である。

Description

信号処理装置、信号処理方法およびプログラム
 本開示は、信号処理装置、信号処理方法およびプログラムに関する。
 従来から、エコーキャンセルに関する様々な提案がなされている。例えば、下記特許文献1には、再生音量が大きく、ダブルトークにより消し残った成分を減衰処理部によって抑圧する技術が記載されている。
特開2019-4387号公報
 特許文献1に記載の技術では、再生音量に依存しないノイズ、例えば、筐体の振動やスピーカの歪みに対応することができず、ユーザの発話も歪ませてしまうため、エコーキャンセルの技術として不十分であった。
 本開示は、エコーキャンセルの性能を向上させた信号処理装置、信号処理方法およびプログラムを提供することを目的の一つとする。
 本開示は、例えば、
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 混合音信号からスピーカ再生信号を線形処理により抑圧した第1抑圧信号と、スピーカ再生信号と、マイクロホンで収音された混合音信号とを入力し、
 非線形処理により第1抑圧信号からスピーカ再生信号を更に抑圧した第2抑圧信号を出力する処理部を有する信号処理装置である。
 本開示は、例えば、
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 混合音信号からスピーカ再生信号を線形処理により抑圧した第1抑圧信号と、スピーカ再生信号と、マイクロホンで収音された混合音信号とを入力し、
 非線形処理により第1抑圧信号からスピーカ再生信号を更に抑圧した第2抑圧信号を出力する
 信号処理方法である。
 本開示は、例えば、
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 混合音信号からスピーカ再生信号を線形処理により抑圧した第1抑圧信号と、スピーカ再生信号と、マイクロホンで収音された混合音信号とを入力し、
 非線形処理により第1抑圧信号からスピーカ再生信号を更に抑圧した第2抑圧信号を出力する
 信号処理方法をコンピュータに実行させるプログラムである。
図1は、エコーキャンセル処理の基本的な概念が説明される際に参照される図である。 図2は、一実施形態にかかる信号処理装置の構成例を示すブロック図である。 図3は、一実施形態にかかる信号処理装置の一部の構成の詳細を示した図である。 図4Aおよび図4Bは、一実施形態にかかるAESの動作例が説明される際に参照される図である。 図5は、一実施形態にかかるAESがDNNを行う際の入力に関する第1の例を説明するための図である。 図6は、一実施形態にかかるAESがDNNを行う際の入力に関する第2の例を説明するための図である。 図7は、一実施形態にかかるAESがDNNを行う際の入力に関する第3の例を説明するための図である。 図8は、一実施形態にかかるAESがDNNを行う際の入力に関する第3の例を説明するための図である。 図9は、一実施形態にかかるAESがDNNを行う際の入力に関する第3の例を説明するための図である。 図10は、データベースを参照したRMI部の学習方法の一例を説明するための図である。 図11は、一実施形態にかかるAESがDNNを行う際の入力に関する第3の例を説明するための図である。 図12は、一実施形態にかかるAESがDNNを行う際の入力に関する第3の例を説明するための図である。 図13は、一実施形態にかかるAESがDNNを行う際の入力に関する第4の例を説明するための図である。
 以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<一実施形態>
<変形例>
<一実施形態>
[エコーキャンセルの基本的な概念]
 本実施形態の説明に先立ち、図1を参照して、エコーキャンセル処理の基本的な概念について概略的に説明する。先ず、ある時間フレームnにおけるスピーカ1Aによる出力信号を、参照信号x(n)と表記する。参照信号x(n)は、スピーカ1Aから出力された後、空間を通してマイクロホン1Bに入力される。このときマイクロホン1Bで得られる信号(収音信号)をマイク入力信号d(n)と表記する。
 スピーカ1Aからの出力音がマイクロホン1Bに到達するまでの空間伝達特性hは未知であり、エコーキャンセル処理では、この未知の空間伝達特性hを推定し、マイク入力信号d(n)から、推定した空間伝達特性を考慮した参照信号x(n)を差し引く処理が行われる。
[言葉の定義]
 本明細書で使用される言葉の定義は、以下の通りである。
・エコーキャンセラ(AEC: Acoustic Echo Canceller):スピーカから再生され、マイクロホンに回り込むスピーカ再生信号を抑圧する技術。
・線形エコーキャンセラ(線形処理):最もベーシックなAECでスピーカとマイクの伝達特性を線形フィルタリングにより差し引く技術。リアルタイム処理では、適応フィルタとしてLMS(Least Mean Square)法などが用いられる。
・非線形エコーキャンセラ(非線形処理):スピーカの歪みや筐体の共振によるノイズ、クリッピングなどの空間の伝達経路としてモデル化できない成分、および、前段の線形フィルタリングの推定精度などの理由で消しきれなかった成分を含む残留エコーを抑圧する技術。本明細書では、非線形エコーキャンセラは、線形エコーキャンセラに対してエコーサプレッション(AES:Acoustic Echo Suppression)と称される。非線形エコーキャンセラにかかるアルゴリズムの中身としては通常、非線形成分が発生する要因ごとに処理が異なる。なお、一般に「キャンセル」とは推定信号を生成し、入力信号から当該推定信号を差し引く処理を意味するのに対して、「サプレッション」とは、レベルを抑圧する技術を意味する。本明細書では、「サプレッション」には「キャンセル」することを含むこととする。
[信号処理装置]
 図2は、本実施形態にかかる信号処理装置(信号処理装置100)の構成例を示す図である。信号処理装置100は、例えば、スマートフォンやスマートスピーカ、ロボット等の電子機器に搭載される。
 信号処理装置100が有するマイクロホンを介して、信号処理装置100が有するスピーカから再生されるスピーカ再生信号と所定の対象信号との混合音である混合音信号(以下、マイク入力信号とも称される)が収音される。マイク入力信号に含まれるエコー等が効果的に抑圧(低減)される。エコー等が抑圧された信号に対して所定の処理が行われる。所定の処理は、ビームフォーミング処理、ノイズリダクション処理および音声認識処理の少なくとも一つである。音声認識処理の結果に応じて、信号処理装置100が適用される電子機器が、アプリケーションに応じた処理を実行する。マイク入力信号から空間を伝搬したスピーカ再生信号の成分が効果的に除去されるので、音声認識の精度や通話品質を向上させることができる。
 図2に示すように、信号処理装置100は、例えば、エコーキャンセル処理部の一例であるAEC10と、処理部の一例であるAES11と、BF(Beam Forming)12と、NR(Noise Reduction)13とを有している。AEC10は、AES11の前段に設けられる。
 エコーキャンセル処理部の一例であるAEC10は、線形エコーキャンセラとしてLMS法等を適用することにより、電子機器が有するスピーカとマイクロホンの伝達係数を線形フィルタリングにより差し引く。すなわち、AEC10は、マイク入力信号からスピーカ再生信号を線形処理により抑圧することで、第1抑圧信号(以下、Aec信号と適宜、称する)を生成、出力する。Aec信号がAES11に供給される。
 AES11は、スピーカの歪みや筐体の共振によるノイズ、クリッピングなどの空間の伝達経路としてモデル化できない成分、および、前段のAEC10における線形フィルタリングの推定精度などの理由で消しきれなかった成分を含む残留エコーを抑圧する。なお、詳細は後述するが、AES11は、所定の入力に基づく機械学習を行うことにより学習モデルを生成する。AES11は、生成した学習モデルを用いた非線形処理により、Aec信号からスピーカ再生信号を更に抑圧した第2抑圧信号(以下、Aes信号と適宜、称する)を生成する。
 なお、AES11による機械学習の手法には、例えば、ディープニューラルネットワーク(以下、DNNと適宜、称する)が用いられる。DNNとは、人間の脳神経回路を模したモデルであり、人間が持つ学習能力をコンピュータ上で実現しようとする技法である。DNNは、事前に用意した大量の入力データを自ら学習する機構(多層パーセプトロン)に入力し、当該機構内で入力データの特徴量を自動的に学習させ、新規に未知の入力データがその機構に投入された際、精度の高い出力結果を判定・分類できる仕組みである。DNNによる学習が繰り返されることにより、予測出力を最適化するような学習モデルが導出される。なお、学習モデルの具体例として、本明細書では、パラメータやマスクが用いられる。
 BF12は、ビームフォーミング処理を行う。具体的には、BF12は、例えば、マイクロホンが複数ある場合に、音源から各マイクロホンへの音波伝搬がそれぞれ異なることに基づき、遅延およびフィルタにより位相や振幅を制御した信号同士を干渉させることで、特定の方向からの信号を強調あるいは低減する処理を行う。
 NR13は、ノイズリダクション処理を行う。ノイズリダクション処理としては、公知の処理を適用することができる。
 なお、マイクロホン(不図示)により収音され、デジタル形式に変換されたマイク入力信号は、AEC10に入力される。また、スピーカ(不図示)により再生されるスピーカ再生信号(以下、リファレンス信号(REF)とも称される)は、AEC10およびAES11のそれぞれに入力される。なお、マイク入力信号およびスピーカ再生信号は、有線を介して供給されるようにしてもよいし、無線を介して供給されるようにしてもよい。
 図3は、信号処理装置100の一部の構成の詳細を示した図である。信号処理装置100は、上述した構成の他に、STFT(Short Time Fourier Transform)21、22、および、ISTFT(Inverse STFT)23を有している。
 STFT21は、マイク入力信号を短いフレームに区切って、短時間フーリエ変換を行うことにより、時間波形であるマイク入力信号を周波数ドメインの信号に変換する。
 STFT22は、スピーカ再生信号を短いフレームに区切って、短時間フーリエ変換を行うことにより、時間波形であるマイク入力信号を周波数ドメインの信号に変換する。STFT21およびSTFT22から出力される音声信号は、AEC10およびAES11のそれぞれに供給される。
 ISTFT23は、AES11の出力信号に対して短時間フーリエ逆変換を行うことにより、周波数ドメインの信号から時間波形の信号に変換する。これにより、AES11の出力信号であるAes信号が生成される。
 AES11は、AEC10の出力信号であるAec信号に対して時間周波数マスク処理を行う。図4Aに示すように、AES11は、所定の入力に対してDNNを行うことにより、マスク(Mask)を得る。マスクは、例えば、各時間周波数に対応した0~1の間で設定される値である。図4Bに示すように、AES11は、例えば、乗算器25を有しており、AEC10の出力信号であるAec信号にマスクを掛け算することによりSTFT特徴量を得る。STFT特徴量に対してISTFT23による短時間フーリエ逆変換が行われることにより、Aes信号が生成される。
 なお、一般に、AES11によるDNNによる学習が事前に行われることにより学習モデルが生成され、当該学習モデルを適用した時間周波数マスク処理が行われるが、両者がパラレルに、すなわち、DNNが行われつつ、その結果得られる学習モデルを適用した時間周波数マスク処理が行われてもよい。また、短時間フーリエ変換等を行うこと無く、入出力を時間波形とすることもできるし、出力をマスク処理後に相当する時間周波数スペクトログラムとすることもできる。
[AESによる学習について]
 本実施形態では、AES11が機械学習(例えば、DNN)を行うことにより、事前に様々な非線形環境を学習し、原因の異なる非線形成分(スピーカの歪みや筐体の共振によるノイズ等)を抑圧した抑圧信号を出力するための学習モデルを生成する。かかる学習モデルを生成することにより、非線形成分の要因毎に対応したパラメータ数を用意する手法に比べてパラメータ数が増加してしまうことを抑制でき、且つ、チューニングの難易度も上がることなく、一つのブロックで処理を行うことができる。また、AES11の前段に線形エコーキャンセラ(本実施形態では、AEC10)を用いることで、発話歪みを抑えながらある程度エコー成分を抑圧することができ、多大なモデルサイズを設けずとも低遅延、低演算リソースで効率的に対象話者の成分を抽出することが可能になる。
(第1の例)
 以下では、AES11がDNNを行う際の入力に関する複数の例について説明する。図5は、AES11がDNNを行う際の入力に関する第1の例を説明するための図である。第1の例では、AES11が、AEC10の出力信号であるAec信号とスピーカ再生信号(Ref信号)の情報をもとに事前に多くの非線形成分による消し残り信号の学習を行ったモデルを作成する。具体的には、Aec信号が正解データとなるようにスピーカ再生信号を抑圧する学習が繰り返され、その結果、パラメータが得られる。かかるパラメータが適用されることにより、未知の信号が信号処理装置100に入力されたときにエコー成分を抑圧するようにAES11が動作する。
(第2の例)
 第1の例にかかる入力では、AEC10によって主要なエコー成分をどれだけ消せたかが不明であり、リファレンス信号であるスピーカ再生信号が与えられたとしても、クリーン信号と一度空間を通った信号ではスケールが合わないため、抑圧性能が低下する虞がある。そこで、本例では、図6に示すように、Aec信号と合わせて抑圧前のマイク入力信号を入力に加える。これにより、時間毎に線形成分がどれだけ消せたかが明らかになり、スピーカ再生信号の成分を残りの信号からどれだけ抑圧するべきかの判定がしやすくなり、スケールの予測性能を向上させることができる。
(第3の例)
 本例は、TTS(Text to Speech)などの特定話者らしさのモデルを事前学習しておき、補助的な入力として利用する例である。例えば、AES11の学習とは別に、機器自身にキャラクターのようなものが実装され、事前にどのような音声(話し方、内容、音量など)がスピーカから再生されるかわかっている場合、図7に示すように、そのキャラクターの発話の特徴(以下、特徴と適宜、略称する)をRMI(Reference Model Information)部31が事前学習によりモデル化する。かかる学習モデルを、AES11で生成された学習モデルと共にスピーカ再生信号に適用することにより抑圧すべき信号の決定精度を向上させることができる。より具体的には、原因の異なる非線形成分を抑圧しつつ、特定のキャラクターの声の成分のみを抽出および抑圧することが可能となる。
 第3の例について、具体的に説明する。図8に示すように、RMI部31に対しては、データベース(DB)から所定のキャラクターの特徴が供給される。キャラクターの特徴は、他のキャラクターの特徴と区別できる情報であり、例えば、キャラクターのID(Identification)、キャラクターの話し方、キャラクターの性別、キャラクターの声の周波数特性、キャラクターの感情、キャラクターの話速、キャラクターの音量等を挙げることができる。これらの特徴はRMI部31が学習可能なように、例えば、数値ベクトルとして保持されている。なお、データベースは、信号処理装置100を有する電子機器に内蔵されていてもよいし、クラウド上のサーバ装置等であってもよい。後者の場合、キャラクターの特徴は、インターネット等のネットワークを介して信号処理装置100のRMI部31に供給される。
 より具体的には、図9に示すように、RMI部31には、キャラクター毎、具体例としては、キャラクターA、B、Cのそれぞれの特徴が入力される。RMI部31は、例えば、各キャラクターのクリーンなTTSデータと、TTSデータを様々な環境でスピーカから再生し空間を経由したTTSデータとを入力とする学習を行うことにより、キャラクターの発話を抽出する学習モデルをキャラクター毎に生成する。
 図10は、データベースを参照したRMI部31の学習方法を説明するための図である。各データベース(キャラクター毎の特徴)のデータとそれに対応した再生信号の空間伝達特性やスピーカの歪みなどを含む入力信号を大量に入力し、出力結果が、正解データ(エコーが抑圧されたデータベースに対応するキャラクターの声の成分)に近づくようRMI部31が学習する。なお、RMI部31が学習する際に、上述した第1の例または第2の例のようにAES11が同時に学習する(マルチタスクラーニング)ことによりパラメータを更新してもよいし、AES11のパラメータを固定とし、RMI部31のパラメータのみを更新するようにしてもよい。学習の結果得られるパラメータが、例えば、Aes信号に対して適用される。
 なお、かかる学習は、データベース側で行われてよく、この場合には、特定のキャラクターに対応する学習モデルがRMI部31またはAES11に供給され、用いられてもよい。また、この場合、図11に示すように、新たなキャラクター(例えば、キャラクターD)が追加された場合には、キャラクターDに対応する学習済みのデータベースを、追加することにより対応することも可能である。キャラクターDに対応する学習済みのデータベースは、外部メモリを使用したり、学習済みのデータを、ネットワークを介して信号処理装置100に提供することにより追加することができる。これによりAES11にかかる構成を変更することなく、新たに追加するキャラクターに対応することができる。また、キャラクターDに対応する特徴をRMI部31に入力するだけもよい。例えば、RMI部31が、他のキャラクターの特徴を用いた学習を十分に繰り返している場合には、新たなキャラクターの特徴を入力するだけで当該キャラクターに対応するパラメータをRMI部31が生成してAES11に供給することができる。
 また、データベースを変更することにより共通のRMI部31の出力を変化させてもよいが、これに限定されるものではない。例えば、図12に示すように、キャラクターA、キャラクターB、キャラクターC・・に対応するRMI部として、RMI部31A、RMI部31B、RMI部31C・・を設ける。本例では、各RMI部31がデータベースの特徴を含んだモデルとなっており、それぞれ学習により得られるパラメータを保持している。各RMI部の前段には、それぞれスイッチ部(スイッチ部SWA、スイッチ部SWB、スイッチ部SWC・・)が設けられている。声を抽出したいキャラクターに対応するスイッチ部が選択されてオンされるとともに、他のスイッチ部はオフされる。各スイッチ部のオン/オフは、再生信号情報に基づいて制御される。再生信号情報は、信号処理装置100への操作に応じて生成されてもよいし、信号処理装置100の内部において自動で生成されてもよいし、信号処理装置100の外部から供給されてもよい。かかる例によれば、スイッチ部を切り替えることにより、対象のキャラクターをリアルタイムで切り替えることが可能となる。
(第4の例)
 本例では、近端話者(ユーザ)の特徴をモデルとして事前学習しておき、補助入力として利用する例である。具体的には、図13に示すように、AES11の学習とは別に、近端話者(ユーザー)の音声を話し方や音量、空間を通ることによって発生する残響成分などを、UMI(User Model Information)部41が事前学習することでモデル化してパラメータを得る。当該パラメータを用いた処理がAES11で行われる。より具体的には、UMI部41は、スピーカ再生信号がなく人が話している区間(発話区間)のスペクトルを学習する。かかる学習により得られるパラメータを利用することで、高精度な発話区間の検出が可能となる。発話区間に対して、RMI部31から供給されたパラメータを用いた処理が行われる。なお、パラメータUMI部41による事前学習は、信号処理装置100ではなくスマートフォンなど別端末でも可能である。
[本実施形態により得られる効果]
 以上説明した本実施形態によれば、下記の効果を得ることができる。
 非線形成分のノイズに対して個別的な対応する場合には、各処理を行うためのパラメータ数も増え、チューニングの難易度も上がる。しかしながら、本実施形態によれば、あらかじめ複数の非線形要因のデータを収集し、学習することにより、個別に対応することなく一つのブロックで処理を行うことができる。
 AES11の前段にAEC10を用いることで、発話歪みを抑えながらある程度エコー成分を抑圧することができ、機械学習に多大なモデルサイズを設けずとも低遅延、低演算リソースで効率的に対象話者の成分を抽出することが可能となる。
 機械学習の手法のなかには、未来情報を活用して性能を上げる手法もあるが、エコーキャンセラ処理は通常、信号処理の際に前段で用いられることが多く、極力システム遅延を少なくすることが求められる。本実施形態によれば、未来情報は使用せず、線形エコーキャンセラの出力の最新フレーム情報を入力とし、原理的に遅延なしでの処理が可能となる。
<変形例>
 以上、本開示の複数の実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。
 信号処理装置100が有するスピーカやマイクは、1個でもよいし、複数であってもよい。信号処理装置100の構成は、本開示の要旨を逸脱しない範囲で、信号処理装置100が適用される機器の構成に応じて適宜、変更することができる。
 上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。
 なお、本明細書中で例示された効果により本開示の内容が限定して解釈されるものではない。
 本開示は、以下の構成も採ることができる。
(1)
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
 非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する処理部を有する
 信号処理装置。
(2)
 前記処理部は、機械学習により得られる学習モデルを用いた非線形処理により、前記第2抑圧信号を生成する
 (1)に記載の信号処理装置。
(3)
 前記混合音信号から前記第1抑圧信号を生成するエコーキャンセル処理部を有する
 (1)または(2)に記載の信号処理装置。
(4)
 前記エコーキャンセル処理部は、前記処理部の前段に設けられる
 (3)に記載の信号処理装置。
(5)
 所定の話者に対応する発話の特徴を学習することにより得られる学習モデルが、前記第2抑圧信号に対して適用される
 (1)から(4)までの何れかに記載の信号処理装置。
(6)
 発話区間を学習することにより得られる学習モデルが適用されることで抽出された発話区間の信号に対して、所定の話者に対応する発話の特徴を学習することにより得られる前記学習モデルが適用される
 (5)に記載の信号処理装置。
(7)
 前記処理部の出力に対して、所定の処理が行われる
 (1)から(6)までの何れかに記載の信号処理装置。
(8)
 前記所定の処理は、ビームフォーミング処理、ノイズリダクション処理および音声認識処理の少なくとも一つの処理を含む
 (7)に記載の信号処理装置。
(9)
 前記マイクロホンおよび前記スピーカ再生信号を再生するスピーカを有する
 (1)から(8)までの何れかに記載の信号処理装置。
(10)
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
 非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する
 信号処理方法。
(11)
 スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
 前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
 非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する
 信号処理方法をコンピュータに実行させるプログラム。
10・・・AEC
11・・・AES
31・・・RMI部
41・・・UMI部
100・・・信号処理装置
DB・・・データベース

Claims (11)

  1.  スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
     前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
     非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する処理部を有する
     信号処理装置。
  2.  前記処理部は、機械学習により得られる学習モデルを用いた非線形処理により、前記第2抑圧信号を生成する
     請求項1に記載の信号処理装置。
  3.  前記混合音信号から前記第1抑圧信号を生成するエコーキャンセル処理部を有する
     請求項1に記載の信号処理装置。
  4.  前記エコーキャンセル処理部は、前記処理部の前段に設けられる
     請求項3に記載の信号処理装置。
  5.  所定の話者に対応する発話の特徴を学習することにより得られる学習モデルが、前記第2抑圧信号に対して適用される
     請求項1に記載の信号処理装置。
  6.  発話区間を学習することにより得られる学習モデルが適用されることで抽出された発話区間の信号に対して、所定の話者に対応する発話の特徴を学習することにより得られる前記学習モデルが適用される
     請求項5に記載の信号処理装置。
  7.  前記処理部の出力に対して、所定の処理が行われる
     請求項1に記載の信号処理装置。
  8.  前記所定の処理は、ビームフォーミング処理、ノイズリダクション処理および音声認識処理の少なくとも一つの処理を含む
     請求項7に記載の信号処理装置。
  9.  前記マイクロホンおよび前記スピーカ再生信号を再生するスピーカを有する
     請求項1に記載の信号処理装置。
  10.  スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
     前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
     非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する
     信号処理方法。
  11.  スピーカ再生信号と対象信号との混合音である混合音信号とをマイクロホンで収音し、
     前記混合音信号から前記スピーカ再生信号を線形処理により抑圧した第1抑圧信号と、前記スピーカ再生信号と、前記マイクロホンで収音された混合音信号とを入力し、
     非線形処理により前記第1抑圧信号から前記スピーカ再生信号を更に抑圧した第2抑圧信号を出力する
     信号処理方法をコンピュータに実行させるプログラム。
PCT/JP2021/001467 2020-02-26 2021-01-18 信号処理装置、信号処理方法およびプログラム WO2021171829A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE112021001228.2T DE112021001228T5 (de) 2020-02-26 2021-01-18 Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
US17/904,320 US20230060081A1 (en) 2020-02-26 2021-01-18 Signal processing device, signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-030136 2020-02-26
JP2020030136 2020-02-26

Publications (1)

Publication Number Publication Date
WO2021171829A1 true WO2021171829A1 (ja) 2021-09-02

Family

ID=77490889

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001467 WO2021171829A1 (ja) 2020-02-26 2021-01-18 信号処理装置、信号処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20230060081A1 (ja)
DE (1) DE112021001228T5 (ja)
WO (1) WO2021171829A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021167977A (ja) * 2020-10-12 2021-10-21 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612778B (zh) * 2023-07-18 2023-11-14 腾讯科技(深圳)有限公司 回声及噪声抑制方法、相关装置和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537219A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
JP2011254420A (ja) * 2010-06-04 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法、反響消去装置及び反響消去プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7327781B2 (ja) 2019-05-29 2023-08-16 日本電気株式会社 マッチング支援装置、マッチング支援方法、コンピュータプログラム及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537219A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
JP2011254420A (ja) * 2010-06-04 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法、反響消去装置及び反響消去プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021167977A (ja) * 2020-10-12 2021-10-21 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
JP7214798B2 (ja) 2020-10-12 2023-01-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
DE112021001228T5 (de) 2022-12-22
US20230060081A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
US11315587B2 (en) Signal processor for signal enhancement and associated methods
AU2013241928B2 (en) Apparatus and method for improving the perceived quality of sound reproduction by combining active noise cancellation and perceptual noise compensation
JP2683490B2 (ja) 適応性雑音除去装置
Lee et al. DNN-based residual echo suppression.
JP2007129736A (ja) 音声信号中の暗騒音を抑制する方法及び装置、並びに反響消去を伴う対応する装置
CN111031448B (zh) 回声消除方法、装置、电子设备和存储介质
WO2021171829A1 (ja) 信号処理装置、信号処理方法およびプログラム
KR20040030817A (ko) 통신 시스템, 에코 제거 수단 및 에코 제거 방법
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
JP2003250193A (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
Chun et al. Comparison of cnn-based speech dereverberation using neural vocoder
JP2011002535A (ja) 音声対話システム、音声対話方法、及びプログラム
JP6790659B2 (ja) 音響処理装置および音響処理方法
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
WO2022195955A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
Pathrose et al. MASTER: Microphone Array Source Time Difference Eco Canceller via Reconstructed Spiking Neural Network
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Yu et al. Neuralecho: Hybrid of Full-Band and Sub-Band Recurrent Neural Network For Acoustic Echo Cancellation and Speech Enhancement
Nezamdoust et al. Frequency-Domain Functional Links For Nonlinear Feedback Cancellation In Hearing Aids
Noor Adaptive Noise Cancellation Using Noise Dependent Affine Projection Algorithm
WO2024006778A1 (en) Audio de-reverberation
Puder et al. Decorrelation measures for stabilizing adaptive feedback cancellation in hearing aids
Tirupal et al. Implementation and Design of Noise Cancellation Using NLMS Algorithm in Microphones
Nakatani et al. Active Noise Control with Speech Enhancement Using Inverse Notch Filter
JP2005057413A (ja) 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21760817

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 21760817

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP