WO2021235750A1 - 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치 - Google Patents

강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치 Download PDF

Info

Publication number
WO2021235750A1
WO2021235750A1 PCT/KR2021/005759 KR2021005759W WO2021235750A1 WO 2021235750 A1 WO2021235750 A1 WO 2021235750A1 KR 2021005759 W KR2021005759 W KR 2021005759W WO 2021235750 A1 WO2021235750 A1 WO 2021235750A1
Authority
WO
WIPO (PCT)
Prior art keywords
current frame
covariance
beamforming
results
variance
Prior art date
Application number
PCT/KR2021/005759
Other languages
English (en)
French (fr)
Inventor
박형민
조병준
Original Assignee
주식회사 엠피웨이브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엠피웨이브 filed Critical 주식회사 엠피웨이브
Priority to US17/921,074 priority Critical patent/US20230178089A1/en
Publication of WO2021235750A1 publication Critical patent/WO2021235750A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the present invention relates to a beamforming method and apparatus using online likelihood maximization with direction vector estimation for robust speech recognition.
  • the sound input signal input through the microphone may include not only the target voice required for voice recognition but also noises that interfere with voice recognition.
  • Various studies are being conducted to improve the performance of voice recognition by removing noise from the sound input signal and extracting only the desired target voice.
  • the technical problem to be achieved by the present invention is to generate a direction vector by calculating the noise covariance based on the variance determined according to the output results corresponding to the input results, and to improve the extraction performance for the target sound source by updating the beamforming weight. It is to provide a target signal extraction device that can.
  • the apparatus for extracting a target signal may include a direction vector predictor and a beamformer.
  • the direction vector predictor generates an input signal covariance according to input results for each frequency over time, and generates a noise covariance based on a variance determined according to output results corresponding to the input results, the input signal covariance and A direction vector may be generated based on the noise covariance.
  • the beamformer may generate a beamforming weight according to the beamforming covariance and the direction vector determined according to the variance, and provide the output results based on the input results and the beamforming weight.
  • the variance of the noise covariance and the beamforming covariance may be determined based on output results.
  • the initial values of the noise covariance and the beamforming covariance may be determined based on the input results.
  • the noise covariance may be determined according to a larger value among the variance and the first constant value.
  • the noise covariance may be normalized according to a larger value among the variance and the first constant value.
  • the beamforming covariance may be determined according to a larger value of the variance and a second constant value.
  • the target signal extraction apparatus may repeatedly operate the direction vector predictor and the beamformer until the beamforming weights converge.
  • the target signal extraction system may include a direction vector predictor and a beamformer.
  • the direction vector predictor generates an input signal covariance according to input results for each frequency over time, and generates a noise covariance based on a variance determined according to output results corresponding to the input results and a predetermined mask, and the A direction vector may be generated based on the input signal covariance and the noise covariance.
  • the beamformer may generate a beamforming weight according to the beamforming covariance and the direction vector determined according to the variance, and provide the output results based on the input results and the beamforming weight.
  • the initial values of the noise covariance and the beamforming covariance may be determined according to a product of the input results and the mask.
  • the input results of the noise covariance may be updated as a product of the input results and the mask.
  • the mask may be calculated for each frame index and frequency index.
  • the noise covariance may be determined according to a larger value of the variance and a first constant value, and the noise covariance may be normalized according to a larger value of the variance and the first constant value. have.
  • the beamforming covariance is determined according to a larger value of the variance and a second constant value, and the target signal extracting apparatus uses the direction vector predictor and the beamformer until the beamforming weights converge. It can be operated repeatedly.
  • the online target signal extraction apparatus may include a direction vector predictor and a beamformer.
  • the direction vector predictor generates the current frame input signal covariance generated based on the previous frame input signal covariance corresponding to the previous frame and the current frame input results for each frequency according to the current frame, and the previous frame noise covariance corresponding to the previous frame , generates a current frame noise covariance based on a current frame variance estimation value generated according to current frame input results corresponding to the current frame and a previous frame beamforming weight corresponding to the previous frame, the current frame input signal covariance, the current frame
  • the current frame direction vector may be generated based on the frame noise covariance and the previous frame direction vector corresponding to the previous frame.
  • the beamformer generates a current frame beamforming variance estimation value generated according to the previous frame beamforming weight corresponding to the previous frame, the previous frame variance corresponding to the current frame input results and the previous frame output results, and corresponds to the previous frame.
  • a current frame beamforming inverse covariance is generated according to the previous frame inverse covariance, the current frame input results, and the current frame beamforming variance estimation value, and the current frame beam according to the current frame direction vector and the current frame inverse covariance
  • a forming weight may be generated, and the current frame output results may be provided based on the current frame input results and the current frame beamforming weight.
  • the current frame noise covariance may be normalized by a current frame variance estimate.
  • the online target signal extraction system may include a direction vector predictor and a beamformer.
  • the direction vector predictor generates the current frame input signal covariance generated based on the previous frame input signal covariance corresponding to the previous frame and the current frame input results for each frequency according to the current frame, and the previous frame noise covariance corresponding to the previous frame , the current frame input results corresponding to the current frame and generating a current frame noise covariance through a current frame variance estimate generated according to a predetermined mask, and a current frame direction based on the current frame input signal covariance, the current frame noise covariance, and a previous frame direction vector corresponding to the previous frame.
  • the beamformer generates a beamforming variance estimate of the current frame through the previous frame beamforming weight corresponding to the previous frame, the current frame input results, the previous frame variance corresponding to the previous frame output results, and a predetermined mask, and A current frame beamforming inverse covariance is generated according to the corresponding previous frame inverse covariance, the current frame input results, and the current frame beamforming variance estimation value, and the current frame beam according to the current frame direction vector and the current frame beamforming inverse covariance.
  • a forming weight may be generated, and the current frame output results may be provided based on the current frame input results and the current frame beamforming weight.
  • the current frame noise covariance may be generated based on the previous frame noise covariance and the current frame input results and a current frame variance estimation value generated through a predetermined mask.
  • the current frame beamforming variance estimation value may be generated based on the previous frame beamforming weight, the current frame input results, the previous frame variance, and a predetermined mask.
  • the weighted covariance and the weighted correlation vector may be determined according to a larger value of a variance and a second constant value, and the target signal extraction system may converge the de-echo filter and the beamforming weight.
  • the echo canceller, the direction vector predictor, and the beamformer may be repeatedly operated until the
  • the apparatus for extracting a target signal may include an echo canceller, an echo vector predictor, and a beamformer.
  • the echo canceller generates a weighted covariance based on a variance determined according to the past input results for each frequency over time and output results corresponding to the echo-cancelled input results, and generates the weighted covariance with the input results for each frequency over time and the past.
  • the direction vector predictor generates an input signal covariance according to the de-echoed input results, and generates a noise covariance based on a variance determined according to output results corresponding to the input results, the input signal covariance and the A direction vector can be generated based on the noise covariance.
  • the beamformer may generate a beamforming weight according to the beamforming covariance and the direction vector determined according to the variance, and provide the output results based on the echo-cancelled input results and the beamforming weight.
  • the weighted covariance, the weighted correlation vector, the noise covariance, and the beamforming covariance may be determined based on the output results.
  • the weighted covariance and initial values of the weighted correlation vector may be determined based on the input results.
  • the weighted covariance and the weighted correlation vector may be determined according to a larger value of the variance and the second constant value.
  • the initial values of the noise covariance and the beamforming covariance may be determined based on the echo-cancelled input results.
  • the noise covariance may be determined according to a larger value among the variance and the first constant value. Also, the noise covariance may be normalized according to a larger value among the variance and the first constant value.
  • the beamforming covariance may be determined according to a larger value of the variance and the second constant value.
  • the target signal extractor may repeatedly operate the echo canceller, the direction vector predictor, and the beamformer until the echo cancellation filter and the beamforming weight converge.
  • the target signal extraction system may include an echo canceller, a direction vector predictor, and a beamformer.
  • the echo canceller may include a weighted covariance generator, a weighted correlation vector generator, an echo cancellation filter generator, and an echo canceled signal generator.
  • the echo canceller generates a weighted covariance based on a variance determined according to past input results for each frequency over time and output results corresponding to the echo-cancelled input results, and the input results for each frequency over time and generate a weighted correlation vector based on the variance determined according to output results corresponding to the past input results and the echo-cancelled input results, and echo based on the weighted covariance and the weighted correlation vector
  • a cancellation filter may be generated, and the echo-cancelled input results may be generated based on the input results, the past input results, and the echo cancellation filter.
  • the direction vector predictor generates an input signal covariance according to the echo-cancelled input results for each frequency over time, and generates noise based on a predetermined mask and a variance determined according to the output results corresponding to the input results.
  • a covariance may be generated, and a direction vector may be generated based on the input signal covariance and the noise covariance.
  • the beamformer generates a beamforming weight according to the echo-cancelled input results, a beamforming covariance determined according to the variance, and the direction vector, and based on the echo-cancelled input results and the beamforming weight, the Output results can be provided.
  • the initial values of the noise covariance and the beamforming covariance may be determined according to a product of the echo-cancelled input results and the mask.
  • the deechoed input results of the noise covariance may be updated as a product of the deechoed input results and the mask.
  • the mask may be calculated for each frame index and frequency index.
  • the noise covariance may be determined according to a larger value of the variance and a first constant value, and the noise covariance may be normalized according to a larger value of the variance and the first constant value. have.
  • the beamforming covariance is determined according to a larger value of the variance and a second constant value
  • the target signal extraction system includes the echo canceller until the echo cancellation filter and the beamforming weight converge;
  • the direction vector predictor and the beamformer may be repeatedly operated.
  • the online target signal extraction apparatus may include an echo canceller, a direction vector predictor, and a beamformer.
  • the echo canceller may include a gain vector generator, a weighted inverse covariance generator, an echo cancellation filter generator, and a cancellation signal generator.
  • the echo canceller generates a current frame echo cancellation output estimate based on current frame input results corresponding to the current frame, current frame past input results, and a previous frame echo canceling filter corresponding to the previous frame, and corresponding to the previous frame.
  • a current frame echo cancellation variance estimate is generated based on the previous frame variance and the current frame echo cancellation output estimation value, and the previous frame weighted inverse covariance corresponding to the previous frame, the current frame echo cancellation output estimation value, and the current frame past input result generating a current frame gain vector based on , generate a current frame echo cancellation filter corresponding to the current frame based on the current frame past input results and the previous frame echo cancellation filter corresponding to the previous frame, and generate the current frame input results and the current frame past input results and the current frame echo cancellation filter, it is possible to generate current frame echo cancellation input results.
  • the direction vector predictor generates a current frame input signal covariance generated based on the previous frame input signal covariance corresponding to the previous frame and the current frame echo cancellation input results for each frequency according to the current frame, and the current frame echo cancellation Generates a current frame variance estimate based on the input results and the previous frame beamforming weight, generates a current frame noise covariance based on a previous frame noise covariance corresponding to the previous frame and the current frame variance estimate value, and the current frame A current frame direction vector may be generated based on the frame input signal covariance, the current frame noise covariance, and the previous frame direction vector.
  • the beamformer generates a current frame beamforming variance estimation value according to a previous frame beamforming weight, the current frame echo-removed input results, and the previous frame variance, and generates a previous frame inverse covariance and the current frame echo-rejected input results. and generating a current frame beamforming inverse covariance based on the current frame beamforming variance estimation value, generating a current frame beamforming weight according to the current frame beamforming inverse covariance and the current frame direction vector, and removing the current frame echo Current frame output results may be provided based on the received input results and the current frame beamforming weight.
  • the current frame noise covariance may be normalized by the current frame variance estimate value.
  • the on-line target signal extraction apparatus generates the current frame gain vector based on the current frame variance estimation value determined according to the current frame output results corresponding to the current frame input results.
  • the target by calculating the current frame echo cancellation filter to generate the current frame echo cancellation input results, calculating the current frame noise covariance to generate the current frame direction vector, and updating the current frame beamforming weight It is possible to increase the extraction performance of the sound source.
  • the online target signal extraction system may include an echo canceller, a direction vector predictor, and a beamformer.
  • the echo canceller may include a gain vector generator, a weighted inverse covariance generator, an echo cancellation filter generator, and a cancellation signal generator.
  • the echo canceller generates a current frame echo cancellation output estimate based on current frame input results corresponding to the current frame, current frame past input results, and a previous frame echo canceling filter corresponding to the previous frame, and corresponding to the previous frame. Generates a current frame echo cancellation variance estimate based on the previous frame variance and the echo cancellation output estimate, and adds the previous frame weighted inverse covariance corresponding to the previous frame, the current frame echo cancellation output estimate, and the current frame past input results.
  • a current frame echo cancellation filter corresponding to the current frame is generated based on the current frame past input results and the previous frame echo cancellation filter corresponding to the previous frame, and the current frame input results and the current frame past input results and generating echo-cancelled input results of the current frame based on the current frame echo cancellation filter.
  • the direction vector predictor generates the current frame input signal covariance corresponding to the previous frame and the current frame input signal covariance generated based on the current frame echo-removed input results for each frequency according to the current frame and the previous frame input signal covariance corresponding to the previous frame.
  • a current frame noise covariance is generated based on a previous frame noise covariance, the current frame echo-cancelled input results, and a current frame variance estimate generated through a predetermined mask, the current frame input signal covariance, the current frame noise covariance and A current frame direction vector may be generated based on the previous frame direction vector.
  • the beamformer generates a current frame beamforming variance estimate according to a previous frame beamforming weight, the current frame echo-removed input results, the previous frame variance, and the predetermined mask, and generates a previous frame inverse covariance and the current frame echo
  • a current frame beamforming inverse covariance determined according to the removed input results and the current frame beamforming variance estimation value is generated, and a current frame beamforming weight is generated according to the current frame direction vector and the current frame inverse covariance, and , may provide current frame output results based on the current frame echo-cancelled input results and the current frame beamforming weight.
  • the current frame noise covariance may be generated based on the previous frame noise covariance, the current frame echo-cancelled input results, and the current frame variance estimate generated through the predetermined mask.
  • the current frame beamforming variance estimation value may be generated based on the previous frame beamforming weight, the current frame echo-cancelled input results, the previous frame variance, and the predetermined mask.
  • the target signal extraction apparatus calculates the noise covariance based on the variance determined according to the output results corresponding to the input results, generates a direction vector, and updates the beamforming weight to improve the extraction performance for the target sound source. can be raised
  • FIG. 1 is a view showing an apparatus for extracting a target signal according to embodiments of the present invention.
  • FIG. 2 is a diagram illustrating an example of a direction vector predictor included in the apparatus for extracting a target signal of FIG. 1 .
  • FIG. 3 is a diagram illustrating an example of a beamformer included in the apparatus for extracting a target signal of FIG. 1 .
  • FIG. 4 is a diagram illustrating a target signal extraction system according to embodiments of the present invention.
  • FIG. 5 is a diagram illustrating an example of a direction vector predictor included in the target signal extraction system of FIG. 4 .
  • FIG. 6 is a diagram illustrating an example of a beamformer included in the target signal extraction system of FIG. 4 .
  • FIG. 7 is a diagram illustrating an on-line target signal extraction apparatus according to embodiments of the present invention.
  • FIG. 8 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction apparatus of FIG. 7 .
  • FIG. 9 is a diagram illustrating an example of a beamformer included in the online target signal extraction apparatus of FIG. 7 .
  • FIG. 10 is a diagram illustrating an online target signal extraction system according to embodiments of the present invention.
  • FIG. 11 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction system of FIG. 10 .
  • FIG. 12 is a diagram illustrating an example of a beamformer included in the online target signal extraction system of FIG. 10 .
  • FIG. 13 is a diagram illustrating an example of an apparatus for extracting a target signal according to embodiments of the present invention.
  • FIG. 14 is a diagram illustrating an example of an echo canceller included in the apparatus for extracting a target signal of FIG. 13 .
  • 15 is a diagram illustrating an example of a direction vector predictor included in the apparatus for extracting a target signal of FIG. 13 .
  • FIG. 16 is a diagram illustrating an example of a beamformer included in the apparatus for extracting a target signal of FIG. 13 .
  • 17 is a diagram illustrating an example of a target signal extraction system according to embodiments of the present invention.
  • FIG. 18 is a diagram illustrating an example of a direction vector predictor included in the target signal extraction system of FIG. 17 .
  • FIG. 19 is a diagram illustrating an example of a beamformer included in the target signal extraction system of FIG. 17 .
  • 20 is a diagram illustrating an example of an on-line target signal extraction apparatus according to embodiments of the present invention.
  • 21 is a diagram illustrating an example of an echo canceller included in the online target signal extraction apparatus of FIG. 20 .
  • FIG. 22 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction apparatus of FIG. 20 .
  • FIG. 23 is a diagram illustrating an example of a beamformer included in the online target signal extraction apparatus of FIG. 20 .
  • 24 is a diagram illustrating an example of an online target signal extraction system according to embodiments of the present invention.
  • 25 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction system of FIG. 24 .
  • 26 is a diagram illustrating an example of a beamformer included in the online target signal extraction system of FIG. 24 .
  • FIG. 1 is a view showing an apparatus for extracting a target signal according to embodiments of the present invention
  • FIG. 2 is a view showing an example of a direction vector predictor included in the apparatus for extracting a target signal of FIG. 1
  • FIG. It is a view showing an example of a beamformer included in the target signal extraction apparatus.
  • the target signal extraction apparatus 10 may include a direction vector predictor 100 and a beamformer 200 .
  • the direction vector predictor 100 may include an input signal covariance generator 110 , a noise covariance generator 120 , and a vector generator 130 .
  • the direction vector predictor 100 generates an input signal covariance (IC) according to the input results (XS) for each frequency according to time, and a variance determined according to the output results (OR) corresponding to the input results (XS)
  • a noise covariance (NC) may be generated based on
  • a direction vector (HV) may be generated based on the input signal covariance (IC) and the noise covariance (NC).
  • the input signal covariance generator 110 may generate the input signal covariance IC according to the input results XS for each frequency over time.
  • the input signal covariance (IC) can be expressed as [Equation 1] below.
  • the input signal covariance is the number of frames, l is the frame index, k is the frequency index, may be input results.
  • the noise covariance generator 120 may generate the noise covariance NC based on a variance determined according to the output results OR corresponding to the input results XS.
  • the noise covariance (NC) can be expressed as [Equation 2] below.
  • the noise covariance is distributed, is the first constant value, is the number of frames, l is the frame index, k is the frequency index, may be input results.
  • the vector generator 130 may generate the direction vector HV based on the input signal covariance (IC) and the noise covariance (NC).
  • the direction vector HV can be expressed as [Equation 3] below.
  • the target sound source covariance is the eigenvector extraction function corresponding to the largest eigenvalue, may be a direction vector.
  • the beamformer 200 generates a beamforming weight (BFW) according to a beamforming covariance (BC) and a direction vector (HV) determined according to the input results (XS) and the variance, and the input results (XS) and Output results OR may be provided based on the beamforming weight BFW.
  • BFW beamforming weight
  • BC beamforming covariance
  • HV direction vector
  • the beamformer 200 may include a beamforming weight generator 210 and an output generator 220 .
  • the beamforming weight generator 210 may generate the beamforming weight BFW according to the input results XS and the beamforming covariance BC and the direction vector HV determined according to the variance.
  • the beamforming covariance (BC) can be expressed as [Equation 4] below.
  • the beamforming covariance may be a second constant value.
  • the beamforming weight (BFW) can be expressed as in [Equation 5] below.
  • the beamforming weight is the diagonal loading constant value, may be an identity matrix.
  • the output generator 220 may provide output results OR based on the input results XS and the beamforming weight BFW.
  • the variance of the noise covariance NC and the beamforming covariance BC may be determined based on the output results OR.
  • the variance of the noise covariance (NC) and the beamforming covariance (BC) may be expressed as in [Equation 7] below.
  • the output results may be the number of adjacent frames.
  • initial values of the noise covariance NC and the beamforming covariance BC may be determined based on the input results XS.
  • an initial value of variance used in noise covariance (NC) and beamforming covariance (BC) may be expressed as in [Equation 8] below.
  • the noise covariance NC may be determined according to a larger value of the variance and the first constant value. Also, the noise covariance NC may be normalized according to a larger value among the variance and the first constant value. For example, the first constant value may be 10 ⁇ -6.
  • the beamforming covariance BC may be determined according to a larger value among the variance and the second constant value.
  • the second constant value may be 10 ⁇ -6.
  • the target signal extraction apparatus 10 may repeatedly operate the direction vector predictor 100 and the beamformer 200 until the beamforming weight BFW converges. After generating the direction vector HV through the direction vector predictor 100 , the target signal extraction apparatus 10 may repeat the operation of generating the beamforming weight BFW through the beamformer 200 .
  • the target signal extraction apparatus 10 according to the present invention generates a direction vector HV by calculating a noise covariance NC based on a variance determined according to the output results OR corresponding to the input results XS. And, by updating the beamforming weight (BFW), it is possible to increase the extraction performance for the target sound source.
  • FIG. 4 is a diagram illustrating a target signal extraction system according to embodiments of the present invention
  • FIG. 5 is a diagram illustrating an example of a direction vector predictor included in the target signal extraction system of FIG. 4, and
  • FIG. It is a diagram showing an example of a beamformer included in the target signal extraction system.
  • the target signal extraction system 11 may include a direction vector predictor 100 and a beamformer 200 .
  • the direction vector predictor 100 may include an input signal covariance generator 110 , a noise covariance generator 120 , and a vector generator 130 .
  • the direction vector predictor 100 generates an input signal covariance (IC) according to the input results (XS) for each frequency according to time, and a variance determined according to the output results (OR) corresponding to the input results (XS) and generating the noise covariance NC based on the predetermined mask MSK, and generating the direction vector HV based on the input signal covariance IC and the noise covariance NC.
  • the beamformer 200 generates a beamforming weight (BFW) according to a beamforming covariance (BC) and a direction vector (HV) determined according to the input results (XS) and the variance, and the input results (XS) and Output results OR may be provided based on the beamforming weight BFW.
  • BFW beamforming weight
  • BC beamforming covariance
  • HV direction vector
  • the initial values of the noise covariance NC and the beamforming covariance may be determined according to a product of the input results XS and the mask MSK.
  • the initial value of the variance used in the noise covariance (NC) can be expressed as [Equation 9] below.
  • the input results XS of the noise covariance NC may be updated as a product of the input results XS and the mask MSK.
  • the input results XS used in the noise covariance NC may be updated as in Equation 10 below.
  • the mask MSK may be calculated for each frame index and frequency index.
  • a mask for each frame index and frequency index may be calculated based on a neural network or diffusion.
  • the noise covariance NC is determined according to a larger value of the variance and the first constant value, and the noise covariance NC is to be normalized according to the larger value of the variance and the first constant value.
  • the beamforming covariance (BC) is determined according to the larger of the variance and the second constant value, and the target signal extraction system 11 operates the direction vector predictor ( 100) and the beamformer 200 may be repeatedly operated.
  • FIG. 7 is a diagram illustrating an online target signal extraction apparatus according to embodiments of the present invention
  • FIG. 8 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction apparatus of FIG. 7
  • FIG. 9 is FIG. 7 is a diagram illustrating an example of a beamformer included in the online target signal extraction apparatus.
  • the online target signal extraction apparatus 20 may include a direction vector predictor 100 and a beamformer 200 .
  • the direction vector predictor 100 may include an input signal covariance generator 110 , a noise covariance generator 120 , and a vector generator 130 .
  • the direction vector predictor 100 generates the current frame input signal covariance (C_IC) generated based on the previous frame input signal covariance (P_IC) corresponding to the previous frame and the current frame input results (C_XS) for each frequency according to the current frame.
  • C_IC current frame input signal covariance
  • P_IC previous frame input signal covariance
  • C_XS current frame input results
  • C_XS current frame input results
  • P_BFW previous frame beamforming weight
  • P_NC previous frame noise covariance
  • P_NC current frame variance estimate corresponding to the previous frame
  • C_NC current frame noise covariance
  • C_HV current frame direction vector
  • C_IC current frame input signal covariance
  • C_NC current frame noise covariance
  • P_HV previous frame direction vector
  • the input signal covariance generator 110 generates a current frame input signal covariance generated based on a previous frame input signal covariance (P_IC) corresponding to the previous frame and current frame input results (C_XS) for each frequency according to the current frame. (C_IC) can be created.
  • P_IC previous frame input signal covariance
  • C_XS current frame input results
  • the current frame input signal covariance (C_IC) can be expressed as in [Equation 11] below.
  • the noise covariance generator 120 includes the previous frame noise covariance (P_NC) corresponding to the previous frame and the current frame input results (C_XS) for each frequency and the previous frame beamforming weight (P_BFW) corresponding to the input results in the previous frame.
  • the current frame noise covariance (C_NC) may be generated based on the current frame variance estimate generated according to .
  • C_NC current frame noise covariance
  • the current frame noise covariance is the current frame noise covariance, silver forgetting factor, is the previous frame noise covariance, is the current frame variance estimate, is the current frame estimation output results, is the beamforming weight of the previous frame, is the current frame input results, may be a third constant value.
  • the vector generator 130 may generate the current frame direction vector C_HV based on the current frame input signal covariance C_IC and the current frame noise covariance C_NC.
  • the current frame direction vector (C_HV) can be expressed as in [Equation 13] below.
  • the current frame direction vector is the previous frame direction vector, is the current frame target sound source covariance, is the normalized current frame direction vector, may be one element of the normalized current frame direction vector.
  • the beamformer 200 generates a current frame beamforming variance estimation value according to the previous frame beamforming weight (P_BFW), the current frame input results (C_XS), and the previous frame variance (P_V), and the previous frame inverse covariance (P_IBC) , the current frame input results (C_XS), the current frame beamforming inverse covariance (C_IBC) is generated based on the current frame beamforming variance estimation value, and the current frame beamforming inverse covariance (C_IBC) and the current frame direction vector (C_HV) are Accordingly, the current frame beamforming weight C_BFW may be generated, and current frame output results C_OR may be provided based on the current frame input results C_XS and the current frame beamforming weight C_BFW.
  • the beamformer 200 may include a beamforming weight generator 210 and an output generator 220 .
  • the beamforming weight generator 210 generates a current frame beamforming variance estimation value according to the current frame input results (C_XS), the previous frame beamforming weight (P_BFW), and the previous frame variance (P_V), and the current frame input results ( C_XS), the previous frame beamforming inverse covariance (P_IBC), and the current frame beamforming variance estimate value to generate the current frame beamforming inverse covariance (C_IBC), and the current frame beamforming inverse covariance (C_IBC) and the current frame direction vector (C_HV). ), the current frame beamforming weight (C_BFW) may be generated.
  • the current frame beamforming variance estimation value can be expressed as [Equation 14] below.
  • the current frame beamforming variance estimate is the current frame estimation output results, is the previous frame distribution, is the weight, may be a fourth constant value.
  • the current frame beamforming weight (C_BFW) can be expressed as in [Equation 15] below.
  • the current frame beamforming weight is the previous frame beamforming inverse covariance, is the current frame direction vector, may be the current frame beamforming inverse covariance.
  • the output generator 220 may provide the current frame output results C_OR based on the current frame input results C_XS and the current frame beamforming weight C_BFW.
  • the current frame noise covariance (C_NC) may be normalized by the current frame variance estimation value.
  • the on-line target signal extraction apparatus 20 calculates the current frame noise covariance based on the current frame variance estimation value determined according to the current frame output results C_OR corresponding to the current frame input results C_XS.
  • C_HV current frame direction vector
  • C_BFW current frame beamforming weight
  • FIG. 10 to 12 are diagrams illustrating an online target signal extraction system according to embodiments of the present invention
  • FIG. 11 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction system of FIG.
  • FIG. 10 is a diagram illustrating an example of a beamformer included in the online target signal extraction system of FIG. 10 .
  • the online target signal extraction system 21 may include a direction vector predictor 100 and a beamformer 200 .
  • the direction vector predictor 100 may include an input signal covariance generator 110 , a noise covariance generator 120 , and a vector generator 130 .
  • the direction vector predictor 100 generates the current frame input signal covariance (C_IC) generated based on the previous frame input signal covariance (P_IC) corresponding to the previous frame and the current frame input results (C_XS) for each frequency according to the current frame.
  • the current frame direction vector C_HV may be generated based on the frame input signal covariance (C_IC), the current frame noise covariance (C_NC), and the previous frame direction vector (P_HV).
  • the beamformer 200 generates a current frame beamforming variance estimate according to the previous frame beamforming weight (P_BFW), the current frame input results (C_XS), the previous frame variance, and a predetermined mask, and the previous frame inverse covariance (P_IBC). ), the current frame input results (C_XS) and the current frame beamforming inverse covariance (C_IBC) determined according to the current frame beamforming variance estimation value, and the current frame direction vector (C_HV) and the current frame beamforming inverse covariance (C_IBC) ), the current frame beamforming weight C_BFW may be generated, and current frame output results C_OR may be provided based on the current frame input results C_XS and the current frame beamforming weight C_BFW.
  • the current frame noise covariance (C_NC) may be generated based on the previous frame noise covariance (P_NC), the current frame input results (C_XS), and a current frame variance estimate generated through a predetermined mask.
  • the current frame noise covariance (C_NC) can be expressed as in [Equation 17] below.
  • the current frame noise covariance is a mask, silver forgetting factor, is the previous frame noise covariance, is the current frame variance estimate, is the element of the input results of the current frame, may be a third constant value.
  • the current frame beamforming variance estimation value may be generated based on the previous frame beamforming weight (P_BFW), the current frame input results (C_XS), the previous frame variance (P_V), and a predetermined mask.
  • the current frame beamforming variance estimate may be expressed as in [Equation 18] below.
  • the current frame estimation output results is the beamforming weight of the previous frame, is the current frame input results, is a mask, is the current frame beamforming variance estimate, is the previous frame distribution, is the weight, may be a fourth constant value.
  • FIG. 13 to 16 are diagrams illustrating examples of a target signal extraction apparatus according to embodiments of the present invention
  • FIG. 14 is a diagram illustrating an example of an echo canceller included in the target signal extraction apparatus of FIG. 13
  • FIG. 15 is 13 is a diagram illustrating an example of a direction vector predictor included in the apparatus for extracting a target signal of FIG. 13
  • FIG. 16 is a diagram illustrating an example of a beamformer included in the apparatus for extracting a target signal of FIG. 13 .
  • the target signal extraction apparatus 30 may include an echo canceller 300 , a direction vector predictor 100 , and a beamformer 200 .
  • the echo canceller 300 may include a weighted covariance generator 310 , a weighted correlation vector generator 320 , a de-echo filter generator 330 , and a de-echo-cancelled signal generator 340 .
  • the echo canceller 300 calculates the weighted covariance WC based on the variance determined according to the output results OR corresponding to the past input results XPS and the echo-cancelled input results DS for each frequency over time.
  • the echo-cancelled input results DS may be generated based on the results XPS and the echo cancellation filter DF.
  • the weighted covariance generator 310 may generate the weighted covariance WC according to the past input results XPS and the variance.
  • the weighted covariance (WC) can be expressed as [Equation 19] below.
  • weighted covariance is the past input results
  • silver dispersion is the number of delay frames, number of taps, may be a second constant value.
  • the weighted correlation vector generator 320 may generate the correlation vector WV weighted according to the frequency-dependent input results XS, past input results, and variance according to time.
  • the weighted correlation vector WV can be expressed as [Equation 20] below.
  • weighted correlation vector may be current frame input results.
  • the de-echo filter generator 330 may generate the de-echo filter DF based on the weighted covariance (WC) and the weighted correlation vector (WV).
  • the echo cancellation filter DF may be expressed as in [Equation 21] below.
  • the echo-cancelled signal generator 340 may generate the echo-cancelled input results DS based on the input results XS, the past input results XPS, and the echo cancellation filter DF.
  • the echo-cancelled input results DS can be expressed as in [Equation 22] below.
  • the direction vector predictor 100 generates an input signal covariance IC according to the echo-cancelled input results DS, and based on the variance determined according to the output results OR corresponding to the input results XS to generate a noise covariance (NC), and a direction vector (HV) may be generated based on the input signal covariance (IC) and the noise covariance (NC).
  • the input signal covariance generator 110 may generate the input signal covariance IC according to the echo-cancelled input results DS.
  • the input signal covariance (IC) can be expressed as [Equation 23] below.
  • the input signal covariance is the number of frames
  • l is the frame index
  • k is the frequency index
  • the noise covariance generator 120 may generate the noise covariance NC based on a variance determined according to output results OR corresponding to the echo-cancelled input results DS.
  • the noise covariance (NC) can be expressed as [Equation 24] below.
  • noise covariance is distributed, is the first constant value, is the number of frames, l is the frame index, k is the frequency index, may be echo-cancelled input results.
  • the vector generator 130 may generate the direction vector HV based on the input signal covariance (IC) and the noise covariance (NC). For example, the content of [Equation 3] described with reference to FIGS. 1 to 3 may be equally applied to the direction vector HV.
  • the beamformer 200 generates a beamforming weight (BFW) according to the echo-cancelled input results (DS), the beamforming covariance (BS) determined according to the variance, and the direction vector (HV), and generates the echo-cancelled input.
  • Output results OR may be provided based on the results DS and the beamforming weight BFW.
  • the beamformer 200 may include a beamforming weight generator 210 and an output generator 220 .
  • the beamforming weight generator 210 may generate the beamforming weight BFW according to the echo-cancelled input results DS, the beamforming covariance BC determined according to the variance, and the direction vector HV.
  • the beamforming covariance (BC) can be expressed as [Equation 25] below.
  • the beamforming covariance may be a second constant value.
  • the beamforming weight (BFW) can be expressed as in [Equation 26] below.
  • the beamforming weight is the diagonal loading constant value, may be an identity matrix.
  • the output generator 220 may provide output results OR based on the echo-cancelled input results DS and the beamforming weight BFW.
  • the weighted covariance (WC), the weighted correlation vector (WV), and the noise covariance (NC) and the beamforming covariance (BC) may be determined based on the output results (OR).
  • the weighted covariance (WC) and the variance used in the weighted correlation vector (WV) are equally applicable to the contents of [Equation 7] described in FIGS. 1 to 3 .
  • initial values of the weighted covariance WC and the weighted correlation vector WV may be determined based on the input results XS.
  • the initial value of the variance used in the weighted covariance (WC) and the weighted correlation vector (WV) may be expressed as [Equation 28] below.
  • the number of adjacent frames is the number of channels of the input results, may be a frame index.
  • the weighted covariance WC and the weighted correlation vector WV may be determined according to a larger value of the variance and the second constant value.
  • initial values of the noise covariance NC and the beamforming covariance BC may be determined based on the echo-cancelled input results DS.
  • an initial value of variance used in noise covariance (NC) and beamforming covariance (BC) may be expressed as [Equation 29] below.
  • the noise covariance NC may be determined according to a larger value of the variance and the first constant value. Also, the noise covariance NC may be normalized according to a larger value among the variance and the first constant value.
  • the beamforming covariance BC may be determined according to a larger value among the variance and the second constant value.
  • the target signal extraction apparatus 30 includes the echo canceller 300, the direction vector predictor 100, and the beamformer 200 until the echo cancellation filter DF and the beamforming weight BFW converge. ) can be repeatedly operated.
  • the target signal extraction apparatus 30 generates the echo-cancelled input results DS through the echo canceller 300 , and generates the direction vector HV through the direction vector predictor 100 , and then generates a beamformer ( 200), the operation of generating the beamforming weight (BFW) may be repeated.
  • the target signal extraction apparatus 30 according to the present invention calculates the weighted covariance WC and the weighted correlation vector WV based on the variance determined according to the output results OR corresponding to the input results XS.
  • the target by calculating the dereverberation filter (DF) through the It is possible to increase the extraction performance of the sound source.
  • FIG. 17 to 19 are diagrams illustrating examples of a target signal extraction system according to embodiments of the present invention
  • FIG. 18 is a diagram illustrating an example of a direction vector predictor included in the target signal extraction system of FIG. 17,
  • FIG. 19 FIG. 17 is a diagram illustrating an example of a beamformer included in the target signal extraction system of FIG. 17 .
  • the target signal extraction system 31 may include an echo canceller 300 , a direction vector predictor 100 , and a beamformer 200 .
  • the echo canceller 300 may include a weighted covariance generator 310 , a weighted correlation vector generator 320 , a de-echo filter generator 330 , and a de-echo-cancelled signal generator 340 .
  • the echo canceller 300 calculates the weighted covariance WC based on the variance determined according to the output results OR corresponding to the past input results XPS and the echo-cancelled input results DS for each frequency over time.
  • the echo-cancelled input results DS may be generated based on the results XPS and the echo cancellation filter DF.
  • the direction vector predictor 100 generates an input signal covariance (IC) according to the echo-cancelled input results DS for each frequency according to time, and generates output results OR corresponding to the echo-cancelled input results DS. ) and generates a noise covariance (NC) based on a predetermined mask (MSK) and a direction vector (HV) based on the input signal covariance (IC) and noise covariance (NC). .
  • the beamformer 200 generates a beamforming weight (BFW) according to the dereflected input results (DS) and the beamforming covariance (BC) and the direction vector (HV) determined according to the variance, and generates the dereverberated input. Output results OR may be provided based on the results DS and the beamforming weight BFW.
  • initial values of the noise covariance NC and the beamforming covariance BC may be determined according to a product of the echo-cancelled input results DS and the mask MSK.
  • an initial value of variance used in noise covariance (NC) and beamforming covariance (BC) may be expressed as in [Equation 30] below.
  • silver mask is the echo-cancelled input results, may be the number of channels of input results.
  • the de-echoed input results DS of the noise covariance NC may be updated as a product of the de-echoed input results DS and the mask MSK.
  • the echo-cancelled input results DS used in the noise covariance NC may be updated as in [Equation 31] below.
  • the mask MSK may be calculated for each frame index and frequency index.
  • a mask for each frame index and frequency index may be calculated based on a neural network or diffusion.
  • the noise covariance NC is determined according to a larger value of the variance and the first constant value, and the noise covariance NC is to be normalized according to the larger value of the variance and the first constant value.
  • the beamforming covariance BC is determined according to a larger value among the variance and the second constant value, and the target signal extraction system 31 converges the echo cancellation filter DF and the beamforming weight BFW.
  • the echo canceller 300 , the direction vector predictor 100 , and the beamformer 200 may be repeatedly operated until .
  • FIG. 20 to 23 are diagrams illustrating examples of an on-line target signal extraction apparatus according to embodiments of the present invention
  • FIG. 21 is a diagram illustrating an example of an echo canceller included in the online target signal extraction apparatus of FIG. 20
  • 22 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction apparatus of FIG. 20
  • FIG. 23 is a diagram illustrating an example of a beamformer included in the online target signal extraction apparatus of FIG. 20 .
  • the online target signal extraction apparatus 40 may include an echo canceller 300 , a direction vector predictor 100 , and a beamformer 200 .
  • the echo canceller 300 may include a gain vector generator 350 , a weighted inverse covariance generator 360 , a cancellation filter generator 330 , and a cancellation signal generator 340 .
  • the echo canceller 300 cancels echo of the current frame based on the current frame input results (C_XS) corresponding to the current frame, the current frame past input results (C_XPS), and the previous frame echo cancellation filter (P_DF) corresponding to the previous frame.
  • C_EDS Generates an output estimation value (C_EDS), generates a current frame echo cancellation variance estimation value based on a previous frame variance (P_V) corresponding to the previous frame and a current frame echo cancellation output estimation value (C_EDS) corresponding to the previous frame, and generates a previous frame corresponding to the previous frame
  • the current frame gain vector (C_GV) is generated based on the weighted inverse covariance (P_IWC), the current frame echo cancellation output estimate (C_EDS), and the current frame past input results (C_XPS), and the previous frame weighted inverse covariance (P_IWC) , generates the current frame weighted inverse covariance (C_IWC) based on the current frame past input results (C_XPS) and the current frame gain vector (C_GV), and the current frame gain vector (C_GV) and the current frame past input results (C_XPS) ) and the previous frame echo cancellation filter (P_DF) corresponding to the previous frame, the current frame
  • the gain vector generator 350 calculates the current frame echo cancellation output estimation value (C_EDS) based on the current frame input results (C_XS), the current frame past input results (C_XPS), and the previous frame echo cancellation filter (P_DF).
  • C_EDS current frame echo cancellation output estimation value
  • C_XS current frame input results
  • C_XPS current frame past input results
  • P_DF previous frame echo cancellation filter
  • C_EDS The current frame echo cancellation output estimation value (C_EDS) can be expressed as in [Equation 32] below.
  • the current frame echo cancellation output estimate is the current frame input results, is the previous frame echo cancellation filter, may be input results in the past of the current frame.
  • the gain vector generator 350 may generate an estimated current frame de-echo-cancellation variance based on the previous frame variance (P_V) and the current frame de-echo-cancellation output estimate (C_EDS).
  • the current frame echo cancellation variance estimate can be expressed as [Equation 33] below.
  • the gain vector generator 350 may generate the current frame gain vector C_GV based on the previous frame weighted inverse covariance P_IWC, the current frame past input results C_XPS, and the current frame variance estimate value.
  • the current frame gain vector (C_GV) can be expressed as in [Equation 34] below.
  • the weighted inverse covariance generator 360 generates the current frame weighted inverse covariance (C_IWC) based on the previous frame weighted inverse covariance (P_IWC), the current frame past input results (P_XPS), and the current frame gain vector (C_GV). can do.
  • C_IWC current frame weighted inverse covariance
  • the echo cancellation filter generator 330 generates a current frame echo cancellation filter (C_DF) based on the previous frame echo cancellation filter (P_DF), the current frame echo cancellation output estimate value (C_EDS), and the current frame past input results (C_XPS).
  • C_DF current frame echo cancellation filter
  • P_DF previous frame echo cancellation filter
  • C_EDS current frame echo cancellation output estimate value
  • C_XPS current frame past input results
  • the current frame echo cancellation filter (C_DF) can be expressed as [Equation 36] below.
  • the current frame echo cancellation filter is the previous frame echo cancellation filter, is the current frame gain vector, may be a current frame echo cancellation output estimate value.
  • the echo cancellation signal generator 340 generates the current frame echo cancellation input results C_DS based on the current frame input results C_XS, the current frame echo cancellation filter C_DF, and the current frame past input results C_XPS. can create
  • the current frame echo cancellation input results C_DS can be expressed as in [Equation 37] below.
  • the current frame echo-removed input results may be a current frame echo cancellation filter.
  • the direction vector predictor 100 is a current frame input signal covariance (C_IC) generated based on the previous frame input signal covariance (P_IC) corresponding to the previous frame and the current frame echo-cancelled input results (C_DS) for each frequency according to the current frame ), generate a current frame variance estimate based on the current frame echo-cancelled input results (C_DS) and the previous frame beamforming weight (P_BFW), and the previous frame noise covariance (P_NC) and current
  • the current frame noise covariance (C_NC) is generated based on the frame variance estimate, and the current frame direction vector (C_HV) is based on the current frame input signal covariance (C_IC), the current frame noise covariance (C_NC), and the previous frame direction vector (P_HV). ) can be created.
  • the input signal covariance generator 110 generates the current frame based on the previous frame input signal covariance (P_IC) corresponding to the previous frame and the current frame echo-cancelled input results (C_DS) for each frequency according to the current frame.
  • An input signal covariance (C_IC) can be generated.
  • the current frame input signal covariance (C_IC) can be expressed as in [Equation 38] below.
  • the noise covariance generator 120 includes the previous frame noise covariance (P_NC) corresponding to the previous frame and the current frame echo-removed input results (C_DS) for each frequency and the previous frame beamforming weight corresponding to the input results in the previous frame.
  • the current frame noise covariance (C_NC) may be generated based on the current frame variance estimate generated according to (P_BFW).
  • C_NC current frame noise covariance
  • the current frame noise covariance is the current frame noise covariance, silver forgetting factor, is the previous frame noise covariance, is the current frame variance estimate, is the current frame estimation output results, is the beamforming weight of the previous frame, is the current frame echo-removed input results, may be a third constant value.
  • the vector generator 130 may generate the current frame direction vector (C_HV) based on the current frame input signal covariance (C_IC) and the current frame noise covariance (C_NC), and [Equation 13] can be equally applied.
  • the beamformer 200 generates a current frame beamforming variance estimate according to the previous frame beamforming weight (P_BFW), the current frame echo-removed input results (C_DS), and the previous frame variance (P_V), and the previous frame inverse covariance (P_IBC), current frame echo-cancelled input results (C_DS), and current frame beamforming inverse covariance (C_IBC) are generated based on the current frame beamforming variance estimation value, and current frame beamforming inverse covariance (C_IBC) and current frame A current frame beamforming weight (C_BFW) is generated according to the direction vector (C_HV), and current frame output results (C_OR) are generated based on the current frame echo-removed input results (C_DS) and the current frame beamforming weight (C_BFW) can provide
  • the beamformer 200 may include a beamforming weight generator 210 and an output generator 220 .
  • the beamforming weight generator 210 generates a current frame beamforming variance estimate according to the current frame echo-removed input results (C_DS), the previous frame beamforming weight (P_BFW), and the previous frame variance (P_V), and the current frame echo
  • a current frame beamforming inverse covariance (C_IBC) is generated through the removed input results (C_DS) and the previous frame beamforming inverse covariance (P_IBC) and the current frame beamforming variance estimation value, and the current frame beamforming inverse covariance (C_IBC) and A current frame beamforming weight (C_BFW) may be generated according to the current frame direction vector (C_HV).
  • the current frame beamforming weight (C_BFW) can be expressed as in [Equation 40] below.
  • the current frame beamforming weight is the previous frame beamforming inverse covariance
  • the current frame direction vector is the current frame beamforming inverse covariance
  • the current frame beamforming inverse covariance may be input results from which the echo of the current frame has been removed.
  • the output generator 220 may provide the current frame output results C_OR based on the current frame echo-cancelled input results C_DS and the current frame beamforming weight C_BFW.
  • the current frame noise covariance (C_NC) may be normalized by the current frame variance estimate value.
  • the on-line target signal extraction apparatus 40 provides a current frame gain vector (C_GV) based on a current frame variance estimation value determined according to the current frame output results (C_OR) corresponding to the current frame input results (C_XS).
  • C_DF current frame echo cancellation filter
  • C_DS current frame echo cancellation input results
  • C_NC current frame noise covariance
  • C_HV current frame direction vector
  • C_BFW beamforming weight
  • FIG. 24 to 26 are diagrams illustrating an online target signal extraction system according to embodiments of the present invention
  • FIG. 25 is a diagram illustrating an example of a direction vector predictor included in the online target signal extraction system of FIG. 24,
  • FIG. 26 FIG. 24 is a diagram illustrating an example of a beamformer included in the online target signal extraction system of FIG. 24 .
  • the online target signal extraction system 41 may include an echo canceller 300 , a direction vector predictor 100 , and a beamformer 200 .
  • the echo canceller 300 may include a gain vector generator 350 , a weighted inverse covariance generator 360 , a cancellation filter generator 330 , and a cancellation signal generator 340 .
  • the echo canceller 300 cancels echo of the current frame based on the current frame input results (C_XS) corresponding to the current frame, the current frame past input results (C_XPS), and the previous frame echo cancellation filter (P_DF) corresponding to the previous frame.
  • C_EDS Generate an output estimate
  • C_EDS Generate an output estimate
  • C_EDS Generate an output estimate
  • P_V previous frame variance
  • C_EDS echo-cancellation output estimate
  • C_EDS current frame gain vector
  • P_IWC inverse covariance
  • C_XPS current frame echo cancellation output estimate
  • C_IWC current frame past input results
  • P_IWC previous frame weighted inverse covariance
  • the current A current frame weighted inverse covariance (C_IWC) is generated based on the frame past input results (C_XPS) and the current frame gain vector (C_GV), and the current frame gain vector (C_GV), the current frame past input results (C_XPS) and A current frame echo cancellation filter (C_DF) corresponding to the current frame is generated based on the previous frame echo cancellation filter (P_DF) corresponding to the previous frame echo cancellation filter (P_DF) corresponding to the previous frame echo cancellation filter (P_DF) corresponding to the previous frame echo cancellation filter
  • the direction vector predictor 100 is a current frame input signal covariance (C_IC) generated based on the previous frame input signal covariance (P_IC) corresponding to the previous frame and the current frame echo-cancelled input results (C_DS) for each frequency according to the current frame ), and the current frame noise covariance (C_NC) based on the previous frame noise covariance (P_NC) corresponding to the previous frame, the current frame echo-cancelled input results (C_DS), and the current frame variance estimate generated through a predetermined mask. ) and generate a current frame direction vector (C_HV) based on the current frame input signal covariance (C_IC), the current frame noise covariance (C_NC), and the previous frame direction vector (P_HV).
  • the beamformer 200 generates a current frame beamforming variance estimation value according to the previous frame beamforming weight (P_BFW), the current frame echo-removed input results (C_DS), the previous frame variance, and a predetermined mask, and inverses the previous frame
  • a current frame beamforming inverse covariance (C_IBC) determined according to the covariance (P_IBC), the current frame echo-cancelled input results (C_DS), and the current frame beamforming variance estimation value is generated, and the current frame direction vector (C_HV) and the current frame
  • the current frame beamforming weight (C_BFW) is generated according to the beamforming inverse covariance (C_IBC), and the current frame output results (C_BFW) based on the current frame echo-removed input results (C_DS) and the current frame beamforming weight (C_BFW) C_OR) can be provided.
  • the target signal extraction system 41 according to the present invention is [Equation 13] to [Equation 14] described in FIGS. 7 to 9 and [Equation 32] to [Equation 37] described in FIGS. 20 to 23 and The contents of [Equation 39] may be equally applied.
  • the current frame noise covariance (C_NC) is to be generated based on the previous frame noise covariance (P_NC) and the current frame echo-cancelled input results (C_DS) and the current frame variance estimate generated through a predetermined mask.
  • the current frame noise covariance (C_NC) may be expressed as in [Equation 42] below.
  • the current frame noise covariance is a mask, silver forgetting factor, is the previous frame noise covariance, is the current frame variance estimate, is the current frame echo-removed input results, may be a third constant value.
  • the current frame beamforming variance estimation value may be generated based on the previous frame beamforming weight (P_BFW), the current frame echo-cancelled input results (C_DS), the previous frame variance (P_V), and a predetermined mask.
  • P_BFW previous frame beamforming weight
  • C_DS current frame echo-cancelled input results
  • P_V previous frame variance
  • the current frame beamforming variance estimate may be expressed as in [Equation 43] below.
  • the current frame estimation output results is the beamforming weight of the previous frame, is the current frame echo-removed input results, is a mask, is the current frame beamforming variance estimate, is the previous frame distribution, is the weight, may be a fourth constant value.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

본 발명의 실시예에 따른 타겟신호 추출장치는 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 방향 벡터 예측기는 시간에 따른 주파수별 입력결과들에 따라 입력신호 공분산을 생성하고, 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 생성하며, 입력신호 공분산 및 노이즈 공분산에 기초하여 방향 벡터를 생성할 수 있다. 빔포밍기는 분산에 따라 결정되는 빔포밍 공분산 및 방향 벡터에 따라 빔포밍 가중치를 생성하고, 입력결과들 및 빔포밍 가중치에 기초하여 출력결과들을 제공할 수 있다. 본 발명에 따른 타겟신호 추출장치는 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 계산하여 방향 벡터를 생성하고, 빔포밍 가중치를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.

Description

강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
본 발명은 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치에 관한 것이다.
마이크를 통해서 입력되는 소리 입력신호는 음성인식에 필요한 타겟 음성뿐만 아니라 음성인식에 방해가 되는 노이즈들이 포함될 수 있다. 소리 입력신호에서 노이즈를 제거하고, 원하는 타겟 음성만을 추출하여 음성인식의 성능을 높이기 위한 다양한 연구가 진행되고 있다.
본 발명이 이루고자 하는 기술적 과제는 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 계산하여 방향 벡터를 생성하고, 빔포밍 가중치를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있는 타겟신호 추출장치를 제공하는 것이다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 타겟신호 추출장치는 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 방향 벡터 예측기는 시간에 따른 주파수별 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성할 수 있다. 빔포밍기는 상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산 및 빔포밍 공분산의 분산은 출력 결과들에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산 및 빔포밍 공분산의 초기값은 상기 입력결과들에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 상기 빔포밍 공분산은 상기 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 타겟신호 추출장치는 상기 빔포밍 가중치가 수렴할 때까지 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시킬 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 타겟신호 추출시스템은 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 방향 벡터 예측기는 시간에 따른 주파수별 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산 및 미리 결정된 마스크에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성할 수 있다. 빔포밍기는 상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산 및 빔포밍 공분산의 초기값은 상기 입력결과들 및 상기 마스크의 곱에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산의 입력결과들은 상기 입력 결과들과 상기 마스크의 곱으로 갱신될 수 있다.
일 실시예에 있어서 상기 마스크는 프레임 인덱스 및 주파수 인덱스 별로 계산될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정되고, 상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 상기 빔포밍 공분산은 상기 분산 및 제2 상수값 중 큰 값에 따라 결정되고, 상기 타겟신호 추출장치는 상기 빔포밍 가중치가 수렴할 때까지 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시킬 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 온라인 타겟신호 추출장치는 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 방향 벡터 예측기는 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 상기 이전프레임에 상응하는 이전프레임 노이즈 공분산, 현재프레임에 상응하는 현재프레임 입력결과들 및 이전프레임에 상응하는 이전프레임 빔포밍 가중치에 따라 생성되는 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임에 상응하는 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성할 수 있다. 빔포밍기는 이전프레임에 상응하는 이전프레임 빔포밍 가중치, 현재프레임 입력결과들 및 이전프레임 출력결과들에 상응하는 이전프레임 분산에 따라 생성된 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 역 공분산, 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 분산 추정값에 따라 생성된 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 방향 벡터 및 상기 현재프레임 빔포밍 역 공분산에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 상기 현재프레임 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 현재프레임 노이즈 공분산은 현재프레임 분산 추정값에 의해 노말라이제이션(Normalization)될 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 온라인 타겟신호 추출시스템는 방향벡터 예측기 및 빔포밍기를 포함할 수 있다. 방향 벡터 예측기는 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 상기 이전프레임에 상응하는 이전프레임 노이즈 공분산, 현재프레임에 상응하는 현재프레임 입력결과들 및 미리 결정된 마스크에 따라 생성되는 현재프레임 분산 추정값을 통해 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임에 상응하는 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성할 수 있다. 빔포밍기는 이전프레임에 상응하는 이전프레임 빔포밍 가중치, 현재프레임 입력결과들, 이전프레임 출력결과들에 상응하는 이전프레임 분산 및 미리 결정된 마스크를 통해 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 역 공분산, 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 분산 추정값에 따라 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 방향 벡터 및 상기 현재프레임 빔포밍 역 공분산에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 상기 현재프레임 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 현재프레임 노이즈 공분산은 상기 이전프레임 노이즈 공분산 및 상기 현재프레임 입력결과들 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 생성될 수 있다.
일 실시예에 있어서, 상기 현재프레임 빔포밍 분산 추정값은 상기 이전프레임 빔포밍 가중치, 상기 현재프레임 입력결과들, 상기 이전프레임 분산 및 미리 결정된 마스크에 기초하여 생성될 수 있다.
일 실시예에 있어서, 상기 가중된 공분산 및 상기 가중된 상관 벡터는 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있고, 상기 타겟신호 추출시스템은 상기 반향제거 필터 및 상기 빔포밍 가중치가 수렴할 때까지 상기 반향 제거기, 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시킬 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 타겟신호 추출장치는 반향 제거기, 반향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 반향 제거기는 시간에 따른 주파수별 과거 입력결과들 및 반향제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 가중된 공분산을 생성하고, 시간에 따른 주파수별 입력 결과들 및 과거 입력결과들 및 반향제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 가중된 상관 벡터를 생성하며, 가중된 공분산 및 가중된 상관 벡터에 기초하여 반향 제거 필터를 생성할 수 있으며, 입력결과들, 과거 입력결과들 및 반향 제거 필터에 기초하여 반향 제거된 입력 결과들을 생성할 수 있다. 방향 벡터 예측기는 상기 반향 제거된 입력 결과들에 따라 입력 신호 공분산을 생성하고, 상기 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성할 수 있다. 빔포밍기는 상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 반향 제거된 입력 결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력 결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 가중된 공분산, 상기 가중된 상관 벡터, 상기 노이즈 공분산 및 상기 빔포밍 공분산은 상기 출력결과들에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 가중된 공분산 및 상기 가중된 상관 벡터의 초기값은 상기 입력결과들에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 가중된 공분산 및 상기 가중된 상관 벡터는 상기 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산 및 상기 빔포밍 공분산의 초기값은 상기 반향 제거된 입력결과들에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정될 수 있다. 또한, 상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 상기 빔포밍 공분산은 상기 분산 및 상기 제2 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 타겟신호 추출장치는 상기 반향 제거 필터 및 상기 빔포밍 가중치가 수렴할 때까지 상기 반향 제거기, 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시킬 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 타겟신호 추출시스템은 반향 제거기, 방향벡터 예측기 및 빔포밍기를 포함할 수 있다. 상기 반향 제거기는 가중된 공분산 생성기, 가중된 상관 벡터 생성기, 반향제거 필터 생성기 및 반향 제거된 신호 생성기를 포함할 수 있다. 상기 반향 제거기는 시간에 따른 주파수별 과거 입력결과들 및 반향 제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 가중된 공분산를 생성하고, 시간에 따른 주파수별 상기 입력결과들 및 상기 과거 입력결과들 및 상기 반향 제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 상기 분산에 기초하여 가중된 상관 벡터를 생성하며, 상기 가중된 공분산 및 상기 가중된 상관 벡터에 기초하여 반향 제거 필터를 생성할 수 있으며, 상기 입력결과들, 상기 과거 입력결과들 및 상기 반향 제거 필터에 기초하여 상기 반향 제거된 입력결과들을 생성할 수 있다. 상기 방향 벡터 예측기는 시간에 따른 주파수별 상기 반향 제거된 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 입력결과들에 상응하는 상기 출력결과들에 따라 결정되는 분산 및 미리 결정된 마스크에 기초하여 노이즈 공분산(NC)을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성할 수 있다. 상기 빔포밍기는 상기 반향 제거된 입력결과들, 상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 반향 제거된 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산 및 상기 빔포밍 공분산의 초기값은 상기 반향 제거된 입력결과들 및 상기 마스크의 곱에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산의 반향 제거된 입력결과들은 상기 반향 제거된 입력결과들과 상기 마스크의 곱으로 갱신될 수 있다.
일 실시예에 있어서 상기 마스크는 프레임 인덱스 및 주파수 인덱스 별로 계산될 수 있다.
일 실시예에 있어서, 상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정되고, 상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 상기 빔포밍 공분산은 상기 분산 및 제2 상수값 중 큰 값에 따라 결정되고, 상기 타겟신호 추출시스템은 상기 반향 제거 필터 및 상기 빔포밍 가중치가 수렴할 때까지 상기 반향 제거기, 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시킬 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 온라인 타겟신호 추출장치는 반향 제거기, 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 상기 반향 제거기는 이득 벡터 생성기, 가중된 역 공분산 생성기, 반향제거 필터 생성기 및 반향제거 신호 생성기를 포함할 수 있다.
상기 반향 제거기는 현재프레임에 상응하는 현재프레임 입력결과들, 현재프레임 과거 입력결과들 및 이전프레임에 상응하는 이전프레임 반향제거 필터에 기초하여 현재프레임 반향제거 출력 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 분산 및 상기 현재프레임 반향제거 출력 추정값에 기초하여 현재프레임 반향제거 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 가중된 역 공분산, 상기 현재프레임 반향제거 출력 추정값 및 상기 현재프레임 과거 입력결과들에 기초하여 현재프레임 이득 벡터를 생성하며, 상기 이전프레임 가중된 역 공분산, 상기 현재프레임 과거 입력결과들 및 상기 현재프레임 이득 벡터에 기초하여 현재프레임 가중된 역 공분산를 생성하며, 상기 현재프레임 이득 벡터, 상기 현재프레임 과거 입력결과들 및 이전프레임에 상응하는 상기 이전프레임 반향 제거 필터에 기초하여 현재프레임에 상응하는 현재프레임 반향 제거 필터를 생성하고, 상기 현재프레임 입력결과들, 상기 현재프레임 과거 입력결과들 및 상기 현재프레임 반향 제거 필터에 기초하여 현재프레임 반향 제거된 입력결과들을 생성할 수 있다.
상기 방향 벡터 예측기는 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 상기 현재프레임 반향 제거된 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 상기 현재프레임 반향 제거된 입력결과들 및 상기 이전프레임 빔포밍 가중치에 기초하여 현재프레임 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산 및 상기 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성할 수 있다.
상기 빔포밍기는 이전프레임 빔포밍 가중치, 상기 현재프레임 반향 제거된 입력결과들 및 상기 이전프레임 분산에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산, 상기 현재프레임 반향 제거된 입력결과들 및 상기 현재프레임 빔포밍 분산 추정값에 기초하여 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 빔포밍 역 공분산 및 상기 현재프레임 방향 벡터에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 반향 제거된 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 현재프레임 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 현재프레임 노이즈 공분산은 상기 현재프레임 분산 추정값에 의해 노말라이제이션(Normalization) 될 수 있다.
일 실시예에 있어서, 본 발명에 따른 온라인 타겟신호 추출장치는 상기 현재프레임 입력결과들에 상응하는 상기 현재프레임 출력결과들에 따라 결정되는 상기 현재프레임 분산 추정값에 기초하여 상기 현재프레임 이득 벡터를 생성하고, 상기 현재프레임 반향 제거 필터를 계산하여 상기 현재프레임 반향 제거된 입력결과들을 생성하고, 상기 현재 프레임 노이즈 공분산을 계산하여 상기 현재프레임 방향 벡터를 생성하고, 상기 현재프레임 빔포밍 가중치를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 온라인 타겟신호 추출시스템은 반향 제거기, 방향 벡터 예측기 및 빔포밍기를 포함할 수 있다. 상기 반향 제거기는 이득 벡터 생성기, 가중된 역 공분산 생성기, 반향제거 필터 생성기 및 반향제거 신호 생성기를 포함할 수 있다.
상기 반향 제거기는 현재프레임에 상응하는 현재프레임 입력결과들, 현재프레임 과거 입력결과들 및 이전프레임에 상응하는 이전프레임 반향제거 필터에 기초하여 현재프레임 반향제거 출력 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 분산 및 상기 반향제거 출력 추정값에 기초하여 현재프레임 반향제거 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 가중된 역 공분산, 상기 현재프레임 반향제거 출력 추정값 및 상기 현재프레임 과거 입력결과들에 기초하여 현재프레임 이득 벡터를 생성하며, 상기 이전프레임 가중된 역 공분산, 상기 현재프레임 과거 입력결과들 및 상기 현재프레임 이득 벡터에 기초하여 현재프레임 가중된 역 공분산을 생성하며, 상기 현재프레임 이득 벡터, 상기 현재프레임 과거 입력결과들 및 이전프레임에 상응하는 상기 이전프레임 반향 제거 필터에 기초하여 현재프레임에 상응하는 현재프레임 반향 제거 필터를 생성하고, 상기 현재프레임 입력결과들, 상기 현재프레임 과거 입력결과들 및 상기 현재프레임 반향 제거 필터에 기초하여 현재프레임 반향 제거된 입력결과들을 생성할 수 있다.
상기 방향 벡터 예측기는 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 상기 현재프레임 반향 제거된 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산, 상기 현재프레임 반향 제거된 입력결과들 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성할 수 있다.
상기 빔포밍기는 이전프레임 빔포밍 가중치, 상기 현재프레임 반향 제거된 입력결과들, 상기 이전프레임 분산 및 상기 미리 결정된 마스크에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산, 상기 현재프레임 반향 제거된 입력결과들 및 상기 현재프레임 빔포밍 분산 추정값에 따라 결정되는 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 방향 벡터 및 상기 현재프레임 빔포밍 역 공분산에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 반향 제거된 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 현재프레임 출력결과들을 제공할 수 있다.
일 실시예에 있어서, 상기 현재프레임 노이즈 공분산은 상기 이전프레임 노이즈 공분산, 상기 현재프레임 반향 제거된 입력결과들 및 상기 미리 결정된 마스크를 통해 생성된 상기 현재프레임 분산 추정값에 기초하여 생성될 수 있다.
일 실시예에 있어서, 상기 현재프레임 빔포밍 분산 추정값은 상기 이전프레임 빔포밍 가중치, 상기 현재프레임 반향 제거된 입력결과들 및 상기 이전프레임 분산 및 상기 미리 결정된 마스크에 기초하여 생성될 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명에 따른 타겟신호 추출장치는 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 계산하여 방향 벡터를 생성하고, 빔포밍 가중치를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시예들에 따른 타겟신호 추출장치를 나타내는 도면이다.
도 2는 도 1의 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 3은 도 1의 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 4는 본 발명의 실시예들에 따른 타겟신호 추출시스템을 나타내는 도면이다.
도 5는 도 4의 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 6은 도 4의 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 7은 본 발명의 실시예들에 따른 온라인 타겟신호 추출장치를 나타내는 도면이다.
도 8은 도 7의 온라인 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 9는 도 7의 온라인 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 10은 본 발명의 실시예들에 따른 온라인 타겟신호 추출시스템을 나타내는 도면이다.
도 11은 도 10의 온라인 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 12는 도 10의 온라인 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 13은 본 발명의 실시예들에 따른 타겟신호 추출장치의 일 예를 나타내는 도면이다.
도 14는 도 13의 타겟신호 추출장치에 포함되는 반향 제거기의 일 예를 나타내는 도면이다.
도 15는 도 13의 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 16은 도 13의 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 17은 본 발명의 실시예들에 따른 타겟신호 추출시스템의 일 예를 나타내는 도면이다.
도 18는 도 17의 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 19은 도 17의 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 20은 본 발명의 실시예들에 따른 온라인 타겟신호 추출장치의 일 예를 나타내는 도면이다.
도 21는 도 20의 온라인 타겟신호 추출장치에 포함되는 반향 제거기의 일 예를 나타내는 도면이다.
도 22는 도 20의 온라인 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 23은 도 20의 온라인 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 24은 본 발명의 실시예들에 따른 온라인 타겟신호 추출시스템의 일 예를 나타내는 도면이다.
도 25는 도 24의 온라인 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이다.
도 26은 도 24의 온라인 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 실시예들에 따른 타겟신호 추출장치를 나타내는 도면이고, 도 2는 도 1의 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 3은 도 1의 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 1 내지 3을 참조하면, 본 발명의 실시예에 따른 타겟신호 추출장치(10)는 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 방향 벡터 예측기(100)는 입력신호 공분산 생성기(110), 노이즈 공분산 생성기(120) 및 벡터 생성기(130)를 포함할 수 있다. 방향 벡터 예측기(100)는 시간에 따른 주파수별 입력결과들(XS)에 따라 입력신호 공분산(IC)을 생성하고, 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 노이즈 공분산(NC)을 생성하며, 입력신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다.
예를 들어, 입력신호 공분산 생성기(110)는 시간에 따른 주파수별 입력결과들(XS)에 따라 입력신호 공분산(IC)을 생성할 수 있다.
입력신호 공분산(IC)은 아래의 [수학식1]과 같이 나타낼 수 있다.
[수학식1]
Figure PCTKR2021005759-appb-img-000001
여기서,
Figure PCTKR2021005759-appb-img-000002
는 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000003
은 프레임 수, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000004
는 입력결과들일 수 있다.
또한, 노이즈 공분산 생성기(120)는 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 노이즈 공분산(NC)을 생성할 수 있다.
노이즈 공분산(NC)은 아래의 [수학식2]와 같이 나타낼 수 있다.
[수학식2]
Figure PCTKR2021005759-appb-img-000005
여기서,
Figure PCTKR2021005759-appb-img-000006
는 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000007
는 분산,
Figure PCTKR2021005759-appb-img-000008
는 제1 상수값,
Figure PCTKR2021005759-appb-img-000009
은 프레임 수, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000010
는 입력결과들일 수 있다.
또한, 벡터 생성기(130)는 입력신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다.
방향 벡터(HV)는 아래의 [수학식3]과 같이 나타낼 수 있다.
[수학식3]
Figure PCTKR2021005759-appb-img-000011
,
Figure PCTKR2021005759-appb-img-000012
여기서,
Figure PCTKR2021005759-appb-img-000013
는 타겟음원 공분산,
Figure PCTKR2021005759-appb-img-000014
는 최대 고유값에 해당하는 고유 벡터 추출 함수,
Figure PCTKR2021005759-appb-img-000015
는 방향 벡터일 수 있다.
빔포밍기(200)는 입력결과들(XS) 및 분산에 따라 결정되는 빔포밍 공분산(BC) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성하고, 입력결과들(XS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
예를 들어, 빔포밍기(200)는 빔포밍 가중치 생성기(210) 및 출력생성기(220)를 포함할 수 있다. 빔포밍 가중치 생성기(210)는 입력결과들(XS) 및 분산에 따라 결정되는 빔포밍 공분산(BC) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성할 수 있다.
빔포밍 공분산(BC)은 아래의 [수학식4]와 같이 나타낼 수 있다.
[수학식4]
Figure PCTKR2021005759-appb-img-000016
여기서,
Figure PCTKR2021005759-appb-img-000017
는 빔포밍 공분산,
Figure PCTKR2021005759-appb-img-000018
는 제2 상수값일 수 있다.
빔포밍 가중치(BFW)는 아래의 [수학식5]와 같이 나타낼 수 있다.
[수학식5]
Figure PCTKR2021005759-appb-img-000019
여기서,
Figure PCTKR2021005759-appb-img-000020
는 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000021
는 대각 로딩(Diagonal loading) 상수값,
Figure PCTKR2021005759-appb-img-000022
는 단위 행렬일 수 있다.
출력생성기(220)는 입력결과들(XS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
출력결과들(OR)은 아래의 [수학식6]과 같이 나타낼 수 있다.
[수학식6]
Figure PCTKR2021005759-appb-img-000023
,
Figure PCTKR2021005759-appb-img-000024
여기서,
Figure PCTKR2021005759-appb-img-000025
는 출력결과들,
Figure PCTKR2021005759-appb-img-000026
는 분산일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)의 분산은 출력결과들(OR)에 기초하여 결정될 수 있다. 예를 들어, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)의 분산은 아래의 [수학식7]과 같이 나타낼 수 있다.
[수학식7]
Figure PCTKR2021005759-appb-img-000027
여기서
Figure PCTKR2021005759-appb-img-000028
는 출력결과들,
Figure PCTKR2021005759-appb-img-000029
은 인접 프레임 수일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)의 초기값은 입력결과들(XS)에 기초하여 결정될 수 있다. 예를 들어, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)에서 사용되는 분산의 초기값은 아래의 [수학식8]과 같이 나타낼 수 있다.
[수학식8]
Figure PCTKR2021005759-appb-img-000030
,
Figure PCTKR2021005759-appb-img-000031
여기서,
Figure PCTKR2021005759-appb-img-000032
Figure PCTKR2021005759-appb-img-000033
는 입력결과들,
Figure PCTKR2021005759-appb-img-000034
은 인접 프레임 수일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 결정될 수 있다. 또한, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다. 예를 들어, 제1 상수값은 10^-6일 수 있다.
일 실시예에 있어서, 빔포밍 공분산(BC)은 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있다. 예를 들어, 제2 상수값은 10^-6일 수 있다.
일 실시예에 있어서, 타겟신호 추출장치(10)는 빔포밍 가중치(BFW)가 수렴할 때까지 방향 벡터 예측기(100) 및 빔포밍기(200)를 반복적으로 동작시킬 수 있다. 타겟신호 추출장치(10)는 방향 벡터 예측기(100)를 통해서 방향 벡터(HV)를 생성한 후, 빔포밍기(200)를 통해서 빔포밍 가중치(BFW)를 생성하는 동작을 반복할 수 있다. 본 발명에 따른 타겟신호 추출장치(10)는 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 노이즈 공분산(NC)을 계산하여 방향 벡터(HV)를 생성하고, 빔포밍 가중치(BFW)를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
도 4는 본 발명의 실시예들에 따른 타겟신호 추출시스템을 나타내는 도면이고, 도 5는 도 4의 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 6은 도 4의 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 4 내지 6을 참조하면, 본 발명의 실시예에 따른 타겟신호 추출시스템(11)은 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 방향 벡터 예측기(100)는 입력신호 공분산 생성기(110), 노이즈 공분산 생성기(120) 및 벡터 생성기(130)를 포함할 수 있다. 방향 벡터 예측기(100)는 시간에 따른 주파수별 입력결과들(XS)에 따라 입력신호 공분산(IC)을 생성하고, 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산 및 미리 결정된 마스크(MSK)에 기초하여 노이즈 공분산(NC)을 생성하며, 입력신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다.
빔포밍기(200)는 입력결과들(XS) 및 분산에 따라 결정되는 빔포밍 공분산(BC) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성하고, 입력결과들(XS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
본 발명에 따른 타겟신호 추출시스템(11)은 도 1 내지 도 3에서 설명되는 [수학식1] 내지 [수학식6]의 내용이 동일하게 적용될 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC) 및 빔포밍 공분산의 초기값은 입력결과들(XS) 및 마스크(MSK)의 곱에 따라 결정될 수 있다. 예를 들어, 노이즈 공분산(NC)에서 사용되는 분산의 초기값은 아래의 [수학식9]과 같이 나타낼 수 있다.
[수학식9]
Figure PCTKR2021005759-appb-img-000035
,
Figure PCTKR2021005759-appb-img-000036
여기서,
Figure PCTKR2021005759-appb-img-000037
은 마스크일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)의 입력결과들(XS)은 입력 결과들(XS)과 마스크(MSK)의 곱으로 갱신될 수 있다. 예를 들어, 노이즈 공분산(NC)에서 사용되는 입력결과들(XS)은 아래의 [수학식10]와 같이 갱신될 수 있다.
[수학식10]
Figure PCTKR2021005759-appb-img-000038
여기서
Figure PCTKR2021005759-appb-img-000039
은 마스크일 수 있다.
일 실시예에 있어서 마스크(MSK)는 프레임 인덱스 및 주파수 인덱스 별로 계산될 수 있다. 예를 들어, 신경망(Neural network) 혹은 분산도 (Diffuseness)에 기반하여 프레임 인덱스 및 주파수 인덱스 별 마스크가 계산될 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 결정되고, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 빔포밍 공분산(BC)은 분산 및 제2 상수값 중 큰 값에 따라 결정되고, 타겟신호 추출시스템(11)은 빔포밍 가중치(BFW)가 수렴할 때까지 방향 벡터 예측기(100) 및 빔포밍기(200)를 반복적으로 동작시킬 수 있다.
도 7은 본 발명의 실시예들에 따른 온라인 타겟신호 추출장치를 나타내는 도면이고, 도 8은 도 7의 온라인 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 9는 도 7의 온라인 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 7 내지 9를 참조하면, 본 발명의 실시예에 따른 온라인 타겟신호 추출장치(20)는 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 방향 벡터 예측기(100)는 입력신호 공분산 생성기(110), 노이즈 공분산 생성기(120) 및 벡터 생성기(130)를 포함할 수 있다. 방향 벡터 예측기(100)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들(C_XS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성하고, 현재프레임 입력결과들(C_XS) 및 이전프레임 빔포밍 가중치(P_BFW)에 기초하여 현재프레임 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC) 및 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)을 생성하며, 현재프레임 입력신호 공분산(C_IC) 및 현재프레임 노이즈 공분산(C_NC) 및 이전프레임 방향 벡터(P_HV)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있다.
예를 들어, 입력신호 공분산 생성기(110)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들(C_XS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성할 수 있다.
현재프레임 입력신호 공분산(C_IC)은 아래의 [수학식11]와 같이 나타낼 수 있다.
[수학식11]
Figure PCTKR2021005759-appb-img-000040
여기서,
Figure PCTKR2021005759-appb-img-000041
은 현재프레임 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000042
은 이전프레임 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000043
은 망각 인자, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000044
는 입력결과들일 수 있다.
또한, 노이즈 공분산 생성기(120)는 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC) 및 주파수별 현재프레임 입력결과들(C_XS)과 이전프레임에 입력결과들에 상응하는 이전프레임 빔포밍 가중치(P_BFW)에 따라 생성되는 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)을 생성할 수 있다.
현재프레임 노이즈 공분산(C_NC)은 아래의 [수학식12]과 같이 나타낼 수 있다.
[수학식12]
Figure PCTKR2021005759-appb-img-000045
,
Figure PCTKR2021005759-appb-img-000046
여기서,
Figure PCTKR2021005759-appb-img-000047
은 현재프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000048
은 망각 인자,
Figure PCTKR2021005759-appb-img-000049
은 이전프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000050
는 현재프레임 분산 추정값,
Figure PCTKR2021005759-appb-img-000051
는 현재프레임 추정 출력결과들,
Figure PCTKR2021005759-appb-img-000052
는 이전프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000053
는 현재프레임 입력결과들,
Figure PCTKR2021005759-appb-img-000054
는 제3 상수값일 수 있다.
또한, 벡터 생성기(130)는 현재프레임 입력신호 공분산(C_IC) 및 현재프레임 노이즈 공분산(C_NC)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있다.
현재프레임 방향 벡터(C_HV)는 아래의 [수학식13]과 같이 나타낼 수 있다.
[수학식13]
Figure PCTKR2021005759-appb-img-000055
여기서,
Figure PCTKR2021005759-appb-img-000056
는 현재프레임 방향 벡터,
Figure PCTKR2021005759-appb-img-000057
는 이전프레임 방향 벡터,
Figure PCTKR2021005759-appb-img-000058
는 현재프레임 타겟음원 공분산,
Figure PCTKR2021005759-appb-img-000059
은 정규화된 현재프레임 방향 벡터,
Figure PCTKR2021005759-appb-img-000060
은 정규화된 현재프레임 방향 벡터의 한 요소일 수 있다.
빔포밍기(200)는 이전프레임 빔포밍 가중치(P_BFW), 현재프레임 입력결과들(C_XS), 이전프레임 분산(P_V)에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산(P_IBC), 현재프레임 입력결과들(C_XS), 현재프레임 빔포밍 분산 추정값에 기초하여 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 빔포밍 역 공분산(C_IBC) 및 현재프레임 방향 벡터(C_HV)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성하고, 현재프레임 입력결과들(C_XS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
예를 들어, 빔포밍기(200)는 빔포밍 가중치 생성기(210) 및 출력생성기(220)를 포함할 수 있다. 빔포밍 가중치 생성기(210)는 현재프레임 입력결과들(C_XS), 이전프레임 빔포밍 가중치(P_BFW) 및 이전프레임 분산(P_V)에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 현재프레임 입력결과들(C_XS), 이전프레임 빔포밍 역 공분산(P_IBC) 및 현재프레임 빔포밍 분산 추정값을 통해 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 빔포밍 역 공분산(C_IBC) 및 현재프레임 방향 벡터(C_HV)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성할 수 있다.
현재프레임 빔포밍 분산 추정값은 아래의 [수학식14]와 같이 나타낼 수 있다.
[수학식14]
Figure PCTKR2021005759-appb-img-000061
여기서,
Figure PCTKR2021005759-appb-img-000062
는 현재프레임 빔포밍 분산 추정값,
Figure PCTKR2021005759-appb-img-000063
는 현재 프레임 추정 출력결과들,
Figure PCTKR2021005759-appb-img-000064
는 이전프레임 분산,
Figure PCTKR2021005759-appb-img-000065
는 가중치,
Figure PCTKR2021005759-appb-img-000066
는 제4 상수값일 수 있다.
현재프레임 빔포밍 가중치(C_BFW)는 아래의 [수학식15]과 같이 나타낼 수 있다.
[수학식15]
Figure PCTKR2021005759-appb-img-000067
,
Figure PCTKR2021005759-appb-img-000068
여기서,
Figure PCTKR2021005759-appb-img-000069
는 현재프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000070
는 이전프레임 빔포밍 역 공분산,
Figure PCTKR2021005759-appb-img-000071
는 현재프레임 방향 벡터,
Figure PCTKR2021005759-appb-img-000072
는 현재프레임 빔포밍 역 공분산일 수 있다.
출력생성기(220)는 현재프레임 입력결과들(C_XS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
출력결과들은 아래의 [수학식16]와 같이 나타낼 수 있다.
[수학식16]
Figure PCTKR2021005759-appb-img-000073
,
Figure PCTKR2021005759-appb-img-000074
여기서,
Figure PCTKR2021005759-appb-img-000075
는 현재프레임 출력결과들,
Figure PCTKR2021005759-appb-img-000076
는 현재프레임 분산일 수 있다.
일 실시예에 있어서, 현재프레임 노이즈 공분산(C_NC)은 현재프레임 분산 추정값에 의해 노말라이제이션(Normalization)될 수 있다. 본 발명에 따른 온라인 타겟신호 추출장치(20)는 현재프레임 입력결과들(C_XS)에 상응하는 현재프레임 출력결과들(C_OR)에 따라 결정되는 현재프레임 분산 추정값에 기초하여 현재 프레임 노이즈 공분산을 계산하여 현재프레임 방향 벡터(C_HV)를 생성하고, 현재프레임 빔포밍 가중치(C_BFW)를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
도 10 내지 12는 본 발명의 실시예들에 따른 온라인 타겟신호 추출시스템을 나타내는 도면이고, 도 11은 도 10의 온라인 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 12는 도 10의 온라인 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 10 내지 12를 참조하면, 온라인 타겟신호 추출시스템(21)은 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 방향 벡터 예측기(100)는 입력신호 공분산 생성기(110), 노이즈 공분산 생성기(120) 및 벡터 생성기(130)를 포함할 수 있다. 방향 벡터 예측기(100)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들(C_XS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC), 현재프레임 입력결과들(C_XS) 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)를 생성하며, 현재프레임 입력신호 공분산(C_IC), 현재프레임 노이즈 공분산(C_NC) 및 이전프레임 방향 벡터(P_HV)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있다.
빔포밍기(200)는 이전프레임 빔포밍 가중치(P_BFW), 현재프레임 입력결과들(C_XS), 이전프레임 분산 및 미리 결정된 마스크에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산(P_IBC), 현재프레임 입력결과들(C_XS) 및 현재프레임 빔포밍 분산 추정값에 따라 결정되는 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 방향 벡터(C_HV) 및 현재프레임 빔포밍 역 공분산(C_IBC)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성하고, 현재프레임 입력결과들(C_XS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
본 발명에 따른 온라인 타겟신호 추출시스템(21)은 도 7 내지 도 9에서 설명되는 [수학식11] 및 [수학식13] 내지 [수학식15]의 내용이 동일하게 적용될 수 있다.
일 실시예에 있어서, 현재프레임 노이즈 공분산(C_NC)은 이전프레임 노이즈 공분산(P_NC), 현재프레임 입력결과들(C_XS) 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 생성될 수 있다. 예를 들어, 현재프레임 노이즈 공분산(C_NC)은 아래의 [수학식17]와 같이 나타낼 수 있다.
[수학식17]
Figure PCTKR2021005759-appb-img-000077
,
Figure PCTKR2021005759-appb-img-000078
여기서,
Figure PCTKR2021005759-appb-img-000079
은 현재프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000080
는 마스크,
Figure PCTKR2021005759-appb-img-000081
은 망각 인자,
Figure PCTKR2021005759-appb-img-000082
은 이전프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000083
는 현재프레임 분산 추정값,
Figure PCTKR2021005759-appb-img-000084
는 현재프레임 입력결과들의 요소,
Figure PCTKR2021005759-appb-img-000085
는 제3 상수값일 수 있다.
일 실시예에 있어서, 현재프레임 빔포밍 분산 추정값은 이전프레임 빔포밍 가중치(P_BFW), 현재프레임 입력결과들(C_XS), 이전프레임 분산(P_V) 및 미리 결정된 마스크에 기초하여 생성될 수 있다. 예를 들어, 현재프레임 빔포밍 분산 추정값은 아래의 [수학식 18]와 같이 나타낼 수 있다.
[수학식 18]
Figure PCTKR2021005759-appb-img-000086
여기서
Figure PCTKR2021005759-appb-img-000087
는 현재 프레임 추정 출력결과들,
Figure PCTKR2021005759-appb-img-000088
는 이전프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000089
는 현재프레임 입력결과들,
Figure PCTKR2021005759-appb-img-000090
는 마스크,
Figure PCTKR2021005759-appb-img-000091
는 현재프레임 빔포밍 분산 추정값,
Figure PCTKR2021005759-appb-img-000092
는 이전프레임 분산,
Figure PCTKR2021005759-appb-img-000093
는 가중치,
Figure PCTKR2021005759-appb-img-000094
는 제4 상수값일 수 있다.
도 13 내지 16은 본 발명의 실시예들에 따른 타겟신호 추출장치의 예들을 나타내는 도면이고, 도 14는 도 13의 타겟신호 추출장치에 포함되는 반향 제거기의 일 예를 나타내는 도면이고, 도 15는 도 13의 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 16은 도 13의 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 13 내지 16을 참조하면, 본 발명의 실시예에 따른 타겟신호 추출장치(30)는 반향 제거기(300), 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 반향 제거기(300)는 가중된 공분산 생성기(310), 가중된 상관 벡터 생성기(320), 반향제거 필터 생성기(330) 및 반향 제거된 신호 생성기(340)을 포함할 수 있다. 반향 제거기(300)은 시간에 따른 주파수별 과거 입력결과들(XPS) 및 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 가중된 공분산(WC)를 생성하고, 시간에 따른 주파수별 입력결과들(XS), 과거 입력결과들(XPS) 및 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 가중된 상관 벡터(WV)를 생성하며, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)에 기초하여 반향 제거 필터(DF)를 생성할 수 있으며, 입력결과들(XS), 과거 입력결과들(XPS) 및 반향 제거 필터(DF)에 기초하여 반향 제거된 입력결과들(DS)를 생성할 수 있다.
예를 들어, 가중된 공분산 생성기(310)는 과거 입력결과들(XPS) 및 분산에 따라 가중된 공분산(WC)를 생성할 수 있다.
가중된 공분산(WC)은 아래의 [수학식19]과 같이 나타낼 수 있다.
[수학식19]
Figure PCTKR2021005759-appb-img-000095
,
Figure PCTKR2021005759-appb-img-000096
여기서
Figure PCTKR2021005759-appb-img-000097
는 가중된 공분산,
Figure PCTKR2021005759-appb-img-000098
는 과거 입력결과들,
Figure PCTKR2021005759-appb-img-000099
은 분산,
Figure PCTKR2021005759-appb-img-000100
는 지연 프레임 수,
Figure PCTKR2021005759-appb-img-000101
은 탭 수,
Figure PCTKR2021005759-appb-img-000102
는 제2 상수값일 수 있다.
또한, 가중된 상관 벡터 생성기(320)는 시간에 따른 주파수별 입력결과들(XS), 과거 입력결과들 및 분산에 따라 가중된 상관 벡터(WV)를 생성할 수 있다.
가중된 상관 벡터(WV)는 아래의 [수학식20]와 같이 나타낼 수 있다.
[수학식20]
Figure PCTKR2021005759-appb-img-000103
여기서
Figure PCTKR2021005759-appb-img-000104
는 가중된 상관 벡터,
Figure PCTKR2021005759-appb-img-000105
는 현재프레임 입력결과들일 수 있다.
또한, 반향제거 필터 생성기(330)는 가중된 공분산(WC) 및 가중된 상관 벡터(WV)에 기초하여 반향 제거 필터(DF)를 생성할 수 있다.
반향 제거 필터(DF)는 아래의 [수학식21]와 같이 나타낼 수 있다.
[수학식21]
Figure PCTKR2021005759-appb-img-000106
여기서
Figure PCTKR2021005759-appb-img-000107
는 반향 제거 필터일 수 있다.
또한, 반향 제거된 신호 생성기(340)은 입력결과들(XS), 과거 입력결과들(XPS) 및 반향 제거 필터(DF)에 기초하여 반향 제거된 입력결과들(DS)을 생성할 수 있다.
반향 제거된 입력결과들(DS)은 아래의 [수학식22]와 같이 나타낼 수 있다.
[수학식22]
Figure PCTKR2021005759-appb-img-000108
여기서
Figure PCTKR2021005759-appb-img-000109
는 반향 제거된 입력결과들일 수 있다.
방향 벡터 예측기(100)는 반향 제거된 입력결과들(DS)에 따라 입력신호 공분산(IC)을 생성하고, 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 노이즈 공분산(NC)을 생성하며, 입력신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다.
예를 들어, 입력신호 공분산 생성기(110)는 반향 제거된 입력 결과들(DS)에 따라 입력신호 공분산(IC)를 생성할 수 있다.
입력신호 공분산(IC)은 아래의 [수학식23]와 같이 나타낼 수 있다.
[수학식23]
Figure PCTKR2021005759-appb-img-000110
여기서,
Figure PCTKR2021005759-appb-img-000111
는 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000112
은 프레임 수, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000113
는 반향 제거된 입력결과들일 수 있다.
또한, 노이즈 공분산 생성기(120)는 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 노이즈 공분산(NC)을 생성할 수 있다.
노이즈 공분산(NC)은 아래의 [수학식24]와 같이 나타낼 수 있다.
[수학식24]
Figure PCTKR2021005759-appb-img-000114
여기서,
Figure PCTKR2021005759-appb-img-000115
는 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000116
는 분산,
Figure PCTKR2021005759-appb-img-000117
는 제1 상수값,
Figure PCTKR2021005759-appb-img-000118
은 프레임 수, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000119
는 반향 제거된 입력결과들일 수 있다.
또한, 벡터 생성기(130)는 입력 신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다. 예를 들어, 방향 벡터(HV)는 도 1 내지 도3에서 설명되는 [수학식3]의 내용이 동일하게 적용될 수 있다.
빔포밍기(200)는 반향 제거된 입력결과들(DS), 분산에 따라 결정되는 빔포밍 공분산(BS) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성하고, 반향 제거된 입력결과들(DS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
예를 들어, 빔포밍기(200)는 빔포밍 가중치 생성기(210) 및 출력생성기(220)를 포함할 수 있다. 빔포밍 가중치 생성기(210)는 반향 제거된 입력결과들(DS), 분산에 따라 결정되는 빔포밍 공분산(BC) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성할 수 있다.
빔포밍 공분산(BC)은 아래의 [수학식25]과 같이 나타낼 수 있다.
[수학식25]
Figure PCTKR2021005759-appb-img-000120
여기서
Figure PCTKR2021005759-appb-img-000121
는 빔포밍 공분산,
Figure PCTKR2021005759-appb-img-000122
는 제2 상수값일 수 있다.
빔포밍 가중치(BFW)는 아래의 [수학식26]과 같이 나타낼 수 있다.
[수학식26]
Figure PCTKR2021005759-appb-img-000123
여기서,
Figure PCTKR2021005759-appb-img-000124
는 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000125
는 대각 로딩(Diagonal loading) 상수값,
Figure PCTKR2021005759-appb-img-000126
는 단위 행렬일 수 있다.
출력생성기(220)는 반향 제거된 입력결과들(DS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
출력결과들(OR)은 아래의 [수학식27]과 같이 나타낼 수 있다.
[수학식27]
Figure PCTKR2021005759-appb-img-000127
,
Figure PCTKR2021005759-appb-img-000128
여기서,
Figure PCTKR2021005759-appb-img-000129
는 출력결과들,
Figure PCTKR2021005759-appb-img-000130
는 분산일 수 있다.
일 실시예에 있어서, 가중된 공분산(WC), 가중된 상관 벡터(WV) 및 노이즈 공분산(NC) 및 빔포밍 공분산(BC)은 출력결과들(OR)에 기초하여 결정될 수 있다. 예를 들어, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)에서 사용된 분산은 도 1 내지 도 3에서 설명되는 [수학식7]의 내용이 동일하게 적용될 수 있다.
일 실시예에 있어서, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)의 초기값은 입력결과들(XS)에 기초하여 결정될 수 있다. 예를 들어, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)에서 사용되는 분산의 초기값은 아래의 [수학식28]과 같이 나타낼 수 있다.
[수학식28]
Figure PCTKR2021005759-appb-img-000131
여기서,
Figure PCTKR2021005759-appb-img-000132
는 인접 프레임 수,
Figure PCTKR2021005759-appb-img-000133
은 입력결과들의 채널 수,
Figure PCTKR2021005759-appb-img-000134
은 프레임 인덱스 일 수 있다.
일 실시예에 있어서, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)는 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)의 초기값은 반향 제거된 입력결과들(DS)에 기초하여 결정될 수 있다. 예를 들어, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)에서 사용되는 분산의 초기값은 아래의 [수학식29]와 같이 나타낼 수 있다.
[수학식29]
Figure PCTKR2021005759-appb-img-000135
,
Figure PCTKR2021005759-appb-img-000136
여기서,
Figure PCTKR2021005759-appb-img-000137
Figure PCTKR2021005759-appb-img-000138
는 반향 제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000139
은 인접 프레임 수일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 결정될 수 있다. 또한, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 빔포밍 공분산(BC)은 분산 및 제2 상수값 중 큰 값에 따라 결정될 수 있다.
일 실시예에 있어서, 타겟신호 추출장치(30)는 반향 제거 필터(DF) 및 빔포밍 가중치(BFW)가 수렴할 때까지 반향 제거기(300) 및 방향 벡터 예측기(100) 및 빔포밍기(200)를 반복적으로 동작시킬 수 있다. 타겟신호 추출장치(30)는 반향 제거기(300)을 통해서 반향 제거된 입력결과들(DS)를 생성하고, 방향 벡터 예측기(100)를 통해서 방향 벡터(HV)를 생성한 후, 빔포밍기(200)를 통해서 빔포밍 가중치(BFW)를 생성하는 동작을 반복할 수 있다. 본 발명에 따른 타겟신호 추출장치(30)는 입력결과들(XS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 가중된 공분산(WC) 및 가중된 상관 벡터(WV)를 통해 반향제거 필터(DF)를 계산하여 반향 제거된 입력결과들(DS)를 생성하고, 노이즈 공분산(NC)을 계산하여 방향 벡터(HV)를 생성하고, 빔포밍 가중치(BFW)를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
도 17 내지 19는 본 발명의 실시예들에 따른 타겟신호 추출시스템의 예들을 나타내는 도면이고, 도 18은 도 17의 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 19는 도 17의 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 17 내지 19를 참조하면, 본 발명의 실시예에 따른 타겟신호 추출시스템(31)은 반향 제거기(300), 방향벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 반향 제거기(300)는 가중된 공분산 생성기(310), 가중된 상관 벡터 생성기(320), 반향제거 필터 생성기(330) 및 반향 제거된 신호 생성기(340)를 포함할 수 있다. 반향 제거기(300)는 시간에 따른 주파수별 과거 입력결과들(XPS) 및 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 가중된 공분산(WC)를 생성하고, 시간에 따른 주파수별 입력결과들(XS), 과거 입력결과들(XPS) 및 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산에 기초하여 가중된 상관 벡터(WV)를 생성하며, 가중된 공분산(WC) 및 가중된 상관 벡터(WV)에 기초하여 반향 제거 필터(DF)를 생성할 수 있으며, 입력결과들(XS), 과거 입력결과들(XPS) 및 반향 제거 필터(DF)에 기초하여 반향 제거된 입력결과들(DS)을 생성할 수 있다. 방향 벡터 예측기(100)는 시간에 따른 주파수별 반향 제거된 입력결과들(DS)에 따라 입력신호 공분산(IC)을 생성하고, 반향 제거된 입력결과들(DS)에 상응하는 출력결과들(OR)에 따라 결정되는 분산 및 미리 결정된 마스크(MSK)에 기초하여 노이즈 공분산(NC)을 생성하며, 입력신호 공분산(IC) 및 노이즈 공분산(NC)에 기초하여 방향 벡터(HV)를 생성할 수 있다. 빔포밍기(200)는 반향 제거된 입력결과들(DS) 및 분산에 따라 결정되는 빔포밍 공분산(BC) 및 방향 벡터(HV)에 따라 빔포밍 가중치(BFW)를 생성하고, 반향 제거된 입력결과들(DS) 및 빔포밍 가중치(BFW)에 기초하여 출력결과들(OR)을 제공할 수 있다.
본 발명에 따른 타겟신호 추출시스템(31)은 도 13 내지 16에서 설명되는 [수학식19] 내지 [수학식23] 및 [수학식25] 내지 [수학식27]의 내용이 동일하게 적용될 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)의 초기값은 반향 제거된 입력결과들(DS) 및 마스크(MSK)의 곱에 따라 결정될 수 있다. 예를 들어, 노이즈 공분산(NC) 및 빔포밍 공분산(BC)에서 사용되는 분산의 초기값은 아래의 [수학식30]과 같이 나타낼 수 있다.
[수학식30]
Figure PCTKR2021005759-appb-img-000140
,
Figure PCTKR2021005759-appb-img-000141
여기서
Figure PCTKR2021005759-appb-img-000142
은 마스크,
Figure PCTKR2021005759-appb-img-000143
는 반향제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000144
은 입력결과들의 채널 수일 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)의 반향 제거된 입력결과들(DS)은 반향 제거된 입력결과들(DS)과 마스크(MSK)의 곱으로 갱신될 수 있다. 예를 들어, 노이즈 공분산(NC)에서 사용되는 반향 제거된 입력결과들(DS)은 아래의 [수학식31]와 같이 갱신될 수 있다.
[수학식31]
Figure PCTKR2021005759-appb-img-000145
여기서
Figure PCTKR2021005759-appb-img-000146
은 마스크일 수 있다.
일 실시예에 있어서 마스크(MSK)는 프레임 인덱스 및 주파수 인덱스 별로 계산될 수 있다. 예를 들어, 신경망(Neural network) 혹은 분산도 (Diffuseness)에 기반하여 프레임 인덱스 및 주파수 인덱스 별 마스크가 계산될 수 있다.
일 실시예에 있어서, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 결정되고, 노이즈 공분산(NC)은 분산 및 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)될 수 있다.
일 실시예에 있어서, 빔포밍 공분산(BC)은 분산 및 제2 상수값 중 큰 값에 따라 결정되고, 타겟신호 추출시스템(31)은 반향 제거 필터(DF) 및 빔포밍 가중치(BFW)가 수렴할 때까지 반향 제거기(300) 및 방향 벡터 예측기(100) 및 빔포밍기(200)를 반복적으로 동작시킬 수 있다.
도 20 내지 23은 본 발명의 실시예들에 따른 온라인 타겟신호 추출장치의 예들을 나타내는 나타내는 도면이고, 도 21은 도 20의 온라인 타겟신호 추출장치에 포함되는 반향 제거기의 일 예를 나타내는 도면이고, 도 22는 도 20의 온라인 타겟신호 추출장치에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 23은 도 20의 온라인 타겟신호 추출장치에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 20 내지 23을 참조하면, 본 발명의 실시예에 따른 온라인 타겟신호 추출장치(40)는 반향 제거기(300), 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 반향 제거기(300)는 이득 벡터 생성기(350), 가중된 역 공분산 생성기(360), 반향제거 필터 생성기(330) 및 반향제거 신호 생성기(340)를 포함할 수 있다.
반향 제거기(300)는 현재프레임에 상응하는 현재프레임 입력결과들(C_XS), 현재프레임 과거 입력결과들(C_XPS) 및 이전프레임에 상응하는 이전프레임 반향제거 필터(P_DF)에 기초하여 현재프레임 반향제거 출력 추정값(C_EDS)을 생성하고, 이전프레임에 상응하는 이전프레임 분산(P_V) 및 현재프레임 반향제거 출력 추정값(C_EDS)에 기초하여 현재프레임 반향제거 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 반향제거 출력 추정값(C_EDS) 및 현재프레임 과거 입력결과들(C_XPS)에 기초하여 현재프레임 이득 벡터(C_GV)를 생성하며, 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 과거 입력결과들(C_XPS) 및 현재프레임 이득 벡터(C_GV)에 기초하여 현재프레임 가중된 역 공분산(C_IWC)를 생성하며, 현재프레임 이득 벡터(C_GV), 현재프레임 과거 입력결과들(C_XPS) 및 이전프레임에 상응하는 이전프레임 반향 제거 필터(P_DF)에 기초하여 현재프레임에 상응하는 현재프레임 반향 제거 필터(C_DF)를 생성하고, 현재프레임 입력결과들(C_XS), 현재프레임 과거 입력결과들(C_XPS) 및 현재프레임 반향 제거 필터(C_DF)에 기초하여 현재프레임 반향 제거된 입력결과들(C_DS)을 생성할 수 있다.
예를 들어, 이득 벡터 생성기(350)는 현재프레임 입력결과들(C_XS) 및 현재프레임 과거 입력결과들(C_XPS) 및 이전프레임 반향 제거 필터(P_DF)에 기초하여 현재프레임 반향제거 출력 추정값(C_EDS)을 생성할 수 있다.
현재프레임 반향제거 출력 추정값(C_EDS)은 아래의 [수학식32]와 같이 나타낼 수 있다.
[수학식32]
Figure PCTKR2021005759-appb-img-000147
여기서,
Figure PCTKR2021005759-appb-img-000148
는 현재프레임 반향제거 출력 추정값,
Figure PCTKR2021005759-appb-img-000149
는 현재프레임 입력결과들,
Figure PCTKR2021005759-appb-img-000150
는 이전프레임 반향 제거 필터,
Figure PCTKR2021005759-appb-img-000151
는 현재프레임 과거 입력결과들일 수 있다.
또한, 이득 벡터 생성기(350)는 이전프레임 분산(P_V) 및 현재프레임 반향제거 출력 추정값(C_EDS)에 기초하여 현재프레임 반향제거 분산 추정값을 생성할 수 있다.
현재프레임 반향제거 분산 추정값은 아래의 [수학식33]과 같이 나타낼 수 있다.
[수학식33]
Figure PCTKR2021005759-appb-img-000152
여기서,
Figure PCTKR2021005759-appb-img-000153
는 현재프레임 반향제거 분산 추정값,
Figure PCTKR2021005759-appb-img-000154
는 이전프레임 분산,
Figure PCTKR2021005759-appb-img-000155
는 가중치,
Figure PCTKR2021005759-appb-img-000156
는 제4 상수값일 수 있다.
또한, 이득 벡터 생성기(350)는 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 과거 입력결과들(C_XPS) 및 현재프레임 분산 추정값에 기초하여 현재프레임 이득 벡터(C_GV)를 생성할 수 있다.
현재프레임 이득 벡터(C_GV)는 아래의 [수학식34]와 같이 나타낼 수 있다.
[수학식34]
Figure PCTKR2021005759-appb-img-000157
여기서,
Figure PCTKR2021005759-appb-img-000158
는 현재프레임 이득 벡터,
Figure PCTKR2021005759-appb-img-000159
는 이전프레임 가중된 역 공분산(P_IWC),
Figure PCTKR2021005759-appb-img-000160
는 현재프레임 과거 입력결과들일 수 있다.
가중된 역 공분산 생성기(360)는 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 과거 입력결과들(P_XPS) 및 현재프레임 이득 벡터(C_GV)에 기초하여 현재프레임 가중된 역 공분산(C_IWC)를 생성할 수 있다.
현재프레임 가중된 역 공분산(C_IWC)은 아래의 [수학식35]과 같이 나타낼 수 있다.
[수학식35]
Figure PCTKR2021005759-appb-img-000161
여기서,
Figure PCTKR2021005759-appb-img-000162
는 현재프레임 가중된 역 공분산,
Figure PCTKR2021005759-appb-img-000163
는 현재프레임 과거 입력결과들,
Figure PCTKR2021005759-appb-img-000164
은 망각 인자일 수 있다.
반향제거 필터 생성기(330)는 이전프레임 반향 제거 필터(P_DF), 현재프레임 반향제거 출력 추정값(C_EDS) 및 현재프레임 과거 입력결과들(C_XPS)에 기초하여 현재프레임 반향 제거 필터(C_DF)를 생성할 수 있다.
현재프레임 반향 제거 필터(C_DF)는 아래의 [수학식36]과 같이 나타낼 수 있다.
[수학식36]
Figure PCTKR2021005759-appb-img-000165
여기서,
Figure PCTKR2021005759-appb-img-000166
는 현재프레임 반향 제거 필터,
Figure PCTKR2021005759-appb-img-000167
는 이전프레임 반향 제거 필터,
Figure PCTKR2021005759-appb-img-000168
는 현재프레임 이득 벡터,
Figure PCTKR2021005759-appb-img-000169
는 현재프레임 반향제거 출력 추정값일 수 있다.
반향제거 신호 생성기(340)는 현재프레임 입력결과들(C_XS), 현재프레임 반향 제거 필터(C_DF) 및 현재프레임 과거 입력결과들(C_XPS)에 기초하여 현재프레임 반향 제거된 입력결과들(C_DS)를 생성할 수 있다.
현재프레임 반향 제거된 입력결과들(C_DS)는 아래의 [수학식37]과 같이 나타낼 수 있다.
[수학식37]
Figure PCTKR2021005759-appb-img-000170
여기서,
Figure PCTKR2021005759-appb-img-000171
는 현재프레임 반향 제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000172
는 현재프레임 반향 제거 필터일 수 있다.
방향 벡터 예측기(100)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 반향 제거된 입력결과들(C_DS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성하고, 현재프레임 반향 제거된 입력결과들(C_DS) 및 이전프레임 빔포밍 가중치(P_BFW)에 기초하여 현재프레임 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC) 및 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)을 생성하며, 현재프레임 입력신호 공분산(C_IC), 현재프레임 노이즈 공분산(C_NC) 및 이전프레임 방향 벡터(P_HV)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있다.
예를 들어, 입력신호 공분산 생성기(110)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 반향 제거된 입력결과들(C_DS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성할 수 있다.
현재프레임 입력신호 공분산(C_IC)은 아래의 [수학식38]와 같이 나타낼 수 있다.
[수학식38]
Figure PCTKR2021005759-appb-img-000173
여기서,
Figure PCTKR2021005759-appb-img-000174
은 현재프레임 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000175
은 이전프레임 입력신호 공분산,
Figure PCTKR2021005759-appb-img-000176
은 망각 인자, l은 프레임 인덱스, k는 주파수 인덱스,
Figure PCTKR2021005759-appb-img-000177
는 현재프레임 반향 제거된 입력결과들일 수 있다.
또한, 노이즈 공분산 생성기(120)는 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC) 및 주파수별 현재프레임 반향 제거된 입력결과들(C_DS)과 이전프레임에 입력결과들에 상응하는 이전프레임 빔포밍 가중치(P_BFW)에 따라 생성되는 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)을 생성할 수 있다.
현재프레임 노이즈 공분산(C_NC)은 아래의 [수학식39]과 같이 나타낼 수 있다.
[수학식39]
Figure PCTKR2021005759-appb-img-000178
,
Figure PCTKR2021005759-appb-img-000179
여기서,
Figure PCTKR2021005759-appb-img-000180
은 현재프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000181
은 망각 인자,
Figure PCTKR2021005759-appb-img-000182
은 이전프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000183
는 현재프레임 분산 추정값,
Figure PCTKR2021005759-appb-img-000184
는 현재프레임 추정 출력결과들,
Figure PCTKR2021005759-appb-img-000185
는 이전프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000186
는 현재프레임 반향 제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000187
는 제3 상수값일 수 있다.
또한, 벡터 생성기(130)는 현재프레임 입력신호 공분산(C_IC) 및 현재프레임 노이즈 공분산(C_NC)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있으며, 도 7 내지 9에서 설명되는 [수학식13]의 내용이 동일하게 적용될 수 있다.
빔포밍기(200)는 이전프레임 빔포밍 가중치(P_BFW), 현재프레임 반향 제거된 입력결과들(C_DS) 및 이전프레임 분산(P_V)에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산(P_IBC), 현재프레임 반향 제거된 입력결과들(C_DS) 및 현재프레임 빔포밍 분산 추정값에 기초하여 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 빔포밍 역 공분산(C_IBC) 및 현재프레임 방향 벡터(C_HV)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성하고, 현재프레임 반향 제거된 입력결과들(C_DS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
예를 들어, 빔포밍기(200)는 빔포밍 가중치 생성기(210) 및 출력생성기(220)를 포함할 수 있다. 빔포밍 가중치 생성기(210)는 현재프레임 반향 제거된 입력결과들(C_DS), 이전프레임 빔포밍 가중치(P_BFW) 및 이전프레임 분산(P_V)에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 현재프레임 반향 제거된 입력결과들(C_DS) 및 이전프레임 빔포밍 역 공분산(P_IBC) 및 현재프레임 빔포밍 분산 추정값을 통해 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 빔포밍 역 공분산(C_IBC) 및 현재프레임 방향 벡터(C_HV)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성할 수 있다.
현재프레임 빔포밍 분산 추정값은 도 7 내지 9에서 설명되는 [수학식14]의 내용이 동일하게 적용될 수 있다.
현재프레임 빔포밍 가중치(C_BFW)는 아래의 [수학식40]과 같이 나타낼 수 있다.
[수학식40]
Figure PCTKR2021005759-appb-img-000188
,
Figure PCTKR2021005759-appb-img-000189
여기서,
Figure PCTKR2021005759-appb-img-000190
는 현재프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000191
는 이전프레임 빔포밍 역 공분산,
Figure PCTKR2021005759-appb-img-000192
는 현재프레임 방향 벡터,
Figure PCTKR2021005759-appb-img-000193
는 현재프레임 빔포밍 역 공분산,
Figure PCTKR2021005759-appb-img-000194
는 현재프레임 반향 제거된 입력결과들일 수 있다.
출력생성기(220)는 현재프레임 반향 제거된 입력결과들(C_DS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
출력결과들은 아래의 [수학식41]와 같이 나타낼 수 있다.
[수학식41]
Figure PCTKR2021005759-appb-img-000195
,
Figure PCTKR2021005759-appb-img-000196
여기서,
Figure PCTKR2021005759-appb-img-000197
는 현재프레임 출력결과들,
Figure PCTKR2021005759-appb-img-000198
는 현재프레임 분산,
Figure PCTKR2021005759-appb-img-000199
는 현재프레임 반향 제거된 입력결과들일 수 있다.
일 실시예에 있어서, 현재프레임 노이즈 공분산(C_NC)은 현재프레임 분산 추정값에 의해 노말라이제이션(Normalization) 될 수 있다. 본 발명에 따른 온라인 타겟신호 추출장치(40)는 현재프레임 입력결과들(C_XS)에 상응하는 현재프레임 출력결과들(C_OR)에 따라 결정되는 현재프레임 분산 추정값에 기초하여 현재프레임 이득 벡터(C_GV)를 생성하고, 현재프레임 반향 제거 필터(C_DF)를 계산하여 현재프레임 반향 제거된 입력결과들(C_DS)을 생성하고, 현재 프레임 노이즈 공분산(C_NC)을 계산하여 현재프레임 방향 벡터(C_HV)를 생성하고, 현재프레임 빔포밍 가중치(C_BFW)를 업데이트함으로써 타겟음원에 대한 추출성능을 높일 수 있다.
도 24 내지 26은 본 발명의 실시예들에 따른 온라인 타겟신호 추출시스템을 나타내는 도면이고, 도 25는 도 24의 온라인 타겟신호 추출시스템에 포함되는 방향 벡터 예측기의 일 예를 나타내는 도면이고, 도 26은 도 24의 온라인 타겟신호 추출시스템에 포함되는 빔포밍기의 일 예를 나타내는 도면이다.
도 20 내지 26을 참조하면, 본 발명의 실시예에 따른 온라인 타겟신호 추출시스템(41)은 반향 제거기(300), 방향 벡터 예측기(100) 및 빔포밍기(200)를 포함할 수 있다. 반향 제거기(300)는 이득 벡터 생성기(350), 가중된 역 공분산 생성기(360), 반향제거 필터 생성기(330) 및 반향제거 신호 생성기(340)를 포함할 수 있다.
반향 제거기(300)는 현재프레임에 상응하는 현재프레임 입력결과들(C_XS), 현재프레임 과거 입력결과들(C_XPS) 및 이전프레임에 상응하는 이전프레임 반향제거 필터(P_DF)에 기초하여 현재프레임 반향제거 출력 추정값(C_EDS)을 생성하고, 이전프레임에 상응하는 이전프레임 분산(P_V) 및 반향제거 출력 추정값(C_EDS)에 기초하여 현재프레임 반향제거 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 반향제거 출력 추정값(C_EDS) 및 현재프레임 과거 입력결과들(C_XPS)에 기초하여 현재프레임 이득 벡터(C_GV)를 생성하며, 이전프레임 가중된 역 공분산(P_IWC), 현재프레임 과거 입력결과들(C_XPS) 및 현재프레임 이득 벡터(C_GV)에 기초하여 현재프레임 가중된 역 공분산(C_IWC)을 생성하며, 현재프레임 이득 벡터(C_GV), 현재프레임 과거 입력결과들(C_XPS) 및 이전프레임에 상응하는 이전프레임 반향 제거 필터(P_DF)에 기초하여 현재프레임에 상응하는 현재프레임 반향 제거 필터(C_DF)를 생성하고, 현재프레임 입력결과들(C_XS), 현재프레임 과거 입력결과들(C_XPS) 및 현재프레임 반향 제거 필터(C_DF)에 기초하여 현재프레임 반향 제거된 입력결과들(C_DS)를 생성할 수 있다.
방향 벡터 예측기(100)는 이전프레임에 상응하는 이전프레임 입력신호 공분산(P_IC) 및 현재 프레임에 따른 주파수별 현재프레임 반향 제거된 입력결과들(C_DS)에 기초하여 생성되는 현재프레임 입력신호 공분산(C_IC)을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산(P_NC), 현재프레임 반향 제거된 입력결과들(C_DS) 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산(C_NC)을 생성하며, 현재프레임 입력신호 공분산(C_IC), 현재프레임 노이즈 공분산(C_NC) 및 이전프레임 방향 벡터(P_HV)에 기초하여 현재프레임 방향 벡터(C_HV)를 생성할 수 있다.
빔포밍기(200)는 이전프레임 빔포밍 가중치(P_BFW) 및 현재프레임 반향 제거된 입력결과들(C_DS), 이전프레임 분산 및 미리 결정된 마스크에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산(P_IBC), 현재프레임 반향 제거된 입력결과들(C_DS) 및 현재프레임 빔포밍 분산 추정값에 따라 결정되는 현재프레임 빔포밍 역 공분산(C_IBC)을 생성하고, 현재프레임 방향 벡터(C_HV) 및 현재프레임 빔포밍 역 공분산(C_IBC)에 따라 현재프레임 빔포밍 가중치(C_BFW)를 생성하고, 현재프레임 반향 제거된 입력결과들(C_DS) 및 현재프레임 빔포밍 가중치(C_BFW)에 기초하여 현재프레임 출력결과들(C_OR)을 제공할 수 있다.
본 발명에 따른 타겟신호 추출시스템(41)은 도 7내지 9에서 설명되는 [수학식13] 내지 [수학식14] 및 도 20 내지 23에서 설명되는 [수학식32] 내지 [수학식37] 및 [수학식39]의 내용이 동일하게 적용될 수 있다.
일 실시예에 있어서, 현재프레임 노이즈 공분산(C_NC)은 이전프레임 노이즈 공분산(P_NC) 및 현재프레임 반향 제거된 입력결과들(C_DS) 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 생성될 수 있다. 예를 들어, 현재프레임 노이즈 공분산(C_NC)은 아래의 [수학식42]와 같이 나타낼 수 있다.
[수학식42]
Figure PCTKR2021005759-appb-img-000200
,
Figure PCTKR2021005759-appb-img-000201
Figure PCTKR2021005759-appb-img-000202
여기서,
Figure PCTKR2021005759-appb-img-000203
은 현재프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000204
는 마스크,
Figure PCTKR2021005759-appb-img-000205
은 망각 인자,
Figure PCTKR2021005759-appb-img-000206
은 이전프레임 노이즈 공분산,
Figure PCTKR2021005759-appb-img-000207
는 현재프레임 분산 추정값,
Figure PCTKR2021005759-appb-img-000208
는 현재프레임 반향 제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000209
는 제3 상수값일 수 있다.
일 실시예에 있어서, 현재프레임 빔포밍 분산 추정값은 이전프레임 빔포밍 가중치(P_BFW), 현재프레임 반향 제거된 입력결과들(C_DS), 이전프레임 분산(P_V) 및 미리 결정된 마스크에 기초하여 생성될 수 있다. 예를 들어, 현재프레임 빔포밍 분산 추정값은 아래의 [수학식 43]와 같이 나타낼 수 있다.
[수학식 43]
Figure PCTKR2021005759-appb-img-000210
여기서
Figure PCTKR2021005759-appb-img-000211
는 현재 프레임 추정 출력결과들,
Figure PCTKR2021005759-appb-img-000212
는 이전프레임 빔포밍 가중치,
Figure PCTKR2021005759-appb-img-000213
는 현재프레임 반향 제거된 입력결과들,
Figure PCTKR2021005759-appb-img-000214
는 마스크,
Figure PCTKR2021005759-appb-img-000215
는 현재프레임 빔포밍 분산 추정값,
Figure PCTKR2021005759-appb-img-000216
는 이전프레임 분산,
Figure PCTKR2021005759-appb-img-000217
는 가중치,
Figure PCTKR2021005759-appb-img-000218
는 제4 상수값일 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

Claims (18)

  1. 시간에 따른 주파수별 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성하는 방향 벡터 예측기; 및
    상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공하는 빔포밍기를 포함하는 타겟신호 추출장치.
  2. 제1항에 있어서,
    상기 노이즈 공분산 및 빔포밍 공분산의 초기값은 상기 입력결과들에 기초하여 결정되는 것을 특징으로 하는 타겟신호 추출장치.
  3. 제2항에 있어서,
    상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정되는 것을 특징으로 하는 타겟신호 추출장치.
  4. 제3항에 있어서,
    상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)되는 것을 특징으로 하는 타겟신호 추출장치.
  5. 제4항에 있어서,
    상기 빔포밍 공분산은 상기 분산 및 제2 상수값 중 큰 값에 따라 결정되는 것을 특징으로 하는 타겟신호 추출장치.
  6. 제5항에 있어서,
    상기 타겟신호 추출장치는 상기 빔포밍 가중치가 수렴할 때까지 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시키는 것을 특징으로 하는 타겟신호 추출장치.
  7. 시간에 따른 주파수별 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산 및 미리 결정된 마스크에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성하는 방향 벡터 예측기; 및
    상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공하는 빔포밍기를 포함하는 타겟신호 추출시스템.
  8. 제7항에 있어서,
    상기 노이즈 공분산의 초기값은 상기 입력결과들 및 상기 마스크의 곱에 따라 결정되는 것을 특징으로 하는 타겟신호 추출시스템.
  9. 제8항에 있어서,
    상기 노이즈 공분산은 상기 분산 및 제1 상수값 중 큰 값에 따라 결정되고,
    상기 노이즈 공분산은 상기 분산 및 상기 제1 상수값 중 큰 값에 따라 노말라이제이션(Normalization)되는 것을 특징으로 하는 타겟신호 추출시스템.
  10. 제9항에 있어서,
    상기 빔포밍 공분산은 상기 분산 및 제2 상수값 중 큰 값에 따라 결정되고,
    상기 타겟신호 추출장치는 상기 빔포밍 가중치가 수렴할 때까지 상기 방향 벡터 예측기 및 상기 빔포밍기를 반복적으로 동작시키는 것을 특징으로 하는 타겟신호 추출시스템.
  11. 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 상기 현재프레임 입력결과들 및 이전프레임 빔포밍 가중치에 기초하여 현재프레임 분산 추정값을 생성하고, 이전프레임에 상응하는 이전프레임 노이즈 공분산 및 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 현재프레임 입력신호 공분산 및 현재프레임 노이즈 공분산 및 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성하는 방향 벡터 예측기; 및
    상기 이전프레임 빔포밍 가중치, 상기 현재프레임 입력결과들, 이전프레임 분산에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산, 상기 현재프레임 입력결과들, 상기 현재프레임 빔포밍 분산 추정값에 기초하여 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 빔포밍 역 공분산 및 상기 현재프레임 방향 벡터에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 현재프레임 출력결과들을 제공하는 빔포밍기를 포함하는 온라인 타겟신호 추출장치.
  12. 제11항에 있어서,
    상기 현재프레임 노이즈 공분산은 현재프레임 분산 추정값에 의해 노말라이제이션(Normalization)되는 것을 특징으로 하는 온라인 타겟신호 추출장치.
  13. 이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재 프레임에 따른 주파수별 현재프레임 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 상기 이전프레임에 상응하는 이전프레임 노이즈 공분산, 상기 현재프레임 입력결과들 및 미리 결정된 마스크를 통해 생성된 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성하는 방향 벡터 예측기; 및
    이전프레임 빔포밍 가중치, 상기 현재프레임 입력결과들, 이전프레임 분산 및 상기 미리 결정된 마스크에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산, 상기 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 분산 추정값에 따라 결정되는 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 방향 벡터 및 상기 현재프레임 빔포밍 역 공분산에 따라 현재프레임 빔포밍 가중치를 생성하고, 상기 현재프레임 입력결과들 및 상기 현재프레임 빔포밍 가중치에 기초하여 현재프레임 출력결과들을 제공하는 빔포밍기를 포함하는 온라인 타겟신호 추출시스템.
  14. 시간에 따른 주파수별 과거 입력결과들, 입력결과들 및 출력결과들에 기초하여 반향 제거된 입력결과들을 제공하는 반향 제거기;
    상기 반향 제거된 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 반향 제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 상기 노이즈 공분산에 기초하여 방향 벡터를 생성하는 방향 벡터 예측기; 및
    상기 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 반향 제거된 입력결과들 및 상기 빔포밍 가중치에 기초하여 상기 출력결과들을 제공하는 빔포밍기를 포함하는 타겟신호 추출장치.
  15. 제14항에 있어서,
    상기 반향 제거기는,
    시간에 따른 주파수별 상기 과거 입력결과들 및 상기 반향 제거된 입력결과들에 상응하는 상기 출력결과들에 따라 결정되는 분산에 기초하여 가중된 공분산을 제공하는 가중된 공분산 생성기;
    상기 시간에 따른 주파수별 상기 입력결과들 및 상기 과거 입력결과들 및 상기 반향 제거된 입력결과들에 상응하는 상기 출력결과들에 따라 결정되는 분산에 기초하여 가중된 상관 벡터를 제공하는 가중된 상관 벡터 생성기;
    상기 가중된 공분산 및 상기 가중된 상관 벡터에 기초하여 반향 제거 필터를 생성하는 반향제거 필터 생성기; 및
    상기 입력결과들 및 상기 과거 입력결과들 및 상기 반향 제거 필터에 기초하여 상기 반향 제거된 입력결과들을 생성하는 반향 제거된 신호 생성기를 포함하는 것을 특징으로 하는 타겟신호 추출장치.
  16. 시간에 따른 주파수별 과거 입력결과들, 입력결과들 및 출력결과들에 기초하여 반향 제거된 입력결과들을 제공하는 반향 제거기;
    상기 반향 제거된 입력결과들에 따라 입력신호 공분산을 생성하고, 상기 반향 제거된 입력결과들에 상응하는 출력결과들에 따라 결정되는 분산 및 미리 결정된 마스크에 기초하여 노이즈 공분산을 생성하며, 상기 입력신호 공분산 및 노이즈 공분산에 기초하여 방향 벡터를 생성하는 방향 벡터 예측기; 및
    상기 반향 제거된 입력결과들 및 분산에 따라 결정되는 빔포밍 공분산 및 상기 방향 벡터에 따라 빔포밍 가중치를 생성하고, 상기 반향 제거된 입력결과들 및 상기 빔포밍 가중치에 기초하여 출력결과들을 제공하는 빔포밍기를 포함하는 타겟신호 추출 시스템.
  17. 현재프레임에 상응하는 현재프레임 입력결과들, 현재프레임 과거 입력결과들에 기초하여 반향 제거된 입력결과들을 생성하는 반향 제거기;
    이전프레임에 상응하는 이전프레임 입력신호 공분산 및 현재프레임의 상기 반향 제거된 입력결과들에 기초하여 생성되는 현재프레임 입력신호 공분산을 생성하고, 현재프레임의 상기 반향 제거된 입력결과들 및 이전프레임 빔포밍 가중치에 기초하여 현재프레임 분산 추정값을 생성하고, 상기 이전프레임에 상응하는 이전프레임 노이즈 공분산 및 현재프레임 분산 추정값에 기초하여 현재프레임 노이즈 공분산을 생성하며, 상기 현재프레임 입력신호 공분산, 상기 현재프레임 노이즈 공분산 및 이전프레임 방향 벡터에 기초하여 현재프레임 방향 벡터를 생성하는 방향 벡터 예측기; 및
    이전프레임 빔포밍 가중치, 현재프레임의 상기 반향 제거된 입력결과들 및 이전프레임 분산에 따라 현재프레임 빔포밍 분산 추정값을 생성하고, 이전프레임 역 공분산, 현재프레임의 상기 반향 제거된 입력결과들 및 현재프레임 빔포밍 분산 추정값에 기초하여 현재프레임 빔포밍 역 공분산을 생성하고, 상기 현재프레임 빔포밍 역 공분산 및 상기 현재프레임 방향 벡터에 따라 현재프레임 빔포밍 가중치를 생성하고, 현재프레임의 상기 반향 제거된 입력결과들 및 현재프레임 빔포밍 가중치에 기초하여 현재프레임 출력결과들을 제공하는 빔포밍기를 포함하는 온라인 타겟신호 추출장치.
  18. 제17항에 있어서,
    상기 온라인 타겟신호 추출장치는,
    상기 방향 벡터 예측기 및 상기 빔포밍기에 미리 결정된 마스크를 추가하여 상기 현재프레임 출력결과들을 제공하는 것을 특징으로 하는 온라인 타겟신호 추출장치.
PCT/KR2021/005759 2020-05-18 2021-05-07 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치 WO2021235750A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/921,074 US20230178089A1 (en) 2020-05-18 2021-05-07 Beamforming method using online likelihood maximization combined with steering vector estimation for robust speech recognition, and apparatus therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200058882A KR20210142268A (ko) 2020-05-18 2020-05-18 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
KR10-2020-0058882 2020-05-18

Publications (1)

Publication Number Publication Date
WO2021235750A1 true WO2021235750A1 (ko) 2021-11-25

Family

ID=78708776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/005759 WO2021235750A1 (ko) 2020-05-18 2021-05-07 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치

Country Status (3)

Country Link
US (1) US20230178089A1 (ko)
KR (1) KR20210142268A (ko)
WO (1) WO2021235750A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240009758A (ko) * 2022-07-14 2024-01-23 서강대학교산학협력단 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164212A1 (en) * 2007-12-19 2009-06-25 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
KR20190073852A (ko) * 2017-12-19 2019-06-27 서강대학교산학협력단 우도 최대화를 이용한 빔포밍 방법
KR20190091061A (ko) * 2018-01-26 2019-08-05 서강대학교산학협력단 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
KR102076760B1 (ko) * 2018-09-19 2020-02-12 한양대학교 산학협력단 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101133308B1 (ko) 2011-02-14 2012-04-04 신두식 에코제거 기능을 갖는 마이크로폰

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164212A1 (en) * 2007-12-19 2009-06-25 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
KR20190073852A (ko) * 2017-12-19 2019-06-27 서강대학교산학협력단 우도 최대화를 이용한 빔포밍 방법
KR20190091061A (ko) * 2018-01-26 2019-08-05 서강대학교산학협력단 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
KR102076760B1 (ko) * 2018-09-19 2020-02-12 한양대학교 산학협력단 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
조지원 등. 가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법. 한국통신학회지(정보와 통신). vol. 33, no. 9, PP. 17-23, September 2016. non-official translation (JO, Ji-Won et al. Hidden Markov Model-Based Feature Enhancement Method for Robust Speech Recognition in Additive Noise or Echo Environments. Journal of the Korea Institute of Information and Communication Engineering(Information and Communications Magazine)). [Retrieved on 05 July 2021]. Retrieved from <https://scienceon.kisti.re.kr/main/mainForm.do>. *

Also Published As

Publication number Publication date
KR20210142268A (ko) 2021-11-25
US20230178089A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
WO2009157715A2 (en) Codebook design method for multiple input multiple output system and method for using the codebook
WO2017222140A1 (ko) Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
WO2009131376A2 (en) Multiple antenna communication system including adaptive updating and changing of codebooks
WO2016089009A1 (en) Method and cloud server for managing device
WO2014137159A1 (en) Method and apparatus for applying secondary transforms on enhancement-layer residuals
WO2012077993A2 (ko) 도어락 시스템
WO2015183051A1 (en) Soft buffer processing method and apparatus
WO2015139232A1 (zh) 一种应用的推荐方法、系统及服务器
WO2011076035A1 (zh) 一种实现多卡槽访问的方法和装置
WO2021112335A1 (ko) 생성적 적대 신경망 기반의 분류 시스템 및 방법
WO2020122593A1 (en) Electronic device for attenuating at least part of signal received by antenna and method for controlling communication signal
WO2021235750A1 (ko) 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치
WO2020060206A1 (en) Methods for audio processing, apparatus, electronic device and computer readable storage medium
WO2017155137A1 (ko) 빔포밍 방법 및 이를 위한 장치
WO2022158686A1 (ko) 암호화된 정보에 기초하여, 인공지능 모델을 이용한 추론을 수행하는 전자 장치 및 그 동작 방법
WO2017018593A1 (ko) 단말간 통신 시스템에서 전송 전력을 결정하는 장치 및 방법
WO2011002260A2 (en) Rotating reference codebook that is used in a multiple-input multiple-output (mimo) communication system
WO2021242063A1 (ko) 초음파 투과 장치 및 파동 제어 방법
WO2011040707A2 (en) Multiple-input multiple-output communication system using explicit feedback
WO2019132553A1 (en) Sound output system and voice processing method
WO2022124860A1 (ko) 기지국 안테나의 기울기 각도 최적화 방법 및 장치
WO2018143653A1 (ko) 터치 입력 및 지문 입력을 인식하는 장치 및 방법
WO2011083900A1 (en) Codebook design method for multiple-input multiple-output (mimo) communication system and method for using the codebook
WO2021100936A1 (en) Power factor adjustment method and apparatus in a waveguide circuit and a transmission line circuit, and power generating transmission line system using the same
WO2017014483A1 (ko) 기술적 파급효과 분석 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21807737

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21807737

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 14.04.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21807737

Country of ref document: EP

Kind code of ref document: A1