WO2024014797A1 - 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법 - Google Patents

강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법 Download PDF

Info

Publication number
WO2024014797A1
WO2024014797A1 PCT/KR2023/009726 KR2023009726W WO2024014797A1 WO 2024014797 A1 WO2024014797 A1 WO 2024014797A1 KR 2023009726 W KR2023009726 W KR 2023009726W WO 2024014797 A1 WO2024014797 A1 WO 2024014797A1
Authority
WO
WIPO (PCT)
Prior art keywords
direction vector
signal
matrix
equation
demixing
Prior art date
Application number
PCT/KR2023/009726
Other languages
English (en)
French (fr)
Inventor
박형민
신의협
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Publication of WO2024014797A1 publication Critical patent/WO2024014797A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a beamforming and direction vector estimation system for a target sound source in a speech recognition system. More specifically, beamforming and direction vector estimation system are performed by simultaneously considering models for the target sound source and noise based on a target mask and independent component analysis. This relates to a method that can improve performance for direction vector estimation.
  • Input signals from microphones input through microphones may include not only the target voice required for voice recognition but also noise that interferes with voice recognition.
  • Various research is being conducted to improve voice recognition performance by removing noise from microphone input signals and extracting only desired target voices.
  • the technical problem to be achieved by the present invention is to provide a beamforming and direction vector estimation system that can extract a target signal generated from a target point without distortion by calculating a demixing matrix using a cost function that additionally includes a plurality of constraints. It is done.
  • the beamforming and direction vector estimation system may include an input providing unit, a demixing providing unit, and a result providing unit.
  • the input provider may provide input signals from microphones based on a spatial transfer function corresponding to the target signal and noise signal at the target point.
  • the demixing provider may provide a demixing matrix determined according to the input signals of the microphones and independent component analysis (ICA).
  • ICA independent component analysis
  • the result provider may extract a result signal from the input signals of the microphones based on the demixing matrix.
  • the spatial transfer function is a direction vector corresponding to a transfer function from the target point to the input provider and a noise transfer function corresponding to a transfer function until the noise signal is transmitted to the input provider.
  • the spatial transfer function is a direction vector corresponding to a transfer function from the target point to the input provider and a noise transfer function corresponding to a transfer function until the noise signal is transmitted to the input provider.
  • the demixing matrix The first ingredient included in and the direction vector included in the spatial transfer function
  • the product of is 1, and the remaining components excluding the first component included in the demixing matrix and the direction vector
  • the product of may be 0.
  • the demixing matrix may be determined based on a cost function (CF) according to the independent component analysis.
  • CF cost function
  • the first component of a result matrix generated based on the input signals of the microphones and the demixing matrix may correspond to the target signal.
  • the cost function is expressed as [Equation 1],
  • k and m are natural numbers representing the frequency and channel index, respectively, is the cost function of independent component analysis, and are parameters that control the degree of restriction of distortion prevention and null conditions, respectively, is the first component of the demixing matrix, may be a direction vector.
  • the cost function is expressed as [Equation 2],
  • k and m are natural numbers representing the frequency and channel index, respectively, and are the Lagrangian multipliers to prevent distortion and ensure null conditions, respectively;
  • the cost function is expressed as [Equation 3],
  • k and m are natural numbers representing the frequency and channel index, respectively, is the Lagrangian multiplier to ensure the anti-distortion condition, is the first component of the demixing matrix, is the direction vector, may be a parameter that controls the degree of constraint of the null condition.
  • the result signal with respect to the target signal may be distributed according to a Laplacian function.
  • the direction vector is the difference between the spatial covariance matrix (Input Spatial Covariance Matrix, ISCM) for the input signals of the microphones and the spatial covariance matrix (Noise Spatial Covariance Matrix, NSCM) for the noise signals. It can be decided accordingly.
  • ISCM Input Spatial Covariance Matrix
  • NSCM Noise Spatial Covariance Matrix
  • the spatial covariance matrix for the noise signal may be determined according to the ratio of a value corresponding to the target signal and a value corresponding to the noise signal among the result signals.
  • the beamforming and direction vector estimation system may be driven for each frame corresponding to a constant time interval to update the demixing matrix.
  • the beamforming and direction vector estimation system may include an input providing unit, a demixing providing unit, a result providing unit, and a voice providing unit.
  • the input provider may provide input signals from microphones based on a spatial transfer function corresponding to the target signal and noise signal at the target point.
  • the demixing provider may provide a demixing matrix determined according to the input signals of the microphones and independent component analysis (ICA).
  • ICA independent component analysis
  • the result provider may extract a result signal from the input signals of the microphones based on the demixing matrix.
  • the voice provider may provide the result signal as a voice.
  • the input provider operates the microphones based on the spatial transfer functions corresponding to each of the target signal and noise signal at the target point.
  • An input signal can be provided.
  • the demixing provider may provide a demixing matrix determined according to the input signals of the microphones and independent component analysis (ICA).
  • ICA independent component analysis
  • the result provider may extract a result signal from the input signals of the microphones based on the demixing matrix.
  • the input provider operates the microphones based on the spatial transfer functions corresponding to each of the target signal and noise signal at the target point.
  • An input signal can be provided.
  • the demixing provider may provide a demixing matrix determined according to the input signals of the microphones and independent component analysis (ICA).
  • ICA independent component analysis
  • the result provider may extract a result signal from the input signals of the microphones based on the demixing matrix.
  • the voice providing unit may provide the result signal as voice.
  • a target signal generated from a target point can be extracted without distortion by calculating a demixing matrix using a cost function including a plurality of constraint conditions.
  • the direction vector can be effectively estimated using values corresponding to the noise signal as well as the target signal.
  • FIG. 1 is a diagram illustrating a beamforming and direction vector estimation system according to embodiments of the present invention.
  • FIG. 2 is a diagram for explaining input signals from microphones applied to the beamforming and direction vector estimation system of FIG. 1.
  • FIG. 3 is a diagram for explaining the spatial transfer function used in the beamforming and direction vector estimation system of FIG. 1.
  • Figures 4 and 5 are diagrams for explaining the online operation of the beamforming and direction vector estimation system of Figure 1.
  • FIG. 6 is a diagram for explaining an embodiment of the beamforming and direction vector estimation system of FIG. 1.
  • Figure 7 is a diagram showing a method of operating a beamforming and direction vector estimation system according to embodiments of the present invention.
  • FIG. 8 is a diagram for explaining an embodiment of an operating method of the beamforming and direction vector estimation system of FIG. 7.
  • FIG. 1 is a diagram illustrating a beamforming and direction vector estimation system according to embodiments of the present invention
  • 2 is a diagram illustrating input signals from microphones applied to the beamforming and direction vector estimation system of FIG. 1
  • FIG. 3 is a diagram to explain the spatial transfer function used in the beamforming and direction vector estimation system of FIG. 1.
  • the beamforming and direction vector estimation system 10 may include an input providing unit 100, a demixing providing unit 200, and a result providing unit 300. You can.
  • the input provider 100 may provide input signals (XS) from microphones based on a spatial transfer function (A) corresponding to the target signal (TS) and noise signal (NS) at the target point (TP).
  • the input providing unit 100 may be a plurality of microphones.
  • the plurality of microphones may include a first microphone 101 to a third microphone 103.
  • the spatial transfer function (A) is a direction vector (Steering Vector) (H) and noise signal (NS) corresponding to the transfer function until the target signal (TS) is transferred from the target point (TP) to the input provider 100. It may include a noise transfer function (D) corresponding to the transfer function until the noise is transmitted to the input providing unit 100.
  • the input signal (XS) of the microphones can be expressed as [Equation 1-1] as follows.
  • the input signal of the microphones is the spatial transfer function (A), is the target signal (TS), is the noise signal (NS), direction vector (H), is the noise transfer function (D), is the frequency index, may be a frame index.
  • the demixing provider 200 may provide a demixing matrix (W) determined according to input signals (XS) of microphones and independent component analysis (ICA).
  • W demixing matrix
  • XS input signals
  • ICA independent component analysis
  • the demixing matrix (W) may be determined based on independent component analysis and a cost function (CF) according to space constraints.
  • the space constraint condition is a distortion prevention condition ( ) and null condition ( ) can be expressed as
  • the cost function can be expressed as [Equation 1], [Equation 2], and [Equation 3] below.
  • k and m are natural numbers representing the frequency and channel index, respectively, is the cost function of independent component analysis, and are parameters that control the degree of restriction of distortion prevention and null conditions, respectively. and are the first and m components of the demixing matrix (W), may be a direction vector (H). Meanwhile, the cost function The existing cost function of the basic independent component analysis that constitutes Can be expressed as [Equation 1-2] below.
  • k and m are natural numbers representing the frequency and channel index, and are the first and m components of the demixing matrix (W), is the demixing matrix (W), and may represent a Weighted Spatial Covariance Matrix (WSCM) determined according to modeling of the target signal and the noise signal, respectively.
  • the first component of the demixing matrix (W) that optimizes [Equation 1] Can be repeatedly estimated to converge using [Equation 1-3] below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector
  • W May be the first component of the demixing matrix
  • W the mth component of the demixing matrix (W) that optimizes [Equation 1] can be repeatedly estimated to converge using [Equation 1-4] as shown below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector
  • W the demixing matrix
  • W may be the mth component of the demixing matrix (W).
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H May be the first component of the demixing matrix (W).
  • W the mth component of the demixing matrix (W) that optimizes [Equation 2] can be repeatedly estimated to converge using [Equation 2-2] as shown below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector
  • W the demixing matrix
  • W may be the mth component of the demixing matrix (W).
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H May be the first component of the demixing matrix (W).
  • W the mth component of the demixing matrix (W) that optimizes [Equation 3] can be repeatedly estimated to converge using [Equation 3-2] as shown below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector
  • W the demixing matrix
  • W may be the mth component of the demixing matrix (W).
  • the first component of the result matrix generated based on the input signal (XS) of the microphones and the demixing matrix (W) may correspond to the target signal (TS).
  • [Equation 1], [Equation 2], and [Equation 3] is [Equation 1-2] may be the same as
  • the product of the first component (W1) included in the demixing matrix (W) and the direction vector (H) included in the spatial transfer function (A) is 1, and the product of the first component (W1) included in the demixing matrix (W) is 1.
  • the product of the remaining components (Wm) excluding the first component (W1) and the direction vector (H) may be 0. This content can be expressed as [Equation 4] below.
  • RS result signal corresponding to the target signal
  • RS result signal corresponding to the noise signal
  • NS noise signal
  • XS input signal
  • the result providing unit 300 may extract the result signal (RS) from the input signal (XS) of the microphones based on the demixing matrix (W). For example, when optimizing the cost function through Independent Component Analysis (ICA), it is divided into the result signal (RS) for the target signal (TS) and the result signal (RS) for the noise signal (NS). can be provided.
  • ICA Independent Component Analysis
  • the result signal (RS) for the target signal (TS) may follow a Laplacian distribution with variance that varies with time.
  • the result signal (RS) corresponding to the target signal (TS) distributed according to the Laplacian function can be modeled as shown in [Equation 5] below.
  • k is a natural number representing the frequency index, is the total number of frames, is the Weighted Spatial Covariance Matrix (WSCM) for the target signal (TS), is the weight function, is a predetermined mask, and may represent the input signal (XS) of the microphones.
  • the weight function from the target signal (TS) modeled to follow this Laplacian distribution is the result signal (RS). with a predetermined mask
  • RS result signal
  • the time-varying variance estimated from It can be calculated by reflecting all.
  • the noise signal (NS) can be modeled as shown in [Equation 5-2] below.
  • k is a natural number representing the frequency index, is the total number of frames, is the Weighted Spatial Covariance Matrix (WSCM) for the noise signal (NS), is the weight function for the noise signal (NS), may represent the input signal (XS) of the microphones.
  • WSCM Weighted Spatial Covariance Matrix
  • NS noise signal
  • XS input signal
  • the direction vector (H) is a spatial covariance matrix (ISCM) for the input signal (XS) of the microphones and a spatial covariance matrix (Noise Spatial Covariance Matrix) for the noise signal (NS).
  • ISCM spatial covariance matrix
  • NSCM Spatial Covariance Matrix
  • the spatial covariance matrix (NSCM) for the noise signal (NS) is determined according to the ratio of the value corresponding to the target signal (TS) and the value corresponding to the noise signal (NS) among the result signal (RS). can be decided.
  • the method of estimating the direction vector (H) can be expressed as [Equation 6] below.
  • ISCM spatial covariance matrix for the input signals (XS) of the microphones
  • TSCM spatial covariance matrix
  • NSCM spatial covariance matrix for the noise signal
  • ICM the spatial covariance matrix for the input signals
  • TSCM the spatial covariance matrix
  • NSCM the spatial covariance matrix for the noise signal
  • the direction vector can be estimated by extracting the main Eisen vector from .
  • FIGS. 4 and 5 are diagrams for explaining the online operation of the beamforming and direction vector estimation system of FIG. 1, and FIG. 6 is a diagram for explaining an embodiment of the beamforming and direction vector estimation system of FIG. 1.
  • the beamforming and direction vector estimation system 10 may operate online.
  • the beamforming and direction vector estimation system 10 can update the demixing matrix (W) for each frame corresponding to a certain time interval.
  • the plurality of times may include a first time (T1) to a fourth time (T4)
  • the plurality of time intervals may include a first frame interval (FI1) to a third frame interval (FI3).
  • the first frame interval (FI1) may be a time interval from the first time (T1) to the second time (T2)
  • the second frame interval (FI2) may be a time interval from the second time (T2) to the third time (T3). It may be a time interval up to.
  • the third frame interval FI3 may be a time interval from the third time T3 to the fourth time T4.
  • the beamforming and direction vector estimation system 10 updates the demixing matrix (W) during the first frame interval (FI1) and updates the demixing matrix (W) again during the second frame time interval. It can be updated.
  • the result signal (RS) can be extracted from the input signal (XS) of the microphones based on the demixing matrix during the t frame interval as shown in [Equation 7] below.
  • RS result signal corresponding to the target signal (TS) of the t-frame interval estimated through the demixing matrix (W) estimated during the t-1 frame interval
  • W demixing matrix estimated during the t-1 frame interval
  • XS input signal
  • k and m are natural numbers representing the frequency and channel index, and are the first and m components of the demixing matrix (W) estimated in the t frame, is the demixing matrix (W) estimated at the tth frame, and is the Weighted Spatial Covariance Matrix (WSCM) in the t-th frame, which is determined according to modeling of the target signal (TS) and noise signal (RS), respectively. is the forgetting factor, may represent the input signal (XS) of the microphones.
  • This weighted spatial covariance matrix can be recursively updated online as shown in [Equation 8-1] below.
  • k is a natural number representing the frequency index, and is the Weighted Spatial Covariance Matrix (WSCM) estimated at the t-th and t-1th frames, respectively; is the forgetting factor, is the weight function, may be the input signal (XS) of the microphones.
  • XS input signal
  • the inverse matrix of the Weighted Spatial Covariance Matrix (WSCM) at the tth frame is When expressed as [Equation 8-2] below, the update of the inverse matrix can be performed recursively immediately.
  • the result signal (RS) for the target signal (TS) and the noise signal (NS) may follow the Laplacian distribution as shown in [Equation 5] and [Equation 5-2], respectively.
  • the result signal (RS) corresponding to the target signal (TS) distributed according to the Laplacian function of [Equation 5] online instead of the existing [Equation 5-1] and [Equation 5-3] It can be updated online as shown in [Equation 8-3] below.
  • TS target signal
  • NS noise signal
  • the existing [Equation 1], [Equation 2], and [Equation 3] are respectively [Equation 9], [Equation 10], and [Equation 10] below. 11].
  • k and m are natural numbers representing the frequency and channel index, respectively, is the cost function of independent component analysis in the tth frame, and are parameters that control the degree of restriction of distortion prevention and null conditions, respectively, and are the first and m components of the demixing matrix (W) in the t frame, may be the direction vector (H) estimated in the t-th frame.
  • the first component of the demixing matrix (W) that optimizes [Equation 9] can be updated by [Equation 9-1] below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector in the tth frame
  • W the demixing matrix
  • W the m component of the demixing matrix (W) that optimizes [Equation 9] can be updated by [Equation 9-2] as follows.
  • k is a natural number representing the frequency index, and is the Weighted Spatial Covariance Matrix (WSCM) and its corresponding inverse matrix in the t frame for the noise signal, is a parameter that controls the degree of constraint of the null condition, is the direction vector (H) in the tth frame, may be the mth component of the demixing matrix (W) in the tth frame.
  • WSCM Weighted Spatial Covariance Matrix
  • k and m are natural numbers representing the frequency and channel index, respectively, is the cost function of independent component analysis in the tth frame, and is a Lagrangian multiplier to prevent distortion and ensure a null condition, respectively, in the tth frame, and are the first and m components of the demixing matrix (W) in the t frame, may be the direction vector (H) estimated in the t-th frame.
  • the first component of the demixing matrix (W) that optimizes [Equation 10] can be updated by [Equation 10-1] below.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector in the tth frame
  • W the demixing matrix
  • W-2 the m component of the demixing matrix (W) that optimizes [Equation 10] can be updated by [Equation 10-2] as follows.
  • k is a natural number representing the frequency index, and is the Weighted Spatial Covariance Matrix (WSCM) and its corresponding inverse matrix in the t frame for the noise signal, is the direction vector (H) in the tth frame, may be the mth component of the demixing matrix (W) in the tth frame.
  • WSCM Weighted Spatial Covariance Matrix
  • the cost function in the tth frame is the cost function in the tth frame
  • k and m are natural numbers representing the frequency and channel index, respectively
  • are the first and m components of the demixing matrix (W) in the t frame may be the direction vector (H) estimated in the t-th frame.
  • the first component of the demixing matrix (W) that optimizes [Equation 11] can be updated by [Equation 11-1] as follows.
  • k is a natural number representing the frequency index
  • WSCM Weighted Spatial Covariance Matrix
  • H the direction vector in the tth frame
  • W the demixing matrix
  • W the m component of the demixing matrix (W) that optimizes [Equation 11] can be updated by [Equation 11-2] as follows.
  • k is a natural number representing the frequency index, and is the Weighted Spatial Covariance Matrix (WSCM) and its corresponding inverse matrix in the t frame for the noise signal, is a parameter that controls the degree of constraint of the null condition, is the direction vector (H) in the tth frame, may be the mth component of the demixing matrix (W) in the tth frame.
  • WSCM Weighted Spatial Covariance Matrix
  • the first component of the result matrix generated based on the input signal (XS) of the microphones and the demixing matrix (W) updated online every frame may correspond to the target signal (TS).
  • [Equation 9], [Equation 10], and [Equation 11] of [Equation 8] may be the same as
  • the direction vector (H) is the spatial covariance matrix (ISCM) for the input signal (XS) of the microphones and the spatial covariance matrix (ISCM) for the noise signal (NS) calculated online every frame. It can be determined according to the difference in the matrix (Noise Spatial Covariance Matrix, NSCM).
  • the spatial covariance matrix (NSCM) for the noise signal (NS) is determined according to the ratio of the value corresponding to the target signal (TS) and the value corresponding to the noise signal (NS) among the result signal (RS). It can be decided every frame.
  • the method of estimating the direction vector (H) can be expressed as [Equation 12] below.
  • k and m are natural numbers representing the frequency and channel index, respectively, is the mth component of the demixing matrix (W) estimated in the tth frame, is the inverse matrix of the demixing matrix (W) in the tth frame, is the ratio representing the contribution of the noise component among the input components, is the forgetting factor, is the input signal of the microphones (XS), is the spatial covariance matrix (ISCM) in the t frame for the input signals (XS) of the microphones), is the spatial covariance matrix (NSCM) in the t frame for the noise signal (NS), is a scaling factor with a real value between 0 and 1, may be the spatial covariance matrix (TSCM) in the t-th frame for the target signal (TS).
  • TSCM spatial covariance matrix
  • a predetermined mask can be estimated for each frame based on diffusion as shown in [Equation 13] below.
  • a predetermined mask may be a value resulting from the output of a pre-trained neural network.
  • one target point (TP) and target signal (TS) of the demixing providing unit 200 and the result providing unit 300 as shown in [Equation 4] are as shown in [Equation 14] below.
  • it can be expanded to multiple target points (TP) and target signals (TS). For example, if there are a total of N target signals,
  • N result signals (RS) corresponding to N target signals (TS) is the result signal (RS) corresponding to the noise signal (NS), may be the input signal (XS) of the microphones.
  • the cost function expressed by [Equation 1], [Equation 2], and [Equation 3] can be extended to the case of multiple target points (TP) and target signals (TS). For example, assuming that there are a total of N target signals, the cost function corresponding to [Equation 3] can be expanded to [Equation 15] below.
  • nth target signal is the m component of the demixing matrix (W)
  • W is the direction vector (H) corresponding to the nth target signal (TS)
  • H is the direction vector (H) corresponding to the nth target signal (TS)
  • W is the demixing matrix (W)
  • W may be a Weighted Spatial Covariance Matrix (WSCM) determined according to modeling of the mth target signal and noise signal, respectively.
  • WSCM Weighted Spatial Covariance Matrix
  • the plurality of direction vectors (H) corresponding to the plurality of target signals (TS) are the spatial covariance matrix (ISCM) for the input signals (XS) of the microphones and the noise signal ( It can be determined according to the difference of the spatial covariance matrix (NSCM) for NS).
  • the spatial covariance matrix (NSCM) for the noise signal (NS) is determined according to the ratio of the value corresponding to the target signal (TS) and the value corresponding to the noise signal (NS) among the result signal (RS). can be decided. For example, when there are a total of N target signals, the method for estimating a plurality of direction vectors (H) is [Equation 6], and the corresponding estimation method can be expanded as in [Equation 16] below. .
  • ISCM spatial covariance matrix for the input signals (XS) of the microphones
  • TSCM spatial covariance matrix
  • NSCM spatial covariance matrix
  • NSCM noise signal
  • NSCM spatial covariance matrix
  • the demixing matrix (W) of one or a plurality of target points (TP) and target signals (TS) of the demixing provider 200 and the result provider 300 is calculated using the demixing matrix (W) of the microphones in a single frame. Rather than multiplying with the input signal (XS), it can be expanded to an operation through convolution with the input signals (XS) of microphones in multiple frames as shown in [Equation 16] below.
  • RS result signals
  • TS target signals
  • NS noise signal
  • W convolutional demixing matrix
  • XS input signal
  • L may be natural numbers representing the length of the frame delay and convolution filter.
  • nth target signal is the m component of the demixing matrix (W)
  • W is the direction vector (H) corresponding to the nth target signal (TS)
  • W is a parameter that controls the degree of constraint of the null condition
  • W convolutional demixing matrix
  • W may be a Weighted Spatial Covariance Matrix (WSCM) determined according to modeling of the mth target signal and noise signal, respectively.
  • WSCM Weighted Spatial Covariance Matrix
  • the beamforming and direction vector estimation system 10 includes an input provider 100, a demixing provider 200, a result provider 300, and a voice provider ( 400).
  • the input provider 100 may provide input signals (XS) from microphones based on a spatial transfer function (A) corresponding to the target signal (TS) and noise signal (NS) at the target point (TS).
  • the demixing provider 200 may provide a demixing matrix (W) determined according to input signals (XS) of microphones and independent component analysis (ICA).
  • the result providing unit 300 may extract the result signal (RS) from the input signal (XS) of the microphones based on the demixing matrix (W).
  • the voice provider 400 may provide the result signal (RS) as a voice (SO).
  • FIG. 7 is a diagram illustrating an operation method of the beamforming and direction vector estimation system according to embodiments of the present invention
  • FIG. 8 is a diagram illustrating an embodiment of the operation method of the beamforming and direction vector estimation system of FIG. 7. It is a drawing.
  • the input provider 100 provides a target signal (TS) and a target signal (TS) at the target point (TS).
  • the input signals (XS) of the microphones can be provided based on the spatial transfer function (A) corresponding to each of the noise signals (NS) (S100).
  • the demixing provider 200 may provide a demixing matrix (W) determined according to input signals (XS) of microphones and independent component analysis (ICA) (S200).
  • the result providing unit 300 may extract the result signal (RS) from the input signal (XS) of the microphones based on the demixing matrix (W) (S300).
  • the voice provider 400 may provide the result signal (RS) as a voice (SO) (S400).
  • the target signal (TS) generated from the target point (TS) is calculated by calculating the demixing matrix (W) using a cost function including a plurality of spatial constraints. ) can be extracted without distortion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템은 입력 제공부, 디믹싱 제공부 및 결과 제공부를 포함할 수 있다. 입력 제공부는 타겟지점에서의 타겟신호 및 노이즈 신호에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공할 수 있다. 디믹싱 제공부는 마이크들의 입력신호 및 공간 제약 조건이 걸린 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공할 수 있다. 결과 제공부는 디믹싱 행렬에 기초하여 마이크들의 입력신호로부터 결과신호를 추출할 수 있다. 본 발명에 따른 빔포밍 및 방향 벡터 추정 시스템에서는, 복수의 제한조건들을 포함하는 비용함수를 이용해서 디믹싱 행렬을 산출함으로써 타겟지점으로부터 발생되는 타겟신호를 원하는 채널에 고정적으로 왜곡없이 추출할 수 있다.

Description

강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법
본 발명은 음성 인식 시스템에서의 타겟 음원에 대한 빔포밍 및 방향 벡터 추정 시스템에 관한 것으로서, 더욱 구체적으로는 목표 마스크와 독립 성분 분석에 기반하여 타겟 음원과 노이즈에 대한 모델을 동시에 고려하여 빔포밍 및 방향 벡터 추정에 대한 성능을 향상시킬 수 있는 방법에 관한 것이다.
마이크를 통해서 입력되는 마이크들의 입력신호는 음성인식에 필요한 타겟 음성뿐만 아니라 음성인식에 방해가 되는 노이즈들이 포함될 수 있다. 마이크들의 입력신호에서 노이즈를 제거하고, 원하는 타겟 음성만을 추출하여 음성인식의 성능을 높이기 위한 다양한 연구가 진행되고 있다.
본 발명이 이루고자 하는 기술적 과제는 복수의 제한조건들을 추가적으로 포함하는 비용함수를 이용해서 디믹싱 행렬을 산출함으로써 타겟지점으로부터 발생되는 타겟신호를 왜곡없이 추출할 수 있는 빔포밍 및 방향 벡터 추정 시스템을 제공하는 것이다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템은 입력 제공부, 디믹싱 제공부 및 결과 제공부를 포함할 수 있다. 입력 제공부는 타겟지점에서의 타겟신호 및 노이즈 신호에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공할 수 있다. 디믹싱 제공부는 상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공할 수 있다. 결과 제공부는 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출할 수 있다.
일 실시예에 있어서, 상기 공간전달함수는 상기 타겟 지점으로부터 상기 입력제공부까지의 전달함수에 해당하는 방향 벡터 및 상기 노이즈 신호가 상기 입력제공부까지 전달되기까지의 전달함수에 해당하는 노이즈 전달함수를 포함할 수 있다.
일 실시예에 있어서, 상기 디믹싱 행렬
Figure PCTKR2023009726-appb-img-000001
에 포함되는 제1 성분
Figure PCTKR2023009726-appb-img-000002
과 상기 공간전달함수에 포함되는 방향 벡터
Figure PCTKR2023009726-appb-img-000003
의 곱은 1이고, 상기 디믹싱 행렬에 포함되는 상기 제1 성분을 제외한 나머지 성분
Figure PCTKR2023009726-appb-img-000004
과 상기 방향 벡터
Figure PCTKR2023009726-appb-img-000005
의 곱은 0일 수 있다.
일 실시예에 있어서, 상기 디믹싱 행렬은 상기 독립성분 분석에 따른 비용함수(Cost Function, CF)에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 마이크들의 입력신호 및 상기 디믹싱 행렬에 기초하여 생성되는 결과 행렬의 제1 성분은 상기 타겟 신호에 상응할 수 있다.
일 실시예에 있어서, 상기 비용함수는 [수학식1]과 같이 표현되고,
[수학식1]
Figure PCTKR2023009726-appb-img-000006
여기서,
Figure PCTKR2023009726-appb-img-000007
는 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000008
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000009
Figure PCTKR2023009726-appb-img-000010
는 각각 왜곡 방지 및 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000011
는 디믹싱 행렬의 제1 성분,
Figure PCTKR2023009726-appb-img-000012
는 방향 벡터일 수 있다.
일 실시예에 있어서, 상기 비용함수는 [수학식2]과 같이 표현되고,
[수학식2]
Figure PCTKR2023009726-appb-img-000013
여기서,
Figure PCTKR2023009726-appb-img-000014
는 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000015
Figure PCTKR2023009726-appb-img-000016
는 각각 왜곡 방지 및 널 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000017
는 디믹싱 행렬의 제1 성분,
Figure PCTKR2023009726-appb-img-000018
는 방향 벡터일 수 있다.
일 실시예에 있어서, 상기 비용함수는 [수학식3]과 같이 표현되고,
[수학식3]
Figure PCTKR2023009726-appb-img-000019
여기서,
Figure PCTKR2023009726-appb-img-000020
는 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000021
는 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000022
는 디믹싱 행렬의 제1 성분,
Figure PCTKR2023009726-appb-img-000023
는 방향 벡터,
Figure PCTKR2023009726-appb-img-000024
는 널 조건의 제약 정도를 조절하는 파라미터일 수 있다.
일 실시예에 있어서, 상기 타겟신호에 대한 상기 결과신호는 라플라시안 함수에 따라 분포될 수 있다.
일 실시예에 있어서, 상기 방향 벡터는 상기 마이크들의 입력신호에 대한 공간 공분산 행렬(Input Spatial Covariance Matrix, ISCM)) 및 상기 노이즈 신호에 대한 공간 공분산 행렬(Noise Spatial Covariance Matrix, NSCM))의 차에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 노이즈 신호에 대한 공간 공분산 행렬은 상기 결과신호 중 상기 타겟 신호에 상응하는 값과 상기 노이즈 신호에 상응하는 값의 비율에 따라 결정될 수 있다.
일 실시예에 있어서, 상기 빔포밍 및 방향 벡터 추정 시스템은 일정한 시간간격에 해당하는 프레임마다 구동되어 상기 디믹싱 행렬을 업데이트할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템은 입력 제공부, 디믹싱 제공부, 결과 제공부 및 음성 제공부를 포함할 수 있다. 입력 제공부는 타겟지점에서의 타겟신호 및 노이즈 신호에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공할 수 있다. 디믹싱 제공부는 상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공할 수 있다. 결과 제공부는 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출할 수 있다. 음성 제공부는 상기 결과신호를 음성으로 제공할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템의 동작방법에서는, 입력 제공부가 타겟지점에서의 타겟신호 및 노이즈 신호의 각각에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공할 수 있다. 디믹싱 제공부가 상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공할 수 있다. 결과 제공부가 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템의 동작방법에서는, 입력 제공부가 타겟지점에서의 타겟신호 및 노이즈 신호의 각각에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공할 수 있다. 디믹싱 제공부가 상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공할 수 있다. 결과 제공부가 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출할 수 있다. 음성 제공부가 상기 결과신호를 음성으로 제공할 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명에 따른 빔포밍 및 방향 벡터 추정 시스템에서는, 복수의 제한조건들을 포함하는 비용함수를 이용해서 디믹싱 행렬을 산출함으로써 타겟지점으로부터 발생되는 타겟신호를 왜곡없이 추출할 수 있다. 그리고 타겟 신호뿐만 아니라 노이즈 신호에 상응하는 값을 사용하여 방향 벡터를 효과적으로 추정할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시예들에 따른 빔포밍 및 방향 벡터 추정 시스템을 나타내는 도면이다.
도 2는 도 1의 빔포밍 및 방향 벡터 추정 시스템에 적용되는 마이크들의 입력신호를 설명하기 위한 도면이다.
도 3은 도 1의 빔포밍 및 방향 벡터 추정 시스템에서 사용되는 공간전달함수를 설명하기 위한 도면이다.
도 4 및 5는 도 1의 빔포밍 및 방향 벡터 추정 시스템의 온라인 동작을 설명하기 위한 도면들이다.
도 6은 도 1의 빔포밍 및 방향 벡터 추정 시스템의 일 실시예를 설명하기 위한 도면이다.
도 7은 본 발명의 실시예들에 따른 빔포밍 및 방향 벡터 추정 시스템의 동작방법을 나타내는 도면이다.
도 8은 도 7의 빔포밍 및 방향 벡터 추정 시스템의 동작방법의 일 실시예를 설명하기 위한 도면이다.
본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 실시예들에 따른 빔포밍 및 방향 벡터 추정 시스템을 나타내는 도면이고, 2는 도 1의 빔포밍 및 방향 벡터 추정 시스템에 적용되는 마이크들의 입력신호를 설명하기 위한 도면이고, 도 3은 도 1의 빔포밍 및 방향 벡터 추정 시스템에서 사용되는 공간전달함수를 설명하기 위한 도면이다.
도 1 내지 3을 참조하면, 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템(10)은 입력 제공부(100), 디믹싱 제공부(200) 및 결과 제공부(300)를 포함할 수 있다. 입력 제공부(100)는 타겟지점(TP)에서의 타겟신호(TS) 및 노이즈 신호(NS)에 상응하는 공간전달함수(A)에 기초하여 마이크들의 입력신호(XS)를 제공할 수 있다. 예를 들어, 입력 제공부(100)는 복수의 마이크들일 수 있다. 복수의 마이크들은 제1 마이크(101) 내지 제3 마이크(103)를 포함할 수 있다. 공간전달함수(A)는 타겟신호(TS)가 타겟지점(TP)으로부터 입력 제공부(100)까지 전달되기까지의 전달함수에 해당하는 방향 벡터(Steering Vector)(H) 및 노이즈 신호(NS)가 입력 제공부(100)까지 전달되기까지의 전달함수에 해당하는 노이즈 전달함수(D)를 포함할 수 있다. 이 경우, 마이크들의 입력신호(XS)는 아래와 같이 [수학식1-1]로 표현될 수 있다.
[수학식1-1]
Figure PCTKR2023009726-appb-img-000025
여기서,
Figure PCTKR2023009726-appb-img-000026
는 마이크들의 입력신호(XS),
Figure PCTKR2023009726-appb-img-000027
는 공간전달함수(A),
Figure PCTKR2023009726-appb-img-000028
는 타겟신호(TS),
Figure PCTKR2023009726-appb-img-000029
는 노이즈 신호(NS),
Figure PCTKR2023009726-appb-img-000030
방향 벡터(H),
Figure PCTKR2023009726-appb-img-000031
는 노이즈 전달함수(D),
Figure PCTKR2023009726-appb-img-000032
는 주파수 인덱스,
Figure PCTKR2023009726-appb-img-000033
는 프레임 인덱스일 수 있다.
디믹싱 제공부(200)는 마이크들의 입력신호(XS) 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬(W)를 제공할 수 있다.
일 실시예에 있어서, 디믹싱 행렬(W)는 독립성분 분석 및 공간 제약 조건에 따른 비용함수(Cost Function, CF)에 기초하여 결정될 수 있다. 공간 제약 조건은 [수학식 1-1]과 이후 후술할 [수학식 4]에 의해서 각각 왜곡 방지 조건(
Figure PCTKR2023009726-appb-img-000034
)과 널 조건(
Figure PCTKR2023009726-appb-img-000035
)으로 표현될 수 있다. 예를 들어, 비용함수는 아래의 [수학식1], [수학식2] 및 [수학식3]으로 표현될 수 있다.
[수학식1]
Figure PCTKR2023009726-appb-img-000036
여기서,
Figure PCTKR2023009726-appb-img-000037
는 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000038
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000039
Figure PCTKR2023009726-appb-img-000040
는 각각 왜곡 방지 및 널 조건의 제약 정도를 조절하는 파라미터
Figure PCTKR2023009726-appb-img-000041
Figure PCTKR2023009726-appb-img-000042
는 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000043
는 방향 벡터(H) 일 수 있다. 한편 비용함수
Figure PCTKR2023009726-appb-img-000044
를 구성하는 기본적인 독립성분 분석의 기존 비용함수
Figure PCTKR2023009726-appb-img-000045
는 아래의 [수학식1-2]로 표현될 수 있다.
[수학식1-2]
Figure PCTKR2023009726-appb-img-000046
여기서, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000047
Figure PCTKR2023009726-appb-img-000048
는 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000049
는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000050
Figure PCTKR2023009726-appb-img-000051
는 각각 타겟 신호와 노이즈 신호의 모델링에 따라 결정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)을 나타낼 수 있다. [수학식1] 을 최적화 하는 디믹싱 행렬(W)의 제 1 성분
Figure PCTKR2023009726-appb-img-000052
는 아래와 같은 [수학식1-3]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식1-3]
Figure PCTKR2023009726-appb-img-000053
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000054
는 타겟 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000055
는 왜곡 방지 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000056
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000057
는 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식1]을 최적화하는 디믹싱 행렬(W)의 제 m 성분
Figure PCTKR2023009726-appb-img-000058
은 아래와 같이 [수학식1-4]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식1-4]
Figure PCTKR2023009726-appb-img-000059
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000060
는 노이즈 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000061
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000062
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000063
는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000064
는 디믹싱 행렬(W)의 제 m 성분일 수 있다.
[수학식2]
Figure PCTKR2023009726-appb-img-000065
여기서,
Figure PCTKR2023009726-appb-img-000066
는 비용함수, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000067
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000068
Figure PCTKR2023009726-appb-img-000069
는 각각 왜곡 방지 및 널 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000070
Figure PCTKR2023009726-appb-img-000071
는 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000072
는 방향 벡터(H)일 수 있다. 그리고 [수학식2] 을 최적화 하는 디믹싱 행렬(W)의 제 1 성분
Figure PCTKR2023009726-appb-img-000073
는 아래와 같은 [수학식2-1]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식2-1]
Figure PCTKR2023009726-appb-img-000074
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000075
는 타겟 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000076
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000077
는 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식2]을 최적화하는 디믹싱 행렬(W)의 제 m 성분
Figure PCTKR2023009726-appb-img-000078
은 아래와 같이 [수학식2-2]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식2-2]
Figure PCTKR2023009726-appb-img-000079
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000080
는 노이즈 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000081
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000082
는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000083
는 디믹싱 행렬(W)의 제 m 성분일 수 있다.
[수학식3]
Figure PCTKR2023009726-appb-img-000084
여기서,
Figure PCTKR2023009726-appb-img-000085
는 비용함수, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000086
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000087
는 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000088
Figure PCTKR2023009726-appb-img-000089
는 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000090
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000091
는 널 조건의 제약 정도를 조절하는 파라미터일 수 있다. 그리고 [수학식3] 을 최적화 하는 디믹싱 행렬(W)의 제 1 성분
Figure PCTKR2023009726-appb-img-000092
는 아래와 같은 [수학식3-1]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식3-1]
Figure PCTKR2023009726-appb-img-000093
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000094
는 타겟 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000095
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000096
는 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식3]을 최적화하는 디믹싱 행렬(W)의 제 m 성분
Figure PCTKR2023009726-appb-img-000097
은 아래와 같이 [수학식3-2]에 의해 반복적으로 수렴 추정할 수 있다.
[수학식3-2]
Figure PCTKR2023009726-appb-img-000098
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000099
는 노이즈 신호에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000100
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000101
는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000102
는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000103
는 디믹싱 행렬(W)의 제 m 성분일 수 있다.
[수학식1], [수학식2] 및 [수학식3]에 표현되는 바와 같이 각 수학식에서
Figure PCTKR2023009726-appb-img-000104
이후에 배치되는 제한조건들을 비용함수에 적용함으로써 디믹싱 행렬(W)에 기초하여 제공되는 결과신호(RS)를 포함하는 행렬의 제1 채널(성분)을 타겟신호(TS)에 대한 결과로 고정할 수 있고, 타겟신호(TS)에 대한 왜곡도 감소시킬 수 있다. 또한, [수학식1]에서의 파라미터
Figure PCTKR2023009726-appb-img-000105
에 의해서 조절되는 제한적인 정도의 왜곡 방지 조건을 가지는 제곱항으로 인하여 발생할 수 있는 음성의 왜곡을 감소시키기 위하여 [수학식3]은 [수학식1]과 [수학식2]를 하이브리드 형태로 조합하여 구성한 것일 수 있다. 일 실시예에 있어서, 마이크들의 입력신호(XS) 및 디믹싱 행렬(W)에 기초하여 생성되는 결과 행렬의 제1 성분은 타겟신호(TS)에 상응할 수 있다. 여기서, [수학식1], [수학식2] 및 [수학식3]의
Figure PCTKR2023009726-appb-img-000106
는 [수학식1-2]의
Figure PCTKR2023009726-appb-img-000107
와 동일할 수 있다.
일 실시예에 있어서, 디믹싱 행렬(W)에 포함되는 제1 성분(W1)와 공간전달함수(A)에 포함되는 방향 벡터(H)의 곱은 1이고, 디믹싱 행렬(W)에 포함되는 제1 성분(W1)을 제외한 나머지 성분(Wm)과 방향 벡터(H)의 곱은 0일 수 있다. 이와 같은 내용은 아래의 [수학식4]와 같이 표현될 수 있다.
[수학식4]
Figure PCTKR2023009726-appb-img-000108
여기서,
Figure PCTKR2023009726-appb-img-000109
는 타겟신호(TS)에 상응하는 결과신호(RS),
Figure PCTKR2023009726-appb-img-000110
는 노이즈 신호(NS)에 상응하는 결과신호(RS),
Figure PCTKR2023009726-appb-img-000111
는 마이크들의 입력신호(XS)일 수 있다.
결과 제공부(300)는 디믹싱 행렬(W)에 기초하여 마이크들의 입력신호(XS)로부터 결과신호(RS)를 추출할 수 있다. 예를 들어, 독립성분 분석(Independent Component Analysis, ICA)을 통해서 비용함수를 최적화하는 경우, 타겟신호(TS)에 대한 결과신호(RS) 및 노이즈 신호(NS)에 대한 결과신호(RS)로 구분되어 제공될 수 있다.
일 실시예에 있어서, 타겟신호(TS)에 대한 결과신호(RS)는 시간에 따라 변하는 분산을 가지는 라플라시안 분포를 따를 수 있다. 예를 들어, 라플라시안 함수에 따라 분포되는 타겟신호(TS)에 상응하는 결과신호(RS)는 아래의 [수학식5]와 같이 모델링될 수 있다.
[수학식5]
Figure PCTKR2023009726-appb-img-000112
,
여기서,
Figure PCTKR2023009726-appb-img-000113
는 타겟신호(TS)에 대한 출력 신호(RS)의 확률밀도함수,
Figure PCTKR2023009726-appb-img-000114
는 타겟신호(TS)의 시간에 따라 변하는 분산,
Figure PCTKR2023009726-appb-img-000115
는 결과신호(RS)일 수 있다. [수학식 5]에 의해서 모델링 된 신호를 통해서 [수학식 1-2]의 타겟에 대한 가중 공간 공분산 행렬
Figure PCTKR2023009726-appb-img-000116
는 아래와 같은 [수학식 5-1]과 같이 계산된다.
[수학식 5-1]
Figure PCTKR2023009726-appb-img-000117
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000118
는 전체 프레임의 개수,
Figure PCTKR2023009726-appb-img-000119
는 타겟신호(TS)에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000120
는 가중치 함수,
Figure PCTKR2023009726-appb-img-000121
는 미리 정해진 마스크,
Figure PCTKR2023009726-appb-img-000122
Figure PCTKR2023009726-appb-img-000123
는 마이크들의 입력신호(XS)를 나타낼 수 있다. 이러한 라플라시안 분포를 따르도록 모델링된 타겟 신호(TS)로부터 가중치 함수는 결과신호(RS)
Figure PCTKR2023009726-appb-img-000124
와 미리 정해진 마스크
Figure PCTKR2023009726-appb-img-000125
로부터 추정된 시간에 따라 변하는 분산
Figure PCTKR2023009726-appb-img-000126
을 모두 반영하여 계산 될 수 있다. 그리고 노이즈 신호(NS)에 대해서는 아래의 [수학식 5-2]와 같이 모델링 될 수 있다.
[수학식 5-2]
Figure PCTKR2023009726-appb-img-000127
여기서,
Figure PCTKR2023009726-appb-img-000128
는 노이즈 신호(NS)에 대한 출력 신호의 확률 밀도 함수,
Figure PCTKR2023009726-appb-img-000129
는 노이즈 신호(NS)에 대한 출력 신호일 수 있다. 이에 따라서 [수학식 1-2]의 노이즈에 대한 가중 공간 공분산 행렬
Figure PCTKR2023009726-appb-img-000130
는 아래의 [수학식 5-3]과 같이 계산된다.
[수학식 5-3]
Figure PCTKR2023009726-appb-img-000131
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000132
는 전체 프레임의 개수,
Figure PCTKR2023009726-appb-img-000133
는 노이즈 신호(NS)에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000134
는 노이즈 신호(NS)에 대한 가중치 함수,
Figure PCTKR2023009726-appb-img-000135
는 마이크들의 입력신호(XS)를 나타낼 수 있다.
일 실시예에 있어서, 방향 벡터(H)는 마이크들의 입력신호(XS)에 대한 공간 공분산 행렬(Input Spatial Covariance Matrix, ISCM)) 및 노이즈 신호(NS)에 대한 공간 공분산 행렬(Noise Spatial Covariance Matrix, NSCM)의 차에 따라 결정될 수 있다. 또 다른 실시예에 있어서, 노이즈 신호(NS)에 대한 공간 공분산 행렬(NSCM)는 결과신호(RS) 중 타겟신호(TS)에 상응하는 값과 노이즈 신호(NS)에 상응하는 값의 비율에 따라 결정될 수 있다. 예를 들어, 방향 벡터(H)를 추정하는 방식은 아래의 [수학식6]과 같이 표시될 수 있다.
[수학식6]
Figure PCTKR2023009726-appb-img-000136
Figure PCTKR2023009726-appb-img-000137
여기서,
Figure PCTKR2023009726-appb-img-000138
는 마이크들의 입력신호(XS)에 대한 공간 공분산 행렬(ISCM)),
Figure PCTKR2023009726-appb-img-000139
는 타겟신호(TS)에 대한 공간 공분산 행렬(TSCM),
Figure PCTKR2023009726-appb-img-000140
는 노이즈 신호(NS)에 대한 공간 공분산 행렬(NSCM),
Figure PCTKR2023009726-appb-img-000141
는 입력 성분 중 노이즈 성분의 기여도를 나타내는 비율일 수 있다. 그리고 방향 벡터 추정에 있어서
Figure PCTKR2023009726-appb-img-000142
는 아래의 [수학식6-1]과 같이 마이크들의 입력신호(XS)에 고정된 외부 마스크의 제곱근 값을 곱한 것으로 대체될 수 있다.
[수학식6-1]
Figure PCTKR2023009726-appb-img-000143
이러한 타겟 신호(TS)에 대한 공간 공분산 행렬
Figure PCTKR2023009726-appb-img-000144
로부터 주요 아이젠 벡터를 추출함으로써 방향 벡터를 추정할 수 있다.
도 4 및 5는 도 1의 빔포밍 및 방향 벡터 추정 시스템의 온라인 동작을 설명하기 위한 도면들이고, 도 6은 도 1의 빔포밍 및 방향 벡터 추정 시스템의 일 실시예를 설명하기 위한 도면이다.
도 1 내지 6을 참조하면, 본 발명에 따른 빔포밍 및 방향 벡터 추정 시스템(10)은 온라인으로 동작할 수도 있다. 이 경우, 빔포밍 및 방향 벡터 추정 시스템(10)은 일정한 시간간격에 해당하는 프레임마다 디믹싱 행렬(W)를 업데이트할 수 있다. 예를 들어, 복수의 시간들은 제1 시간(T1) 내지 제4 시간(T4)을 포함할 수 있고, 복수의 시간간격은 제1 프레임 간격(FI1) 내지 제3 프레임 간격(FI3)을 포함할 수 있다. 제1 프레임 간격(FI1)은 제1 시간(T1)부터 제2 시간(T2)까지의 시간간격일 수 있고, 제2 프레임 간격(FI2)은 제2 시간(T2)부터 제3 시간(T3)까지의 시간간격일 수 있다. 또한, 제3 프레임 간격(FI3)은 제3 시간(T3)부터 제4 시간(T4)까지의 시간간격일 수 있다. 이 경우, 본 발명에 따른 빔포밍 및 방향 벡터 추정 시스템(10)은 제1 프레임 간격(FI1)동안 디믹싱 행렬(W)를 업데이트하고, 제2 프레임 시간간격동안 다시 디믹싱 행렬(W)를 업데이트할 수 있다. 여기서, 도 5에 도시되는 바와 같이 디믹싱 행렬(W)를 업데이트하는 과정에서 최근 프레임에 대해서 가중치(WT)를 점진적으로 높여 적용하는 경우, 빔포밍 및 방향 벡터 추정 시스템(10)의 성능을 높일 수 있다. 이 경우, 제 t 프레임 간격 동안의 디믹싱 행렬에 기초하여 마이크들의 입력신호(XS)로부터 결과신호(RS)를 아래의 [수학식7]과 같이 추출할 수 있다.
[수학식7]
Figure PCTKR2023009726-appb-img-000145
여기서,
Figure PCTKR2023009726-appb-img-000146
는 t-1프레임 간격 동안 추정된 디믹싱 행렬(W)을 통해서 추정된 t프레임 간격의 타겟신호(TS)에 상응하는 결과신호(RS),
Figure PCTKR2023009726-appb-img-000147
는 t-1 프레임 간격 동안 추정된 디믹싱 행렬의 제1 채널(성분),
Figure PCTKR2023009726-appb-img-000148
는 마이크들의 입력신호(XS)일 수 있다.
일 실시예에 있어서, t프레임 간격에서의 디믹싱 행렬(W)을 추정하기 위해서 독립성분 분석(Independent Component Analysis, ICA)의 비용함수에 해당하는 [수학식1-2]의
Figure PCTKR2023009726-appb-img-000149
는 t번째 프레임에서 정의되는 아래의 [수학식8]의
Figure PCTKR2023009726-appb-img-000150
로 대체될 수 있다.
[수학식8]
Figure PCTKR2023009726-appb-img-000151
여기서, k 및 m는 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000152
Figure PCTKR2023009726-appb-img-000153
는 t번째 프레임에서 추정되는 디믹싱 행렬(W)의 제 1 및 m성분,
Figure PCTKR2023009726-appb-img-000154
는 t번째 프레임에서 추정되는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000155
Figure PCTKR2023009726-appb-img-000156
는 각각 타겟 신호(TS)와 노이즈 신호(RS)의 모델링에 따라 결정되는 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000157
는 망각인자(forgetting factor),
Figure PCTKR2023009726-appb-img-000158
는 마이크들의 입력신호(XS)를 나타낼 수 있다. 이러한 가중 공간 공분산 행렬은 아래의 [수학식 8-1]과 같이 재귀적으로 온라인 업데이트를 수행할 수 있다.
[수학식8-1]
Figure PCTKR2023009726-appb-img-000159
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000160
Figure PCTKR2023009726-appb-img-000161
는 각각 t번째와 t-1번째 프레임에서 추정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
Figure PCTKR2023009726-appb-img-000162
는 망각인자(forgetting factor),
Figure PCTKR2023009726-appb-img-000163
는 가중치 함수,
Figure PCTKR2023009726-appb-img-000164
는 마이크들의 입력신호(XS)일 수 있다. 그리고 t번째프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)의 역행렬을
Figure PCTKR2023009726-appb-img-000165
로 나타낼 때, 아래의 [수학식8-2]와 같이 재귀적으로 역행렬의 업데이트를 곧바로 수행할 수 있다.
[수학식8-2]
Figure PCTKR2023009726-appb-img-000166
여기서,
Figure PCTKR2023009726-appb-img-000167
Figure PCTKR2023009726-appb-img-000168
는 각각 t번째와 t-1번째 프레임에서 추정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)의 역행렬,
Figure PCTKR2023009726-appb-img-000169
는 망각인자(forgetting factor),
Figure PCTKR2023009726-appb-img-000170
는 가중치 함수,
Figure PCTKR2023009726-appb-img-000171
는 마이크들의 입력신호(XS)일 수 있다. 그리고, 타겟신호(TS)및 노이즈신호(NS)에 대한 결과신호(RS)가 각각 [수학식5]와 [수학식5-2] 같이 라플라시안 분포를 따를 수 있다. [수학식5]의 라플라시안 함수에 따라 분포되는 타겟신호(TS)에 상응하는 결과신호(RS)를 온라인으로 업데이트하고자 기존의 [수학식5-1]와 [수학식5-3]을 대신하여 아래의 [수학식8-3]와 같이 온라인으로 업데이트 될 수 있다.
[수학식8-3]
Figure PCTKR2023009726-appb-img-000172
여기서,
Figure PCTKR2023009726-appb-img-000173
Figure PCTKR2023009726-appb-img-000174
는 각각 타겟신호(TS)및 노이즈신호(NS)에 대한 가중치 함수,
Figure PCTKR2023009726-appb-img-000175
는 타겟신호(TS)의 시간에 따라 변하는 분산,
Figure PCTKR2023009726-appb-img-000176
는 스무딩 팩터(smoothing factor),
Figure PCTKR2023009726-appb-img-000177
는 미리 정해진 마스크,
Figure PCTKR2023009726-appb-img-000178
는 마이크들의 입력신호(XS)의 대표값,
Figure PCTKR2023009726-appb-img-000179
는 t-1번째 프레임에서 추정한 디믹싱 행렬(W)을 사용한 t번째 타겟신호(TS)에 대응되는 프레임의 결과신호(RS),
Figure PCTKR2023009726-appb-img-000180
는 t-1번째 프레임에서 추정한 디믹싱 행렬(W)을 사용한 t번째 노이즈신호(NS)에 대응되는 프레임의 결과신호(RS)일 수 있다.
일 실시예에 있어서, 온라인 업데이트를 수행하기 위해서 기존의 [수학식1], [수학식2] 및 [수학식3]는 각각 아래의 [수학식9], [수학식10] 및 [수학식11]로 표현될 수 있다.
[수학식9]
Figure PCTKR2023009726-appb-img-000181
여기서,
Figure PCTKR2023009726-appb-img-000182
는 t번째 프레임에서의 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000183
는 t번쨰 프레임에서의 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000184
Figure PCTKR2023009726-appb-img-000185
는 각각 왜곡 방지 및 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000186
Figure PCTKR2023009726-appb-img-000187
는 t번째 프레임에서의 디믹싱 행렬(W)의 제 1 및 m 성분,
Figure PCTKR2023009726-appb-img-000188
는 t번째 프레임에서 추정된 방향 벡터(H)일 수 있다. 그리고 [수학식9]를 최적화하는 디믹싱 행렬(W)의 제 1성분은 아래와 같은 [수학식9-1]에 의해 업데이트할 수 있다.
[수학식9-1]
Figure PCTKR2023009726-appb-img-000189
Figure PCTKR2023009726-appb-img-000190
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000191
Figure PCTKR2023009726-appb-img-000192
는 타겟 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)와 이에 대응하는 역행렬,
Figure PCTKR2023009726-appb-img-000193
는 왜곡 방지 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000194
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000195
는 t번째 프레임에서의 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식9]를 최적화하는 디믹싱 행렬(W)의 제 m성분은 아래와 같이 [수학식9-2]에 의해 업데이트 할 수 있다.
[수학식9-2]
Figure PCTKR2023009726-appb-img-000196
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000197
Figure PCTKR2023009726-appb-img-000198
는 노이즈 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)와 이에 대응하는 역행렬,
Figure PCTKR2023009726-appb-img-000199
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000200
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000201
는 t번째 프레임에서의 디믹싱 행렬(W)의 제m 성분일 수 있다.
[수학식10]
Figure PCTKR2023009726-appb-img-000202
여기서,
Figure PCTKR2023009726-appb-img-000203
는 t번째 프레임에서의 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000204
는 t번째 프레임에서의 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000205
Figure PCTKR2023009726-appb-img-000206
는 t번째 프레임에서 각각 왜곡 방지 및 널 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000207
Figure PCTKR2023009726-appb-img-000208
는 t번째 프레임에서의 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000209
는 t번째 프레임에서 추정된 방향 벡터(H)일 수 있다. 그리고 [수학식10]를 최적화하는 디믹싱 행렬(W)의 제1 성분은 아래와 같은 [수학식10-1]에 의해 업데이트할 수 있다.
[수학식10-1]
Figure PCTKR2023009726-appb-img-000210
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000211
는 타겟 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)의 역행렬,
Figure PCTKR2023009726-appb-img-000212
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000213
는 t번째 프레임에서의 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식10]를 최적화하는 디믹싱 행렬(W)의 제 m성분은 아래와 같이 [수학식10-2]에 의해 업데이트 할 수 있다.
[수학식10-2]
Figure PCTKR2023009726-appb-img-000214
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000215
Figure PCTKR2023009726-appb-img-000216
는 노이즈 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)와 이에 대응하는 역행렬,
Figure PCTKR2023009726-appb-img-000217
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000218
는 t번째 프레임에서의 디믹싱 행렬(W)의 제m 성분일 수 있다.
[수학식11]
Figure PCTKR2023009726-appb-img-000219
여기서,
Figure PCTKR2023009726-appb-img-000220
는 t번째 프레임에서의 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000221
는 t번쨰 프레임에서의 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000222
는 t번째 프레임에서 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수,
Figure PCTKR2023009726-appb-img-000223
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000224
Figure PCTKR2023009726-appb-img-000225
는 t번째 프레임에서의 디믹싱 행렬(W)의 제1 및 m 성분,
Figure PCTKR2023009726-appb-img-000226
는 t번째 프레임에서 추정된 방향 벡터(H)일 수 있다. 그리고 [수학식11]를 최적화하는 디믹싱 행렬(W)의 제1성분은 아래와 같은 [수학식11-1]에 의해 업데이트할 수 있다.
[수학식11-1]
Figure PCTKR2023009726-appb-img-000227
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000228
는 타겟 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)의 역행렬,
Figure PCTKR2023009726-appb-img-000229
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000230
는 t번째 프레임에서의 디믹싱 행렬(W)의 제1 성분일 수 있다. 그리고 [수학식11]를 최적화하는 디믹싱 행렬(W)의 제 m성분은 아래와 같이 [수학식11-2]에 의해 업데이트 할 수 있다.
[수학식11-2]
Figure PCTKR2023009726-appb-img-000231
Figure PCTKR2023009726-appb-img-000232
여기서, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000233
Figure PCTKR2023009726-appb-img-000234
는 노이즈 신호에 대한 t번째 프레임에서의 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)와 이에 대응하는 역행렬,
Figure PCTKR2023009726-appb-img-000235
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000236
는 t번째 프레임에서의 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000237
는 t번째 프레임에서의 디믹싱 행렬(W)의 제 m성분일 수 있다.
[수학식9], [수학식10] 및 [수학식11]에 표현되는 바와 같이 각 수학식에서
Figure PCTKR2023009726-appb-img-000238
이후에 배치되는 제한조건들을 비용함수에 적용함으로써 매 프레임마다 온라인 업데이트 되는 디믹싱 행렬(W)에 기초하여 제공되는 결과신호(RS)를 포함하는 행렬의 제1 채널(성분)을 타겟신호(TS)에 대한 결과로 고정할 수 있고, 타겟신호(TS)에 대한 왜곡도 감소시킬 수 있다. 또한, [수학식1]에서의 파라미터
Figure PCTKR2023009726-appb-img-000239
에 의해서 조절되는 제한적인 정도의 왜곡 방지 조건을 가지는 제곱항으로 인하여 발생할 수 있는 음성의 왜곡을 감소시키기 위하여 [수학식11]은 [수학식9]과 [수학식10]를 하이브리드 형태로 조합하여 구성한 것일 수 있다. 일 실시예에 있어서, 마이크들의 입력신호(XS) 및 매 프레임마다 온라인 업데이트 되는 디믹싱 행렬(W)에 기초하여 생성되는 결과 행렬의 제1 성분은 타겟신호(TS)에 상응할 수 있다. 여기서, [수학식9], [수학식10] 및 [수학식11]의
Figure PCTKR2023009726-appb-img-000240
는 [수학식8]의
Figure PCTKR2023009726-appb-img-000241
와 동일할 수 있다.
일 실시예에 있어서, 방향 벡터(H)는 매 프레임마다 온라인으로 계산되는 마이크들의 입력신호(XS)에 대한 공간 공분산 행렬(Input Spatial Covariance Matrix, ISCM)) 및 노이즈 신호(NS)에 대한 공간 공분산 행렬(Noise Spatial Covariance Matrix, NSCM)의 차에 따라 결정될 수 있다. 또 다른 실시예에 있어서, 노이즈 신호(NS)에 대한 공간 공분산 행렬(NSCM)는 결과신호(RS) 중 타겟신호(TS)에 상응하는 값과 노이즈 신호(NS)에 상응하는 값의 비율에 따라 매 프레임 결정될 수 있다. 예를 들어, 방향 벡터(H)를 추정하는 방식은 아래의 [수학식12]과 같이 표시될 수 있다.
[수학식12]
Figure PCTKR2023009726-appb-img-000242
여기서, k와 m는 각각 주파수 및 채널 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000243
는 t번째 프레임에서 추정되는 디믹싱 행렬(W)의 제 m 성분,
Figure PCTKR2023009726-appb-img-000244
는 t번째 프레임에서 디믹싱 행렬(W)의 역행렬,
Figure PCTKR2023009726-appb-img-000245
는 입력 성분 중 노이즈 성분의 기여도를 나타내는 비율,
Figure PCTKR2023009726-appb-img-000246
는 망각인자(forgetting factor),
Figure PCTKR2023009726-appb-img-000247
는 마이크들의 입력신호(XS),
Figure PCTKR2023009726-appb-img-000248
는 마이크들의 입력신호(XS)에 대한 t번째 프레임에서의 공간 공분산 행렬(ISCM)),
Figure PCTKR2023009726-appb-img-000249
는 노이즈신호(NS)에 대한 t번째 프레임에서의 공간 공분산 행렬(NSCM),
Figure PCTKR2023009726-appb-img-000250
는 0과 1사이의 실수값을 가지는 스케일링 팩터(scaling factor),
Figure PCTKR2023009726-appb-img-000251
는 타겟신호(TS)에 대한 t번째 프레임에서의 공간 공분산 행렬(TSCM)일 수 있다. 그리고 방향 벡터 추정에 있어서
Figure PCTKR2023009726-appb-img-000252
는 아래의 [수학식12-1]과 같이 마이크들의 입력신호(XS)에 고정된 외부 마스크의 제곱근 값을 곱한 것으로 대체될 수 있다.
[수학식12-1]
Figure PCTKR2023009726-appb-img-000253
이러한 타겟 신호(TS)에 대한 공간 공분산 행렬
Figure PCTKR2023009726-appb-img-000254
로부터 주요 아이젠 벡터를 추출함으로써 방향 벡터를 매 구간 프레임마다 온라인으로 추정할 수 있다.
일 실시예에 있어서, 미리 정해진 마스크
Figure PCTKR2023009726-appb-img-000255
를 아래의 [수학식13]과 같이 확산성을 기반으로 하여 매 프레임 추정할 수 있다.
[수학식13]
Figure PCTKR2023009726-appb-img-000256
여기서,
Figure PCTKR2023009726-appb-img-000257
Figure PCTKR2023009726-appb-img-000258
는 각각 치우침 및 기울기를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000259
는 임의의 마이크들의 입력신호(XS) 쌍
Figure PCTKR2023009726-appb-img-000260
Figure PCTKR2023009726-appb-img-000261
대해서 구한 확산성 수치
Figure PCTKR2023009726-appb-img-000262
들의 중간 값일 수 있다. 또 다른 실시예에 있어서, 미리 정해진 마스크
Figure PCTKR2023009726-appb-img-000263
는 미리 학습된 신경망의 출력에 의한 값일 수 있다.
일 실시예에 있어서, 디믹싱 제공부(200) 및 결과제공부(300)의 [수학식4]와 같이 하나의 타겟지점(TP)및 타겟신호(TS)는 아래의 [수학식14]와 같이 복수의 타겟지점(TP)및 타겟신호(TS)로 확장될 수 있다. 예를 들어, 총 N개의 타겟 신호가 있다고 할 때,
[수학식14]
Figure PCTKR2023009726-appb-img-000264
여기서,
Figure PCTKR2023009726-appb-img-000265
는 N개의 타겟신호(TS)에 상응하는 N개의 결과신호(RS),
Figure PCTKR2023009726-appb-img-000266
는 노이즈 신호(NS)에 상응하는 결과신호(RS),
Figure PCTKR2023009726-appb-img-000267
는 마이크들의 입력신호(XS)일 수 있다. 그리고 [수학식1], [수학식2] 및 [수학식3]으로 표현되는 비용함수는 복수의 타겟지점(TP)및 타겟신호(TS)의 경우로 확장될 수 있다. 예를 들어, 총 N개의 타겟 신호가 있다고 할 때, [수학식3]에 대응되는 비용함수는 아래의 [수학식15]로 확장될 수 있다.
[수학식15]
Figure PCTKR2023009726-appb-img-000268
여기서,
Figure PCTKR2023009726-appb-img-000269
는 비용함수, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000270
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000271
는 n번째 타겟신호(TS)의 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수
Figure PCTKR2023009726-appb-img-000272
는 디믹싱 행렬(W)의 m 성분,
Figure PCTKR2023009726-appb-img-000273
는 n번째 타겟신호(TS)에 대응되는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000274
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000275
는 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000276
Figure PCTKR2023009726-appb-img-000277
는 각각 m번째 타겟 신호와 노이즈 신호의 모델링에 따라 결정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)일 수 있다.
일 실시예에 있어서, 복수의 타겟신호(TS)에 대해 상응하는 복수의 방향 벡터(H)는 마이크들의 입력신호(XS)에 대한 공간 공분산 행렬(Input Spatial Covariance Matrix, ISCM)) 및 노이즈 신호(NS)에 대한 공간 공분산 행렬(Noise Spatial Covariance Matrix, NSCM)의 차에 따라 결정될 수 있다. 또 다른 실시예에 있어서, 노이즈 신호(NS)에 대한 공간 공분산 행렬(NSCM)는 결과신호(RS) 중 타겟신호(TS)에 상응하는 값과 노이즈 신호(NS)에 상응하는 값의 비율에 따라 결정될 수 있다. 예를 들어, 총 N개의 타겟 신호가 있다고 할 때, 복수의 방향 벡터(H)를 추정하는 방식은 [수학식6]과 대응되는 추정 방식은 아래의 [수학식16]과 같이 확장될 수 있다.
[수학식16]
Figure PCTKR2023009726-appb-img-000278
여기서,
Figure PCTKR2023009726-appb-img-000279
는 마이크들의 입력신호(XS)에 대한 공간 공분산 행렬(ISCM)),
Figure PCTKR2023009726-appb-img-000280
는 m번째 타겟신호(TS)에 대한 공간 공분산 행렬(TSCM),
Figure PCTKR2023009726-appb-img-000281
는 노이즈 신호(NS)에 대한 공간 공분산 행렬(NSCM),
Figure PCTKR2023009726-appb-img-000282
는 m번째 타겟신호(TS)를 제외한 나머지 신호에 대한 공간 공분산 행렬(NSCM),
Figure PCTKR2023009726-appb-img-000283
는 입력 성분 중 m번째 타겟신호(TS)를 제외한 나머지 성분의 기여도를 나타내는 비율일 수 있다. 이러한 타겟 신호(TS)에 대한 공간 공분산 행렬
Figure PCTKR2023009726-appb-img-000284
로부터 주요 아이젠 벡터를 추출함으로써 N개의 방향 벡터를 추정할 수 있다.
일 실시예에 있어서, 디믹싱 제공부(200) 및 결과제공부(300)의 하나 또는 복수의 타겟지점(TP)및 타겟신호(TS)의 디믹싱 행렬(W)은 단일 프레임에서의 마이크들의 입력신호(XS)와의 곱이 아닌 아래의 [수학식16]와 같이 복수의 프레임에서의 마이크들의 입력신호(XS)와의 컨볼루션을 통한 연산으로 확장될 수 있다.
[수학식17]
Figure PCTKR2023009726-appb-img-000285
여기서,
Figure PCTKR2023009726-appb-img-000286
는 복수의 타겟신호(TS)에 상응하는 복수의 결과신호(RS),
Figure PCTKR2023009726-appb-img-000287
는 노이즈 신호(NS)에 상응하는 결과신호(RS),
Figure PCTKR2023009726-appb-img-000288
는 컨볼루션 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000289
는 마이크들의 입력신호(XS), D와 L은 프레임 딜레이와 컨볼루션 필터의 길이를 나타내는 자연수일 수 있다. 이러한 컨볼루션 필터로의 확장을 통해 D 프레임 이전의 L개의 프레임을 함께 사용하여 효과적으로 타겟 신호를 분리할 수 있다. 그리고 [수학식15]으로 표현되는 비용함수는 컨볼루션 디믹싱 행렬(W)의 경우로 확장될 수 있다. 예를 들어, [수학식15]에 대응되는 비용함수는 아래의 [수학식18]로 확장될 수 있다.
[수학식18]
Figure PCTKR2023009726-appb-img-000290
여기서,
Figure PCTKR2023009726-appb-img-000291
는 비용함수, k는 주파수 인덱스를 나타내는 자연수,
Figure PCTKR2023009726-appb-img-000292
는 독립성분 분석의 비용함수,
Figure PCTKR2023009726-appb-img-000293
는 n번째 타겟신호(TS)의 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수
Figure PCTKR2023009726-appb-img-000294
는 디믹싱 행렬(W)의 m 성분,
Figure PCTKR2023009726-appb-img-000295
는 n번째 타겟신호(TS)에 대응되는 방향 벡터(H),
Figure PCTKR2023009726-appb-img-000296
는 널 조건의 제약 정도를 조절하는 파라미터,
Figure PCTKR2023009726-appb-img-000297
는 컨볼루션 디믹싱 행렬(W),
Figure PCTKR2023009726-appb-img-000298
Figure PCTKR2023009726-appb-img-000299
는 각각 m번째 타겟 신호와 노이즈 신호의 모델링에 따라 결정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)일 수 있다.
일 실시예에 있어서, 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템(10)은 입력 제공부(100), 디믹싱 제공부(200), 결과 제공부(300) 및 음성 제공부(400)를 포함할 수 있다. 입력 제공부(100)는 타겟지점(TS)에서의 타겟신호(TS) 및 노이즈 신호(NS)에 상응하는 공간전달함수(A)에 기초하여 마이크들의 입력신호(XS)를 제공할 수 있다. 디믹싱 제공부(200)는 마이크들의 입력신호(XS) 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬(W)를 제공할 수 있다. 결과 제공부(300)는 디믹싱 행렬(W)에 기초하여 마이크들의 입력신호(XS)로부터 결과신호(RS)를 추출할 수 있다. 음성 제공부(400)는 결과신호(RS)를 음성(SO)으로 제공할 수 있다.
도 7은 본 발명의 실시예들에 따른 빔포밍 및 방향 벡터 추정 시스템의 동작방법을 나타내는 도면이고, 도 8은 도 7의 빔포밍 및 방향 벡터 추정 시스템의 동작방법의 일 실시예를 설명하기 위한 도면이다.
도 1 내지 8을 참조하면, 본 발명의 실시예에 따른 빔포밍 및 방향 벡터 추정 시스템(10)의 동작방법에서는, 입력 제공부(100)가 타겟지점(TS)에서의 타겟신호(TS) 및 노이즈 신호(NS)의 각각에 상응하는 공간전달함수(A)에 기초하여 마이크들의 입력신호(XS)를 제공할 수 있다(S100). 디믹싱 제공부(200)가 마이크들의 입력신호(XS) 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬(W)를 제공할 수 있다(S200). 결과 제공부(300)가 디믹싱 행렬(W)에 기초하여 마이크들의 입력신호(XS)로부터 결과신호(RS)를 추출할 수 있다(S300). 음성 제공부(400)가 결과신호(RS)를 음성(SO)으로 제공할 수 있다(S400). 본 발명에 따른 빔포밍 및 방향 벡터 추정 시스템(10)에서는, 복수의 공간적 제한조건들을 포함하는 비용함수를 이용해서 디믹싱 행렬(W)를 산출함으로써 타겟지점(TS)으로부터 발생되는 타겟신호(TS)를 왜곡없이 추출할 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

Claims (20)

  1. 타겟지점에서의 타겟신호 및 노이즈 신호에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공하는 입력 제공부;
    상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공하는 디믹싱 제공부; 및
    상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출하는 결과 제공부를 포함하는 빔포밍 및 방향 벡터 추정 시스템.
  2. 제1항에 있어서,
    상기 공간전달함수는 상기 타겟지점으로부터 상기 입력제공부까지의 전달함수에 해당하는 방향 벡터 및 상기 노이즈 신호가 상기 입력제공부까지 전달되기까지의 전달함수에 해당하는 노이즈 전달함수를 포함하는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  3. 제2항에 있어서,
    상기 디믹싱 행렬에 포함되는 제1 성분와 상기 공간전달함수에 포함되는 방향 벡터의 곱은 1이고, 상기 디믹싱 행렬에 포함되는 상기 제1 성분을 제외한 나머지 성분과 상기 방향 벡터의 곱은 0인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  4. 제3항에 있어서,
    상기 디믹싱 행렬은 상기 독립성분 분석 및 공간 제약 조건에 따른 비용함수(Cost Function, CF)에 기초하여 결정되는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  5. 제4항에 있어서,
    상기 마이크들의 입력신호 및 상기 디믹싱 행렬에 기초하여 생성되는 결과 행렬의 제1 성분은 상기 타겟신호에 상응하는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  6. 제5항에 있어서,
    상기 비용함수는 [수학식1]과 같이 표현되고,
    [수학식1]
    Figure PCTKR2023009726-appb-img-000300
    여기서,
    Figure PCTKR2023009726-appb-img-000301
    는 비용함수, k 및 m은 각각 주파수 및 채널 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000302
    는 독립성분 분석의 비용함수,
    Figure PCTKR2023009726-appb-img-000303
    Figure PCTKR2023009726-appb-img-000304
    는 각각 왜곡 방지 및 널 조건의 제약 정도를 조절하는 파라미터
    Figure PCTKR2023009726-appb-img-000305
    Figure PCTKR2023009726-appb-img-000306
    는 디믹싱 행렬의 제1 및 m 성분,
    Figure PCTKR2023009726-appb-img-000307
    는 방향 벡터인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  7. 제5항에 있어서,
    상기 비용함수는 [수학식2]과 같이 표현되고,
    [수학식2]
    Figure PCTKR2023009726-appb-img-000308
    여기서,
    Figure PCTKR2023009726-appb-img-000309
    는 비용함수, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000310
    는 독립성분 분석의 비용함수,
    Figure PCTKR2023009726-appb-img-000311
    Figure PCTKR2023009726-appb-img-000312
    는 각각 왜곡 방지 및 널 조건을 보장하기 위한 라그랑즈 승수,
    Figure PCTKR2023009726-appb-img-000313
    Figure PCTKR2023009726-appb-img-000314
    는 디믹싱 행렬의 제1 및 m 성분,
    Figure PCTKR2023009726-appb-img-000315
    는 방향 벡터인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  8. 제5항에 있어서,
    상기 비용함수는 [수학식3]과 같이 표현되고,
    [수학식3]
    Figure PCTKR2023009726-appb-img-000316
    여기서,
    Figure PCTKR2023009726-appb-img-000317
    는 비용함수, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000318
    는 독립성분 분석의 비용함수,
    Figure PCTKR2023009726-appb-img-000319
    는 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수,
    Figure PCTKR2023009726-appb-img-000320
    Figure PCTKR2023009726-appb-img-000321
    는 디믹싱 행렬의 제 1 및 m 성분,
    Figure PCTKR2023009726-appb-img-000322
    는 방향 벡터(H),
    Figure PCTKR2023009726-appb-img-000323
    는 널 조건의 제약 정도를 조절하는 파라미터인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  9. 제6, 7 및 8항에 있어서,
    상기 독립성분 분석의 비용함수
    Figure PCTKR2023009726-appb-img-000324
    는 [수학식1-2]과 같이 표현되고,
    [수학식1-2]
    Figure PCTKR2023009726-appb-img-000325
    여기서, k 및 m은 주파수 및 채널 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000326
    Figure PCTKR2023009726-appb-img-000327
    는 디믹싱 행렬(W)의 제1 및 m 성분,
    Figure PCTKR2023009726-appb-img-000328
    는 디믹싱 행렬(W),
    Figure PCTKR2023009726-appb-img-000329
    Figure PCTKR2023009726-appb-img-000330
    는 각각 타겟 신호와 노이즈 신호의 모델링에 따라 결정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  10. 제4항에 있어서,
    상기 마이크들의 입력신호 및 상기 디믹싱 행렬에 기초하여 생성되는 결과 행렬의 제1부터 N까지의 성분이 N개의 복수의 상기 타겟신호로 확장되어 상응하는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  11. 제10항에 있어서,
    상기 비용함수는 [수학식15]과 같이 표현되고,
    [수학식15]
    Figure PCTKR2023009726-appb-img-000331
    여기서,
    Figure PCTKR2023009726-appb-img-000332
    는 비용함수, k는 주파수 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000333
    는 독립성분 분석의 비용함수,
    Figure PCTKR2023009726-appb-img-000334
    는 n번째 타겟신호(TS)의 왜곡 방지 조건을 보장하기 위한 라그랑즈 승수
    Figure PCTKR2023009726-appb-img-000335
    는 디믹싱 행렬(W)의 m 성분,
    Figure PCTKR2023009726-appb-img-000336
    는 n번째 타겟신호(TS)에 대응되는 방향 벡터(H),
    Figure PCTKR2023009726-appb-img-000337
    는 널 조건의 제약 정도를 조절하는 파라미터,
    Figure PCTKR2023009726-appb-img-000338
    는 디믹싱 행렬(W),
    Figure PCTKR2023009726-appb-img-000339
    Figure PCTKR2023009726-appb-img-000340
    는 각각 타겟 신호와 노이즈 신호의 모델링에 따라 결정되는 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM)인 것을 특징으로 하는 빔포밍 방향 벡터 추정 시스템.
  12. 제9 및 11항에 있어서,
    상기 타겟신호에 대한 상기 결과신호는 시간에 따라 변하는 분산을 가지는 라플라시안 분포를 따르는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  13. 제12항에 있어서,
    상기 시간에 따라 변하는 분산을 가지는 라플라시안 분포를 통해서 타겟신호(TS)에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM) 및 가중치 함수의 계산식은 [수학식5-1]과 같이 표현되고,
    [수학식 5-1]
    Figure PCTKR2023009726-appb-img-000341
    Figure PCTKR2023009726-appb-img-000342
    여기서, k는 주파수 인덱스를 나타내는 자연수,
    Figure PCTKR2023009726-appb-img-000343
    는 전체 프레임의 개수,
    Figure PCTKR2023009726-appb-img-000344
    는 타겟신호(TS)에 대한 가중 공간 공분산 행렬(Weighted Spatial Covariance Matrix, WSCM),
    Figure PCTKR2023009726-appb-img-000345
    는 가중치 함수,
    Figure PCTKR2023009726-appb-img-000346
    는 미리 정해진 마스크,
    Figure PCTKR2023009726-appb-img-000347
    Figure PCTKR2023009726-appb-img-000348
    는 마이크들의 입력신호(XS) 및 마이크들의 입력신호(XS)의 대표값인 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템
  14. 제6, 7, 8 및 11항에 있어서,
    상기 방향 벡터는 상기 마이크들의 입력신호에 대한 공간 공분산 행렬(Input Spatial Covariance Matrix, ISCM)) 및 상기 노이즈 신호에 대한 공간 공분산 행렬(Noise Spatial Covariance Matrix, NSCM))의 차에 따라 결정되는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  15. 제14항에 있어서,
    상기 노이즈 신호에 대한 공간 공분산 행렬은 상기 결과신호 중 상기 타겟신호에 상응하는 값과 상기 노이즈 신호에 상응하는 값의 비율에 따라 결정되는 것을 특징으로 하는 빔포밍 및 방향 벡터 추정 시스템.
  16. 제4와 5항에 있어서,
    상기 빔포밍 및 방향 벡터 추정 시스템은 일정한 시간간격에 해당하는 프레임마다 구동되어 상기 디믹싱 행렬을 온라인 업데이트하는 빔포밍 및 방향 벡터 추정 시스템.
  17. 제13항에 있어서,
    미리 정해진 마스크
    Figure PCTKR2023009726-appb-img-000349
    는 확산성을 기반으로 하여 매 프레임 추정될 수 있는 빔포밍 및 방향 벡터 추정 시스템.
  18. 타겟지점에서의 타겟신호 및 노이즈 신호의 각각에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공하는 입력 제공부;
    상기 마이크들의 입력신호 및 독립성분 분석(Independent Component Analysis, ICA) 및 공간 제약 조건에 따라 결정되는 디믹싱 행렬을 제공하는 디믹싱 제공부;
    상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출하는 결과 제공부; 및
    상기 결과신호를 음성으로 제공하는 음성 제공부를 포함하는 빔포밍 및 방향 벡터 추정 시스템.
  19. 입력 제공부가 타겟지점에서의 타겟신호 및 노이즈 신호의 각각에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공하는 단계;
    디믹싱 제공부가 상기 마이크들의 입력신호 및 공간 제약 조건이 걸린 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공하는 단계; 및
    결과 제공부가 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출하는 단계를 포함하는 빔포밍 및 방향 벡터 추정 시스템의 동작방법.
  20. 입력 제공부가 타겟지점에서의 타겟신호 및 노이즈 신호의 각각에 상응하는 공간전달함수에 기초하여 마이크들의 입력신호를 제공하는 단계;
    디믹싱 제공부가 상기 마이크들의 입력신호 및 공간 제약 조건이 걸린 독립성분 분석(Independent Component Analysis, ICA)에 따라 결정되는 디믹싱 행렬을 제공하는 단계;
    결과 제공부가 상기 디믹싱 행렬에 기초하여 상기 마이크들의 입력신호로부터 결과신호를 추출하는 단계; 및
    음성 제공부가 상기 결과신호를 음성으로 제공하는 단계를 포함하는 빔포밍 및 방향 벡터 추정 시스템의 동작방법.
PCT/KR2023/009726 2022-07-14 2023-07-10 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법 WO2024014797A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0087067 2022-07-14
KR1020220087067A KR20240009758A (ko) 2022-07-14 2022-07-14 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법

Publications (1)

Publication Number Publication Date
WO2024014797A1 true WO2024014797A1 (ko) 2024-01-18

Family

ID=89537020

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009726 WO2024014797A1 (ko) 2022-07-14 2023-07-10 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법

Country Status (2)

Country Link
KR (1) KR20240009758A (ko)
WO (1) WO2024014797A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073936A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
KR20110121955A (ko) * 2010-05-03 2011-11-09 한국과학기술원 암묵 신호 추출 방법 및 암묵 신호 추출 장치
KR101720514B1 (ko) * 2016-02-26 2017-04-11 서강대학교산학협력단 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
KR20210142268A (ko) * 2020-05-18 2021-11-25 주식회사 엠피웨이브 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101133308B1 (ko) 2011-02-14 2012-04-04 신두식 에코제거 기능을 갖는 마이크로폰

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080073936A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
KR20110121955A (ko) * 2010-05-03 2011-11-09 한국과학기술원 암묵 신호 추출 방법 및 암묵 신호 추출 장치
KR101720514B1 (ko) * 2016-02-26 2017-04-11 서강대학교산학협력단 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
KR20210142268A (ko) * 2020-05-18 2021-11-25 주식회사 엠피웨이브 강인음성인식을 위한 방향벡터 추정을 겸한 온라인 우도최대화를 이용한 빔포밍 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JO, JI-WON; PARK, HYEONG-MIN : "Hidden Markov Model Based Feature Enhancement Method for Robust Speech Recognition in Additive Noise or Reverberant Environments", KICS - THE JOURNAL OF THE KOREAN INSTITUTE OF COMMUNICATION SCIENCE, KOREAN INSTITUTE OF COMMUNICATION SCIENCE, KOREA, vol. 33, no. 9, 1 September 2016 (2016-09-01), Korea , pages 17 - 23, XP009552002, ISSN: 1226-4725 *

Also Published As

Publication number Publication date
KR20240009758A (ko) 2024-01-23

Similar Documents

Publication Publication Date Title
WO2011139002A1 (ko) 광대역 전력 증폭기를 위한 디지털 전치왜곡 장치 및 그 방법
WO2016114477A1 (ko) 예측 일사량을 이용한 냉난방부하 예측방법
WO2020153552A1 (ko) 기록된 거래의 수정이 가능한 블록체인을 위한 방법 및 장치
WO2014077480A1 (en) Method of determining surface orientation of single crystal wafer
WO2021008017A1 (zh) 联邦学习方法、系统、终端设备及存储介质
WO2011093687A2 (en) Apparatus and method for allocating channel and power in communication system
WO2022039316A1 (ko) 치과용 3차원 데이터 위치 정렬 자동화 방법 및 이를 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체
WO2020218769A1 (en) Reluctance force compensation for loudspeaker control
WO2021221344A1 (ko) 경사로가 있는 환경에서 이동로봇의 환경 인식 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
WO2020242260A1 (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
WO2022191448A1 (ko) 유연관절 로봇의 제어시스템
WO2024014797A1 (ko) 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법
WO2020004686A1 (ko) 블록체인 dPoC 합의알고리즘 기반 합의 인증 수행 방법
WO2022158847A1 (ko) 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
WO2022164095A1 (en) Method and apparatus for signal processing
WO2018151356A1 (ko) 다중 스케일 곡률 기반 가시적 벡터 모델 해싱 방법
WO2019027142A1 (ko) 동적 네트워크에서 네트워크 형성 방법 및 장치
WO2017142299A1 (ko) 공간분할 세그먼트에 대한 동적이동 추적 기반 수기서명 인증 시스템 및 방법
WO2017155137A1 (ko) 빔포밍 방법 및 이를 위한 장치
WO2020263044A1 (ko) 복수의 광원을 이용한 컴퓨터 단층 촬영 장치 및 컴퓨터 단층 촬영 방법
WO2021225245A1 (ko) 수배전반 및 제어반을 포함하는 전기설비를 지진으로부터 보호하기 위한 내진 장치를 설계하는 시스템
WO2014104481A1 (ko) 구들의 교집합을 이용한 바운딩 볼륨 생성 장치 및 방법
WO2022034967A1 (ko) 적응형 지연 다이버시티 필터와, 이를 이용하는 에코 제거 장치 및 방법
WO2023090749A1 (ko) 비선형 최적 제어 방법
WO2024147664A1 (ko) 전력 손실을 추정하기 위한 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839890

Country of ref document: EP

Kind code of ref document: A1