KR101076678B1 - Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram - Google Patents

Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram Download PDF

Info

Publication number
KR101076678B1
KR101076678B1 KR1020090066771A KR20090066771A KR101076678B1 KR 101076678 B1 KR101076678 B1 KR 101076678B1 KR 1020090066771 A KR1020090066771 A KR 1020090066771A KR 20090066771 A KR20090066771 A KR 20090066771A KR 101076678 B1 KR101076678 B1 KR 101076678B1
Authority
KR
South Korea
Prior art keywords
matrix
spectrogram
separation
orthogonality
channel
Prior art date
Application number
KR1020090066771A
Other languages
Korean (ko)
Other versions
KR20110009391A (en
Inventor
정홍
장혁준
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090066771A priority Critical patent/KR101076678B1/en
Publication of KR20110009391A publication Critical patent/KR20110009391A/en
Application granted granted Critical
Publication of KR101076678B1 publication Critical patent/KR101076678B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

본 발명은 잡음에 강인한 음성인식 시스템의 구현을 위한 멀티채널(Multichannel) 음성분리 알고리즘의 일종으로 스펙트로그램(Spectrogram) 상에서 서로 다른 신호들 간의 향상된 직교성(Orthogonality)을 이용한 기술에 관한 것으로, 종래 음성분리 기술들은 시간 영역에서의 직교성만 따지거나 혹은 스펙트로그램 상에서 각각의 시간-주파수 포인트에 대해서 무리한 윈도우 단위의 직교성(WDO, Windowed Disjoint Orthogonality)을 가정하여 여러 음성을 단일 음성으로 보거나 단일 음성을 여러 음성으로 간주하여 잘못된 음성분리를 하는 경우가 종종 존재하였다. 이에 본 발명에서는 각각의 채널 신호를 스펙트로그램 상에 펼쳐서 시간 축 및 주파수 축 상에서 적정 단위의 시간-주파수 포인트(time-frequency point) 들을 합한 향상된 직교성을 이용하여 음성분리를 수행하는 것을 특징으로 한다. 본 발명에 의하면, 종래의 ICA에서 사용하는 시간영역을 스펙트로그램 상의 영역으로 확장하였으며 DUET이나 DESPRIT에서 가정한 무리한 직교성보다 훨씬 현실적으로 사용될 수 있으며, 이를 통해 전체적인 음성분리 성공률을 높일 수 있다.The present invention relates to a technique using an improved orthogonality between different signals on a spectrogram as a kind of a multichannel speech separation algorithm for realizing a noise recognition system that is robust to noise. The techniques view multiple voices as single voices or single voices as multiple voices, based on orthogonality in the time domain or assuming windowed disjoint orthogonality (WDO) for each time-frequency point on the spectrogram. There was often a case where false speech separation was regarded. Accordingly, the present invention is characterized in that voice separation is performed by spreading each channel signal on a spectrogram by using an improved orthogonality in which time-frequency points of appropriate units are summed on a time axis and a frequency axis. According to the present invention, the time domain used in the conventional ICA has been extended to the domain on the spectrogram, and can be used more realistically than the excessive orthogonality assumed in DUET or DESPRIT, thereby increasing the overall speech separation success rate.

음성분리, 멀티채널, 스펙트로그램, 직교성, 행렬 분해 Speech Separation, Multichannel, Spectrogram, Orthogonality, Matrix Decomposition

Description

멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치 및 방법{APPARATUS AND METHOD FOR SEPARATING SOURCE BY USING ADVANCED ORTHOGONALITY ON MUTLICHANNEL SPECTROGRAM}Speech separation device and method using improved orthogonality on multi-channel spectrogram {APPARATUS AND METHOD FOR SEPARATING SOURCE BY USING ADVANCED ORTHOGONALITY ON MUTLICHANNEL SPECTROGRAM}

본 발명은 음성분리를 수행하는 기술에 관한 것으로서, 특히 잡음에 강인한 음성인식 시스템의 구현을 위한 멀티채널 음성분리 알고리즘으로, 각각의 채널 신호를 스펙트로그램 상에 펼쳐서 시간 축 및 주파수 축 상에서 적정한 시간-주파수 포인트(time-frequency point)들을 합한 직교성을 이용하여 음성분리를 수행하는데 적합한 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for performing speech separation. In particular, the present invention relates to a multi-channel speech separation algorithm for implementing a noise recognition speech recognition system. An apparatus and method for speech separation using enhanced orthogonality on a multi-channel spectrogram suitable for performing speech separation using orthogonality of time-frequency points.

음성분리의 기본적인 원리는 마이크 입력에 섞여 있는 음성 신호들 간의 차이 성분을 이용하는 것이다. ICA(Independent Component Analysis)는 고전적인 음성분리 기법들 중에 대표적인 방법이다. 이 방법은 마이크의 혼합 입력들(Mixture Inputs)의 엔트로피(Entropy)와 가우시어니티(Gaussianity)를 반복적으로 추정하여 음성 신호를 분리한다. 이 방법은 지금까지도 여러 가지 변형들을 낳으며 연구되어 지고 있으나 처음에 첨도(Kurtosis)가 비가우시어니티를 잘못 추정한다면 만족스러운 음성분리 결과를 돌려주지 않으며 반복적인 추정방법을 사용하므로 계산 시간이 오래 걸린다는 문제가 있다. O. Yilmaz의 논문(Blind Separation of Speech Mixtures via Time-Frequency Masking - IEEE Transactions on Signal Processing, 52(7), 1830-1847, Jul 2004)에서 제시한 이진 시간-주파수 마스킹(Binary Time-Frequency Masking) 기법을 사용하는 DUET(Degenerate Unmixing Estimation Technique)의 경우 스펙트로그램 상의 각각의 포인트에 대해서 아래의 <수학식 1>과 같은 WDO 가정을 취하여 음성분리를 시도한다.The basic principle of speech separation is to use the difference component between speech signals mixed in the microphone input. Independent Component Analysis (ICA) is one of the classic speech separation techniques. This method separates the speech signal by repeatedly estimating the entropy and Gaussianity of the microphone's Mixture Inputs. This method has been studied to produce various variations until now, but if Kurtosis incorrectly estimates rain rain, it does not return satisfactory speech separation results and it takes a long time to calculate because iterative estimation method is used. Has a problem. Binary Time-Frequency Masking presented by O. Yilmaz's paper (Blind Separation of Speech Mixtures via Time-Frequency Masking-IEEE Transactions on Signal Processing, 52 (7), 1830-1847, Jul 2004). In the case of the DUET (Degenerate Unmixing Estimation Technique), voice separation is attempted by taking the WDO assumption as shown in Equation 1 below for each point on the spectrogram.

Figure 112009044661666-pat00001
Figure 112009044661666-pat00001

상기 <수학식 1>의 가정을 사용한 음성분리 결과는 음성 신호들 간의 공간정보(Spatial information)의 차이가 클 경우 ICA를 기반으로 하는 음성분리 결과보다 우수하다.Speech separation using the assumption of Equation 1 is superior to speech separation based on ICA when the difference of spatial information between speech signals is large.

상기한 바와 같이 동작하는 종래 기술에 의한 음성 분리 기술 중 이진 시간-주파수 마스킹 기법을 사용하는 DUET에 있어서는, 스펙트로그램 상에서 희소 신호 모델(Sparse Signal Model)을 만족하는 경우가 드물기 때문에 위의 가정은 실제 환경에서는 사용되기 어려운 점이 있다. 위의 방법을 멀티채널 입력에 대하여 확장한 음성분리 방법이 T. Melia의 논문(Underdetermined Blind Source Separation in Echoic Environments Using DESPRIT - EURASIP Journal on Advances in Signal Processing Vol 2007, 1-19)에 개시되어 있는데 이 방법도 상기 <수학식 1>의 가정에 기초를 두고 있으므로 음성분리에 한계가 있다는 문제점이 있었다.In the DUET using the binary time-frequency masking technique among the conventional speech separation techniques operating as described above, since the sparse signal model is rarely satisfied on the spectrogram, the above assumption is practical. It is difficult to use in the environment. An extension of the above method for multichannel input is described in T. Melia's paper (Underdetermined Blind Source Separation in Echoic Environments Using DESPRIT-EURASIP Journal on Advances in Signal Processing Vol 2007, 1-19). Since the method is also based on the assumption of Equation 1, there is a problem in that there is a limit in speech separation.

이에 본 발명은, 스펙트로그램 상의 신호들 간의 향상된 직교성을 이용하여 음성분리를 수행할 수 있는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치 및 방법을 제공한다. Accordingly, the present invention provides an apparatus and method for speech separation using improved orthogonality on a multi-channel spectrogram capable of performing speech separation using improved orthogonality between signals on a spectrogram.

또한 본 발명은, 각각의 채널 신호를 스펙트로그램 상에 펼쳐서 시간 축 및 주파수 축 상에서 적정 단위의 시간-주파수 포인트들을 합한 직교성을 이용하여 음성분리를 수행할 수 있는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치 및 방법을 제공한다. In addition, the present invention provides enhanced orthogonality on a multi-channel spectrogram that can perform speech separation using the orthogonality of each channel signal spread on the spectrogram and the sum of time-frequency points of appropriate units on the time axis and the frequency axis. Provided are a voice separation device and method.

또한 본 발명은, 음성분리를 위한 서로 다른 신호들 간의 향상된 직교성을 이용하여 멀티채널 스펙트로그램 상에서 적정 단위의 시간-주파수 포인트들의 복소 에너지 합을 행렬로 나타낸 후, 행렬 분해(Matrix Decomposition) 방식을 통하여 분리 행렬(Separating Matrix)을 구하고, 구해진 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 순열(permutation) 과정을 거쳐서 복원할 수 있는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치 및 방법을 제공한다.The present invention also provides a matrix of complex energy sums of time-frequency points in an appropriate unit on a multi-channel spectrogram using improved orthogonality between different signals for speech separation, and then, through matrix decomposition. Apparatus and method for improving speech using orthogonality on multichannel spectrograms that obtain a separating matrix and multiply the obtained separation matrix by multi-channel mixed inputs to restore estimated speech signals through permutation To provide.

본 발명의 일 실시예 장치는, 복수의 음성 신호를 입력받아 시간 영역 멀티 채널 데이터를 출력하는 멀티채널 마이크와, 상기 멀티채널 마이크로부터 전달된 음성신호의 분리를 위한 서로 다른 신호들 간의 직교성을 이용하여 멀티채널 스펙트로그램 상에서 기 설정된 단위의 시간-주파수 포인트들의 복소 에너지의 합을 행렬로 나타낸 후, 행렬 분해 방식을 통하여 분리 행렬을 산출하고, 상기 산출된 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 포함한다.According to an embodiment of the present invention, a multichannel microphone for receiving a plurality of voice signals and outputting time-domain multichannel data and an orthogonality between different signals for separation of voice signals transmitted from the multichannel microphones are used. The complex sum of time-frequency points of a predetermined unit on a multi-channel spectrogram is represented by a matrix, and then a separation matrix is calculated through a matrix decomposition method, and the estimated separation matrix is multiplied by the multi-channel mixed input. Voice signals.

본 발명의 일 실시예 방법은, 멀티채널 마이크를 통해 입력되는 복수의 음성 신호에 대한 시간 영역 멀티 채널 데이터에서 음성신호의 분리를 위한 서로 다른 신호들 간의 직교성을 이용하여 멀티채널 스펙트로그램 상에서 기 설정된 단위의 시간-주파수 포인트들의 복소 에너지의 합을 행렬로 나타내는 과정과, 상기 행렬에 대한 행렬 분해 방식을 통하여 분리 행렬을 산출하고, 상기 산출된 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 복원하는 과정을 포함한다.According to an embodiment of the present invention, a method is set on a multichannel spectrogram using orthogonality between different signals for separation of a voice signal from time domain multichannel data for a plurality of voice signals input through a multichannel microphone. A process of representing a sum of complex energy of time-frequency points in units as a matrix, a separation matrix through a matrix decomposition method for the matrix, and multiplying the calculated separation matrix by a multichannel mixed input to obtain estimated speech signals. Restoration process is included.

본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.In the present invention, the effects obtained by the representative ones of the disclosed inventions will be briefly described as follows.

본 발명은, 스펙트로그램 상에서 신호들 간의 향상된 직교성을 이용하여 음성분리를 수행하는 것으로서, 본 발명의 실시예에서 가정한 세 가지 향상된 직교성은 ICA에서 사용하는 비정규성(non-gaussianity)과 니젠트로피(negentropy)를 이용하여 반복적으로 추정하는 방법보다 계산 복잡도(Computational Complexity)를 낮 추고, DUET이나 DESPRIT에서 가정한 무리한 직교성보다 훨씬 현실적으로 사용될 수 있으므로, 이를 통해 전체적인 음성 분리 성공률을 기존보다 크게 높일 수 있는 효과가 있다.The present invention is to perform speech separation using improved orthogonality between signals on a spectrogram, and the three enhanced orthogonalities assumed in the embodiments of the present invention are non-gaussianity and nigentropy (used by ICA). Computational Complexity can be lowered than iterative estimation using negentropy, and it can be used more realistically than unreasonable orthogonality assumed in DUET or DESPRIT, thereby increasing overall speech separation success rate significantly. There is.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, the operating principle of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be based on the contents throughout this specification.

본 발명은 음성분리를 위한 서로 다른 신호들 간의 향상된 직교성을 이용하여 멀티채널 스펙트로그램 상에서 적정 단위의 시간-주파수 포인트들의 복소 에너지 합을 행렬로 나타낸 후, 행렬 분해(Matrix Decomposition) 방식을 통하여 분리 행렬(Separating Matrix)을 구하고, 구해진 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 복원하는 것이다.According to the present invention, a complex energy sum of time-frequency points of an appropriate unit is represented as a matrix on a multi-channel spectrogram using improved orthogonality between different signals for speech separation, and then a matrix decomposition method. (Separating Matrix) is obtained, and the obtained separation matrix is multiplied by the multichannel mixed input to recover the estimated speech signals.

도 1은 본 발명의 실시예에 따른 음성 분리장치의 구조를 도시한 도면이다.1 is a view showing the structure of a voice separation device according to an embodiment of the present invention.

도 1을 참조하면, 음성 분리 장치는 복수의 화자로부터의 음성을 입력받는 멀티 채널 마이크(100)와, 멀티 채널 마이크(100)로 입력된 음성 신호를 전달받아 멀티채널 음성분리 알고리즘을 토대로 각각의 화자에 대한 음성 분리를 수행하는 음성 분리기(110)와, 음성 분리기(110)로부터 분리되어 출력된 각각의 음성들을 출력하는 스피커(120)와, 스피커(120)로부터 출력되는 각각의 음성들에 대한 음성 인식을 수행하는 음성 인식기(130) 등을 포함한다.Referring to FIG. 1, a voice separation device receives a voice signal input from a multi-channel microphone 100 and a multi-channel microphone 100 receiving voices from a plurality of speakers, and based on a multi-channel voice separation algorithm, respectively. A voice separator 110 that performs voice separation for the speaker, a speaker 120 for outputting respective voices separated from the voice separator 110, and a voice for each voice output from the speaker 120. And a voice recognizer 130 that performs voice recognition.

도 2는 본 발명의 실시예에 따른 멀티채널 스펙트로그램 상에서의 음성분리기의 구조를 도시한 블록 구성도이다. 2 is a block diagram showing the structure of a speech separator on a multi-channel spectrogram according to an embodiment of the present invention.

도 2를 참조하면, 음성 분리기(110)는 마이크 입력 처리부(200), 분리 행렬 계산부(202), 음성 추정부(204) 등을 포함한다. Referring to FIG. 2, the voice separator 110 includes a microphone input processor 200, a separation matrix calculator 202, a voice estimator 204, and the like.

마이크 입력 처리부(200)는 도 3에 도시한 바와 같이 시간-주파수 영역 변환부(300), 블록 스플리터(302), 블록 가산기(304) 등을 포함하는 것으로서, 멀티채널 마이크(100)의 시간영역(Time Domain) 혼합 입력들(Mixture Inputs)을 음성분리를 위한 형태의 데이터로 변환한다. 이에 멀티채널 마이크(100)는 시간영역 멀티채널 마이크가 될 수 있으며, 이를 통해 복수의 화자로부터의 음성을 입력 받는다. As shown in FIG. 3, the microphone input processor 200 includes a time-frequency domain converter 300, a block splitter 302, a block adder 304, and the like, and a time domain of the multichannel microphone 100. (Time Domain) Converts Mix Inputs into data in the form of speech separation. The multi-channel microphone 100 may be a time domain multi-channel microphone, through which voices from a plurality of speakers are input.

그리고 이를 M 개의 마이크 혼합 입력 {xi(t)|i∈[1,M]}으로 가정한다. 이 혼합 입력을 마이크 입력 처리부(200) 내의 시간-주파수 영역 변환부(300)에서 스펙트로그램 상의 멀티채널 마이크 입력 {Xi(τ,k)|i∈[1,M],τ∈[1,T],k∈[0,K-1]}으로 변환한다. 여기서 K는 시간-주파수영역으로 변환할 때 윈도우 크기 및 스펙트로그램 상의 주파수 축의 크기를 의미한다. T는 스펙트로그램 상의 시간축의 크기이다.And it is assumed that this is M microphone mixed input {xi (t) | i∈ [1, M]}. The mixed input is input to the multichannel microphone input {Xi (τ, k) | i∈ [1, M], τ∈ [1, T on the spectrogram by the time-frequency domain converter 300 in the microphone input processing unit 200. ], k∈ [0, K-1]}. Here, K means the size of the window and the frequency axis on the spectrogram when converting to the time-frequency domain. T is the magnitude of the time base on the spectrogram.

이후, 블록 스플리터(302)에서는 스펙트로그램 상의 모든 포인트들을 적절한 크기의 Topt 및 Kopt의 블록 단위로 나눔으로써, 블록 단위의 멀티채널 스펙트로그램을 얻을 수 있다. 한편, Topt 와 Kopt는 각각 기설정된 최적의 T와 K값을 나타내는 것으로서, 이에 대해서는 하기에서 다시 설명하도록 한다. 이후, 블록 스플리터(302)에서는 블록 단위의 멀티채널 스펙트로그램을 분리 행렬 산출부(202)와 음성 추정부(204)에 전달한다.Subsequently, in the block splitter 302, all points on the spectrogram are divided into block units of Topt and Kopt having appropriate sizes, thereby obtaining a multichannel spectrogram in units of blocks. Meanwhile, Topt and Kopt represent preset optimal T and K values, which will be described later. Thereafter, the block splitter 302 transmits the multichannel spectrogram in units of blocks to the separation matrix calculator 202 and the voice estimator 204.

블록 가산기(304)에서는 블록 단위 멀티채널 스펙트로그램의 복소수 값들을 그 블록의 모든 주파수축 및 시간축에 대해 더하여 그 결과값으로 산출된 분리행렬 계산을 위한 멀티채널 데이터를 분리 행렬 산출부(202)로 전달한다.  The block adder 304 adds complex values of a block-by-block multichannel spectrogram to all frequency and time axes of the block, and sends multi-channel data for the separation matrix calculated as the result to the separation matrix calculator 202. To pass.

먼저, 분리 행렬 산출부(202) 상에서 사용되는 행렬 분리의 원리 및 적용에 대해서 설명하면, ICA를 비롯하여 신호들을 시간 영역의 콘볼루션 혼합(Convolutive Mixture) 형태로 보는 음성분리 알고리즘들은 신호를 1차원 형태로 나타내므로, 시간축에서의 직교성만 다룰 수 있지만, 시간-주파수 영역으로 나타내면 시간축 뿐만 아니라 주파수축의 직교성까지도 다룰 수 있다는 장점이 있다. First, the principle and application of the matrix separation used on the separation matrix calculation unit 202 will be described. Speech separation algorithms that view signals in the form of a convolutional mixture in the time domain, including ICA, have a one-dimensional shape. Since it is possible to deal with orthogonality in the time axis, it is advantageous in that not only the time axis but also the orthogonality of the frequency axis can be dealt with.

이에 본 발명의 실시예에서 다루는 시간-주파수 영역에서의 서로 다른 신호들 간의 직교성을 알아보기 위해 서로 다른 N 개의 시간영역 신호 {si(t)|i∈[1,N]}와 스펙트로그램 {Si(τ,k)|i∈[1,N],τ∈[1,T],k∈[0,K-1]}을 가정하였다. 신호 si(t)의 스펙트로그램 Si(τ,k)은 [0,K-1] 이외에는 0 값을 갖는 윈도우 함수를 취하여 하기 <수학식 2>와 같이 나타낼 수 있다.In order to examine the orthogonality between different signals in the time-frequency domain, which are dealt with in the embodiment of the present invention, N time-domain signals {si (t) | i∈ [1, N]} and spectrograms {Si are used. (τ, k) | i∈ [1, N], τ∈ [1, T], k∈ [0, K-1]}. The spectrogram Si (τ, k) of the signal si (t) can be expressed by Equation 2 by taking a window function having a value of 0 except [0, K-1].

Figure 112009044661666-pat00002
Figure 112009044661666-pat00002

상기 <수학식 2>는 시간영역에서 τ 근처의 K 개의 포인트를 취하고, 윈도우 함수를 취하여 스펙트로그램 상의 신호를 나타낸다는 것을 의미한다. 모든 신호가 직류(DC) 성분이 없다고 가정하면, 이 중에 임의의 i 번째 신호 si(t)는 아래와 같이 나타낼 수 있다.Equation (2) means taking K points near τ in the time domain and taking a window function to represent the signal on the spectrogram. Assuming that all signals do not have a direct current (DC) component, any i-th signal si (t) may be represented as follows.

Figure 112009044661666-pat00003
Figure 112009044661666-pat00003

상기 <수학식 3>으로부터 서로 다른 i 번째 신호와 j 번째 신호 간에 아래와 같은 <수학식 4>를 도출할 수 있다.From Equation 3, Equation 4 below may be derived between different i th signals and j th signals.

Figure 112009044661666-pat00004
Figure 112009044661666-pat00004

상기 <수학식 4>를 일반화된 파시벌 정리(Generalized Parseval's Theorem)에 의해 아래 <수학식 5>와 같은 시간-주파수 영역의 관계식으로 변경할 수 있다.Equation 4 may be changed to a time-frequency domain relation as shown in Equation 5 by Generalized Parseval's Theorem.

Figure 112009044661666-pat00005
Figure 112009044661666-pat00005

이와 같이 상기 <수학식 5>를 통해서 아래 <수학식 6>과 같은 결론에 도달할 수 있으며, 이를 첫 번째 직교성으로 가정하여 주파수 축에 대한 향상된 직교성으로 정의한다.In this way, the following Equation 6 can be reached through Equation 5, which is defined as improved orthogonality with respect to the frequency axis assuming the first orthogonality.

Figure 112009044661666-pat00006
Figure 112009044661666-pat00006

또한, <수학식 5>에서 양변에 시간에 대해서도 합을 취하면 <수학식 7>과 같이 나타낼 수 있다.In addition, when Equation 5 is added to both sides of time, Equation 7 may be expressed.

Figure 112009044661666-pat00007
Figure 112009044661666-pat00007

상기 <수학식 7>의 우변을 상기 <수학식 4>와 같이 T→∞ 까지 극한을 취하게 되면 결국 아래 <수학식 8>과 같은 직교성을 도출할 수 있다. When the right side of Equation 7 is taken to T → ∞ as shown in Equation 4, orthogonality can be derived as shown in Equation 8 below.

Figure 112009044661666-pat00008
Figure 112009044661666-pat00008

상기 <수학식 8>은 기 설정된 값보다 큰 K와 T를 취했을 때, 두 개의 서로 다른 신호의 스펙트로그램 간의 곱의 합은 매우 작을 것이라는 중요한 의미를 담고 있다. 여기서 <수학식 8>을 두 번째 직교성으로 가정하여, 시간-주파수 축에 대한 향상된 직교성으로 정의한다. 마지막으로 하기 <수학식 9>를 세 번째 직교성으로 가정하여 아래와 같이 나타내고 이를 시간 축에 대한 향상된 직교성으로 정의한다.Equation (8) has an important meaning that the sum of products between spectrograms of two different signals is very small when K and T are larger than a predetermined value. Here, Equation 8 is assumed as the second orthogonality, and is defined as improved orthogonality with respect to the time-frequency axis. Finally, the following Equation (9) is assumed as the third orthogonality, and is expressed as follows.

Figure 112009044661666-pat00009
Figure 112009044661666-pat00009

이에 직교성에 관한 세 가지 가정을 하였으며, 이 가정들의 성질은 앞에서 언급한 DUET과 DESPRIT의 WDO 가정보다 훨씬 현실적으로 사용될 수 있다. 하기에서부터는 이 세 가지 직교성들을 향상된 직교성이라 정의하도록 한다. 사실, T→∞ 인 경우는 존재하지 않기 때문에 기 설정된 값보다 큰 값을 갖는 T와 K를 통하여 <수학식 6>, <수학식 8>, <수학식 9>에서 가정한 직교성을 수정해야 한다. 이때, 최적의 T와 K 설정값을 각각 Topt와 Kopt로 표기하도록 한다.Three assumptions about orthogonality are made, and the nature of these assumptions can be used more realistically than the WDO assumptions of DUET and DESPRIT. In the following, we define three orthogonalities as enhanced orthogonality. In fact, since T → ∞ does not exist, the orthogonality assumed in <Equation 6>, <Equation 8>, and <Equation 9> should be corrected through T and K having a value larger than the preset value. . At this time, the optimal T and K setting values are indicated as Topt and Kopt, respectively.

상기와 같이 설명한 향상된 직교성을 이용하여 가장 간단한 경우인 N=2, M=2, 즉 서로 다른 2개의 시간영역 상에서, 2개의 마이크로부터 음성 신호가 혼합되어 입력되는 경우에서의 음성분리 과정을 설명하기로 한다. 시간-주파수 영역의 혼합 모델(Mixing Model)은 하기 <수학식 10>과 같다.Using the improved orthogonality described above, the simplest case is N = 2, M = 2, that is, the speech separation process in the case where the voice signals are mixed and input from two microphones on two different time domains. Shall be. The mixing model of the time-frequency domain is expressed by Equation 10 below.

Figure 112009044661666-pat00010
Figure 112009044661666-pat00010

여기서, αi와 δi는 인접한 마이크 간의 i 번째 신호의 도달 거리 차이 및 도달 시간 차이에 따른 감쇠(attenuation)와 지연(delay)을 나타낸다. 혼합 행렬(Mixing Matrix) A의 역행렬은 분리 행렬(Separating Matrix)이며, 이를 B라고 표기한다. 분리 행렬 B를 구하기 위하여 향상된 직교성을 이용한 식의 전개를 하기 <수학식 11>과 같이 수행하게 된다.Here, αi and δi represent attenuation and delay according to the difference in arrival distance and the difference in arrival time of the i-th signal between adjacent microphones. The inverse of the mixing matrix A is a separating matrix, denoted B. In order to obtain the separation matrix B, the equation is developed using the improved orthogonality as shown in Equation 11 below.

Figure 112009044661666-pat00011
Figure 112009044661666-pat00011

<수학식 11>에서 세가지 향상된 직교성을 대표하는 식으로써, 시간-주파수 축에 대한 향상된 직교성을 사용하였다. 여기서 Topt=1인 경우 주파수 축에 대해 향상된 직교성이 되고, Kopt=1인 경우 시간 축에 대해 향상된 직교성이 된다. 이러한 표기는 이하의 수학식에서도 적용된다. 한편, <수학식 11>에서는 RX의 행렬 분해를 통하여 B를 구하게 된다. 그리고 <수학식 10>을 M>2, N>2 인 경우로 확장하면, 아래 <수학식 12>와 같이 나타낼 수 있다.In Equation 11, the improved orthogonality with respect to the time-frequency axis is used as the expression representing three improved orthogonalities. In this case, T opt = 1 is improved orthogonality to the frequency axis, and K opt = 1 is improved orthogonality to the time axis. This notation also applies to the following equation. In Equation 11, B is obtained through matrix decomposition of RX. If Equation 10 is expanded to M> 2, N> 2, it can be expressed as Equation 12 below.

Figure 112009044661666-pat00012
Figure 112009044661666-pat00012

마찬가지로 <수학식 11>은 하기 <수학식 13>과 같이 나타낼 수 있다.Similarly, Equation 11 may be expressed as Equation 13 below.

Figure 112009044661666-pat00013
Figure 112009044661666-pat00013

상기 <수학식 13>에서 행렬 B는 NㅧM 크기의 비정방행렬(Non-square Matrix)이고, Xi(τ,k)의 값들이 복소수 형태로 되어 있기 때문에 일반적인 행렬 분해 방법을 적용할 수 없다. 이에 본 발명의 실시예에서는 B를 풀기 위하여 강한 비상관관계를 이용한 변환(SUT, Strong Uncorrelating Transform)을 취한다. 이 변환 방법은 비상관관계(Uncorrelated)를 갖는 복소 랜덤 벡터(Complex Random Vector) S(k)를 가정하고 이로부터 다음 <수학식 14>와 같은 2가지 성질을 유도한다.In Equation 13, the matrix B is a non-square matrix of size N ㅧ M, and since the values of Xi (τ, k) are complex, the general matrix decomposition cannot be applied. . Accordingly, in the embodiment of the present invention, a strong uncorrelating transform (SUT) is used to solve B. This transformation method assumes a complex random vector S (k) having an uncorrelated and derives two properties from the following equation (14).

Figure 112009044661666-pat00014
Figure 112009044661666-pat00014

<수학식 14>의 첫 번째 식은 일반적인 공분산(Covariance)을 나타낸 것인데, 행렬 I로부터는 s(k)를 추정하기 위한 어떠한 정보도 얻을 수 없다. 반면, 두 번째 식은 유사 공분산(Pseudo Covariance)이라 정의된 것으로 Λ의 원소(Element)들은 오직 실수 값만을 갖는 대각성분 {λi|i=[1,p])} 만을 갖게 된다. 이 성질을 통해 분리 행렬을 구하게 되는데 이 변환 방법을 본 발명의 실시예에 적용하는 것이다. The first equation of Equation 14 represents general covariance, and no information for estimating s (k) can be obtained from the matrix I. On the other hand, the second equation is defined as pseudo covariance, and the elements of Λ have only the diagonal component {λ i | i = [1, p])} with only real values. Through this property, a separation matrix is obtained. The conversion method is applied to an embodiment of the present invention.

상기에서와 같이 언급한 내용들로부터 분리 행렬 산출부(202)의 구성을 다음과 같이 나타낸다. From the above-mentioned contents, the configuration of the separation matrix calculation unit 202 is shown as follows.

도 4는 본 발명의 실시예에 따른 분리 행렬 산출부의 구조를 도시한 블록 구성도로서, 분리 행렬 산출부(202)는 화이트닝 행렬 계산부(400)와, 유사 공분산 행렬 계산부(402), 분리 행렬 계산부(404) 등을 포함한다. 4 is a block diagram illustrating a structure of a separation matrix calculator according to an exemplary embodiment of the present invention. The separation matrix calculator 202 includes a whitening matrix calculator 400, a pseudo covariance matrix calculator 402, and a separation. A matrix calculator 404 and the like.

첫 번째로 화이트닝 행렬 계산부(400)에서는 마이크 입력 처리부(200)로부터 전달된 멀티 채널 데이터에서 분리행렬 계산을 위한 멀티채널 데이터의 화이트닝 행렬(Whitening Matrix) C를 구한다. 이는 마이크 입력 처리부(200)로부터 전달된 결과에서 DC 성분을 제거한 후에 <수학식 11>에 나타낸 것과 같은 공분산 행렬 RX를 구한 후, 이 제곱근의 역행렬로 구해지는 것이다.First, the whitening matrix calculator 400 obtains a whitening matrix C of the multichannel data for the separation matrix calculation from the multichannel data transferred from the microphone input processor 200. This is obtained by removing the DC component from the result transmitted from the microphone input processing unit 200 and then obtaining a covariance matrix R X as shown in Equation 11 and then obtaining the inverse of this square root.

다음으로 유사 공분산 행렬 계산부(402)에서는 앞 단의 화이트닝 행렬 계산부(400)를 통해 구해진 화이트닝 행렬 C에 마이크 입력 처리부(200)로부터 전달된 블록 단위의 멀티채널 스펙트로그램을 곱한 후에 유사 공분산 행렬을 구한다. 이후 구해진 유사 공분산 행렬에 유사 특이값 분해(SVD:Singular Value Decomposition)(예컨대, Symmetric SVD 또는 Takagi Factorization)를 취한다. 유사 SVD는 유사 공분산 행렬을 분해하기 위한 방법으로서, 이는 아래 <수학식 15>와 같이 나타낼 수 있다.Next, the pseudo covariance matrix calculator 402 multiplies the whitening matrix C obtained through the whitening matrix calculator 400 of the preceding stage by the multichannel spectrogram in units of blocks transferred from the microphone input processor 200, and then adds the pseudo covariance matrix. Obtain Subsequently, a pseudo singular value decomposition (SVD) (eg, Symmetric SVD or Takagi Factorization) is applied to the obtained pseudocovariance matrix. The pseudo SVD is a method for decomposing the pseudo covariance matrix, which can be expressed as Equation 15 below.

Figure 112009044661666-pat00015
Figure 112009044661666-pat00015

상기 <수학식 15>와 같이 유사 공분산 행렬의 분해를 통해 U행렬을 산출하게 되며, 마지막으로 분리 행렬 계산부(404)에서는 유사 공분산 행렬 계산부(402)를 통해 전달된 화이트닝 행렬 C와 U 행렬을 통하여 분리행렬 B를 아래의 <수학식 16>과 같이 계산할 수 있다.As shown in Equation 15, the U matrix is calculated through decomposition of the pseudocovariance matrix. Finally, the separation matrix calculator 404 transmits the whitening matrix C and the U matrix transmitted through the pseudocovariance matrix calculator 402. Through the separation matrix B can be calculated as shown in Equation 16 below.

Figure 112009044661666-pat00016
Figure 112009044661666-pat00016

도 5는 본 발명의 실시예에 따른 음성 추정부의 구조를 도시한 블록 구성도이다.5 is a block diagram illustrating a structure of a speech estimator according to an exemplary embodiment of the present invention.

도 5를 참조하면, 음성 추정부(204)는 블록 추정부(500), 블록 해제부(502), 시간 영역 변환부(504) 등을 포함한다. 이에 블록 추정부(500)에서는 분리 행렬 산출부(202)를 통해 구한 분리 행렬 B와 마이크 입력 처리부(200)로부터 전달된 블록 단위의 멀티채널 스펙트로그램을 곱하여 산출된 결과값을 블록 해제부(502)로 전달하게 되며, 이를 통해 블록 해제부(502)에서는 블록 추정부(500)를 통해 구해진 결 과값의 모든 블록들을 원래의 순서대로 짜 맞추어 블록을 해제시킨다. 즉, Topt 및 Kopt의 블록 단위로 나누어진 것을 원래 상태로 복원시키는 것이다. Referring to FIG. 5, the speech estimator 204 includes a block estimator 500, a block canceler 502, a time domain transformer 504, and the like. Accordingly, the block estimator 500 multiplies the separation matrix B obtained through the separation matrix calculator 202 and the multichannel spectrogram in units of blocks transferred from the microphone input processor 200. In this way, the block release unit 502 releases the block by combining all the blocks of the result value obtained through the block estimation unit 500 in the original order. In other words, it is to restore to the original state divided by the block unit of T opt and K opt .

이때, 블록들 사이에 복원된 신호의 순서가 맞지 않는 경우가 발생할 수 있는데, 이를 해결하기 위하여 각 블록 들 간의 고유치(eigenvalue), 에너지 스펙트럼 및 추정된 소스의 도달각도(DOA: Direction Of Arrival)의 차이를 기 설정된 비율로 계산하여 복원된 블록들을 순서대로 정렬하며, 이를 블록 해제부(502)에서의 순열(permutation) 과정이라 할 수 있다.In this case, there may be a case in which the order of the restored signals is not correct among the blocks. To solve this problem, the eigenvalue, energy spectrum, and estimated angle of arrival of the estimated source (DOA) of each block may be solved. The difference is calculated at a preset ratio and the restored blocks are sorted in order, which may be referred to as a permutation process in the block release unit 502.

시간 영역 변환부(504)에서는 블록 해제부(502)를 통해 블록이 해제된 출력값을 전달받게 되며, 이 출력값을 시간영역 신호들로 변환하여 음성 분리 결과를 출력하게 된다. The time domain converter 504 receives the output value of the block released through the block release unit 502, and converts the output value into time domain signals to output a voice separation result.

도 6은 본 발명의 실시예에 따른 음성 분리기의 동작 절차를 도시한 흐름도이다.6 is a flowchart illustrating an operation procedure of a voice separator according to an embodiment of the present invention.

도 6을 참조하면, 600단계에서 음성 분리기(110)는 멀티 채널 마이크(100)를 통해 복수의 화자로부터 동시에 입력되는 혼합 음성 신호 즉, 시간 영역 멀티 채널 데이터를 입력받게 된다. 이에 602단계에서 음성 분리기(110) 내의 마이크 입력 처리부(200)에서는 입력된 시간 영역 멀티 채널 데이터를 음성 분리를 위한 멀티 채널 데이터와, 블록 단위의 멀티 채널 스펙트로그램으로 변환하여 출력한다. Referring to FIG. 6, in operation 600, the voice separator 110 receives a mixed voice signal, that is, time domain multi-channel data, which is simultaneously input from a plurality of speakers through the multi-channel microphone 100. In operation 602, the microphone input processing unit 200 in the voice separator 110 converts the input time domain multi-channel data into multi-channel data for voice separation and multi-channel spectrogram in units of blocks and outputs the multi-channel spectrogram.

그리고 604단계에서 분리 행렬 산출부(202)는 음성 분리를 위한 서로 다른 신호들 간의 직교성을 이용하여 마이크 입력 처리부(200)로부터 전달받은 멀티 채 널 데이터로 화이트닝 행렬을 구하고, 화이트닝 행렬에 블록 단위의 멀티 채널 스펙트로그램을 곱하여 유사 공분산 행렬을 구한 후, 유사 특이값 분해를 통해 유사 공분산 행렬을 분해한다. 이후 유사 공분산 행렬의 분해값과 화이트닝 행렬을 통하여 분리행렬을 산출하게 된다. In operation 604, the separation matrix calculator 202 obtains a whitening matrix from the multi-channel data received from the microphone input processor 200 using orthogonality between different signals for speech separation, and calculates the whitening matrix in block units. After multiplying multi-channel spectrograms to obtain a pseudo covariance matrix, the pseudo covariance matrix is decomposed through pseudo singular value decomposition. After that, the separation matrix is calculated through the decomposition value of the pseudocovariance matrix and the whitening matrix.

이에 산출된 분리행렬은 음성 추정부(204)로 전달되어 606단계에서 음성 추정부(204)는 분리 행렬에 멀티 채널 혼합 입력에 곱하여 각각의 음성 신호들을 분리하여 출력하게 된다. The calculated matrix is transferred to the speech estimator 204. In operation 606, the speech estimator 204 multiplies the separation matrix by a multi-channel mixed input to separate and output respective speech signals.

이상 설명한 바와 같이, 본 발명은 음성분리를 위한 서로 다른 신호들 간의 향상된 직교성을 이용하여 멀티채널 스펙트로그램 상에서의 적정 단위의 시간-주파수 포인트들의 복소 에너지의 합을 행렬로 나타낸 후, 행렬 분해(Matrix Decomposition) 방식을 통하여 분리 행렬(Separating Matrix)을 구하고, 구해진 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 복원한다.As described above, according to the present invention, matrix summation is performed after the sum of complex energy of time-frequency points in an appropriate unit on a multichannel spectrogram using enhanced orthogonality between different signals for speech separation. The separation matrix is obtained through a decomposition method, and the estimated separation signals are multiplied by the multi-channel mixed input to recover the estimated speech signals.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiment, it is to be understood that the invention is not limited to the disclosed embodiments, but is capable of various modifications within the scope of the invention. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the scope of the following claims, but also by those equivalent to the scope of the claims.

도 1은 본 발명의 실시예에 따른 음성 분리 장치의 구조를 도시한 도면,1 is a view showing the structure of a voice separation device according to an embodiment of the present invention,

도 2는 본 발명의 실시예에 따른 멀티채널 스펙트로그램 상에서의 음성분리기의 구조를 도시한 블록 구성도,2 is a block diagram showing the structure of a speech separator on a multi-channel spectrogram according to an embodiment of the present invention;

도 3은 본 발명의 실시예에 따른 마이크 입력 처리부의 구조를 도시한 블록 구성도,3 is a block diagram showing the structure of a microphone input processor according to an embodiment of the present invention;

도 4는 본 발명의 실시예에 따른 분리 행렬 산출부의 구조를 도시한 블록 구성도,4 is a block diagram showing a structure of a separation matrix calculator according to an embodiment of the present invention;

도 5는 본 발명의 실시예에 따른 음성 추정부의 구조를 도시한 블록 구성도,5 is a block diagram showing a structure of a speech estimator according to an embodiment of the present invention;

도 6은 본 발명의 실시예에 따른 음성 분리기의 동작 절차를 도시한 흐름도.6 is a flowchart illustrating an operation procedure of a voice separator according to an embodiment of the present invention.

< 도면의 주요 부분에 대한 부호 설명 > <Explanation of Signs of Major Parts of Drawings>

100 : 멀티 채널 마이크 110 : 음성 분리기100: multi-channel microphone 110: voice separator

200 : 마이크 입력 처리부 202 : 분리 행렬 산출부200: microphone input processing unit 202: separation matrix calculation unit

204 : 음성 추정부 300 : 시간-주파수 영역 변환부204: Speech estimator 300: Time-frequency domain converter

302 : 블록 스플리터 304 : 블록 가산기302 block splitter 304 block adder

400 : 화이트닝 행렬 계산부 402 : 유사 공분산 행렬 계산부400: whitening matrix calculator 402: pseudocovariance matrix calculator

404 : 분리 행렬 계산부 500 : 블록 추정부404 separation matrix calculation unit 500 block estimation unit

502 : 블록 해제부 504 : 시간 영역 변환부502: block release unit 504: time domain transform unit

Claims (17)

복수의 음성 신호를 입력받아 시간 영역 멀티 채널 데이터를 출력하는 멀티 채널 마이크와,A multi-channel microphone which receives a plurality of voice signals and outputs time domain multi-channel data; 상기 멀티채널 마이크로부터 전달된 음성신호의 분리를 위한 서로 다른 신호들 간의 직교성을 이용하여 멀티채널 스펙트로그램 상에서 기 설정된 단위의 시간-주파수 포인트들의 복소 에너지의 합을 행렬로 나타낸 후, 행렬 분해 방식을 통하여 분리 행렬을 산출하고, 상기 산출된 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 복원하는 음성 분리기를 포함하며,Using matrix orthogonality between different signals for separation of speech signals transmitted from the multi-channel microphone, the sum of complex energy of time-frequency points in a predetermined unit on a multi-channel spectrogram is represented as a matrix, and then a matrix decomposition method is performed. Calculating a separation matrix through the multiplier and multiplying the calculated separation matrix by a multi-channel mixed input to restore estimated speech signals; 상기 음성 분리기는, 상기 시간 영역 멀티 채널 데이터를 입력받아 음성 분리를 위한 멀티 채널 데이터와, 블록 단위의 멀티 채널 스펙트로그램으로 변환하여 출력하는 마이크 입력 처리부와,The voice separator may include a microphone input processor configured to receive the time domain multi-channel data and convert the multi-channel data for voice separation into a multi-channel spectrogram in units of blocks and output the multi-channel spectrogram; 상기 서로 다른 신호들 간의 직교성을 이용하여 상기 마이크 입력 처리부로부터 전달된 값으로 화이트닝 행렬 및 유사 공분산 행렬의 분해값을 구하고, 각각 구해진 값을 토대로 분리 행렬을 산출하는 분리 행렬 산출부와,A separation matrix calculator for calculating a decomposition value of a whitening matrix and a pseudo covariance matrix using values transmitted from the microphone input processor using orthogonality between the different signals, and calculating a separation matrix based on the obtained values; 상기 블록 단위의 멀티 채널 스펙트로그램과 상기 분리 행렬을 토대로 추정된 블록을 해제 시킨 후, 시간 영역 신호들로 변환하여 각각의 음성으로 분리시키는 음성 추정부를 포함하고,And a speech estimator for releasing a block estimated based on the multi-channel spectrogram and the separation matrix in units of blocks, and converting the estimated block into time-domain signals to separate each speech. 상기 마이크 입력 처리부는, 상기 시간 영역 멀티 채널 데이터를 스펙트로그램 상의 멀티채널 마이크 입력 데이터로 변환하는 시간-주파수 영역 변환부와,The microphone input processor may include a time-frequency domain converter for converting the time domain multi-channel data into multi-channel microphone input data on a spectrogram; 스펙트로그램 상의 포인트들을 기설정된 주파수 및 시간 단위로 나누어 상기 블록 단위의 멀티채널 스펙트로그램을 생성하는 블록 스플리터와,A block splitter for generating a multi-channel spectrogram in units of blocks by dividing points on a spectrogram into predetermined frequency and time units; 상기 블록 단위의 멀티채널 스펙트로그램에 대한 복소수 값들을 블록 내 주파수축 및 시간축에 더하여 분리 행렬 계산을 위한 상기 멀티 채널 데이터를 생성하는 블록 가산기를 포함하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치.Speech separation using an improved orthogonality on a multichannel spectrogram including a block adder for generating the multichannel data for the separation matrix calculation by adding complex values of the multichannel spectrogram on a block basis to a frequency axis and a time axis in a block. Device. 삭제delete 제 1항에 있어서,The method of claim 1, 상기 서로 다른 신호들 간의 직교성은,Orthogonality between the different signals, 서로 다른 적어도 두 개의 시간 영역 신호를 스펙트로그램 상의 신호로 나타낸 상태에서 각각의 신호 간 값을 산출한 후, 파시벌 정리를 통해 시간-주파수 영역의 관계로 변환한 것으로서,After calculating at least two different time domain signals as signals on the spectrogram, the values between the signals are calculated, and then converted into a time-frequency domain relationship through the parsing theorem. 주파수 축에 대한 직교성, 시간-주파수 축에 대한 직교성, 시간 축에 대한 직교성 중 어느 하나인 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치.An orthogonality on a frequency axis, orthogonality on a time-frequency axis, orthogonality on a time axis. 삭제delete 제 1항에 있어서,The method of claim 1, 상기 분리 행렬 산출부는,The separation matrix calculation unit, 상기 멀티 채널 데이터로 공분산 행렬을 구한 후, 상기 공분산 행렬에 대한 제곱근의 역행렬로 상기 화이트닝 행렬을 구하는 화이트닝 행렬 계산부와,A whitening matrix calculator configured to obtain a covariance matrix from the multichannel data, and to obtain the whitening matrix by an inverse of a square root of the covariance matrix; 상기 화이트닝 행렬에 상기 블록 단위의 멀티 채널 스펙트로그램을 곱하여 상기 유사 공분산 행렬을 구하고, 이를 유사 특이값 분해(SVD)로 상기 유사 공분산 행렬을 분해하는 유사 공분산 행렬 계산부와,A pseudo covariance matrix calculator for multiplying the whitening matrix by the multi-channel spectrogram to obtain the pseudo covariance matrix, and decomposing the pseudo covariance matrix by pseudo singular value decomposition (SVD); 상기 유사 공분산 행렬의 분해값과 상기 화이트닝 행렬을 통하여 상기 분리행렬을 구하는 분리 행렬 계산부A separation matrix calculator for obtaining the separation matrix through the decomposition value of the pseudocovariance matrix and the whitening matrix. 를 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치.Voice separation apparatus using enhanced orthogonality on a multi-channel spectrogram comprising a. 제 1항에 있어서,The method of claim 1, 상기 음성 추정부는,The speech estimator, 상기 블록 단위의 멀티 채널 스펙트로그램과 상기 분리 행렬을 곱하여 산출된 값을 출력하는 블록추정부와,A block estimator for outputting a value calculated by multiplying the multi-channel spectrogram of the block unit and the separation matrix; 상기 산출된 값에 블록별로 나뉘어진 영역을 블록 해제부와,A block releasing unit for dividing an area divided for each block into the calculated value; 상기 블록 해제부를 통해 블록이 해제된 값을 시간 영역 신호로 변환하여 각각의 음성으로 분리시켜 출력하는 시간 영역 변환부A time domain converter for converting a value of the block released by the block release unit into a time domain signal, separating the output into a respective voice, and outputting the separated voice. 를 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치.Voice separation apparatus using enhanced orthogonality on a multi-channel spectrogram comprising a. 제 6항에 있어서,The method of claim 6, 상기 블록 해제부는,The block release unit, 각 블록들 간의 고유치, 에너지 스펙트럼 및 추정된 소스의 도달각도의 차이를 기 설정된 비율로 계산하여 복원된 블록들을 순서대로 정렬한 후, 해제시키는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성 분리 장치.By using the orthogonality on the multi-channel spectrogram, the difference between the eigenvalues, the energy spectrum, and the angle of arrival of the estimated source between the blocks is calculated at a predetermined ratio, the reconstructed blocks are arranged in order, and then released. Voice separation device. 제 1항에 있어서,The method of claim 1, 상기 음성 분리 장치는,The voice separation device, 상기 음성 분리기로부터 분리되어 전달된 각각의 음성들을 출력하는 스피커와,A speaker for outputting respective voices separated from the voice separator; 상기 각각의 음성들에 대한 음성 인식을 수행하는 음성 인식기A speech recognizer for performing speech recognition on the respective speeches 를 더 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 장치.Voice separation apparatus using improved orthogonality on the multi-channel spectrogram, characterized in that it further comprises. 멀티채널 마이크를 통해 입력되는 복수의 음성 신호에 대한 시간 영역 멀티 채널 데이터에서 음성신호의 분리를 위한 서로 다른 신호들 간의 직교성을 이용하여 멀티채널 스펙트로그램 상에서 기 설정된 단위의 시간-주파수 포인트들의 복소 에너지의 합을 행렬로 나타내는 과정과, Complex energy of time-frequency points in a predetermined unit on a multi-channel spectrogram using orthogonality between different signals for separation of voice signals from time-domain multi-channel data for a plurality of voice signals input through a multi-channel microphone The process of representing the sum of 상기 행렬에 대한 행렬 분해 방식을 통하여 분리 행렬을 산출하고, 상기 산출된 분리 행렬을 멀티채널 혼합 입력에 곱하여 추정된 음성 신호들을 복원하는 과정을 포함하고,Calculating a separation matrix through a matrix decomposition method for the matrix, and multiplying the calculated separation matrix by a multi-channel mixed input to restore estimated speech signals, 상기 행렬로 나타내는 과정은, 상기 시간 영역 멀티 채널 데이터를 음성 분리를 위한 멀티 채널 데이터와 블록 단위의 멀티 채널 스펙트로그램으로 변환하여 출력하는 과정과,The process of displaying the matrix may include converting the time domain multi-channel data into multi-channel data for speech separation and multi-channel spectrogram in block units, and outputting the multi-channel spectrogram; 상기 서로 다른 신호들 간의 직교성을 이용하여 상기 멀티 채널 데이터와 블록 단위의 멀티 채널 스펙트로그램으로 화이트닝 행렬 및 유사 공분산 행렬의 분해값을 구하고, 각각 구해진 값을 토대로 분리 행렬을 산출하는 과정을 포함하고, Calculating a decomposition value of a whitening matrix and a pseudo covariance matrix using the multichannel data and the multichannel spectrogram on a block-by-block basis using orthogonality between the different signals, and calculating a separation matrix based on the obtained values; 상기 변환하여 출력하는 과정은, 상기 시간 영역 멀티 채널 데이터를 스펙트로그램 상의 멀티채널 마이크 입력 데이터로 변환하는 과정과,The converting and outputting may include converting the time domain multichannel data into multichannel microphone input data on a spectrogram; 상기 스펙트로그램 상의 포인트들을 기설정된 주파수 및 시간 단위로 나누어 블록 단위의 멀티채널 스펙트로그램을 생성하는 과정과,Generating a multi-channel spectrogram in units of blocks by dividing points on the spectrogram into predetermined frequency and time units; 상기 블록 단위의 멀티채널 스펙트로그램에 대한 복소수 값들을 블록 내 주파수축 및 시간축에 더하여 분리 행렬 계산을 위한 멀티 채널 데이터를 생성하는 과정Generating multi-channel data for the separation matrix calculation by adding complex values of the multi-channel spectrogram on a block basis to a frequency axis and a time axis in a block; 을 포함하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.Speech separation method using improved orthogonality on a multi-channel spectrogram comprising a. 삭제delete 제 9항에 있어서,The method of claim 9, 상기 음성 신호들을 복원하는 과정은,Restoring the voice signals, 상기 행렬을 토대로 추정된 블록을 해제 시킨 후, 시간 영역 신호로 변환하여 각각의 음성으로 분리시키는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.And releasing the estimated block based on the matrix, converting the estimated block into a time domain signal and separating the block into individual speech. 제 9항에 있어서, The method of claim 9, 상기 서로 다른 신호들 간의 직교성은,Orthogonality between the different signals, 서로 다른 적어도 두 개의 시간 영역 신호를 스펙트로그램 상의 신호로 나타낸 상태에서 각각의 신호 간 값을 산출한 후, 파시벌 정리를 통해 시간-주파수 영역의 관계로 변환한 것으로서,After calculating at least two different time domain signals as signals on the spectrogram, the values between the signals are calculated, and then converted into a time-frequency domain relationship through the parsing theorem. 주파수 축에 대한 직교성, 시간-주파수 축에 대한 직교성, 시간 축에 대한 직교성 중 어느 하나인 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.Orthogonality on the frequency axis, orthogonality on the time-frequency axis, orthogonality on the time axis. 삭제delete 제 9항에 있어서,The method of claim 9, 상기 분리 행렬을 산출하는 과정은,The process of calculating the separation matrix, 상기 멀티 채널 데이터로 공분산 행렬을 구한 후, 상기 공분산 행렬에 대한 제곱근의 역행렬로 화이트닝 행렬을 구하는 과정과,Obtaining a whitening matrix from the inverse of the square root of the covariance matrix after obtaining a covariance matrix from the multichannel data; 상기 화이트닝 행렬에 상기 블록 단위의 멀티 채널 스펙트로그램을 곱하여 유사 공분산 행렬을 구하고, 이를 유사 특이값 분해(SVD)로 상기 유사 공분산 행렬을 분해하는 과정과,Obtaining a pseudo covariance matrix by multiplying the whitening matrix by the multi-channel spectrogram in units of blocks, and decomposing the pseudo covariance matrix by pseudo singular value decomposition (SVD); 상기 유사 공분산 행렬의 분해값과 상기 화이트닝 행렬을 통하여 분리행렬을 구하는 과정A process of obtaining a separation matrix through the decomposition value of the pseudocovariance matrix and the whitening matrix 을 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.Speech separation method using the improved orthogonality on a multi-channel spectrogram comprising a. 제 11항에 있어서,The method of claim 11, 상기 음성 신호들을 복원하는 과정은,Restoring the voice signals, 상기 블록 단위의 멀티채널 스펙트로그램과 상기 분리 행렬을 곱하여 산출된 값을 출력하는 과정과,Outputting a value calculated by multiplying the multi-channel spectrogram of the block unit and the separation matrix; 상기 산출된 값에 블록별로 나뉘어진 영역을 해제시키는 과정과,Releasing an area divided for each block in the calculated value; 상기 블록별로 영역이 해제된 값을 시간 영역 신호로 변환하여 각각의 음성으로 분리시켜 출력하는 과정The process of converting the value of which the area is released for each block into a time-domain signal and separating and outputting each voice. 을 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.Speech separation method using the improved orthogonality on a multi-channel spectrogram comprising a. 제 15항에 있어서,The method of claim 15, 상기 해제시키는 과정은,The release process, 각 블록들 간의 고유치, 에너지 스펙트럼 및 추정된 소스의 도달각도의 차이를 기 설정된 비율로 계산하여 복원된 블록들을 순서대로 정렬한 후, 해제시키는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.By using the orthogonality on the multi-channel spectrogram, the difference between the eigenvalues, the energy spectrum, and the angle of arrival of the estimated source between the blocks is calculated at a predetermined ratio, the reconstructed blocks are arranged in order, and then released. Voice separation method. 제 9항에 있어서,The method of claim 9, 상기 음성 분리 방법은, The voice separation method, 상기 복원된 각각의 음성 신호들을 스피커를 통해 출력하는 과정과,Outputting each of the restored voice signals through a speaker; 상기 출력되는 음성들을 음성 인식기를 통해 인식하는 과정Recognizing the output voices through a voice recognizer 을 더 포함하는 것을 특징으로 하는 멀티채널 스펙트로그램 상에서의 향상된 직교성을 이용한 음성분리 방법.Speech separation method using the improved orthogonality on the multi-channel spectrogram, characterized in that it further comprises.
KR1020090066771A 2009-07-22 2009-07-22 Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram KR101076678B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090066771A KR101076678B1 (en) 2009-07-22 2009-07-22 Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090066771A KR101076678B1 (en) 2009-07-22 2009-07-22 Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram

Publications (2)

Publication Number Publication Date
KR20110009391A KR20110009391A (en) 2011-01-28
KR101076678B1 true KR101076678B1 (en) 2011-10-26

Family

ID=43615084

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090066771A KR101076678B1 (en) 2009-07-22 2009-07-22 Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram

Country Status (1)

Country Link
KR (1) KR101076678B1 (en)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
장혁준, 정홍, ‘음성분리를 위한 시간-주파수 영역에서의 직교성에 관한 연구’, 2009년 대한전자공학회 하계종합학술대회, pp.1042-1043, 2009년7월8일~7월10일*

Also Published As

Publication number Publication date
KR20110009391A (en) 2011-01-28

Similar Documents

Publication Publication Date Title
US8880395B2 (en) Source separation by independent component analysis in conjunction with source direction information
US9668066B1 (en) Blind source separation systems
US10192568B2 (en) Audio source separation with linear combination and orthogonality characteristics for spatial parameters
Aissa-El-Bey et al. Underdetermined blind separation of nondisjoint sources in the time-frequency domain
US7970564B2 (en) Enhancement techniques for blind source separation (BSS)
US9418678B2 (en) Sound processing device, sound processing method, and program
CN106233382B (en) A kind of signal processing apparatus that several input audio signals are carried out with dereverberation
US20130294611A1 (en) Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
Mimilakis et al. A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation
EP3050056A1 (en) Time-frequency directional processing of audio signals
CN101216552B (en) Phase difference estimation method and apparatus
KR101076678B1 (en) Apparatus and method for separating source by using advanced orthogonality on mutlichannel spectrogram
Celik et al. Mixed-signal real-time adaptive blind source separation
KR101260684B1 (en) Blind source separation method and apparatus according to independent vector analysis using feed forward network
JP5113096B2 (en) Sound source separation method, apparatus and program
Wu et al. Blind separation of speech signals based on wavelet transform and independent component analysis
Houda et al. Blind audio source separation: state-of-art
Xie et al. A fast and efficient frequency-domain method for convolutive blind source separation
Xi et al. On the INFOMAX algorithm for blind signal separation
Iikawaa et al. Blind Source Separation Based on Rotation of Joint Distribution Without Inversion of Positive and Negative Sign
Adasme et al. Proposed Integration Algorithm to Optimize the Separation of Audio Signals Using the ICA and Wavelet Transform
Chua Low Latency Convolutive Blind Source Separation
Aoulass et al. Noise Reduction using DUET algorithm for dual-microphone mobile station
EP3672275A1 (en) Method and system for extracting source signal, and storage medium
Ramírez López Improving independent vector analysis in speech and noise separation tasks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee