KR20130006857A - 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 - Google Patents

신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 Download PDF

Info

Publication number
KR20130006857A
KR20130006857A KR1020110061697A KR20110061697A KR20130006857A KR 20130006857 A KR20130006857 A KR 20130006857A KR 1020110061697 A KR1020110061697 A KR 1020110061697A KR 20110061697 A KR20110061697 A KR 20110061697A KR 20130006857 A KR20130006857 A KR 20130006857A
Authority
KR
South Korea
Prior art keywords
equation
frequency
time delay
sound source
attenuation
Prior art date
Application number
KR1020110061697A
Other languages
English (en)
Other versions
KR101243897B1 (ko
Inventor
박형민
이태준
김민욱
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020110061697A priority Critical patent/KR101243897B1/ko
Publication of KR20130006857A publication Critical patent/KR20130006857A/ko
Application granted granted Critical
Publication of KR101243897B1 publication Critical patent/KR101243897B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명에 따르는 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법은, 본 발명의 암묵 음원 분리 방법은, 둘 이상의 마이크로부터의 혼합신호들을 입력받는 단계; 상기 혼합신호들을 STFT(Short Time Fourier Transform)하여 시간-주파수 영역의 혼합신호들로 변환하는 단계; STFT된 혼합신호들에 대해, 주파수별 감쇄 및 시간 지연 값에 대한 초기화를 수행하고, 초기화된 주파수별 감쇄 및 시간 지연 값이 수렴되도록 학습시키고, 학습된 주파수별 감쇄 및 시간 지연 값을 토대로 주파수별 이진 마스크를 생성하고, 상기 주파수별 이진 마스크를 이용하여 주파수별로 신호를 분리하고, 상기 주파수별로 분리된 신호들에 대해 상관 계수를 구하여 주파수별로 분리된 신호들에 대한 순서를 맞추는 단계; 상기 순서가 맞춰진 신호들을 ISTFT(Inverse Short Time Fourier Transform)하여 시간 영역의 음원 신호들로 복원하는 단계;를 구비한다.

Description

신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법{Blind Source separation method in reverberant environments based on estimation of time delay and attenuation of the signals}
본 발명은 암묵 음원 분리 기술에 관한 것으로, 더욱 상세하게는 반향 환경을 고려하여 주파수마다 각기 다른 감쇄 및 시간 지연 값을 추정하여 암묵 음원 신호를 분리하는 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법에 관한 것이다.
인간은 다수의 음원이 존재하는 환경에서 특정 음원 신호에 주목하여 인식할 수 있으므로, 기계 역시 효과적인 신호 처리를 위해 혼합 신호로부터 특정 음원을 분리할 것이 요구되었다. 이와 같이 여러 음원 신호가 혼합된 혼합 신호에서 개별적인 음원 신호를 분리해내는 것을 암묵 음원 분리(Blind Source Seperation;BSS)라 한다. 여기서 암묵(Blind)은 원본 음원 신호에 대한 정보가 없으며 혼합 환경에 대해서도 정보가 없다는 것을 의미한다. 그리고 혼합 신호로부터 최종적으로 음원 신호를 분리하는 과정을 디믹스(demix) 또는 언믹스(unmix)라 한다.
종래 암묵 음원 분리 방법은, 사용하는 혼합 신호의 개수에 따라 한 개의 혼합 신호를 이용하는 암묵 음원 분리 방법과 다수의 혼합 신호를 이용하는 암묵 음원 분리 방법으로 나눌 수 있다.
먼저 한 개의 혼합 신호를 이용하는 암묵 음원 분리 방법은 한 개의 마이크로 입력되는 혼합 신호를 이용하여 통계적 추측을 통해 음원 신호를 분리하는 것으로, 이는 공간적인 정보를 사용하지 못하기 때문에 그 성능이 매우 떨어진다.
그리고 다수의 혼합 신호를 이용하는 암묵 음원 분리 방법은 다수의 마이크로 입력되는 혼합 신호들을 이용하여 통계적 추측뿐만 아니라 공간적인 정보를 이용하여 음원 신호를 분리하는 것으로, 한 개의 혼합 신호를 사용하는 방법보다 훨씬 좋은 성능을 보인다.
또한 상기 다수의 혼합 신호를 이용하는 암묵 음원 분리 방법은, 사용되는 혼합 신호의 개수와 분리하고자 하는 음원 신호의 개수의 관계에 따라 다시 분류된다. 즉, 독립 성분 분석(Independent Component Analysis;ICA) 방법과 독립 벡터 분석(Independent Vector Analysis;IVA) 방법은 다수의 혼합 신호를 이용하여 주로 음원의 독립성에 기반한 통계적 신호 처리 기법을 통해 음원 신호를 분리하는 것으로, 이는 음원 신호의 개수가 혼합 신호의 개수보다 많아지면 그 성능이 급격하게 떨어지는 문제가 있다. 반면에 빔 포밍(Beam Forming) 방법이나, ESPRIT(Estimation of Signal Parameters via Rotational Invariance Technique) 방법, DUET(Degenerate Unmixing and Estimation Technique) 방법은 음원의 공간적인 정보를 주로 이용하기 때문에 혼합 신호의 개수와 상관없이 음원 신호를 분리할 수 있다는 장점이 있다.
상술한 바와 같이 여러가지 암묵 음원 분리 방법이 존재하며, 그 중 DUET 방법은 시간-주파수 영역에서 이루어지는 대표적인 음원 분리 방법으로서 인간의 두 귀 신호 처리와 유사하게 혼합 신호의 상대적 시간 차(Interaural Time Different;ITD)와 세기 차(Interaural Intensity Different;IID)를 이용하여 음원의 개수에 관계없이 음원 신호를 분리할 수 있다.
그런데 상기 DUET 방법은 음원별로 모든 주파수에 대해 동일하게 추정된 감쇄 및 시간 지연 값을 이용하여 암묵 음원을 분리하나, 실제적인 반향 환경에서는 감쇄 및 시간 지연 값이 각각의 주파수마다 서로 다르므로, 분리된 음원의 품질이 낮은 문제가 있었다.
<DUET 방법>
이러한 DUET 방법에 대해 좀 더 상세히 설명한다.
인간의 두 귀에 들어오는 신호를 예시한 도 1과 경로 차에 의해 발생하는 신호의 감쇄 및 시간 지연을 예시한 도 2를 참조하면, 인간은 두 귀에 들어오는 음향 신호만으로 음원의 위치를 파악할 수 있으며, 이는 귀가 머리의 양쪽에 붙어있기 때문이다. 즉, 주파수가 낮은 신호는 소리가 장애물을 돌아 반대쪽까지 전파되는 회절 현상에 의해 각 귀에 도달하는 신호의 세기와 시간 차이가 발생하고, 주파수가 높은 주파수의 신호는 회절 현상 대신 머리에서의 반사에 의해 역시 마찬가지로 신호의 세기와 시간 차이가 발생하므로, 뇌에서는 두 귀에 들어오는 상대적인 신호의 세기 및 시간 차이를 이용하여 음원의 방향을 파악하며, 이러한 특성을 이용하여 여러 방향에서 들어오는 음원 신호들 중 원하는 음원 방향에서 들어오는 음원 신호를 집중하여 청취할 수 있게 된다.
이와 같이 인간이 두 귀를 이용하여 다수의 음원이 혼재하는 환경에서 원하는 특정 음원을 인지하는 현상을 칵테일 파티 효과(cocktail party effect)라 한다. 이러한 인간의 두 귀 신호 처리는 다수의 음원이 존재하는 환경에서 두 귀로 들어오는 신호만으로 이루어지기 때문에 매우 효율적임은 물론이고 실제 음향 환경에도 적합하다.
상기한 DUET 방법의 혼합 신호 모델을 도 3을 참조하여 설명한다. 두 개의 마이크 각각으로는 서로 다로 음원 신호들이 직선 경로를 통해 인입되며, 혼합 신호들은 음원과 마이크 간의 거리차에 의해 상대적인 감쇄 및 시간 지연 값을 갖는다. 이러한 조건에서 N개의 음원 신호가 존재할 경우에 DUET 방법의 혼합 모델은 수학식 1 및 수학식 2로 나타낼 수 있다.
Figure pat00001
상기 수학식 1에서
Figure pat00002
는 제1마이크로 입력된 신호이고, 상기
Figure pat00003
는 제1마이크에 입력된 신호 중 N 개의 음원신호별 성분을 나타낸다.
Figure pat00004
상기 수학식 2에서
Figure pat00005
는 제2마이크로 입력된 신호이고, 상기
Figure pat00006
Figure pat00007
는 각각 제1마이크에 대한 제2마이크 입력신호의 j번째 음원신호 성분의 상대적인 감쇄율 및 시간 지연 값이다.
이러한 시간 영역에서의 혼합 모델을 STFT(Short Time Fourier Transform)하여 시간-주파수 영역에서의 혼합 모델로 변환하면, 수학식 3과 같다.
Figure pat00008
상기 수학식 3에서,
Figure pat00009
,
Figure pat00010
는 시간(
Figure pat00011
)-주파수(
Figure pat00012
) 영역에서의 혼합 신호이고,
Figure pat00013
...
Figure pat00014
는 시간 지연 값이고,
Figure pat00015
...
Figure pat00016
는 감쇄율이고,
Figure pat00017
...
Figure pat00018
는 시간(
Figure pat00019
)-주파수(
Figure pat00020
) 영역에서의 음원 신호이다.
<WDO(W-Disjoint Orthogonal>
상기 DUET 방법에서는 혼합 신호를 구성하는 각각의 음원들에 대해 각각의 시간-주파수에서 하나의 음원 성분이 지배적이라고 가정하는 WDO(W-disjoint orthogonal)를 적용하며 이는 수학식 4와 같다.
Figure pat00021
상기 수학식 4에서,
Figure pat00022
Figure pat00023
는 시간(
Figure pat00024
)-주파수(
Figure pat00025
)에서의 서로 다른 음원 성분이다.
상기한 WDO 가정에 의해 마이크로 들어오는 혼합 신호의 모든 시간-주파수 성분은 하나의 음원 신호와만 연관있게 된다. 상기 WDO 가정은 실제 음향 신호에 완전하게 대응하지는 않지만, 음성 신호에 대해서는 매우 적절하게 대응한다고 알려져 있다.
이에 상기 수학식 3에 따른 시간-주파수 영역에서의 혼합 모델에 WDO 가정을 적용하면 수학식 5와 같이 하나의 시간-주파수 영역의 성분이 지배적인 하나의 음원 신호로만 구성된다.
Figure pat00026
상기 수학식 5에서 j는 지배적인 하나의 음원 신호를 지시한다.
또한 상기한 WDO 가정에 의한 혼합 신호를 이용하여 마이크에 입력되는 신호의 상대적인 감쇄 및 시간 지연 값은 수학식 6에 따라 추정된다.
Figure pat00027
상기 수학식 6에서,
Figure pat00028
는 추정된 감쇄율이고,
Figure pat00029
는 추정된 시간 지연 값이다.
상기한 수학식 6을 이용하여 모든 시간-주파수 성분에 대해 감쇄 및 시간 지연 값을 구할 수 있으며, 이 값들을 누적하여 도 4에 도시한 바와 같은 모든 시간-주파수 성분에 대한 감쇄 및 시간 지연 히스토그램을 생성할 수 있다. 상기 히스토그램의 첨두값들은 혼합 신호들을 구성하는 각각의 음원 신호들의 감쇄 및 시간 지연 값을 나타내고, 이 값들을 감쇄 및 시간 지연 값에 대한 학습 과정의 초기값으로 사용한다.
<감쇄 및 시간 지연 값 학습>
상기 수학식 5에서처럼 혼합 신호의 특정 시간-주파수에서 j번째 음원 신호가 지배적이라면 두 혼합 신호의 관계는 수학식 7과 같이 표현된다. 이를 감쇄 값에 대해 정규화하면 수학식 8과 같이 표현된다.
Figure pat00030
Figure pat00031
상기 수학식 8에서,
Figure pat00032
는 감쇄에 대한 정규화 값이고,
Figure pat00033
는 j번째 음원 신호에 대한 추정된 감쇄율이고,
Figure pat00034
는 j번째 음원 신호에 대한 추정된 시간 지연 값이다.
상기 혼합 신호의 특정 시간-주파수에서 어떤 음원 신호가 지배적인지 미리 알 수 없으므로, 수학식 8을 이용하여 수학식 9의 비용함수를 구성한다.
Figure pat00035
상기 수학식 9에서
Figure pat00036
는 비용함수이며, 이 비용함수
Figure pat00037
는 특정 시간-주파수에서 어떤 음원 신호가 지배적인지를 확인하고 그 음원 신호에 대해 추정된 감쇄율 및 시간 지연 값의 정확도를 나타낸다.
상기 수학식 9는 미분 불가능한 함수이므로, 수학식 10의 미분 가능한 연속 함수로 근사화된 비용 함수를 사용한다.
Figure pat00038
상기 수학식 10에서
Figure pat00039
는 근사화에서 연속 함수의 smoothness 정도를 결정하는 파라미터이다. 모든 음원에 대한 감쇄 및 시간 지연 값을 매 프레임 별로 추정하기 위해 수학식 10에 나타낸 비용함수 J의 최소값을 구하는 stochastic gradient descent 알고리즘을 적용하여 감쇄 및 시간 지연 값 각각으로 편미분하며, 이는 수학식 11 및 수학식 12에 나타낸 바와 같다.
Figure pat00040
Figure pat00041
상기 수학식 11 및 12에 의해 구해진 편미분 값을 토대로 수학식 13 및 수학식 14와 같이 감쇄 및 시간 지연 값을 갱신하며, 이는 비용함수 J가 최소가 되어 감쇄 및 시간 지연 값이 수렴할 때까지 반복된다.
Figure pat00042
Figure pat00043
상기 수학식 13 및 수학식 14에서
Figure pat00044
Figure pat00045
는 각각 감쇄율 및 시간 지연 학습을 위한 학습률로서 상수로 주어진다.
<이진 마스크 생성>
상기한 감쇄 및 시간 지연 값을 수학식 8에 대입했을 때에, j번째 음원 신호에 해당하는 값들에 대한 결과값이 가장 작은 값을 갖는지 여부를 토대로 해당 j번째 음원 신호가 그 시간-주파수에서 지배적인지 여부를 판단하고, j번째 음원 신호가 그 시간-주파수에서 지배적인 음원 신호이면 WDO 가정에 따라 j번째 음원 신호를 분리하기 위한 마스크에서 해당 시간-주파수 값을 1로 하고, 다른 시간-주파수 값을 0으로 하는, 이진 마스크(binary mask)를 생성하며, 이는 수학식 15에 따른다.
Figure pat00046
상기 수학식 15에서,
Figure pat00047
는 이진 마스크이며, 상기
Figure pat00048
는 j번째 음원 신호에 대한 감쇄 정규화 값
Figure pat00049
이 다른 음원 신호들에 대한 감쇄 정규화 값들
Figure pat00050
보다 가장 작은 조건을 의미한다.
<음원 분리>
각각의 음원 신호에 대해 생성한 이진 마스크를 혼합 신호에 적용하여 다음과 같이 음원 신호를 분리한다.
Figure pat00051
상기 수학식 16에서
Figure pat00052
는 j번째 음원 분리 신호이고,
Figure pat00053
는 제1마이크로부터의 혼합 신호이다.
상기 이진 마스크를 통해 분리된 신호는 ISTFT(inverse short time fourier transform)되어 시간 영역에서의 음원 신호로 복원된다.
상기한 DUET 방법에서는 음원과 마이크 사이의 직선 경로를 통해 마이크로 인입되고, 그 과정에서 직선 경로 차에 의한 감쇄 및 시간 지연이 발생한다고 가정한다. 이에따라 DUET 방법에서 가정하는 음원과 마이크 사이의 혼합 필터는 도 5에 도시한 바와 같이 직선 경로에 의한 하나의 감쇄 및 시간 지연 값을 갖는 형태이다.
그러나 실제 반향 환경에서는 도 6에 도시한 바와 같이 음원 신호가 출발한 후에 다양한 물체에 부딪혀 반사되므로 직선 경로뿐만 아니라 다양한 경로를 통해 서로 다른 감쇄 및 시간 지연 값을 가지고 마이크에 입력되기 때문에 도 5에 도시한 간단한 모양이 아니라 도 7에 도시한 바와 같이 다양한 감쇄 및 시간 지연 값을 갖는 필터를 적용해야 한다.
이에따라 단순한 직선 경로에 의한 상대적인 감쇄 및 시간 지연 값만을 추정하는 DUET 방법은 실제적인 반향 환경에 적절하지 않다. 실제로 DUET 방법의 실험 결과 역시 환경에 따라 성능의 편차기 심하게 나타나고, 특히 반향이 있는 환경에서 반향이 강해질수록 성능이 급격하게 하락하였다. 즉, DUET 방법은 반향이 없는 이상적인 환경에서 적합한 음원 분리 성능을 보이지만 실제 반향 환경에서는 적용할 수 없는 한계가 있었다.
본 발명은 반향 환경을 고려하여 주파수마다 각기 다른 감쇄 및 시간 지연 값을 추정하여 암묵 음원 신호를 분리하는 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명은 주파수마다 각기 다른 감쇄 및 시간 지연 값을 추정함에 따라 야기되는 데이터 부족 및 순서 바뀜 문제를 해소하기 위해 클러스터 분리를 기반으로 하는 초기값 추정과 스펙트럼 포락선의 상관계수에 기반한 순서 바뀜 조정을 이행하는 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 암묵 음원 분리 방법은, 둘 이상의 마이크로부터의 혼합신호들을 입력받는 단계; 상기 혼합신호들을 STFT(Short Time Fourier Transform)하여 시간-주파수 영역의 혼합신호들로 변환하는 단계; STFT된 혼합신호들에 대해, 주파수별 감쇄 및 시간 지연 값에 대한 초기화를 수행하고, 초기화된 주파수별 감쇄 및 시간 지연 값이 수렴되도록 학습시키고, 학습된 주파수별 감쇄 및 시간 지연 값을 토대로 주파수별 이진 마스크를 생성하고, 상기 주파수별 이진 마스크를 이용하여 주파수별로 신호를 분리하고, 상기 주파수별로 분리된 신호들에 대해 상관 계수를 구하여 주파수별로 분리된 신호들에 대한 순서를 맞추는 단계; 상기 순서가 맞춤된 신호들을 ISTFT(Inverse Short Time Fourier Transform)하여 시간 영역의 음원 신호들로 복원하는 단계;를 구비한다.
상기한 본 발명은 반향 환경을 고려하여 주파수마다 각기 다른 감쇄 및 시간 지연 값을 추정하여 암묵 음원 신호를 분리함으로써 암묵 음원 신호의 분리 성능을 향상시킬 수 있다.
또한 본 발명은 클러스터 분리를 기반으로 하는 초기값 추정과 스펙트럼 포락선의 상관계수에 기반한 순서 바뀜 조정을 이행하여, 주파수마다 각기 다른 감쇄 및 시간 지연 값을 추정함에 따라 야기되는 데이터 부족 및 순서 바뀜 문제를 해소할 수 있는 효과가 있다.
도 1은 인간의 두 귀에 들어오는 신호를 예시한 도면.
도 2는 경로 차에 의해 발생하는 신호의 감쇄 및 시간 지연을 예시한 도면.
도 3은 DUET 방법에서의 혼합 신호 모델을 예시한 도면.
도 4는 감쇄 및 시간지연 히스토그램을 도시한 도면.
도 5는 DUET 방법에서의 필터 모델을 예시한 도면.
도 6은 반향 환경에서의 혼합 신호 모델을 예시한 도면.
도 7은 실제 반향 환경에서의 필터 모델을 예시한 도면.
도 8은 본 발명에 따른 암묵 음원 분리 장치의 구성도.
도 9는 본 발명에 따른 암묵 음원 분리 방법의 흐름도.
도 10은 순서 바뀜 문제를 예시한 도면.
도 11은 상관 계수 계산 과정을 예시한 도면.
도 12는 상관 계수 크기에 따라 순서 맞춤을 수행하기 위해 주파수 순서를 설정하는 과정을 예시한 도면.
도 13은 상관 계수 비교를 통한 순서 맞춤 과정을 예시한 도면.
도 14는 기준 값과 순서 조정한 신호 전체와의 비교를 예시한 도면.
<암묵 음원 분리 장치의 구성>
본 발명의 바람직한 실시예에 따른 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 장치의 구성을 도 1을 참조하여 설명한다.
상기 암묵 음원 분리 장치는 제1 및 제2마이크(100,102)와 STFT(Short Time Fourier Transformer)(104)와 암묵 음원 분리부(106)와 ISTFT(Inverse Short Time Fourier Transformer)(108)로 구성된다.
상기 제1 및 제2마이크(100,102)는 입력되는 오디오에 대응되는 혼합 신호를 각각 출력한다. 여기서, 음원 신호는 실제 반향 환경에서 다양한 경로를 통해 제1 및 제2마이크(100,102)에 인입되므로, 음원과 마이크 사이의 반향 필터 hij를 이용하면, 음원 신호와 마이크의 출력신호는 수학식 17 및 수학식 18로 나타낼 수 있다.
Figure pat00054
상기 수학식 17에서,
Figure pat00055
는 제1마이크(100)의 출력신호이며,
Figure pat00056
는 제1마이크(100)와 음원들 사이의 반향 필터이며,
Figure pat00057
는 음원 신호이다.
Figure pat00058
상기 수학식 18에서,
Figure pat00059
는 제2마이크(102)의 출력신호이며,
Figure pat00060
는 제2마이크(102)와 음원들 사이의 반향 필터이며,
Figure pat00061
는 음원 신호이다.
상기 STFT(104)는 상기 제1 및 제2마이크(100,102)의 출력 신호를 입력받아 STFT(Short Time Fourier Transform)하여 시간-주파수 영역의 혼합 신호들로 출력한다.
상기 암묵 음원 분리부(106)는 상기 STFT(104)의 출력 신호를 입력받아 음원 신호들로 분리하여 출력한다.
상기 ISTFT(Inverse Short Time Fourier Transformer)(108)는 분리된 음원 신호들을 입력받아 ISTFT(Inverse Short Time Fourier Transform)하여 시간 영역의 음원 신호로 복원하여 출력한다.
<암묵 음원 분리 절차>
본 발명의 바람직한 실시예에 따른 암묵 음원 분리 장치의 암묵 음원 분리부(106)의 처리 절차를 도 2를 참조하여 설명한다.
상기 암묵 음원 분리부(106)는 입력된 혼합 신호에 대해 주파수별 감쇄 및 시간 지연 값에 대한 초기화를 수행한다(200단계).
이후 상기 암묵 음원 분리부(106)는 상기 주파수별 감쇄 및 시간 지연 값을 학습시킨 후에(202단계), 그 학습된 주파수별 감쇄 및 시간 지연 값을 토대로 주파수별 이진 마스크를 생성한다(204단계).
이후 상기 암묵 음원 분리부(106)는 주파수별 이진 마스크를 이용하여 주파수별로 신호를 분리하고(206단계), 상기 주파수별로 분리된 신호들에 대해 상관 계수를 구하여 순서를 맞추고(208단계), 그 상기 맞춰진 순서를 최적화되도록 조정하여 출력한다(210단계).
<암묵 음원 분리 절차의 상세 설명>
이하, 상기한 암묵 음원 분리 절차를 좀 더 상세히 설명한다.
<혼합 모델>
실제 반향 환경에서 다양한 경로를 통해 제1 및 제2마이크(100,102)에 들어오는 혼합신호는 음원과 마이크 사이의 반향 필터 hij를 이용하여 수학식 19 및 수학식 20과 같이 나타낼 수 있다.
상기한 혼합신호에 대해 STFT를 취하여 시간-주파수 영역의 신호로 변환하고, 두 혼합신호 간의 상대적인 감쇄 및 시간 지연 값을 갖는 형태로 전개하면 수학식 19로 정리된다.
Figure pat00062
상기 수학식 19에서,
Figure pat00063
는 시간-주파수 영역에서의 혼합신호이고,
Figure pat00064
는 시간-주파수 영역에서의 반향필터이고, 상기
Figure pat00065
는 시간-주파수 영역에서의 음원신호이다.
그리고 상기
Figure pat00066
...
Figure pat00067
는 N개의 음원 신호에 대한 감쇄율이고,
Figure pat00068
...
Figure pat00069
는 N개의 음원 신호에 대한 시간 지연 값이다.
상기 수학식 19에 WDO 가정을 적용하여 혼합신호에서 시간-주파수 성분은 하나의 음원신호만이 지배적이라는 점을 이용하면, 시간-주파수 영역에서 혼합 신호의 모델은 지배적인 음원 신호 이외의 신호 성분이 제거되어 수학식 20과 같이 나타낼 수 있다.
Figure pat00070
따라서 동일 음원 신호에 대해서도 주파수마다 서로 다른 감쇄 및 시간 지연 값을 갖게 되므로 전체 주파수에 대해 하나의 감쇄 및 시간 지연 값을 찾는 기존의 DUET 방법은 실제 반향 환경에 적용할 수 없다. 이러한 문제를 해결하고자 본 발명은 음원 신호의 모든 주파수에 대한 감쇄 및 시간 지연 값을 추정한다.
Figure pat00071
상기 수학식 21은 감쇄 및 시간 지연 값(
Figure pat00072
,
Figure pat00073
)이 모든 주파수(w)에 대해 각기 다르게 추정됨을 나타낸다.
<감쇄 및 시간 지연 값 초기화>
상기한 바와 같이 본 발명은 음원 신호들 각각에 대해 모든 주파수에서 서로 다른 감쇄 및 시간 지연 값을 추정하여야 하므로, 감쇄 및 시간 지연 값의 초기값 역시 모든 주파수에 대해 다르게 주어져야 한다. 그러나 각각의 주파수에 대한 초기값을 구함에 있어 모든 시간-주파수 성분에 대해 감쇄 및 시간 지연 값들을 추정하여 히스토그램을 생성하던 기존 DUET 방법에 비해 해당 주파수 데이터만을 사용하므로 훨씬 적은 감쇄 및 시간 지연 추정 값들을 사용하게 된다. 이에 본 발명에서는 LBG(Linde, Buzo, Gray)가 제안한 벡터 양자화(vector quantization) 방법을 채용한다. 상기 LBG 방법은 이진 분할 방법과 k-means 클러스터링 방법을 결합한 방법으로, 이진 분할로 중심을 구하고, 이를 k-means 클러스터링 방법의 초기값으로 사용한다.
상기 LBG 방법은 이진 분할 방법과 k-means 클러스터링 방법을 결합한 방법으로 이진 분할 방법의 빠른 연산 수행과 k-means 클러스터링 방법의 정확성의 장점을 모두 갖는다. 상기 k-means 클러스터링 방법은 초기 중심 값을 임의로 선택하는데, 이때 선택된 초기값에 민감한 특징을 나타낸다. 따라서 LBG 방법은 이진 분할로 중심을 구하고, 이를 k-mean 방법의 초기값으로 사용하여 단점을 보완한다.
상기 LBG 방법의 이진 분할 단계를 위해 하나의 주파수에 대해 수학식 6을 적용하여 구한 감쇄 및 시간 지연 값들을 한 개의 클러스터로 정의하고 그 중심을 수학식 22에 따라 찾는다.
Figure pat00074
상기 수학식 22에서,
Figure pat00075
는 중심값을 나타내며,
Figure pat00076
는 클러스터에 포함되는 감쇄 및 시간 지연 값들의 수이다.
Figure pat00077
상기 수학식 23에서
Figure pat00078
는 감쇄 및 시간 지연 값의 한 쌍을 나타내고,
Figure pat00079
Figure pat00080
는 각각 추정된 감쇄율 및 시간 지연 값이다.
상기 주파수 각각에 대한 감쇄 및 시간 지연 값들의 중심이 구해지면, 그 중심 값으로부터 약간 이동된 2개의 중심 값을 수학식 24에 따라 구한다. 여기서, 상기 중심에서 약간 이동된 2개의 중심 값을 구하는 이유는, 두 개의 클러스터로 분할하기 위함이다.
Figure pat00081
상기 수학식 24에서, ε은 이동폭을 결정하는 작은 양의 상수 값이고,
Figure pat00082
는 총 m개의 클러스터 중 분할 대상인 l번째 클러스터에 대한 중심값을 나타내며,
Figure pat00083
Figure pat00084
는 총 m+1개의 클러스터로 분할하기 위해 이동된 새로운 중심값이다.
이와 같이 구해진 2개의 중심값을 감쇄 및 시간 지연 값의 초기값으로 주어 k-means 클러스터링 방법으로 상기 중심값을 갱신한다. 여기서, 분산이 큰 클러스터에 대해 수학식 24를 적용하여 음원 신호의 개수에 해당하는 감쇄 및 시간 지연 값의 초기값을 설정할 수 있다.
<감쇄 및 시간지연 값 학습>
상기 감쇄 및 시간 지연 값의 학습 역시 각각의 주파수에 대해 개별적으로 이루어지며 수학식 25에 따라 추정된다.
Figure pat00085
상기 수학식 25에서,
Figure pat00086
는 지배적인 하나의 음원 신호(j)에 대한 감쇄 정규화값이고,
Figure pat00087
는 감쇄값이고,
Figure pat00088
는 제1마이크(100)로의 혼합신호이고,
Figure pat00089
는 제2마이크(102)로의 혼합신호이고,
Figure pat00090
는 시간 지연 값이다.
상기 감쇄 및 시간 지연 값은 수학식 26 내지 28에 따라 전체 주파수에 대한 누적 값이 아닌 각각의 주파수에 대해 개별적인 감쇄 및 시간 지연 값을 계산한다.
Figure pat00091
상기 수학식 26에서
Figure pat00092
는 비용함수이고,
Figure pat00093
는 근사화에서 연속 함수의 평활(smoothness) 정도를 결정하는 파라미터이며,
Figure pat00094
...
Figure pat00095
는 제1 내지 제N 음원 신호에 대한 감쇄 정규화 값이다.
Figure pat00096
상기 수학식 27은 비용함수
Figure pat00097
를 감쇄값으로 편미분한 것이다.
Figure pat00098
상기 수학식 28은
Figure pat00099
를 시간 지연값으로 편미분한 것이다.
상기 각각의 주파수 별로 구한 감쇄 및 시간 지연 값들을 이용하여 수학식 29 및 수학식 30과 같이 각각의 주파수에 대한 감쇄 및 시간 지연 값을 갱신하며, 그 값이 수렴할 때까지 학습 과정을 반복한다. 상기 학습 과정에서 주파수별 에너지 크기가 다르기 때문에 수학식 31과 같이 신호의 각 주파수별 에너지 값을 구하고 그 크기에 따른 학습률을 준다.
Figure pat00100
상기 수학식 29에서,
Figure pat00101
는 주파수별 에너지 값의 크기에 따른 감쇄율에 대한 학습률이고,
Figure pat00102
는 감쇄값이다.
Figure pat00103
상기 수학식 30에서,
Figure pat00104
는 주파수별 에너지 값의 크기에 따른 시간 지연에 대한 학습률이고,
Figure pat00105
는 시간 지연 값이다.
상기
Figure pat00106
Figure pat00107
는 수학식 31에 의해 결정된다.
Figure pat00108
Figure pat00109
,
Figure pat00110
상기 수학식 31에서, β(ω)는 주파수별 에너지 값의 크기에 따른 학습률 펙터(factor)이고,
Figure pat00111
Figure pat00112
는 각각 감쇄율 및 시간 지연에 대한 학습률로 변환하는 펙터(factor)이며,
Figure pat00113
는 제1 및 제2마이크(100,102)로부터의 혼합 신호의 전체 에너지 값이고,
Figure pat00114
는 학습률 펙터(factor) 설정을 위한 상수값,
Figure pat00115
는 주파수별 에너지 값의 최대값이다.
<순서 맞춤>
학습을 통해 최종적으로 수렴한 감쇄 및 시간 지연 값을 이용하여 이진 마스크를 생성하고, 이진 마스크를 이용하여 혼합 신호로부터 음원을 분리하는 과정은 종래 DUET 방법과 동일하다. 그러나 본 발명은 주파수마다 독립적으로 감쇄 및 시간지연 값을 구하기 때문에 도 10에 도시한 바와 같이 분리된 음원에서 주파수 별로 음원의 순서가 바뀌는 순서 바뀜 문제가 발생할 수 있다. 이러한 순서 바뀜 현상이 일어나게 되면 하나의 복원 신호에 주파수 별로 다양한 음원 신호가 존재하게 되어 제대로 음원 분리가 되었다고 할 수 없다.
이에 본 발명은 DUET 방법에 적합한 순서 바뀜 조정을 이행한다.
본 발명에 따른 순서 바뀜 조정은 주파수 영역 독립 성분 분석에 적용하기 위해 Murata 등이 제안한 방법(N. Murata, S. Ikeda, and A. Ziehe, "An approach to blind source separation based on temporal structure of speech signals" Neurocomputing, vol. 41, no. 1-4, pp. 1-24, Oct. 2001.)으로 순서를 초기화한 후 전체 상관 계수를 최대화하도록 순서를 조정하게 된다.
상기 순서 바뀜 조정은, 수학식 32에 따라 주파수 별로 이진 마스크를 통과하여 분리한 신호간의 상관 계수를 구하고 수학식 33과 같이 상관계수의 크기에 따라 맞춤할 주파수 순서를 결정한다.
Figure pat00116
상기 수학식 32에서,
Figure pat00117
는 상관 계수의 크기이고,
Figure pat00118
~
Figure pat00119
는 이진 마스크에 의해 분리된 신호들이다.
Figure pat00120
여기서, 상관계수가 작다는 것은 두 음원의 구분이 쉽다는 것을 의미하기 때문에 가장 확실한 기준이 될 수 있다. 이에따라 수학식 34과 같이 가장 상관 계수가 작은 주파수의 신호 값을 기준 값으로 정한다.
Figure pat00121
상기 수학식 34에서,
Figure pat00122
는 기준값이고,
Figure pat00123
는 가장 상관 계수가 작은 주파수의 분리 음원 신호 값이다.
상기 상관 계수가 낮은 주파수 순서대로 수학식 35에 따라 음원의 순서를 바꿔가며 기준 값과 음원 간의 상관 계수를 계산하고 그 값이 최대가 되는 순서에 맞춰 순서를 조정하며 이를 도시한 것이 도 12 및 도 13이다.
Figure pat00124
상기 수학식 35에서
Figure pat00125
는 주파수
Figure pat00126
에서 맞춤된 순서열을 나타내며,
Figure pat00127
는 맞춤된 순서에 따른 분리 음원 신호이고,
Figure pat00128
는 이전 주파수까지 맞춤된 음원 신호로부터의 기준값이다.
그 다음, 수학식 36과 같이 기준 값에 맞춤된 분리 음원 신호를 더하여 기준 값을 갱신한다.
Figure pat00129
상기 수학식 36에서,
Figure pat00130
는 맞춤된 음원 신호로부터의 기준값이고,
Figure pat00131
는 맞춤된 순서에 따른 분리 음원 신호이다.
하지만 이러한 Murata 등의 방법은 기준 값의 갱신과 순서 맞춤이 동시에 이루어지고 그 과정이 한번에 끝나기 때문에 잘못된 순서 맞춤과 누락된 순서 바뀜이 존재할 수 있다. 이러한 오류는 전체적인 성능에 악영향을 주기 때문에 이를 보완하기 위하여 Sawada 등의 방법(H. Sawada, R. Mukai, S. Araki, and S. Makino, "Robust and precise method for solving the permutation problem of frequency-domain blind source separation," in Proc. Int. Symp. Independent Component Analysis Blind Signal Separation (ICA), Nara, Japan, Apr. 2003, pp. 505-510.)에 나타난 신호 전체의 상관 계수를 최대화하는 방향으로 반복적인 최적화를 하는 과정을 적용한다.
신호 전체의 상관 계수는 수학식 37과 같이 이전 반복 단계의 순서정보에 의한 포락 신호의 합을 기준으로 순서정보를 새로 맞춘 뒤, 각 주파수 및 음원에 대하여 기준 값과 상관계수를 합산하여 구한다. 그리고 이 값이 최대가 될 때까지 이전 반복 단계의 순서정보에 의한 순서 맞춤 과정을 반복해서 수행하게 된다. 이러한 반복적인 최적화 과정은 전체 상관 계수의 값이 이전 반복 단계의 그것에 비해 더 이상 증가하지 않으면 반복이 종료된다.
Figure pat00132
상기 수학식 37에서
Figure pat00133
는 신호 전체의 상관 계수이다.
Sawada 등의 방법에서는 신호 전체의 상관 계수를 최대화하는 최적화 과정 뒤에 다시 이웃한 주파수 및 하모닉 주파수의 중심을 기준으로 상관계수를 최대화하는 세부맞춤 과정을 진행한다. 그러나 이러한 세부맞춤 과정은 독립성분분석 기반의 암묵 음원 분리 방법과는 달리, 본 발명의 음원 분리 방법에서는 주파수 별로 음원의 도착 방향에 따라 WDO 조건을 최대화하는 결과물을 이용하기 때문에 이웃한 주파수 및 하모닉 주파수간의 연관성이 많이 떨어지게 되어 한 곳으로 수렴하기 힘든 더 어려운 문제가 된다. 이는 반향이 큰 환경에서 더욱 두드러지게 나타나며, 이러한 Sawada 등의 방법의 성능저하를 실험결과에서 확인할 수 있었다.
그러므로 먼저 Murata 등의 방법으로 순서를 맞춘 결과를 초기값으로 하여 Sawada 등의 방법에 사용된 전체 상관 계수를 최대화하는 반복 최적화과정만을 수행한다. 이러한 방법으로 최종적으로 분리 신호는 다음과 같은 수학식 38에 의해 구한다.
Figure pat00134
상기 수학식 38에서,
Figure pat00135
는 분리된 최종 신호이며,
Figure pat00136
는 전체 상관 계수 최대화 과정을 통해 맞춤된 순서에 따른 분리 음원 신호이고, M은 전체 상관계수 최대화 과정의 마지막 반복 횟수를 나타낸다.
100 : 제1마이크
102 : 제2마이크
104 : STFT
106 : 암묵 음원 분리부
108 : ISTFT

Claims (6)

  1. 암묵 음원 분리 장치에 의해 수행되는 암묵 음원 분리 방법에 있어서,
    둘 이상의 마이크로부터의 혼합신호들을 입력받는 단계;
    상기 혼합신호들을 STFT(Short Time Fourier Transform)하여 시간-주파수 영역의 혼합신호들로 변환하는 단계;
    STFT된 혼합신호들에 대해,
    주파수별 감쇄 및 시간 지연 값에 대한 초기화를 수행하고,
    초기화된 주파수별 감쇄 및 시간 지연 값이 수렴되도록 학습시키고, 학습된 주파수별 감쇄 및 시간 지연 값을 토대로 주파수별 이진 마스크를 생성하고,
    상기 주파수별 이진 마스크를 이용하여 주파수별로 신호를 분리하고, 상기 주파수별로 분리된 신호들에 대해 상관 계수를 구하여 주파수별로 분리된 신호들에 대한 순서를 맞추는 단계;
    상기 순서가 맞춰진 신호들을 ISTFT(Inverse Short Time Fourier Transform)하여 시간 영역의 음원 신호들로 복원하는 단계;를 구비함을 특징으로 하는 암묵 음원 분리 방법.
  2. 제1항에 있어서,
    상기 감쇄 및 시간 지연 값에 대한 초기화는,
    주파수 각각에 대해 감쇄 및 시간 지연 값들을 한 개의 클러스터로 정의하고,
    그 클러스터의 중심값을 수학식 39에 따라 검출하고,
    상기 중심값을 상기 감쇄 및 시간 지연 값의 초기값으로 결정함을 특징으로 하는 암묵 음원 분리 방법.
    수학식 39
    Figure pat00137

    상기 수학식 39에서,
    Figure pat00138
    는 중심값을 나타내며,
    Figure pat00139
    는 클러스터에 포함되는 감쇄 및 시간 지연 값들의 수이며,
    Figure pat00140
    는 감쇄 및 시간 지연값의 한 쌍으로, 추정된 감쇄율
    Figure pat00141
    및 시간 지연 값
    Figure pat00142
    으로 구성됨.
  3. 제2항에 있어서,
    상기 중심값이 수학식 40에 의해 이동되며, 이동된 중심값이 상기 감쇄 및 시간 지연 값의 분할된 클러스터의 새로운 초기값으로 설정됨을 특징으로 하는 암묵 음원 분리 방법.
    수학식 40
    Figure pat00143

    상기 수학식 40에서, ε은 이동폭을 결정하는 작은 양의 상수값이고,
    Figure pat00144
    는 총 m개의 클러스터 중 분할 대상인 l번째 클러스터에 대한 중심값을 나타내며,
    Figure pat00145
    Figure pat00146
    는 총 m+1개의 클러스터로 분할하기 위해 이동된 새로운 중심값임.
  4. 제1항에 있어서,
    주파수별 감쇄 및 시간 지연 값이 수렴되도록 학습하는 것은,
    비용함수가 최소화되도록 감쇄 및 시간 지연 값이 수렴할 때까지 수학식 41 내지 47에 따라 갱신함을 특징으로 하는 암묵 음원 분리 방법.
    수학식 41
    Figure pat00147

    상기 수학식 41에서,
    Figure pat00148
    는 감쇄에 대한 정규화 값이고,
    Figure pat00149
    는 j번째 음원 신호에 대한 추정된 감쇄율이고,
    Figure pat00150
    는 j번째 음원 신호에 대한 추정된 시간 지연 값이고,
    Figure pat00151
    Figure pat00152
    는 각각 시간-주파수 영역에서 제1, 제2마이크 출력신호를 나타냄.
    수학식 42
    Figure pat00153

    상기 수학식 42에서
    Figure pat00154
    는 비용함수이고,
    Figure pat00155
    는 근사화에서 연속 함수의 평활(smoothness) 정도를 결정하는 파라미터이며,
    Figure pat00156
    ...
    Figure pat00157
    는 제1 내지 제N 음원 신호에 대한 감쇄 정규화 값이다.
    수학식 43
    Figure pat00158

    상기 수학식 43은 비용함수
    Figure pat00159
    를 감쇄값으로 편미분한 것이다.
    수학식 44
    Figure pat00160

    상기 수학식 44는 비용함수
    Figure pat00161
    를 시간 지연값으로 편미분한 것임.
    Figure pat00162
    수학식 45
    상기 수학식 45에서,
    Figure pat00163
    는 주파수별 에너지 값의 크기에 따른 감쇄율에 대한 학습률이고,
    Figure pat00164
    는 감쇄값임.
    수학식 46
    Figure pat00165

    상기 수학식 46에서,
    Figure pat00166
    는 주파수별 에너지 값의 크기에 따른 시간 지연에 대한 학습률이고,
    Figure pat00167
    는 시간 지연 값임.
    수학식 47
    Figure pat00168
    ,
    Figure pat00169
    ,
    Figure pat00170

    상기 수학식 47에서, β(ω)는 주파수별 에너지 값의 크기에 따른 학습률 펙터(factor)이고,
    Figure pat00171
    Figure pat00172
    는 각각 감쇄율 및 시간 지연에 대한 학습률로 변환하는 펙터(factor)이며,
    Figure pat00173
    는 마이크들로부터의 혼합 신호의 전체 에너지 값이고,
    Figure pat00174
    는 학습률 펙터(factor) 설정을 위한 상수값이고,
    Figure pat00175
    는 주파수별 에너지 값의 최대값임.
  5. 제1항에 있어서,
    주파수별로 분리된 신호들에 대해 상관 계수를 구하여 주파수별로 분리된 신호들에 대한 순서를 맞추는 것은,
    분리된 신호들에 대한 상관계수를 수학식 48에 따라 산출하고,
    상기 산출된 상관계수의 크기에 따라 수학식 49에 따라 맞춤할 주파수 순서를 결정하고,
    상관계수가 가장 낮은 주파수의 신호값을 기준값으로 분리된 신호들의 순서를 수학식 50 및 수학식 51에 따라 조정함을 특징으로 하는 암묵 음원 분리 방법.
    수학식 48
    Figure pat00176

    상기 수학식 48에서,
    Figure pat00177
    는 상관 계수의 크기이고,
    Figure pat00178
    ~
    Figure pat00179
    는 이진 마스크에 의해 분리된 신호들임.
    수학식 49
    Figure pat00180

    수학식 50
    Figure pat00181

    상기 수학식 50에서,
    Figure pat00182
    는 기준값이고,
    Figure pat00183
    는 가장 상관 계수가 작은 주파수의 분리 음원 신호 값임.
    수학식 51
    Figure pat00184

    상기 수학식 51에서
    Figure pat00185
    는 주파수
    Figure pat00186
    에서 맞춤된 순서열을 나타내며,
    Figure pat00187
    는 맞춤된 순서에 따른 분리 음원 신호이고,
    Figure pat00188
    는 이전 주파수까지 맞춤된 음원 신호로부터의 기준값임.
  6. 제5항에 있어서,
    분리된 신호들의 순서를 조정한 후에,
    상기 분리된 신호들의 순서정보에 의한 포락 신호의 합을 기준으로 순서정보를 다시 조정하고,
    각 주파수 및 음원에 대하여 기준 값과 상관계수를 합산하여 구하고, 이 합산된 값이 최대가 될 때까지 순서 맞춤 과정을 반복 수행하는 단계를 더 구비함을 특징으로 하는 암묵 음원 분리 방법.
KR1020110061697A 2011-06-24 2011-06-24 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 KR101243897B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110061697A KR101243897B1 (ko) 2011-06-24 2011-06-24 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110061697A KR101243897B1 (ko) 2011-06-24 2011-06-24 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법

Publications (2)

Publication Number Publication Date
KR20130006857A true KR20130006857A (ko) 2013-01-18
KR101243897B1 KR101243897B1 (ko) 2013-03-20

Family

ID=47837558

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110061697A KR101243897B1 (ko) 2011-06-24 2011-06-24 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법

Country Status (1)

Country Link
KR (1) KR101243897B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN109671439A (zh) * 2018-12-19 2019-04-23 成都大学 一种智能化果林鸟害防治设备及其鸟类定位方法
CN109697978A (zh) * 2018-12-18 2019-04-30 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
WO2022097944A1 (ko) * 2020-11-06 2022-05-12 삼성전자주식회사 전자 장치 및 이의 오디오 신호 처리 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180086046A (ko) 2017-01-20 2018-07-30 한화에어로스페이스 주식회사 감시 시스템 및 그 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233227A1 (en) 2002-06-13 2003-12-18 Rickard Scott Thurston Method for estimating mixing parameters and separating multiple sources from signal mixtures
JP5054418B2 (ja) 2007-04-23 2012-10-24 ポーラ化成工業株式会社 クレンジング用の化粧料に好適な皮膚外用剤

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
CN109697978A (zh) * 2018-12-18 2019-04-30 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109697978B (zh) * 2018-12-18 2021-04-20 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109671439A (zh) * 2018-12-19 2019-04-23 成都大学 一种智能化果林鸟害防治设备及其鸟类定位方法
CN109671439B (zh) * 2018-12-19 2024-01-19 成都大学 一种智能化果林鸟害防治设备及其鸟类定位方法
WO2022097944A1 (ko) * 2020-11-06 2022-05-12 삼성전자주식회사 전자 장치 및 이의 오디오 신호 처리 방법

Also Published As

Publication number Publication date
KR101243897B1 (ko) 2013-03-20

Similar Documents

Publication Publication Date Title
Wang et al. A region-growing permutation alignment approach in frequency-domain blind source separation of speech mixtures
US9668066B1 (en) Blind source separation systems
US8874439B2 (en) Systems and methods for blind source signal separation
Nishikawa et al. Blind source separation of acoustic signals based on multistage ICA combining frequency-domain ICA and time-domain ICA
JPWO2018047643A1 (ja) 音源分離装置および方法、並びにプログラム
KR101243897B1 (ko) 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
CN111986695B (zh) 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统
CN105580074B (zh) 信号处理系统和方法
Aichner et al. Time domain blind source separation of non-stationary convolved signals by utilizing geometric beamforming
KR20130068869A (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
Furnon et al. DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
US20080267423A1 (en) Object sound extraction apparatus and object sound extraction method
JP5406866B2 (ja) 音源分離装置、その方法及びプログラム
Asaei et al. Binary sparse coding of convolutive mixtures for sound localization and separation via spatialization
CN108597531B (zh) 一种通过多声源活动检测来改进双通道盲信号分离的方法
GB2510650A (en) Sound source separation based on a Binary Activation model
CN112037813A (zh) 一种针对大功率目标信号的语音提取方法
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
KR101260684B1 (ko) 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치
Janský et al. A computationally cheaper method for blind speech separation based on AuxIVA and incomplete demixing transform
Chua et al. A low latency approach for blind source separation
Li et al. Low complex accurate multi-source RTF estimation
Houda et al. Blind audio source separation: state-of-art
Lee et al. Maximum likelihood time delay estimation with phase domain analysis in the generalized cross correlation framework

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160223

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170306

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180226

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190403

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200304

Year of fee payment: 8