KR101641645B1

KR101641645B1 - 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템

Info

Publication number: KR101641645B1
Application number: KR1020140070876A
Authority: KR
Inventors: 조충상; 김제우; 최병호; 신화선
Original assignee: 전자부품연구원
Priority date: 2014-06-11
Filing date: 2014-06-11
Publication date: 2016-07-22
Also published as: US20150365766A1; KR20150142777A; US9466312B2

Abstract

오디오 소스 분리 방법 및 이를 적용한 오디오 시스템이 제공된다. 본 발명의 실시예들에 따른 오디오 분리 방법은, 믹싱된 오디오 신호를 오디오 소스들로 분리함에 있어, 잔여 신호라는 개념을 도입하여, 오디오 소스들 중 적어도 2개에 해당되는 오디오 신호를 잔여 신호로 별도 분리하여 처리한다. 이에 의해, 오디오 분리 성능 향상을 기대할 수 있다. 또한, 분리된 잔여 신호를 재분리하여 해당 오디오 소스들에 부가할 수 있어, 보다 완전하게 오디오 소스들을 분리할 수 있게 된다.

Description

오디오 소스 분리 방법 및 이를 적용한 오디오 시스템{Audio Source Seperation Method and Audio System using the same}

본 발명은 오디오 소스 분리 방법에 관한 것으로, 더욱 상세하게는 믹싱된 오디오 신호로부터 오디오 소스들을 분리하는 방법 및 이를 적용한 오디오 시스템에 관한 것이다.

도 1은 기존의 오디오 소스 분리 기술을 개념적으로 도시한 도면이다. 도 1에서, s₁, s₂, s₃은 3개의 서로 다른 오디오 소스들을 의미하고, x는 믹싱된 오디오 신호를 의미한다. 즉, x는 s₁, s₂, s₃가 합쳐진 신호이다.

도 1에 도시된 바와 같이, 각각의 오디오 소스들 s₁, s₂, s₃은 겹쳐진 성분이 존재하지 않는다. 즉, 오디오 소스들 s₁, s₂, s₃은 서로 독립적인 관계라고 할 수 있다.

이와 같은 상황에서, 오디오 신호 x를 오디오 소스들 s₁, s₂, s₃로 분리함에 있어서는 아무런 문제가 없다. 오디오 신호 x를 구성하는 오디오 성분을 오디오 소스들 s₁, s₂, s₃ 중 어느 하나로 매칭시킬 수 있기 때문이다.

하지만, 도 1에 도시된 상태의 오디오 신호 x와 오디오 소스들 s₁, s₂, s₃은 이상적인 경우이거나 매우 특수한 경우에 해당한다. 실제로, 오디오 신호 x와 오디오 소스들 s₁, s₂, s₃은, 도 2에 도시된 바와 같다.

즉, 오디오 소스들 s₁, s₂, s₃은 완전하게 독립적이지 않으며, 이에 따라 겹쳐진 영역이 존재하게 된다. 이와 같은 상황은, 오디오 소스들 s₁, s₂ 및 s₃을 하나의 오디오 신호 x로 믹싱함에 있어서는, 아무런 문제가 발생되지 않는다.

하지만, 믹싱된 오디오 신호 x를 오디오 소스들 s₁, s₂, s₃로 분리하는 데에는 문제가 발생한다. 오디오 소스들 s₁, s₂, s₃의 겹쳐진 영역에 해당하였었던 오디오 성분을 오디오 소스들 s₁, s₂, s₃ 중 어느 하나에 매칭시킬 수 없기 때문이다.

이와 같은 문제로 인해, 실제 오디오 신호 x와 오디오 소스들 s₁, s₂, s₃은 도 2에 도시된 바와 같음에도 불구하고, 오디오 소스 분리 알고리즘은 오디오 신호 x와 오디오 소스들 s₁, s₂, s₃을 도 1에 도시된 바와 같은 상태로 가정하고 처리하고 있는 실정이다.

실제 오디오 신호와 오디오 소스들의 상태가 반영되지 않은 채로 오디오 소스 분리가 이루어지기 때문에, 오디오 소스 분리 성능이 좋을 리 없음은 충분히 예측할 수 있으며, 실제로도 그러하다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 믹싱된 오디오 신호를 오디오 소스들로 분리함에 있어, 오디오 소스들 중 적어도 2개에 해당되는 오디오 신호를 잔여 신호로 별도 분리하는 기법에 기반한 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 오디오 분리 방법은, 믹싱된 오디오 신호를 입력받는 단계; 및 입력된 믹싱된 오디오 신호를 다수의 오디오 소스들과 제1 여기 신호로 분리하는 제1 분리단계;를 포함한다.

그리고, 상기 제1 여기 신호는, 상기 다수의 오디오 소스들 중 적어도 2개에 공통되는 오디오 신호일 수 있다.

또한, 본 발명의 일 실시예에 따른 오디오 분리 방법은, 상기 제1 분리단계에서 분리된 상기 여기 신호를, 상기 오디오 소스들 각각에 해당하는 여기 신호들과 제2 여기 신호로 분리하는 제2 분리단계; 및 상기 여기 신호들을 상기 오디오 소스들에 각각 부가하는 단계;를 더 포함할 수 있다.

그리고, 상기 제1 분리 단계 및 상기 제2 분리단계는, NMF-EM(Nonnegative Matrix Factorization - Expectation Maximization) 기법을 이용하여, 분리 작업을 수행하고, 상기 제2 분리단계는, 상기 제1 분리단계에서 사용한 초기 파라미터들 및 상기 제1 분리단계에 의해 업데이트된 파라미터들을 기초로 결정한 파라미터들을 이용할 수 있다.

또한, 상기 제2 분리단계는, 상기 결정한 파라미터들에 가중치를 부가한 파라미터들을 이용할 수 있다.

그리고, 상기 가중치는, 상기 믹싱된 오디오 신호의 절대 파워 평균과 상기 제1 잔여 신호의 절대 파워 평균을 기초로 결정될 수 있다.

한편, 본 발명의 다른 실시예에 따른, 오디오 시스템은, 믹싱된 오디오 신호를 입력받는 입력부; 및 입력된 믹싱된 오디오 신호를 다수의 오디오 소스들과 제1 여기 신호로 분리하는 분리부;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 믹싱된 오디오 신호를 오디오 소스들로 분리함에 있어, 잔여 신호라는 개념을 도입하여, 오디오 소스들 중 적어도 2개에 해당되는 오디오 신호를 잔여 신호로 별도 분리하여 처리하게 되므로, 오디오 분리 성능 향상을 기대할 수 있다.

또한, 본 발명의 실시예들에 따르면, 분리된 잔여 신호를 재분리하여 해당 오디오 소스들에 부가할 수 있어, 보다 완전하게 오디오 소스들을 분리할 수 있게 된다.

도 1은 기존의 오디오 소스 분리 기술을 개념적으로 도시한 도면,
도 2는 실제 오디오 신호와 오디오 소스들 간의 관계를 나타낸 도면,
도 3은 본 발명의 일 실시예에 따른 오디오 시스템의 블럭도, 그리고,
도 4 내지 도 7에는 오디오 분리 성능 평가 결과를 나타낸 그래프들이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 3은 본 발명의 일 실시예에 따른 오디오 시스템의 블럭도이다. 본 실시예에 따른 오디오 시스템은, 오디오 신호를 오디오 소스들로 분리하기 위한 시스템이다.

이와 같은 기능을 수행하는 본 실시예에 따른 오디오 시스템은, 도 3에 도시된 바와 같이, 오디오 신호 분리부(110), 파라미터 업데이트부(120), 여기 신호 분리부(130) 및 오디오 소스 합성부(140)를 포함한다.

본 발명의 실시예에서, 오디오 신호 x는 J개의 오디오 소스(객체)들 s₀, ... , s_J _-1이 믹싱된 신호인 것을 상정한다.

오디오 신호 분리부(110)는 입력되는 오디오 신호 x를 다수의 오디오 소스들 s'₀, ... , s'_J _-1과 여기 신호 r₁로 분리한다. 여기 신호 r₁는 오디오 소스들 s₀, ... , s_J-1 중 적어도 2개에 공통된(겹쳐진) 오디오 신호에 해당한다.

오디오 신호 x로부터 여기 신호 r₁가 분리되는 관계로, 오디오 신호 분리부(110)를 통해 오디오 신호 x로부터 분리되는 오디오 소스들 s'₀, ... , s'_J _-1은 오디오 신호 x를 믹싱하는데 기초가 된 원래의 오디오 소스들 s₀, ... , s_J _-1과 차이가 있다.

오디오 신호 분리부(110)는 NMF-EM(Nonnegative Matrix Factorization - Expectation Maximization) 기법을 이용하여, 오디오 신호 x에 대한 분리 작업을 수행한다.

NMF-EM 기법은 오디오 분리에 널리 사용되는 기지의 방법으로, 이에 대한 상세한 설명은 생략한다.

기존 방식의 경우, NMF-EM 기법에 의한 오디오 분리는 오디오 소스들에 대한 초기 파라미터들 {W'H'}로부터 업데이트된 파라미터들 {W_u'H_u'}이 생성되며, 업데이트된 파라미터들 {W_u'H_u'}에 의해 오디오 소스들이 결정된다.

하지만, 본 발명의 실시예에서는, 오디오 신호로부터 오디오 소스들 외에 잔여 신호 r₁을 더 분리하기 때문에, 초기 파라미터들 {W'H'}와 업데이트된 파라미터들 {W_u'H_u'}에는, 오디오 소스들에 대한 파라미터들 외에 잔여 신호 r₁에 대한 파라미터가 더 포함됨에 유념하여야 한다.

여기 신호 분리부(130)는 오디오 신호 분리부(110)에서 분리된 여기 신호 r₁를 재분리한다. 구체적으로, 여기 신호 분리부(130)는 여기 신호 r₁를 오디오 소스들에 대한 여기 신호들 r₁ _, _s0, ... , r₁ _, _sJ _-1과 여기 신호 r₂로 분리한다.

여기 신호 r₂는 오디오 소스들에 대한 여기 신호들 r₁ _, _s0, ... , r₁ _, _sJ _-1에 포함시킬 수 없는 신호이다. 개념적으로, 여기 신호 r₂는, 오디오 소스들 s₀, ... , s_J _-1 중 적어도 2개에 공통된(겹쳐진) 여기 신호 r₁로 이해할 수 있다.

여기 신호 분리부(130)도 NMF-EM 기법을 이용하여, 여기 신호 r₁에 대한 분리 작업을 수행한다. 단, NMF-EM 기법을 적용함에 있어 사용되는 초기 파라미터들 {W_n'H_n'}은 파라미터 업데이트부(120)가 아래의 수학식 1에 따라 산출한다.

[수학식 1]

{W'_nH'_n} = w₂×[w₁{W'H'}+(1-w₁){W'_uH'_u}]

여기서, {W'H'}은 오디오 신호 분리부(110)가 오디오 신호 x를 분리하는데 이용한 초기 파라미터들이고, {W'_uH'_u}은 오디오 신호 분리부(110)에 의한 오디오 분리 과정에서 업데이트된 파라미터들이다.

이와 같이, 여기 신호 r₁을 분리하는데 이용하는 파라미터들은, 오디오 신호 x를 분리하는 과정에서 이용하였던 초기 파라미터들과 분리 결과로 생성된 업데이트된 파리미터들의 가중 합으로부터 획득된다.

가중치 w₁은 초기 파라미터들 {W'H'}과 업데이트된 파라미터들 {W'_uH'_u}의 비중을 결정하기 위한 가중치로, 0≤w₁≤1 이다. 가중치 w₂는 초기 파라미터들 {W'H'}과 업데이트된 파라미터들 {W'_uH'_u}의 비중을 결정하기 위한 가중치로, 0≤w₁≤1 이다.

가중치 w₂는 오디오 신호 x의 절대 파워 평균과 잔여 신호 r₁의 절대 파워 평균의 비율로 결정되며, 구체적으로는 아래의 수학식 2와 같다.

[수학식 2]

오디오 소스 합성부(140)는 오디오 신호 분리부(110)에서 분리된 오디오 소스들 s'₀, ... , s'_J _-1에, 여기 신호 분리부(130)에서 분리된 오디오 소스들에 대한 여기 신호들 r₁ _, _s0, ... , r₁ _, _sJ _-1을, 각각 부가하여, 최종 오디오 소스들을 생성한다.

한편, 여기 신호 분리부(130)에서 분리된 여기 신호 r₂에 대해서는 폐기할 수 있지만, 재분리하는 것도 가능하다. 구체적으로, 오디오 소스 합성부(140)가 여기 신호 r₂를 여기 신호 분리부(130)에 인가하여, 여기 신호 r₁과 마찬가지로 여기 신호 분리부(130)에 의해 여기 신호 r₂가 분리되도록 하는 것이다.

이 경우, 오디오 소스 합성부(140)는 최종 오디오 소스들에 대해, 여기 신호 r₂로부터 분리된 오디오 소스들에 대한 여기 신호들 r₂ _, _s0, ... , r₂ _, _sJ _-1을 각각 부가할 것이다. 아울러, 여기 신호 분리부(130)에 의해 여기 신호 r₂로부터 여기 신호 r₃이 분리된다.

이후, 여기 신호 r₃에 대해서도 재분리 과정을 반복하는 것이 가능하며, 궁극적인 재분리 반복 여부는 여기 신호와 오디오 소스들의 파라미터를 기초로 결정할 수 있다.

지금까지, 믹싱된 오디오 신호를 오디오 소스들로 분리함에 있어, 잔여 신호라는 개념을 도입하여 오디오 소스들 중 적어도 2개에 해당되는 오디오 신호를 이 잔여 신호로 별도 분리하는 기법에 따른 오디오 분리에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 기법에 따른 오디오 분리는, 감시 시스템에 적용되어, 오디오 신호로부터 특정 오디오 소스(예를 들면, 음성) 만을 추출하거나 특정 오디오 소스(예를 들면, 바람 소리, 자동차 경적 소리)를 제거하는데 활용될 수 있다. 나아가, 오디오 소스별 오디오 효과 부여나, 콘텐츠 제작에도 적용될 수 있음은 물론이다.

도 4 내지 도 7에는 오디오 분리 성능 평가 결과를 나타내었다. 도 4 내지 도 7에 도시된 바와 같이, 잔여 신호를 이용한 오디오 소스 분리의 성능이 그렇지 않은 경우 보다 우수함을 알 수 있다. 또한, 잔여 신호 분리 기법까지 적용한다면, 그 성능은 더욱 더 우수해짐을 확인할 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 오디오 신호 분리부
120 : 파라미터 업데이트부
130 : 여기 신호 분리부
140 : 오디오 소스 합성부

Claims

믹싱된 오디오 신호를 입력받는 단계; 및
입력된 믹싱된 오디오 신호를 다수의 오디오 소스들과 제1 여기 신호로 분리하는 제1 분리단계;를 포함하고,
상기 제1 여기 신호는,
상기 다수의 오디오 소스들 중 적어도 2개에 공통되는 오디오 신호인 것을 특징으로 하는 오디오 분리 방법.
삭제
제 1항에 있어서,
상기 제1 분리단계에서 분리된 상기 여기 신호를, 상기 오디오 소스들 각각에 해당하는 여기 신호들과 제2 여기 신호로 분리하는 제2 분리단계; 및
상기 여기 신호들을 상기 오디오 소스들에 각각 부가하는 단계;를 더 포함하는 것을 특징으로 하는 오디오 분리 방법.
제 3항에 있어서,
상기 제1 분리 단계 및 상기 제2 분리단계는, NMF-EM(Nonnegative Matrix Factorization - Expectation Maximization) 기법을 이용하여, 분리 작업을 수행하고,
상기 제2 분리단계는,
상기 제1 분리단계에서 사용한 초기 파라미터들 및 상기 제1 분리단계에 의해 업데이트된 파라미터들을 기초로 결정한 파라미터들을 이용하는 것을 특징으로 하는 오디오 분리 방법.
제 4항에 있어서,
상기 제2 분리단계는,
상기 결정한 파라미터들에 가중치를 부가한 파라미터들을 이용하는 것을 특징으로 하는 오디오 분리 방법.
제 5항에 있어서,
상기 가중치는,
상기 믹싱된 오디오 신호의 절대 파워 평균과 상기 제1 여기 신호의 절대 파워 평균을 기초로 결정되는 것을 특징으로 하는 오디오 분리 방법.
믹싱된 오디오 신호를 입력받는 입력부; 및
입력된 믹싱된 오디오 신호를 다수의 오디오 소스들과 제1 여기 신호로 분리하는 분리부;를 포함하고,
상기 제1 여기 신호는,
상기 다수의 오디오 소스들 중 적어도 2개에 공통되는 오디오 신호인 것을 특징으로 하는 오디오 시스템.