KR20120031854A

KR20120031854A - 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법

Info

Publication number: KR20120031854A
Application number: KR1020100130223A
Authority: KR
Inventors: 김민제; 장인선; 강경옥; 최승진; 유지호; 김진웅
Original assignee: 한국전자통신연구원; 포항공과대학교 산학협력단
Priority date: 2010-09-27
Filing date: 2010-12-17
Publication date: 2012-04-04
Also published as: US8563842B2; US20120291611A1

Abstract

본 발명은 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템이 개시된다. 음악 음원 분리 시스템은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부를 포함한다.

Description

시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법 {METHOD AND SYSTEM FOR SEPARATING MUSIC SOUND SOURCE USING TIME AND FREQUENCY CHARACTERISTICS}

본 발명은 음악 음원 분리 방법에 관한 것으로서, 구체적으로는 목표로 하는 음원의 시간적인 특성과 주파수적인 특성을 동시에 이용하여 혼합 신호로부터 목표 음원의 신호 만을 효율적으로 분리하는 장치 및 방법에 관한 것이다.

기술의 발달로 다양한 음원이 함께 녹음된 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다.

그러나, 종래의 음원 분리 기술은 신호가 혼합되는 환경의 모델에 기반하여 음원의 통계적 특성을 활용하여 음원을 분리하므로, 분리하고자 하는 음원 개수에 대응하는 개수의 혼합 신호를 필요로 하였다.

따라서, 획득할 수 있는 혼합 신호의 개수보다 포함된 음원의 개수가 많은 음악 신호에서도 특정 음원을 분리할 수 있으며, 위치 정보를 사용하여 음원을 분리하는 경우에도 다른 음원의 정보가 혼재되지 않도록 하는 방법이 필요한 실정이다.

본 발명의 일실시예는 특정 악기만으로 연주된 음원 정보가 있는 경우에 혼합 신호에 포함된 대상 음원을 나머지 음원들로부터 분리하는 것과, 대상 음원의 특징을 혼합신호로부터 도출하여 대상 음원을 재구성하는 과정을 동시 통합적으로 수행함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있는 음악 음원 분리 장치를 제공한다.

또한, 본 발명의 일실시예는 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수 있는 음악 음원 분리 장치를 제공한다.

본 발명의 일실시예에 따른 음악 음원 분리 시스템은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부를 포함한다.

본 발명의 일실시예에 따른 음악 음원 분리 시스템의 혼합 신호 분할부는, 혼합 신호를 복수의 세그먼트로 분할하는 세그먼트 분할부; 복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 윈도우 적용부 및 복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 NMPCF 분석부에 제공하는 혼합 신호의 시간-주파수 영역 변환부를 포함할 수 있다.

본 발명의 일실시예에 따른 음악 음원 분리 시스템의 세그먼트 분할부는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 혼합 신호를 분할할 수 있다.

본 발명의 일실시예에 따른 음악 음원 분리 시스템의 윈도우 적용부는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택할 수 있다.

본 발명의 일실시예에 따른 음악 음원 분리 방법은 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 단계; 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 단계; 복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 단계; 및 상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 단계를 포함한다.

본 발명의 일실시예에 따르면, 특정 음원만으로 구성된 음원 정보가 있는 경우에 음원 정보를 직접적으로 이용하는 동시에, 시간 측면에서 반복되는 음원의 특성을 이용하여 혼합 신호를 대상 음원과 나머지 음원들로 재구성함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있다.

또한, 본 발명의 일실시예에 따르면, 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수 있다.

도 1은 본 발명에 따른 음악 음원 분리 시스템의 구성을 도시한 도면이다.
도 2는 본 발명에 따른 사전 정보 신호 압축부의 구성을 도시한 도면이다.
도 3은 본 발명에 따른 혼합 신호 분할부의 구성을 도시한 도면이다.
도 4는 본 발명에 따른 윈도우 적용부가 실행되지 않는 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
도 5는 본 발명에 따른 혼합 신호 분할부의 윈도우 적용부가 실행된 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.
도 6은 본 발명에 따른 음악 음원 분리 방법의 일례를 도시한 순서도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명에 따른 음악 음원 분리 시스템의 구성을 도시한 도면이다.

도 1을 참고하면, 음악 음원 분리 시스템은 사전 정보 신호 압축부(110), 혼합 신호 분할부(120), NMPCF 분석부(130), 대상 악기 신호 분리부(140), 시간영역 신호 변환부(150); 윈도우 적용부(160) 및 신호 결합부(170)로 구성된다.

사전 정보 신호 압축부(110)는 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하여 NMPCF 분석부(130)로 전송할 수 있다.

이때, 사전 정보 신호는 특정 음원의 다양한 특징을 모두 포함하므로 데이터의 양이 매우 클 수 있다. 따라서, 사전 정보 신호 압축부(110)는 사전 정보를 압축하여 축소함으로써 음원 분리에 사용되는 신호의 데이터 량을 감소 시킬 수 있다.

또한, 사전 정보 신호 압축부(110)는 특정 음원의 분리에 필요한 특징들이 압축 후에도 남아 있을 도록 사전 정보 신호를 압축할 수 있다.

사전 정보 신호 압축부(110)의 구성 및 상세 동작은 이하 도 2를 참조하여 상세히 설명한다.

혼합 신호 분할부(120)는 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하여 NMPCF 분석부(130)로 전송할 수 있다.

혼합 신호 분할부(120)의 구성 및 상세 동작은 이하 도 3을 참조하여 상세히 설명한다.

NMPCF 분석부(130)는 혼합 신호 분할부(120)에서 복수의 세그먼트로 분할된 혼합 신호와 사전 정보 신호 압축부(110)가 압축한 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득할 수 있다. 이때, 공유 정보는 복수의 엔티티(entity) 행렬들일 수 있다.

구체적으로 NMPCF 분석부(130)는 혼합 신호 중 하나의 세그먼트 또는 사전정보 신호 X_(i,j)X⁽¹⁾를 엔티티 행렬 U_(i)A^(l)와 U_(j)S^(l)또는 ADB와 SDB의 릴레이션쉽(relationship)으로 설정하여 엔티티 행렬 U_(i)A^(l)와 U_(j)S^(l)의 곱으로 표현할 수 있다.

이때, 단일 세그먼트를 분해한 엔티티 행렬 U_(i)A^(l)는 복수의 입력 행렬이 공통적으로 사용하는 요소 A_c와 각각의 입력 행렬에만 존재하는 요소 A_I ^(l)로 분리될 수 있다. 이때, 특정한 세그먼트 X_(i,j)X^(l)에 독자적으로 존재하는 요소가 없는 경우에 해당 U_(i)A^(l)= A_c 가 될 수 있다. 또한, 사전정보 신호 X⁽¹⁾를 분해한 엔티티 행렬 A⁽¹⁾이 분리 대상 음원만으로 이루어진 경우, 엔티티 행렬 A⁽¹⁾는 복수의 입력 행렬이 공통적으로 사용하는 요소 A_c로만 구성되므로 A⁽¹⁾= A_c일 수 있다.

그리고, NMPCF 분석부(130)는 하기된 수학식 1을 최적화 대상 함수로 사용하여 세그먼트 X_(i,j)X^(l)를 표현할 수 있다.

이때, L은 사전 정보 입력 행렬 X⁽¹⁾을 포함한 입력 행렬의 개수이고,

는 특정한 입력 행렬의 복원이 최적화 대상 함수에 영향을 미치는 정도이며,

는 정규화(regularization)의 정도를 조정하는 파라미터일 수 있다. 또한, A_c는 모든 세그먼트가 공통으로 공유하는 주파수 성분의 행렬이고, A_I ^(l)는 각 세그먼트 별로 다른 주파수 성분의 행렬이며, S_C ^(l)는 A_C에 대응하는 시간 측면의 정보 행렬이고, S_I ^(l)는 A_I ^(l)에 대응하는 시간 측면의 정보 행렬일 수 있다.

이 때 사전정보 신호 X⁽¹⁾를 분해한 엔티티 행렬 A⁽¹⁾이 분리 대상 음원만으로 이루어진 경우, A_I ⁽¹⁾와 S_I ⁽¹⁾는 각각 모두 공행렬일 수 있다.

또한, NMPCF 분석부(130)는 NMPCF 알고리즘에 따라 A_c, A_I ^(l), S_I ^(l)를 하기된 수학식 2에 적용하여 업데이트함으로써, 상기 수학식 1의 최적화 대상 함수를 최소화시키는 엔티티 행렬들 A_c, A_I ^(l), S_C ^(l), S_I ^(l)U_(i)를 획득할 수 있다.

이때,

는 값이 0과 1사이로 한정된 행렬의 요소단위 제곱이며 업데이트의 속도를 조절하는 파라미터일 수 있다.

즉, NMPCF 분석부(130)는 NMPCF 알고리즘에 따라 A_c, A_I ^(l), S_C ^(l), S_I ^(l)를 음이 아닌 실수로 초기화한 다음에 상기 수학식 2에 따라 일정 값으로 수렴될 때까지 업데이트할 수 있다.

이때, 상기 수학식 2의 멀티플리케이티브(multiplicative) 특성은 상기 엔티티 행렬에 포함된 원소들의 부호를 변화시키지 않을 수 있다.

NMPCF 분석부(130)는 상기 과정과 같이 NMPCF 알고리즘에 따라 세그먼트들 간에 공유하는 정보를 획득할 수 있다. 이때, 상기 공유 정보는 X⁽²⁾ … X^(L)의 혼합 신호 세그먼트들에 걸쳐서 나타나는 음원들 중 주파수 특성이 변하지 않으면서 반복적으로 나타나는 대상 음원의 정보에 해당할 수 있다. 또한, 사전정보 X⁽¹⁾과 비슷한 주파수 특성을 가지는 음원의 정보에 해당할 수 있다.

대상 악기 신호 분리부(140)는 NMPCF 분석부(130)가 획득한 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다. 이때, 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호는 시간-주파수 영역일 수 있다.

구체적으로 대상 악기 신호 분리부(140)는 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 혼합 신호에서 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다. 이때, 상기 대상 악기 신호는 사전정보 입력 신호와 주파수 특징이 비슷한 동시에 여러 세그먼트에 걸쳐서 반복적으로 나타나는 음원이 포함된 신호일 수 있다.

일례로, 대상 악기 신호 분리부(140)는 엔티티 행렬 A_C와 엔티티 행렬 S_C ^(l)간 내적을 계산하여 세그먼트 별로 분할된 혼합 신호에서 대상 악기 신호를 분리하고, 분리한 상기 대상 악기 신호를 시간-주파수 영역에서의 매그니튜드 표현의 근사 신호 A_CS_C ^(l)로 도출할 수 있다. 이 때, 대상 악기 신호 분리부(140)는 세그먼트의 인덱스인 l가 1인 근사 신호 A_CS_C ⁽¹⁾를 다시 복원할 필요가 없는 사전정보 입력 신호로 판단하여 매그니튜드 표현의 근사 신호 A_CS_C ^(l)에 포함하지 않을 수 있다.

시간영역 신호 변환부(150)는 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성할 수 있다.

일례로, 시간 영역 신호 변환부 (150)은 세그먼트별로 획득된 대상 음원의 분리 결과 추정 신호인 A_CS_C ^(l)을 세그먼트별로 다시 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호 y₂,…,y_L를 도출할 수 있다. 이 때 시간 영역 신호 변환부(150)은 혼합 신호 분할부(120)를 통해서 도출된 세그먼트별 위상 정보 Φ₂, Φ₃, …, Φ_L를 활용할 수 있다.

윈도우 적용부(160)는 시간영역 신호 변환부(150)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용할 수 있다. 이때, 윈도우 적용부(160)는 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용함으로써 세그먼트별로 상이한 오차 신호를 보정할 수 있다. 또한, 실시예에 따라 윈도우 적용부(160)는 동작하지 않을 수도 있다. 이 경우 시간영역 신호 변환부(150)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호는 신호 결합부(170)로 바로 전송될 수 있다.

신호 결합부(170)는 시간영역 신호 변환부(150)가 생성한 세그먼트별 시간 영역의 분리 추정 신호, 또는 윈도우 적용부(160)에서 중첩 윈도우가 적용된 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성할 수 있다.

구체적으로 신호 결합부(170)는 세그먼트별 시간 영역의 복원 신호를 연결하여 전체 길이의 분리 추정 신호 y를 생성할 수 있다. 이때, 신호 결합부(170)는 윈도우 적용부(160)의 적용 여부에 따라, 중첩을 통한 세그먼트 연결을 수행함으로써, 세그먼트 별 상이한 오차 신호를 보정할 수 있다.

도 2는 본 발명에 따른 사전 정보 신호 압축부의 구성을 도시한 도면이다.

본 발명에 따른 사전 정보 신호 압축부(110)는 도 2에 도시된 바와 같이 시간 영역 신호 압축부(210), 사전 정보 신호의 시간-주파수 영역 변환부(220), 및 시간-주파수 영역 신호 압축부(230)를 포함할 수 있다.

시간 영역 신호 압축부(210)는 시간 영역의 사전 정보 신호를 압축할 수 있다. 구체적으로 시간 영역 신호 압축부(210)은 분리 대상이 되는 특정 음원으로만 이루어진 시간 영역의 사전 정보 신호 x₁를 음원 분리를 위한 특징을 최대한 보존하면서 압축하여 압축된 시간 영역의 사전정보 신호 x₁'를 생성할 수 있다.

사전 정보 신호의 시간-주파수 영역 변환부(220)는 시간 영역 신호 압축부(210)에서 압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환할 수 있다. 구체적으로 사전정보 신호의 시간-주파수 영역 변환부(220)는 단구간 퓨리에 변환(Short Time Fourier Transform)과 같이 다양한 시간-주파수 영역 변환 방식을 사용하여 압축된 시간 영역의 사전정보 신호 x₁'를 시간-주파수 영역의 신호 X₁로 변환할 수 있다.

시간-주파수 영역 신호 압축부(230)는 사전 정보 신호의 시간-주파수 영역 변환부(220)에서 변환된 시간-주파수 영역의 사전 정보 신호를 압축하여 NMPCF 분석부(130에 제공할 수 있다. 구체적으로 시간-주파수 영역 신호 압축부(230)는 시간-주파수 영역의 신호 X₁를 음원 분리를 위한 특징을 최대한 보존하면서 압축하여 압축된 시간-주파수 영역 신호 X₁'를 생성할 수 있다.

이때, 시간 영역 신호 압축부(210)와 시간-주파수 영역 신호 압축부(230)는 실시예에 따라 사용되지 않을 수도 있다.

도 3은 본 발명에 따른 혼합 신호 분할부의 구성을 도시한 도면이다.

본 발명에 따른 혼합 신호 분할부(120)는 세그먼트 분할부(310), 윈도우 적용부(320), 및 혼합 신호의 시간-주파수 영역 변환부(330)를 포함할 수 있다.

세그먼트 분할부(310)는 혼합 신호를 복수의 세그먼트로 분할할 수 있다. 구체적으로 세그먼트 분할부(310)는 혼합 신호 x를 미리 정의된 길이의 복수의 세그먼트 x₂~ x_L로 분할할 수 있다. 이때, 세그먼트 분할부(310)는 윈도우 적용부(160)나 윈도우 적용부(320)의 사용 여부에 따라 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 혼합 신호를 분할할 수도 있다.

윈도우 적용부(320)는 세그먼트 분할부(310)가 복수의 세그먼트로 분할한 혼합 신호에 중첩 윈도우를 적용할 수 있다.

이때, 윈도우 적용부(320)과 윈도우 적용부(160)는 대상 악기 신호 분리부(140)에서 분리된 대상 악기 신호가 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 신호 결합부(170)에서 결합된 추정 신호의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지하기 위하여 중첩 윈도우를 적용하는 구성이다.

이때, 윈도우 적용부(320)과 윈도우 적용부(160)는 실시예 따라 하나의 구성만 실행될 수도 있다. 단, 윈도우 적용부(320)과 윈도우 적용부(160)는, 각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 중첩 윈도우의 형태를 선택해야 한다.

혼합 신호의 시간-주파수 영역 변환부(330)는 복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 NMPCF 분석부(130)에 제공할 수 있다.

구체적으로 혼합 신호의 시간-주파수 영역 변환부(330)는 세그먼트 분할과 윈도우 적용을 거친 혼합 신호를 시간-주파수 영역의 신호 X(2) 내지 X(L)으로 각기 변환할 수 있다. 이때, 혼합 신호의 시간-주파수 영역 변환부(330)는 다양한 시간-주파수 영역 변환 방식 중 하나를 사용하여 혼합 신호를 시간-주파수 영역의 신호로 변환할 수 있다. 또한, 혼합 신호의 시간-주파수 영역 변환부(330)는 혼합 신호의 세그먼트 x2 내지 xL로부터 위상 정보 Φ₂, Φ₃, … , Φ_L를 추출하여 시간 영역 신호 변환부(150)로 전송할 수 있다.

도 4는 본 발명에 따른 윈도우 적용부가 실행되지 않는 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.

또한, 도 4는 혼합 신호가 2개의 세그먼트(X⁽²⁾, X⁽³⁾)로 분할되는 경우의 일실시예이다.

이때, NMPCF 분석부(130)가 입력받은 첫 번째 세그먼트 X⁽¹⁾(410)은 사전 정보 신호 압축부(100)에서 입력 받은 사전 정보 신호의 시간-주파수 영역 절대값일 수 있다. 이때, 첫 번째 세그먼트 X⁽¹⁾(410)은 도 4에 도시된 바와 같이 공통 주파수 행렬 A_C(411)과, 상기 A_C(411)에 대응하는 시간 측면의 정보 행렬인 S_C ^(l)(412)의 행렬 내적으로 변환될 수 있다. 이때, 공통 주파수 행렬 A_C(411)는 첫 번째 세그먼트 X⁽¹⁾(410)와 두 번째 세그먼트 X⁽²⁾(420) 및 세 번째 세그먼트 X⁽³⁾(430)가 공통으로 공유하는 주파수 성분의 행렬이다.

또한, NMPCF 분석부(130)가 입력받은 두 번째 세그먼트 X⁽²⁾(420)와 세 번째 세그먼트 X⁽³⁾(430)는 혼합 신호가 분할된 세그먼트로서 공유 성분과 세그먼트별 비대상 음원 정보를 포함할 수 있다.

구체적으로 두 번째 세그먼트 X⁽²⁾(420)의 공유 성분은 공통 주파수 행렬 A_C(411)와 상기 A_C(411)에 대응하는 시간 측면의 정보 행렬인 S_C ⁽²⁾(423)의 행렬간 내적으로 변환될 수 있다. 또한, 두 번째 세그먼트 X⁽²⁾(420)에만 포함된 세그먼트별 비대상 음원 정보는 두 번째 세그먼트 X⁽²⁾(420)만의 고유 주파수 성분의 행렬인 A_I ⁽²⁾(421), 및 상기 A_I ⁽²⁾(421)에 대응하는 시간 측면의 정보 행렬인 S_I ⁽²⁾(424)의 행렬간 내적으로 변환될 수 있다.

그리고, 세 번째 세그먼트 X⁽³⁾(430)의 공유 성분은 공통 주파수 행렬인 A_C(411)와 상기 A_C(411)에 대응하는 시간 측면의 정보 행렬인 S_C ⁽³⁾(432)의 행렬간 내적으로 변환될 수 있다. 또한, 세 번째 세그먼트 X⁽³⁾(430)에만 포함된 세그먼트별 비대상 음원 정보는 세 번째 세그먼트 X⁽³⁾(430)만의 고유 주파수 성분의 행렬인 A_I ⁽³⁾(431)과, 상기 A_I ⁽³⁾(431)에 대응하는 시간 측면의 정보 행렬인 S_I ⁽³⁾(433)의 행렬간 내적으로 변환될 수 있다.

도 5는 본 발명에 따른 혼합 신호 분할부의 윈도우 적용부가 실행된 경우 NMPCF 분석부에 입력되는 세그먼트의 일례이다.

이때, 세그먼트 분할부(310)는 윈도우 적용부(320)를 통한 중첩을 고려하여 각 세그먼트의 앞부분 신호가 그 이전 세그먼트의 뒷부분 신호와 겹치도록 분할할 수 있다.

일례로, 세그먼트 분할부(310)는 l 번째 세그먼트를 x(t+1)에서 x(t+2T)까지의 시간 영역 샘플을 분할하여 생성하는 경우, l+1 번째 세그먼트는 x(t+T+1)에서 x(t+3T)까지의 시간 영역 샘플을 분할해서 생성함으로써, 510에 도시된 바와 같이 x(t+T+1)에서 x(t+2T)사이의 영역이 서로 중첩될 수 있도록 할 수 있다.

이때, 윈도우 적용부(320)가 시간 영역의 혼합 신호 입력(520)의 l번째 세그먼트에 적용하는 윈도우(530)는 여러 가지 형태가 될 수 있다. 단, l번째 윈도우의 뒷(오른쪽)부분과 l+1번째 윈도우(530)의 앞(왼쪽)부분의 합이 1이 되어야 한다.

그리고, 윈도우 적용부(160)이 추가적으로 실행될 경우, 윈도우 적용부(320)의 l번째 윈도우와 윈도우 적용부(160)의 l번째 윈도우의 각각의 샘플을 서로 곱하여 l번째 통합 윈도우를 생성할 수 있다. 이때, l번째 통합 윈도우의 뒷 부분과 l+1번째 통합 윈도우의 앞 부분의 합은 1이 되어야 한다.

도 6은 본 발명에 따른 음악 음원 분리 방법의 일례를 도시한 순서도이다.

단계(S610)에서 사전 정보 신호 압축부(110)는 특정 음원의 특징을 포함하는 사전 정보 신호를 압축하여 NMPCF 분석부(130)에 제공할 수 있다. 이때, 사전 정보 신호 압축부(110)는 특정 음원의 분리에 필요한 특징들이 압축 후에도 남아 있을 도록 사전 정보 신호를 압축할 수 있다.

단계(S620)에서 혼합 신호 분할부(120)는 복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할할 수 있다. 이때, 혼합 신호 분할부(120)는 대상 악기 신호 분리부(140)가 분리한 대상 악기 신호가 세그먼트별로 상이한 오차 신호를 포함할 경우 사용자가 세그먼트 간의 이질감을 느끼는 것을 방지하기 위하여 분할된 세그먼트들에 중첩 윈도우를 적용할 수 있다.

또한, 단계(S610)와 단계(S620)는 병렬으로 처리되므로 단계(S620)가 단계(S610)보다 먼저 수행되거나 동시에 수행될 수 있다.

단계(S630)에서 NMPCF 분석부(130)는 단계(S620)에서 복수의 세그먼트로 분할된 혼합 신호와 단계(S610)에서 압축된 사전 정보 신호에 NMPCF 알고리즘을 사용하여 세그먼트들 간에 공유하는 정보인 공유 정보를 획득할 수 있다.

단계(S640)에서 대상 악기 신호 분리부(140)는 단계(S630)에서 획득한 공유 정보를 기초로 혼합 신호에서 특정 음원에 대응하는 대상 악기 신호를 분리할 수 있다.

단계(S650)에서 시간영역 신호 변환부(150)는 단계(S640)에서 분리된 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성할 수 있다.

단계(S660)에서 윈도우 적용부(160)는 단계(S650)에서 생성된 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용할 수 있다. 이때, 윈도우 적용부(160)는 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용함으로써 세그먼트별로 상이한 오차 신호를 보정할 수 있다.

단계(S670)에서 신호 결합부(170)는 단계(S660)에서 중첩 윈도우가 적용된 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성할 수 있다.

본 발명은 특정 음원만으로 구성된 음원 정보가 있는 경우에 음원 정보를 직접적으로 이용하는 동시에, 시간 측면에서 반복되는 음원의 특성을 이용하여 혼합 신호를 대상 음원과 나머지 음원들로 재구성함으로써, 혼합 신호에 포함되어 있는 음원을 보다 효율적으로 분리할 수 있다. 또한, 음원 분리 과정에 중첩 윈도우를 적용함으로써, 분리된 대상 음원이 세그먼트별로 상이한 오차 신호를 포함할 경우, 사용자가 대상 음원의 재생 중에 세그먼트 간의 이질감을 느끼는 것을 방지 할 수도 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

110: 사전 정보 신호 압축부
120: 혼합 신호 분할부
130: NMPCF 분석부
160: 윈도우 적용부

Claims

특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 사전 정보 신호 압축부;
복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 혼합 신호 분할부;
복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 NMPCF 분석부; 및
상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 대상 악기 신호 분리부
를 포함하는 음악 음원 분리 장치.
제1항에 있어서,
상기 사전 정보 신호 압축부는,
시간 영역의 사전 정보 신호를 압축하는 시간 영역 신호 압축부;
압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환하는 사전 정보 신호의 시간-주파수 영역 변환부; 및
시간-주파수 영역의 사전 정보 신호를 압축하여 상기 NMPCF 분석부에 제공하는 시간-주파수 영역 신호 압축부
를 포함하는 음악 음원 분리 장치.
제1항에 있어서,
상기 혼합 신호 분할부는,
상기 혼합 신호를 복수의 세그먼트로 분할하는 세그먼트 분할부; 및
복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 상기 NMPCF 분석부에 제공하는 혼합 신호의 시간-주파수 영역 변환부
를 포함하는 음악 음원 분리 장치.
제3항에 있어서,
상기 혼합 신호 분할부는,
복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 윈도우 적용부를 더 포함하는 음악 음원 분리 장치.
제4항에 있어서,
상기 세그먼트 분할부는,
각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 상기 혼합 신호를 분할하는 것을 특징으로 하는 음악 음원 분리 장치.
제5항에 있어서,
상기 윈도우 적용부는,
각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택하는 것을 특징으로 하는 음악 음원 분리 장치.
제1항에 있어서,
시간-주파수 영역인 상기 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성하는 시간영역 신호 변환부; 및
상기 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성하는 신호 결합부
를 더 포함하는 음악 음원 분리 장치.
제7항에 있어서,
상기 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용하는 윈도우 적용부를 더 포함하는 음악 음원 분리 장치.
제1항에 있어서,
상기 대상 악기 신호 분리부는,
상기 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 상기 혼합 신호에서 상기 대상 악기 신호를 분리하는 것을 특징으로 하는 음악 음원 분리 장치.
특정 음원의 특징을 포함하는 사전 정보 신호를 압축하는 단계;
복수의 음원을 포함하는 혼합 신호를 복수의 세그먼트로 분할하는 단계;
복수의 세그먼트로 분할된 혼합 신호와 상기 사전 정보 신호에 NMPCF(Nonnegative Matrix Co-Factorization) 알고리즘을 사용하여 상기 세그먼트들 간에 공유하는 정보인 공유 정보를 획득하는 단계; 및
상기 공유 정보를 기초로 상기 혼합 신호에서 상기 특정 음원에 대응하는 대상 악기 신호를 분리하는 단계
를 포함하는 음악 음원 분리 방법.
제10항에 있어서,
상기 압축하는 단계는,
시간 영역의 사전 정보 신호를 압축하는 단계;
압축된 시간 영역의 사전 정보 신호를 시간-주파수 영역의 사전 정보 신호로 변환하는 단계; 및
시간-주파수 영역의 사전 정보 신호를 압축하여 상기 NMPCF 분석부에 제공하는 단계
를 포함하는 음악 음원 분리 방법.
제10항에 있어서,
상기 분할하는 단계는,
상기 혼합 신호를 복수의 세그먼트로 분할하는 단계; 및
복수의 세그먼트로 분할된 혼합 신호를 시간-주파수 영역의 신호로 변환하여 상기 NMPCF 분석부에 제공하는 단계
를 포함하는 음악 음원 분리 방법.
제12항에 있어서,
상기 분할하는 단계는,
복수의 세그먼트로 분할된 혼합 신호에 중첩 윈도우를 적용하는 단계를 더 포함하는 음악 음원 분리 방법.
제13항에 있어서,
상기 혼합 신호를 복수의 세그먼트로 분할하는 단계는,
각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되도록 상기 혼합 신호를 분할하는 것을 특징으로 하는 음악 음원 분리 방법.
제14항에 있어서,
상기 중첩 윈도우를 적용하는 단계는,
각각의 세그먼트가 다른 세그먼트의 영역과 일부 중첩되는 영역에 적용하는 윈도우의 합이 1이 되도록 상기 중첩 윈도우의 형태를 선택하는 것을 특징으로 하는 음악 음원 분리 방법.
제10항에 있어서,
시간-주파수 영역인 상기 대상 악기 신호를 시간 영역으로 변환하여 세그먼트별 시간 영역의 분리 추정 신호를 생성하는 단계; 및
상기 세그먼트별 시간 영역의 분리 추정 신호를 결합하여 분리 추정 신호를 생성하는 단계
를 더 포함하는 음악 음원 분리 방법.
제16항에 있어서,
상기 세그먼트별 시간 영역의 분리 추정 신호에 중첩 윈도우를 적용하는 단계를 더 포함하는 음악 음원 분리 방법.
제10항에 있어서,
상기 대상 악기 신호를 분리하는 단계는,
상기 공유 정보에 해당하는 엔티티 행렬간 내적을 계산하여 상기 혼합 신호에서 상기 대상 악기 신호를 분리하는 것을 특징으로 하는 음악 음원 분리 방법.