KR101375432B1

KR101375432B1 - 통합 음원 분리 방법 및 장치

Info

Publication number: KR101375432B1
Application number: KR1020100058463A
Authority: KR
Inventors: 김민제; 장인선; 백승권; 이태진; 강경옥
Original assignee: 한국전자통신연구원
Priority date: 2010-06-21
Filing date: 2010-06-21
Publication date: 2014-03-17
Also published as: US20110311060A1; KR20110138530A

Abstract

본 발명은 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템이 개시된다. 통합 음원 분리 시스템은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 제1 음원 분리부; 및 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부를 포함한다.

Description

통합 음원 분리 방법 및 장치{METHOD AND SYSTEM FOR UNIFIED SOURCE SEPARATION }

본 발명은 음원 분리 시스템에 관한 것으로써, 보다 상세하게는 혼합 음악 신호에서 주요한 음원들을 분리 및 추출하는 통합적인 방법 및 시스템에 관한 것이다.

기술의 발달로 다양한 음원이 함께 녹음된 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다.

그러나, 종래의 음원 분리 기술은 신호가 혼합되는 환경의 모델에 기반하여 음원의 통계적 특성을 활용하여 음원을 분리하므로, 분리하고자 하는 음원 개수만큼의 혼합 신호를 요구하였다.

또한, 고유한 시간이나 주파수의 특징이 없는 음원은 해당 음원의 위치 정보를 사용하여 분리하였다. 그러나, 혼합 신호에서 각각의 음원은 다른 음원에 영향을 받으므로 다른 음원과의 거리에 따라 분리한 음원에도 다른 음원의 정보가 혼재될 수 있는 실정이었다.

따라서, 2개 이하의 혼합 신호만을 획득할 수 있는 반면, 음원의 개수는 그보다 많기 쉬운 상용 음악 신호에서는 특정 음원을 분리할 수 있으며, 위치 정보를 사용하여 음원을 분리하는 경우에도 다른 음원의 정보가 혼재되지 않도록 하는 방법이 필요한 실정이다.

본 발명의 일실시예는 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있는 방법 및 시스템을 제공한다.

본 발명의 일실시예에 따른 통합 음원 분리 시스템은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 제1 음원 분리부; 및 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부를 포함한다.

본 발명의 일실시예에 따른 통합 음원 분리 방법은 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리하는 단계; 및 상기 제1 음원이 분리된 혼합 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 단계를 포함한다.

본 발명의 일실시예에 따르면, 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있는 효과가 있다.

또한, 본 발명의 일실시예에 따르면, 스테레오 채널 정보를 활용해서 음원을 분리하는 방식과 시간/주파수 영역의 특징을 이용해서 음원을 분리하는 방식을 결합하여 상기 방식들을 상호 보완할 수 있는 효과도 있다.

그리고, 본 발명의 일실시예에 따르면, 스테레오 채널 정보를 활용하여 음원을 분리하는 경우에 예측 범위 밖에 있는 음원 성분을 2차적으로 분리함으로써 음원의 음상 범위 예측 오류에 따른 문제점을 해소할 수 있는 효과도 있다.

도 1은 본 발명에 따른 통합 음원 분리 시스템의 구성을 도시한 도면이다.
도 2는 채널 정보를 사용한 음원 분리 방법에서 음상 분포를 실제보다 좁게 예측한 경우의 일례이다.
도 3은 채널 정보를 사용한 음원 분리 방법에서 음상 분포를 실제보다 넓게 예측한 경우의 일례이다.
도 4는 채널 정보를 사용한 음원 분리 방법에서 한 음원의 음상 분포가 다른 음원의 음상 분포와 혼재된 경우의 일례이다.
도 5는 본 발명에 따른 제2 음원 분리부와 후처리부의 구성을 도시한 도면이다.
도 6는 본 발명에 따른 후처리부의 다른 실시예를 도시한 도면이다.
도 7은 본 발명에 따른 후처리부가 오버랩(overlap) 구조를 형성하여 후처리 정보를 추출하는 과정을 도시한 도면이다.
도 8은 본 발명에 따른 후처리부가 동일 시간의 프레임 이외에 동일 시간 프레임의 전후 프레임을 사용하여 후처리 정보를 추출하는 과정을 도시한 도면이다.
도 9는 본 발명에 따른 통합 음원 분리 시스템의 다른 일례를 도시한 도면이다.
도 10은 본 발명에 따른 통합 음원 분리 방법의 일례를 도시한 순서도이다.
도 11은 본 발명에 따른 통합 음원 분리 방법의 다른 일례를 도시한 순서도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명에 따른 통합 음원 분리 시스템의 구성을 도시한 도면이다.

본 발명은 독립적으로 연주되고 있는 데이터베이스를 확보된 특정 음원과 스테레오 공간 상에서 특정 위치에 있는 음원이 복합된 혼합 음악 신호에서 상기 특정 음원과 특정 위치에 있는 음원을 각각 분리할 수 있다.

도 1을 참고하면, 통합 음원 분리 시스템은 제1 음원 분리부(110), 제2 음원 분리부(120), 후처리부(130) 및 결합부(140)로 구성된다. 이때, 도 1은 3개의 음원이 혼합된 혼합 음악 신호를 사용하는 경우의 일례이다.

제1 음원 분리부(110)은 혼합 음악 신호에서 시간/주파수 정보를 사용하여 음원을 분리한다. 이때, 혼합 음악 신호는 좌 채널 혼합 음악 신호와 우 채널 혼합 음악 신호로 구성될 수 있다.

구체적으로 제1 음원 분리부(110)는 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리할 수 있다.

일례로, 제1 음원이 드럼과 같은 타악기의 경우에, 다른 드럼 세트를 통해 연주된 다양한 드럼 음원으로부터 획득한 타악기 음원의 공통적인 시간/주파수 영역 정보를 사용하여 혼합 음악 신호로부터 제1 음원을 분리할 수 있다.

또한, 제1 음원 분리부(110)는 타악기와 같은 특정 악기 음원만을 대상으로 하지는 않으며, 음원의 시간 영역에서의 특징 또는 주파수 영역에서의 특징을 활용하여 분리 가능한 모든 음원을 분리할 수 있다.

그리고, 제1 음원 분리부(110)는 도 1에 도시된 바와 같이 제1 음원을 분리하여 좌 채널의 복원 신호1과 우 채널의 복원 신호1을 생성할 수 있다.

이때, 제1 음원 분리부(110)는 도 1에 도시된 바와 같이 혼합 음악 신호에서 제1 음원을 제외한 좌 채널과 우 채널의 나머지 신호를 제2 음원 분리부(120)로 전송할 수 있다. 구체적으로, 제1 음원 분리부(110)는 제2 음원의 복원 신호2와 제3음원의 복원 신호3가 결합된 좌 채널 신호와 제2 음원의 복원 신호2와 제3음원의 복원 신호3가 결합된 우 채널신호를 제2 음원 분리부(120)로 전송할 수 있다.

제2 음원 분리부(120)는 제1 음원 분리부(110)에서 제1 음원이 분리되고 남은 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다. 이때, 제2 음원 분리부(120)는 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리할 수도 있다.

구체적으로, 제2 음원 분리부(120)는 분리하고자 하는 제2 음원의 음상 분포를 예측하고, 예측한 범위에 포함된 음원 성분을 제2 음원으로 분리할 수 있다.

이때, 제2 음원 분리부(120)는 제2 음원으로 분리한 복원 신호 2와 나머지 음원 정보인 복원 신호 3을 후처리부(130)로 전송할 수 있다. 이때, 제2 음원 분리부(120)는 복원 신호 2와 복원 신호 3을 좌 채널과 우 채널로 각각 구분하여 전송할 수 있다.

후처리부(130)는 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 이때, 나머지 음원 정보는 혼합 음악 신호, 또는 제1 음원이 분리되고 남은 음악 신호에서 제2 음원을 제외한 정보일 수 있다.

또한, 후처리부(130)는 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 제외하고 남은 정보를 제3 음원으로 판단하여 좌 채널과 우 채널의 복원 신호 3을 생성할 수 있다.

혼합 음악 신호가 도 2에 도시된 바와 같은 위치에 있는 메인 보컬 음원(210), 피아노 음원(220) 및 기타 음원(230)로 구성된 경우에 각각의 음원은 공간감을 위한 각종 사운드 효과가 더해져서, 음원의 성분이 지정된 위치를 중심으로 각도가 넓어질수록 약해지는 성분의 분포를 가지게 된다.

일례로 제2 음원 분리부(120)는 메인 보컬 음원(210)을 0°위치 정보를 기준으로 분리하는 경우에, 메인 보컬 음원의 음상 분포를 실제 음상 범위인 좌우 약 15°(211)보다 좁은 범위인 좌우 약 9°(212)로 예측할 수도 있다.

이때, 메인 보컬 음원의 성분 중 +9 ~ +15° 에 있는 음원의 성분(213)과, -9 ~ -15°에 있는 음원의 성분(214)은 분리되지 않고 남게 되므로, 분리 성능이 낮아 질 수 있다.

다른 일례로, 제2 음원 분리부(120)가 도 3에 도시된 바와 같이 메인 보컬 음원의 예측 음상 범위를 실제 음상 범위(211)보다 더 넓은, 좌우 약 18°(311)로 예측할 수도 있다.

이때, +15 ~ +17°의 영역(312)과 -15 ~ -17° 사이의 영역(313)에는 메인 보컬 음원(210)의 성분이 없으므로 다른 음원의 성분(313)이 메인 보컬 음원(210)에 포함되어 분리될 수도 있다.

또한, 메인 보컬 음원(210)과 피아노 음원(220)처럼, 가까운 거리에 음원이 있는 경우에는 스테레오 음상 내에서 특정 부분에 각 음원의 성분들이 혼재될 수도 있다. 일례로, -20°를 중심으로 -7 ~ -34°까지 넓게 분포하고 있는 피아노 음원(220)의 성분은, -7 ~ -15°구간에서 메인 보컬 음원(210)의 성분과 혼재될 수 있다.

이 경우에, 제2 음원 분리부(120)가 도 4에 도시된 바와 같이 메인 보컬 음원(210)의 예측 음상 범위를 실제 음상 범위(211)와 동일한 좌우 약 15°(411)로 예측하여 메인 보컬 음원(210)을 분리하더라도, 분리된 메인 보컬 음원(210)에는 -7 ~ -15°구간(412)에 포함된 피아노 음원(220)의 성분이 포함될 수 있다.

이때, 본 발명에 따른 제2 음원 분리부(120)와 후처리부(130)는 도 2와 같은 경우를 방지함으로써 도 3과 도 4와 같은 경우로 인한 분리 성능 저하를 방지할 수 있다. 구체적으로 제2 음원 분리부(120)는 도 2와 같이 예측 음상 범위를 좁게 예측하여 제2 음원을 분리하고, 후처리부(130)가 음원의 성분(213)과, 음원의 성분(214)를 나머지 음원 정보에서 추가적으로 분리함으로써 제2 음원에 다른 음원 정보가 포함되는 것을 방지할 수 있다.

제2 음원 분리부(120)와 후처리부(130)의 상세 구성과 동작은 이하 도 5를 사용하여 상세히 설명한다.

결합부(130)는 제2 음원 분리부(120)에서 분리된 제 2음원에 후처리부(130)에서 추출한 잔여 성분을 결합하여 제2 음원의 음질을 개선할 수 있다.

이때, 제2 음원 분리부(120)에서 분리된 제 2음원은 후처리가 되기 전의 복원 신호2이고, 후처리부(130)에서 추출한 잔여 성분은 복원 신호2의 후처리 정보일 수 있다. 구체적으로, 결합부(130)는 후처리 전의 복원 신호2에 후처리 정보를 결합하여 음질이 향상된 복원신호 2를 생성할 수 있다.

도 5는 본 발명에 따른 제2 음원 분리부와 후처리부의 구성을 도시한 도면이다.

본 발명에 따른 제2 음원 분리부(120)는 도 4에 도시된 바와 같이 분포 영역 예측부(511)와 음원 분리부(512)를 포함할 수 있다.

이때, 분포 영역 예측부(511)는 도 2에 도시된 바와 같이 분리할 목표 음원인 제2 음원의 음상 분포를 다른 음원 성분이 포함될 가능성을 최소화하는 범위로 예측할 수 있다.

또한, 음원 분리부(512)는 분포 영역 예측부(511)에서 예측한 음상 분포에 따라 혼합 음악 신호, 또는 제1 음원이 분리되고 남은 음악 신호에서 제2 음원을 분리하여 복원 신호를 생성할 수 있다. 이때, 생성되는 복원 신호는 제2 음원의 모든 성분을 포함하지 않은 불완전한 복원 신호이지만 혼합 음악 신호보다는 제2 음원의 성분을 더 많이 포함하고 있을 수 있다.

또한, 음원 분리부(512)는 제2 음원 분리부(120)가 수신한 신호에서 복원 신호를 분리하고 남은 정보인 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 각각 좌 채널 잔여 성분 추출부(522)와 우 채널 잔여 성분 추출부(523)로 전송할 수 있다. 이때, 나머지 음원 정보는 제2 음원의 잔여 성분과, 제2 음원과는 다른 음원의 성분을 포함할 수 있다.

본 발명에 따른 후 처리부(130)는 부가 정보 추출부(521)과 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)를 포함할 수 있다.

부가 정보 추출부(521)는 음원 분리부(512)에서 생성된 복원 신호에서 잔여 성분 추출에 필요한 부가 정보를 추출할 수 있다.

이때, 부가 정보는 배음 정보 또는 주파수 패턴 정보일 수 있다.

일례로, 부가 정보 추출부(521)는 복원 신호에서 일정 시간 간격 또는 프레임 마다 음정(pitch) 정보를 추출하고, 음정 정보를 기초로 제2 음원의 배음(harmonics) 정보를 추정하며, 추정한 배음 정보를 부가 정보로 추출할 수 있다.

좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 부가 정보 추출부(521)가 추출한 부가 정보를 사용하여 나머지 음원 정보로부터 제2 음원의 잔여 성분을 추출할 수 있다. 이때, 추출된 잔여 성분은 결합부(140)에서 복원 신호와 결합하여 제2 음원이 될 수 있다.

이 때 추출된 잔여 성분은, 부가 정보 추출부(521)에서 추정한 제2 음원의 배음 정보가 잔여 성분에도 동일하게 적용될 수 있다는 가정을 기반으로, 잔여 성분이 실제로 존재하는 특정 프레임의 주파수 위치를 추정할 수 있다. 추정된 주파수 위치에 존재할 수 있는 잔여 성분은 마스킹(masking) 기법 또는 추가적인 검출 과정을 통해 선별적으로 추출되어 제2 음원의 잔여 성분을 복원할 수 있다.

도 6는 본 발명에 따른 후처리부의 다른 실시예를 도시한 도면이다.

도 6은 음정 정보를 사용하여 제2 음원을 분리하는 후처리부(130)의 구성이다.

이때, 후처리부(130)는 음정/배음 추정부(610), 마스크 생성부(620), 시간 주파수 영역 변환부(630), 잔여 음원 추출부(640), 결합부(650) 및 시간 주파수 영역 역변환부(660)를 포함할 수 있다.

음정/배음 추정부(610)는 먼저 복원 신호에서 음정(pitch) 정보를 추출하고, 추출한 음정 정보를 기초로 일정 시간 간격 또는 프레임 마다 제2 음원의 배음(harmonics) 정보를 추정할 수 있다.

마스크 생성부(620)는 음정/배음 추정부(610)에서 배음 정보를 추정한 위치에 마스크를 생성할 수 있다. 구체적으로 마스크 생성부(620)는 음정/배음 추정부(610)에서 배음 정보를 추정한 프레임 또는 시간에 마스크를 생성할 수 있다.

시간 주파수 영역 변환부(630)는 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 수신하여 시간- 주파수 영역으로 변환할 수 있다. 이때, 시간 주파수 영역 변환부(630)는 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)와 같은 정보를 수신할 수 있다.

또한, 시간 주파수 영역 변환부(630)는 시간- 주파수 영역으로 변환한 나머지 음원 정보의 좌 채널 신호와 우 채널 신호를 결합부(140)과 잔여 음원 추출부(640)로 전송할 수 있다.

잔여 음원 추출부(640)는 마스크 생성부(620)에서 생성된 마스크의 위치를 기초로 시간- 주파수 영역으로 변환한 나머지 음원 정보의 좌 채널 신호와 우 채널 신호에서 잔여 음원 성분을 추출할 수 있다.

구체적으로 마스크가 생성된 프레임이나 시간에서의 음원 성분을 잔여 음원 성분으로 추출할 수 있다.

이때, 결합부(650)는 잔여 음원 추출부(640)에서 추출된 잔여 음원 성분을 나머지 음원 정보의 좌 채널 신호와 우 채널 신호와 결합할 수 있다.

또한, 시간 주파수 영역 역변환부(660)는 결합부(140)에서 결합된 신호를 시간- 주파수 영역에서 역변환함으로써 제2 음원의 잔여 성분을 추출할 수 있다.

좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)가 각각 나머지 음원 정보의 좌 채널 신호와 우 채널 신호에 STFT(Short Time Fourier Transform)를 수행하여 생성한 프레임 x는 하기된 수학식 1로 표현될 수 있다.

이때, a _C는 나머지 신호의 한 프레임 x 내에 포함된 목표 음원의 주파수 성분을 나타내는 벡터이고, a _I는 x내에 포함된 나머지 음원 정보의 주파수 성분을 나타내는 벡터일 수 있다.

또한, a_C의 해당 scalar 가중치 값인 s_C 과 a_I의 해당 scalar 가중치 값인 s_I는 비음성 행렬의 부분적 공동 분해(NMPCF: Nonnegative Matrix Partial Co-Factorization)학습 규칙을 통해 계산할 수 있다.

구체적으로. 시간-주파수 영역에서의 복원 신호와 나머지 음원 정보의 주파수 성분이 각각

,

인 경우에 상기 주파수 성분들은 하기 수학식 2와 같이 엔티티(entity) 행렬의 릴레이션쉽(relationship)으로 표현될 수 있다.

이때, 엔티티 행렬인

는 모두 음이 아닌 실수로 이루어진 행렬이며, 이 중 행렬 U는 2개의 릴레이션쉽인

_,

에 모두 포함되기 때문에 공유되어서 표현될 수 있다.

또한, 복원 신호인

은 엔티티 행렬 U와 Z의 릴레이션쉽으로 이루어질 수 있다. 그리고, U의 열 벡터는 임의의 주파수 영역 특성이고, Z의 해당 열 벡터는 주파수 영역 특성이 시간 영역에서 표현되는 위치 및 강도일 수 있다.

그리고, 나머지 음원 정보인

에 포함되어 있는 엔티티 행렬의 곱인

은

에서 사용되었던 것과 동일한 주파수 영역의 특성 행렬 U를 공유함으로써, 분리 대상이 되는 음원의 주파수 영역 특성이

에 어떤 식으로 포함되어 있는지를 표현할 수 있다.

이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 NMPCF 방식에 따라 복원 신호와 상관없는 엔티티 행렬 W와 Y를 정의함으로써, 분리 대상이 되는 음원이 아닌 나머지 음원들이 혼합 음악 신호를 구성하는 상황 역시 동시에 모델링 할 수 있다.

이때, 나머지 신호

는 분리 대상 신호를 표현하는 엔티티 행렬의 릴레이션쉽과 나머지 악기들을 표현하는 엔티티 행렬의 릴레이션쉽의 합으로 구성될 수 있다.

따라서, 이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)에서 사용되는 최적화 대상 함수는 수학식 3과 같을 수 있다.

이때, 가중치 파라미터

는 두 번째 항과 첫 번째 항 사이의 가중치를 나타낼 수 있다.

다른 일례로, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 나머지 음원 정보를 주파수 영역으로 변환하여 주파수 벡터를 생성하고, 주파수 벡터를 도 7에 도시된 바와 같이 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성할 수 있다.

이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분(720)을 추출할 수 있다.

이때, 서브 밴드에 입력되는 신호는 하기 수학식 4를 만족할 수 있다.

이때, 특정 서브 밴드에 입력되는 신호인 x'(n)(710)은, 주파수 부분 벡터x(n)에 대하여 윈도우 연산이 수행된 이후의 부분 벡터일 수 있다. 이때, 주파수 부분 벡터 x(n)는 해당 프레임의 주파수 벡터를 기 설정된 개수인 N 만큼의 서브밴드로 중첩해서 나눈 경우의 n번째 서브밴드일 수 있다. 또한, 윈도우 연산은 overlap-and-add 수행 후에 그 에너지 및 오차가 상쇄될 수 있는 연상일 수 있다. 일례로, 윈도우 연산은 sin 제곱 함수일 수 있다. 이때, a_I(N) s_I(N)(730)는 제2 음원이 아닌 다른 음원의 성분일 수 있다.

일례로, 1024 개의 주파수 샘플 값으로 변환된 하나의 프레임 x에 대해, 128 샘플 길이의 서브밴드 분할을 수행하는 경우, 50%의 overlap을 가정하면, 하나의 서브밴드 범위는 128 샘플이 되며, 각 서브밴드 간 간격은 64샘플이 된다.

따라서 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 도합 N=15개의 서브밴드 별 연산을 수행하게 된다.

이때, 서브밴드 n의 주파수 벡터 x(n)은 256 샘플 길이의 윈도우 연산을 통해 x'(n)을 도출할 수 있다.

또한, 윈도우 연산은, n-1 번째 윈도우의 오른쪽 중첩 부분과, n 번째 윈도우의 왼쪽 중첩 부분이 더해지는 경우(711)에 1의 값을 가지도록 함으로써, 윈도우 중첩으로 인한 에너지 변화가 없도록 하는 윈도우를 사용할 수 있다.

이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 중첩되지 않는 부분을 가지는 x(1)의 왼쪽 윈도우(712)와 x(N)의 오른쪽 윈도우(713)가 모두 1의 값을 가지도록 함으로써 해당 부분의 윈도우 효과를 없앨 수 있다.

본 발명에 따른 후처리부(130)는 나머지 음원 정보에 포함된 제2 음원의 잔여 성분을 2차적으로 분리하는 과정에 서브밴드 구조를 사용하여 비교 범위를 전 대역에서 일부 대역으로 감소시킴으로써 제2 음원의 잔여 성분의 유사성을 높일 수 있다. 이때, 본 발명에 따른 후처리부(130)는 잔여 성분의 유사성을 높임으로써 용이하게 목표 음원을 분리 할 수 있다.

또한, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 스테레오 채널 정보를 이용한 음원 분리 신호를 a_C(n)으로 활용함에 있어서, 입력 프레임 x와 동일한 시간 시점의 프레임만을 사용하지 않고, 전후로 복수 개의 프레임을 추가적으로 활용함으로써, 유사성을 높일 수도 있다.

구체적으로, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 복원 신호의 주파수 패턴 정보 중에 나머지 음원 정보와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분을 추출할 수 있다.

이때, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)에 입력되는 신호 x(n)(810)은 하기 수학식 5를 만족할 수 있다.

이때, A_C(n) s_C(n)(820)는 제2 음원의 잔여 성분이고, a_I(n) s_I(n)(830)는 제2 음원이 아닌 다른 음원의 성분일 수 있다.

또한, A_C(n)는 도 8에 도시된 바와 같이 동일 시점의 단일 프레임 정보 a_C(n)(822)와 추가적인 주파수 벡터(821, 823)들을 포함한 행렬일 수 있다. 이때, 주파수 벡터(821)는 이전 프레임의 주파수 벡터이고, 주파수 벡터(823)은 다음 프레임의 주파수 벡터일 수 있다.

이때, 가중치 값 s_C(n) 는, 복수 개의 부가 정보 주파수 벡터에 대응하기 위해 그 개수만큼의 요소를 가지는 벡터로 전환된다. 일례로, 도 7에 도시된 바와 같이 3 개의 프레임으로부터 주파수 벡터를 활용하는 경우, s_C(n) 는 3X1 벡터가 될 수 있다.

그리고, 좌 채널 잔여 성분 추출부(522) 및 우 채널 잔여 성분 추출부(523)는 각각 나머지 신호의 좌 채널 신호와 우 채널 신호의 기 설정된 길이의 프레임에 STFT를 사용하여 주파수 벡터 x(n)를 형성할 수 있다. 이때, n은 특정 서브밴드의 인덱스이고, 서브밴드 개수에 따라 1에서 N까지의 값을 가질 수 있다.

이때, 수학식 5에서 인덱스 n 값을 생략하면, x는 하기 수학식 6과 같이 제2 음원의 인접 프레임의 주파수 성분과 나머지 음원의 주파수 성분의 가중치 합으로 표현할 수 있다.

이때, 상기 수학식 6의 모델에 따른 최적화 대상함수는 하기 수학식 7과 같이 구성될 수 있다.

이때, 상기 수학식 7에 대한 업데이트 규칙은 NMPCF의 업데이트 규칙인 수학식 8을 사용할 수 있다.

이때, 수학식 7에서 사용하는 변수의 이름이 수학식 8과는 다르므로

,

로 변환할 수 있다.

또한, 수학식 7은 U의 초기값을 고정시키고, 사전 정보

에 대한 오차 항이 필요 없으므로 수학식 8의 업데이트 규칙 중에서, U와

에 해당하는 업데이트는 수행하지 않을 수 있다.

따라서, 수학식 7에 대한 업데이트 규칙은 하기 수학식 9과 같이 정리될 수 있다.

이때, 음이 아닌 임의의 실수로 초기화된 각각의 entity 행렬 W,Y,Z는 더 이상의 유의미한 변화가 없을 때까지 상기 수학식 9를 통해 업데이트될 수 있다. 또한, 스테레오 채널 정보를 이용한 음원 분리 결과물을 통해 초기화된 행렬 U는 업데이트되지 않을 수 있다.

본 발명에 따른 후처리부(130)는 동일 시점 프레임을 기준으로 전후에 위치한 복수 개의 프레임을 추가적으로 활용하여 잔여 성분을 추출함으로써, 반향 필터 등을 통해 목표 음원에 지연이 발생하는 효과가 발생한 경우, 목표 음원의 음상 위치 주변에 목표 음원 성분이 지연과 함께 흩어지는 경우에도 잔영 성분을 효과적으로 추출할 수 있다.

도 9는 본 발명에 따른 통합 음원 분리 시스템의 다른 일례를 도시한 도면이다.

도 9는 고유한 시간과 주파수 영역의 특징을 가지는 N개의 음원과 특정 스테레오 음상 위치에 존재하는 M개의 음원으로 구성된 혼합 음악 신호를 분리하기 위한 통합 음원 분리 시스템의 구성이다.

이때, 통합 음원 분리 시스템은 N개의 고유한 시간과 주파수 영역의 특징을 가지는 음원을 분리하기 위하여 각각의 음원의 고유 시간/주파수 정보를 사용하여 음원을 분리할 수 있는 음원 분리부들(910,920,930)를 포함할 수 있다. 이하에서 나머지 신호는 음원 분리부에서 입력 받은 신호에서 하나의 음원을 분리하고 남은 신호이다.

구체적으로 시간/주파수 정보를 사용하는 음원 분리부1(910)는 혼합 음악 신호에서 기 저장된 고유 시간/주파수 정보로 하나의 음원을 분리하여 복원 신호 1을 생성하고, 나머지 신호를 각각 좌 채널(911)과 우 채널(912)로 구분하여 시간/주파수 정보를 사용하는 음원 분리부2(920)로 전송할 수 있다.

다음으로 시간/주파수 정보를 사용하는 음원 분리부2(920)는 수신한 나머지 신호에서 기 저장된 고유 시간/주파수 정보로 하나의 음원을 분리하여 복원 신호 2를 생성하고, 나머지 신호를 각각 좌 채널(921)과 우 채널(922)로 구분하여 다른 시간/주파수 정보를 사용하는 음원 분리부로 전송할 수 있다.

통합 음원 분리 시스템은 상기 과정을 반복하여 복원 신호1 내지 복원 신호 N을 분리할 수 있으며, 시간/주파수 정보를 사용하는 음원 분리부 N(930)은 M개의 제2 음원으로 구성된 나머지 신호를 각각 좌 채널(931)과 우 채널(932)로 구분하여 스테레오 채널 정보를 이용하는 음원 분리부(940)로 전송할 수 있다.

이때, 통합 음원 분리 시스템의 제2 음원 분리부는 M개의 제2 음원을 분리하기 위하여 각각의 제2 음원의 스테레오 정보를 사용하여 제2 음원을 분리할 수 있는 음원 분리부들(940,870)를 포함할 수 있다.

스테레오 채널 정보를 이용하는 음원 분리부1(940)은 스테레오 정보를 기초로 하나의 음원을 분리하여 복원 신호 N+1(941)을 생성하고, 좌 채널의 나머지 신호(942) 및 우 채널의 나머지 신호(943)와 함께 후처리부1(950)에 전송할 수 있다.

이때, 후처리부1(950)은 복원 신호 N+1(941)의 정보를 기초로 좌 채널의 나머지 신호(942)에서 좌 채널의 잔여 신호(951)를 분리하고, 우 채널의 나머지 신호(943)에서 우 채널의 잔여 신호(952)를 분리하여 결합부(960)로 전송할 수 있다.

또한, 후처리부1(950)는 좌 채널의 잔여 신호(951)가 분리된 우 채널의 나머지 신호(953)와 우 채널의 잔여 신호(952)가 분리된 우 채널의 나머지 신호(954)를 다음 스테레오 채널 정보를 이용하는 음원 분리부2(970)로 전송할 수 있다.

이때, 결합부(960)는 복원 신호 N+1(941)와 좌 채널의 잔여 신호(951) 및 우 채널의 잔여 신호(952)를 결합하여 완전한 복원 신호 N+1를 생성할 수 있다.

다음으로 통합 음원 분리 시스템은 스테레오 채널 정보를 이용하는 음원 분리부2(970)와 후처리부2(980) 내지 스테레오 채널 정보를 이용하는 음원 분리부M과 후처리부M에서 상기 과정을 반복하여 복원 신호 N+2 내지 복원 신호 N+M을 분리할 수 있다.

도 10은 본 발명에 따른 통합 음원 분리 방법의 일례를 도시한 순서도이다.

도 10은는 3개의 음원을 포함하는 혼합 음악 신호를 본 발명에 따른 통합 음원 분리 방법에 따라 분리하는 과정의 순서도이다.

단계(S1010)에서 제1 음원 분리부(110)는 혼합 음악 신호에서 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리한다.

단계(S1020)에서 제2 음원 분리부(120)는 단계(S1010)에서 제1 음원이 분리되고 남은 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다.

단계(S1030)에서 후처리부(130)는 단계(S1020)에서 분리된 제2 음원을 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 나머지 음원 정보는 단계(S1020)에서 제2 음원이 분리되고 남은 신호일 수 있다.

단계(S1040)에서 결합부(140)는 단계(S1020)에서 분리된 제2 음원에 단계(S1030)에서 추출한 후처리 정보를 결합하여 완전한 제2 음원을 복원한다. 이때, 단계(S1020)에서 분리된 제2 음원은 후처리 전 정보일 수 있다.

도 11은 본 발명에 따른 통합 음원 분리 방법의 다른 일례를 도시한 순서도이다.

도 11은 고유한 시간과 주파수 영역의 특징을 가지는 복수의 음원과 특정 스테레오 음상 위치에 존재하는 복수의 음원으로 구성된 혼합 음악 신호를 본 발명에 따른 통합 음원 분리 방법에 따라 분리하는 과정의 순서도이다.

단계(S1110)에서 제1 음원 분리부(110)는 혼합 음악 신호에서 시간과 주파수 영역의 특징을 사용하여 고유한 시간과 주파수 영역의 특징을 가지는 제1 음원을 분리한다.

단계(S1120)에서 제1 음원 분리부(110)는 혼합 음악 신호 중에 시간과 주파수 영역의 특징을 사용하여 분리 가능한 음원이 더 있는지 여부를 확인한다.

이때, 혼합 음악 신호에 포함된 시간과 주파수 영역의 특징을 사용하여 분리 가능한 음원의 수가 기 설정되어 있고, 상기 음원의 수에 대응하는 숫자의 시간/주파수 정보를 사용하는 음원 분리부가 제1 음원 분리부(110)에 포함된 경우에 제1 음원 분리부(110)는 혼합 음악 신호가 통과하지 않은 시간/주파수 정보를 사용하는 음원 분리부가 있는지 여부를 확인할 수도 있다.

단계(S1130)에서 제2 음원 분리부(120)는 단계(S1110)에서 제1 음원이 분리되고 남은 혼합 음악 신호에서 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리한다.

단계(S1140)에서 후처리부(130)는 단계(S1130)에서 분리된 제2 음원을 사용하여 나머지 음원 정보에서 제2 음원의 잔여 성분 정보를 후처리 정보로 추출한다. 나머지 음원 정보는 단계(S1130)에서 제2 음원이 분리되고 남은 신호일 수 있다.

단계(S1150)에서 결합부(140)는 단계(S1130)에서 분리된 제2 음원에 단계(S1140)에서 추출한 후처리 정보를 결합하여 완전한 제2 음원을 복원한다. 이때, 단계(S1130)에서 분리된 제2 음원은 후처리 전 정보일 수 있다.

단계(S1160)에서 제2 음원 분리부(110)는 혼합 음악 신호에서 모든 음원이 분리되었는지 여부를 확인한다.

이때, 혼합 음악 신호에 포함된 스테레오 채널 정보를 사용하여 분리 가능한 음원의 수가 기 설정되어 있고, 상기 음원의 수에 대응하는 숫자의 스테레오 채널 정보를 이용하는 음원 분리부, 후처리부가 각각 제2 음원 분리부(120)와 후처리부(130)에 포함된 경우에 제2 음원 분리부(120)는 혼합 음악 신호가 통과하지 않은 스테레오 채널 정보를 이용하는 음원 분리부가 있는지 여부를 확인할 수도 있다.

본 발명은 각기 다른 방법을 사용하여 혼합 음악 신호로부터 음원을 분리함으로써 혼합 음악 신호에 포함되어 있는 다양한 음원을 보다 효율적으로 분리할 수 있다.

또한, 스테레오 채널 정보를 활용해서 음원을 분리하는 방식과 시간/주파수 영역의 특징을 이용해서 음원을 분리하는 방식을 결합하여 상기 방식들을 상호 보완할 수 있다.

그리고, 스테레오 채널 정보를 활용하여 음원을 분리하는 경우에 예측 범위 밖에 있는 음원 성분을 2차적으로 분리함으로써 음원의 음상 범위 예측 오류에 따른 문제점을 해소할 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

110: 제1 음원 분리부
120: 제2 음원 분리부
130: 후처리부

Claims

제1 음원의 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 제1 음원을 분리하는 제1 음원 분리부;
스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 제2 음원 분리부;
상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 후처리 정보로 추출하는 후처리부; 및
상기 제 2음원과 상기 후처리 정보를 결합하여 상기 제2 음원의 음질을 개선하는 결합부
를 포함하고,
상기 제2 음원의 잔여 성분은,
상기 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 분리되지 않은 제2 음원의 성분인 것을 특징으로 하는 통합 음원 분리 시스템.
삭제
제1항에 있어서,
상기 제2 음원 분리부는,
분리할 목표 음원인 제2 음원의 음상 분포를 실제 음상 범위보다 좁은 범위로 예측하는 분포 영역 예측부; 및
상기 분포 영역 예측부에서 예측한 음상 분포에 따라 상기 혼합 음악 신호에서 상기 제2 음원을 분리하여 복원 신호를 생성하는 음원 분리부
를 포함하는 통합 음원 분리 시스템.
제3항에 있어서,
상기 후 처리부는,
상기 복원 신호에서 부가 정보를 추출하는 부가 정보 추출부; 및
상기 부가 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호로부터 상기 제2 음원의 잔여 성분을 추출하는 잔여 성분 추출부
를 포함하는 통합 음원 분리 시스템.
제4항에 있어서,
상기 부가 정보 추출부는,
상기 복원 신호에서 일정 시간 간격으로 음정(pitch) 정보를 추출하고, 상기 음정 정보를 기초로 상기 제2 음원의 특정 시점에서의 배음(harmonics)를 상기 부가 정보로 추출하는 것을 특징으로 하는 통합 음원 분리 시스템
제5항에 있어서,
상기 부가 정보 추출부는,
추출된 상기 음정 및 배음 정보를 기초로 상기 제 2음원의 잔여 성분을 추가적으로 더 분리하는 것을 특징으로 하는 통합 음원 분리 시스템
제4항에 있어서,
상기 부가 정보 추출부는,
상기 복원 신호의 주파수 패턴 정보를 부가 정보로 추출하고,
상기 잔여 성분 추출부는,
상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하고, 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 것
을 특징으로 하는 통합 음원 분리 시스템.
제7항에 있어서,
상기 잔여 성분 추출부는,
상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하여 주파수 벡터를 생성하고,
상기 주파수 벡터를 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성하며,
상기 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 것
을 특징으로 하는 통합 음원 분리 시스템.
제7항에 있어서,
상기 잔여 성분 추출부는,
복원 신호의 주파수 패턴 정보 중에 상기 제2 음원이 분리된 혼합 음악 신호와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 추출하는 것
을 특징으로 하는 통합 음원 분리 시스템.
제1항에 있어서,
상기 제1 음원 분리부는,
분리하고자 하는 상기 제1 음원의 숫자와 종류에 따라 각기 다른 복수의 음원 분리부를 포함하는 것
을 특징으로 하는 통합 음원 분리 시스템.
제1항에 있어서,
상기 제2 음원 분리부는,
상기 제1 음원 분리부에서 상기 제1 음원이 분리되고 남은 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 것
을 특징으로 하는 통합 음원 분리 시스템.
제1 음원의 시간과 주파수 영역의 특징을 사용하여 복수의 음원이 혼합된 혼합 음악 신호에서 제1 음원을 분리하는 단계; 및
상기 제1 음원이 분리된 혼합 음악 신호에 스테레오 채널 정보를 사용하여 특정 스테레오 음상 위치에 존재하는 제2 음원을 분리하는 단계;
상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 후처리 정보로 추출하는 단계; 및
상기 제 2음원과 상기 후처리 정보를 결합하여 상기 제2 음원의 음질을 개선하는 단계
를 포함하고,
상기 제2 음원의 잔여 성분은,
상기 스테레오 채널 정보를 사용하여 상기 혼합 음악 신호에서 분리되지 않은 제2 음원의 성분인 것을 특징으로 하는 통합 음원 분리 방법.
삭제
제12항에 있어서,
상기 제2 음원을 분리하는 단계는,
상기 제2 음원의 음상 분포를 실제 음상 범위보다 좁은 범위로 예측하는 단계; 및
상기 예측하는 단계에서 예측한 음상 분포에 따라 상기 제1 음원이 분리된 혼합 음악 신호에서 상기 제2 음원을 분리하여 복원 신호를 생성하는 단계
를 포함하는 통합 음원 분리 방법.
제14항에 있어서,
상기 후처리 정보로 추출하는 단계는,
상기 복원 신호에서 부가 정보를 추출하는 단계; 및
상기 부가 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호로부터 상기 제2 음원의 잔여 성분을 추출하는 단계
를 포함하는 통합 음원 분리 방법.
제15항에 있어서,
상기 부가 정보를 추출하는 단계는,
상기 복원 신호에서 일정 시간 간격으로 음정(pitch) 정보를 추출하는 단계;
상기 음정 정보를 기초로 상기 제2 음원의 특정 시점에서의 배음(harmonics)를 추정하는 단계; 및
상기 제2 음원의 특정 시점에서의 음정 및 배음을 상기 부가 정보로 추출하는 단계
를 포함하는 통합 음원 분리 방법
제15항에 있어서,
상기 부가 정보를 추출하는 단계는,
상기 복원 신호의 주파수 패턴 정보를 부가 정보로 추출하고,
상기 잔여 성분을 추출하는 단계는,
상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하는 단계; 및
상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 단계
를 포함하는 통합 음원 분리 방법.
제17항에 있어서,
상기 잔여 성분을 추출하는 단계는,
상기 제2 음원이 분리된 혼합 음악 신호를 주파수 영역으로 변환하여 주파수 벡터를 생성하는 단계;
상기 주파수 벡터를 복수의 서브 밴드로 분할하여 오버랩(overlap) 구조를 형성하는 단계; 및
상기 서브 밴드에 상기 복원 신호의 주파수 패턴 정보를 사용하여 상기 제2 음원의 잔여 성분을 추출하는 단계
를 포함하는 통합 음원 분리 방법.
제17항에 있어서,
상기 잔여 성분을 추출하는 단계는,
복원 신호의 주파수 패턴 정보 중에 상기 제2 음원이 분리된 혼합 음악 신호와 동일 프레임, 이전 프레임, 및 다음 프레임의 주파수 패턴 정보를 사용하여 상기 제2 음원이 분리된 혼합 음악 신호에서 상기 제2 음원의 잔여 성분을 추출하는 것
을 특징으로 하는 통합 음원 분리 방법.