KR20150025852A

KR20150025852A - 멀티채널 오디오 분리 장치 및 방법

Info

Publication number: KR20150025852A
Application number: KR20130103945A
Authority: KR
Inventors: 최근우; 박태진; 유재현; 서정일; 장대영; 강경옥; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2015-03-11
Also published as: US20150063574A1

Abstract

멀티채널 오디오 신호를 복수 개의 음원 개체로 분리하는 멀티채널 오디오 분리 장치 및 방법이 개시된다. 일실시예에 따른 멀티채널 오디오 분리 장치는 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하는 멀티채널-스테레오 변환부; 및 상기 스테레오 신호를 복수 개의 음원 객체들로 분리하는 스테레오 음원 분리부를 포함할 수 있다.

Description

멀티채널 오디오 분리 장치 및 방법{APPARATUS AND METHOD FOR SEPARATING MULTI-CHANNEL AUDIO SIGNAL}

아래의 설명은 멀티채널 오디오 신호를 분리하여 음원 객체를 출력하는 멀티채널 오디오 분리 장치 및 멀티채널 오디오 분리 방법에 관한 것이다.

멀티채널 사운드는 모노 채널(1 채널) 오디오 또는 스테레오 채널(2 채널) 오디오와 구별되는 것으로, 3 채널 이상의 다채널로 구성된 오디오 신호 또는 그러한 오디오 신호를 재생하는 시스템을 나타낸다. 주로 영화 컨텐츠에서 멀티채널 사운드를 이용하여 5.1 채널 또는 7.1 채널의 구성이 널리 이용되고 있다.

음원 분리(Sound source separation)는 오디오 신호로부터 오디오 신호에 포함되어 있는 다양한 구성 요소를 분리하는 기술이다. 예를 들어, 음원 분리란 음성 신호로부터 각각 다른 화자의 음성을 분리해내거나, 또는 음악 신호에서 각각의 악기 신호를 분리해내는 것을 말한다. 음원 분리 기술은 다양하게 활용될 수 있다. 예를 들어, 음원 분리를 통해 특정 화자나 특정 악기의 소리를 강화 또는 억제(suppression)할 수 있고, 분리된 신호를 음석 인식, 자동 사보, 가라오케 서비스 등에 이용할 수 있다.

일실시예에 따른 멀티채널 오디오 분리 장치는, 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하는 멀티채널-스테레오 변환부; 및 상기 스테레오 신호를 복수 개의 음원 객체들로 분리하는 스테레오 음원 분리부를 포함할 수 있다.

일실시예에 따른 멀티채널 오디오 분리 장치에서, 상기 멀티채널-스테레오 변환부는 상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하는 시간-주파수 변환부; 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서 시간-주파수 빈의 상호 상관계수를 계산하는 상호 상관계수 계산부; 상기 상호 상관계수에 기초하여 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하는 마스크 결정부; 및 상기 마스크를 이용하여 스테레오 신호를 생성하는 스테레오 신호 생성부를 포함할 수 있다.

일실시예에 따른 멀티채널 오디오 분리 방법은, 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하는 단계; 및 상기 스테레오 신호를 복수 개의 음원 객체들로 분리하는 단계를 포함할 수 있다.

일실시예에 따른 멀티채널 오디오 분리 방법에서, 상기 변환하는 단계는, 상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하는 단계; 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서 시간-주파수 빈의 상호 상관계수를 계산하는 단계; 상기 상호 상관계수에 기초하여 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하는 단계; 및 상기 마스크를 이용하여 스테레오 신호를 생성하는 단계를 포함할 수 있다.

도 1은 일실시예에 따른 멀티채널 오디오 분리 장치의 세부 구성을 도시한 도면이다.
도 2는 일실시예에 따른 멀티채널-스테레오 변환부의 동작을 설명하기 위한 도면이다.
도 3은 일실시예에 따른 스테레오 음원 분리부의 동작을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 멀티채널-스테레오 변환부의 세부 구성을 도시한 도면이다.
도 5는 일실시예에 따른 멀티채널 오디오 분리 방법의 동작을 도시한 흐름도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 발명의 실시예들을 설명하기 위한 목적으로 예시된 것으로, 발명의 범위가 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 안된다. 일실시예에 따른 멀티채널 오디오 분리 방법은 멀티채널 오디오 분리 장치에 의해 수행될 수 있으며, 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 멀티채널 오디오 분리 장치(100)의 세부 구성을 도시한 도면이다.

멀티채널 오디오 분리 장치(100)는 스테레오 신호의 음원 분리를 이용하여 멀티채널 오디오 신호의 음원을 분리할 수 있다. 예를 들어, 도 1에서와 같이 멀티채널 오디오 분리 장치(100)가 N 개의 모노 채널로 구성된 멀티채널 오디오 신호를 입력받은 경우, 멀티채널 오디오 분리 장치(100)는 멀티채널 오디오 신호를 M 개의 음원 객체로 분리할 수 있다.

멀티채널 오디오 신호는 3 채널 이상의 다채널로 구성된 오디오 신호를 나타낸다. 스테레오 신호는 2 채널로 구성된 오디오 신호를 나타낸다. 음원(sound source)은 믹싱(mixing)되기 이전의 오디오 신호를 나타낸다. 예를 들어, 서로 다른 악기 소리가 혼합되어 생성된 음악 신호의 경우 음원은 혼합되기 이전의 악기 소리를 나타낸다. 채널 신호는 믹싱이 완료된 오디오 신호를 나타낸다.

도 1을 참조하면, 멀티채널 오디오 분리 장치(100)는 멀티채널-스테레오 변환부(110) 및 스테레오 음원 분리부(120)를 포함할 수 있다.

멀티채널-스테레오 변환부(110)는 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환할 수 있다. 멀티채널-스테레오 변환부(110)는 시간 주파수 변환(Time-Frequency Transform)을 통해 멀티채널 오디오 신호를 시간-주파수 차원의 행렬로 변환하고, 행렬의 요소를 나타내는 시간-주파수 빈(Time-Frequency Bin, TF bin)에 기초하여 상호 상관계수(Cross Correlation)를 계산할 수 있다. 멀티채널-스테레오 변환부(110)는 상호 상관계수에 기초하여 각각의 시간-주파수 빈이 어디에 속하는지를 나타내는 마스크를 결정하고, 마스크를 시간-주파수 영역으로 변환된 멀티채널 오디오 신호에 적용하여 스테레오 신호를 생성할 수 있다.

멀티채널-스테레오 변환부(110)의 구체적인 동작은 도 4에서 후술하도록 한다.

스테레오 음원 분리부(120)는 멀티채널-스테레오 변환부(110)로부터 출력된 스테레오 신호를 복수 개의 음원 객체들로 분리할 수 있다. 멀티채널 오디오 분리 장치(100)는 복수 개의 스테레오 음원 분리부(120)를 포함할 수 있다.

예를 들어, 스테레오 음원 분리부(120)는 공간 필터링을 이용하여 스테레오 신호를 복수 개의 음원 객체들로 분리할 수 있다. 스테레오 음원 분리부(120)는 서브밴드 단위로 구분된 스테레오 신호로부터 서브밴드별 채널 신호의 파워를 산출하고, 산출된 서브밴드별 채널 신호의 파워를 이용하여 음원의 위치를 검출할 수 있다. 스테레오 음원 분리부(120)는 서브밴드 단위로 구분된 스테레오 신호로부터 채널간 상호 상관값을 산출하고, 검출된 음원 위치와 산출된 채널간 상호 상관값을 이용한 공간 필터링을 통해 스테레오 신호를 복수 개의 음원 객체들로 분리할 수 있다.

다른 예로, 스테레오 음원 분리부(120)는 신호가 혼합되는 환경의 모델 및 음원의 통계적 특성을 이용하여 음원을 분리할 수 있다. 또는, 스테레오 음원 분리부(120)는 음원의 고유한 시간 또는 주파수 특징을 이용하거나 음원의 위치 정보를 이용하여 스테레오 신호를 음원 객체들로 분리할 수 있다.

스테레오 음원 분리부(120)의 구성은 위 기재된 실시예에 한정되지 아니하며, 스테레오 음원 분리부(120)는 관련 기술 분야에서 이용되는 스테레오 신호의 음원 분리 방법을 이용하여 스테레오 신호를 복수 개의 음원 객체들로 분리할 수 있다.

도 2는 일실시예에 따른 멀티채널-스테레오 변환부(200)의 동작을 설명하기 위한 도면이다.

멀티채널-스테레오 변환부(200)는 멀티채널 오디오 신호를 스테레오 신호로 변환하여 출력할 수 있다.

멀티채널-스테레오 변환부(200)에 N 개의 채널을 가진 멀티채널 오디오 신호가 입력되는 경우, 멀티채널-스테레오 변환부(200)가 출력하는 스테레오 신호의 개수는 아래의 수학식 1에 의해 결정될 수 있다.

여기서, 각 스테레오 신호는 2개의 채널로 구성되므로 전체는 N(N-1) 개의 채널이 된다. 이하에서는, 수학식 1의 _NC₂를 "K" 라고 가정한다.

예를 들어, 5.1 채널(N=5)의 오디오 신호의 경우 멀티채널-스테레오 변환부(200)는 5.1 채널의 오디오 신호를 10 개의 스테레오 신호로 변환하여 출력할 수 있다. 5.1 채널의 L, R, C, Ls, Rs의 5 개의 채널 중 인접한 두 채널씩 그룹핑하는 경우, (L-C), (C-R), (R-Rs), (Rs-Ls), (Ls-L)의 5 개의 조합을 생각해볼 수 있다. 또한, (L-R), (L-Rs), (C-Rs), (C-Ls), (R-Ls)과 같이 인접하지 않은 채널들끼리 그룹핑하는 경우를 고려하면, 5.1 채널의 오디오 신호에서 10개의 스테레오 신호의 조합(K=10)을 생각해볼 수 있다.

도 3은 일실시예에 따른 스테레오 음원 분리부들(310, 320, 330)의 동작을 설명하기 위한 도면으로, 스테레오 음원 분리부들(310, 320, 330)로 입력된 복수 개의 스테레오 채널이 음원 객체로 분리되는 것을 나타내고 있다.

스테레오 음원 분리부들(310, 320, 330)은 공간 필터링, 음원의 통계적 특성, 음원의 고유한 시간, 음원의 주파수 특징, 음원의 위치 정보 등을 이용하여 스테레오 신호를 음원 객체들로 분리할 수 있다. 이외에도, 스테레오 음원 분리부들(310, 320, 330)은 관련 기술 분야에서 이용되는 음원 분리 기술을 이용하여 스테레오 신호를 복수 개의 음원 객체로 분리할 수 있다.

멀티채널-스테레오 변환부(도 1의 110)로부터 출력된 각각의 스테레오 채널 신호는 스테레오 음원 분리부들(310, 320, 330) 각각에 입력될 수 있다. 각각의 스테레오 음원 분리부들(310, 320, 330)은 입력받은 스테레오 채널 신호를 복수 개의 음원 객체로 분리할 수 있다.

도 4는 일실시예에 따른 멀티채널-스테레오 변환부(400)의 세부 구성을 도시한 도면이다.

멀티채널-스테레오 변환부(400)는 시간-주파수 변환부(410), 상호 상관계수 계산부(420), 마스크 결정부(430) 및 스테레오 신호 생성부(440)를 포함할 수 있다.

시간-주파수 변환부(410)는 시간-주파수 변환 (Time-Frequency Transform)을 이용하여 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환할 수 있다. 시간-주파수 변환은 1 차원의 오디오 신호를 시간-주파수 축의 2 차원으로 변환하여 표현하는 것을 나타낸다. 시간-주파수 변환부(410)는 프레임 단위로 푸리에 변환 (Fourier Transfrom)을 수행하는 단시간 푸리에 변환 (Short-Time Fourier Transform, STFT), 수정 이산 코사인 변환 (Modified Discrete Cosine, Transform, MDCT), 또는 웨이브렛 변환(wavelet transform) 등의 시간-주파수 변환을 수행할 수 있다.

예를 들어, 시간-주파수 변환부(410)가 단시간 푸리에 변환을 이용하는 경우, 일정 크기의 창 함수(window function)를 이용하여 멀티채널 오디오 신호를 여러 구간으로 나누고, 나누어진 각 구간에 대해 푸리에 변환을 수행하여 멀티채널 오디오 신호의 시간에 따른 주파수 성분을 구할 수 있다.

예를 들어, 시간-주파수 변환부(410)는 시간-주파수 변환을 통해 입력 신호인 N 개의 채널 신호 s[n]을 시간-주파수 영역의 신호 S(q, k)로 변환할 수 있다. S(q, k)는 Time-by-Frequency 의 2차원 행렬을 나타낸다. 여기서, q는 시간 인덱스를 나타내고, k는 주파수 인덱스를 나타낸다. 시간-주파수 변환부(410)의 출력 신호(예를 들어, S_i(q, k), S_j(q, k) 등)에서 아래 첨자로 나타낸 i, j는 채널의 인덱스를 나타낸다.

상호 상관계수 계산부(420)는 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서, 전체 K 개의 오디오 채널 쌍(pair)에 대하여 각 시간-주파수 빈(Time-Frequency Bin, TF bin)의 상호 상관계수를 계산할 수 있다. 여기서, K는 수학식 1의 K를 나타낸다. 시간-주파수 빈은 S(q, k)의 각각의 요소(element)로서 S_i(q, k), S_j(q, k) 등을 나타낸다.

예를 들어, 상호 상관계수 계산부(420)는 다음의 수학식 2에 기초하여 상호 상관계수 φ_ij(q, k) 를 계산할 수 있다.

여기서,

는 망각 팩터(Forgetting Factor)를 나타내고, 시간상에서의 변화를 반영한다. 상호 상관계수 계산부(420)는 망각 팩터

의 값을 0으로 설정함으로써 시간상에서의 변화를 반영하지 않을 수 있다. 망각 팩터

의 값은

의 범위를 가진다. 상호 상관계수 계산부(420)는 결과적으로, K 개의 상호 상관계수를 계산할 수 있다.

마스크 결정부(430)는 상호 상관계수에 기초하여 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정할 수 있다. 마스크 결정부(430)는 복수 개의 오디오 채널 쌍(pair)을 비교하여 시간-주파수 빈이 어디에 속하는지를 나타내는 마스크 P_ij(q, k)를 결정할 수 있다. 예를 들어, i 번째 채널을 포함한 오디오 채널 쌍이 (i-j), (i-k), (i-m)의 3개라고 가정하면, 마스크 결정부(430)는 각 3개의 오디오 채널 쌍의 상호 상관계수를 비교할 수 있다.

마스크 결정부(430)는 다음과 같은 두 가지의 방법에 따라 마스크 P를 결정할 수 있다.

<제1 실시예 - Hard Thresholding>

제1 실시예에서, 마스크 결정부(430)는 특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들 중 가장 큰 값의 상호 상관계수에 대응하는 마스크의 값을 1로 설정하고, 다른 상호 상관계수에 대응하는 마스크의 값은 0으로 설정할 수 있다. 마스크 P의 값은 0 또는 1, 불연속적인 값으로 설정될 수 있다. 예를 들어, 마스크 결정부(430)는 상호 상관계수들 φ_ij(q, k), φ_ik(q, k), φ_im(q, k) 중 가장 큰 값을 선택할 수 있다. 그 후, 마스크 결정부(430)는 가장 큰 값의 상호 상관계수에 대응하는 마스크의 값을 1로 설정하고, 나머지 마스크의 값을 0으로 설정한다. 예를 들어, 상호 상관계수 φ_ik(q, k)가 가장 큰 경우, φ_ij(q, k)에 대응되는 마스크 P_ik(q, k)는 1이 되고, φ_ik(q, k), φ_im(q, k)에 각각 대응되는 마스크 P_ij(q, k), P_im(q, k)은 0이 된다.

<제2 실시예 - Soft Thresholding>

제2 실시예에서, 마스크 결정부(430)는 특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들의 크기에 기초하여 마스크의 값을 0과 1사이의 연속적인 값으로 설정할 수 있다. 마스크 P의 값은 0과 1 사이의 연속적인 값으로 설정될 수 있다. 마스크 결정부(430)는 마스크 P(q, k)의 값을 해당하는 채널 상의 φ(q, k)의 크기와 연관지어 결정할 수 있다. 예를 들어, 마스크 결정부(430)는 각각의 φ(q, k)의 크기에 비례하면서, "P_ik(q, k) + P_ij(q, k) + P_im(q, k) = 1"을 만족하는 P_ik(q, k), P_ij(q, k), P_im(q, k)을 결정할 수 있다.

스테레오 신호 생성부(440)는 시간-주파수 영역으로 변환된 멀티채널 오디오 신호에 마스크 결정부(430)에 의해 결정된 마스크를 적용하여 스테레오 신호를 생성할 수 있다. 스테레오 신호 생성부(440)는 주파수 영역의 신호로 변환된 멀티채널 오디오 신호의 시간-주파수 빈과 시간-주파수 빈에 대응하는 마스크를 이용하여 스테레오 신호를 생성할 수 있다.

예를 들어, P_ij(q, k)가 1로 설정된 경우, i 번째 채널과 j 번째 채널의 시간-주파수 빈인 S_i(q, k), S_j(q, k)가 조합되어 하나의 스테레오 신호로 생성될 수 있다. 이 때, 생성된 스테레오 신호의 좌/우 채널은 [S_i(q, k)P_ij(q, k), S_j(q, k)P_ij(q, k)]로 구성될 수 있다.

위와 같은 과정을 통해 멀티채널-스테레오 변환부(400)는 N 채널의 멀티채널 오디오 신호를 K 개의 스테레오 채널 신호로 변환할 수 있다.

도 5는 일실시예에 따른 멀티채널 오디오 분리 방법의 동작을 도시한 흐름도이다.

단계(510)에서, 멀티채널 오디오 분리 장치는 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환할 수 있다. 멀티채널 오디오 분리 장치는 시간 주파수 변환을 통해 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하고, 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서 시간-주파수 빈의 상호 상관계수를 계산할 수 있다. 멀티채널 오디오 분리 장치는 시간상에서의 변화를 반영하기 위한 망각 팩터와 시간-주파수 빈을 이용하여 상호 상관계수를 계산할 수 있다. 멀티채널 오디오 분리 장치는 상호 상관계수에 기초하여 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하고, 마스크를 이용하여 스테레오 신호를 생성할 수 있다. 멀티채널 오디오 분리 장치는 주파수 영역의 신호로 변환된 멀티채널 오디오 신호의 시간-주파수 빈과 시간-주파수 빈에 대응하는 마스크를 이용하여 스테레오 신호를 생성할 수 있다.

단계(520)에서, 멀티채널 오디오 분리 장치는 멀티채널 스테레오 변환부로부터 출력된 스테레오 신호를 복수 개의 음원 객체들로 분리할 수 있다.

멀티채널 오디오 분리 장치는 공간 필터링, 음원의 통계적 특성, 음원의 고유한 시간, 음원의 주파수 특징, 음원의 위치 정보 등을 이용하여 스테레오 신호를 음원 객체들로 분리할 수 있다. 이외에도, 스테레오 음원 분리부는 관련 기술 분야에서 이용되는 음원 분리 기술을 이용하여 스테레오 신호를 복수 개의 음원 객체로 분리할 수 있다.

위와 같은 과정을 통해 멀티채널 오디오 분리 장치는 멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하고, 복수 개의 스테레오 신호를 음원 객체로 분리한 후, 분리된 음원 객체를 출력할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

100: 멀티채널 오디오 분리 장치
110: 멀티채널-스테레오 변환부
120: 스테레오 음원 분리부

Claims

멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하는 멀티채널-스테레오 변환부; 및
상기 스테레오 신호를 복수 개의 음원 객체들로 분리하는 스테레오 음원 분리부
를 포함하는 멀티채널 오디오 분리 장치.
제1항에 있어서,
상기 멀티채널-스테레오 변환부는,
상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하고, 시간-주파수 빈의 상호 상관계수를 이용하여 멀티채널 오디오 신호를 스테레오 신호로 변환하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제2항에 있어서,
상기 멀티채널-스테레오 변환부는,
상기 상호 상관계수에 기초하여 시간-주파수 영역으로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하고, 상기 결정된 마스크를 이용하여 스테레오 신호를 생성하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제1항에 있어서,
상기 멀티채널-스테레오 변환부는,
N 개의 채널을 가진 멀티채널 오디오 신호가 입력되는 경우, 아래의 수학식 3에 기초하여 출력할 스테레오 신호의 개수 K 를 결정하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
<수학식 3>
제1항에 있어서,
상기 멀티채널-스테레오 변환부는,
상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하는 시간-주파수 변환부;
상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서 시간-주파수 빈(Time-Frequency Bin)의 상호 상관계수를 계산하는 상호 상관계수 계산부;
상기 상호 상관계수에 기초하여 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하는 마스크 결정부; 및
상기 마스크를 이용하여 스테레오 신호를 생성하는 스테레오 신호 생성부
를 포함하는 멀티채널 오디오 분리 장치.
제1항에 있어서,
상호 상관계수 계산부는,
시간상에서의 변화를 반영하기 위한 망각 팩터(Forgetting Factor)와 상기 시간-주파수 빈을 이용하여 상호 상관계수를 계산하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제5항에 있어서,
상기 마스크 결정부는,
오디오 채널 쌍의 상호 상관계수를 비교하여 시간-주파수 빈이 어디에 속하는지를 결정하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제5항에 있어서,
상기 마스크 결정부는,
특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들 중 가장 큰 값의 상호 상관계수에 대응하는 마스크의 값을 1로 설정하고, 다른 상호 상관계수에 대응하는 마스크의 값은 0으로 설정하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제5항에 있어서,
상기 마스크 결정부는,
특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들의 크기에 기초하여 마스크의 값을 0과 1사이의 연속적인 값으로 설정하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
제5항에 있어서,
상기 스테레오 신호 생성부는,
상기 주파수 영역의 신호로 변환된 멀티채널 오디오 신호의 시간-주파수 빈과 상기 시간-주파수 빈에 대응하는 마스크를 이용하여 스테레오 신호를 생성하는 것을 특징으로 하는 멀티채널 오디오 분리 장치.
멀티채널 오디오 신호를 복수 개의 스테레오 신호로 변환하는 단계; 및
상기 스테레오 신호를 복수 개의 음원 객체들로 분리하는 단계
를 포함하는 멀티채널 오디오 분리 방법.
제11항에 있어서,
상기 변환하는 단계는,
상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하는 단계;
시간-주파수 빈의 상호 상관계수를 이용하여 멀티채널 오디오 신호를 스테레오 신호로 변환하는 단계
를 포함하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.
제12항에 있어서,
상기 변환하는 단계는,
상기 상호 상관계수에 기초하여 시간-주파수 영역으로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하는 단계; 및
상기 결정된 마스크를 이용하여 스테레오 신호를 생성하는 단계
를 포함하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.
제11항에 있어서,
상기 변환하는 단계는,
상기 멀티채널 오디오 신호를 시간-주파수 영역의 신호로 변환하는 단계;
상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에서 시간-주파수 빈의 상호 상관계수를 계산하는 단계;
상기 상호 상관계수에 기초하여 상기 시간-주파수 영역의 신호로 변환된 멀티채널 오디오 신호에 적용할 마스크를 결정하는 단계; 및
상기 마스크를 이용하여 스테레오 신호를 생성하는 단계
를 포함하는 멀티채널 오디오 분리 방법.
제14항에 있어서,
상기 상호 상관계수를 계산하는 단계는,
시간상에서의 변화를 반영하기 위한 망각 팩터와 상기 시간-주파수 빈을 이용하여 상호 상관계수를 계산하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.
제14항에 있어서,
상기 마스크를 결정하는 단계는,
특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들 중 가장 큰 값의 상호 상관계수에 대응하는 마스크의 값을 1로 설정하고, 다른 상호 상관계수에 대응하는 마스크의 값은 0으로 설정하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.
제14항에 있어서,
상기 마스크를 결정하는 단계는
특정 채널을 포함하는 오디오 채널 쌍의 상호 상관계수들의 크기에 기초하여 마스크의 값을 0과 1사이의 연속적인 값으로 설정하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.
제14항에 있어서,
상기 스테레오 신호를 생성하는 단계는,
상기 주파수 영역의 신호로 변환된 멀티채널 오디오 신호의 시간-주파수 빈과 상기 시간-주파수 빈에 대응하는 마스크를 이용하여 스테레오 신호를 생성하는 것을 특징으로 하는 멀티채널 오디오 분리 방법.