KR101607334B1

KR101607334B1 - 멀티 채널 오디오 디코딩 방법 및 멀티 채널 오디오 코덱

Info

Publication number: KR101607334B1
Application number: KR1020100022234A
Authority: KR
Inventors: 서정일; 유재현; 강경옥; 홍진우; 김진웅; 현동일; 전세운; 박영철; 윤대희
Original assignee: 한국전자통신연구원
Priority date: 2010-03-12
Filing date: 2010-03-12
Publication date: 2016-03-30
Also published as: KR20110103094A

Abstract

멀티 채널 오디오 디코딩 방법이 개시된다. 멀티 채널 오디오 디코딩 방법은, 패닝 신호의 방향 정보를 이용하여 패닝 신호를 리패닝하고, 레벨 조절 없이 리패닝된 신호와 레벨이 조정된 잔향 신호를 가산하여 멀티 채널 오디오 신호를 복원할 수 있다. 이에 따라, 복원된 멀티 채널 오디오 신호의 PAR가 원본 멀티 채널 오디오 신호의 PAR와 거의 동일하여 음질 열화가 최소화될 수 있다.

Description

멀티 채널 오디오 디코딩 방법 및 멀티 채널 오디오 코덱{METHOD FOR DECODING MULTI-CHANNEL AUDIO SIGNALS AND MULTI-CHANNEL AUDIO CODEC}

멀티 채널 오디오 디코딩 방법 및 멀티 채널 오디오 코덱이 개시된다. 특히, PCA(Principal Component Analysis)를 기반으로 하는 멀티 채널 오디오 디코딩 기술이 개시된다.

본 발명은 방송통신위원회, 지식경제부 및 한국산업기술평가관리원의 IT 원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2008-F-011-01, 과제명: 차세대 DTV 핵심기술 개발].

최근, 멀티 미디어 콘텐츠가 보급됨에 따라 더욱 현장감 넘치고, 풍부한 음원 환경을 경험하고자 하는 사용자들의 요구가 증가하고 있다. 이러한 사용자들의 요구를 충족시키기 위해 멀티 채널 오디오에 대한 연구가 진행되고 있다.

멀티 채널 오디오는 전송 환경에 따라 고효율의 데이터 압축률을 요구한다. 특히, 멀티 채널 오디오 신호를 복원하기 위해, 공간 파라미터(Spatial Parameter)가 이용된다. 이때, 공간 파라미터를 추출하는 과정에서 잔향 신호의 영향으로 왜곡이 발생할 수 있다. 그러면, 멀티 채널 오디오 신호를 복원함에 있어서, 음질 열화가 발생할 수 있다.

따라서, 공간 파라미터를 이용하여 멀티 채널 오디오 신호를 복원하는 경우에 발생할 수 있는 음질 열화를 감소 또는 제거할 수 있는 멀티 채널 오디오 코덱 기술이 필요하다.

본 발명은 복원된 신호의 음질 열화를 최소화할 수 있는 PCA 기반의 멀티 채널 오디오 디코딩 방법을 제공한다.

멀티 채널 오디오 디코딩 방법은, 방향 정보 및 에너지 정보를 포함하는 공간 파라미터와 패닝 신호를 수신하는 단계, 상기 방향 정보를 이용하여 상기 패닝 신호의 방향성이 멀티 채널 오디오 신호의 방향성과 동일해도록 상기 패닝 신호를 리패닝하는 단계, 상기 패닝 신호를 디코릴레이션하여 잔향 신호를 생성하는 단계, 상기 방향 정보 및 상기 에너지 정보를 이용하여 상기 생성된 잔향 신호의 레벨을 조정하는 단계, 및 상기 레벨이 조정된 잔향 신호와 상기 리패닝된 신호를 이용하여 상기 원본 입력 신호를 복원하는 단계를 포함할 수 있다.

이때, 상기 복원하는 단계는, 상기 리패닝된 신호를 레벨 조절 없이 바로 입력 받아 상기 레벨이 조정된 잔향 신호와 가산함으로써 상기 원본 입력 신호를 복원할 수 있다.

또한, 상기 잔향 신호의 레벨을 조정하는 단계는, 상기 복원된 원본 입력 신호의 PAR가 상기 원본 입력 신호의 PAR와 동일해지도록 상기 잔향 신호의 레벨을 조정할 수 있다.

또한, 상기 잔향 신호를 생성하는 단계는, 상기 원본 입력 신호가 멀티 채널 오디오 신호인 경우, 멀티 채널들에 해당하는 잔향 신호들 간의 상관도가 제거되도록 상기 패닝 신호를 디코릴레이션하여, 상기 멀티 채널들에 해당하는 잔향 신호들을 생성할 수 있다.

이때, 상기 패닝 신호는, 상기 멀티 채널 오디오 신호에서 방향성을 갖는 신호이다. 그리고, 상기 방향 정보는, 상기 멀티 채널 오디오 신호의 게인을 이용하여 획득된 방향각을 포함하고, 상기 에너지 정보는, 상기 멀티 채널 오디오 신호의 PAR을 포함할 수 있다.

멀티 채널 오디오 디코딩 방법은, 리패닝된 신호의 레벨을 조절없이 그대로 이용하여 원본 입력 신호를 복원함으로써, 복원된 신호의 음질 저하를 감소시킬 수 있다.

또한, 잔향 신호의 레벨 만을 조절하여 원본 입력 신호를 복원함으로써, 패닝 신호의 방향 및 PAR에 상관없이 원본 입력 신호의 PAR를 유지할 수 있다.

도 1은 본 발명의 일 실시예에 따른 멀티 채널 오디오 코덱에서 인코딩 장치의 구성을 도시한 도면이다.
도 2는 멀티 채널 오디오 코덱에서 디코딩 장치 구성을 도시한 도면이다.
도 3 및 도 4는 멀티 채널 오디오 신호를 복원하는 방법을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명의 일 실시예에 따른 멀티 채널 오디오 디코딩 방법을 설명하기 위해 제공되는 흐름도이다.

이하에서는 첨부된 도면을 참조하여, 본 발명의 실시예를 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 멀티 채널 오디오 코덱에서 인코딩 장치의 구성을 도시한 도면이다.

도 1을 참조하면, 인코딩 장치(100)는 T/F 변환부(110), 서브밴드 분석부(120), 다운믹싱부(130), 서브밴드 합성부(140), F/T 변환부(150)를 포함할 수 있다.…

T/F 변환부(110)는 멀티 채널 오디오 신호를 시간 영역에서 주파수 영역으로 변환할 수 있다.

일례로, 2채널의 멀티 채널 오디오 신호인 경우, T/F 변환부(110)는 2채널의 멀티채널 오디오 신호(x₁, x₂)를 시간 영역에서 주파수 영역으로 변환할 수 있다. 그리고, 멀티 채널 오디오 신호가 3채 널 이상으로 구성된 경우, T/F 변환부(110)는 3채널 이상의 멀티 채널 오디오 신호(x₁, x₂,…,x_n)를 시간 영역에서 주파수 영역으로 변환할 수 있다.

서브밴드 분석부(Subband Analysis: 120)는 T/F 변환부(110)를 통하여 시간 영역에서 주파수 영역으로 변환된 멀티 채널 오디오 신호들을 주파수 영역 상의 제한된 개수(예를 들어, 20개 내외)의 서브밴드들로 분리할 수 있다.

일실시예로, MPEG Surround의 경우, 서브밴드 분석부(120)에서는 Hybrid QMF(Quadrature Mirror Filter) T/F 변환을 수행한 신호들을 제한된 개수(예를 들어 24개)의 서브밴드로 그룹화할 수 있다.

다운믹싱부(Downmixing: 130)는 PCA(Principal Component Analysis) 기법을 이용하여 멀티 채널 오디오 신호로부터 패닝 신호와 잔향 신호를 분리할 수 있다. 여기서, 패닝 신호는, 멀티 채널 오디오 신호에서 방향성을 갖는 신호이고, 잔향 신호는 음원이 동작을 멈추어 직접음을 들을 수 없게 된 뒤에도 주위 물체의 반사로 인해 음이 계속 존재하는 신호이다.

이때, 멀티 채널 오디오 신호는 패닝 신호와 잔향 신호를 포함할 수 있다.

수학식 1에서, k는 채널 번호, x_k(n)은 멀티 채널 오디오 신호, a_k는 패닝 게인, s(n)은 패닝 신호, n_k(n)은 잔향 신호이다. 이때, 채널 별 잔향 신호들(n1(n),…,nk(n))은 독립적(independent)하고, 채널 별 잔향 신호의 에너지(Pn=Pn₁=Pn₂=…=Pn_k)는 동일한 것을 가정한다.

보다 상세하게는, 다운믹싱부(130)는 멀티 채널 오디오 신호를 대상으로, PCA 기법을 이용하여 채널 별로 고유값(eigenvalue) 및 고유벡터(eigenvector)를 계산할 수 있다.

그리고, 다운믹싱부(130)는 멀티 채널 오디오 신호를 대상으로, 계산된 고유값들 중 가장 큰 고유값에 해당하는 고유벡터를 이용하여 프로젝션(projection)된 신호를 패닝 신호로 분리할 수 있다. 일례로, 멀티 채널 오디오 신호가 2채널로 구성된 경우, 다운믹싱부(130)는 아래의 수학식 2와 같이, 패닝 신호를 분리할 수 있다.

수학식 2에서,

은 PCA 기법을 이용하여 분리된 패닝 신호이고,

는 가장 큰 고유값에 해당하는 고유벡터이다.

또한, 다운믹싱부(130)는 PCA 기법을 이용하여 멀티 채널 오디오 신호로부터 공간 파라미터를 추출할 수 있다. 여기서, 공간 파라미터는, 방향 정보 및 에너지 정보를 포함할 수 있다.

일례로, 다운믹싱부(130)는 멀티 채널 오디오 신호의 고유값 및 고유벡터를 기초로 레벨 패닝 기법을 이용하여 채널 별 패닝 게인(Panning Gain)을 계산할 수 있다.

그리고, 다운믹싱부(130)는, 계산된 채널 별 패닝 게인의 비율로써 방향각(

)을 계산할 수 있다. 여기서, 계산된 방향각(

)이 패닝 신호의 방향 정보로 이용될 수 있다. 이때, 계산된 방향각은 입력된 멀티 채널 오디오 신호에서 가정된 패닝 기법에 의해 공간적으로 인지되는 방향을 나타내며, 패닝 기법의 종류에 따라 달라질 수 있다.

그리고, 다운믹싱부(130)는 계산된 고유값(

)을 이용하여 패닝 신호의 에너지 정보를 계산할 수 있다.

이때, 계산된 고유값은 패닝 신호와 잔향 신호의 에너지 합으로 구성된 제1 고유값(

)과 잔향 신호의 에너지만으로 구성된 제2 고유값(

)을 포함할 수 있다.

일례로, 다운믹싱부(130)는 계산된 고유값을 이용하여 패닝 신호의 PAR(Principal to Ambient energy Ratio)을 계산할 수 있다. 이때, 계산된 PAR이 패닝 신호의 에너지 정보로 이용될 수 있으며, PAR는 아래의 수학식 3과 같다.

수학식 3에서, P_s는 패닝 신호의 에너지, P_n은 잔향 신호의 에너지이다. 수학식 3에 따르면, PAR은 패닝 신호 대 잔향 비를 나타낸다.

서브밴드 합성부(Subband Synthesis: 140)는 기정의된 서브밴드 별로 패닝 신호를 합성하여 각 서브밴드 별 패닝 신호를 계산할 수 있다.

F/T 변환부(150)는 서브밴드 합성부(140)에서 합성된 서브밴드 별 패닝 신호를 주파수 영역에서 시간 영역으로 변환하여 출력할 수 있다. 그러면, 시간 영역으로 변환된 패닝 신호(

)는 공간 파라미터와 함께 디코딩 장치로 전송될 수 있다. 여기서, 공간 파라미터는, 패닝 신호의 에너지 정보 및 방향 정보를 포함할 수 있다.

이하에서는, 도 2를 참조하여 디코딩 장치에서 공간 파라미터 및 패닝 신호를 이용하여 멀티 채널 오디오 신호를 복원하는 방법에 대해 설명하기로 한다.

도 2는 멀티 채널 오디오 코덱에서 디코딩 장치 구성을 도시한 도면이다.

도 2를 참조하면, 디코딩 장치(200)는 T/F 변환부(210), 서브밴드 분석부(220), 리패닝부(230), 디콜리레이터(240), 후처리부(250), 가산부(260), 서브밴드 합성부(270), 및 F/T 변환부(280)를 포함할 수 있다.

T/F 변환부(210)는 인코딩 장치(100)로부터 전달된 패닝 신호를 시간 영역에서 주파수 영역으로 변환할 수 있다.

서브밴드 분석부(220)는 T/F 변환부(210)를 통하여 시간 영역에서 주파수 영역으로 변환된 멀티 채널 오디오 신호들을 주파수 영역 상의 제한된 개수(예를 들어, 20개 내외)의 서브밴드들로 분리할 수 있다.

리패닝부(230)는 서브밴드 분석부(220)에서 제한된 개수의 서브밴드들로 분리된 패닝 신호를 리패닝(re-panning)할 수 있다.

이때, 리패닝부(230)는 인코딩 장치(100)로부터 전달된 공간 파라미터에 포함된 방향 정보를 이용하여 패닝 신호를 리패닝할 수 있다. 그러면, 리패닝된 신호는 음원 공간 상에서 원본 멀티 채널 오디오 신호와 동일한 방향성을 가질 수 있다. 즉, 리패닝된 신호는 도 1에서 입력된 원보 멀티 채널 오디오 신호(x₁, x₂)와 동일한 방향성을 가질 수 있다.

일례로, 도 3 및 도 4와 같이, 리패닝부(230)는 패닝 신호(

)에 채널 별 패닝 게인(

)을 곱함으로써 패닝 신호를 리패닝할 수 있다.

디코릴레이터(decorrelator: 240)는 패닝 신호를 디코릴레이션하여 채널 별 잔향 신호를 생성할 수 있다. 이때, 디코릴레이터(240)는 채널 별 잔향 신호 간의 상관도가 제거되도록 잔향 신호를 생성할 수 있다.

일례로, 디코릴레이터(240)는 채널 별 잔향 신호 간의 상관도가 0 또는 0에 근사한 값이 되도록 잔향 신호를 생성할 수 있다. 그러면, 생성된 잔향 신호는 음원의 공간감을 확장시킬 수 있다.

후처리부(post scaling; 250)는 공간 파라미터를 이용하여 잔향 신호의 레벨을 조정할 수 있다. 이때, 후처리부(250)는 복원될 멀티 채널 오디오 신호의 에너지 레벨이 멀티 채널 오디오 신호의 에너지 레벨과 동일하거나, 또는 멀티 채널 오디오 신호의 에너지 레벨에 최대한 근사해지도록 잔향 신호의 레벨을 조정할 수 있다.

일례로, 공간 파라미터는, 패닝 신호의 방향 정보 및 에너지 정보를 포함할 수 있다. 이때, 방향 정보는 패닝 신호의 방향각을 포함하고, 채널 별 패닝 게인의 비율로서 획득될 수 있다. 그리고, 에너지 정보는 패닝 신호의 PAR를 포함할 수 있다.

가산부(260)는 리패닝된 신호와 레벨이 조절된 채널 별 잔향 신호를 가산하여 멀티 채널 오디오 신호를 복원할 수 있다.

이때, 가산부(260)는 리패닝된 신호의 레벨 조절 없이, 리패닝된 신호를 그대로 이용하여 잔향 신호와 가산할 수 있다. 이에 따라, 복원된 멀티 채널 오디오 신호의 에너지 레벨은 원본 멀티 채널 오디오 신호의 에너지 레벨과 동일할 수 있다.

일례로, 가산부(260)는 아래의 수학식 4와 같이, 리패닝된 신호와 레벨이 조절된 잔향 신호를 가산하여 멀티 채널 오디오 신호를 복원할 수 있다.

수학식 4에서

는 리패닝된 신호,

는 레벨이 조정된 잔향 신호이다.

서브밴드 합성부(270)는 기정의된 서브밴드 별로 멀티 채널 오디오 신호를 합성하여 각 서브밴드 별 멀티 채널 오디오 신호를 계산할 수 있다.

F/T 변환부(280)는 서브밴드 합성부(270)에서 합성된 서브밴드 별 멀티 채널 오디오 신호를 주파수 영역에서 시간 영역으로 변환하여 출력할 수 있다.

도 5는 본 발명의 일 실시예에 따른 멀티 채널 오디오 디코딩 방법을 설명하기 위해 제공되는 흐름도이다.

도 5를 참조하면, 디코딩 장치(200)는 인코딩 장치(100)에서 분리된 패닝 신호와 공간 파라미터를 수신할 수 있다(S510). 여기서, 패닝 신호는, 멀티 채널 오디오 신호에서 방향성을 갖는 신호이다. 그리고, 공간 파라미터는, 패닝 신호의 방향 정보 및 에너지 정보를 포함할 수 있다.

이어, 디코딩 장치(200)는 공간 파라미터를 이용하여 패닝 신호를 리패닝할 수 있다(S520).

일례로, 디코딩 장치(200)는 패닝 신호의 방향 정보를 이용하여 패닝 신호가 방향성을 갖도록 리패닝할 수 있다.

그리고, 디코딩 장치(200)는 패닝 신호를 디코릴레이션하여 채널 별 잔향 신호를 생성할 수 있다(S530).

이어, 디코딩 장치(200)는 공간 파라미터를 이용하여 생성된 잔향 신호의 레벨을 조정할 수 있다(S540).

일례로, 디코딩 장치(200)는 위의 수학식 6과 같이, 방향 정보와 에너지 정보를 이용하여 잔향 신호의 레벨을 조정할 수 있다. 이때, 디코딩 장치(200)는 복원될 멀티 채널 오디오 신호의 에너지 레벨이 멀티 채널 오디오 신호의 에너지 레벨과 동일하거나, 또는 멀티 채널 오디오 신호의 에너지 레벨에 최대한 근사해지도록 잔향 신호의 레벨을 조정할 수 있다.

그리고, 디코딩 장치(200)는 레벨이 조정된 잔향 신호와 리패닝된 신호를 이용하여 멀티 채널 오디오 신호를 복원할 수 있다(S550).

일례로, 디코딩 장치(200)는 수학식 6과 같이, 레벨이 조정된 잔향 신호와 리패닝된 신호를 가산함으로써 멀티 채널 오디오 신호를 복원할 수 있다. 이에 따라, 패닝 게인 또는 원본 멀티 채널 오디오 신호의 PAR와 관계없이 멀티 채널 오디오 신호가 복원될 수 있다. 이때, 복원된 멀티 채널 오디오 신호의 PAR는 원본 멀티 채널 오디오 신호의 PAR와 동일하거나, 또는 근사한 값을 가질 수 있다.

지금까지, 설명의 편의를 위해, 멀티 채널 오디오 신호가 2 채널로 구성된 경우에 공간 파라미터를 이용하여 멀티 채널 오디오 신호를 복원하는 것에 대해 설명하였으나, 이는 실시예에 해당되며, 멀티 채널 오디오 신호는 3 채널 이상으로 구성될 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 인코딩 장치
200: 디코딩 장치
110, 210: T/F 변환부
120, 220: 서브밴드 분석부
130: 다운믹싱부
140, 270: 서브밴드 합성부
150, 280: F/T 변환부
230: 리패닝부
240: 디코릴레이터
250: 후처리부
260: 가산부

Claims

원본 멀티 채널 오디오 신호에서 분리된 패닝 신호, 상기 패닝 신호의 방향 정보, 및 상기 패닝 신호의 에너지 정보를 수신하는 단계;
상기 방향 정보를 이용하여 상기 패닝 신호를 리패닝하는 단계;
상기 패닝 신호를 이용하여 잔향 신호를 생성하는 단계;
상기 방향 정보 및 상기 에너지 정보를 이용하여 상기 잔향 신호의 레벨을 조정하는 단계; 및
상기 레벨이 조정된 잔향 신호와 상기 리패닝된 패닝 신호를 이용하여 원본 멀티 채널 오디오 신호를 복원하는 단계
를 포함하고,
상기 에너지 정보는,
상기 패닝 신호의 에너지와 잔향 신호의 에너지 간의 비를 나타내는 PAR(Principal to Ambient energy Ratio)을 포함하는 멀티 채널 오디오 디코딩 방법.
제1항에 있어서,
상기 잔향 신호의 레벨을 조정하는 단계는,
복원될 멀티 채널 오디오 신호의 에너지 레벨이 원본 멀티 채널 오디오 신호의 에너지 레벨과 동일해지도록 상기 잔향 신호의 레벨을 조정하는 멀티 채널 오디오 디코딩 방법.
제1항에 있어서,
상기 잔향 신호를 생성하는 단계는,
채널 별 잔향 신호 간의 상관도가 제거되도록 상기 잔향 신호를 생성하는 멀티 채널 오디오 디코딩 방법.
제1항에 있어서,
상기 패닝 신호를 리패닝하는 단계는,
리패닝된 패닝 신호가 음원 공간 상에서 원본 멀티 채널 오디오 신호와 동일한 방향성을 가지도록 리패닝하는 멀티 채널 오디오 디코딩 방법.
제1항에 있어서,
상기 패닝 신호를 주파수 영역 상의 제한된 개수의 서브 밴드들로 분리하는 단계
를 더 포함하고,
상기 패닝 신호를 리패닝하는 단계는,
서브 밴드들로 분리된 패닝 신호를 리패닝하는 멀티 채널 오디오 디코딩 방법.
제5항에 있어서,
복원한 멀티 채널 오디오 신호를 기정의된 서브 밴드 별로 합성하여 각 서브 밴드별 멀티 채널 오디오 신호를 계산하는 단계
를 더 포함하는 멀티 채널 오디오 디코딩 방법.
제1항에 있어서,
상기 방향 정보는,
원본 멀티 채널 오디오 신호의 채널별 패닝 게인(Panning Gain)을 이용하여 획득된 방향각을 포함하는 멀티 채널 오디오 디코딩 방법.
원본 멀티 채널 오디오 신호로부터 잔향 신호와 원본 멀티 채널 오디오 신호에서 방향성을 갖는 패닝 신호를 분리하는 단계;
원본 멀티 채널 오디오 신호로부터 방향 정보 및 에너지 정보를 추출하는 단계; 및
상기 방향 정보, 상기 에너지 정보 및 상기 패닝 신호를 전송하는 단계
를 포함하고,
상기 에너지 정보는,
상기 패닝 신호의 에너지와 상기 잔향 신호의 에너지 간의 비를 나타내는 PAR을 포함하는 멀티 채널 오디오 인코딩 방법.
제8항에 있어서,
상기 분리하는 단계는
원본 멀티 채널 오디오 신호의 채널 별로 고유값(eigenvalue) 및 고유벡터(eigenvector)를 계산하고, 상기 고유값들 중 가장 큰 고유값에 해당하는 고유 벡터를 이용하여 프로젝션(projection)된 신호를 패닝 신호로 분리하는 멀티 채널 오디오 인코딩 방법.
제8항에 있어서,
상기 추출하는 단계는,
원본 멀티 채널 오디오 신호에서 패닝 기법에 의해 공간적으로 인지되는 방향을 나타내는 방향각을 계산하여 상기 방향 정보로 추출하는 멀티 채널 오디오 인코딩 방법.
제8항에 있어서,
원본 멀티 채널 오디오 신호들을 복수의 서브 밴드들로 분리하는 단계
를 더 포함하고,
상기 분리하는 단계는,
서브 밴드들로 분리된 원본 멀티 채널 오디오 신호로부터 잔향 신호와 패닝 신호를 분리하며,
상기 추출하는 단계는,
서브 밴드들로 분리된 원본 멀티 채널 오디오 신호로부터 방향 정보 및 에너지 정보를 추출하는 멀티 채널 오디오 인코딩 방법.
제11항에 있어서,
상기 서브 밴드들 별로 상기 패닝 신호를 합성하여 서브밴드 별 패닝 신호를 계산하는 단계
를 더 포함하는 멀티 채널 오디오 인코딩 방법.