KR20100114450A

KR20100114450A - 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치

Info

Publication number: KR20100114450A
Application number: KR1020090116017A
Authority: KR
Inventors: 서정일; 백승권; 강경옥; 홍진우; 김진웅; 김광기; 한민수
Original assignee: 한국전자통신연구원
Priority date: 2009-04-15
Filing date: 2009-11-27
Publication date: 2010-10-25
Also published as: KR101387808B1

Abstract

가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 방법 및 장치가 개시된다. 고품질 다객체 오디오 부호화/복호화 장치는, 객체 신호와 가수의 보컬 같은 특정 객체를 나누어 처리하여 객체 기반 오디오 부호화/복호화 장치의 효율성을 높일 수 있다. 또한, 특정 객체 신호의 제어를 위해 사용되는 잔차 신호 부호화의 효율성을 높이기 위하여 가변 비트율을 이용한 잔차 신호 부호화를 제안함으로써 고정 비트율을 사용하는 경우와 같은 성능을 얻을 수 있다.

객체 기반 오디오 부호화, 복호화 장치, 잔차 신호(Residual Signal) 부호화

Description

가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치{APPARATUS FOR HIGH QUALITY MULTIPLE AUDIO OBJECT CODING AND DECODING USING RESIDUAL CODING WITH VARIABLE BITRATE}

본 발명은 다객체 오디오 부호화 및 복호화 장치에 관한 것으로, 잔차 신호를 이용하여 타겟 오디오 객체 신호를 제어함으로써 타겟 오디오 객체 신호의 음질을 향상시킬 수 있는 다객체 오디오 부호화 장치 및 복호화 장치에 관한 것이다.

본 발명은 방송통신위원회, 지식경제부 및 한국산업기술평가관리원의 IT 원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2008-F-011-01, 과제명: 차세대 DTV 핵심기술 개발(표준화연계)-무안경 개인형 3D 방송기술개발(계속)].

기존의 다객체 오디오 부호화기술은 입력된 오디오 객체 신호를 한번에 처리하는 구조를 가진다. 이로 인해, 오디오 객체 신호의 일반적인 제어에는 문제가 없으나, 가수의 보컬과 같은 타겟 오디오 객체 신호를 제어함에 있어서 음질 열화가 발생한다.

이에 따라, 일반적인 오디오 객체 신호뿐만 아니라, 타겟 오디오 객체 신호 역시 제어하여 타겟 오디오 객체 신호의 음질을 향상시킬 수 있는 객체 기반의 오디오 부호화 및 복호화 기술의 연구가 진행되고 있다. 이러한, 연구를 통해 타겟 오디오 객체 신호의 음질을 향상시키기 위한 잔차 신호 부호화 기술이 개발되었다. 기존의 잔차 신호 부호화 기술은, 고정된 높은 비트율을 사용하여 타겟 오디오 객체 신호의 음질을 향상시킴으로써 대역폭이 증가되는 문제점을 가진다.

따라서, 타겟 오디오 객체 신호의 음질을 향상시키면서 대역폭의 사용을 감소시킬 수 있는 개체 기반의 오디오 부호화 및 복호화 기술이 요구된다.

본 발명은 잔차 신호를 이용하여 타겟 오디오 객체 신호를 제어함으로써 타겟 오디오 객체 신호의 음질을 향상시킬 수 있는 다객체 오디오 부호화 장치 및 복호화 장치를 제공한다.

본 발명의 일 실시예에 따른 복수의 오디오 객체 신호들을 다운믹싱(down mixing)하여 제1 다운믹스 신호를 생성하고, 복수의 오디오 객체 신호들 각각의 객체 정보를 나타내는 제1 공간 파라미터를 추출하는 제1 다객체 부호화부, 및 제1 다운믹스 신호와 적어도 하나의 타겟 오디오 객체 신호를 다운믹싱하여 제2 다운믹스 신호를 생성하고, 제1 다운믹스 신호와 타겟 오디오 객체 신호 각각의 객체 정보를 나타내는 제2 공간 파라미터를 추출할 수 있다.

또한, 제2 다운믹스 신호에 대해 신호 레벨을 조정하여 마스터링 다운믹스 신호로 대체하는 마스터링부를 더 포함할 수 있다.

이때, 제1 다객체 부호화부는, 복수의 오디오 객체 신호들 각각에 대한 객체 파워 비율(Object Power Ratio: OPR) 파라미터를 포함하는 제1 공간 파라미터를 추출할 수 있다.

또한, 제2 다객체 부호화부는, 제1 다운믹스 신호의 파워와 적어도 하나의 타겟 오디오 객체 신호의 파워를 비교한 결과인 플래그 비트를 포함하는 제2 공간 파라미터를 추출할 수 있다.

또한, 제2 다객체 부호화부는, 적어도 하나의 타겟 오디오 객체 신호의 주파수 영역의 특징에 따라 가변적으로 잔차 신호 부호화를 수행할 수 있다.

본 발명의 일 실시예에 따른 다객체 오디오 복호화 장치는, 다객체 오디오 부호화 장치로부터 수신한 제2 공간 파라미터를 통해 제2 다운믹스 신호를 복호화하여 제1 다운믹스 신호와 적어도 하나의 타겟 오디오 객체 신호를 복원하는 제1 다객체 복호화부, 및 제1 공간 파라미터를 통해 제1 다운믹스 신호를 복호화하여 오디오 객체 신호를 복원하는 제2 다객체 복호화부를 포함할 수 있다.

또한, 마스터링 다운믹스 이득 파라미터를 이용하여 다객체 오디오 부호화 장치로부터 수신한 마스터링 다운믹스 신호를 제2 다운믹스 신호로 복호화하는 마스터링 다운믹스 합성부를 더 포함할 수 있다.

이때, 마스터링 다운믹스 이득 파라미터는, 마스터링 다운믹스 신호와 제2 다운믹스 신호의 크기 차이를 나타낼 수 있다.

본 발명은 객체 기반 오디오 부호화 및 복호화 장치를 통해서 각각의 객체 신호를 하나의 다운믹스 신호와 부가 정보만을 이용하여 부호화함으로써 적은 정보량으로 객체 신호를 효율적으로 표현할 수 있다.

또한, 타겟 오디오 객체 신호의 부호화를 통해 가수의 보컬과 같은 타켓 오디오 객체 신호를 제어할 수 있다.

또한, 타겟 오디오 객체 신호의 주파수 특성을 이용하여 가변적으로 잔차 신호를 부호화함으로써 잔차 신호 부호화의 비트율을 감소시킬 수 있다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 다객체 오디오 부호화 장치의 구성을 도시한 블럭도이다.

도 1을 참조하면, 다객체 오디오 부호화 장치(100)는 다객체 부호화부(110) 및 비트스트림 생성부(130)를 포함할 수 있다.

다객체 부호화부(Multiple Audio Object Coding Encoder: 110)에는 다운믹스 신호(Downmix Signal)와 공간 파라미터로 구성된 복수의 오디오 객체 신호들이 입력된다. 여기서, 공간 파라미터는, 입력되는 복수의 오디오 객체 신호들 각각의 객체정보를 나타낼 수 있다. 이때, 비트스트림 생성부(130)는 공간 파라미터를 객체 비트스트림에 포함시켜 전송할 수 있다.

이하에서는, 도 2를 참조하여 다객체 부호화부에 대해 상세히 설명하기로 한다.

도 2는 다객체 부호화부의 구성을 도시한 블록도이다.

도 2를 참조하면, 다객체 부호화부(200)는 시간/주파수 변환부(210), 파라미터 예측(220), 다운믹스 신호 생성부(230), 주파수/시간 변환부(240), 파라미터 양자화(250), 및 무손실 부호화(260)를 포함할 수 있다.

다객체 부호화부(200)로 입력되는 복수의 오디오 객체 신호들은 시간/주파수 변환부(210)를 통해 주파수 영역으로 변환될 수 있다. 주파수 영역으로 변환된 복수의 오디오 객체 신호들에 대해 파라미터 예측(220)이 수행될 수 있다. 여기서, 객체 정보를 나타내는 공간 파라미터는 객체 파워 비율(Object Power Ratio: OPR) 파라미터를 포함할 수 있다.

이때, 특정 서브 밴드에서의 OPR 파라미터는 아래의 수학식 1을 이용하여 계산될 수 있다.

다운믹스 신호 생성부(230)는 주파수 영역으로 변환된 복수의 오디오 객체 신호들 각각에 대한 다운믹싱 정보를 이용하여 다운믹스 신호를 생성할 수 있다. 일예로, 다운믹싱 정보가 아래의 수학식 2와 같은 다운믹스 매트릭스(Downmix Matrix)인 경우, 다운믹스 신호 생성부(230)에서 다운믹스 매트릭스를 이용하여 생성한 다운믹스 신호를 아래의 수학식 3과 같다.

여기서, N은 전체 객체의 수이고, Obj는 오디오 객체 신호를 나타낼 수 있다.

이때, 다운믹스 신호 생성부(230)는 시간 영역 및 주파수 영역 모두에서 다운믹싱을 수행할 수 있다. 또한, 다운믹스 신호 생성부(230)는 시간 영역 또는 주파수 영역 중 어느 하나에서 다운믹싱을 수행할 수 있다. 이때, 연산량을 고려하여 출력되는 다운믹스 신호에 대해서는 시간 영역에서 다운믹싱이 수행될 수 있다. 이와 같이, 주파수/시간 변환부(240)는 주파수 영역의 다운믹스 신호를 시간 영역으로 변환하여 출력할 수 있다.

한편, 파라미터 예측(220)을 통해 생성된 공간 파라미터들은 파라미터 양자화(250) 및 무손실 부호화(Lossless Coding: 260)를 수행하여 최소의 비트로 표현될 수 있다. 이때, 무손실 부호화 기법으로는 허프만 부호화 또는 산술 부호화(Arithmetic Coding) 등이 이용될 수 있다.

도 3은 타겟 오디오 객체 신호의 음질을 보완할 수 있는 다객체 오디오 부호화 장치의 구성을 도시한 블록도이다. 도 3의 다객체 오디오 부호화 장치는 가라오케 모드 또는 가수의 보컬 재생 모드와 같은 타겟 객체 신호를 제어할 수 있도록 도 1의 다객체 오디오 부호화 장치에 제2 다객체 오디오 부호화부를 추가하여 구성될 수 있다.

도 3을 참조하면, 다객체 오디오 부호화 장치(300)는 제1 다객체 부호화부(310), 제2 다객체 부호화부(330), 및 비트스트림 생성부(350)를 포함할 수 있다.

제1 다객체 부호화부(310)는 복수의 오디오 개체 신호들을 다운믹싱하여 제1 다운믹스 신호를 생성할 수 있다. 또한, 제1 다객체 부호화부(310)는 복수의 오디오 객체 신호들 각각의 객체 정보를 나타내는 제1 공간 파라미터를 생성할 수 있다. 여기서, 제1 다객체 부호화부(310)는 도 1의 다객체 부호화부(110)와 동일하므로 자세한 설명은 생략하기로 한다.

제2 다객체 부호화부(330)는 입력된 제1 다운믹스 신호와 타겟 오디오 객체 신호를 다운믹싱하여 제2 다운믹스 신호를 생성할 수 있다. 또한, 제2 다객체 부호화부(330)는 제1 다운믹스 신호와 타겟 오디오 객체 신호 각각의 객체 정보를 나타내는 제2 공간 파라미터를 생성할 수 있다.

여기서, 제2 공간 파라미터는, 객체 파워 비율(OPR) 파라미터 및 잔차 신호를 포함할 수 있다. 즉, 도 1의 다객체 부호화부(110)에서 이용된 OPR 파라미터가 제2 다객체 부호화부(330)에서 이용될 수 있다. 이때, 도 1의 다객체 부호화부(110)에서는 복수의 오디오 객체 신호 각각에 대해 OPR 파라미터를 계산하였으나, 제2 다객체 부호화부(330)는 제1 다운믹스 신호 및 타겟 오디오 객체 신호에 대해서만 OPR 파라미터를 계산할 수 있다.

일예로, OPR 파라미터의 정의에 따라서 제1 다운믹스 신호의 파워 및 타겟 오디오 객체 신호의 파워 중 큰 신호의 OPR은 1이 될 수 있다. 이에 따라, 제2 다 객체 부호화부(330)는 1이 아닌 OPR 파라미터만 양자화하여 전송할 수 있다. 이를 통해, 1인 OPR 파라미터는 플래그 비트를 이용하여 비트율을 감소시킬 수 있다.

즉, 아래의 표1과 같이, 타겟 오디오 객체 신호의 파워(P_T)가 제1 다운믹스 신호의 파워(P_G)보다 큰 경우, 제2 다객체 부호화부(330)는 플래그 비트를 1로 설정하여 전송할 수 있다. 이때, 제2 다객체 부호화부(330)는 타겟 오디오 객체 신호의 파워(P_T)로 제1 다운믹스 신호의 파워(P_G)를 나눔으로써 OPR 파라미터를 계산할 수 있다.

또한, 아래의 표1과 같이, 타겟 오디오 객체 신호의 파워(P_T)가 제1 다운믹스 신호의 파워(P_G)보다 작은 경우, 제2 다객체 부호화부(330)는 플래그 비트를 0으로 설정하여 전송할 수 있다. 이때, 제2 다객체 부호화부(330)는 제1 다운믹스 신호의 파워(P_G)로 타겟 오디오 객체 신호의 파워(P_T)를 나눔으로써 OPR 파라미터를 계산할 수 있다.

	플래그 비트	타겟 오디오 객체 신호의 OPR 파라미터
타겟 오디오 객체 신호의 파워(P_T) > 제1 다운믹스 신호의 파워(P_G)	1	OPR_T=P_G/P_T
타겟 오디오 객체 신호의 파워(P_T) < 제1 다운믹스 신호의 파워(P_G)	0	OPR_T=P_T/P_G

제2 다객체 부호화부(330)는 계산된 타겟 오디오 객체 신호의 OPR 파라미터(OPR_T), 타겟 오디오 객체 신호의 이득(G_T), 및 제1 다운믹스 신호의 이득(G_D)을 이용하여 잔차 신호(Residual Signal)를 추출할 수 있다. 이때, 제2 다객체 부호화부(330)는 아래의 표2 및 수학식 4를 이용하여 잔차 신호(Res)를 추출할 수 있다. 여기서, 잔차 신호는 타겟 오디오 객체 신호의 음질을 향상시키기 위해 이용될 수 있다.

플래그 비트	제1 다운믹스 신호의 이득	타겟 오디오 객체 신호의 이득
1
0

여기서, D_T는 제2 다객체 부호화부(330)에서 생성된 주파수 영역에서의 다운믹스 신호를 나타낼 수 있다. 즉, D_T는 제2 다운믹스 신호를 나타낼 수 있다.

제2 다객체 부호화부(330)에서 추출된 잔차 신호는 전체 주파수 대역을 사용하지 않고, 사람의 청각 특성을 반영하여 중요한 주파수 대역의 중심 주파수인 fc KHz까지만 부호화를 수행하기 위해 이용될 수 있다. 또한, 제2 다객체 부호화부(330)는 고음질을 위하여 채널당 bpc kbps를 사용하여 잔차 신호 부호화를 수행할 수 있다. 또한, 제2 다객체 부호화부(330)는 bpc/2 kbps와 3*bpc/4 kbps의 비트율을 이용하여 잔차 신호 부호화를 수행할 수 있다.

일예로, 입력된 오디오 객체 신호의 표본화 주파수(Sampling rate)가 44.1kHz인 경우, 표본화 주파수의 1/8에 해당하는 5.5kHz를 fc로 사용하고, 채널당 잔차 신호 부호화 비트율(bpc, Bitrate Per Channel)은 20kbps를 사용하면 적절한 대역폭을 유지하면서 만족스러운 음질을 얻을 수 있다.

다른 예로, 채널당 20kbps의 고정된 비트율을 이용하여 잔차 신호 부호화를 수행하는 경우, 타겟 오디오 객체 신호를 거의 완벽하게 제어할 수 있을 뿐만 아니라, 고음질을 얻을 수 있으나 비트율이 높다. 또한, 베이스(Bass)와 같이 주파수 대역이 좁은 객체 신호는 20 kbps 이하의 비트율 만으로도 충분한 음질을 얻을 수 있다.

이에 따라, 비트율을 줄이면서 음질을 향상시킬 수 있도록 타겟 오디오 객체 신호의 주파수 영역에서의 특징에 따라 가변적인 비트율로 잔차 신호를 부호화하는 방법이 다객체 오디오 부호화 장치에 적용될 수 있다. 여기서, 타겟 오디오 객체 신호는, 가수의 보컬, 기타, 베이스, 드럼 등의 다양한 악기를 포함할 수 있다. 이때, 타겟 오디오 객체 신호 각각은 서로 다른 주파수 특성을 가질 수 있다.

제2 다객체 부호화부(330)는 제어하고자 하는 타겟 오디오 객체 신호의 주파수 분석을 통해서 잔차 신호 부호화의 비트율을 결정할 수 있다. 이때, 타겟 오디오 객체 신호의 주파수 분석은 표 1을 참조하여, 제1 다운믹스 신호의 파워와 타겟 오디오 객체 신호의 파워를 이용하여 계산된 OPR 파라미터를 이용하여 수행될 수 있다.

여기서, 타겟 오디오 객체 신호의 이득은 OPR 파라미터를 이용하여 계산되므로, 계산된 타겟 오디오 객체 신호의 이득을 이용하여 타겟 오디오 객체 신호가 존재하는 주파수 대역이 결정될 수 있다.

일예로, 제2 다객체 부호화부(330)는 전체 주파수 대역을 28개의 파라미터 밴드로 변환하여 OPR 파라미터를 추출할 수 있다. 이를 통해, 제2 다객체 부호화부(330)는 잔차 신호 부호화를 수행하는 20번째 파라미터 밴드까지 OPR 파라미터의 값, 타겟 오디오 객체 신호의 주파수 대역 및 비트율이 아래의 표3과 같이 결정할 수 있다.

OPR 값	주파수 대역	비트율
1에서 20밴드까지 모든 OPR 0	0	0 kbps
13에서 20밴드까지 모든 OPR 0	0 - 1.375 kHz	10 kbps
16에서 20밴드까지 모든 OPR 0	0 - 2.750 kHz	15 kbps
위 세 가지 이외의 경우	0 - 5.500 kHz	20 kbps

위의 표 3에 따르면, 제2 다객체 부호화부(330)는 1에서 20까지의 파라미터 밴드(MPEG Surround의 파라미터 밴드와 유사한 밴드)에서 OPR 값이 존재하는 파라미터 밴드를 조사할 수 있다. 그러면, 제2 다객체 부호화부(330)는 타겟 오디오 객체 신호가 각 파라미터 밴드에 해당하는 주파수 성분을 포함하고 있는지 아닌지를 판단할 수 있다.

일예로, 1에서 20까지의 모든 파라미터 밴드 내에서 OPR 값이 0인 경우, 제2 다객체 부호화부(330)는 타겟 오디오 객체 신호는 존재하지 않는 것으로 판단할 수 있다. 이에 따라, 제2 다객체 부호화부(330)는 잔차 신호 부호화를 수행하지 않을 수 있다.

또한, 13에서 20 밴드까지의 OPR 값이 0인 경우, 타겟 오디오 객체 신호는 1.375kHz까지의 주파수 성분을 포함하는 것으로 판단할 수 있다. 이에 따라, 제2 다객체 부호화부(330)는 10kHz까지만 대역폭을 사용하여 잔차 신호 부호화를 수행할 수 있다.

이러한 방법으로, 제2 다객체 부호화부(330)는 입력되는 타겟 오디오 객체 신호의 완벽한 제어를 위한 잔차 신호의 부호화를 가변적 비트율을 이용하여 20kbps보다 작은 비트율로 수행할 수 있다. 이때, 가변적 잔차 신호 부호화는 전송되는 OPR 파라미터 만을 이용하여 비트율을 결정하므로 추가적인 비트를 필요로 하지 않을 수 있다.

일예로, 다객체 오디오 부호화 장치에서 OPR 파라미터를 이용하여 결정된 비트율을 이용하여 잔차 신호를 부호화하여 복호화 장치에 전송하면, 다객체 오디오 복호화 장치는 수신된 OPR 파라미터를 이용하여 잔차 신호 부호화에 사용된 비트율을 결정할 수 있다. 그러면, 다객체 오디오 복호화 장치는 결정된 비트율로 잔차 신호 복호화를 수행할 수 있다. 이를 통해, 20kbps보다 작은 비트율을 사용하여 가변적인 비트율로 잔차 신호를 부호화하는 경우, 20kbps로 고정된 비트율을 사용하는 경우와 동일한 음질 및 타겟 객체 신호의 제어 효과를 얻을 수 있다.

비트스트림 생성부(350)는 제1 다객체 부호화부(310)에서 생성된 제1 공간 파라미터 및 제2 다객체 부호화부(330)에서 생성된 제2 공간 파라미터를 객체 비트스트림에 포함시켜 전송할 수 있다. 여기서, 제2 공간 파라미터는, 객체 파워 비율(OPR) 파라미터 및 잔차 신호를 포함할 수 있다.

지금까지, 생활 잡음, 새, 비, 개울물 등의 일반적인 오디오 객체 신호와 타겟 오디오 객체 신호를 각각 제1 다객체 부호화부(310) 및 제2 다객체 부호화부(330)에서 나누어 처리하는 과정에 대해 설명하였다. 이하에서는 도 4를 참조하여, 마스터링 다운믹스 신호를 이용하여 다객체 오디오 부호화를 수행하는 과정에 대해 설명하기로 한다.

도 4는 마스터링 다운믹스 신호를 이용한 다객체 오디오 부호화 장치의 구성을 도시한 블록도이다.

도 4를 참조하면, 다객체 오디오 부호화 장치(400)는 제1 다객체 부호화부(410), 제2 다객체 부호화부(430), 마스터링부(450), 및 비트스트림 생성부(470)를 포함할 수 있다. 여기서, 제1 및 제2 다객체 부호화부(410, 430)는 도 3과 동일하므로 자세한 설명은 생략하기로 한다.

마스터링부(450)는 제2 다객체 부호화부(430)에서 생성된 제2 다운믹스 신호에 대해 신호 레벨을 조정하여 마스터링 다운믹스 신호(Mastering Downmix Signal)로 대체하여 출력할 수 있다. 즉, CD와 같은 음질의 다운믹스 신호를 제공하기 위하여 제2 다운믹스 신호는 마스터링 다운믹스 신호로 대체될 수 있다. 여기서, 마스터링 다운믹스 신호는, 믹싱을 통해 생성되는 믹싱 다운믹스 신호에 대해 신호의 레벨을 조절하여 생성될 수 있다. 일예로, CD 플레이어에서 듣는 오디오 신호가 마스터링 다운믹스 신호가 될 수 있다.

이때, 객체 기반 오디오 부호화 및 복호화 장치에서는, 마스터링 다운믹스 신호를 일반적인 다운믹스 신호 대신 사용하여 복호화 장치에서 재생되거나 마스터링 다운믹스 신호를 조절하여 일반적인 다운믹스 신호를 생성할 수 있다. 이를 위하여, 일반적인 다운믹스 신호와 마스터링 다운믹스 신호의 크기 차이를 나타내는 마스터링 다운믹스 이득 파라미터가 이용될 수 있다. 이때, 마스터링 다운믹스 이득 파라미터(MGD)는 아래의 수학식 5를 이용하여 계산될 수 있다.

여기서, P_M은 제2 다운믹스 신호의 파워이고, P_D는 입력되는 마스터링 다운믹스 신호의 파워이다.

비트스트림 생성부(470)는 제1 공간 파라미터, 제2 공간 파라미터, 및 마스터링부(450)에서 생성된 마스터링 다운믹스 이득 파라미터를 객체 비트스트림에 포함시켜 전송할 수 있다.

도 5는 본 발명의 일 실시예에 따른 다객체 오디오 복호화 장치의 구성을 도시한 블럭도이다.

도 5를 참조하면, 다객체 오디오 복호화 장치(500)는 비트스트림 처리부(510), 마스터링 다운믹스 합성부(520), 제1 다객체 복호화부(530), 제2 다객체 복호화부(540), 및 렌더링부(550)를 포함할 수 있다

비트스트림 처리부(510)는 다객체 오디오 부호화 장치로부터 전송된 객체 비트스트림으로부터 제1 및 제2 공간 파라미터, 마스터링 다운믹스 이득 파라미터를 추출할 수 있다. 여기서, 제2 공간 파라미터는, OPR 및 잔차 신호를 포함할 수 있다.

마스터링 다운믹스 합성부(520)는 추출된 마스터링 다운믹스 이득 파라미터를 이용하여 다객체 오디오 부호화 장치(400)로부터 수신된 복수의 마스터링 다운 믹스 신호들을 합성하여 제2 다운믹스 신호를 복원할 수 있다. 이때, 제2 다운믹스 신호(

)는 아래의 수학식 6을 이용하여 복원될 수 있다.

여기서, DM은 마스터링 다운믹스 신호, MGD는 마스터링 다운믹스 이득 파라미터이다.

그러면, 제1 다객체 복호화부(530)는 제2 공간 파라미터를 이용하여 복원된 제2 다운믹스 신호를 복호화하여 제1 다운믹스 신호와 타겟 오디오 객체 신호를 복원할 수 있다. 이때, 제1 다객체 복호화부(530)는 제2 공간 파라미터에 포함된 OPR 및 잔차 신호를 이용하여 제2 다운믹스 신호를 합성함으로써 제1 다운믹스 신호와 타겟 오디오 객체 신호를 복원할 수 있다.

즉, 제1 다객체 복호화부(530)는 표 3을 이용하여 잔차 신호 부호화를 위한 비트율을 결정하고, 결정된 비트율로 잔차 신호를 복원할 수 있다. 그러면, 제1 다객체 복호화부(530)는 표 2를 이용하여 타겟 오디오 객체 신호와 제1 다운믹스 신호의 이득을 계산할 수 있다. 이를 통해, 아래의 수학식 7과 같이, 제1 다객체 복호화부(530)는 타겟 오디오 객체 신호 및 제1 다운믹스 신호를 복원할 수 있다.

여기서, Obj_T는 타겟 오디오 객체 신호, Obj_D는 제1 다운믹스 신호, D_T는 제2 다운믹스 신호, G_T는 타겟 오디오 객체 신호, G_D는 제2 다운믹스 오디오 신호의 이득,

는 복원된 잔차 신호이다.

제2 다객체 복호화부(540)는 제1 공간 파라미터를 이용하여 제1 다운믹스 신호를 복호화하여 복수의 오디오 객체 신호들을 복원할 수 있다. 여기서, 제1 공간 파라미터는 복수의 오디오 객체 신호들 각각의 OPR 파라미터를 포함할 수 있다. 즉, 제2 다객체 복호화부(540)는 아래의 수학식 8과 같이, OPR 파라미터를 이용하여 복수의 오디오 객체 신호들을 복원할 수 있다.

그러면, 렌더링부(550)는 사용자 제어 정보를 이용하여 제1 다객체 복호화부(530)에서 복원된 타겟 오디오 객체 신호 및 제2 다객체 복호화부(540)에서 복원된 복수의 오디오 객체 신호들을 렌더링하여 재생할 수 있는 형태의 출력 신호를 생성할 수 있다. 이때, 사용자 제어 정보는 사용자로부터 입력되거나 렌더링 매트릭스(Rendering Matrix)를 의미할 수 있다.

한편, 마스터링 다운믹스 신호를 사용하지 않는 경우, 도 5의 다객체 오디오복호화 장치에서 마스터링 다운믹스 합성부(520)가 생략될 수 있다.

다른 한편, 본 발명의 일 실시예에 따른 다객체 오디오 부호화 장치에서, 타 겟 오디오 객체 신호를 부호화하는 과정에서 생성되는 잔차 신호의 부호화는 AAC, AMR-WB+ 등의 일반적인 오디오 부호화기를 이용하여 수행될 수 있다.

이 경우, 제2 다객체 오디오 부호화부 안에 잔차 신호 부호화부가 포함되어 잔차 신호 부호화를 수행함에 따라 복잡도가 커질 수 있다. 또한, 잔차 신호는 제1 다객체 오디오 복호화부(530)에서 복원된 타겟 오디오 객체 신호 또는 제1 다운믹스 신호에 대해 주파수 영역에서 더해지거나 빼지므로 복잡도를 고려하여 주파수 영역에서 복호화되는 것이 유리할 수 있다. 즉, 도 6 및 도 7을 참조하여 잔차 신호를 부호화 및 복호화하는 과정에 대해 자세히 설명하기로 한다.

도 6은 잔차 신호 부호화부의 구성을 도시한 블록도이다.

도 6에 따르면, LPF(Low Pass Filter: 610)는 제2 다객체 부호화부(330)에서 생성된 주파수 영역에서의 잔차 신호를 입력받아 저주파 통과 필터링(5.5 kHz)을 수행할 수 있다. 여기서, 잔차 신호는, 타겟 객체 오디온 신호와 복원된 타겟 오디오 객체 신호 간의 차이를 나타낼 수 있다.

그러면, 저주파 통과 필터링된 잔차 신호는 LP 분석(Linear Prediction Analysis)을 위해 이산 퓨리에 변환부(IDFT: 620) 및 LP 잔차 신호 계산부(640)으로 입력될 수 있다. 이산 퓨리에 변환부(IDFT: 620)는 잔차 신호를 주파수 영역에서 시간 영역으로 변환할 수 있다. 여기서, 시간 영역으로 변환된 잔차 신호는 대역폭이 5.5 kHz로 제한될 수 있다.

LP 분석부(Linear Prediction Analysis: 630)는 LP 분석을 통해 시간 영역으로 변환된 잔차 신호로부터 LPC(Linear Prediction Coefficient)를 추출할 수 있 다.

LSF 변환부(640)는 추출된 LPC를 LSF(Linear Prediction Frequencies)로 변환할 수 있다. 그러면, 변환된 LSF는 LSF 양자화(650)를 통해 양자화되어 잔차 신호 복호화부로 전송될 수 있다. 즉, LSF 변환부(640)는 양자화된 LSF-Q 인덱스를 잔차 신호 복호화부로 전송할 수 있다. 이때, 양자화된 LSF(LSF-Q 인덱스)는 LSF 역양자화(660)를 통해 역양자화될 수 있다.

LPC 변환부(670)는 역양자화된 LSF를 LPC로 다시 변환할 수 있다. 그러면, LPC 스팩트럼 계산부(680)는 변환된 LPC를 이용하여 LPC 스팩트럼을 계산할 수 있다.

LP 잔차 신호 생성부(690)는 LPC 스팩트럼을 이용하여 주파수 영역의 잔차 신호와 함께 LP 잔차 신호를 생성할 수 있다. 그러면, 생성된 LP 잔차 신호는 도 3의 제2 다객체 부호화부(330)에서 결정된 비트율을 이용하여 modified TCX(Transform Coded eXitation) 부호화(695)를 통해 LVQ(Lattice Vector Quantization) 인덱스, 이득 팩터(Gain Factor), 및 잡음 팩터(Noise Factor)로 양자화되어 잔차 신호 복호화부(700)로 전송될 수 있다.

도 7은 잔차 신호 복호화부의 구성을 도시한 블록도이다.

도 7에 따르면, 잔차 신호 복호화부(700)는 잔차 신호 부호화부(600)로부터 수신된 LSF-Q 인덱스, LVQ(Lattice Vector Quantization) 인덱스, 이득 팩터(Gain Factor), 및 잡음 팩터(Noise Factor)를 이용하여 주파수 영역에서의 잔차 신호를 생성할 수 있다.

LSF 역양자화(S710)는 잔차 신호 부호화부(600)로부터 수신된 LSF-Q 인덱스를 이용하여 역양자화하여 LSF를 복원할 수 있다. 그러면, LPC 변환부(720)는 LSF를 LPC로 변환할 수 있다.

LPC 스팩트럼 계산부(730)는 변환된 LPC를 이용하여 LPC 스팩트럼을 계산할 수 있다.

LP 합성부(740)는 LP 스팩트럼을 이용하여 복원된 LP 잔차 신호를 주파수 영역에서 LP 합성하여 잔차 신호 부호화부(600)에서 부호화된 잔차 신호를 복원할 수 있다. 이때, 복원된 LP 잔차 신호는 잔차 신호 부호화부(600)로부터 수신한 LVQ(Lattice Vector Quantization) 인덱스, 이득 팩터(Gain Factor), 및 잡음 팩터(Noise Factor)를 이용하여 modified TCX 복호화(750)를 통해 생성될 수 있다.

잔차 신호 복호화부(700)를 통해 복원된 잔차 신호는 주파수 영역의 신호이므로 제1 다객체 복호화부(520)에 바로 적용될 수 있다. 이를 통해, 생성된 타겟 오디오 객체 신호와 제1 다운믹스 신호의 음질 열화를 최소화할 수 있다.

지금까지, 도 3 및 도 4에서는 잔차 신호 부호화를 제2 다객체 부호화부(330, 430)에서 수행하는 것으로 설명하였으나, 이는 설명의 편의를 위한 실시예에 해당되며, 실질적으로 잔차 신호 부호화는 제2 다객체 부호화부(330, 430)에 포함된 잔차 신호 부호화부(600)에서 수행할 수 있다.

또한, 도 5에서는 잔차 신호 복호화를 제1 다객체 복호화부(530)에서 수행하는 것으로 설명하였으나, 이는 설명의 편의를 위한 실시예에 해당되며, 실질적으로 잔차 신호 복호화는 제1 다객체 복호화부(530)에 포함된 잔차 신호 복호화부(700) 에서 수행할 수 있다.

이상에서는, 설명의 편의를 위해 하나의 타겟 오디오 객체 신호를 이용하는 경우의 다객체 오디오 부호화 및 복호화 장치에 대해서 설명하였으나, 이는 실시예에 해당되며, 본 다객체 오디오 부호화 및 복호화 장치는 복수의 타겟 오디오 객체 신호를 이용하여 부호화 및 복호화를 수행할 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 2는 다객체 부호화부의 구성을 도시한 블록도이다.

도 3은 타겟 오디오 객체 신호의 음질을 보완할 수 있는 다객체 오디오 부호화 장치의 구성을 도시한 블록도이다.

도 6은 잔차 신호 부호화부의 구성을 도시한 블록도이다.

도 7은 잔차 신호 복호화부의 구성을 도시한 블록도이다.

<도면의 주요 부분에 대한 부호의 설명>

310: 제1 다객체 부호화부

330: 제2 다객체 부호화부

350: 비트스트림 생성부

Claims

복수의 오디오 객체 신호들을 다운믹싱(down mixing)하여 제1 다운믹스 신호를 생성하고, 상기 복수의 오디오 객체 신호들 각각의 객체 정보를 나타내는 제1 공간 파라미터를 추출하는 제1 다객체 부호화부; 및

상기 제1 다운믹스 신호와 적어도 하나의 타겟 오디오 객체 신호를 다운믹싱하여 제2 다운믹스 신호를 생성하고, 상기 제1 다운믹스 신호와 상기 적어도 하나의 타겟 오디오 객체 신호 각각의 객체 정보를 나타내는 제2 공간 파라미터를 추출하는 제2 다객체 부호화부

를 포함하는 다객체 오디오 부호화 장치.
제1항에 있어서,

상기 제2 다운믹스 신호에 대해 신호 레벨을 조정하여 마스터링 다운믹스 신호로 대체하는 마스터링부

를 더 포함하는 다객체 오디오 부호화 장치.
제1항에 있어서,

상기 제1 다객체 부호화부는,

상기 복수의 오디오 객체 신호들 각각에 대한 객체 파워 비율(Object Power Ratio: OPR) 파라미터를 포함하는 제1 공간 파라미터를 추출하고,

상기 제2 다객체 부호화부는,

상기 제1 다운믹스 신호의 파워와 상기 적어도 하나의 타겟 오디오 객체 신호의 파워를 비교한 결과인 플래그 비트를 포함하는 제2 공간 파라미터를 추출하는 것을 특징으로 하는 다객체 오디오 부호화 장치.
제1항에 있어서,

상기 제2 다객체 부호화부는,

상기 적어도 하나의 타겟 오디오 객체 신호의 주파수 영역의 특징에 따라 가변적으로 잔차 신호 부호화를 수행하는 잔차 신호 부호화부

를 포함하는 다객체 오디오 부호화 장치.
제4항에 있어서,

상기 잔차 신호 부호화부는,

상기 제2 다운믹스 신호와 상기 제2 공간 파라미터에 포함된 객체 파워 비율(Object Power Ratio: OPR) 파라미터를 이용하여 상기 적어도 하나의 타겟 오디오 객체 신호에 대한 잔차 신호를 부호화하는 것을 특징으로 하는 다객체 오디오 부호화 장치.
제5항에 있어서,

상기 잔차 신호 부호화부는,

상기 제2 공간 파라미터에 포함된 객체 파워 비율 파라미터에 기초하여 전체 주파수 대역을 파라미터 밴드로 변환하여 상기 적어도 하나의 타겟 오디오 객체 신호가 존재하는 주파수 대역과 비트율을 결정하는 것을 특징으로 하는 다객체 오디오 부호화 장치.
다객체 오디오 부호화 장치로부터 수신한 제2 공간 파라미터를 통해 제2 다운믹스 신호를 복호화하여 제1 다운믹스 신호와 적어도 하나의 타겟 오디오 객체 신호를 복원하는 제1 다객체 복호화부; 및

제1 공간 파라미터를 통해 상기 제1 다운믹스 신호를 복호화하여 오디오 객체 신호를 복원하는 제2 다객체 복호화부

를 포함하는 다객체 오디오 복호화 장치.
제7항에 있어서,

마스터링 다운믹스 이득 파라미터를 이용하여 상기 다객체 오디오 부호화 장치로부터 수신한 마스터링 다운믹스 신호를 제2 다운믹스 신호로 복호화하는 마스터링 다운믹스 합성부

를 더 포함하고,

상기 마스터링 다운믹스 이득 파라미터는,

상기 마스터링 다운믹스 신호와 상기 제2 다운믹스 신호의 크기 차이를 나타내는 것을 특징으로 하는 다객체 오디오 복호화 장치.
제7항에 있어서,

사용자로부터 수신한 렌더링 매트릭스를 통해 상기 복호된 적어도 하나의 타겟 오디오 객체 신호 및 상기 오디오 객체 신호를 렌더링하여 사용자가 선호하는 출력 신호를 생성하는 렌더링부

를 더 포함하는 다객체 오디오 복호화 장치.
제 7항에 있어서,

상기 제1 다객체 복호화부는,

상기 제2 공간 파라미터에 포함된 객체 파워 비율 파라미터를 이용하여 상기 적어도 하나의 타겟 오디오 객체 신호가 존재하는 주파수 대역과 비트율을 결정하고, 상기 결정된 비트율을 이용하여 잔차 신호를 복원하는 잔차 신호 복호화부

를 포함하고,

상기 제2 공간 파라미터에 포함된 객체 파워 비율 파라미터를 이용하여 계산된 상기 적어도 하나의 타겟 오디오 객체 신호의 이득, 상기 복원된 잔차 신호, 및 상기 제2 다운믹스 신호를 이용하여 상기 제2 다운믹스 신호로부터 상기 적어도 하나의 타겟 오디오 객체 신호 및 상기 제1 다운믹스 오디오 신호를 복원하는 것을 특징으로 하는 다객체 오디오 복호화 장치.