KR101283783B1

KR101283783B1 - 고품질 다채널 오디오 부호화 및 복호화 장치

Info

Publication number: KR101283783B1
Application number: KR1020090120078A
Authority: KR
Inventors: 서정일; 유재현; 강경옥
Original assignee: 한국전자통신연구원
Priority date: 2009-06-23
Filing date: 2009-12-04
Publication date: 2013-07-08
Also published as: JP2013174891A; JP2011008258A; KR20100138716A

Abstract

고품질 다채널 오디오 부호화 및 복호화 장치가 개시된다. 고품질 다채널 오디오 부호화 및 복호화 장치는, 입력되는 오디오 신호의 특성에 따라서 채널 기반 오디오 부호화 또는 채널 기반 오디오 복호화를 수행하여 하위 채널과의 호환성을 제공할 수 있다.

객체 기반 오디오 부호화, 채널 기반 오디오 부호화, 5.1채널과 호환, 고품질 다채널 오디오 코덱

Description

고품질 다채널 오디오 부호화 및 복호화 장치{APPARATUS FOR HIGH QUALITY MULTICHANNEL AUDIO CODING AND DECODING }

본 발명은 고품질 다채널 오디오 부호화 및 복호화 장치에 관한 것으로, 입력되는 오디오 신호의 특성에 따라서 오디오 신호 부호화를 다르게 수행하는 오디오 부호화 및 복호화 장치에 관한 것이다.

본 발명은 방송통신위원회, IT 원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다 [과제관리번호: 2008-F-011-01, 과제명: 차세대 DTV 핵심기술 개발(표준화연계)-무안경 개인형 3D 방송기술개발(계속)].

5.1 채널과 같은 다채널 오디오 신호는 효율적으로 방송망을 통해 전송되거나 DVD 또는, 블루레이(Blue-ray)와 같은 광학 미디어에 저장되기 위해 압축, 부호화 및 복호화의 과정을 수행한다.

이러한, 압축, 부호화, 및 복호화 기술들은 심리(Psychoacoustic) 오디오 모델과 시간/주파수 변환을 이용하는 지각 오디오 부호화(Perceptual Audio Coding) 기술에 기초한다. 이때, 다채널 오디오 신호와 인접한 신호 사이의 상관도(Correlation)를 이용하는 채널 부호화 기술이 부가적으로 이용될 수 있다. 일 예로, 채널 부호화 기술에는 AC-3(또는 Dolby Digital), DTS(Digital Theater System), MPEG에서 표준화된 AAC(Advanced Audio Coding) 등이 있다. 이러한 채널 부호화 기술들은 국내외 디지털 방송 표준과 DVD, DVD-Audio, DVD-HD, 블루레이 등과 같은 광학미디어 저장 포맷 표준에 채택되어 이용된다.

최근에는, 다채널 오디오 서비스를 이동방송 또는 IPTV 등과 같이 대역폭이 제한된 환경에서 제공하기 위하여 다채널 오디오 신호가 가지는 공간 정보(Spatial Cue)를 파라미터로 표현하여 압축하는 공간 오디오 부호화(Spatial Audio Coding) 기술의 연구가 진행되고 있다. 공간 오디오 부호화 기술은, 다채널 오디오 신호를 모노 또는 스테레오 신호로 다운믹스하고, 멀티채널 오디오 신호를 복원하는데 필요한 공간 파라미터(Spatial Parameter)를 부가 정보로 부호화하는 기술이다. 공간 부호화 기술의 대표적인 예로는, MPEG Surround를 들 수 있다.

3DTV 및 UHDTV와 같은 실감 방송 환경에서 재현하고자 하는 고현장감의 실감 오디오를 제대로 표현하기 위해서는 10채널 이상의 라우드 스피커가 필요하다. 현재까지는, HDTV와 DVD에 적용된 5.1 채널이 널리 이용되고 있으나, DVD-HD, 블루레이에서는 최대 7.1 채널까지 지원이 가능하다. 더욱이, 극장과 같은 대규모 오디오 공간에서 궁극의 음장감을 제공하기 위해 100 채널 이상의 라우드 스피커가 이용되기도 한다.

그러나, 대부분의 일반 가정에서 이용하는 TV 및 라디오는 2채널의 라우드 스피커를 이용하고 있으며, HDTV 및 DVD가 보편화되면서 5.1 채널을 재생할 수 있게 되었다.

일예로, 도 1과 같은 채널 인코더를 통해 10 채널 이상의 다채널 오디오 신호를 압축하는 경우, 5.1 채널 재생 단말과의 호환성을 유지하기가 어렵다.

이에 따라, 10 채널 이상 등의 다채널 오디오 신호를 압축하면서 하위 채널과의 호환성을 제공하는 다채널 오디오 부호화 및 복호화 기술이 필요하다.

본 발명은 오디오 신호의 특성에 따라 부호화를 다르게 하여 하위 채널과의 호환성을 제공하는 고품질 다채널 오디오 부호화 및 복호화 장치를 제공한다.

본 발명의 일 실시예에 따른 고품질 다채널 오디오 부호화 장치는, 입력되는 오디오 신호의 특성에 기초하여 오디오 신호에 대해 채널 기반 오디오 부호화를 수행하는 채널 기반 오디오 부호화부, 및 오디오 신호의 특성에 기초하여 오디오 신호에 대해 객체 기반 오디오 부호화를 수행하는 객체 기반 오디오 부호화부를 포함할 수 있다.

이때, 채널 기반 오디오 부호화부는, 입력되는 오디오 신호가 다채널 오디오 신호인 경우, 다채널 오디오 신호에 대해 채널 기반 오디오 부호화를 수행하여 비트스트림을 생성할 수 있다,

또한, 객체 기반 오디오 부호화부는, 입력되는 오디오 신호가 다객체 오디오 신호인 경우, 다객체 오디오 신호에 대해 객체 기반 오디오 부호화를 수행하여 비트스트림을 생성할 수 있다.

또한, 채널 기반 오디오 부호화부는, 다채널 오디오 신호를 다운믹싱(Down mixing)하여 제1 다운믹스 신호를 생성하고, 다채널 오디오 신호로부터 추출된 공간 파라미터를 부호화하여 제2 향상계층 비트스트림을 생성할 수 있다.

또한, 채널 기반 오디오 부호화부는, 제1 다운믹스 신호를 다운믹싱하여 제2 다운믹스 신호를 생성하고, 제1 다운믹스 신호와 추가 채널 신호를 합성(Mixing)하는 채널 합성부를 더 포함할 수 있다.

또한, 채널 기반 오디오 부호화부는, 합성된 제1 다운믹스 신호를 부호화하여 제1 향상계층 비트스트림을 생성하는 제1 채널 인코더를 더 포함할 수 있다.

또한, 채널 기반 오디오 부호화부는, 제2 다운믹스 신호를 부호화하여 기본계층 비트스트림을 생성하는 제2 채널 인코더를 더 포함할 수 있다.

또한, 객체 기반 오디오 부호화부는, 입력되는 오디오 신호가 다객체 오디오 신호인 경우, 다객체 오디오 신호를 믹싱(Mixing)하는 믹싱부, 믹싱된 신호를 부호화하여 기본계층 비트스트림을 생성하는 비트스트림 생성부, 및 입력된 다객체 오디오 신호들을 모노 객체, 스테레오 객체, 및 다객체 오디오 신호들로 분리하고, 기설정된 렌더링 정보를 이용하여 분리된 오디오 신호들을 다중화하여 객체계층 비트스트림을 생성하는 객체 인코더를 포함할 수 있다.

이때, 채널 기반 오디오 부호화부를 통해 생성된 제1 및 제2 향상계층 비트스트림은, 기본계층 비트스트림 구조에서 부가 데이터 영역에 포함될 수 있다.

또한, 객체 기반 오디오 부호화부를 통해 생성된 객체계층 비트스트림은, 기본계층 비트스트림 구조에서 부가 데이터 영역에 포함될 수 있다.

본 발명의 일 실시예에 따른 고품질 다채널 오디오 복호화 장치는, 고품질 다채널 오디오 부호화 장치에서 수신된 인코딩 모드에 기초하여 채널 기반 오디오 복호화를 위해 초기화를 수행하는 채널 기반 오디오 복호화부, 및 인코딩 모드에 기초하여 객체 기반 오디오 복호화를 위해 초기화를 수행하는 객체 기반 오디오 복 호화부를 포함할 수 있다.

이때, 채널 기반 오디오 복호화부는, 고품질 다채널 오디오 부호화 장치에서 수신된 프레임에 포함된 비트스트림 계층(Layer)에 기초하여 채널 기반 오디오 복호화를 수행할 수 있다.

또한, 객체 기반 오디오 복호화부는, 비트스트림 계층에 기초하여 객체 기반 오디오 복호화를 수행할 수 있다.

본 발명은 고품질 다채널 오디오 부호화 및 복호화 장치를 통해서 AC-3와 같은 재생 시스템과 호환성을 유지하면서 고품질 다채널 오디오 신호를 압축 및 복원할 수 있다.

또한, 다채널 신호를 복원함에 있어서, 비트스트림 계층에 기초하여 단계별로 채널 확장기법을 적용하므로 재생 단말의 환경에 적절한 채널 신호들을 디코딩 중간단계에서 추출하여 이용할 수 있다.

또한, 객체별로 부호화 및 복호화를 수행함에 따라 다채널 환경에서 대역폭을 절약할 수 있다.

또한, 재생 단말의 환경에 최적으로 렌더링된 음향 신호를 제공할 수 있을 뿐만 아니라, 오디오 객체 신호를 자유롭게 제어할 수 있도록 사용자에게 자유도를 제공할 수 있다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 2는 고품질 오디오 부호화 장치의 구성을 도시한 도면이다.

도 2에 따르면, 고품질 오디오 부호화 장치(High Quality Multichannel Audio Coding, 이하, HQMAC)는 입력되는 오디오 신호의 특성에 기초하여 오디오 신호에 대해 채널 기반 오디오 부호화(High Quality Multichannel Audio Coding-Channel Based, 이하, HQMAC-CB) 또는 객체 기반 오디오 부호화(High Quality Multichannel Audio Coding-Objected Based, 이하, HQMAC-OB)를 수행할 수 있다.

일예로, 입력되는 오디오 신호가 다채널(M 채널) 오디오 신호인 경우, 다채널오디오 부호화 장치는 다채널오디오 신호에 대해 채널 기반 오디오 부호화를 수행할 수 있다. 또한, 입력되는 오디오 신호가 다객체(P 객체) 오디오 신호인 경우, 다객체 오디오 부호화 장치는 다객체 오디오 신호에 대해 객체 기반 오디오 부호화를 수행할 수 있다. 고품질 오디오 부호화 장치는 입력되는 오디오 신호의 특성에 따라 HQMAC-CB 및 HQMAC-OB 과정을 수행하여 고품질 오디오 비트스트림(HQMAC Bitstream)을 생성할 수 있다.

또한, 입력되는 오디오 신호가 다채널 오디오 신호와 다객체 오디오 신호가 혼재되어 있는 경우 HQMAC-CB 및 HQMAC-OB 과정을 모두 수행하여 고품질 오디오 비트스트림을 생성할 수 있다.

이하에서는, 도 3을 참조하여, 채널 기반 오디오 신호 부호화 기술에 대해 설명하기로 한다.

도 3은 채널 기반 오디오 부호화부의 구성을 도시한 블록도이다.

도 3을 참조하면, 채널 기반 오디오 부호화부(200)는 고효율 채널 인코더(210), 채널 합성부(230), 제2 채널 인코더(250), 및 제1 채널 인코더(270)를 포함할 수 있다.

고효율 채널 인코더(High Efficiency Channel Encoder, 이하, HECE: 210)는 입력되는 다채널(M 채널) 오디오 신호를 N 채널로 다운믹싱(M2N Down mixing: 211)하여 제1 다운믹스 신호를 생성할 수 있다. 일례로 22.2채널(M=24)을 10.2채널(N=12)으로 다운믹스하여 제2 다운믹스 신호를 구성할 수 있다.

또한, 고효율 채널 인코더(210)는 다채널 오디오 신호에서 공간 정보를 분석(Spatial Cue Analyze)하여 공간 파라미터를 추출(Spatial Cue)할 수 있다. 이때, 공간 파라미터는 N 채널로 다운믹싱된 제1 다운믹스 신호가 M개의 다채널 오디오 신호로 복원하기 위해 필요한 파라미터들을 포함할 수 있다.

또한, 고효율 채널 인코더(210)는 다채널 오디오 신호를 부호화하여 제2 향상계층 비트스트림(Enhancement Layer II Bitstream)을 생성할 수 있다. 채널 합성부(Channel Mixer: 230)는 N 채널로 다운믹싱된 제1 다운믹스 신호를 L 채널로 다운믹싱(N2L Down mixing: 231)하여 제2 다운믹스 신호를 생성할 수 있다. 일례로 10.2채널(N=12)을 5.1채널(L=6)으로 다운믹스하여 제2 다운믹스 신호를 구성할 수 있다.

이때, 채널 합성부(230)는 L 채널로 다운믹싱된 제2 다운믹스 신호를 N 채널의 제1 다운믹스 신호로 복원하기 위해 필요한 추가 채널 신호 예측(Supplement Channel Synthesizer: 233)을 제1 다운믹스 신호에 대해 수행할 수 있다. 이를 통해, N 채널의 제1 다운믹스 신호는 K 채널 신호로 합성(Mixing)될 수 있다. 여기서, 추가 채널 시호의 채널 수(K)는 제2 다운믹스의 신호의 채널 수(N)와 제1 다운믹스 신호의 채널 수(L) 간의 차(N-L)보다 같거나 작을 수 있다.

제2 채널 인코더(250)는 합성된 K 채널 신호를 부호화하여 제1 향상 계층 비트스트림(Enhancement Layer I Bitstream)을 생성할 수 있다. 여기서, 합성된 K 채널 신호는 N2L 다운믹싱(231) 과정에서 생성되는 L채널 다운믹스와 함께 제 1 다운믹스 신호를 구성할 수 있다. 이때, 제2 채널 인코더(250)는 AC-3, 또는 AAC 등의 고품질 채널 인코딩(High Quality Channel Encoding, 이하, HQCE) 기술을 이용하여 제1 향상 계층 비트스트림(Enhancement Layer I Bitstream)을 생성할 수 있다. 일례로, 기본계층 비트스트림을 통해 구성되는 채널이 5.1채널(L=6) 이고 제1 향상 계층 비트스트림을 통해 구성되는 채널이 5.1 채널(K=6)이면 이 두 비트스트림을 통해 10.2채널(N=12)을 구성할 수 있다.

제1 채널 인코더(270)는 제2 다운믹스 신호를 부호화하여 기본 계층 비트스트림(Base Layer Bitstream)을 생성할 수 있다. 여기서, 기본 계층 비트스트림을 통해 구성되는 채널은 5.1 채널(L=6)로 구성될 수 있다.

이때, 제1 채널 인코더(270)로는 5.1 채널 인코더와 같은 멀티 채널 인코더가 이용될 수 있다. 그러면, 생성된 제1 및 제2 향상 계층 비트스트림은 기본 계층 비트스트림에 다중화될 수 있다. 이를 통해, 기본 계층 만을 복호화할 수 있는 다채널 디코더에서도 10채널 이상의 오디오 신호에 대해 압축 및 부호화를 통 해 생성된 비트스트림들을 처리할 수 있다.

그러면, 고품질 다채널 오디오 부호화 장치는 생성된 제1 및 제2 향상 계층 비트스트림, 및 기본 비트스트림들로 이루어진 HQMAC 비트스트림을 고품질 다채널 오디오 복호화 장치로 전송할 수 있다. 여기서, HQMAC 비트스트림은 HQMAC 헤더 및 HQMAC 프레임으로 구성될 수 있다.

또한, 제1 및 제2 향상 계층 비트스트림 중 어느 하나 또는 모두 존재하지 않을 수 있다. 또한, 고품질 다채널 오디오 부호화 장치에서는 제1 및 제2 향상 계층 비트스트림 각각의 채널 수를 결정할 수 있다. 그러면, 결정된 채널 수는 HQMAC 비트스트림의 헤더에 포함될 수 있다.

도 4는 객체 기반 오디오 부호화부의 구성을 도시한 블록도이다.

도 4를 참조하면, 객체 기반 오디오 부호화부(300)는 믹싱부(310), 비트스트림 생성부(330), 객체 인코더(350)를 포함할 수 있다.

믹싱부(310)는 외부로부터 입력되는 믹싱(Mixing) 정보를 이용하여 P개의 다객체 오디오 신호를 L 채널로 믹싱(Mixing)할 수 있다.

비트스트림 생성부(330)는 믹싱된 L 채널 오디오 신호들을 부호화하여 기본계층 비트스트림을 생성할 수 있다. 이때, 비트스트림 생성부(330)는 5.1 채널 인코더와 같은 멀티채널 인코더를 이용하여 기본계층 비트스트림을 생성할 수 있다.

객체 인코더(350)는 P개의 다객체 오디오 신호를 모노(Mono), 스테레오(Stereo), 및 다채널(Multichannel) 객체 오디오 신호로 각각 분리하여, 분리된 객체 각각에 대해 부호화를 수행할 수 있다.

일예로, 모노 객체 오디오 신호는 모노 채널 인코더(351)를 통해 부호화되고, 스테레오 객체 오디오 신호는 스테레오 채널 인코더(352)를 통해 부호화되고, 다채널 객체 오디오 신호는 다채널 인코더(353)를 통해 부호화될 수 있다. 이때, 모노 채널 인코더(351), 스테레오 채널 인코더(352), 및 다채널 인코더(353)에서는 AC-3, AAC, 및 MP3 등의 부호화 기술을 이용하여 분리된 객체 오디오 신호를 부호화할 수 있다.

그러면, 다중화부(354)는 부호화된 객체 부호화 비트스트림들을 렌더링 정보와 함께 다중화하여 객체계층 비트스트림(Object Layer Bitstream)를 생성할 수 있다. 여기서, 객체 부호화 비트스트림은 부호화된 모노 객체 오디오 신호, 스테레오 객체 오디오 신호, 및 다채널 객체 오디오 신호를 포함할 수 있다.

이때, 렌더링 정보는, 헤드폰, 라우드 스피커, 라우드 스피커의 개수, 라우드 스피커의 위치와 같은 재생 환경에 따라 기설정될 수 있다. 또한, 렌더링 정보는, 3차원 공간 상에 가상적으로 배치되는 위치를 직접적으로 표현할 수 있는 정보를 포함할 수 있다.

그러면, 고품질 다채널 오디오 부호화 장치는 생성된 객체계층 비트스트림, 및 기본 비트스트림들로 이루어진 HQMAC 비트스트림을 고품질 다채널 오디오 복호화 장치로 전송할 수 있다. 여기서, HQMAC 비트스트림은 HQMAC 헤더 및 HQMAC 프레임으로 구성될 수 있다. 이때, HQMAC 헤더는 인코딩 모드, 채널 수, 양자화 비트, 양자화 주파수, 부가계층 구성정보, 객체수 등과 같이 디코더를 초기화하는 데 필요한 디코딩 정보들을 포함할 수 있다.

여기서, 인코딩 모드는, HQMAC에서 생성된 비트스트림들이 HQMAC-CB 또는 HQMAC-OB로 부호화되었는지를 나타내는 정보를 포함할 수 있다. 또한, 부가계층 구성정보는, HQMAC에서 전송되는 비트스트림들이 객체계층 또는 제1 및 제2 향상계층 비트스트림들을 포함하는지 여부를 나타낼 수 있다.

한편, 객체 인코더(350)로는 MPEG SAOC(Spatial Audio Object Coding) 기술과 같은 파라미터 기반 다객체 오디오 인코더가 이용될 수 있다. 이때, 다운믹스 신호는 객체 인코더(350)에서 직접 생성되거나, 믹싱부(310)에서 출력되는 L채널 객체 오디오 신호가 될 수 있다. 그러면, 객체 인코더(350)에서 생성되는 객체 부호화 비트스트림들은 다운믹스 신호와 공간 파라미터들(Spatial Cue Parameters)로 구성되는 객체 부가 데이터(Object Side Information)를 포함할 수 있다.

지금까지, HQMAC-CB 부호화부(200)는 기본계층, 제1 향상계층, 및 제2 향상계층 비트스트림들을 생성하고, HQMAC-OB 부호화부(300)는 기본계층 및 객체계층 비트스트림들을 생성하는 과정에 대해 설명하였다. 이때, HQMAC-CB 부호화부(200) 및 HQMAC-OB 부호화부(300)에서 생성된 기본계층 비트스트림이 일반적인 L 채널(일예로, 5.1 채널) 비트스트림과 동일한 경우, 기본계층에 추가되는 비트스트림들은 기본계층 비트스트림 구조에서 부가 데이터 영역에 위치할 수 있다.

즉, 도 5에 도시된 바와 같이, HQMAC 비트스트림을 구성하는 HQMAC 헤더와 HQMAC 프레임 데이터는 기본계층 헤더(Legacy L-Channel Header)와 기본계층 프레임 데이터(Legacy L-Channel Frame)의 부가 데이터(Ancillary Data) 영역에 각각 위치할 수 있다. 이를 통해, 기본계층 비트스트림을 디코딩할 수 있는 5.1채널 디 코더는 부가 데이터 영역을 무시하게 되므로 HQMAC 비트스트림 내에서 기본계층 비트스트림을 해석하여 5.1채널 오디오 신호를 재생할 수 있다.

보다 상세하게는, 도 6을 참조하면, HQMAC-CB 부호화부(200)를 통해 생성된 HQMAC-CB 비트스트림(600)은 채널기반의 헤더 및 프레임(이하, HQMAC-CB 헤더 및 HQMAC-CB 프레임)을 포함할 수 있다. 이때, HQMAC-CB 헤더(610)는 기본계층 헤더(611) 및 HQMAC-CB 헤더(613)를 포함할 수 있다.

또한, HQMAC-CB 프레임(620)은 기본계층 프레임(621) 및 HQMAC-CB 프레임(622)를 포함할 수 있다. 이때, 기본계층 헤더(611)와 프레임(621)은 L 채널(일예로, 5.1채널) 비트스트림의 구조를 가질 수 있다. 그러면, L 채널 비트스트림 구조의 부가 데이터 영역에 HQMAC-CB 헤더(612)와 HQMAC-CB 프레임(622)이 위치할 수 있다. 여기서, HQMAC-CB 프레임(622)은 제1 향상계층 비트스트림(621-1) 및 제2 향상계층 비트스트림(621-2)을 포함할 수 있다.

이때, HQMAC-CB 프레임(622)에는 제1 및 제2 향상계층 비트스트림 중 적어도 하나가 포함되거나, 제1 및 제2 향상계층 비트스트림이 모두 포함되지 않을 수 있다. 즉, 제1 및 제2 향상계층 비트스트림은 입력되는 오디오 시호의 특성 및 사용자의 선택에 따라 선택적으로 이용될 수 있다.

마찬가지로, 도 7을 참조하면, HQMAC-OB 부호화부(300)를 통해 생성된 HQMAC-OB 비트스트림(700)은 객체 기반의 헤더 및 프레임(이하, HQMAC-OB 헤더 및 HQMAC-OB 프레임)을 포함할 수 있다. 이때, 도 5에서 설명한 바와 같이, HQMAC-OB 헤더(710) 및 HQMAC-OB 프레임(720)은 기본계층 비트스트림의 부가 데이터 영역에 위치할 수 있다.

또한, HQMAC-OB 헤더(710)는 HAMAC-OB 복호화를 위한 디코딩 정보, 및 렌더링 정보(RI)를 포함할 수 있다. 여기서, 렌더링 정보는, 디코딩된 객체 오디오 신호들을 다채널 라우드 스피커로 렌더링하기 위해 이용될 수 있다.

또한, 렌더링 정보는, 시간에 따라 변경(Update)될 수 있다. 이에 따라, 변경된 렌더링 정보(722-20는 객체 계층 비트스트림(722-1) 다음에 위치할 수 있다. 이때, 모든 프레임마다 렌더링 정보가 변경될 필요가 없으므로, 변경이 생기는 경우에만 플래그를 이용하여 변경 여부를 알려 줄 수 있다.

또한, HQMAC-CB 부호화부와 HQMAC-OB 부호화부가 동시에 사용되었을 경우에는 HQMAC-CB와 HQMAC-OB 헤더와 프레임이 모두 존재할 수 있다.

이하에서는, 고품질 다채널 오디오 복호화 장치에 대해 설명하기로 한다. 고품질 다채널 오디오 복호화 장치는 채널 기반 오디오 복호화부(800) 및 객체 기반 오디오 복호화부(900)를 포함할 수 있다.

이때, 고품질 다채널 오디오 복호화 장치는 HQMAC 헤더 및 HQMAC 프레임으로 구성된 HQMAC 비트스트림을 고품질 다채널 오디오 부호화 장치로부터 수신할 수 있다. 그러면, 고품질 다채널 오디오 복호화 장치는 HQMAC 헤더에 포함된 인코딩 모드에 기초하여 수신된 HQMAC 비트스트림에 대해 채널 기반 오디오 복호화 또는 객체 기반 오디오 복호화를 수행할 수 있다.

도 8은 채널 기반 오디오 복호화부의 구성을 도시한 블록도이다.

도 8을 참조하면, 채널 기반 오디오 복호화부(800)는 제2 채널 디코더(810), 제1 채널 디코더(820), 업믹싱부(830), 및 고효율 채널 디코더(840)를 포함할 수 있다. 이때, 채널 기반 오디오 복호화부(800)는 수신된 HQMAC 프레임에 포함된 비트스트림 계층에 기초하여 HQMAC 비트스트림을 복호화할 수 있다. HQMAC-CB의 경우, 비트스트림 계층은, 기본계층, 제1 및 제2 향상계층 비트스트림을 포함할 수 있다.

인코딩 모드가 HQMAC-CB인 경우, 제2 채널 디코더(810)는 HQMAC 프레임에 포함된 제1 향상계층 데이터를 복호화하여 합성된 K 채널 신호를 복원할 수 있다. 여기서, 제2 채널 디코더(810)로는 AAC, 또는 AC-3와 같은 일반적인 고품질 채널 디코더(High Quality Channel Decoder)가 이용될 수 있다.

일예로, 고품질 다채널 오디오 복호화 장치로부터 전송된 HQMAC 비트스트림이 채널 기반 오디오 부호화부(200)를 통해 부호화된 경우, 제2 채널 디코더(810)는 제1 향상계층 데이터를 복호화하여 합성된 K 채널 신호를 복원할 수 있다. 즉, 제2 채널 디코더(810)를 이용하여 합성된 K 채널과 제1 채널 디코더를 이용하여 합성된 L채널을 이용하여 N채널을 갖는 제1 다운믹스 신호를 복원할 수 있다.

제1 채널 디코더(820)는 HQMAC 프레임에 포함된 기본계층 비트스트림을 복호화하여 L채널의 제2 다운믹스 신호를 복원할 수 있다. 즉, 기본계층 비트스트림은 제1 채널 디코더(820)를 통해 L개의 채널로 구성된 제2 다운믹스 신호를 복원할 수 있다. 여기서, 제2 채널 디코더로는 일반적인 5.1 채널 디코더가 이용될 수 있다.

업믹싱부(830)는 제2 다운믹스 신호(L채널)와 제2 채널 디코더를 이용하여 합성된 K 채널 신호를 이용하여 업믹싱(UP Mixing)하여 N 채널의 제1 다운믹스 신 호를 복원할 수 있다.

고효율 채널 디코더(High Efficient Channel Decoder: 840)는 제1 다운믹스 신호와 HQMAC 프레임에 포함된 제2 향상계층 비트스트림을 이용하여 다채널(M 채널) 오디오 신호를 복원할 수 있다. 이때, 업믹싱부(830)에서 복원된 N채널의 제1 다운믹스 신호와 제1 채널 디코더(820)에서 복원된 L채널의 제2 다운믹스 신호가 바로 출력될 수 있다. 즉, 제1 다운믹스 신호 및 제2 다운믹스 신호는 채널 기반 오디오 복호화부(800)의 출력신호가 될 수도 있다.

도 9는 객체 기반 오디오 복호화부의 구성을 도시한 블록도이다.

도 9를 참조하면, 객체 기반 오디오 복호화부(900)는 비트스트림 처리부(910), 객체 디코더(930), 및 렌더링부(950)를 포함할 수 있다. 이때, 객체 기반 오디오 복호화부(900)는 수신된 HQMAC 프레임에 포함된 비트스트림 계층에 기초하여 HQMAC 비트스트림을 복호화할 수 있다. HQMAC-OB의 경우, 비트스트림 계층은, 기본계층, 객체계층 비트스트림을 포함할 수 있다.

비트스트림 처리부(910)는 기본계층 비트스트림을 이용하여 객체 기반 오디오 부호화부(300)에서 L채널로 믹싱된 오디오 신호를 복원할 수 있다. 일예로, 비트스트림 처리부(910)는 5.1 채널 디코더를 이용하여 L채널로 믹싱된 오디오 신호를 복원할 수 있다.

객체 디코더(930)는 객체계층 비트스트림에 포함된 객체별 부호화 비트스트림들을 각각 복호화하여 다객체 오디오 신호를 복원할 수 있다. 즉, 객체 디코더(930)는 기본계층 비트스트림을 이용하지 않고 다객체 오디오 신호를 복원할 수 있다. 여기서, 객체별 부호화 비트스트림들은, 부호화된 모노 객체, 스테레오 객체, 및 다채널 객체 비트스트림들을 포함할 수 있다.

일예로, 모노 채널 디코더(931)는 부호화된 모노 객체 비트스트림을 복호화하고, 스테레오 채널 디코더(933)는 부호화된 스테레오 객체 비트스트림을 복호화하고, 다채널 디코더(935)는 부호화된 다채널 객체 비트스트림을 복호화할 수 있다.

렌더링부(950)는 렌더링 정보를 이용하여 모노 객체, 스테레오 객체, 및 다채널 객체 각각의 비트스트림을 렌더링하여 재생할 수 있는 형태의 출력신호를 생성할 수 있다. 일예로, 렌더링부(950)는 Q 채널 라우드 스피커 신호를 출력신호로 생성할 수 있다. 이때, 렌더링 정보는, 고품질 오디오 부호화 장치에서 전송된 HQMAC 비트스트림에 포함될 수 있다.

또한, 렌더링부(950)는 HQMAC 프레임에 포함된 기본계층 레이어로부터 복원된 오디오 신호를 선택적으로 이용할 수 있다. 즉, 렌더링부(950)는 비트스트림 처리부(910)에서 복원된 L채널로 믹싱된 오디오 신호를 이용할 수 있다.

또한, 입력되는 고품질 다채널 오디오 비트스트림에 HQMAC-CB 비트스트림과 HQMAC-OB 비트스트림이 모두 포함되어 있은 경우에는 각각의 복호화 과정을 거친 출력신호들을 다중화하여 출력할 수 있다.

이상에서는, 설명의 편의를 위해 HQMAC-CB 비트스트림, 및 HQMAC-OB 비트스트림으로 구분하여 설명하였으나, HQMAC-CB 비트스트림, 및 HQMAC-OB 비트스트림은 모두 HQMAC 비트스트림을 나타낼 수 있다. 즉, HQMAC-CB 비트스트림은 HQMAC-CB 부호화를 통해 생성된 HQMAC 비트스트림이고, HQMAC-OB 비트스트림은 HQMAC-OB 부호화를 통해 생성된 HQMAC 비트스트림일 수 있다.

또한, 이상에서는 도 3을 참조하여, 채널 기반 오디오 부호화부에서 제1 채널 인코더와 함께 고효율 채널 인코더 및 제2 채널 인코더를 사용하여 채널 기반 오디오 부호화를 수행하는 것으로 설명하였으나, 이는 실시예에 해당되며, 고효율 채널 인코더 및 제2 채널 인코더는 선택적으로 이용될 수 있다.

즉, 채널 기반 오디오 부호화는 고효율 채널 인코더 및 제2 채널 인코더 중 적어도 하나를 이용하거나 또는 둘 다 사용하지 않고 제1 채널 인코더 만으로도 채널 기반 오디오 부호화를 수행할 수 있다.

이와 같이, 고효율 채널 인코더 및 제2 채널 인코더는 선택적으로 이용되는 경우, 채널 합성부에서는 다운 믹싱을 선택적으로 사용할 수 있다. 즉, 고효율 채널 인코더가 사용되지 않는 경우, 채널 합성부는 입력되는 다채널(M 채널) 오디오 신호를 L 채널로 다운믹싱할 수 있다.

마찬가지로, 채널 기반 오디오 복호화는 고효율 채널 디코더 및 제2 채널 디코더 중 적어도 하나를 이용하거나 또는 둘 다 사용하지 않고 제1 채널 디코더 만을 이용하여 채널 기반 오디오 복호화를 수행할 수 있다. 이때, 고효율 채널 디코더가 사용되지 않는 경우, 업믹싱부는 제2 다운믹스 신호와 합성된 제1 다운믹스 신호를 M 채널로 업믹싱(UP Mixing)할 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

도 1은 7.1 채널 인코더의 구성을 도시한 블록도이다.

도 5 내지 도 7은 HQMAC 비트스트림 구조를 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

200: 채널 기반 오디오 부호화부

300: 객체 기반 오디오 부호화부

210: 고효율 채널 인코더

230: 채널 합성부

250: 제2 채널 인코더

270: 제1 채널 인코더

Claims

입력되는 오디오 신호의 특성에 기초하여 상기 오디오 신호에 대해 채널 기반 오디오 부호화를 수행하는 채널 기반 오디오 부호화부; 및

상기 오디오 신호의 특성에 기초하여 상기 오디오 신호에 대해 객체 기반 오디오 부호화를 수행하는 객체 기반 오디오 부호화부

를 포함하고,

상기 채널 기반 오디오 부호화부는,

상기 입력되는 오디오 신호가 다채널 오디오 신호인 경우, 상기 다채널 오디오 신호에 대해 채널 기반 오디오 부호화를 수행하여 비트스트림을 생성하고,

상기 객체 기반 오디오 부호화부는,

상기 입력되는 오디오 신호가 다객체 오디오 신호인 경우, 상기 다객체 오디오 신호에 대해 객체 기반 오디오 부호화를 수행하여 비트스트림을 생성하는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
삭제
제1항에 있어서,

상기 채널 기반 오디오 부호화부는,

상기 다채널 오디오 신호를 다운믹싱(Down mixing)하여 제1 다운믹스 신호를 생성하고, 상기 다채널 오디오 신호로부터 추출된 공간 파라미터를 부호화하여 제2 향상계층 비트스트림을 생성하는 고효율 채널 인코더

를 포함하는 고품질 다채널 오디오 부호화 장치.
제3항에 있어서,

상기 채널 기반 오디오 부호화부는,

상기 제1 다운믹스 신호를 다운믹싱하여 제2 다운믹스 신호를 생성하고, 상기 제1 다운믹스 신호와 추가 채널 신호를 합성(Mixing)하는 채널 합성부

를 더 포함하는 고품질 다채널 오디오 부호화 장치.
제4항에 있어서,

상기 채널 기반 오디오 부호화부는,

상기 제2 다운믹스 신호를 부호화하여 기본계층 비트스트림을 생성하는 제1 채널 인코더

를 더 포함하는 고품질 다채널 오디오 부호화 장치.
제5항에 있어서,

상기 기본계층 비트스트림을 통해 구성되는 채널, 상기 제1 향상 계층을 통해 구성되는 채널, 및 상기 제2 향상 계층을 통해 구성되는 채널은 서로 다른 멀티 채널들로 각각 구성되는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
제4항에 있어서,

상기 채널 기반 오디오 부호화부는,

상기 합성된 제1 다운믹스 신호를 부호화하여 제1 향상계층 비트스트림을 생성하는 제2 채널 인코더

를 더 포함하는 고품질 다채널 오디오 부호화 장치.
제1항에 있어서,

상기 객체 기반 오디오 부호화부는,

상기 입력되는 오디오 신호가 다객체 오디오 신호인 경우, 상기 다객체 오디오 신호를 믹싱(Mixing)하는 믹싱부;

상기 믹싱된 신호를 부호화하여 기본계층 비트스트림을 생성하는 비트스트림 생성부; 및

상기 입력된 다객체 오디오 신호들을 모노 객체, 스테레오 객체, 및 다객체 오디오 신호들로 분리하고, 기설정된 렌더링 정보를 이용하여 상기 분리된 오디오 신호들을 다중화하여 객체계층 비트스트림을 생성하는 객체 인코더

를 포함하는 고품질 다채널 오디오 부호화 장치.
제8항에 있어서,

상기 믹싱부는,

상기 다객체 오디오 신호들을 외부로부터 수신된 믹싱(Mixing) 정보를 이용하여 5.1채널로 믹싱하는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
제1항에 있어서,

상기 채널 기반 오디오 부호화부를 통해 생성된 제1 및 제2 향상계층 비트스트림은, 기본계층 비트스트림 구조에서 부가 데이터 영역에 포함되고,

상기 객체 기반 오디오 부호화부를 통해 생성된 객체계층 비트스트림은, 상기 기본계층 비트스트림 구조에서 부가 데이터 영역에 포함되는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
제10항에 있어서,

상기 채널 기반 오디오 부호화부는,

상기 기본계층 비트스트림, 상기 제1 및 제2 향상계층 비트스트림을 이용하여 채널 기반의 헤더 및 프레임을 구성하여 전송하고,

상기 객체 기반 오디오 부호화부는,

상기 기본계층 비트스트림, 상기 객체계층 비트스트림을 이용하여 객체 기반의 헤더 및 프레임을 구성하여 전송하는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
제11항에 있어서,

상기 채널 기반 오디오 부호화부와 상기 객체 기반 오디오 부호화부 모두를 이용하여 상기 오디오 신호에 대해 오디오 부호화가 수행된 경우, 상기 오디오 부호화를 통해 생성되는 비트스트림에는, 상기 채널 기반 오디오 부호화 및 상기 객체 기반 오디오 부호화 각각의 헤더 및 프레임이 포함되고,

상기 채널 기반의 헤더 또는 상기 객체 기반의 헤더는, 상기 채널 기반 오디오 부호화부 또는 객체 기반 오디오 부호화부를 통해 생성된 비트스트림들을 복호화하기 위해 이용되는 디코딩 정보를 포함하는 것을 특징으로 하는 고품질 다채널 오디오 부호화 장치.
고품질 다채널 오디오 부호화 장치에서 수신된 인코딩 모드에 기초하여 채널 기반 오디오 복호화를 위해 초기화를 수행하는 채널 기반 오디오 복호화부; 및

상기 인코딩 모드에 기초하여 객체 기반 오디오 복호화를 위해 초기화를 수행하는 객체 기반 오디오 복호화부

를 포함하고,

상기 채널 기반 오디오 복호화부는,

상기 고품질 다채널 오디오 부호화 장치에서 수신된 프레임에 포함된 비트스트림 계층(Layer)에 기초하여 상기 채널 기반 오디오 복호화를 수행하고,

상기 객체 기반 오디오 복호화부는,

상기 비트스트림 계층에 기초하여 상기 객체 기반 오디오 복호화를 수행하는 것을 특징으로 하는 고품질 다채널 오디오 복호화 장치.
삭제
제13항에 있어서,

상기 채널 기반 오디오 복호화부는,

상기 고품질 다채널 오디오 부호화 장치에서 전송된 프레임에 포함된 기본계층 비트스트림을 복호화하여 제2 다운믹스 신호를 복원하는 제1 채널 디코더

를 포함하는 고품질 다채널 오디오 복호화 장치.
제13항에 있어서,

상기 채널 기반 오디오 복호화부는,

상기 프레임에 포함된 제1 향상계층 비트스트림을 복호화하여 합성된 제1 다운믹스 신호를 복원하는 제2 채널 디코더

를 포함하는 고품질 다채널 오디오 복호화 장치.
제16항에 있어서,

상기 채널 기반 오디오 복호화부는,

상기 합성된 제1 다운믹스 신호와 상기 프레임에 포함된 기본계층 비트스트림을 이용하여 복원된 제2 다운믹스 신호를 업믹싱(UP Mixing)하여 제1 다운믹스 신호를 복원하는 업믹싱부

를 더 포함하는 고품질 다채널 오디오 복호화 장치.
제16항에 있어서,

상기 제1 다운믹스 신호와 상기 프레임에 포함된 제2 향상계층 비트스트림을 이용하여 다채널 오디오 신호를 복원하는 고효율 채널 디코더

를 더 포함하는 고품질 다채널 오디오 복호화 장치.
제18항에 있어서,

상기 객체 기반 오디오 복호화부는,

상기 고품질 다채널 오디오 부호화 장치에서 수신된 프레임에 포함된 기본 계층 비트스트림을 이용하여 제2 채널로 믹싱된 오디오 신호를 복원하는 비트스트림 처리부; 및

상기 프레임에 포함된 객체 계층 비트스트림을 이용하여 모노 객체, 스테레오 객체, 및 다채널 객체 각각의 비트스트림을 복원하는 객체 디코더

를 포함하는 고품질 다채널 오디오 복호화 장치.
제13항에 있어서,

상기 채널 기반 오디오 복호화부는,

고품질 다채널 오디오 복호화 장치로부터 입력되는 고품질 다채널 오디오 비트스트림에 HQMAC-CB 비트스트림과 HQMAC-OB 비트스트림이 모두 포함된 경우, 상기 HQMAC-CB 비트스트림에 대해 채널 기반 오디오 복호화를 수행하여 출력신호들을 다중화하고,

상기 객체 기반 오디오 복호화부는,

상기 HQMAC-OB 비트스트림에 대해 객체 기반 오디오 복호화를 수행하여 출력신호들을 다중화하는 것을 특징으로 하는 고품질 다채널 오디오 복호화 장치.