KR101422745B1

KR101422745B1 - 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법

Info

Publication number: KR101422745B1
Application number: KR1020080029695A
Authority: KR
Inventors: 백승권; 서정일; 이태진; 장대영; 강경옥; 홍진우; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2007-03-30
Filing date: 2008-03-31
Publication date: 2014-07-24
Also published as: US20140100856A1; KR20080089308A; JP2010525378A; EP2143101A1; CN101689368A; US9257128B2; EP2143101B1; EP3712888A3; US20100121647A1; US8639498B2; JP5220840B2; EP2143101A4; CN101689368B; WO2008120933A1; EP3712888A2

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩에 관한 것임.

2. 발명이 해결하고자 하는 기술적 과제

다채널로 구성된 다객체 오디오 신호를 인코딩 및 디코딩하는 장치 및 방법을 제공함.

3. 발명의 해결방법의 요지

다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 수단; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 다객체 인코딩 수단을 포함하되, 상기 다객체 인코딩 수단은 상기 다채널 인코딩 수단이 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 장치를 제공함.

4. 발명의 중요한 용도

오디오 신호의 인코딩 및 디코딩에서 이용됨.

다채널, 다객체, 오디오, 인코딩, 디코딩

Description

다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩 장치 및 방법{APPARATUS AND METHOD FOR CODING AND DECODING MULTI OBJECT AUDIO SIGNAL WITH MULTI CHANNEL}

본 발명은 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩에 관한 것으로, 보다 상세하게는 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩 장치 및 방법에 관한 것이다.

여기서, 다채널로 구성된 다객체 오디오 신호란, 다객체 오디오 신호로서 각각의 오디오 객체 신호가 다양한 채널(예를 들어, 모노 채널, 스테레오 채널, 5.1 채널)로 구성된 신호를 의미한다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2007 S 004 01, 과제명: 무안경 개인형 3D 방송기술개발(DEVELOPMENT OF GLASSLESS SINGLE USER 3D BROADCASTING TECHNOLOGIES)].

종래의 오디오 인코딩 및 디코딩 기술에 따르면, 다양한 채널로 구성된 다수의 오디오 객체가 사용자의 필요에 따라 다양하게 조합될 수 없고 따라서 하나의 오디오 컨텐츠가 다양한 형태로 소비될 수 없다. 결국, 사용자는 오디오 컨텐츠를 수동적으로만 소비할 수 있다.

종래기술인 SAC(Spatial Audio Coding) 기술에 따르면 다채널 오디오 신호는 다운믹스된 모노 채널 또는 스테레오 채널 신호와 공간큐(spatial cue) 정보로 인코딩되며, 낮은 비트 율에서도 고품질의 멀티채널 신호가 전송된다. SAC 기술에 따르면 오디오 신호는 서브밴드 별로 분석되고, 각 서브밴드에 대응하는 공간큐 정보에 기초하여 상기 다운믹스된 모노 채널 또는 스테레오 채널 신호로부터 원래의 다채널 오디오 신호가 복원된다. 상기 공간큐 정보는 디코딩 과정에서 원 신호의 복원을 위한 정보를 포함하며, SAC 디코딩 장치에서 재생되는 오디오 신호의 음질을 결정한다. MPEG은 MPEG Surround(MPS)라는 명칭으로 SAC 기술에 대한 표준화를 진행하고 있으며 CLD(Channel Level Difference)를 공간큐로 활용한다.

SAC에 따르면, 다채널 오디오 신호로서 1개 오디오 객체에 대해서만 인코딩 및 디코딩이 가능하기 때문에, 다채널로 구성된 다객체 오디오 신호, 예를 들어, 모노 채널, 스테레오 채널 및 5.1 채널로 구성된 다양한 객체의 오디오 신호가 인코딩 및 디코딩될 수 없다.

또 다른 종래기술인 바이노럴 큐 코딩(Binaural Cue Coding, BCC) 기술에 따르면, 모노 채널로만 구성된 다객체 오디오 신호가 인코딩 및 디코딩이 가능하기 때문에, 모노 채널 이외의 다채널로 구성된 다객체 오디오 신호가 인코딩 및 디코딩될 수 없다.

정리하면, 종래기술에 따르면, 단일 채널로 구성된 다객체 오디오 신호 또는 다채널로 구성된 단일 객체 오디오 신호에 대해서만 인코딩 및 디코딩이 가능하며, 다채널로 구성된 다객체 오디오 신호가 인코딩 및 디코딩될 수 없다. 따라서 종래기술에 따르면, 다양한 채널로 구성된 다수의 오디오 객체가 사용자의 필요에 따라 다양하게 조합될 수 없고 따라서 하나의 오디오 컨텐츠가 다양한 형태로 소비될 수 없다. 결국, 사용자는 오디오 컨텐츠를 수동적으로만 소비할 수 있다.

따라서, 하나의 오디오 컨텐츠를 구성하는 다채널로 구성된 다객체 오디오 신호가 사용자의 필요에 따라 제어됨으로써 하나의 오디오 컨텐츠가 다양한 형태로 소비될 수 있는, 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩 장치 및 방법이 요구된다.

본 발명은 상기 요구에 부응하기 위하여 제안된 것으로, 다채널로 구성된 다객체 오디오 신호를 인코딩 및 디코딩하는 장치 및 방법을 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위한 본 발명은, 오디오 인코딩 장치에 있어서, 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 수단; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 다객체 인코딩 수단을 포함하되, 상기 다객체 인코딩 수단은 상기 다채널 인코딩 수단이 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 인코딩 장치에 있어서, 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 수단; 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 제1다객체 인코딩 수단; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 제1다객체 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제3랜더링정보를 생성하는 제2다객체 인코딩 수단을 포함하되, 상기 제2다객체 인코딩 수단은 상기 다채널 인코딩 수단 및 제1다객체 인코딩 수단이 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 장치를 제공한다.

상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 장치에 의해 인 코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장치에 있어서, 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및 상기 제1행렬수단에 의해 생성된 랜더링정보, 상기 제2행렬수단에 의해 생성된 랜더링정보, 및 상기 서브밴드변환수단에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단을 포함하는 트랜스코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 장치에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장치에 있어서, 상기 제4랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출수단; 상기 Preset-ASI 추출수단에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및 상기 Preset-ASI 추출수단에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬수단에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬수단에 의해 생성된 랜더링정보와, 상기 서브밴드변환수단에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단을 포함하는 트랜스코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 장치에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장치에 있어서, 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및 상기 제1행렬수단에 의해 생성된 랜더링정보, 상기 제2행렬수단에 의해 생성된 랜더링정보, 상기 서브밴드변환수단에 의해 변환된 랜더링정보 및 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단을 포함하는 트랜스코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 장치에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장 치에 있어서, 상기 제5랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출수단; 상기 Preset-ASI 추출수단에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및 상기 Preset-ASI 추출수단에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬수단에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬수단에 의해 생성된 랜더링정보와, 상기 서브밴드변환수단에 의해 변환된 랜더링정보와, 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단을 포함하는 트랜스코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 디코딩 장치에 있어서, 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱수단; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 다수의 채널로 구성된 오디오 신호에 대한 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신 호처리수단; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호를 믹싱하여 오디오 신호를 복원하는 믹싱수단을 포함하는 오디오 디코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 디코딩 장치에 있어서, 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 포함하는 다채널 신호의 랜더링정보와, 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱수단; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 적어도 어느 하나의 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호, 및 상기 하이 서프레션(high suppression)된 오디오 객체 신호를 생성하는 신호처리수단; 상기 수정된 다운믹스 신호를 믹싱하여 다채널 오디오 신호를 복원하는 채널 디코딩 수단; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호와 신호처리수단에 의해 생성된 오디오 객체 신호를 믹싱하는 믹싱수단을 포함하는 오디오 디코딩 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 인코딩 방법에 있어서, 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 단계; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 단계에 의해 다운믹스된 신 호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 다객체 인코딩 단계를 포함하되, 상기 다객체 인코딩 단계는 상기 다채널 인코딩 단계가 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 인코딩 방법에 있어서, 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 단계; 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 단계에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 제1다객체 인코딩 단계; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 제1다객체 인코딩 단계에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제3랜더링정보를 생성하는 제2다객체 인코딩 단계를 포함하되, 상기 제2다객체 인코딩 단계는 상기 다채널 인코딩 단계 및 제1다객체 인코딩 단계가 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 방법에 의 해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 방법에 있어서, 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 방법의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 제1행렬단계에 의해 생성된 랜더링정보, 상기 제2행렬단계에 의해 생성된 랜더링정보, 및 상기 서브밴드변환단계에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 방법에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 방법에 있어서, 상기 제4랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출단계; 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬단계에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬단계에 의해 생성된 랜더링정보와, 상기 서브밴드변환단계에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 방법에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 방법에 있어서, 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 제1행렬단계에 의해 생성된 랜더링정보, 상기 제2행렬단계에 의해 생성된 랜더링정보, 상기 서브밴드변환단계에 의해 변환된 랜더링정보 및 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 상기 오디오 인코딩 방법에 의해 인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 방 법에 있어서, 상기 제5랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출단계; 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬단계에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬단계에 의해 생성된 랜더링정보와, 상기 서브밴드변환단계에 의해 변환된 랜더링정보와, 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 디코딩 방법에 있어서, 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱단계; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 다수의 채널로 구성된 오디오 신호에 대한 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신 호처리단계; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호를 믹싱하여 오디오 신호를 복원하는 믹싱단계를 포함하는 오디오 디코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 오디오 디코딩 방법에 있어서, 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 포함하는 다채널 신호의 랜더링정보와, 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱단계; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 적어도 어느 하나의 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호, 및 상기 하이 서프레션(high suppression)된 오디오 객체 신호를 생성하는 신호처리단계; 상기 수정된 다운믹스 신호를 믹싱하여 다채널 오디오 신호를 복원하는 채널 디코딩 단계; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호와 신호처리단계에 의해 생성된 오디오 객체 신호를 믹싱하는 믹싱단계를 포함하는 오디오 디코딩 방법을 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 다채널 오디오 신호 및 다객체 오디오 신호를 입력받을 수 있는 입력부; 및 상기 입력된 오디오 신호를 다운믹스 신호 및 렌더링 정보로 부호화하는 부호화부를 포함하고, 상기 렌더링 정보는 다채널 부호화 부가정보 및 다객체 부호화 부가정보를 포함하는 오디오 부호화 장치를 제공한다.

또한, 상기 목적을 달성하기 위한 본 발명은, 다운믹스신호 및 부가정보신호를 포함하는 오디오 부호화 신호를 입력받는 단계; 상기 부가정보신호로부터 다객체 부가정보 및 다채널 부가정보를 추출하는 단계; 상기 다객체 부가정보에 기초하여 상기 다운믹스신호를 다채널 다운믹스 신호로 변환하는 단계; 상기 다채널 다운믹스 신호 및 상기 다채널 부가정보를 이용하여 다채널 오디오 신호를 복호화하는 단계; 및 상기 복호화된 오디오 신호를 합성하는 단계를 포함하는 오디오 복호화 방법을 제공한다.

본 발명에 따르면, 다채널로 구성된 다객체 오디오 신호가 사용자 필요에 따라 다양하게 인코딩 및 디코딩됨으로써, 사용자의 필요에 따라 능동적으로 오디오 컨텐츠가 소비될 수 있다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다. 따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한 프로세서, 제어가 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다. 유사하게, 도면에 도시된 스위치는 개념적으로만 제시된 것일 수 있다. 이러한 스위치의 작용은 프로그램 로직 또는 전용 로직을 통해 프로그램 제어 및 전용 로직의 상호 작용을 통하 거나 수동으로 수행될 수 있는 것으로 이해되어야 한다. 특정의 기술은 본 명세서의 보다 상세한 이해로서 설계자에 의해 선택될 수 있다.

본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.

상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

도1은 본 발명에 따른 오디오 인코딩 장치 및 디코딩 장치를 나타내는 일실시예 구성도이다.

도1에 도시된 바와 같이, 본 발명의 일실시예에 따른 오디오 인코딩 장치는 SAOC(Spatial Audio Object Coding) 인코더(101), SAC 인코더(103), 비트스트림 포맷터(105) 및 Preset-ASI(Preset-Audio Scene Information, 프리셋 오디오 장면 정 보)부(113)를 포함한다.

SAOC 인코더(101)는, SAC 기술을 기반으로 하는 공간큐 기반의 인코더로서, 모노 채널 또는 스테레오 채널로 구성된 다수의 오디오 객체를 모노 채널 또는 스테레오 채널로 구성된 하나의 신호로 다운믹스한다. 인코딩된 다수의 오디오 객체는 디코딩 장치에서 각각 독립적으로 복원되는 것이 아니라, 상기 오디오 객체에 대한 랜더링 정보에 의해 원하는 오디오 장면으로 복원된다. 따라서, 오디오 디코딩 장치는, 원하는 오디오 장면을 위해, 오디오 객체를 랜더링 할 수 있는 구성이 요구된다. 여기서, 랜더링은 오디오 신호가 출력될 위치 및 레벨 등을 결정하여 출력 오디오 신호를 생성하는 것을 의미한다.

SAOC 기술은 파라미터 기반 다객체 코딩 기술로서, M(＜N)개 채널을 구성하는 오디오 신호에 N개 오디오 객체를 전송하도록 설계되었다. 이러한 다운믹스 신호와 함께, 원 객체 신호의 재생성(recreation) 및 조작(manipulation)을 위한 객체 파라미터가 전송된다. 상기 객체 파라미터는 객체간 레벨차 정보, 객체의 절대 에너지 정보, 객체간 상관성 정보일 수 있다. SAOC 기술에 따르면, 전송된 M(＜N)개 채널 신호와, 공간큐 정보 및 부가정보가 포함된 SAOC 비트스트림에 기초하여 N개 오디오 객체가 재생성(re-creating), 수정(modifying) 및 랜더링될 수 있다. 상기 M개 채널 신호는 모노 채널 또는 스테레오 채널 신호일 수 있다. 상기 N개 오디오 객체도 모노 채널 또는 스테레오 채널 신호일 수 있으며, MPS 다채널 객체일 수 있다. SAOC 인코더는 입력된 객체 신호를 다운믹스하는 한편, 상기 객체 파라미터를 추출한다. SAOC 디코더는 소정 개수의 재생 채널에 맞도록 다운믹스 신호로부터 객체 신호를 재구성 및 랜더링한다. 각 객체의 재구성 레벨 및 패닝 위치를 포함하는 랜더링 정보는 사용자로부터 입력될 수 있다. 출력되는 사운드 장면은 스테레오 채널로부터 5.1 채널 등의 다채널까지 다양하며 입력 객체 신호의 개수 및 다운믹스 채널의 개수로부터 독립적이다.

SAOC 인코더(101)는 직접 입력되거나 후술되는 SAC 인코더(103)로부터 출력되는 오디오 객체를 다운믹스하여 대표 다운믹스 신호를 출력한다. 한편, SAOC 인코더(101)는 입력된 오디오 객체에 대한 공간큐 정보 및 부가정보가 포함된 SAOC 비트스트림을 출력한다. 여기서, 상기 SAOC 인코더(101)는 "이질적인 레이아웃 SAOC" 또는 "Faller" 기법을 이용하여 입력되는 오디오 객체 신호를 분석할 수 있다.

본 명세서에서 언급되는 공간큐 정보는 일반적으로 주파수 영역의 서브밴드 단위로 분석되어 추출된다. 본 발명의 일실시예로서, 활용 가능한 공간큐에 대한 정의는 다음과 같다.

CLD [Channel(Audio Signal) Level Difference]: 입력 오디오 신호간 레벨 차

ICC [Inter Channel Correlation]: 입력 오디오 신호간 상관성

CTD [Channel(Audio Signal) Time Difference]: 입력 오디오 신호간 시간 차

CPC [Channel Prediction Coefficient]: 입력 오디오 신호의 다운믹스 비율

즉, CLD는 오디오 신호의 파워이득 정보, ICC는 오디오 신호간의 상관성 정보, CTD는 오디오 신호간의 시간차 정보, CPC는 오디오 신호가 다운믹스될 때 다운 믹스 이득정보를 나타낸다.

공간큐의 주요한 역할은 공간 화상(spatial image), 즉 사운드 장면(sound scene)을 유지하는 것이다. 따라서, 공간큐를 통해 사운드 장면이 구성될 수 있다. 오디오 신호의 재생환경을 고려할 때, 상기 공간큐 중에서 가장 많은 정보를 차지하고 있는 공간큐는 CLD로서, CLD만으로도 기본적인 출력 신호를 생성할 수 있다. 따라서 이하에서는 본 발명의 일실시예로서 CLD를 중심으로 하여 설명될 것이다. 그러나, 본 발명이 CLD에만 한정되지 않으며 다양한 공간큐와 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CLD에 한정되지 않는 것으로 이해되어야 한다.

상기 부가정보는 SAOC 인코더(101)로 입력되는 오디오 객체의 복원 및 제어를 위한 공간 정보를 포함한다. 또한 상기 부가정보는 각 입력 오디오 객체에 대한 식별정보를 정의한다. 또한 상기 부가정보는 예를 들어 모노 채널, 스테레오 채널, 또는 다채널 등 각 입력 오디오 객체의 채널 정보를 정의한다. 상기 부가정보는 일실시예로서 헤더 정보, 오디오 객체 정보, 프리셋(preset) 정보 및 후술되는 객체 제거를 위해 필요한 제어 정보를 포함할 수 있다.

한편, SAOC 인코더(101)는, 후술되는 바와 같이, SAC 스킴(scheme)이 제한하는 서브밴드 개수보다 더 많은 수의 서브밴드 즉 추가 서브밴드에 기초하여 공간큐 파라미터를 생성할 수 있다. SAOC 인코더(101)는, 하기 [수학식 13]에 따라 가장 유력한(dominant) 파워를 갖는 서브밴드의 인덱스 Pw_indx(b) 를 산출한다. 이 점에 대해서는 후술된다. 상기 서브밴드의 인덱스 Pw_indx(b) 는 상기 SAOC 비트스트 림에 포함될 수 있다.

본 명세서에서 언급되는 SAC 스킴 또는 SAC 인코딩 및 디코딩 스킴 또는 SAC 코덱 스킴은 SAC 인코더(103)가 입력된 다채널 오디오 신호에 대한 공간큐 정보의 생성을 위해 따라야 하는 조건이다. SAC 스킴의 대표적인 예로서, 공간큐 생성을 위한 서브밴드 개수이다.

SAC 인코더(103)는 다채널 오디오 신호를 모노 채널 또는 스테레오 채널로 다운믹스하여 하나의 오디오 객체를 생성한다. 한편, SOC 인코더(103)는 입력된 다채널 오디오 신호에 대한 공간큐 정보 및 부가정보가 포함된 SAC 비트스트림을 출력한다.

SAC 인코더(103)는 일실시예로서 BCC(Binaural Cue Coding) 인코더, MPEG Surround(MPS) 인코더일 수 있다.

SAC 인코더(103)로부터 출력되는 오디오 객체 신호는 SAOC 인코더(101)로 입력된다. 여기서, SAOC 인코더(101)로 직접 입력되는 오디오 객체와 달리, SAC 인코더(103)로부터 SAOC 인코더(101)로 입력되는 오디오 객체는 배경 장면 객체(Background Scene Object)일 수 있다. 배경 장면 객체 신호 즉 다채널로 구성된 오디오 신호로서 SAC 인코더(103)에 의해 하나의 오디오 객체로 다운믹스된 신호는 이미 소정 오디오 장면 혹은 콘텐츠 제작 의도에 따라 다수의 오디오 객체가 반영된 MR(Music Recorded) 버전의 신호일 수 있다.

Preset-ASI부(113)는 외부로부터 입력되는 제어신호, 즉 객체제어정보를 Preset-ASI 정보로 구성하고, 상기 Preset-ASI 정보를 포함하는 Preset-ASI 비트스 트림을 생성한다. 상기 Preset-ASI 정보에 대해서는 도10 및 도11에서 상세하게 설명된다.

비트스트림 포맷터(105)는 SAOC 인코더(101)로부터 출력되는 SAOC 비트스트림과, SAC 인코더(103)로부터 출력되는 SAC 비트스트림과, Preset-ASI부(113)로부터 출력되는 Preset-ASI 비트스트림을 결합하여 대표 비트스트림을 생성한다.

도2는 비트스트림 포맷터(105)로부터 생성되는 대표 비트스트림을 나타내는 일실시예 구성도이다.

도2에 도시된 바와 같이, 비트스트림 포맷터(105)는 SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림 및 SAC 인코더(103)에 의해 생성된 SAC 비트스트림에 기초하여 대표 비트스트림을 생성한다.

본 발명에 따르면, 대표 비트스트림의 구조는 예를 들어 이하에서 설명되는 3가지 형태일 수 있다.

상기 대표 비트스트림의 첫번째 가능한 구조(201)는 SAOC 비트스트림과 SAC 비트스트림이 직렬적으로 연결되는 구조이다. 상기 대표 비트스트림의 두번째 가능한 구조(203)로서, SAOC 비트스트림의 보조 데이터(ancillary data)영역에 SAC 비트스트림이 포함되는 구조이다. 상기 대표 비트스트림의 세번째 가능한 구조(205)로서, SAOC 비트스트림 및 SAC 비트스트림 각각에 포함된 유사 데이터 영역이 그루핑되는 구조이다. 예를 들어, 상기 세번째 가능한 구조의 대표 비트스트림은 헤더 영역에 SAOC 비트스트림 헤더 및 SAC 비트스트림 헤더를 포함하고, 특정 CLD와 관련하여 그루핑된 SAOC 비트스트림의 정보와 SAC 비트스트림의 정보를 포함한다.

한편, SAOC 비트스트림 헤더에는 다음의 표1로 정의되는 제어 가능한 오디오 객체 식별 정보, 서브밴드 정보 및 추가 공간큐 식별 정보가 포함된다. 여기서, 제어 가능한 오디오 객체는 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보를 통해 분석된 오디오 객체를 의미한다.

[표 1]

비록 본 명세서에서는 대표 비트스트림의 가능한 구조로서 3개 실시예가 개시되었으나, 본 발명이 상기 3개 실시예에만 한정되지 않으며 다양한 형태로 SAOC 비트스트림 및 SAC 비트스트림이 결합될 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백하다. 따라서 본 발명은 상기 3개 실시예에 한정되지 않는 것으로 이해되어야 한다.

한편, 상기 대표 비트스트림은 상기 Preset-ASI부(113)에 의해 생성된 Preset-ASI 비트스트림을 포함할 수 있다.

도10은 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림을 나타내는 또 다른 일실시예 구성도로서, 상기 대표 비트스트림이 Preset-ASI 정보를 포함하는 일실시예 구성도이다.

도10에 도시된 바와 같이, 대표 비트스트림은 Preset-ASI 영역을 포함한다. 상기 Preset-ASI 영역은 기본(default) Preset-ASI 정보가 포함된 다수의 Preset-ASI 정보를 포함하며, 상기 Preset-ASI 정보는 각 오디오 객체의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보를 포함한다. 즉, Preset-ASI 정보는 출력 스피커의 레이아웃 정보 및 스피커의 레이아웃 정보에 적합한 오디오 장면을 구성하기 위한 각 오디오 객체의 위치 및 레벨 정보를 나타낸다. 상기 기본(default) Preset-ASI 정보는 기본 출력을 위한 장면 정보이다.

트랜스코더(107)는 상기 객체제어정보를 이용하여 오디오 객체를 랜더링한다. 한편, 상기 객체제어정보는 소정의 기본값, 예를 들어 상기 기본(default) Preset-ASI 정보로 설정될 수 있다.

상기 객체제어정보는 대표 비트스트림의 부가정보 또는 헤더정보에 포함된다. 상기 객체제어정보는 두 가지 형태로 표현될 수 있다. 첫째, 각 오디오 객체의 위치 및 레벨 정보 및 출력 레이아웃 정보가 직접적으로 표현되거나, 둘째, 각 오디오 객체의 위치 및 레벨 정보 및 출력 레이아웃 정보가 후술되는 제1행렬(Matrix I) 형태로 표현되어, 후술되는 제1행렬부(1113)의 제1행렬 대신 이용될 수 있다.

Preset-ASI 정보에 포함된 객체제어정보가 직접적으로 표현되는 경우, Preset-ASI 정보는 모노 채널 또는 스테레오 채널 또는 다채널 등 재생 시스템의 레이아웃 정보, 오디오 객체 ID, 오디오 객체 레이아웃 정보로서 모노 채널 또는 스테레오 채널 정보, 오디오 객체 위치, 예를 들어 0 degree ∼ 360 degree로 표현되는 방위(Azimuth), 예를 들어 -50 degree ∼ 90 degree로 표현되는 스테레오 재생시 높낮이(Elevation), 예를 들어 -50 dB ∼ 50dB로 표현되는 오디오 객체 레벨정보를 포함할 수 있다.

Preset-ASI 정보에 포함된 객체제어정보가 제1행렬(Matrix I) 형태로 표현되는 경우, 상기 Preset-ASI 정보가 반영된 하기 [수학식 6]의 P 행렬이 랜더링부(1103)로 전송된다. 상기 제1행렬(Matrix I)은 각 오디오 객체들이 출력되는 채널에 매핑되기 위한 파워 이득 정보 또는 위상정보를 요소 벡터로 포함한다.

상기 Preset-ASI 정보는 오디오 객체에 대하여, 원하는 재생 시나리오에 대응되는 다양한 오디오 장면을 정의할 수 있다. 예를 들어, 스테레오 또는 5.1 채널 또는 7.1 채널 등 다채널 재생 시스템이 요구하는 Preset-ASI 정보가 콘텐츠 제작자의 의도 및 재생 서비스의 목적에 맞게 정의될 수 있다.

다시 도1을 참조하면, SAC 인코더(103)으로부터 출력되는 SAC 비트스트림은 다채널 오디오 신호에 대한 공간큐 정보를 포함하고 있으며, SAC 인코딩 및 디코딩 스킴에 종속적이다. 예를 들어, 후술되는 SAC 디코더(111)가 MPEG Surround(MPS) 디코더로서 28개의 서브밴드를 갖는다면, SAC 인코더(103)도 28개의 서브밴드 단위로 공간큐를 생성해야 한다. 예를 들어 SAC 인코더(103)는 입력 오디오 신호인 제1채널 신호(Channel1)와 제2채널 신호(Channel2)를 프레임 단위로 주파수 영역으로 변환하고 상기 변환된 주파수 영역 신호를 고정된 서브밴드 단위로 분석하여 공간큐를 생성한다. 공간큐의 일예인 CLD는 다음의 [수학식1]에 의해 생성된다.

[수학식 1]

여기서, S는 서브밴드 개수, b는 서브밴드 인덱스, k는 주파수 계수, A(b)는 b번째 서브밴드의 주파수 영역의 경계이다. 상기 [수학식1]의 분자항과 분모항은 상호 바뀌어 정의될 수 있다. 일반적으로 MPEG Surround(MPS) 스킴에 따르면, 하나 오디오 신호 프레임은 고정된 개수의 서브밴드 즉 20개 또는 28개의 서브밴드 단위로 분석되어 공간큐가 생성된다.

그러나 SAOC 인코더(101)는 SAC 스킴으로부터 자유로울 수 있으며, SAOC 인코더(101)에 의해 SAC 스킴에 제한되지 않고 분석된 오디오 객체의 공간큐는 SAC 스킴에 따라 분석된 오디오 객체의 공간큐보다 많은 정보, 예를 들어 보다 많은 서브밴드 정보 또는 SAC 스킴에 제약되지 않는 추가적인 정보를 포함할 수 있다.

상기 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보는 후술되는 신호처리부(109)에서 효과적으로 이용된다. 신호처리부(109)가 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제외하고 모두 제거하거나, 상기 객체N만을 제거하는 과정 즉, 신호처리부(109)가 대표 다운믹스 신호로부터 소정 오디오 객체 성분을 제거하는 과정에서 상기 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보를 통해 오디오 객체의 분해능력이 SAC 스킴에 따르는 분해능력 이상으로 향상 된다.

결국, 상기 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보를 통해 소정 오디오 객체의 제거 능력을 보다 향상시킬 수 있다. 오디오 객체의 제거 능력이 향상되면 하이 서프레션(high suppression) 즉 대표 다운믹스 신호로부터의 오디오 객체의 보다 정교하고 깨끗한 제거가 가능하다.

즉, SAOC 인코더(101)는 오디오 객체의 분해능력 향상을 통한 오디오 객체의 보다 정교하고 깨끗한 제거를 위해 SAC 인코더(103) 및 SAC 디코더(111)가 제한받는 SAC 스킴에 제한받지 않고 더 많은 서브밴드에 대한 공간큐, 즉 더 높은 해상도의 서브밴드에 대한 공간큐, 및 추가 공간큐를 생성할 수 있다. SAOC 인코더(101)는 SAC 인코더(103)가 제한받는 고정된 서브밴드 개수에 제한받을 필요가 없다. 따라서, SAOC 인코더(101)에 의해 SAC 스킴에 제한받지 않고 생성된 공간큐에 대한 오디오 객체는 보다 많은 부가 정보를 포함하기 때문에 하이 서프레션(high suppression)이 가능하다.

후술되는 바와 같이, 신호처리부(109)는, 다음의 [수학식 2]에 의해, SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제외하고 모두 제거하거나, 다음의 [수학식 3]에 의해, SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제거하여 수정된 대표 다운믹스 신호를 출력한다.

상술된 바와 같이, SAOC 인코더(101)는, 신호처리부(109)의 하이 서프레션 (high suppression)을 위해, SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보를 생성한다. 예를 들어 SAOC 인코더(101)는 SAC 스킴이 제한하는 28개보다 많은 수의 서브밴드 단위로 오디오 신호를 분석하여 공간큐를 생성할 수 있다. 이 경우, SAOC 인코더(101)에 의해 생성되어 상기 대표 비트스트림에 포함되는 공간큐의 서브밴드 파라미터는 SAC 스킴에 따라 예를 들어 28개의 서브밴드 파라미터만을 갖는 SAC 디코더(111)에 의해 처리될 수 있도록 변환되며, 이러한 변환은 후술되는 트랜스코더(107)에 의해 수행된다.

즉, 본 발명에 따르면 하이 서프레션(high suppression)을 위한 SAOC 인코더(101)와 채널 신호 복원을 위한 SAC 인코더(103)는 각자의 목적을 위해 다채널로 구성된 다객체 오디오 신호를 분석하여 공간큐 정보를 생성한다.

한편, 본 발명의 일실시예에 따른 오디오 디코딩 장치는 트랜스코더(107), 신호처리부(109) 및 SAC 디코더(111)를 포함한다. 본 명세서 전반에 걸쳐 트랜스코더와 신호처리부가 디코더와 함께 오디오 디코딩 장치를 구성하는 것으로 기재되어 있으나 트랜스코더와 신호처리부가 반드시 물리적으로 디코더와 함께 하나의 장치에 구성될 필요는 없다는 점은 당업자에게 자명하다.

SAC 디코더(111)는 공간큐 기반의 다채널 오디오 디코더로서, 트랜스코더(107)로부터 출력되는 수정된 대표 비트스트림에 기초하여, 신호처리부(109)로부터 출력되는 수정된 대표 다운믹스 신호를 객체별 오디오 신호로 복원하여 다채널로 구성된 다객체 오디오 신호로 복원한다.

SAC 디코더(111)는 일예로서 MPEG Surround(MPS) 디코더, BCC 디코더일 수 있다.

신호처리부(109)는 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호 및 후술되는 파싱부(301, 601, 707, 1101)로부터 출력되는 SAOC 비트스트림 정보에 기초하여 대표 다운믹스 신호에 포함된 오디오 객체 중 일부를 제거하고 수정된 대표 다운믹스 신호를 출력한다.

예를 들어, 신호처리부(109)는, 다음의 [수학식 2]에 의해, SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제외하고 모두 제거하여 수정된 대표 다운믹스 신호를 출력한다.

[수학식 2]

여기서, U(f) 는 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호가 주파수 영역으로 변환된 신호로서 모노 채널 신호, U ^modified (f) 는 상기 수정된 대표 다운믹스 신호로서 상기 주파수 영역의 대표 다운믹스 신호로부터 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만 제외한 나머지 객체가 제거된 신호, A(b)은 b번째 서브밴드의 주파수 영역에서의 경계, δ 는 레벨 크기를 조절하기 위한 임의의 상수 값으로서 신호처리부(109) 외부로부터 입력되는 제어신호에 포함되 는 값,

은 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에 포함된 i번째 객체의 b번째 서브밴드의 파워이다. SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에 포함된 N번째 객체는 SAC 인코더(103)로부터 출력되는 오디오 객체에 대응한다.

U(f) 가 스테레오 채널 신호인 경우에는 대표 다운믹스 신호가 좌우 채널로 분리되어 처리된다.

상기 [수학식 2]에 의해 신호처리부(109)로부터 출력되는 수정된 대표 다운믹스 신호 U ^modified (f) 은 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N에 대응된다. 즉 상기 [수학식 2]에 의해 신호처리부(109)로부터 출력되는 수정된 대표 다운믹스 신호는 SAC 인코더(105)로부터 출력되는 다운믹스 신호로 취급될 수 있다. 따라서, SAC 디코더(111)는 수정된 대표 다운믹스 신호로부터 M개의 다채널 신호를 복원한다.

이 경우, 후술되는 트랜스코더(107)는 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림에서 SAOC 인코더(101)로부터 출력되는 SAOC 비트스트림을 제외한 나머지 오디오 객체 정보 즉 SAC 인코더(105)로부터 출력되는 SAC 비트스트림만을 처리하여 수정된 대표 비트스트림을 생성한다. 따라서, SAOC 인코더(101)로 직접 입력된 오디오 객체 신호에 해당하는 파워 이득정보, 상관성 정보 등은 수정된 대표 비트스트림에 포함되지 않는다.

여기서, 전체 신호의 레벨은 후술되는 트랜스코더(107)의 랜더링부(303)에 의해 조절되거나, 또는 상기 [수학식 2]의 상수 δ 에 의해 조절된다.

한편, 신호처리부(109)는, 다음의 [수학식 3]에 의해, SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제거하여 수정된 대표 다운믹스 신호를 출력한다.

[수학식 3]

상기 [수학식 3]에 의해 신호처리부(109)로부터 출력되는 수정된 대표 다운믹스 신호 U ^modified (f) 은 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호 U(f) 에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만이 제외된 신호이다.

이 경우, 후술되는 트랜스코더(107)는 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림에서 SAC 인코더(105)로부터 출력되는 SAC 비트스트림을 제외한 나머지 오디오 객체 정보만을 처리하여 수정된 대표 비트스트림을 생성한다. 따라서, SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N에 해당하는 파워 이득정보, 상관성 정보 등은 수정된 대표 비트스트림에 포함되지 않는다.

여기서, 전체 신호의 레벨은 후술되는 트랜스코더(107)의 랜더링부(303)에 의해 조절되거나, 또는 상기 [수학식 3]의 상수 δ 에 의해 조절된다.

신호처리부(109)는 상기 설명된 주파수 영역 신호뿐만 아니라 시간영역 신호도 처리할 수 있음은 자명하다. 신호처리부(109)는 상기 대표 다운믹스 신호를 서브밴드로 분할하기 위해 DFT(Discrete Fourier Transform) 또는 QMF(Quadrature Mirror Filterbank)를 이용할 수 있다.

트랜스코더(107)는 SAOC 인코더(101)로부터 SAC 디코더(111)로 전달되는 오디오 객체에 대한 랜더링을 수행하고, 외부로부터 입력되는 제어신호인 객체 제어정보 및 재생 시스템 정보에 기초하여 비트스트림 포맷터(105)로부터 생성되는 대표 비트스트림을 변환한다.

트랜스코더(107)는, SAC 디코더(111)로 전달되는 오디오 객체를 다채널로 구성된 다객체 오디오 신호로 복원하기 위해, 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림에 기초하여 랜더링 정보를 생성한다. 트랜스코더(107)는 대표 비트스트림에 포함된 오디오 객체 정보에 기초하여 SAC 디코더(111)로 전달되는 오디오 객체가 원하는 오디오 장면에 대응되도록 랜더링한다. 상기 랜더링 과정에서 트랜스코더(107)는 원하는 오디오 장면에 대응되는 공간정보를 예측하며, 상기 예측된 공간정보를 변환하여 수정된 대표 비트스트림의 부가정보로 생성한다.

또한, 트랜스코더(107)는 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림을 SAC 디코더(111)가 취급할 수 있는 비트스트림으로 변환한다.

그리고, 트랜스코더(107)는 신호처리부(109)에 의해 제거되는 객체에 대응하는 정보를 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림으로부터 제외시킨다.

도3은 도2의 트랜스코더(107)를 나타내는 일실시예 상세 구성도이다.

도3에 도시된 바와 같이, 트랜스코더(107)는 파싱부(301), 랜더링부(303), 서브밴드 변환부(305), 제2행렬부(311) 및 제1행렬부(313)를 포함한다.

파싱부(301)는 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림을 파싱하여 상기 대표 비트스트림으로부터, SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림, SAC 인코더(103)에 의해 생성된 SAC 비트스트림을 분리한다. 또한 파싱부(301)는 상기 분리된 SAOC 비트스트림으로부터 SAOC 인코더(101)로 입력된 오디오 객체의 개수에 대한 정보를 추출한다.

제2행렬부(311)는 파싱부(301)에 의해 분리된 SAC 비트스트림에 기초하여 제2행렬(Matrix Ⅱ)을 생성한다. 상기 제2행렬(Natrix Ⅱ)은 SAC 인코더(103)의 입력 신호 즉 다채널 오디오 신호에 대한 행렬식이다. 제2행렬(Matrix Ⅱ)은 SAC 인코더(103)의 입력 신호인 다채널 오디오 신호의 파워 이득 값에 대한 것으로서, 하기 [수학식 4]와 같다.

[수학식 4]

기본적으로, SAC 기술에 따르면, 하나의 오디오 신호 프레임에 대하여 M개의 서브밴드 단위로 분석된다. 여기서,

는 SAC 인코더(103)로부터 출력되는 다운믹스 신호 즉 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N, k는 주파수 계수, b는 서브밴드 인덱스이다.

는 상기 SAC 비트스트림에 포함된 다채널 신호 즉 SAC 인코더(103)의 M개의 입력 오디오 신호의 공간큐 정보로서, i번째 오디오 신호(1≤i≤M)의 주파수 정보를 복원하기 위해 이용된다. 따라서,

는 주파수 계수의 크기나 위상으로 표현될 수 있다. 따라서, [수학식 4]의

는 SAC 디코더(111)로부터 출력되는 다채널 오디오 신호를 나타낸다.

상기

과

는 벡터이며,

의 전치 행렬 차원(Transpose Matrix Dimension)이

의 차원이 된다. 예를 들어, 하기 [수학식 5]와 같이 정의될 수 있다. 여기서, SAC 인코더(103)로부터 출력되는 다운믹스 신호 즉 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N은 모노 채널 또는 스테레오 채널 신호이므로 m은 1 또는 2이다.

[수학식 5]

상기한 바와 같이,

는 SAC 비트스트림에 포함된 공간큐 정보이다.

가 각 채널의 서브밴드에서의 파워 이득을 나타내는 경우,

는 CLD에 의해 예측될 수 있다.

가 주파수 계수들의 위상 차를 보상하기 위한 계수로 이용되는 경우,

는 CTD 또는 ICC 에 의해 예측될 수 있다.

이하, 예시적으로,

를 주파수 계수들의 위상 차를 보상하기 위한 계수로 이용되는 경우가 설명된다.

SAC 인코더(103)로부터 출력되는 다운믹스 신호 즉 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N과의 행렬 연산을 통해 SAC 디코더(111)로부터 출력되는 다채널 오디오 신호

가 생성될 수 있도록, [수학식 4]의 제2행렬(Matrix Ⅱ)은 각 채널별 파워 이득값을 표현하고, 상기 다운믹스 신호 즉 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N의 역의 차원을 가져야 한다.

제2행렬부(311)에 의해 생성된 상기 [수학식 4]의 제2행렬(Matrix Ⅱ)은 랜더링부(303)에 의해 제1행렬부(313)의 출력과 결합된다.

제1행렬부(313)는 외부로부터 입력되는 제어신호(예를 들어, 객체 제어정보, 재생 시스템 정보)에 기초하여, SAC 디코더(111)로 전달되는 오디오 객체를 원하는 출력, 즉 다채널로 구성된 다객체 오디오 신호로 매핑시키기 위한 제1행렬(Matrix I)을 생성한다. 하기 [수학식 6]의 제1행렬(Matrix I)를 구성하는 요소 벡터

는 j번째 오디오 객체(1≤j≤N-1)가 SAC 디코더(111)의 i번째 출력 채널(1≤i≤M)에 매핑되기 위한 파워이득 정보 또는 위상정보를 나타내며, 외부에서 입력되거나 초 기값으로 설정된 제어정보(예를 들어, 객체 제어정보, 재생 시스템 정보)로부터 획득 가능하다.

제1행렬부(313)에 의해 생성된 [수학식 6]의 제1행렬(Matrix I)은 랜더링부(303)에 의해 하기 [수학식 6]에 따라 연산된다. SAOC 인코더(101)의 N개 입력 오디오 객체에서 N번째 오디오 객체는 SAC 인코더(103)로부터 출력되는 다운믹스 신호이고 나머지는 SAOC 인코더(101)로 직접 입력된다. 이 경우, SAC 인코더(103)로부터 출력되는 다운믹스 신호 즉 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N을 제외한 각 오디오 객체들은 제1행렬(Matrix I)에 따라 SAC 디코더(111)의 M개 출력 채널로 매핑될 수 있다. 랜더링부(303)는 하기 [수학식 6]에 따라 SAC 디코더(111)의 출력 채널의 파워 이득 벡터

로 구성된 행렬을 산출한다.

[수학식 6]

여기서,

는 SAC 인코더(105)로부터 출력되는 오디오 객체를 제외한 j 번째(1≤j≤N-1) 오디오 객체, 예를 들어 도1의 SAOC 인코더(101)로 직접 입력되는 오디오 객체의 서브밴드 신호를 나타내는 벡터로서, 후술되는 서브밴드 변환부(305)로부터 출력되는 SAOC 비트스트림 즉 SAC 스킴에 따른 SAOC 비트스트림으로부터 획득 가능한 공간큐 정보이다. j번째 오디오 객체가 스테레오이면 대응 공간큐

는 2x1의 차원을 갖는다.

상기 [수학식 6]의 연산자

에 의한 연산은 다음의 [수학식 7] 및 [수학식 8]과 같다.

[수학식 7]

[수학식 8]

여기서, SAC 디코더(111)로 전달되는 오디오 객체는 모노 채널 또는 스테레오 채널 신호이므로 m은 1 또는 2이다. SAOC 인코더(101)의 입력 신호 중에서 SAC 인코더(105)로부터 출력되는 오디오 객체를 제외하면 입력 오디오 객체는 N-1개로 서, 스테레오 채널 신호(m=2)이고, SAC 디코더(111)의 출력 채널이 M개인 경우, 상기 [수학식 6]의 제1행렬(Matrix I)의 차원은 Mx(N-1)이 되며,

는 2x1 행렬로 구성된다.

다음으로, 랜더링부(303)는 상기 [수학식 4]에 의해 산출되는 제2행렬(Matrix Ⅱ) 및 [수학식 6]에 의해 산출되는 행렬로서 출력 채널의 파워 이득 벡터

로 구성된 행렬에 기초하여 원하는 공간큐 정보를 산출하여, 상기 원하는 공간큐 정보를 포함하는 수정된 대표 비트스트림을 생성한다. 여기서, 원하는 공간큐란, SAC 디코더(111)로부터 출력되도록 의도된 출력 다채널 오디오 신호와 관련된 공간큐이다. 즉, 랜더링부(303)는 하기 [수학식 9]에 따라 원하는 공간큐 정보

를 산출한다. 따라서, SAC 디코더(111)로 전달되는 오디오 객체가 랜더링 된 후 각 채널들의 파워비는

로서 나타난다.

[수학식 9]

여기서, P _N 은 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N의 파워와 SAOC 인코더(101)로 직접 입력되는 N-1개의 오디오 객체의 파워 합의 비로서 하기 [수학식 10]으로 정의된다.

[수학식 10]

SAC 디코더(111)로 전달되어 출력되는 신호의 파워비는 공간큐 파라미터인 CLD로 표현될 수 있으며, 인접 채널 신호간의 공간큐 파라미터는 상기 공간큐 정보

로부터 다양한 조합의 형태로 표현될 수 있다. 즉, 랜더링부(303)에 의해

로부터 원하는 공간큐 파라미터가 새로이 생성된다.

예를 들어, SAC 디코더(111)로 전달되는 오디오 신호가 스테레오 채널 신호이면 제1채널 신호(Ch1)와 제2채널 신호(Ch2)간의 CLD 파라미터는 하기 [수학식 11]에 따라 생성된다.

[수학식 11]

한편, SAC 디코더(111)로 전달되는 오디오 신호가 모노 채널 신호이면 CLD 파라미터는 하기 [수학식 12]에 따라 산출된다.

[수학식 12]

랜더링부(303)는

로부터 추출된 공간큐 파라미터, 예를 들어 상기 [수학식 11] 및 [수학식 12]의 CLD 파라미터에 기초하여 Huffman 코딩 등에 따라 수정된 대표 비트스트림을 생성한다.

랜더링부(303)에 의해 생성된 수정된 대표 비트스트림에 포함되는 공간큐는 디코더의 특성에 따라 분석 및 추출되는 방법이 달라진다. 예를 들어. BCC 디코더의 경우, 하나의 채널을 기준으로 상기 [수학식 11]을 이용하여 N-1개의 CLD 파라미터를 추출할 수 있다. 또한, MPEG Surround 디코더의 경우, MPEG Surround의 채널별 비교 순서에 따라 CLD 파라미터를 추출할 수 있다.

정리하면, 파싱부(301)는 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림으로부터 SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림과 SAC 인코더(103)에 의해 생성된 SAC 비트스트림을 분리한다. 제2행렬부(311)는 상기 분리된 SAC 비트스트림에 기초하여 상기 [수학식 4]에 따라 제2행렬(Matrix Ⅱ)을 생성한다. 제1행렬부(313)는 제어신호에 상응하는 제1행렬(Matrix I)을 생성한다. 랜더링부(303)는 상기 분리된 SAOC 비트스트림으로서 후술되는 서브밴드 변환부(305)에 의해 변환된 SAOC 비트스트림 즉 SAC 스킴에 따른 SAOC 비트스트림 및 제1행렬(Matrix I)에 기초하여 상기 [수학식 6]에 따라 SAC 디코더(111)의 출력 채널의 파워 이득 벡터

로 구성된 행렬을 산출한다. 또한 랜더링부(303)는 상기 [수학식 6]에 따라 산출한 행렬과 상기 [수학식 4]에 따라 산출된 제2행렬(Matrix Ⅱ)에 기초하여 상기 [수학식 9]에 따라 원하는 공간큐 정보

를 산출한다. 그리 고, 랜더링부(303)는

로부터 추출된 공간큐 파라미터, 예를 들어 상기 [수학식 11] 및 [수학식 12]의 CLD 파라미터에 기초하여 수정된 대표 비트스트림을 생성한다. 상기 수정된 대표 비트스트림은 디코더의 특성에 따라 적절하게 변환된 비트스트림으로서, 다채널로 구성된 다객체 신호로 복원될 수 있다.

전술된 바와 같이, SAOC 인코더(101)는 SAC 인코더(103) 및 SAC 디코더(111)가 제한받는 SAC 스킴에 제한받지 않고 더 많은 서브밴드에 대한 공간큐, 즉 더 높은 해상도의 서브밴드에 대한 공간큐, 및 추가 공간큐를 생성할 수 있다. 예를 들어 SAOC 인코더(101)는 MPEG Surround 스킴에 의해 SAC 인코더(103) 및 SAC 디코더(111)가 제한받는 서브밴드 개수인 28개보다 많은 수의 서브밴드 단위로 분석하여 공간큐를 생성할 수 있다.

SAOC 인코더(101)가 SAC 스킴이 제한하는 서브밴드 개수보다 더 많은 수의 서브밴드 단위 즉 추가 서브밴드 단위로 공간큐 파라미터를 생성한 경우, SAC 스킴에 따른 SAC 디코더(111)의 디코딩을 위해, 트랜스코더(107)는 상기 추가 서브밴드에 대응하는 공간큐 파라미터를 SAC 스킴이 제한하는 서브밴드에 대응하도록 변환시킨다. 이러한 변환이 서브밴드 변환부(305)에 의해 수행된다.

도4는 서브밴드 변환부(305)의 상기 추가 서브밴드에 대응하는 공간큐 파라미터를 SAC 스킴이 제한하는 서브밴드에 대응하도록 변환시키는 과정을 설명하는 개념도이다.

SAC 스킴의 제한에 따른 서브밴드 중에서 b번째 서브밴드와, SAOC 인코더 (101)에 의한 상기 추가 서브밴드로서 L개의 추가 서브밴드가 서로 대응하는 관계인 경우, 서브밴드 변환부(305)는 상기 L개의 추가 서브밴드에 대한 공간큐 파라미터를 1개의 공간큐 파라미터로 변환하여 상기 b번째 서브밴드에 대응시킨다. 상기 L개의 추가 서브밴드에 대한 공간큐 파라미터를 1개의 공간큐 파라미터로 변환하는 일 실시예로서 SAOC 인코더(101)에 의한 SAOC 비트스트림으로부터 추출된 상기 L개의 추가 서브밴드에 대한 CLD 파라미터를 1개의 CLD 파라미터로 변환하는 경우, 상기 L개의 추가 서브밴드 중에서 가장 유력한(dominant) 파워를 갖는 서브밴드에 대한 CLD 파라미터를 선택하고, 상기 선택된 CLD 파라미터를 SAC 스킴의 제한에 따른 상기 b번째 서브밴드에 대응시킨다. SAOC 인코더(101)는 하기 [수학식 13]에 따라 가장 유력한(dominant) 파워를 갖는 서브밴드의 인덱스 Pw_indx(b) 를 산출하여 상기 SAOC 비트스트림에 포함시킨다.

[수학식 13]

여기서,

는 b번째 SAC 서브밴드 구간에 대한 CLD 정보로서, 서브밴 드 인덱스 Pw_indx(b) 산출을 위해 SAOC 인코더(101)에 의해 SAC 스킴에 따라 생성된 서브밴드 정보이다. CLD _SAOC (b+d) 는 상기 b번째 SAC 서브밴드 구간에 대응하는 L개의 추가 서브밴드 즉 SAOC 하위 서브밴드(subordinate sub band) 중 d번째(0≤d≤L-1) 하위 서브밴드에 관한 CLD 값이다. 여기서 상기 L개의 SAOC 서브밴드에 대한 하위 서브밴드라는 표현은 1개의 SAC 서브밴드 구간에 대응하는 다수개의 SAOC 서브밴드, 즉 높은 해상도의 서브밴드를 구분하기 위한 것이다. 만약, SAC 서브밴드와 SAOC 서브밴드의 분석 단위가 동일하다면 CLD _SAOC (b)=CLD _SAC (b) 일 것이다. CLD_dist(b+d) 는

와 CLD _SAOC (b+d) 의 차이를 나타낸다. 따라서 서브밴드 인덱스 Pw_indx(b) 는 상기 L개의 추가 서브밴드 중에서

와의 차이가 가장 작은 CLD 값의 인덱스를 나타낸다.

서브밴드 변환부(305)는, 파싱부(301)로부터 출력된 SAOC 비트스트림에 대하여, SAOC 인코더(101)에 의해 생성된 서브밴드 인덱스 Pw_indx(b) 에 기초하여 다음의 [수학식 14]에 따라 상기 L개의 추가 서브밴드 중에서

와의 차이가 가장 작은 CLD 값 CLD _SAOC (Pw_indx(b)) 을 상기 SAOC 비트스트림의 b번째 서브밴드에 대응시킨다. 즉, 상기 SAOC 비트스트림의 b번째 서브밴드에 해당하는 CLD 파라미터인

이 하기 [수학식 14]에 따라 상기 L개의 추가 서브밴드 중에서

와의 차이가 가장 작은 CLD 값 CLD _SAOC (Pw_indx(b)) 로 대체된다.

[수학식 14]

한편, [CLD _SAOC (b),....,CLD _SAOC (b＋L)] ^T 의 산술평균과 CLD _SAOC (Pw_indx(b)) 의 차이가 10dB 이상이면, 상기 [수학식 14]의

는 하기 [수학식 15]에 따라 평탄화(smoothing)된 값으로 대체된다. [수학식 15]의 평탄화에 의해,

와 [CLD _SAOC (b),....,CLD _SAOC (b＋L)] ^T 의 값간의 큰 편차가 배제된다.

[수학식 15]

여기서, 마찬가지로

와 [CLD _SAOC (b),....,CLD _SAOC (b+L)] ^T 의 값간의 큰 편차가 배제되도록, 상기 L개의 추가 서브밴드에 대한 CLD값 [CLD _SAOC (b-L/2),....,CLD _SAOC (b＋L/2] ^T 중에서 ± 30dB 이상의 값을 갖는 CLD는 상기 [수학식 15]에서 제외된다. CLD가 ± 30dB 이상인 서브밴드 채널 신호는 매우 작은 신호이기 때문에 존재하지 않는 것으로 취급될 수 있다. 예를 들어, [CLD _SAOC (b),....,CLD _SAOC (b＋L)] ^T 가 [....,-10,5,-32,....] ^T 이고, L/2=1, CLD _SAOC (Pw_indx(b))=5 이면

이다. 그러나, ± 30dB 이상의 값을 제외하면

이다.

한편, 서브밴드 변환부(305)는, SAOC 인코더(101)가 상기 [수학식 13]에 따라 생성하는 서브밴드의 인덱스 Pw_indx(b) 대신, 하기 [수학식 16]에 따라 서브밴드의 인덱스 Pw_indx(b) 를 산출하고 상기 [수학식 14] 및 [수학식 15]에 따라 상기 SAOC 비트스트림의 b번째 서브밴드에 해당하는 CLD 파라미터인

을 CLD _SAOC (Pw_indx(b))으로 대체할 수 있다.

[수학식 16]

이상에서는 CLD가 예시적으로 설명되었으나, 또 다른 공간큐 파라미터인 ICC도 유사하게 적용될 수 있다. 예를 들어 하기 [수학식 17] 내지 [수학식 20]에 따라 상기 SAOC 비트스트림의 b번째 서브밴드에 해당하는 ICC 파라미터인

가 ICC _SAOC (Pw_indx(b))로 대체된다.

[수학식 17]

[수학식 18]

[수학식 19]

[수학식 20]

이상에서 설명된 바와 같이, 서브밴드 변환부(305)는 파싱부(301)로부터 출력된 SAOC 비트스트림, 즉 SAOC 인코더(101)에 의해 SAC 스킴이 제한하는 서브밴드 개수보다 더 많은 수의 서브밴드 단위 즉 추가 서브밴드 단위로 생성된 공간큐 파라미터가 포함된 SAOC 비트스트림을 SAC 스킴에 따른 SAOC 비트스트림으로 변환하고, 랜더링부(303)는 서브밴드 변환부(305)에 의해 변환된 SAOC 비트스트림 즉 SAC 스킴에 따른 SAOC 비트스트림 및 제1행렬(Matrix I)에 기초하여 상기 [수학식 6]에 따라 SAC 디코더(111)의 출력 채널의 파워 이득 벡터

로 구성된 행렬을 산출한다.

이상에서는 SAOC 인코더(101)에 의해 SAC 스킴이 제한하는 서브밴드 개수보다 더 많은 수의 서브밴드 단위 즉 추가 서브밴드 단위로 생성된 공간큐 파라미터가 SAOC 비트스트림에 포함되는 실시예가 설명되었으나, 이러한 본 발명의 사상은 SAC 스킴에 따르면 이용되지 않는 공간큐 정보가 추가적으로 SAOC 비트스트림에 포함되는 경우에도 적용될 수 있다.

예를 들어 SAOC 인코더(101)는, 신호처리부(109)의 하이 서프레션(high suppression)을 위해, IPD(Internaural Phase Difference), OPD(Overall Phase Difference)를 공간큐 정보를 위상(phase) 정보로서 생성하여 SAOC 비트스트림에 포함시킬 수 있으며, 이러한 추가 정보는 오디오 객체의 분해능력을 향상시킨다. 따라서 신호처리부(109)는 대표 다운믹스 신호로부터의 오디오 객체의 보다 정교하고 깨끗한 제거가 가능하다. 여기서, IPD는 두 입력 오디오 신호간의 서브밴드에서 의 위상차, OPD는 대표 다운믹스 신호와 입력 오디오 신호간의 서브밴드 위상차를 나타낸다.

한편, 상기 추가 정보는 SAC 스킴에 따른 SAOC 비트스트림 생성을 위해 서브밴드 변환부(305)에 의해 제거된다.

도12는 도3의 트랜스코더를 나타내는 도면으로서 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보가 포함된 대표 비트스트림이 트랜스코더(107)에서 처리되는 과정을 나타내는 개념도이다. 설명의 편의를 위해 제1행렬부(313) 및 제2행렬부(311)가 도시되지 않았다.

도12에 도시된 바와 같이, 파싱부(301)로 입력되는 대표 비트스트림은 SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림을 포함하고, SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림은 추가적인 공간큐 정보로서 이상에서 설명된 서브밴드 인덱스 Pw_indx(b) , ITD 등 SAC 스킴에 제한받지 않는 공간큐 정보를 포함한다. 파싱부(301)는 상기 대표 비트스트림으로부터 SAC 인코더(103)에 의해 생성된 SAC 비트스트림을 제2행렬부(311)로 출력하는 한편, SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림을 서브밴드 변환부(305)로 출력한다. 서브밴드 변환부(305)는 SAOC 인코더(101)에 의해 생성된 SAOC 비트스트림 즉 추가적인 공간큐 정보로서 상기 서브밴드 인덱스 Pw_indx(b) , ITD 등 SAC 스킴에 제한받지 않는 공간큐 정보가 포함된 SAOC 비트스트림을 SAC 스킴에 따른 SAOC 비트스트림으로 변환하여 랜더링부(303)으로 출력하게 된다. 따라서 랜더링부(303)로부터 출력되는 수정된 대표 비트스트림은 SAC 스킴에 따른 비트스트림이기 때문에 SAC 디코더(111)에서 처리될 수 있다.

도5는 본 발명의 다른 일실시예에 따른 SAOC 인코더 및 비트스트림 포맷터를 나타내는 구성도이다.

도1의 SAOC 인코더(101) 및 비트스트림 포맷터(105)는 각각 도5의 SAOC 인코더(501) 및 비트스트림 포맷터(505)로 대체될 수 있다. 이 경우, SAOC 인코더(501)는 2개의 SAOC 비트스트림을 생성한다. 1개는 SAC 스킴에 제한되지 않은 SAOC 비트스트림이고 나머지 1개는 SAC 스킴에 따른 SAOC 비트스트림이다. 상기 SAC 스킴에 제한받지 않는 SAOC 비트스트림은, 도1의 SAOC 인코더(101)로부터 출력되는 SAOC 비트스트림과 유사하게, 추가적인 공간큐 정보로서 이상에서 설명된 서브밴드 인덱스 Pw_indx(b) , ITD 등 SAC 스킴에 제한받지 않는 공간큐 정보를 포함한다.

SAOC 인코더(501)는 제1인코딩부(507) 및 제2인코딩부(509)를 포함한다. 제1인코딩부(507)는 SAOC 인코더(501)로 입력되는 N개의 오디오 객체 중에서 [N-C]개의 오디오 객체를 다운믹스하는 한편 상기 [N-C]개의 오디오 객체에 대한 공간큐 정보 및 부가정보가 포함된 SAOC 비트스트림 정보로서 상기 SAC 스킴에 따른 SAOC 비트스트림을 생성한다. 제2인코딩부는 SAOC 인코더(501)로 입력되는 N개의 오디오 객체 중에서 나머지 C개의 오디오 객체 및 제1인코딩부(507)로부터 출력되는 다운믹스 신호를 다운믹스하여 상기 대표 다운믹스 신호를 출력하는 한편, 상기 나머지 C개의 오디오 객체 및 제1인코딩부(507)로부터 출력되는 다운믹스 신호에 대한 공간큐 정보 및 부가정보가 포함된 SAOC 비트스트림으로서 상기 SAC 스킴에 제한받지 않는 SAOC 비트스트림을 생성한다.

비트스트림 포맷터(505)는 SAOC 인코더(101)로부터 출력되는 2개의 SAOC 비트스트림과, SAC 인코더(103)로부터 출력되는 SAC 비트스트림과, Preset-ASI부(113)로부터 출력되는 Preset-ASI 비트스트림을 결합하여 대표 비트스트림을 생성한다. 비트스트림 포맷터(505)로부터 출력되는 대표 비트스트림은 예를 들어 도2 및 도10에 도시된 실시예일 수 있다.

도6은 본 발명의 다른 실시예에 따른 트랜스코더를 나타내는 상세 구성도로서, 도5의 SAOC 인코더(501) 및 비트스트림 포맷터(505)에 적합한 트랜스코더를 나타낸다.

도6의 트랜스코더는 기본적으로 도3의 트랜스코더와 동일한 동작을 수행한다. 다만, 파싱부(601)가 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림으로부터 SAOC 인코더(501)에 의해 생성된 2개의 SAOC 비트스트림을 분리한다. 1개는 SAC 스킴에 제한되지 않은 SAOC 비트스트림이고 나머지 1개는 SAC 스킴에 따른 SAOC 비트스트림이다. 상기 SAC 스킴에 따른 SAOC 비트스트림은 랜더링부(603)에 의해 직접 이용된다. 한편, 상기 SAC 스킴에 제한받지 않는 SAOC 비트스트림은 신호처리부(109)에서 이용되는 한편, 서브밴드 변환부(605)에 의해 SAC 스킴에 따른 SAOC 비트스트림으로 변환된다.

전술된 바와 같이, 상기 SAC 스킴에 제한받지 않는 SAOC 비트스트림은 SAOC 인코더(501)에 의해 생성되는 정보로서 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보를 포함한다. 이러한 추가 정보는 오디오 객체의 분해능력을 향상시킨다. 따라서 신호처리부(109)는 대표 다운믹스 신호로부터의 오디오 객체의 보다 정교하고 깨끗한 제거가 가능하다. 즉 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보에 대한 오디오 객체는 보다 많은 부가 정보를 포함하기 때문에 신호처리부(109)에 의한 하이 서프레션(high suppression)이 가능하다.

한편, 전술된 바와 같이, SAC 스킴에 제한받지 않는 SAOC 비트스트림은 SAC 스킴에 따라 예를 들어 28개의 서브밴드 파라미터만을 갖는 SAC 디코더(111)에 의해 처리될 수 있도록 서브밴드 변환부(605)에 의해 변환된다. 예를 들어, 상기 추가 정보는 SAC 스킴에 따른 SAOC 비트스트림 생성을 위해 서브밴드 변환부(605)에 의해 제거된다.

도11은 본 발명의 다른 실시예에 따른 트랜스코더를 나타내는 상세 구성도로서, 제1행렬부로 직접 입력되는 객체제어정보 및 재생시스템정보 대신 Preset-ASI 정보가 활용되는 일실시예 구성도이다.

도11의 트랜스코더에 포함된 랜더링부(1103), 서브밴드 변환부(1105), 제2행렬부(1111), 제1행렬부(1113)는 기본적으로 도3 또는 도6의 트랜스코더에 포함된 랜더링부(303, 603), 서브밴드 변환부(305, 605), 제2행렬부(311, 611), 제1행렬부(313, 613)와 동일한 동작을 수행한다.

다만, 파싱부(1101)로 입력되는 대표 비트스트림은 도10에서 설명된 Preset-ASI 비트스트림이 추가적으로 포함된다. 파싱부(1101)는 비트스트림 포맷터(105, 505)로부터 출력되는 대표 비트스트림을 파싱하여 상기 대표 비트스트림으로부터, SAOC 인코더(101, 501)에 의해 생성된 SAOC 비트스트림, SAC 인코더(103)에 의해 생성된 SAC 비트스트림을 분리한다. 또한, 파싱부(1101)는 상기 대표 비트스트림으 로부터, Preset-ASI 비트스트림을 파싱하여 Preset-ASI 추출부(1117)로 전송한다.

Preset-ASI 추출부(1117)는 파싱부(1101)로부터 추출된 Preset-ASI 비트스트림으로부터 기본(default) Preset-ASI 정보, 즉 기본 출력을 위한 장면 정보를 추출한다. 한편, Preset-ASI 추출부(1117)는 외부로부터 입력되는 Preset-ASI 선택(selection) 요구에 응하여 파싱부(1101)로부터 추출된 Preset-ASI 비트스트림으로부터 선택 요구된 Preset-ASI 정보를 추출할 수 있다.

행렬판단부(1119)는 Preset-ASI 추출부(1117)에 의해 추출된 Preset-ASI 정보가 Preset-ASI 선택(selection) 요구에 응하여 선택된 Preset-ASI 정보인 경우, 상기 선택된 Preset-ASI 정보가 제1행렬(Matrix I)의 형태인지 판단한다. 상기 선택된 Preset-ASI 정보가 제1행렬(Matrix I)의 형태가 아니라 각 오디오 객체의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 경우, 행렬판단부(1119)는 상기 선택된 Preset-ASI 정보를 제1행렬부(1113)로 전송하며, 제1행렬부(1113)는 행렬판단부(1119)로부터 전송된 Preset-ASI 정보를 이용하여 제1행렬(Matrix I)을 생성한다. 상기 선택된 Preset-ASI 정보가 제1행렬(Matrix I)의 형태인 경우, 행렬판단부(1119)는 제1행렬부(1113)를 바이패스하여 상기 선택된 Preset-ASI 정보를 랜더링부(1103)로 전송하며, 랜더링부(1103)는 행렬판단부(1119)로부터 전송된 Preset-ASI 정보를 이용한다. 전술된 바와 같이, 랜더링부(1103)는 상기 [수학식 6]에 따라 산출한 행렬과 상기 [수학식 4]에 따라 산출된 제2행렬(Matrix Ⅱ)에 기초하여 상기 [수학식 9]에 따라 원하는 공간큐 정보

를 산출한다. 그리고, 랜더링부(303)는

로부터 추출된 공간큐 파라미터, 예를 들어 상기 [수학식 11] 및 [수학식 12]의 CLD 파라미터에 기초하여 수정된 대표 비트스트림을 생성한다.

도7은 본 발명의 다른 실시예에 따른 오디오 디코딩 장치의 구조도이다.

도면에 도시된 바와 같이 본 발명의 다른 실시예에 따른 오디오 디코딩 장치는 파싱부(707), 신호처리부(709), SAC 디코더(711) 및 믹서(701)를 포함한다. 도7의 오디오 디코딩 장치에 따르면, 신호처리부(109)가 SAOC 인코더(101, 501)로부터 출력되는 대표 다운믹스 신호로부터 오디오 객체를 제거하는 경우에 믹서(701)에 의해 오디오 객체의 음상정위가 수행된다.

도7의 오디오 디코딩 장치는 도3의 오디오 디코딩 장치와 달리, 트랜스코더(107)가 파싱부(707)로 대체되며, 믹서(701)가 추가로 포함된다.

파싱부(707)는 비트스트림 포맷터(105, 505)로부터 출력되는 대표 비트스트림을 파싱하여 상기 대표 비트스트림으로부터, SAOC 인코더(101, 501)에 의해 생성된 SAOC 비트스트림 및 SAC 인코더(103)에 의해 생성된 SAC 비트스트림을 분리한다. SAC 인코더(103)가 MPS 인코더인 경우에 상기 SAC 비트스트림은 MPS 비트스트림이다. 또한 파싱부(707)는 SAOC 인코더(101, 501)로 입력된 오디오 객체로서, 후술되는 바와 같이 신호처리부(709)로부터 믹서(701)로 전달되는 제어 가능한 객체의 위치 정보 즉 장면 정보를 상기 분리된 SAOC 비트스트림으로부터 추출하여 믹서(701)로 전달한다.

신호처리부(709)는 SAOC 인코더(101)로부터 출력되는 대표 다운믹스 신호 및 파싱부(301)로부터 출력되는 SAOC 비트스트림 정보에 기초하여 대표 다운믹스 신호에 포함된 오디오 객체 중 일부를 제거하고 수정된 대표 다운믹스 신호를 출력한다. 예를 들어 신호처리부(109)는, 상기 [수학식 2]에 의해, SAOC 인코더(101, 501)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제외하고 모두 제거하여 수정된 대표 다운믹스 신호를 출력하거나, 상기 [수학식 3]에 의해, SAOC 인코더(101, 501)로부터 출력되는 대표 다운믹스 신호에서 SAC 인코더(105)로부터 출력되는 오디오 객체 신호인 객체N만을 제거하여 수정된 대표 다운믹스 신호를 출력한다는 점이 앞서 설명되었다. 도7에서는 오디오 신호 객체 중에서 제어 가능한 객체 신호인 객체1만을 제외하고 모두 제거하여 수정된 대표 다운믹스 신호를 출력하거나, 객체1만을 제거하여 수정된 대표 다운믹스 신호를 출력하는 실시예가 도시된다. 객체1만을 제외하고 모두 제거하여 수정된 대표 다운믹스 신호를 출력하는 경우에는 객체1의 성분이 별도로 추출될 필요가 없다. 객체1만을 제거하여 수정된 대표 다운믹스 신호를 출력하는 경우, 신호처리부(709)는 하기 [수학식 21]에 따라 대표 다운믹스 신호로부터 객체1의 성분을 추출한다.

[수학식 21]

여기서, Object＃1(n) 은 대표 다운믹스 신호에 포함된 객체1의 성분, Downmixsignals(n) 은 대표 다운믹스 신호, ModifiedDownmixsignals(n) 은 수정된 대표 다운믹스 신호, n은 시간 영역에서의 샘플 인덱스(time-domain sample index)이다.

또는, 신호처리부(709)는 파라미터를 직접 제어하여 대표 다운믹스 신호로부터 객체1의 성분을 추출할 수 있다. 예를 들어 신호처리부(709)는 하기 [수학식 22]에 따라 산출된 이득(gain) 파라미터에 기초하여 대표 다운믹스 신호로부터 객체1의 성분을 추출할 수 있다.

[수학식 22]

여기서, G _Object＃1 은 대표 다운믹스 신호에 포함된 객체1의 이득(gain), G _{ModifiedDownmixsignals} 은 수정된 대표 다운믹스 신호 의 이득(gain)이다.

SAC 디코더(711)는 도1의 SAC 디코더(111)와 동일한 기능을 수행한다. SAC 디코더(711)는 일실시예로서 MPS 디코더이다. SAC 디코더(711)는 파싱부(301)로부터 출력되는 SAC 비트스트림을 이용하여, 신호처리부(709)로부터 출력되는 수정된 대표 다운믹스 신호를 다채널의 신호로 복원한다.

믹서(701)는 신호처리부(109)로부터 출력되는 제어 가능한 객체 신호 즉 도7의 실시예에서는 객체1과 SAC 디코더(711)로부터 출력되는 다채널의 신호를 믹싱하여 출력한다. 여기서, 믹서(701)는 파싱부(707)로부터 출력되는 신호로서 상기 제어 가능한 객체 신호의 위치 정보 즉 장면 정보에 기초하여 상기 제어 가능한 객체 의 출력 채널을 결정한다.

도8은 도7의 믹서를 나타내는 일실시예 상세 구성도이다.

도8에 도시된 바와 같이 믹서(701)는 SAC 디코더(711)로부터 출력되는 M개 채널 신호에 대응하는 이득(gain) g1 내지 gM을 제어 가능한 객체 신호인 객체1에 승산한 후 상기 M개 채널 신호에 합산함으로써 제어 가능한 객체 신호를 다채널 신호에 믹싱한다. 예를 들어, 상기 객체1을 채널1 신호에 위치시키고자 하면, g1=1로 하고 나머지 계수는 모두 0으로 한다. 또 다른 예로서 상기 객체1을 채널1 신호와 채널2 신호 사이에 위치시키고자 하면, g1=g2=

로 하고 나머지 계수는 모두 0으로 한다. 제어 가능한 객체 신호를 채널 신호 중에서 특정 신호 사이에 위치시키고자 하면, 일반적인 패닝 법칙(panning law)에 따라, 각 이득 값을 조절한다.

신호처리부(709)가 객체1만을 제외하고 모두 제거하여 수정된 대표 다운믹스 신호를 출력하는 경우에는 SAC 디코더(711)는 수정된 대표 다운믹스에 대한 처리를 수행하지 않을 수 있다. 대신, 믹서(701)는 신호처리부(709)로부터 출력되는 제어 가능한 객체 신호인 객체1에 상기 g1 내지 gM을 승산하여 믹싱한다. 예를 들어, 상기 객체1을 채널1 신호에 위치시키고자 하면, g1=1로 하고 나머지 계수는 모두 0으로 한다. 또 다른 예로서 상기 객체1을 채널1 신호와 채널2 신호 사이에 위치시키고자 하면, g1=g2=

로 하고 나머지 계수는 모두 0으로 한다. 제어 가능한 객체 신호를 채널 신호 중에서 특정 신호 사이에 위치시키고자 하면, 일반적인 패닝 법칙(panning law)에 따라, 각 이득 값을 조절한다. 만약 상기 객체1이 스테레오 채 널 객체 신호인 경우에는 g1=g2=1로 하고 나머지 계수를 모두 0으로 함으로써 상기 객체1이 스테레오 채널 신호로 출력될 수 있다.

패닝은 출력 채널 신호간에 예를 들어 상기 제어 가능한 객체 신호를 위치시키는 과정을 의미한다.

입력 오디오 신호를 출력 오디오 신호 사이에 매핑 시키는 방법의 일반화된 일실시예는 패닝 법칙(panning law)이 적용된 매핑 방법이다. 패닝 법칙(panning law)은 사인 패닝 법칙(Sine Panning law), 탄젠트 패닝 법칙(Tangent Panning law), 일정 파워 패닝 법칙(Constant Power Panning law, CPP law)가 있으며, 어느 방법이든지 패닝 법칙(panning law)을 통해 달성하는 목적은 동일하다.

이하에서는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법에 대해 설명될 것이나, 본 발명이 CPP에만 한정되지 않으며 다양한 패닝 법칙(panning law)과 관련한 실시예가 존재할 수 있음은 본 발명이 속한 기술 분야에서 통상의 지식을 가진 자에게 명백한 것이다. 따라서 본 발명은 CPP에 한정되지 않는 것으로 이해되어야 한다.

본 발명의 일실시예에 따르면, 모든 다객체 또는 다채널 오디오 신호는 주어진 패닝 각도에 대해 CPP에 따라 패닝된다.

도9는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면으로서, 도면에 도시된 바와 같이, 출력신호1, 2(

,

)의 위치는 각각 0도와 90도다. 따라서 도9에서 애퍼쳐(aperture)는 90도이다.

만일 첫번째 입력 오디오 신호(

)가 출력신호1, 2(

,

)사이의 θ 에 위치되면 α,β 값은 각각 α=cos(θ),β=sin(θ) 로 정의된다. CPP 법칙에 따르면, 출력 오디오 신호의 축 상에, 입력 오디오 신호의 위치를 projection시켜서 sine, cosine 함수를 활용하여 α,β 값을 산출하고 제어된 파워이득을 산출하여 오디오 신호의 랜더링을 제어하게 된다. α,β 값에 기초하여 산출되는 제어된 파워이득( _out G _m )은 다음의 [수학식 23]과 같이 표현된다.

[수학식 23]

여기서, α = cos( θ ), β = sin( θ ) 이다.

이를 보다 구체적으로 표현하면 다음의 [수학식 24]와 같다.

[수학식 24]

α,β 값은 적용하는 패닝 법칙(panning law)에 따라 달라질 수 있다. α,β 값은 임의의 애퍼쳐(aperture)에 부합하도록 입력 오디오 신호의 파워이득을 출력 오디오 신호의 가상 위치에 매핑시킴으로써 산출된다.

이상에서 설명된 본 발명에 따른 인코딩, 트랜스코딩 및 디코딩 과정은 장치의 관점에서 설명되었으나, 상기 장치에 포함된 각 장치적 구성요소는 프로세스적 구성요소로 대체될 수 있으며, 이 경우, 본 발명에 따른 인코딩, 트랜스코딩 및 디코딩 과정은 방법의 관점으로 이해될 수 있다는 것은 자명하다.

예를 들어, 도1 또는 도5의 SAOC 인코더(101,501), SAC 인코더(103), 비트스트림 포맷터(105, 505) 및 Preset-ASI부(113)로 구성된 오디오 인코딩 장치는 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 단계; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 단계에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 다객체 인코딩 단계를 포함하되, 상기 다객체 인코딩 단계는 상기 다채널 인코딩 단계가 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 방법을 수행할 수 있다.

그리고, 상기 오디오 인코딩 장치는 다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 단계; 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 단계에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 제1다객체 인코딩 단계; 및 다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 제1다객체 인코딩 단계에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제3랜더링정보를 생성하는 제2다객체 인코딩 단계를 포함하되, 상기 제2다객체 인코딩 단계는 상기 다채널 인코딩 단계 및 제1다객체 인코딩 단계가 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는 오디오 인코딩 방법을 수행할 수 있다.

또한, 도3, 도6 또는 도11의 파싱부(301, 601, 1101), 랜더링부(303, 603, 1103), 서브밴드 변환부(305, 605, 1105), 제2행렬부(311, 611, 1111) 및 제1행렬부(313, 613, 1113), Preset-ASI 추출부(1117) 및 행렬판단부(1119)로 구성된 트랜스코더는 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 방법의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 제1행렬단계에 의해 생성된 랜더링정보, 상기 제2행렬단계에 의해 생성된 랜더링정보, 및 상기 서브 밴드변환단계에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 수행할 수 있다.

또한, 상기 트랜스코더는 상기 제4랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출단계; 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제2랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬단계에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬단계에 의해 생성된 랜더링정보와, 상기 서브밴드변환단계에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 수행할 수 있다.

또한 상기 트랜스코더는 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 제1행렬단계에 의해 생성된 랜더링정보, 상기 제2행렬단계에 의해 생성된 랜더링정보, 상기 서브밴드변환단계에 의해 변환된 랜더링정보 및 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 수행할 수 있다.

또한 상기 트랜스코더는 상기 제5랜더링정보로부터 소정 Preset-ASI 정보를 추출하는 Preset-ASI 추출단계; 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보로서 상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 직접적으로 표현하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬단계; 상기 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬단계; 상기 제3랜더링정보를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환단계; 및 상기 Preset-ASI 추출단계에 의해 추출된 소정 Preset-ASI 정보 및 상기 제1행렬단계에 의해 생성된 랜더링정보 중 어느 하나와, 상기 제2행렬단계에 의해 생성된 랜더링정보와, 상기 서브밴드변환단계에 의해 변환된 랜더링정보와, 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링단계를 포함하는 트랜스코딩 방법을 수행할 수 있다.

또한, 도1 또는 도7의 파싱부(707), 신호처리부(709), SAC 디코더(711) 및 믹서(701)로 구성된 디코딩 장치는 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱단계; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 다수의 채널로 구성된 오디오 신호에 대한 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신호처리단계; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호를 믹싱하여 오디오 신호를 복원하는 믹싱단계를 포함하는 오디오 디코딩 방법을 수행할 수 있다.

또한 상기 디코딩 장치는 다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 포함하는 다채널 신호의 랜더링정보와, 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱단계; 상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 적어도 어느 하나의 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호, 및 상기 하이 서프레션(high suppression)된 오디오 객체 신호를 생성하는 신호처리단계; 상기 수정된 다운믹스 신호를 믹싱하여 다채널 오디오 신호를 복원하는 채널 디코딩 단계; 및 상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호와 신호처리단계에 의해 생성된 오디오 객체 신호를 믹싱하는 믹싱단계를 포함하는 오디오 디코딩 방법을 수행할 수 있다.

또한, 상기 디코딩 장치는 다운믹스신호 및 부가정보신호를 포함하는 오디오 부호화 신호를 입력받는 단계; 상기 부가정보신호로부터 다객체 부가정보 및 다채널 부가정보를 추출하는 단계; 상기 다객체 부가정보에 기초하여 상기 다운믹스신호를 다채널 다운믹스 신호로 변환하는 단계; 상기 다채널 다운믹스 신호 및 상기 다채널 부가정보를 이용하여 다채널 오디오 신호를 복호화하는 단계; 및 상기 복호화된 오디오 신호를 합성하는 단계를 포함하는 오디오 복호화 방법을 수행할 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(시디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어서 명백하다 할 것이다.

도1은 본 발명에 따른 오디오 인코딩 장치 및 디코딩 장치를 나타내는 일실시예 구성도,

도2는 비트스트림 포맷터(105)로부터 생성되는 대표 비트스트림을 나타내는 일실시예 구성도,

도3은 도2의 트랜스코더를 나타내는 일실시예 상세 구성도,

도4는 서브밴드 변환부의 상기 추가 서브밴드에 대응하는 공간큐 파라미터를 SAC 스킴이 제한하는 서브밴드에 대응하도록 변환시키는 과정을 설명하는 개념도,

도5는 본 발명의 다른 일실시예에 따른 SAOC 인코더 및 비트스트림 포맷터를 나타내는 구성도,

도6은 본 발명의 다른 실시예에 따른 트랜스코더를 나타내는 상세 구성도로서, 도5의 SAOC 인코더 및 비트스트림 포맷터에 적합한 트랜스코더를 나타내는 상세 구성도,

도7은 본 발명의 다른 실시예에 따른 오디오 디코딩 장치의 구조도,

도8은 도7의 믹서를 나타내는 일실시예 상세 구성도,

도9는 본 발명의 일실시예로서 CPP를 적용하여 오디오 신호를 원하는 위치에 매핑시키는 방법을 설명하기 위한 도면,

도10은 비트스트림 포맷터(105)로부터 출력되는 대표 비트스트림을 나타내는 또 다른 일실시예 구성도로서, 상기 대표 비트스트림이 Preset-ASI 정보를 포함하는 일실시예 구성도,

도11은 본 발명의 다른 실시예에 따른 트랜스코더를 나타내는 상세 구성도로서, 제1행렬부로 직접 입력되는 객체제어정보 및 재생시스템정보 대신 Preset-ASI 정보가 활용되는 일실시예 구성도,

도12는 도3의 트랜스코더를 나타내는 도면으로서 SAC 스킴에 제한되지 않는 서브밴드 정보 또는 추가적인 정보가 포함된 대표 비트스트림이 트랜스코더에서 처리되는 과정을 나타내는 개념도.

Claims

오디오 인코딩 장치에 있어서,

다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1랜더링정보를 생성하는 다채널 인코딩 수단; 및

다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 다객체 인코딩 수단

을 포함하되,

상기 다객체 인코딩 수단은

상기 다채널 인코딩 수단이 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는

오디오 인코딩 장치.
제1항에 있어서,

상기 다객체 인코딩 수단은

상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐로서, 상기 다채널 인코딩 수단이 상기 코덱 스킴에 의해 제한받는 서브밴드 및 상기 코덱 스킴에 의해 제한받는 서브밴드 중에서 적어도 어느 하나의 서브밴드에 대응하는 추가적인 하위 서브밴드에 대한 공간큐를 생성하는

오디오 인코딩 장치.
제2항에 있어서,

상기 다객체 인코딩 수단은

상기 추가적인 하위 서브밴드 중에서 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐와 가장 유사한 공간큐에 대응하는 하위 서브밴드의 인덱스 정보를 상기 제2랜더링정보에 포함시키는

오디오 인코딩 장치.
제1항에 있어서,

상기 다객체 인코딩 수단은

상기 다채널 인코딩 수단이 상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐로서 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는

오디오 인코딩 장치.
오디오 인코딩 장치에 있어서,

다수의 채널로 구성된 오디오 신호를 다운믹스하고, 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제1 랜더링정보를 생성하는 다채널 인코딩 수단;

다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 다채널 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제2랜더링정보를 생성하는 제1다객체 인코딩 수단; 및

다수의 객체로 구성된 오디오 신호-상기 다수의 객체로 구성된 오디오 신호는 상기 제1다객체 인코딩 수단에 의해 다운믹스된 신호를 포함함-를 다운믹스하고, 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하며, 상기 생성된 공간큐를 포함하는 제3랜더링정보를 생성하는 제2다객체 인코딩 수단

을 포함하되,

상기 제2다객체 인코딩 수단은

상기 다채널 인코딩 수단 및 제1다객체 인코딩 수단이 제한받는 코덱 스킴에 제한받지 않고 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는

오디오 인코딩 장치.
제5항에 있어서,

상기 제2다객체 인코딩 수단은

상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐로서, 상기 다채널 인코딩 수단 및 제1다객체 인코딩 수단이 상기 코덱 스킴에 의해 제한받는 서브밴드 및 상기 코덱 스킴에 의해 제한받는 서브밴드 중에서 적어도 어느 하나의 서브밴드 에 대응하는 추가적인 하위 서브밴드에 대한 공간큐를 생성하는

오디오 인코딩 장치.
제6항에 있어서,

상기 제2다객체 인코딩 수단은

상기 추가적인 하위 서브밴드 중에서 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐와 가장 유사한 공간큐에 대응하는 하위 서브밴드의 인덱스 정보를 상기 제3랜더링정보에 포함시키는

오디오 인코딩 장치.
제5항에 있어서,

상기 제2다객체 인코딩 수단은

상기 다채널 인코딩 수단 및 제1다객체 인코딩 수단이 상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐로서 상기 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 생성하는

오디오 인코딩 장치.
인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장치에 있어서,

상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단;

상기 인코딩된 오디오 신호에 포함된 다수의 채널로 구성된 오디오 신호에 대한 공간큐가 포함된 제1랜더링정보에 기초하여 상기 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단;

상기 인코딩된 오디오 신호에 포함된 다수의 객체로 구성된 오디오 신호에 대한 공간큐가 포함된 제2랜더링정보-상기 제2랜더링정보는 상기 제1랜더링정보가 제한받는 코덱 스킴에 제한받지 않고 생성된 공간큐를 포함함-를 상기 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및

상기 제1행렬수단에 의해 생성된 랜더링정보, 상기 제2행렬수단에 의해 생성된 랜더링정보, 및 상기 서브밴드변환수단에 의해 변환된 랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단

을 포함하는 트랜스코딩 장치.
제9항에 있어서,

상기 제2랜더링정보는

상기 오디오 객체 신호에 대한 공간큐로서, 상기 코덱 스킴에 의해 제한받는 서브밴드 및 상기 코덱 스킴에 의해 제한받는 서브밴드 중에서 적어도 어느 하나의 서브밴드에 대응하는 추가적인 하위 서브밴드에 대한 공간큐를 포함하는

트랜스코딩 장치.
제10항에 있어서,

상기 제2랜더링정보는

상기 추가적인 하위 서브밴드 중에서 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐와 가장 유사한 공간큐에 대응하는 하위 서브밴드의 인덱스 정보를 더 포함하며,

상기 서브밴드변환수단은

상기 인덱스 정보에 기초하여, 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐를 상기 인덱스에 대응하는 하위 서브밴드에 대한 공간큐로 대체하는

트랜스코딩 장치.
제10항에 있어서,

상기 서브밴드변환수단은

상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐를 상기 추가적인 하위 서브밴드 중에서 가장 작은 절대값의 공간큐로 대체하는

트랜스코딩 장치.
제9항에 있어서,

상기 제2랜더링정보는

상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐로서 상기 오디오 객체 신호에 대한 공간큐를 포함하는

트랜스코딩 장치.
제13항에 있어서,

상기 서브밴드변환수단은

상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐를 제거하는

트랜스코딩 장치.
제9항에 있어서,

상기 트랜스코딩 장치는

상기 제2랜더링정보에 기초하여

상기 인코딩된 오디오 신호에 포함된 다수의 오디오 객체 신호 중 적어도 어느 하나를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신호처리수단

을 더 포함하는 트랜스코딩 장치.
인코딩된 오디오 신호의 디코딩을 위해 랜더링 정보를 생성하는 트랜스코딩 장치에 있어서,

상기 인코딩된 오디오 신호의 위치 및 레벨 정보 및 출력 레이아웃 정보를 포함하는 객체제어정보에 기초하여 상기 인코딩된 오디오 신호가 오디오 디코딩 장치의 출력 채널에 매핑되기 위한 정보를 포함하는 랜더링정보를 생성하는 제1행렬수단;

제1랜더링정보에 기초하여 다수의 채널로 구성된 오디오 신호에 대한 채널 복원 정보를 생성하는 제2행렬수단;

제3랜더링정보를 상기 제1랜더링정보 및 제2랜더링정보가 제한받는 코덱 스킴에 따르는 랜더링정보로 변환하는 서브밴드변환수단; 및

상기 제1행렬수단에 의해 생성된 랜더링정보, 상기 제2행렬수단에 의해 생성된 랜더링정보, 상기 서브밴드변환수단에 의해 변환된 랜더링정보 및 상기 제2랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 대한 수정된 랜더링정보를 생성하는 랜더링수단

을 포함하되,

상기 제1랜더링정보는 상기 인코딩된 오디오 신호에 포함된 상기 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 포함하고,

상기 제2랜더링정보는 상기 제1랜더링정보에 대응하는 오디오 신호를 포함하는 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하며,

상기 제3랜더링정보는 상기 제2랜더링정보에 대응하는 오디오 신호를 포함하는 다수의 객체로 구성된 오디오 신호에 대한 공간큐로서, 상기 코덱 스킴에 제한받지 않고 생성된 공간큐를 포함하는

트랜스코딩 장치.
제16항에 있어서,

상기 제3랜더링정보는

상기 오디오 객체 신호에 대한 공간큐로서, 상기 코덱 스킴에 의해 제한받는 서브밴드 및 상기 코덱 스킴에 의해 제한받는 서브밴드 중에서 적어도 어느 하나의 서브밴드에 대응하는 추가적인 하위 서브밴드에 대한 공간큐를 포함하는

트랜스코딩 장치.
제17항에 있어서,

상기 제3랜더링정보는

상기 추가적인 하위 서브밴드 중에서 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐와 가장 유사한 공간큐에 대응하는 하위 서브밴드의 인덱스 정보를 더 포함하며,

상기 서브밴드변환수단은

상기 인덱스 정보에 기초하여, 상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐를 상기 인덱스에 대응하는 하위 서브밴드에 대한 공간큐로 대체하는

트랜스코딩 장치.
제17항에 있어서,

상기 서브밴드변환수단은

상기 코덱 스킴에 의해 제한받는 어느 하나의 서브밴드에 대한 공간큐를 상기 추가적인 하위 서브밴드 중에서 가장 작은 절대값의 공간큐로 대체하는

트랜스코딩 장치.
제16항에 있어서,

상기 제3랜더링정보는

상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐로서 상기 오디오 객체 신호에 대한 공간큐를 포함하는

트랜스코딩 장치.
제20항에 있어서,

상기 서브밴드변환수단은

상기 코덱 스킴에 의해 제한받는 공간큐 이외의 공간큐를 제거하는

트랜스코딩 장치.
제16항에 있어서,

상기 트랜스코딩 장치는

상기 제3랜더링정보에 기초하여 상기 인코딩된 오디오 신호에 포함된 다수의 오디오 객체 신호 중 적어도 어느 하나를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신호처리수단

을 더 포함하는 트랜스코딩 장치.
오디오 디코딩 장치에 있어서,

다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱수단;

상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 다수의 채널로 구성된 오디오 신호에 대한 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호를 출력하는 신호처리수단; 및

상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호를 믹싱하여 오디오 신호를 복원하는 믹싱수단

을 포함하는 오디오 디코딩 장치.
오디오 디코딩 장치에 있어서,

다수의 채널로 구성된 다객체 오디오 신호에 대한 랜더링정보로부터 다수의 채널로 구성된 오디오 신호에 대한 공간큐를 포함하는 다채널 신호의 랜더링정보 와, 다수의 객체로 구성된 오디오 신호에 대한 공간큐를 포함하는 다객체 신호의 랜더링정보와, 상기 다수의 객체로 구성된 오디오 신호의 장면 정보를 분리하는 파싱수단;

상기 다객체 신호의 랜더링정보에 기초하여 상기 다수의 채널로 구성된 다객체 오디오 신호에 대한 다운믹스 신호 중에서 적어도 어느 하나의 오디오 객체 신호를 하이 서프레션(high suppression)하여 수정된 다운믹스 신호, 및 상기 하이 서프레션(high suppression)된 오디오 객체 신호를 생성하는 신호처리수단;

상기 수정된 다운믹스 신호를 믹싱하여 다채널 오디오 신호를 복원하는 채널 디코딩 수단; 및

상기 장면 정보에 기초하여 상기 수정된 다운믹스 신호와 신호처리수단에 의해 생성된 오디오 객체 신호를 믹싱하는 믹싱수단

을 포함하는 오디오 디코딩 장치.
다채널 오디오 신호 및 다객체 오디오 신호를 입력받을 수 있는 입력부; 및

상기 입력된 오디오 신호를 다운믹스 신호 및 렌더링 정보로 부호화하는 부호화부를 포함하고,

상기 렌더링 정보는

다채널 부호화 부가정보 및 다객체 부호화 부가정보를 포함하는

오디오 부호화 장치.
제25항에 있어서,

상기 다채널 부호화 부가정보는

SAC 공간큐 정보를 포함하고,

상기 다객체 부호화 부가정보는

SAOC 공간큐 정보를 포함하는

오디오 부호화 장치.
제26항에 있어서,

상기 다채널 부호화 부가정보 및 상기 다객체 부호화 부가정보를 결합하기 위한 비트스트림 포맷터

를 더 포함하는 오디오 부호화 장치.
제25항에 있어서,

상기 부호화부는

다채널 부호화부 및 다객체 부호화부를 포함하는

오디오 부호화 장치.
제28항에 있어서,

상기 다채널 부호화부는

SAC 부호화를 수행하고,

상기 다객체 부호화부는

SAC 코딩 스킴에 따른 SAOC 부호화를 수행하는 제1 다객체 부호화부; 및

SAC 코딩 스킴에 제한되지않는 SAOC 부호화를 수행하는 제2 다객체 부호화부

를 포함하는 오디오 부호화 장치.
제29항에 있어서,

상기 다채널 부호화부에서 출력되는 SAC 부가정보, 상기 제1 다객체 부호화부에서 출력되는 제1 SAOC 부가정보, 및 상기 제2 다객체 부호화부에서 출력되는 제2 SAOC 부가정보를 결합하는 비트스트림 포맷터

를 더 포함하는 오디오 부호화 장치.
다운믹스신호 및 부가정보신호를 포함하는 오디오 부호화 신호를 입력받는 단계;

상기 부가정보신호로부터 다객체 부가정보 및 다채널 부가정보를 추출하는 단계;

상기 다객체 부가정보에 기초하여 상기 다운믹스신호를 다채널 다운믹스 신호로 변환하는 단계;

상기 다채널 다운믹스 신호 및 상기 다채널 부가정보를 이용하여 다채널 오디오 신호를 복호화하는 단계; 및

상기 복호화된 오디오 신호를 합성하는 단계

를 포함하는 오디오 복호화 방법.
제31항에 있어서,

상기 다채널 다운믹스신호를 생성하는 단계는

제어하고자 하는 오디오 객체 신호를 별도로 분리하고 나머지 오디오 객체 신호만을 이용하여 상기 다채널 다운믹스 신호를 생성하고,

상기 별도로 분리된 오디오 객체신호는

소정의 제어를 거쳐 상기 오디오 신호 합성 단계에서 이용되는

오디오 복호화 방법.
제31항에 있어서,

상기 오디오 부호화 신호는

프리셋 오디오 장면 정보(Preset-ASI)를 포함하고,

상기 복호화 단계가 수행되기 전에, 상기 다채널 부가정보는 상기 프리셋 오디오 장면 정보에 의해 수정될 수 있는

오디오 복호화 방법.