KR20120063535A

KR20120063535A - 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림

Info

Publication number: KR20120063535A
Application number: KR1020127010610A
Authority: KR
Inventors: 위르겐 헤레; 요한니스 힐퍼트; 안드레아스 호엘체르; 요나스 엥데가르트; 하이코 푸른하겐
Original assignee: 돌비 인터네셔널 에이비; 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2009-09-29
Filing date: 2010-09-28
Publication date: 2012-06-15
Also published as: EP2483887B1; CA2775828C; US9466303B2; MY165328A; AR078474A1; US20150356977A1; EP2483887A1; US20150356976A1; AU2010303039A1; BR112012007138A2; RU2576476C2; JP2013506164A; WO2011039195A1; KR101391110B1; MX2012003785A; US20180033441A1; EP3093843B1; US9805728B2; ES2644520T3; TW201120874A

Abstract

렌더링 정보에 따라 그리고 다운믹스 신호 표현 및 객체-관련 파라메트릭 정보를 기초로 하여 업믹스 신호 표현을 제공하기 위한 오디오 신호 디코더는 객체 파라미터 결정기를 포함한다. 객체 파라미터 결정기는 복수의 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 구성된다. 객체 파라미터 결정기는, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값을 획득할지를 결정하기 위하여 비트스트림 시그날링 파라미터를 평가하도록 구성된다. 오디오 신호 디코더는 또한, 복수의 관련된 객체 쌍들 및 렌더링 정보를 위한 객체-간-상관 값들을 사용하고 다운믹스 신호 표현을 기초로 하여 업믹스 신호 표현을 획득하도록 구성되는 신호 처리기를 포함한다.

Description

오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림{AUDIO SIGNAL DECODER, AUDIO SIGNAL ENCODER, METHOD FOR PROVIDING AN UPMIX SIGNAL REPRESENTATION, METHOD FOR PROVIDING A DOWNMIX SIGNAL REPRESENTATION, COMPUTER PROGRAM AND BITSTREAM USING A COMMON INTER-OBJECT-CORRELATION PARAMETER VALUE}

본 발명에 따른 일 실시예들은, 렌더링(Rendering) 정보에 따라 그리고 다운믹스(Downmix) 신호 표현 및 객체 관련 파라메트릭 정보를 기초로 하여 업믹스(Upmix) 신호 표현을 제공하는 오디오 신호 디코더에 관한 것이다.

본 발명에 따른 다른 실시예들은, 복수의 오디오 객체 신호를 기초로 하여 비트스트림 표현을 제공하는 오디오 신호 인코더에 관련된다.

본 발명에 따른 다른 실시예들은, 렌더링 정보에 따라 그리고 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보를 기초로 하여 업믹스 신호 표현을 제공하는 방법에 관한 것이다.

본 발명에 따른 다른 실시예들은, 복수의 오디오 객체 신호를 기초로 하여 비트스트림 표현을 제공하는 방법에 관한 것이다.

본 발명에 따른 다른 실시예들은, 상술한 방법들을 실행하는 컴퓨터 프로그램에 관한 것이다.

본 발명에 따른 다른 실시예들은, 다중 채널 오디오 신호를 표현하는 비트스트림에 관한 것이다.

오디오 처리, 오디오 전송 및 오디오 저장의 기술 분야에서, 청각 인상(Hearing impression)을 개선하기 위하여 다중 채널 콘텐츠를 처리하기 위한 요구가 증가하고 있다. 다중 채널 콘텐츠의 사용은 사용자에 대한 상당한 개선들을 제공한다. 예를 들어, 엔터테인먼트 어플리케이션들(Entertainment applications)에서 개선된 사용자 만족도를 제공하는 3차원 청각 인상이 획득될 수 있다. 그러나, 스피커 명료도(Speaker intelligibility)가 다중 채널 오디오 재생을 사용함에 의해 개선될 수 있기 때문에, 다중 채널 오디오 컨텐츠는 전문적인 환경들(예를 들어, 전화 회의 어플리케이션들)에서 또한 유용하다.

그러나, 다중 채널 어플리케이션들에 의해 유발되는 과도한 자원 부하(Resource load)를 방지하기 위하여 오디오 품질 및 비트레이트 요구들 사이에 양호한 트레이드오프를 가지는 것이 또한 바람직하다.

최근, 다수의 오디오 객체들을 포함하는 오디오 장면들의 비트레이트 효율적인 전송 및/또는 저장을 위한 파라메트릭(Parametric) 기술이 제안되었는데, 예를 들어, 바이노럴 큐 코딩(Binaural Cue Coding)(Type Ⅰ)(예를 들어, 참고 문헌 [BCC] 참조), 조인트 소스 코딩(Joint Source Coding)(예를 들어, 참고 문헌 [JSC] 참조) 및 MPEG 공간 오디오 객체 코딩(Spatial Audio Object Coding)(SAOC)(예를 들어, 참고 문헌 [SAOC1], [SAOC2] 및 사전에 공개되지 않은 참고 문헌 [SAOC] 참고)이다.

이러한 기술들은 파형 일치보다 원하는 출력 오디오 장면을 지각적으로(Perceptually) 재구성하는 것을 목표로 한다.

도 8은 이러한 시스템(여기서는: MPEG SAOC)의 시스템 개요를 도시한다. 또한, 도 9a도 이러한 시스템(여기서는: MPEG SAOC)의 시스템 개요를 도시한다.

도 8에 도시된 MPEC SAOC 시스템(800)은 SAOC 인코더(810) 및 SAOC 디코더(820)를 포함한다. SAOC 인코더(810)는 복수의 객체 신호들(X₁ 내지 X_N)을 수신하며, 복수의 객체 신호들(X₁ 내지 X_N)은, 예를 들어, 시간-영역 신호들 또는 시간-주파수-영역 신호들(예를 들어, 퓨리에 타입 변환의 변환 계수들의 세트 형식, 또는 QMF 부대역 신호들의 형식)로 표시될 수 있다. 또한, SAOC 인코더(810)는 일반적으로 다운믹스 계수들(d₁ 내지 d_N)을 수신하며, 다운믹스 계수들(d₁ 내지 d_N)은 객체 신호들(X₁ 내지 X_N)과 관련된다. 다운믹스 계수들의 분리된 세트들은 다운믹스 신호의 각 채널을 위해 이용 가능할 수 있다. SAOC 인코더(810)는 일반적으로, 관련된 다운믹스 계수들(d₁ 내지 d_N)에 따라 객체 신호들(X₁ 내지 X_N)을 결합함에 의해 다운믹스 신호의 채널을 획득하도록 구성된다. 일반적으로, 객체 신호들(X₁ 내지 X_N)보다 적은 다운믹스 채널들이 존재한다. SAOC 디코더(820) 측에서 객체 신호들의 분리(또는, 분리된 처리)를 (적어도 대략) 허용하기 위하여, SAOC 인코더(810)는 (다운믹스 채널들로서 지정되는) 하나 이상의 다운믹스 신호들(812) 및 보조 정보(814)를 모두 제공한다. 디코더측 객체 특정 처리를 허용하기 위하여, 보조 정보(814)는 객체 신호들(X₁ 내지 X_N )의 특성을 설명한다.

SAOC 디코더(820)는 하나 이상의 다운믹스 신호들(812) 및 보조 정보(814) 모두를 수신하도록 구성된다. 또한, SAOC 디코더(820)는 일반적으로 사용자 상호 작용 정보 및/또는 사용자 제어 정보(822)를 수신하도록 구성되며, 사용자 상호 작용 정보 및/또는 사용자 제어 정보(822)는 원하는 렌더링(Rendering) 설정을 설명한다. 예를 들어, 사용자 상호 작용 정보/사용자 제어 정보(822)는 객체 신호들(X₁ 내지 X_N)을 제공하는 스피커 설정 및 객체들의 원하는 공간 배치를 설명할 수 있다.

SAOC 디코더(820)는, 예를 들어, 복수의 디코딩된 업믹스 채널 신호들(

내지

)을 제공하도록 구성된다. 업믹스 채널 신호들은, 예를 들어, 다중 스피커 렌더링 배열의 개별 스피커들과 관련될 수 있다. SAOC 디코더(820)는, 예를 들어, 객체 분리기(820a)를 포함할 수 있으며, 객체 분리기(820a)는 하나 이상의 다운믹스 신호들(812) 및 보조 정보(814)를 기초로 하여 객체 신호들(X₁ 내지 X_N )을 (적어도 대략) 재구성하도록 구성되며, 이를 통해 재구성된 객체 신호들(820b)을 획득한다. 그러나, 재구성된 객체 신호들(820b)은 원래의 객체 신호들인 X₁ 내지 X_N로부터 약간 벗어날 수 있으며, 예를 들어, 보조 정보(814)가 비트레이트 제한으로 인하여 완전한 재구성을 위해 그다지 충분하지 않기 때문이다. SAOC 디코더(820)는 믹서(820c)를 더 포함할 수 있으며, 믹서(820c)는 재구성된 객체 신호들(820b) 및 사용자 상호 작용 정보/사용자 제어 정보(822)를 수신하고, 이에 기초하여 업믹스 채널 신호들(

내지

)을 제공하도록 구성될 수 있다. 믹서(820c)는, 업믹스 채널 신호들(

내지

)에 대한 각각의 재구성된 객체 신호들(820b)의 기여분을 결정하기 위해 사용자 상호 작용 정보/사용자 제어 정보(822)를 사용하도록 구성될 수 있다. 사용자 상호 작용 정보/사용자 제어 정보(822)는, 예를 들어, (또한, 렌더링 계수들로 지정되는) 렌더링 파라미터들을 포함할 수 있으며, 렌더링 파라미터들은 업믹스 채널 신호들(

내지

)에 대한 개별 재구성된 객체 신호들(822)의 기여분을 결정한다.

그러나, 많은 실시예들에서, 도 8의 객체 분리기(820a)에 의해 표시되는 객체 분리 및 도 8의 믹서(820c)에 의해 표시되는 믹싱은 하나의 단계로 수행되는 것을 주의해야 한다. 이러한 목적으로, 하나 이상의 다운믹스 신호들(812)이 업믹스 채널 신호들(

내지

)로 직접 매핑되는 것을 설명하는 모든 파라미터들이 계산될 수 있다. 이러한 파라미터들은 보조 정보 및 사용자 상호 작용 정보/사용자 제어 정보(822)를 기초로 하여 계산될 수 있다.

이제 도 9a, 9b 및 9c를 참조하면, 다운믹스 신호 표현 및 객체-관련 보조 정보를 기초로 하여 업믹스 신호 표현을 획득하기 위한 다른 장치가 설명될 것이다. 도 9a는 SAOC 디코더(920)를 포함하는 MPEG SAOC 시스템(900)의 블록도를 나타낸다. SAOC 디코더(920)는 개별의 기능적 블록으로서 객체 디코더(922) 및 믹서/렌더러(Renderer)(926)를 포함한다. 객체 디코더(922)는 다운믹스 신호 표현(예를 들어, 시간 영역 또는 시간-주파수-영역에서 표현되는 하나 이상의 다운믹스 신호들의 형태) 및 객체-관련 보조 정보(예를 들어, 객체 메타 데이터의 형태)에 의존하여 복수의 재구성된 객체 신호들(924)을 제공한다. 믹서/렌더러(926)는 복수의 N 객체들과 관련되는 재구성된 객체 신호들(924)을 수신하고, 이를 기초로 하여, 하나 이상의 업믹스 채널 신호들(928)을 제공한다. SAOC 디코더(920)에서, 객체 신호들(924)의 추출은 믹싱/렌더링과는 독립적으로 실행되며, 이는 믹싱/렌더링 기능으로부터 객체 디코딩 기능의 분리를 허용하지만 상대적으로 높은 계산 복잡도를 제공한다.

이제 도 9b를 참조하면, SAOC 디코더(950)를 포함하는 다른 MPEG SAOC 시스템(930)이 간략하게 논의될 것이다. SAOC 디코더(950)는 다운믹스 신호 표현(예를 들어, 하나 이상의 다운믹스 신호들의 형태) 및 객체-관련 보조 정보(예를 들어, 객체 메타 데이터의 형태)에 따라 복수의 업믹스 채널 신호들(958)을 제공한다. SAOC 디코더(950)는 결합된 객체 디코더 및 믹서/렌더러를 포함하며, 이는 객체 디코딩과 믹싱/렌더링의 분리 없이 조인트 믹싱 처리(Joint Mixing Process)에서 업믹스 채널 신호들(958)을 획득하도록 구성되며, 여기서 조인트 업믹스 처리를 위한 파라미터들은 객체-관련 보조 정보 및 렌더링 정보 모두에 의존한다. 조인트 업믹스 처리는 객체-관련 보조 정보의 부분으로 고려되는 다운믹스 정보에 또한 의존한다.

상술한 내용을 요약하면, 업믹스 채널 신호들(928, 958)의 공급이 1단계 처리 또는 2단계 처리로 실행될 수 있다.

이제 도 9c를 참조하면, MPEG SAOC 시스템(960)이 설명될 것이다. MPEG SAOC 시스템(960)은 SAOC 디코더 대신에 SAOC 대 MPEG 서라운드 트랜스코더(Surround transcoder)(980)를 포함한다.

SAOC 대 MPEG 서라운드 트랜스코더는 보조 정보 트랜스코더(982)를 포함하며, 보조 정보 트랜스코더(982)는 객체-관련 보조 정보(예를 들어, 객체 메타 데이터의 형태)를 수신하도록 구성되고, 선택적으로, 하나 이상의 다운믹스 신호들 상의 정보 및 렌더링 정보를 수신하도록 구성된다. 보조 정보 트랜스코더는 수신한 데이터를 기초로 하여 MPEG 서라운드 보조 정보(예를 들어, MPEG 서라운드 비트스트림의 형태)를 제공하도록 또한 구성된다. 따라서, 보조 정보 트랜스코더(982)는 객체 인코더로부터 수신한 객체-관련 (파라메트릭) 보조 정보를, 렌더링 정보 및, 선택적으로 하나 이상의 다운믹스 신호들의 컨텐츠에 대한 정보를 고려하여 채널-관련 (파라메트릭) 보조 정보로 변환하도록 구성된다.

선택적으로, SAOC 대 MPEG 서라운드 트랜스코더(980)는 처리된 다운믹스 신호 표현(988)을 획득하기 위하여 (예를 들어 설명하면, 다운믹스 신호 표현에 의한) 하나 이상의 다운믹스 신호들을 처리하도록 구성될 수 있다. 그러나, 다운믹스 신호 조작기(986)는, SAOC 대 MPEG 서라운드 트랜스코더(980)의 출력 다운믹스 신호 표현(988)이 SAOC 대 MPEG 서라운드 트랜스코더(980)의 입력 다운믹스 신호 표현과 동일하도록 생략될 수 있다. 다운믹스 신호 조작기(986)는, 예를 들어, 채널-관련 MPEG 서라운드 보조 정보(984)가 SAOC 대 MPEG 서라운드 트랜스코더(980)의 입력 다운믹스 신호 표현을 기초로 하여 원하는 청각 인상을 제공하는 것을 허용하지 않는 경우에 사용될 수 있으며, 이는 일부 렌더링 배치(Constellations)의 경우일 수 있다.

따라서, SAOC 대 MPEG 서라운드 트랜스코더(980)는, SAOC 대 MPEG 서라운드 트랜스코더(980)로 입력되는 렌더링 정보에 따라 오디오 객체들을 표현하는 복수의 업믹스 채널 신호들이 MPEG 서라운드 비트스트림(984) 및 다운믹스 신호 표현(988)을 수신하는 MPEG 서라운드 디코더를 사용하여 생성될 수 있도록 다운믹스 신호 표현(988) 및 MPEG 서라운드 비트스트림(984)를 제공한다.

상술한 내용을 요약하면, SAOC-인코딩된 오디오 신호들의 디코딩을 위한 다른 개념들이 사용될 수 있다. 일부 경우들에서, 다운믹스 신호 표현 및 객체-관련 파라메트릭 보조 정보에 따라 업믹스 채널 신호들(예를 들어, 업믹스 채널 신호들(928, 958))을 제공하는 SAOC 디코더가 사용된다. 이러한 개념에 대한 예들은 도 9a 및 도 9b에서 볼 수 있다. 또한, SAOC-인코딩된 오디오 정보는 다운믹스 신호 표현(예를 들어, 다운믹스 신호 표현(988)) 및 채널-관련 보조 정보(예를 들어, 채널-관련 MPEG 서라운드 비트스트림(984))를 획득하기 위하여 트랜스코딩될 수 있으며, 이는 원하는 업믹스 채널 신호들을 제공하기 위하여 MPEG 서라운드 디코더에 의해 사용될 수 있다.

MPEG SAOC 시스템(800)(이의 시스템 개요는 도 8에서 주어짐) 및 MPEG SAOC 시스템(900)(이의 시스템 개요는 도 9에서 주어짐)에서, 일반적인 처리는 주파수 선택적 방법으로 수행되고, 각각의 주파수 대역 내에서 아래와 같이 설명될 수 있다.

● N 입력 오디오 객체 신호들(X₁ 내지 X_N)은 SAOC 인코더 처리의 일부로서 다운믹스된다. 모노(Mono) 다운믹스의 경우, 다운믹스 계수들은 d₁ 내지 d_N으로 나타내어진다. 또한, SAOC 인코더(810, 910)는 입력 오디오 객체들의 특성들을 설명하는 보조 정보(814)를 추출한다. 이러한 보조 정보(814)의 중요한 부분은 객체 파워(Powers)의 관계들 및 서로에 대한 상관들(즉, 객체-간-상관들(Inter-Object-Correlations : IOCs)에서 객체-레벨 차이(Object-Level Differences : OLDs))로 구성된다.

● 다운믹스 신호(또는, 신호들)(812, 912) 및 보조 정보(814, 914)가 전송 및/또는 저장된다. 이를 위해, 다운믹스 오디오 신호는 MPEG-1 Layer Ⅱ 또는 Ⅲ(또한, ".mp3"로 알려짐), MPEG 어드밴스드 오디오 코딩(Advanced Audio Coding, AAC), 또는 어떤 다른 오디오 코더와 같은 잘 알려진 지각 오디오 코더들을 사용하여 압축될 수 있다.

● 수신단 측에서, SAOC 디코더(820, 920)는 전송된 보조 정보(814, 914)(및, 당연히, 하나 이상의 다운믹스 신호들(812, 912))를 사용하여 원래의 객체 신호들("객체 분리")를 복원하려고 개념적으로 시도한다. 그 다음에, 이러한 (또한, 재구성된 객체 신호들(820b, 924)로 지정되는) 근사화된 객체 신호들은, 렌더링 행렬(Matrix)을 사용하여 (예를 들어, 업믹스 채널 신호들(

내지

)(928)에 의해 표시될 수 있는) M 오디오 출력 채널로 나타내는 타겟 장면(Target Scene)으로 믹싱된다. 모노 출력에 대해, 렌더링 행렬 계수들은 r₁ 내지 r_N 으로 주어진다.

● 효과적으로, 객체 신호들의 분리는 좀처럼(또는, 결코) 실행되지 않는데, 그 이유는 (객체 분리기(820a, 922)에 의해 표시되는) 분리 단계 및 (믹서(820c, 926)에 의해 표시되는) 믹싱 단계 모두가 하나의 트랜스코딩 단계로 결합되며, 이는 종종 계산 복잡도의 엄청난 감소를 유발하기 때문이다.

이러한 기법은 전송 비트레이트(N 객체 오디오 신호들 대신에 일부 보조 정보와 몇몇 다운믹스 채널들을 전송할 필요만 있음) 및 계산 복잡도(처리 복잡도는 오디오 객체들의 개수보다 주로 출력 채널들의 개수에 관계함)의 양쪽 관점에서 대단히 효율적인 것으로 발견되었다. 수신단 측에서 사용자에 대한 추가적인 이점은 자신의 선택의 렌더링 설정(모노, 스테레오, 서라운드, 가상 헤드폰 재생 등)을 선택하는 자유 및 사용자 상호 작용의 특징: 렌더링 행렬을 포함하고, 따라서 출력 장면은 개인의 선호 또는 다른 기준에 따라 사용자에 의해 상호 작용하게 설정되고 변경될 수 있다. 예를 들어, 다른 남겨진 화자들(Talkers)과의 구별을 최대화하기 위하여, 하나의 공간 영역 내의 하나의 그룹의 화자들을 함께 위치시킬 수 있다. 이러한 상호 작용은 디코더 사용자 인터페이스를 제공함에 의해 달성된다.

각 전송된 사운드 객체에 대해, 그것의 상대적 레벨 및 (비모노 렌더링을 위한) 렌더링의 공간적 위치가 조정될 수 있다. 이것은 사용자가 그래픽 유저 인터페이스(Graphical User Interface, GUI) 슬라이더들의 위치(예를 들어: 객체 레벨=+5dB, 객체 위치=-30deg)를 변경함에 따라 실시간으로 일어날 수 있다.

다음에서, 기술들에 대한 간단한 참고 문헌이 주어질 것이며, 이는 채널-기반의 오디오 코딩의 분야에서 이미 적용되고 있다.

미국출원특허(US 11/032,689)는 보조 정보를 모으기 위하여 몇몇의 신호(Cue) 값들을 하나의 전송된 값으로 결합하기 위한 처리를 설명한다.

이러한 기술은 미국출원특허(US 60/671,544)에서 "소형(Compact) 보조 정보를 가지는 다중 채널 계층의 오디오 코딩"에 또한 적용된다.

그러나, 다중 채널 오디오 컨텐츠의 인코딩을 위해 사용되는 객체-관련 파라메트릭 정보는 일부 경우에 비교적 높은 비트 레이트를 포함하는 것이 발견되었다.

소형 보조 정보를 가지는 다중 채널 오디오 컨텐츠의 공급, 저장 또는 전송을 허용하는 개념을 생성하는 것이 본 발명의 목적이다.

이 목적은, 독립 청구항들에 의해 정의되는 것처럼 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 비트스트림 표현을 제공하는 방법, 컴퓨터 프로그램 및 비트스트림에 의해 달성된다.

본 발명에 따른 실시예는 렌더링 정보에 따라 그리고 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보를 기초로 하여 업믹스 신호 표현을 제공하는 오디오 신호 디코더를 생성한다. 이러한 장치는 복수의 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 구성된 객체 파라미터 결정기를 포함한다. 객체 파라미터 결정기는, 각각의 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할를 결정하기 위하여 비트스트림 시그날링 파라미터를 평가하도록 구성된다. 오디오 신호 디코더는 또한, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들 및 렌더링 정보를 사용하고 다운믹스 신호 표현을 기초로 하여 업믹스 신호 표현을 획득하도록 구성된 신호 처리기를 포함한다.

이러한 오디오 신호 디코더는, 객체-간-상관 값들의 인코딩을 위해 요구되는 비트 레이트는 양호한 청각 인상을 획득하기 위하여 고려될 필요가 있는 오디오 객체들의 많은 쌍들 간의 상관 관계들이 있는 일부 경우들에서 과도하게 높을 수 있고, 객체-간-상관 값들을 인코딩하기 위해 요구되는 비트 레이트는 청각 인상의 중요한 손상 없이 각각의 객체-간-상관 비트스트림 파라미터 값들 대신에 공통 객체-간-상관 비트스트림 파라미터 값을 사용함에 의한 어떤 경우들에서 상당히 감소할 수 있는 것을 핵심 아이디어로 한다.

오디오 객체들의 많은 쌍들 간에 주목할만한 객체-간-상관들이 존재하는 상황들이 발견되었으며, 이는 양호한 청각 인상을 획득하기 위하여 고려되어야 하며, 객체-간-상관들의 고려는 일반적으로 객체-간-상관 비트스트림 파라미터 값들을 위한 높은 비트레이트 요구를 야기할 것이다. 그러나, 오디오 객체들의 많은 쌍들 간에 무시할 수 없는 객체-간-상관가 존재하는 상황들이 발견되었으며, 양호한 청각 인상은 하나의 공통 객체-간-상관 비트스트림 파라미터 값을 단지 인코딩함에 의해 달성될 수 있고, 이러한 공통 객체-간-상관 비트스트림 파라미터 값들로부터 관련된 복수의 오디오 객체 쌍들을 위한 객체-간-상관 값들이 도출되는 것에 의해 달성될 수 있다. 따라서, 객체-간-상관 비트스트림 파라미터 값의 전송을 위한 노력을 충분히 작게 유지하면서도, 많은 오디오 객체들 간의 상관 관계는 대부분 경우들에서 충분한 정확도로 고려될 수 있다.

그러므로, 충분히 양호한 청각 인상을 여전히 달성하면서도, 상술한 개념은 다수의 다른 오디오 객체 신호들 간에 무시할 수 없는 객체-간-상관이 존재하는 일부 청각의 환경들에서 객체 관련 보조 정보를 위한 작은 비트 레이트의 요구를 가져온다.

바람직한 실시예에서, 객체-파라미터 결정기는 다른 관련된 오디오 객체들의 모든 쌍들을 위한 객체-간-상관 값을 공통 객체-간-상관 비트스트림 파라미터 값에 의해 정의되는 공통 값으로 설정하도록 구성된다. 다수의 관련된 상황들에서 이러한 단순한 해결책이 충분히 양호한 청각 인상을 제공해 주는 것이 발견되었다.

바람직한 실시예에서, 객체-파라미터 결정기는 2개의 객체들이 서로 관련되는지 관련되지 않는지를 설명하는 객체-관계 정보를 평가하도록 구성된다. 객체-파라미터 결정기는,

공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 객체-관계 정보가 관계를 나타내는 오디오 객체들의 쌍들을 위한 객체-간-상관 값들을 선택적으로 획득하도록 구성되고, 객체-관계 정보가 관계 없음을 나타내는 오디오 객체들의 쌍들을 위한 객체-간-상관 값들을 미리 정의된 값(예를 들어, 제로(Zero))으로 설정하도록 구성된다. 따라서, 관련된 및 관련되지 않은 오디오 객체들 간에, 높은 비트레이트 효율을 갖는 것으로 구별될 수 있다. 그러므로, 제로가 아닌 객체-간-상관 값을 (거의) 관련되지 않은 오디오 객체들의 쌍들로 할당은 방지된다. 따라서, 청각 인상의 악화는 방지되고, 거의 관련되지 않은 오디오 객체들 간의 분리는 가능하다. 또한, 오디오 객체 관계는 일반적으로 오디오 부분(Piece of audio) 이상에서 시불변(Time-Invariant)이기 때문에, 이러한 시그날링을 위해 요구되는 비트레이트가 일반적으로 매우 낮도록, 관련된 및 관련되지 않은 오디오 객체들의 시그날링은 매우 높은 비트레이트 효율을 가지도록 실행될 수 있다. 그러므로, 설명된 개념은 비트레이트 효율 및 청각 인상 간에 매우 양호한 트레이드 오프(Trade-off)를 제공해 준다.

바람직한 실시예에서, 객체 파라미터 결정기는, 다른 오디오 객체들의 각 결합을 위한 1비트 플래그를 포함하는 객체-관계 정보를 평가하도록 구성되며, 다른 오디오 객체들의 주어진 결합에 연관되는 상기 1비트 플래그는 주어진 결합의 오디오 객체들이 관련되는지 아닌지를 나타낸다. 이러한 정보는 매우 효율적으로 전송될 수 있고, 양호한 청각 인상을 획득하도록 요구되는 비트 레이트의 상당한 감소를 가져올 수 있다.

바람직한 실시예에서, 객체 파라미터 결정기는, 다른 관련된 오디오 객체들의 모든 쌍들을 위한 객체-간-상관 값을 공통 객체-간-상관 비트스트림 파라미터 값에 의해 정의되는 공통 값으로 설정하도록 구성된다.

바람직한 실시예에서, 객체 파라미터 결정기는, 비트스트림 시그날링 파라미터 및 개별 객체-간-상관 비트스트림 파라미터들 또는 공통 객체-간-상관 비트스트림 파라미터를 획득하기 위하여, 오디오 컨텐츠의 비트스트림 표현을 분석하도록 구성된 비트스트림 분석기를 포함한다. 비트스트림 분석기를 사용함에 의해, 비트스트림 시그날링 파라미터 및 개별 객체-간-상관 비트스트림 파라미터들 또는 공통 객체-간-상관 비트스트림 파라미터는 양호한 구현 효율을 가지고 획득될 수 있다.

바람직한 실시예에서, 오디오 신호 디코더는, 관련된 오디오 객체들의 쌍에 연관되는 공분산 값을 획득하기 위하여, 관련된 오디오 객체들의 쌍에 연관되는 객체-간-상관 값과, 관련된 오디오 객체들의 쌍의 제1 오디오 객체의 객체 레벨을 설명하는 객체-레벨 차이 파라미터 값 및 관련된 오디오 객체들의 쌍의 제2 오디오 객체의 객체 레벨을 설명하는 객체-레벨 차이 파라미터 값을 결합하도록 구성된다. 따라서, 비록 공통 객체-간-상관 파라미터가 사용되더라도 공분산 값이 오디오 객체들의 쌍으로 적응되도록, 관련된 오디오 객체들의 쌍에 연관되는 공분산 값을 도출하는 것이 가능하다. 그러므로, 다른 공분산 값들은 오디오 객체들의 다른 쌍들을 위해 획득될 수 있다. 특히, 다수의 다른 공분산 값들은 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 획득될 수 있다.

바람직한 실시예에서, 오디오 신호 디코더는 3개 이상의 오디오 객체들을 처리하도록 구성된다. 이러한 경우에, 객체-파라미터 결정기는 다른 오디오 객체들의 모든 쌍을 위한 객체-간-상관 값을 제공하도록 구성된다. 서로 모두 관련되는 상대적으로 다수의 오디오 객체들이 존재하더라도, 중요한 값들은 본 발명의 개념을 사용하여 획득될 수 있다. 객체-관련 파라메트릭 보조 정보를 사용하여 오디오 객체 신호들을 인코딩하고 디코딩하는 경우, 오디오 객체들의 많은 결합들로부터 객체-간-상관 값들을 획득하는 것은 특히 유용하다.

바람직한 실시예에서, 객체 파라미터 결정기는, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값을 획득할지를 결정하기 위하여, 설정 비트스트림 부분에 포함되는 비트스트림 시그날링 파라미터를 평가하도록 구성된다. 이러한 실시예에서, 객체 파라미터 결정기는, 오디오 객체들이 관련되어 있는지를 결정하도록, 설정 비트스트림 부분에 포함되는 객체 관계 정보를 평가하도록 구성된다. 또한, 상기 객체 파라미터 결정기는, 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍을 위한 객체-간-상관 값들을 획득하도록 결정한 경우, 오디오 컨텐츠의 모든 프레임을 위한 프레임 데이터 비트스트림 부분에 포함되는 공통 객체-간-상관 비트스트림 파라미터 값을 평가하도록 구성된다. 따라서, 비교적 작은 공통 객체-간-상관 비트스트림 파라미터 값이 오디오 피스(Audio Piece)의 모든 프레임에 대해 평가되는 반면(즉, 오디오 피스 당 여러번), 비교적 큰 객체 관계 정보가 (설정 비트스트림 부분의 존재에 의해 정의되는) 오디오 피스 당 오직 한번 평가되기 때문에, 높은 비트레이트 효율이 획득된다. 이는 오디오 객체들 간의 관계가 오디오 피스 내에서 일반적으로 변하지 않거나, 또는 매우 드물게만 변하는 결과를 반영한다. 따라서, 양호한 청각 인상이 상당히 낮은 비트레이트에서 획득될 수 있다.

그러나, 또한, 공통 객체-간-상관 비트스트림 파라미터 값의 사용은 프레임 데이터 비트스트림 부분에서 표시될 수 있으며, 예를 들어, 이는 다양한 오디오 콘텐츠로의 유연한 적응을 허용할 것이다.

본 발명에 따른 힐 실시예는, 복수의 오디오 객체 신호들을 기초로 하여 비트스트림 표현을 제공하는 오디오 신호 인코더를 생성한다. 오디오 신호 인코더는, 다운믹스 신호의 하나 이상의 채널들에 대한 오디오 객체 신호들의 기여분을 설명하는 다운믹스 파라미터들에 따라 그리고 오디오 객체 신호들을 기초로 하여 다운믹스 신호를 제공하도록 구성된 다운믹서를 포함한다. 오디오 신호 인코더는 또한, 복수의 관련된 오디오 객체 신호 쌍들에 연관되는 공통 객체-간-상관 비트스트림 파라미터 값을 제공하고, 또한 복수의 개별 객체-간-상관 비트스트림 파라미터들을 대신하여 공통 객체-간-상관 비트스트림 파라미터 값이 제공되는 것을 나타내는 비트스트림 시그날링 파라미터를 제공하도록 구성된 파라미터 제공기를 포함한다. 오디오 신호 인코더는, 다운믹스 신호의 표현, 공통 객체-간-상관 비트스트림 파라미터 값의 표현 및 비트스트림 시그날링 파라미터를 포함하는 비트스트림을 제공하도록 구성된 비트스트림 형식 구성기를 포함한다.

본 발명에 따른 이러한 실시예는 소형(Compact) 보조 정보를 가지는 다중-채널 오디오 컨텐츠를 표현하는 비트스트림의 제공을 허용한다. 공통 객체-간-상관 비트스트림 파라미터 값을 제공하는 것에 의해, 양호한 청각 인상을 가지는 다중-채널 오디오 컨텐츠의 재생성을 위한 효율적인 정보를 여전히 제공하면서도, 객체 관련 보조 정보는 소형으로 유지하게 된다. 또한, 여기서 설명되는 오디오 신호 인코더는 오디오 신호 디코더에 대해 논의되었던 동일한 장점들을 위해 제공되는 것을 주의해야 할 것이다.

바람직한 실시예에서, 파라미터 제공기는, 크로스 파워 텀의 합과 평균 파워 텀의 합 간의 비율에 따라 공통 객체-간-상관 비트스트림 파라미터 값을 제공하도록 구성된다. 대부분 경우들에서 정확한 청각 인상이 여전히 제공되면서도, 이러한 객체-간-상관 비트스트림 파라미터 값은 적당한 계산적 노력으로 계산될 수 있음이 발견되었다.

본 발명에 따른 다른 실시예에서, 파라미터 제공기는, 공통 객체-간-상관 비트스트림 파라미터 값으로서 미리 결정된 상수 값을 제공하도록 구성된다. 일부 경우들에서 상수 값의 제공은 이치에 맞는 것으로 발견되었다. 예를 들어, 특정 유형들의 회의 룸에서 특정 표준 마이크로폰 배열들을 위해, 상수 값은 원하는 청각 인상을 표현하기 위해 가장 적합할 수 있다. 따라서, 본 발명의 개념에 대한 많은 표준 어플리케이션들에서 양호한 청각 인상을 제공하면서도 계산적 노력은 최소화될 수 있다.

다른 바람직한 실시예에서, 파라미터 제공기는 또한, 2개의 오디오 객체들이 서로 관련되어 있는지를 설명하는 객체-관계 정보(beRelatedTo)를 제공하도록 구성된다. 이러한 객체-관계 정보는 상술한 것처럼 오디오 디코더에 의해 이용될 수 있다. 따라서, 공통 객체-간-상관 비트스트림 파라미터 값은 완전히 관련되지 않은 오디오 객체들에 적용되지 않고, 서로 관련되는 오디오 객체들에 대해서 오직 적용되는 것을 보장할 수 있다.

바람직한 실시예에서, 파라미터 제공기는, 공통 객체-간-상관 비트스트림 파라미터 값의 계산을 위한, 관계를 나타내는 객체-관계 정보를 위한, 오디오 객체들의 객체-간-상관를 선택적으로 평가하도록 구성된다. 이는 특히 의미 있는 객체-간-상관 비트스트림 파라미터 값을 가지도록 허용한다.

본 발명에 따른 추가 실시예는, 업믹스 신호 표현을 제공하는 방법 및 비트스트림 표현을 제공하는 방법을 생성한다. 이러한 방법들은 상술한 오디오 디코더 및 오디오 인코더처럼 동일한 아이디어들을 기반으로 한다.

본 발명에 따른 다른 실시예는, 다중-채널 오디오 신호를 표현하는 비트스트림을 생성한다. 비트스트림은 복수의 오디오 객체들의 오디오 신호들을 결합하는 다운믹스 신호의 표현을 포함한다. 비트스트림은 오디오 객체들의 특성들을 설명하는 객체-관련 파라메트릭 보조 정보를 또한 포함한다. 객체-관련 파라메트릭 보조 정보는, 비트스트림이 개별 객체-간-상관 비트스트림 파라미터 값들 또는 공통 객체-간-상관 비트스트림 파라미터 값을 포함하는지를 나타내는 비트스트림 시그날링 파라미터를 포함한다. 따라서, 비트스트림은 오디오 채널 컨텐츠들의 다른 유형들의 전송을 위한 유연한 사용을 허용한다. 특히, 비트스트림은, 개별 객체-간-상관 비트스트림 파라미터 값들 또는 공통 객체-간-상관 비트스트림 파라미터 값의 전송 중 청각 장면에 더 적합한 모두를 허용한다. 따라서, 비트스트림은, 상세한 (객체-개별) 객체-간-상관 정보가 전송되기 위한 비교적 소수의 관련된 오디오 객체들이 존재하는 경우들 및 개별 객체-간-상관 비트스트림 파라미터 값들의 전송이 과도하게 높은 비트레이트 요구를 야기하고 공통 객체-간-상관 비트스트림 파라미터 값이 양호한 청각 인상을 가지는 재생산을 여전히 허용하는 비교적 다수의 관련된 오디오 객체들이 존재하는 경우들 모두를 다루기 위해 매우 적합하다.

본 발명에 의하면, 객체-간-상관 비트스트림 파라미터 값의 전송을 위한 노력을 충분히 작게 유지하면서도, 많은 오디오 객체들 간의 상관 관계는 대부분 경우들에서 충분한 정확도로 고려될 수 있다.

또한, 비록 공통 객체-간-상관 파라미터가 사용되더라도 공분산 값이 오디오 객체들의 쌍으로 적응되도록, 관련된 오디오 객체들의 쌍에 연관되는 공분산 값을 얻는 것이 가능하다. 그러므로, 다른 공분산 값들은 오디오 객체들의 다른 쌍들을 위해 획득될 수 있다. 특히, 다수의 다른 공분산 값들은 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 획득될 수 있다.

또한, 비교적 작은 공통 객체-간-상관 비트스트림 파라미터 값이 오디오 피스(Audio Piece)의 모든 프레임에 대해 평가되는 반면(즉, 오디오 피스 당 여러번), 비교적 큰 객체 관계 정보가 (설정 비트스트림 부분의 존재에 의해 정의되는) 오디오 피스 당 오직 한번 평가되기 때문에, 높은 비트레이트 효율이 획득된다.

또한, 본 발명의 개념에 대한 많은 표준 어플리케이션들에서 양호한 청각 인상을 제공하면서도 계산적 노력은 최소화될 수 있다.

또한, 공통 객체-간-상관 비트스트림 파라미터 값은 완전히 관련되지 않은 오디오 객체들에 적용되지 않고, 서로 관련되는 오디오 객체들에 대해서 오직 적용되는 것을 보장할 수 있다.

도 1은 본 발명의 일 실시예에 따른 오디오 신호 디코더의 블록도를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 오디오 신호 인코더의 블록도를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 비트스트림의 도식적인 표현을 나타낸다.
도 4는 하나의 객체-간-상관 파라미터 계산을 사용하는 MPEG SAOC 시스템의 블록도를 나타낸다.
도 5는 비트스트림의 부분일 수 있는 SAOC 특정 구성 정보의 구문 표현을 나타낸다.
도 6은 비트스트림의 부분일 수 있는 SAOC 프레임 정보의 구문 표현을 나타낸다.
도 7은 객체-간-상관 파라미터의 파라미터 양자화를 표현하는 테이블을 나타낸다.
도 8은 참고 MPEG SAOC 시스템의 블록도를 나타낸다.
도 9a는 분리된 디코더 및 믹서를 사용하는 참조 SAOC 시스템의 블록도를 나타낸다.
도 9b는 통합된 디코더 및 믹서를 사용하는 참조 SAOC 시스템의 블록도를 나타낸다.
도 9c는 SAOC 대 MPEG 트랜스코더를 사용하는 참조 SAOC 시스템의 블록도를 나타낸다.

1. 도 1에 따른 오디오 신호 디코더(Decoder)

다음에서, 오디오 신호 디코더(100)는, 오디오 신호 디코더(100)의 블록도를 나타낸 도 1을 참조하여 설명될 것이다.

먼저, 오디오 신호 디코더(100)의 입력 및 출력 신호들이 설명될 것이다. 그 다음에, 오디오 신호 디코더(100)의 구조가 설명될 것이고, 마지막으로, 오디오 신호 디코더(100)의 기능이 논의될 것이다.

오디오 신호 디코더(100)는 다운믹스(Downmix) 신호 표현(Representation)을 수신하도록 구성되며, 다운믹스 신호 표현은 일반적으로 복수의 오디오 객체 신호들을 표현하며, 예를 들어, 하나의 채널(One-Channel) 오디오 신호 표현 또는 두 개의 채널(Two-Channel) 오디오 신호 표현의 형태로 표현한다.

오디오 신호 디코더(100)는 일반적으로 오디오 객체들을 설명하는 객체-관련 파라메트릭(Object-related parametric) 정보(112)를 또한 수신하며, 오디오 객체들은 다운믹스 신호 표현(110)에 포함된다.

예를 들어, 객체-관련 파라메트릭 정보(112)는 객체-레벨 차이 값들(Object-Level Difference values, OLD)을 사용하여 오디오 객체들의 객체 레벨들을 설명할 수 있으며, 오디오 객체들은 다운믹스 신호 표현(110)에 의해 표현된다.

또한, 객체-관련 파라메트릭 정보(112)는 일반적으로 다운믹스 신호 표현(110)에 의해 표현되는 오디오 객체들의 객체-간-상관 특성들을 표현한다. 객체-관련 파라메트릭 정보는 (또는, 여기서 "bsOneIOC" 표기되는) 일반적으로 비트스트림 시그날링 파라미터를 포함하며, 비트스트림 시그날링 파라미터는 객체-관련 파라메트릭 정보가 오디오 객체들의 개별 쌍들에 연관되는 개별 객체-간-상관 비트스트림 파라미터 값들을 포함하는지 또는 복수의 오디오 객체 쌍들에 연관되는 공통 객체-간-상관 비트스트림 파라미터 값을 포함하는지를 표시한다. 따라서, 객체-관련 파라메트릭 정보는, 비트스트림 시그날링 파라미터 "bsOneIOC" 에 따라 개별 객체-간-상관 비트스트림 파라미터 값들 또는 공통 객체-간-상관 비트스트림 파라미터 값을 포함한다.

객체-관련 파라메트릭 정보(112)는 또한, 개별 오디오 객체들의 다운믹스를 다운믹스 신호 표현으로 설명하는 다운믹스 정보를 포함한다. 예를 들어, 객체-관련 파라메트릭 정보는 다운믹스 신호 표현(110)에 대한 오디오 객체 신호들의 기여분을 설명하는 다운믹스 이득 정보(DownMix Gain information, DMG)를 포함한다. 또한, 객체-관련 파라메트릭 정보는 다른 다운믹스 채널들 간의 다운믹스 이득 차이들을 설명하는 다운믹스-채널-레벨-차이 정보(Downmix-Channel-Level-Difference, DCLD)를 선택적으로 포함할 수 있다.

신호 디코더(100)는 또한, 예를 들어, 렌더링 정보 입력을 위한 사용자 인터페이스로부터 렌더링 정보(120)를 수신하도록 구성된다. 렌더링 정보는 업믹스 채널들에 대한 오디오 객체들의 신호들의 할당을 설명한다. 예를 들어, 렌더링 정보(120)는 렌더링 행렬(또는, 그것의 엔트리(Entries))의 형태로 얻을 수 있을 것이다. 또한, 렌더링 정보(120)는 오디오 객체들의 원하는 렌더링 위치(예를 들어, 공간 좌표에 관하여) 및 오디오 객체들의 원하는 강도(또는, 용량(Volumes))의 설명을 포함할 수 있다.

오디오 신호 디코더(100)는 업믹스 신호 표현(130)을 제공하며, 업믹스 신호 표현은 다운믹스 신호 표현 및 객체-관련 파라메트릭 정보에 의해 설명되는 오디오 객체 신호들의 렌더링된(Rendered) 표현을 구성한다. 예를 들어, 업믹스 신호 표현은 개별 오디오 채널 신호들의 형태일 수 있고, 또는 채널-관련 파라메트릭 보조 정보(예를 들어, MPEG 서라운드(Surround) 보조 정보)와 결합한 다운믹스 신호 표현의 형태일 수 있다.

오디오 신호 디코더(100)는, 렌더링 정보(120)에 따라 그리고 다운믹스 신호 표현(110) 및 객체-관련 파라메트릭 정보(112)를 기초로 하여 업믹스 신호 표현(130)을 제공하도록 구성된다. 장치(100)는 객체-파라미터 결정기(140)를 포함하며, 객체-파라미터 결정기(140)는 객체-관련 파라메트릭 정보(112)를 기초로 하여 복수의 관련된 오디오 객체 쌍들을 위한 (최소한의) 객체-간-상관 값들을 획득하도록 구성된다. 이러한 목적을 위해, 객체-파라미터 결정기(140)는, 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지 또는 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지를 결정하기 위하여, 비트스트림 시그날링 파라미터 "bsOneIOC" 를 평가하도록 구성된다. 따라서, 비트스트림 시그날링 파라미터가 공통 객체-간-상관 비트스트림 파라미터 값이 이용할 수 없음을 나타내는 경우, 객체-파라미터 결정기(140)는 개별 객체-간-상관 비트스트림 파라미터 값들을 기초로 하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들(142)을 제공하도록 구성된다. 유사하게, 비트스트림 시그날링 파라미터가 이러한 공통 객체-간-상관 비트스트림 파라미터 값이 이용할 수 있음을 나타내는 경우, 객체-파라미터 결정기(140)는 공통 객체-간-상관 비트스트림 파라미터 값을 기초로 하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들(142)을 결정한다.

객체-파라미터 결정기는 일반적으로, 예를 들어, 객체-관련 파라메트릭 정보(112)를 기초로 하여 객체-레벨-차이 값들(Object-Level-Difference values, OLD), 다운믹스-이득 값들(DownMix-Gain values, DMG) 및 (선택적으로) 다운믹스-채널-레벨-차이 값들(Downmix-Channel-Level-Difference values, DCLD)과 같은 다른 객체-관련 값들을 또한 제공한다.

오디오 신호 디코더(100)는 또한 신호 처리기(150)를 포함하며, 신호 처리기(150)는 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들(142) 및 렌더링 정보(120)를 사용하고 다운믹스 신호 표현(110)을 기초로 하여 업믹스 신호 표현(130)을 획득하도록 구성된다. 신호 처리기(150)는 또한, 객체-레벨-차이 값들, 다운믹스-이득 값들 및 다운믹스-채널-레벨-차이 값들과 같은 다른 객체-관련 값들을 사용한다.

신호 처리기(150)는, 예를 들어, 원하는 업믹스 신호 표현(130)의 통계 특성들을 추정할 수 있고, 다운믹스 신호 표현으로부터 도출된 업믹스 신호 표현(130)이 원하는 통계 특성들을 포함하도록 다운믹스 신호 표현을 처리할 수 있다. 또한, 신호 처리기(150)는 객체 특성들 및 다운믹스 과정에 대한 지식을 사용하여, 다운믹스 신호 표현(110)에 결합된 복수의 오디오 객체들의 오디오 객체 신호들을 분리하도록 시도할 수 있다. 따라서, 신호 처리기(150)는 처리 규칙(예를 들어, 스케일링(Scaling) 규칙 또는 선형 결합 규칙)을 계산할 수 있으며, 처리 규칙은 개별 오디오 객체 신호들 또는 개별 오디오 객체 신호들로서 유사한 통계적 특성들을 가지는 최소한의 오디오 신호들의 재구성을 허용할 수 있다. 그리고, 신호 처리기(150)는 업믹스 신호 표현을 획득하도록 원하는 렌더링을 적용할 수 있다. 당연히, 원래의 개별 오디오 객체 신호들과 비슷한 재구성된 오디오 객체 신호들의 계산 및 렌더링은, 계산 복잡도를 줄이기 위하여 하나의 처리 단계로 결합될 수 있다.

상술한 내용을 요약하면, 오디오 신호 디코더(100)는 렌더링 정보(120)를 사용하여 다운믹스 신호 표현(110) 및 객체-관련 파라메트릭 정보(112)를 기초로 하여 업믹스 신호 표현(130)을 제공하도록 구성된다. 객체-관련 파라메트릭 정보(112)는, 개별 오디오 객체 신호들 및, 신호 처리기(150)에 의해 요구되는 개별 오디오 객체 신호들 간의 관계의 통계적 특성들에 대한 지식을 얻기 위하여 평가된다. 예를 들어, 객체-관련 파라메트릭 정보(112)는 개별 오디오 객체 신호들의 추정된 공분산 값들을 설명하는 추정된 공분산 행렬을 획득하기 위하여 사용된다. 그리고, 추정된 공분산 행렬이, 다운믹스 신호 표현(110)으로부터 업믹스 신호 표현(130)을 얻기 위한 처리 규칙(예를 들어, 스케일링 규칙 또는 선형 결합 규칙)을 결정하기 위하여 신호 처리기(150)에 의해 적용될 수 있으며, 당연히, 다른 객체 관련 정보는 또한 이용될 수 있다.

객체 파라미터 결정기(140)는, 신호 처리기(150)를 위한 중요한 입력 정보를 구성하는 복수의 관련된 오디오 객체 쌍을 위한 객체-간-상관 값들을 획득하기 위하여 다른 모드들을 포함한다. 제1 모드에서, 객체-간-상관 값들은 개별 객체-간-상관 비트스트림 파라미터 값들을 사용하여 결정된다. 예를 들어, 객체-파라미터 결정기(140)가 개별 객체-간-상관 비트스트림 파라미터 값을 관련된 오디오 객체들의 주어진 쌍에 연관되는 하나 또는 두 개의 객체-간-상관 값들과 단순히 매핑시키도록, 관련된 오디오 객체들의 각각의 쌍을 위한 단일 개별 객체-간-상관 비트스트림 파라미터 값이 있을 수 있다. 반면에, 동작의 제2 모드가 또한 있으며, 여기서 객체-파라미터 결정기(140)는 단순히 비트스트림으로부터 단일 공통 객체-간-상관 비트스트림 파라미터 값을 판독하고, 단일 공통 객체-간-상관 비트스트림 파라미터 값을 기초로 하여 복수의 관련된 오디오 객체의 다른 쌍들을 위한 복수의 객체-간-상관 값들을 제공한다. 따라서, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들은, 예를 들어, 단일 공통 객체-간-상관 비트스트림 파라미터 값에 의해 표현되는 값과 동일할 수 있거나, 또는 동일한 공통 객체-간-상관 비트스트림 파라미터 값으로부터 도출될 수 있다. 객체-파라미터 결정기(140)는 비트스트림 시그날링 파라미터 "bsOneIOC" 에 따라 제1 모드 및 제2 모드 간을 전환할 수 있다.

따라서, 객체-간-상관 값들의 제공을 위한 다른 모드들이 있으며, 이는 객체 파라미터 결정기(140)에 의해 적용될 수 있다. 상대적으로 소수의 관련된 오디오 객체 쌍들이 있는 경우, 관련된 오디오 객체들의 쌍들을 위한 객체-간-상관 값들은 일반적으로 객체 파라미터 결정기에 의해 (비트스트림 시그날링 파라미터에 의존하여) 결정되며, 이는 관련된 오디오 객체들의 쌍들의 특성들의 특별히 정확한 표현을 허용하고, 결과적으로 신호 처리기(150)에서 양호한 정확도를 가지는 개별 오디오 객체 신호들의 재구성의 가능성을 제공해 준다. 그러므로, 비교적 소수의 관련된 오디오 객체 쌍들 간의 상관 관계가 오직 관련되는 경우에 양호한 청각 인상을 제공하는 것은 일반적으로 가능하다.

공통 객체-간-상관 비트스트림 파라미터 값이 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 사용되는 객체 파라미터 결정기(140) 동작의 제2 모드는, 복수의 오디오 객체 쌍들 간의 무시할 수 없는 상관 관계들이 일반적으로 존재하는 경우들에 사용된다. 이러한 경우들은 다운믹스 신호 표현(110) 및 객체-관련 파라미터 정보(112) 모두를 표현하는 과도하게 증가한 비트스트림의 비트레이트 없이 관습적으로 다루어질 수 없다. 상대적으로 다수의 오디오 객체 쌍들 간의 무시할 수 없는 상관 관계들이 존재하는 경우, 공통 객체-간-상관 비트스트림 파라미터 값의 사용은 특정 장점들을 제공해 주며, 여기서 상관 관계들은 청각적으로 중요한 변화들을 포함하지 않는다. 이러한 경우에서, 비트레이트 요구 및 청각 인상의 품질 간의 상당히 양호한 타협을 제공해 주는 적당한 비트레이트 결과를 가지는 상관 관계를 고려하는 것이 가능하다.

따라서, 오디오 신호 디코더(100)는 다른 상황들을 효율적으로 다룰 수 있으며, 즉 관련된 오디오 객체들의 적은 쌍들만이 존재하는 경우에 객체-간-상관은 높은 정확도와 함께 고려되어야 하고, 다수의 관련된 오디오 객체 쌍들이 존재하는 경우에 객체-간-상관들은 완전히 무시될 수 없고 일부 유사성을 가진다. 오디오 신호 디코더(100)는 청각 인상의 양호한 품질을 가지는 상황들 모두를 다룰 수 있다.

2. 도 2에 따른 오디오 신호 인코더( Encoder )

다음에서, 오디오 신호 인코더(200)는 오디오 신호 인코더(200)의 블록도를 나타내는 도 2를 참조하여 설명될 것이다.

오디오 신호 인코더(200)는 복수의 오디오 객체 신호들(210a 내지 210N)을 수신하도록 구성된다. 오디오 객체 신호들(210a 내지 210N)은, 예를 들어, 다른 오디오 객체들을 표현하는 1개 채널 신호들 또는 2개 채널 신호들일 수 있다.

오디오 신호 인코더(200)는 또한, 콤팩트(Compact)하고 비트레이트 효율적인(Bitrate-efficient) 방식에서 오디오 객체 신호들(210a 내지 210N)에 의해 표현되는 청각 장면을 설명하는 비트스트림 표현(220)을 제공하도록 구성된다.

오디오 신호 인코더(200)는, 오디오 객체 신호들(210a 내지 210N)을 수신하고 오디오 객체 신호들(210a 내지 210N)을 기초로 하여 다운믹스 신호(232)를 제공하도록 구성된 다운믹서(230)를 포함한다. 다운믹서(230)는 다운믹스 신호의 하나 이상의 채널들에 대한 오디오 객체 신호들(210a 내지 210N)의 기여분을 설명하는 다운믹스 파라미터들에 따라 다운믹스 신호(232)를 제공하도록 구성된다.

오디오 신호 인코더(200)는 또한, 복수의 관련된 오디오 객체 신호(210a 내지 210N) 쌍들에 연관되는 공통 객체-간-상관 비트스트림 파라미터 값(242)을 제공하도록 구성되는 파라미터 제공기(240)를 포함한다. 파라미터 제공기(240)는 또한, 공통 객체-간-상관 비트스트림 파라미터 값(242)이 (오디오 객체들의 다른 쌍들에 개별적으로 연관되는) 복수의 각 객체-간-상관 비트스트림 파라미터들을 대신하여 제공되는 것을 나타내는 비트스트림 시그날링 파라미터 값(244)을 제공하도록 구성된다.

오디오 인코더(200)는 또한, 다운믹스 신호(232)의 표현(예를 들어, 다운믹스 신호(232)의 인코딩된 표현), 공통 객체-간-상관 비트스트림 파라미터 값(242)의 표현(예를 들어, 공통 객체-간-상관 비트스트림 파라미터 값(242)의 양자화 및 인코딩된 표현) 및 비트스트림 시그날링 파라미터(244)(예를 들어, 1비트 파라미터 값의 형태)를 포함하는 비트스트림 표현을 제공하도록 구성되는 비트스트림 형식 구성기(250)를 포함한다.

그 결과, 오디오 신호 인코더(200)는, 양호한 정확도를 가지는 오디오 객체 신호들(210a 내지 210N)에 의해 설명되는 오디오 장면을 표현하는 비트스트림 표현(220)을 제공한다. 특히, 많은 오디오 객체 신호들(210a 내지 210N)이 서로 관련되는 경우(즉, 무시할 수 없는 객체-간-상관를 포함하는 경우), 비트스트림 표현(220)은 소형의 보조 정보를 포함한다. 이러한 경우에, 공통 객체-간-상관 비트스트림 파라미터 값(242)은, 오디오 객체들의 쌍들에 개별적으로 연관되는 개별 객체-간-상관 비트스트림 파라미터 값들을 대신하여 제공된다. 따라서, 오디오 객체 신호들(210a 내지 210N)의 많은 관련된 쌍들이 존재하는 경우 및 관련된 오디오 객체 신호들(210a 내지 210N)의 적은 쌍들만이 존재하는 경우 모두에서, 오디오 신호 인코더(200)는 소형의 비트스트림 표현(220)을 제공할 수 있다. 특히, 비트스트림 표현(220)은 입력 정보로서 오디오 신호 디코더(100)에 의해 요구되는 정보(즉, 다운믹스 신호 표현(110) 및 객체-관련 파라메트릭 정보(112))를 포함할 수 있다. 그러므로, 파리미터 제공기(240)는, 다운믹서(230)에 의해 실행되는 오디오 객체 신호들(210a 내지 210N)뿐만 아니라 다운믹스 과정을 설명하는 추가의 객체-관련 파라메트릭 정보를 제공하도록 구성될 수 있다. 예를 들어, 파리미터 제공기(240)는, 오디오 객체 신호들(210a 내지 210N)의 객체 레벨들(또는, 객체-레벨 차이들)을 설명하는 객체-레벨-차이 정보(Object-Level-Differnece information, OLD)를 추가적으로 제공할 수 있다. 또한, 파라미터 제공기(240)는, 다운믹스 신호(232)의 하나 이상의 채널들을 형성시키는 경우에 개별 오디오 객체 신호들(210a 내지 210N)에 적용되는 다운믹스 이득들을 설명하는 다운믹스-이득 정보(DownMix-Gain information. DWG)를 제공할 수 있다. 또한, 다운믹스 신호(232)의 다른 채널들 간의 다운믹스 이득 차이들을 설명하는 다운믹스-채널-레벨-차이 값들(Downmix-Channel-Level-Difference values, DCLD)은 또한, 비트스트림 표현(220)으로 포함을 위한 파라미터 제공기(240)에 의해 선택적으로 제공될 수 있다.

상술한 내용을 요약하면, 오디오 신호 인코더(200)는, 양호한 청각 인상을 가지는 오디오 객체 신호들(210a 내지 210N)에 의해 설명되는 오디오 장면의 재구성을 위해 요구되는 객체-관련 파라메트릭 정보를 효율적으로 제공하며, 다수의 오디오 객체 관련된 쌍들이 존재하는 경우에 소형의 공통 객체-간-상관 비트스트림 파라미터 값이 사용된다. 그러므로, 이러한 경우에서 과도한 비트스트림 부하는 방지된다.

비트스트림 표현의 제공에 관한 추가적인 상세 내용들은 아래에서 설명될 것이다.

3. 도 3에 따른 비트스트림

도 3은 본 발명의 일 실시예에 따른 비트스트림(300)의 도식적인 표현을 나타낸다.

비트스트림(300)은, 예를 들어, 다운믹스 신호 표현(110) 및 객체-관련 파라메트릭 정보(112)를 운반하는 오디오 신호 디코더(100)의 입력 비트스트림의 역할을 할 수 있다. 비트스트림(300)은 오디오 신호 인코더(200)에 의해 출력 비트스트림(220)으로서 제공받을 수 있다.

비트스트림(300)은, 복수의 오디오 객체들의 오디오 신호들을 결합하는 1개 채널 또는 다중-채널 다운믹스 신호(예를 들어, 다운믹스 신호(232))의 표현인 다운믹스 신호 표현(310)을 포함한다. 비트스트림(300)은 또한, 오디오 객체들의 특성들을 설명하는 객체-관련 파라메트릭 보조 정보(320)를 포함하며, 그것의 오디오 객체 신호들은 다운믹스 신호 표현(310)에 의해 결합된 형태로 표현된다. 객체-관련 파라메트릭 보조 정보(320)는, 비트스트림이 (오디오 객체들의 다른 쌍들에 개별적으로 연관되는) 개별 객체-간-상관 파라미터들 또는 (오디오 객체들의 복수의 다른 쌍들에 연관되는) 공통 객체-간-상관 비트스트림 파라미터 값을 포함하는지를 나타내는 비트스트림 시그날링 파라미터(322)를 포함한다. 객체-관련 파라메트릭 보조 정보(320)는 또한, 비트스트림 시그날링 파라미터(322)의 제1 상태에 의해 표시되는 복수의 개별 객체-간-상관 비트스트림 파라미터 값들(324a) 또는 비트스트림 시그날링 파라미터(322)의 제2 상태에 의해 표시되는 공통 객체-간-상관 비트스트림 파라미터 값(322b)을 포함한다.

따라서, 비트스트림(300)은, 개별 객체-간-상관 비트스트림 파라미터 값들의 표현 또는 공통 객체-간-상관 비트스트림 파라미터 값의 표현을 포함하도록 비트스트림(300)의 형식을 맞추는 것에 의해 오디오 객체 신호들(210a 내지 210N)의 관계 특성들로 맞추어 질 수 있다.

그 결과, 강하게 서로 관련되는 약간의 오디오 객체들만이 존재하는 경우를 위해 획득한 양호한 청각 인상의 변화를 유지하면서도, 비트스트림(300)은 소형의 보조 정보를 가지는 오디오 장면들에 대한 효율적인 인코딩의 다른 종류들의 기회를 제공한다.

비트스트림에 관한 추가적인 상세 내용들은 다음에서 논의될 것이다.

4. 도 4에 따른 MPEG SAOC 시스템

다음에서, 단일 IOC 파라미터 계산을 사용한 MPEG SAOC 시스템은 도 4를 참조하여 설명될 것이다.

도 4에 따른 MPEG SAOC 시스템은 SAOC 인코더(410) 및 SAOC 디코더(420)를 포함한다.

SAOC 인코더(410)는, 예를 들어, 복수의 L 오디오 객체 신호들(420a 내지 420N)을 수신하도록 구성된다. SAOC 인코더(410)는 다운믹스 신호 표현(430) 및 보조 정보(432)를 제공하도록 구성되며, 다운믹스 신호 표현(430) 및 보조 정보(432)는 바람직하게 비트스트림에 포함되나, 비트스트림에 포함되지 않을 수도 있다.

SAOC 인코더(410)는, 오디오 객체 신호들(420a 내지 420N)을 수신하고 이를 기초로 하여 다운믹스 신호 표현(430)을 제공하는 SAOC 다운믹스 처리(440)를 포함한다. SAOC 인코더(410)는 또한 파라미터 추출기(444)를 포함하며, 파라미터 추출기(444)는 객체 신호들(420a 내지 420N)을 수신할 수 있고, SAOC 다운믹스 처리(440)(예를 들어, 하나 이상의 다운믹스 파라미터들)에 대한 정보를 선택적으로 또한 수신할 수 있다. 파라미터 추출기(444)는, 복수의 오디오 객체 쌍들에 연관되는 단일 (공통) 객체-간-상관 값을 추정하도록 구성된 단일 객체-간-상관 계산기(448)를 포함한다. 또한, 단일 객체-간-상관 계산기(448)는 단일 객체-간-상관 시그날링(452)을 제공하도록 구성되며, 단일 객체-간-상관 시그날링(452)은 단일 객체-간-상관 값이 객체-쌍-개별(Object-Pair-Individual) 객체-간-상관 값들을 대신하여 사용되는 경우를 나타낸다. 단일 객체-간-상관 계산기(448)는, 예를 들어, 단일 공통 객체-간-상관 값(또는, 또한, 오디오 객체 신호들의 쌍들에 개별적으로 연관되는 복수의 개별 객체-간-상관 파라미터 값들)이 제공되는지를 오디오 객체 신호들(420a 내지 420N)의 분석을 기초로 하여 결정할 수 있다. 그러나, 단일 객체-간-상관 계산기(448)는 또한, 공통 객체-간-상관 값(예를 들어, 비트스트림 파라미터 값) 또는 개별 객체-간-상관 값들(예를 들어, 비트스트림 파라미터 값들)이 계산되어야 하는지를 결정하는 외부의 제어 정보를 수신할 수 있다.

파라미터 추출기(444)는 또한, 예를 들어, 객체-레벨 차이 파라미터들과 같은 오디오 객체 신호들(420a 내지 420N)을 설명하는 복수의 파라미터들을 제공하도록 구성된다. 또한, 바람직하게 파라미터 추출기(444)는, 예를 들어, 다운믹스-이득 파라미터들(DownMix-Gain parameters, DMG)의 세트(Set) 및 다운믹스-채널-레벨-차이 파라미터들(Downmix-Channel-Level-Difference parameters, DCLD)의 세트와 같은 다운믹스를 설명하는 파라미터들을 제공하도록 구성된다.

SAOC 인코더(410)는, 파라미터 추출기(444)에 의해 제공되는 파라미터들을 양자화하는 양자화(456)를 포함한다. 예를 들어, 공통 객체-간-상관 파라미터는 양자화(456)에 의해 양자화될 수 있다. 또한, 객체-레벨-차이 파라미터들, 다운믹스-이득 파라미터들 및 다운믹스-채널-레벨-차이 파라미터들은 양자화(456)에 의해 또한 양자화될 수 있다. 따라서, 양자화된 파라미터들은 양자화(456)에 의해 획득된다.

SAOC 인코더(410)는 또한, 양자화(456)에 의해 제공되는 양자화된 파라미터들을 인코딩하도록 구성된 무잡음 코딩(460)을 포함한다. 예를 들어, 무잡음 코딩(460)은 양자화된 공통 객체-간-상관 파라미터 및 또는 다른 양자화된 파라미터들(예를 들어, OLD, DMG 및 DCLD)을 잡음없이 인코딩할 수 있다.

따라서, SAOC 인코더(410)는, 보조 정보가 (비트스트림 시그날링 파라미터로서 고려될 수 있는) 단일 IOC 시그날링(452) 및 무잡음 코딩(460)에 의해 제공되는 (비트스트림 파라미터 값들로서 고려될 수 있는) 잡음없이 코딩된 파라미터들을 포함하도록 보조 정보(432)를 제공한다.

SAOC 디코더(420)는, SAOC 인코더(410)에 의해 제공되는 보조 정보(432) 및 SAOC 인코더(410)에 의해 제공되는 다운믹스 신호 표현(430)을 수신하도록 구성된다.

SAOC 디코더(420)는, 인코더(410)에서 실행되는 보조 정보(432)의 무잡음 코딩(420)을 전환하도록 구성된 무잡음 디코딩(464)를 포함한다. 또한, SAOC 디코더(420)는 (엄밀히 말하면, 비록 양자화는 완벽한 정확도를 가지고 역으로 되지 않더라도) 역 양자화로서 고려될 수 있는 역양자화(468)를 포함하며, 역양자화(468)는 무잡음 디코딩(464)으로부터 디코딩된 보조 정보(466)를 수신하도록 구성된다. 역양자화(468)는 역양자화된 파라미터들(470), 예를 들어, 역양자화된 파라미터들(470)은, 단일 객체-간-상관 계산기(448)에 의해 제공되는 디코딩되고 역양자화된 공통 객체-간-상관 값 및 또한 디코딩되고 역양자화된 객체-레벨 차이 값들(OLD), 디코딩되고 역양자화된 다운믹스-이득 값들(DMG) 및 디코딩되고 역양자화된 다운믹스-채널-레벨-차이 값들(DCLD))을 제공한다. SAOC 디코더(420)는 또한 단일 객체-간-상관 확장기(474)를 포함하며, 단일 객체-간-상관 확장기(474)는 공통 객체-간-상관 값을 기초로 하여 복수의 관련된 오디오 객체 쌍들에 연관되는 복수의 객체-간-상관 값들을 제공하도록 구성된다. 그러나, 단일 객체-간-상관 확장기(474)는 일부 실시예들에서 무잡음 디코딩(464) 및 역양자화(468) 전에 배열될 수 있음을 주의해야 할 것이다. 예를 들어, 단일 객체-간-상관 확장기(474)는, 다운믹스 신호 표현(430) 및 보조 정보(432) 모두를 포함하는 비트스트림을 수신하는 비트스트림 분석기(Parser)로 통합될 수 있다.

SAOC 디코더(420)는 또한, 다운믹스 신호 표현(430) 및 보조 정보(432)에 (인코딩된 형태로) 포함된 디코딩된 파라미터들을 수신하도록 구성된 SAOC 디코더 처리 및 믹싱(480)을 포함한다. 그러므로, SAOC 디코더 처리 및 믹싱(480)은, 예를 들어, (다른) 오디오 객체들의 모든 쌍을 위한 1 또는 2개의 객체-간-상관 값들을 수신할 수 있으며, 1 또는 2개의 객체-간-상관 값들은 관련 없는 오디오 객체들을 위한 제로일 수 있고, 관련된 오디오 객체들을 위한 제로가 아닐 수 있다. 또한, SAOC 디코더 처리 및 믹싱(480)은 모든 오디오 객체를 위한 객체-레벨 차이 값들을 수신할 수 있다. 또한, SAOC 디코더 처리 및 믹싱(480)은 다운믹스-이득 값들을 수신할 수 있고, SAOC 다운믹스 처리(440)에서 실행되는 다운믹스를 설명하는 다운믹스-채널-레벨-차이 값들을 (선택적으로) 수신할 수 있다. 따라서, SAOC 디코더 처리 및 믹싱(480)은 다운믹스 신호 표현(430), 보조 정보(432) 및 오디오 객체들의 원하는 렌더링을 설명하는 상호 작용 정보(482)에 포함되는 보조 정보 파라미터들에 따라 복수의 채널 신호들(484a 내지 484N)을 제공할 수 있다. 그러나, 채널들(484a 내지 484N)은 개별 오디오 채널 신호들의 형태 또는, 예를 들어, (MPEG 서라운드 다운믹스 신호 및 채널 관련 MPEG 서라운드 보조 정보를 포함하는) MPEG 서라운드 표준에 따른 다중-채널 표현과 같은 파라메트릭 표현의 형태 중 하나로 표현될 수 있음을 주의해야 할 것이다. 다시 말해서, 개별 채널 오디오 신호 표현 및 파라메트릭 다중-채널 오디오 신호 표현 모두는, 본 명세서 내의 업믹스 신호 표현으로서 고려될 수 있다.

다음에서, SAOC 인코더(410) 및 SAOC 디코더(420)의 기능에 관한 일부 상세 내용들이 설명될 것이다.

SAOC 보조 정보가 다음에서 설명될 것이며, SAOC 보조 정보는 SAOC 인코딩 및 SAOC 디코딩에서 중요한 역할을 한다. SAOC 보조 정보는, 그것들의 시간/주파수 변종 공분산 행렬에 의해 입력 객체들(오디오 객체들)을 설명한다. N 객체 신호들(420a 내지 420N)(또한, 때때로 "객체들"로서 간략하게 표시되는)은 행렬의 행들로서 표현될 수 있다.

여기서, 엔트리들 S_i(l)은, 시간 인덱스(l)을 가지는 복수의 시간 부분들을 위한 오디오 객체 인덱스(i)를 가지는 오디오 객체의 스펙트럼 값들을 표시한다. L 샘플들의 신호 블록은, 신호 특징의 설명을 위해 적용되는 시간-주파수 평면의 지각적으로 동기가 부여된 타일링(Tiling)의 부분인 시간 및 주파수 간격에서 신호를 표현한다.

이러한 이유로, 공분산 행렬은

과 함께

로 주어진다.

공분산 행렬은 일반적으로 채널 신호들(484a 내지 484N)을 획득하기 위해 SAOC 디코더 처리 및 믹싱(480)에 의해 사용된다.

대각선 요소들은 OLD 데이터와 함께 SAOC 디코더 측에서 즉시 재구성될 수 있고, 비 대각선 요소들은

로서 객체-간-상관들(Inter-Object-Correlations, IOCs)에 의해 주어진다.

객체-레벨-차이 값들은 S_m 및 S_n 을 설명하는 것을 주의해야 할 것이다.

전체의 공분산 행렬을 운반하는데 필요한 객체-간-상관 값들의 개수는 N*N/2-N/2 이다. 이러한 개수가 커질수록(예를 들어, 다수 N의 객체 신호들을 위한), 높은 비트가 요구되고, (오디오 신호 인코더(200)뿐만 아니라) SAOC 인코더(410)는 서로 "관련이 있는" 것으로 표시되는 객체 쌍들을 위해 오직 선택된 객체-간-상관 값들을 선택적으로 전송할 수 있다. 이러한 선택적 "관련이 있는" 정보는, 예를 들어, 비트스트림의 SAOC 특정 구성 구문 요소에서 정적으로 운반된다. 비트스트림의 SAOC 특정 구성 구문 요소는, 예를 들어, "SAOCSpecificConfig()"으로 표시될 수 있다. 서로 관련되지 않는 객체들은, 예를 들어, 연관성이 없는 것으로 추정될 수 있다. 즉, 그것들의 객체-간-상관은 제로와 동일하다.

그러나, 모든 객체들(또는, 거의 모든 객체들)이 서로 관련되는 어플리케이션 시나리오들이 존재한다. 이러한 어플리케이션 시나리오의 예는, 마이크로폰 셋업(Setup)을 가지는 전화 회의 및 높은 수준의 마이크로폰 간의 크로스톡(Cross talk)을 가지는 실내 음향이다. 이러한 경우들에서, 모든 IOC 값들의 전송은 (상기 언급된 관습적인 방법이 사용되는 경우) 필요할 것이나, 보통 모든 IOC 값들의 전송은 원하는 비트 예산(Budget)을 초과할 것이다. 그 대안으로서, 모든 객체들이 연관되지 않는 추정은 모델에서 큰 에러를 유발할 것이고, 그러므로, 모든 객체들이 연관되지 않는 추정은 렌더링된 장면에 대한 차선의 오디오 품질을 계산할 것이다.

제안된 방법의 근본적인 추정은, 특정 SAOC 어플리케이션 시나리오들을 위해 그들이 위치하는 청각적 환경 및 적용되는 리코딩 기술들에 기인하는 연관된 SAOC 입력 객체들을 야기하는 연관성 없는 음원들이다.

전화 회의 셋업을 고려하면, 예를 들면, 실내 반향(Room Reverberation)의 영향 및 비록 개별 주제들로 이야기하더라도 연관된 SAOC 객체들을 야기하는 각각의 화자들의 불완전한 분리는 연관되지 않는다. 이러한 청각적 상황들 및 결과적인 상관 관계는 단일 주파수 및 시간에 따라 변화하는 값으로 대략 설명될 수 있다.

그러므로, 제안된 방법은 모든 원하는 객체 상관 관계들을 전송하는 높은 비트레이트 요구를 성공적으로 회피한다. 이것은 SAOC 인코더(도 4 참조) 내의 전용의 "단일 IOC 계산기" 모듈(448)에서 단일 시간/주파수에 의존하여 단일 IOC 값을 계산하는 것에 의해 행해진다. "단일 IOC" 특징의 사용은 (예를 들어, 비트스트림 시그날링 파라미터 "bsOneIOC" 를 사용하여) SAOC 정보에서 시그날링된다. 그러면, 시간/주파수 타일(Tile) 당 신호 IOC 값은 (예를 들어, 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여) 모든 분리된 IOC 값들을 대신하여 전송된다.

일반적인 어플리케이션에서, 비트스트림 헤더(Header)(예를 들어, 사전에 공개되지 않은 SAOC 표준 [SAOC]에 따른 "SAOCSpecificConfig()" 요소)는 "단일 IOC" 시그날링 또는 "보통의" IOC 시그날링이 사용되는 경우를 나타내는 1비트를 포함한다. 이러한 이슈에 관한 일부 상세 내용들이 아래에서 논의될 것이다.

그러면, 페이로드 프레임(Payload Frame) 데이터(예를 들어, 사전에 공개되지 않은 SAOC 표준 [SAOC]에서 "SAOCFrame()" 요소)는, "단일 IOCs" 또는 "보통의" 모드에 의존하여 모든 객체들을 위한 IOCs 공통 또는 몇몇의 IOCs를 포함한다.

이런 이유로, 디코더에서 페이로드 데이터를 위한 (SAOC 디코더의 부분일 수 있는) 비트스트림 분석기(Parser)는 (가상 C 코드로 표현되는) 아래 예에 따라 표시될 수 있다.

if(iocMode == SINGLE_IOC)

{

readIocDataFromBitstream(1);

}

else

{

readIocDataFromBitstream (numberOfTransmittedIocs);

}

상기 예에 따르면, 비트스트림 분석기는, (또한, 다음에서 "bsOneIOC"로 표시되는) 플래그 "iocMode" 가 (파라미터 값 "SINGLE_IOC" 에 의해 표시되는) 단일 객체-간-상관 비트스트림 파라미터 값이 오직 존재하는 것을 나타내는지를 확인한다. 비트스트림 분석기는 단일 객체-간-상관 값이 오직 존재하는 것을 발견한 경우, 동작 "readIocDataFromBitstream(1)" 에 의해 표시되는 비트스트림으로부터 단일 객체-간-상관 데이터 유닛(Unit)(즉, 단일 객체-간-상관 비트스트림 파라미터 값)을 판독한다. 반면에, 비트스트림 분석기는, 플래그 "iocMode" 가 단일 (공통) 객체-간-상관 값의 사용을 나타내지 않는 것을 발견한 경우, 기능 "readIocDataFromBitstream(numberOfTransmittedIocs)" 에 의해 표시되는 비트스트림으로부터 다른 개수의 객체-간-상관 데이터 유닛들(즉, 객체-간-상관 비트스트림 파라미터 값들)을 판독한다. 이러한 경우에서 판독한 객체-간-상관 데이터 유닛들의 개수 "numberOfTransmittedIocs" 는 일반적으로, 관련된 오디오 객체들의 쌍들의 개수에 의해 결정된다.

또한, "단일 IOC" 시그날링은, 각 프레임 기초 상에 단일 IOC 모드 및 보통의 IOC 모드 간의 동적인 스위칭을 인에이블(Enable)하도록 페이로드 프레임에서(예를 들어, 사전에 공개되지 않은 SAOC 표준 내의 소위 "SAOCFrame()" 요소에서) 존재할 수 있다.

5. 공통 객체-간-상관 비트스트림 파라미터의 계산의 인코더 측에서 실시예

다음에서, 단일 IOC(IOC_single) 계산을 위한 일부 바람직한 실시들이 설명될 것이다.

5.1. 크로스 -파워 텀(Cross-Power Terms)을 이용한 계산

SAOC 인코더(410)의 바람직한 실시예에서, 공통 객체-간-상관 비트스트림 파라미터 값(IOC_single)은 크로스 파워 텀인

과 함께 다음의 방정식에 따라 계산될 수 있다.

여기서, n 및 k는 SAOC 파라미터를 적용하는 시간 및 주파수 인스탄스(또는, 시간 및 주파수 지수)이다.

다시 말해서, 공통 객체-간-상관 비트스트림 파리미터 값(IOC_single )은, 크로스 파워 텀(nrg_ij)(여기서, 객체 인덱스(i)는 일반적으로 객체 인덱스(j)와 다름)의 합 및 평균 에너지 값들(

)(예를 들어, 평균 에너지 값들은 에너지 값들 nrg_ii 및 nrg_jj 간의 기하 평균을 표현함)의 합 간의 비율에 따라 계산될 수 있다.

합산은, 예를 들어, 다른 오디오 객체들의 모든 쌍들 또는 관련된 오디오 객체들만의 쌍들을 위해 실행될 수 있다.

크로스 파워 텀(nrg_ij)은, 예를 들어, (시간 지수(n)를 가지는) 복수의 시간 인스탄스 및/또는 (주파수 지수(k)를 가지는) 복수의 주파수 인스탄스에 대한 고려하에 오디오 객체들의 쌍의 오디오 객체 신호들에 연관되는 스펙트럼 계수들(S_i ⁿ ^,k, S_j ^n,k)의 (복소 공액으로 존재하는 인자들 중 하나를 가지는) 복소 공액 곱 상의 합으로서 형성될 수 있다.

상기 방정식에 나타난 것과 같이, 비율의 실수부는 실수 값의 공통 객체-간-상관 비트스트림 파라미터 값(IOC_single)을 가지기 위하여 (예를 들어, 동작(Re{})에 의해) 형성될 수 있다.

5.2. 상수 값의 사용

다른 바람직한 실시예에서, 상수 값(C)은 상수인 C를 가지는 'IOC_single = C'에 따라 공통 객체-간-상관 비트스트림 파라미터 값(IOC_single)을 획득하도록 선택될 수 있다.

상수(C)는, 예를 들어, 전화 회의가 개최되는 특정 청각들을 (에코의 양) 가지는 실내의 시간 및 주파수에 무관한 크로스톡을 설명할 수 있다.

상수(C)는, 예를 들어, SAOC 인코더에 의해 실행될 수 있는 실내 청각의 추정에 따라 설정될 수 있다. 또한, 상수(C)는 사용자 인터페이스를 통해 입력될 수 있거나, 또는 SAOC 인코더(410)에서 미리 결정될 수 있다.

6. 모든 객체 쌍들을 위한 객체-간-상관 값들의 디코더 측에서 결정

다음에서, 모든 객체 쌍들을 위한 객체-간-상관 값들이 획득될 수 있는 방법에 대해 설명될 것이다.

디코더 측에서(예를 들어, SAOC 디코더(420)에서), 단일 객체-간-상관 (비트스트림) 파라미터(IOC_single)는 모든 객체 쌍들을 위한 객체-간-상관 값들을 결정하도록 사용된다. 예를 들어, 이것은 "단일 IOC 확장기" 모듈(474, 도 4 참조)에서 실행된다.

바람직한 일 방법으로 단순한 복사 작동을 들 수 있다. 복사는, 예를 들어, SAOC 비트스트림 헤더에서(예를 들어, "SAOCSpecificConfiguration()" 부분에서) 운반되는 "관련된" 정보를 고려하여 또는 고려 없이 적용될 수 있다.

바람직한 실시예에서, "관련된" 정보를 가지지 않는(즉, "관련된" 정보의 전환 또는 고려를 가지지 않는) 복사는 다음의 방식으로 실행될 수 있다.

IOC_mn = IOC_single, 모든 m, n(m≠n)에 대해

그러므로, 다른 오디오 객체들의 쌍들을 위한 모든 객체-간-상관 값들은 공통 객체-간-상관 (비트스트림) 파라미터 값으로 설정된다.

바람직한 다른 실시예에서, "관련된" 정보를 가지는(즉, "관련된" 정보를 고려하는) 복사는, 예를 들어, 다음의 방식으로 실행될 수 있다.

따라서, 객체 관계 정보 "relatedTo(m,n)" 가 오디오 객체들이 서로 관련되는 것을 나타내는 경우, (객체 지수 m 및 n을 가지는) 오디오 객체들의 쌍에 연관되는 1개 또는 심지어 2개의 객체-간-상관 값들은, 예를 들어, 공통 객체-간-상관 비트스트림 파라미터 값에 의해 특정되는 값(IOC_single)으로 설정된다. 그렇지 않으면, 즉, 객체 관계 정보 "relatedTo(m,n)" 가 오디오 객체들의 쌍의 오디오 객체들이 관련되지 않음을 나타내는 경우, 오디오 객체들의 쌍에 연관되는 1개 또는 심지어 2개의 객체-간-상관 값들은 미리 결정된 값(예를 들어, 제로)으로 설정된다.

그러나, 다른 분배 방법들은, 예를 들어, 객체 파워들을 고려하는 것이 가능하다. 예를 들어, 상대적으로 낮은 파워를 가지는 객체들에 관련되는 객체-간-상관 값들은, SAOC 디코더에서 역상관(Decorrelation) 필터의 영향을 최소화하도록 1(완전한 상관 관계)과 같은 높은 값들로 설정될 수 있다.

7. 도 5 및 도 6에 따른 비트스트림 요소들을 사용하는 디코더 개념

다음에서, 도 5 및 도 6에 따라 비트스트림 구문 요소들을 사용하는 오디오 신호 디코더의 디코더 개념이 설명될 것이다. 여기서, 도 5 및 도 6을 참조하여 설명될 것인 비트스트림 구문 및 비트스트림 평가 개념은, 예를 들어, 도 1에 따른 오디오 신호 디코더(100) 및 도 4에 따른 오디오 신호 디코더(420)에서 적용될 수 있음을 주의해야 할 것이다. 또한, 도 2에 따른 오디오 신호 인코더(200) 및 도 4에 따른 오디오 신호 인코더(410)는, 도 5 및 도 6에 대해 논의된 것처럼 비트스트림 구문 요소들을 제공하도록 적응될 수 있음을 주의해야 할 것이다.

따라서, 다운믹스 신호 표현(110) 및 객체-관련 파라메트릭 정보(112) 및/또는 비트스트림 표현(220) 및/또는 비트스트림(300) 및/또는, 다운믹스 정보(430) 및 보조 정보(432)를 포함하는 비트스트림은 다음의 설명에 따라 제공될 수 있다.

상술한 SAOC 인코더들에 의해 제공될 수 있고 상술한 SAOC 디코더들에 의해 평가될 수 있는 SAOC 비트스트림은 SAOC 특정 구성 부분을 포함할 수 있고, 이는 이러한 SAOC 특정 구성 부분 "SAOCSpecificConfig()" 의 구문 표현을 나타내는 도 5를 참조하여 다음에서 설명될 것이다.

SAOC 특정 구성 정보는, 예를 들어, 샘플링 주파수 구성 정보를 포함하며, 샘플링 주파수 구성 정보는 오디오 신호 인코더 및/또는 오디오 신호 디코더에 의해 사용되는 샘플링 주파수를 설명한다. SAOC 특정 구성 정보는 또한 낮은 지연 모드 구성 정보를 포함하며, 낮은 지연 모드 구성 정보는 오디오 신호 인코더에 의해 사용되고 있는 낮은 지연 모드인지 및/또는 오디오 신호 디코더에 의해 사용되어야 하는 낮은 지연 모드인지를 설명한다. SAOC 특정 구성 정보는 또한 주파수 해상도 구성 정보를 포함하며, 주파수 해상도 구성 정보는 오디오 신호 인코더 및/또는 오디오 신호 디코더에 의해 사용되는 주파수 해상도를 설명한다. SAOC 특정 구성 정보는 또한 SAOC 인코더 및/또는 SAOC 디코더에 의해 사용되는 오디오 프레임들의 프레임 길이를 설명하는 프레임 길이 구성 정보를 포함한다. SAOC 특정 구성 정보는 또한 오디오 객체들의 개수를 설명하는 객체 개수 구성 정보를 포함한다. "bsNumObjects"로 또한 표시되는 객체 개수 구성 정보는, 예를 들어, 상기에서 설명되고 있는 값(N)을 설명한다.

SAOC 특정 구성 정보는 또한 객체 관계 구성 정보를 포함한다. 예를 들어, 다른 오디오 객체들의 모든 쌍을 위한 단일 비트스트림일 수 있다. 그러나, 오디오 객체들의 관계는, 예를 들어, 오디오 객체들의 모든 결합을 위한 1 비트 엔트리를 가지는 N×N 정방 행렬에 의해 표시될 수 있다. 객체 자체의 관계를 설명하는 행렬의 엔트리들(즉, 대각선 요소들)은, 객체가 그 차체로 관련되는 것을 나타내는 것으로 설정될 수 있다. 2개의 엔트리들(즉, 제1 인덱스(i) 및 제2 인덱스(j)를 가지는 제1 엔트리, 및 제1 인덱스(j) 및 제2 인덱스(i)를 가지는 제2 엔트리)은 오디오 객체 지수 i 및 j를 가지는 다른 오디오 객체들의 각각의 쌍에 연관될 수 있다. 따라서, 단일 비트스트림 비트는 동일한 값들로 설정되는 객체 관계 행렬에 대한 2개 엔트리들의 값들을 결정한다.

볼 수 있는 것처럼, 제1 오디오 객체 인덱스(i)는 'i = 0'부터 'i = bsNumObjects(루프를 위한 외부)'까지 실행한다. 대각선 엔트리 "bsRelatedTo[i][i]" 는 'i'의 모든 값들을 위한 것으로 설정된다. 제1 오디오 객체 인덱스(i)로, 오디오 객체(i) 및 (오디오 객체 인덱스(j)를 가지는) 오디오 객체들(j) 간의 관계를 설명하는 비트들은, 'j = i + 1' 내지 'j = bsNumObjects'을 위한 비트 스트림에 포함된다. 따라서, 오디오 객체 지수 i 및 j를 가지는 오디오 객체들 간의 관계를 설명하는 관계 행렬 "beRelatedTo[i][j]" 의 엔트리들은 비트 스트림에서 주어진 값으로 설정된다. 또한, 객체 관계 행렬 엔트리 "beRelatedTo[j][i]" 는 같은 값(즉, 행렬 엔트리 "beRelatedTo[i][j]" 의 값)으로 설정된다. 상세 내용들에 대해, 참고 문헌은 도 5의 구문 표현으로 만들어진다.

SAOC 특정 구성 정보는 또한 완전한 에너지 전송 구성 정보를 포함하며, 완전한 에너지 전송 구성 정보는 오디오 인코더가 비트 스트림으로 완전한 에너지 정보를 포함하였는지 및/또는 오디오 디코더가 비트 스트림에 포함된 완전한 에너지 전송 구성 정보를 평가해야 하는지를 설명한다.

SAOC 특정 구성 정보는 또한 다운믹스 채널 개수 구성 정보를 포함하며, 다운믹스 채널 개수 구성 정보는 오디오 인코더 및/또는 오디오 디코더에 의해 사용되는 다운믹스 채널들의 개수를 설명한다. SAOC 특정 구성 정보는 또한 현재 어플리케이션을 위해 관련 없는 추가적 구성 정보를 포함할 수 있고, 추가적 구성 정보는 선택적으로 생략될 수 있다.

SAOC 특정 구성 정보는 (또한, 여기서 "비트스트림 시그날링 파라미터"로서 표시되는) 공통 객체-간-상관 구성 정보를 또한 포함하며, 공통 객체-간-상관 구성 정보는 공통 객체-간-상관 비트스트림 파라미터 값이 SAOC 비트스트림에 포함되는지, 또는 객체-쌍-개별 객체-간-상관 비트스트림 파라미터 값들이 SAOC 비트스트림에 포함되는지를 설명한다. 공통 객체-간-상관 구성 정보는, 예를 들어, "bsOneIOC"로 표시될 수 있고, 1 비트 값일 수 있다.

SAOC 특정 구성 정보는 또한 왜곡 제어 유닛 구성 정보를 포함할 수 있다.

또한, SAOC 특정 구성 정보는 하나 이상의 채워진 비트들을 포함할 수 있으며, 하나 이상의 채워진 비트들은 "ByteAlign()"으로 표시되고 SAOC 특정 구성 정보의 길이들을 조절하도록 사용될 수 있다. 또한, SAOC 특정 구성 정보는, 현재 어플리케이션을 위해 관련이 없고 이러한 이유로 여기서 논의되지 않을 것인 선택적인 추가의 구성 정보 "SAOCExtensionConfig()" 를 포함할 수 있다.

SAOC 특정 구성 정보는 상술한 구성 정보보다 많거나, 또는 적은 정보를 포함할 수 있음을 주의해야 할 것이다. 다시 말하면, 상술한 구성 정보의 일부는 일부 실시예들에서 생략될 수 있고, 추가의 구성 정보는 일부 실시예들에 또한 포함될 수 있다.

그러나, SAOC 특정 구성 정보는, 예를 들어, SAOC 비트스트림 내의 오디오 피스 당 하나에 포함될 수 있다. 그러나, SAOC 특정 구성 정보는 비트스트림 내에 더욱 자주 선택적으로 포함될 수 있다.

그럼에도 불구하고, SAOC 특정 구성 정보는 중요한 비트 부하 오버헤드(Load Overhead)를 제공하기 때문에, SAOC 특정 구성 정보는 일반적으로 복수의 SAOC 프레임들을 위해 제공된다.

다음에서, SAOC 프레임의 구문은, 이러한 SAOC 프레임의 구문 표현을 나타내는 도 6을 참조하여 설명될 것이다. SAOC 프레임은 인코딩된 객체-레벨-차이 값들(Object-Level-Difference values, OLD)을 포함하며, 인코딩된 객체 레벨 차이 값들은 대역-와이즈(Band-Wise) 및 오디오 객체당 포함될 수 있다.

SAOC 프레임은 인코딩된 완전한 에너지 값들(NRG)을 또한 포함하며, 인코딩된 완전한 에너지 값들은 선택적인 것으로 고려될 수 있고 대역-와이즈에 포함될 수 있다.

SAOC 프레임은 또한 인코딩된 객체-간-상관 값들(Inter-Object-Correlation values, IOC)을 포함하며, 인코딩된 객체-간-상관 값들은 대역-와이즈(즉, 복수의 주파수 대역들 및 복수의 오디오 객체 결합들을 위해 분리된)에 제공될 수 있다.

다음에서, 비트스트림이, 비트스트림을 분석하는 비트스트림 분석기에 의해 실행될 수 있는 작동들에 대해 설명될 것이다.

비트스트림 분석기는, 예를 들어, 제1 예비 단계에서 '가변적인 k, iocldx 1, iocldx 2를 제로의 값으로 초기화할 수 있다.

그 뒤에, 비트스트림 분석기는, 'i = 0' 및 'i = bsNumObjects(루프를 위한 외부)' 간의 복수의 제1 오디오 객체 인덱스(i) 값들을 위한 분석을 실행할 수 있다. 비트스트림 분석기는, 예를 들어, 오디오 객체 인덱스(i)를 가지는 오디오 객체 및 완전한 상관 관계를 나타내는 제로 자체 간의 관계를 설명하는 객체-간-상관 인덱스 값(idxIoc[i][i])을 설정할 수 있다.

그 뒤에, 비트스트림 분석기는, 'i + 1' 및 'bsNumObjects' 간의 제2 오디오 객체 인덱스의 값들(j)을 위한 비트스트림을 평가할 수 있다. 오디오 객체 지수 'i' 및 'j' 를 가지는 오디오 객체들이 관련되는 경우, 이는 객체 관계 행렬 엔트리 "bsRelatedTo[i][j]" 의 제로가 아닌 값에 의해 표시되며, 비트스트림 분석기는 알고리즘(610)을 실행하고, 그렇지 않으면, 비트스트림 분석기는 오디오 객체 지수 i 및 5에 대한 j(작동 "idxIOC[i][j] = 5")를 가지는 오디오 객체들에 연관되는 객체-간-상관 인덱스를 설정하며, 이는 제로 상관 관계를 설명한다. 그러므로, 오디오 객체들의 쌍들로, 객체 관계 행렬이 관계없음을 나타내기 위해, 객체-간-상관 값은 제로로 설정된다. 오디오 객체들의 관련된 쌍들을 위해, 그러나, SAOC 특정 구성에 포함되는 비트스트림 시그날링 파라미터 "bsOneIOC" 는 진행하는 방법을 결정하도록 평가된다. 비트스트림 시그날링 파라미터 "bsOneIOC" 가 객체-쌍-개별 객체-간-상관 비트스트림 파라미터 값들이 존재하는 것을 나타내는 경우, (객체-간-관계 비트스트림 파라미터 값들로서 고려될 수 있는) 복수의 객체-간-관계 지수(idxIOC[i][j])는 기능 "EcDataSaoc" 을 사용하여 "numBands" 주파수 대역들을 위한 비트스트림으로부터 추출되며, 여기서 기능은 객체-간-관계 지수를 디코딩하도록 사용될 수 있다.

그러나, 비트스트림 시그날링 파라미터 "bsOneIOC" 가 공통 객체-간-상관 비트스트림 파라미터 값이 복수의 오디오 객체 쌍들을 위해 사용되는 것을 나타내고, id 비트스트림 파라미터 "beRelatedTo[i][j]" 가 오디오 객체 지수 i 및 j를 가지는 오디오 객체들이 관련되는 것을 나타내는 경우, 복수의 객체-간-상관 지수 "idxIOC[i][j]" 의 단일 설정은 복수의 numBands 주파수 대역들을 위한 기능 "EcDataSaoc" 을 사용하여 비트스트림으로부터 판독하며, 여기서 단일 객체-간-상관 인덱스만이 어느 주어진 주파수 대역을 위해 판독된다. 그러나, 알고리즘(610)의 재실행에서, 사전에 판독한 객체-간-상관 인덱스(idxIOC[iocldx1][iocldx2])는 비트스트림의 평가 없이 복사된다. 이것은 가변적인 k의 사용에 의해 보장되며, 가변적인 k는 제로로 초기화되고 객체-간-상관 지수(idxIOC[i][j])의 제1 세트의 평가에 관해 증가된다.

요약하면, 2개 오디오 객체들의 각각의 결합으로, (예를 들어, 값 "bsRelatedTo[i][j]" 이 제로 값인지 아닌지를 확인함에 의해) 이러한 결합의 2개 오디오 객체들이 서로 관련되는 것으로 표시되는지를 첫 번째로 평가받는다. 오디오 객체들의 쌍의 오디오 객체들이 관련되는 경우, 추가적인 처리(610)가 실행된다. 그렇지 않으면, (실질적으로 관련없는) 오디오 객체들의 이러한 쌍에 연관되는 값 "idxIOC[i][j]" 은 미리 결정된 값(예를 들어, 제로 객체-간-상관을 나타내는 미리 결정된 값)으로 설정된다.

처리(610)에서, 시그날링 "bsOneIOC" 이 활동하지 않는 경우에 비트스트림 값은 (관련된 오디오 객체들을 포함하도록 표시되는) 오디오 객체들의 모든 쌍을 위한 비트스트림으로부터 판독된다. 그렇지 않으면, 즉, 시그날링 "bsOneIOC" 이 활동하는 경우, 오직 단일 비트스트림 값이 오디오 객체들의 하나의 쌍을 위해 판독되고, 하나의 쌍에 대한 참고는 판독한 값을 가르키도록 인덱스 값들 'iocIdx1' 및 'iocIdx2' 을 설정하는 것에 의해 유지된다. 시그날링 "bsOneIOC" 이 활동하는 경우에 하나의 판독한 값은 (서로 관련되는 것으로서 표시되는) 오디오 객체들의 다른 쌍들을 위해 재사용된다.

마지막으로, 같은 객체-간-상관 인덱스 값이 2개의 주어진 다른 오디오 객체들의 결합들 모두에 연관되는 것을 또한 보장하며, 2개의 주어진 오디오 객체들의 어떤 것과 관련 없는 것은 제1 오디오 객체이고, 2개의 주어진 오디오 객체들의 어떤 것은 제2 오디오 객체이다.

또한, SAOC 프레임은 일반적으로 오디오 객체당 기준상에 인코딩된 다운믹스 이득 값들(DownMix Gain values, DMG)을 포함하는 것을 주의해야 할 것이다.

또한, SAOC 프레임은 일반적으로 인코딩된 다운믹스-채널-레벨-차이들(Downmix-Channel-Level-Differences, DCLD)을 포함하며, 인코딩된 다운믹스-채널-레벨-차이들은 오디오 객체당 기준상에 선택적으로 포함될 수 있다.

SAOC 프레임은 선택적으로 인코딩된 포스트-처리-다운믹스-이득 값들(Post-Processing-Downmix-Gain values, PDG)을 더 포함하며, 인코딩된 포스트-처리-다운믹스-이득 값들은 대역 와이즈-방식(Band Wise-Manner) 및 다운믹스 채널별 내에 포함될 수 있다.

또한, SAOC 프레임은 인코딩된 왜곡 제어 유닛 파라미터들을 포함할 수 있으며, 인코딩된 왜곡 제어 유닛 파라미터들은 왜곡 제어 측정들의 어플리케이션을 결정한다.

또한, SAOC 프레임은 하나 이상의 채워진 비트들 "ByteAlign()" 을 포함할 수 있다.

또한, SAOC 프레임은 확장 데이터 "SAOCExtensionFrame()" 를 포함할 수 있으며, 그러나, 확장 데이터는 현재 어플리케이션을 위해 관련이 없고 이러한 이유로 상세 설명에서 논의되지 않을 것이다.

이제 도 7을 참조하여, 객체-간-상관 파라미터의 유리한 양자화를 위한 예들이 설명될 것이다.

볼 수 있는 것처럼, 도 7의 테이블 첫 번째 행(710)은 양자화 인덱스(idx)를 설명하며, 양자화 인덱스는 제로 및 7 사이의 범위 내에 존재한다. 이러한 양자화 인덱스는 가변적 "idxIOC[i][j]"로 할당될 수 있다. 도 7의 테이블 두 번째 행(720)은 연관된 객체-간-상관 값을 나타내고, 연관된 객체-간-상관 값은 0.99 및 1 사이의 범위 내에 존재한다. 따라서, 파라미터들 "idxIOC[i][j]" 의 값들은 도 7의 테이블의 매핑을 사용하여 반비례하는 양자화된 객체-간-상관 값들로 매핑될 수 있다.

결론적으로, SAOC 구성 부분 "SAOCSpecificConfig()"은, 바람직하게, 오직 단일 IOC 파라미터가 "bsRelatedTo[i][j] = 1"에 의해 표시되는 서로 관련성을 가지는 모든 객체들에 대해 공통으로 운반되는 경우를 나타내는 비트스트림 파라미터 "beOneIOC" 를 포함한다. 객체-간-상관 값들은 인코딩된 형태 "EcDataSaoc(IOC,k,numBands)" 내의 비트스트림에 포함된다. 배열 "idxIOC[i][j]"은 하나 이상의 인코딩된 객체-간-상관 값들을 기초로 하여 채워진다. 배열 "idxIOC[i][j]" 의 엔트리들은, 반비례하는 양자화된 객체-간-상관 값들을 획득하도록 도 7의 매핑 테이블을 사용하여 반비례하는 양자화된 값들로 매핑된다. IOC_i _, _j 로 표시되는 반비례하는 양자화된 객체-간-상관 값들은 공분산 행렬의 엔트리들을 획득하도록 사용된다. 이러한 목적을 위해, 또한 OLD_i 로 표시되는 반비례하는 양자화된 객체-레벨-차이 파라미터들이 적용된다.

요소들(e_i _,j)을 가지는 크기 N×N의 공분산 행렬(E)은 원래의 신호 공분산 행렬

의 근사치를 표시하고,

로서 OLD 및 IOC 파라미터들로부터 획득된다.

7. 구현 대안들

일부 양태들은 장치의 상황(Context)을 설명하였지만, 이들 양태들은 또한 방법에 대응하는 설명을 표현하는 것이 명백하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 양태들은 방법 단계의 상황을 설명하고 또한 장치에 대응하는 블록 또는 항목 또는 특징에 대응하는 설명을 표현한다. 일부 또는 모든 방법 단계들은, 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는, 사용하여) 실행될 수 있다. 일부 실시예들에서, 일부 하나 이상의 가장 중요한 방법 단계들은 이러한 장치들에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나, 또는 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체 상에서 전송될 수 있다.

특정 구현 요건들에 따라, 발명의 실시예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이들은 전자적으로 판독 가능한 제어 신호를 저장하며, 각각의 방법이 실행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다(또는, 협력할 수 있다). 그러므로, 디지털 저장 매체는 컴퓨터 판독이 가능할 수 있다.

본 발명에 따른 일부 실시예들은, 여기서 설명되는 방법들 중 하나가 실행되도록 프로그램이 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호들을 가지는 데이터 캐리어(Carrier)를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 가지는 컴퓨터 프로그램제품으로서 구현될 수 있으며, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되는 경우에 프로그램 코드는 방법들 중 하나를 실행하기 위해 동작 가능하다. 프로그램 코드는, 예를 들어, 기계 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은 여기서 설명되는 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 기계 판독이 가능한 캐리어 상에 저장된다.

다시 말해서, 그러므로, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본 발명의 방법에 대한 실시예는 여기서 설명되는 방법들 중 하나를 실행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.

그러므로, 본 발명의 방법들에 대한 추가 실시예는, 여기서 설명되는 방법들 중 하나를 실행하기 위한, 데이터 캐리어가 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는, 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 실체적인 것 및/또는 변천하지 않는 것이다.

그러므로, 본 발명의 방법에 대한 추가 실시예는, 여기서 설명되는 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스(Sequence)이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 접속(예를 들어, 인터넷)을 통해 전송되도록 구성될 수 있다.

추가 실시예는 여기서 설명되는 방법들 중 하나를 실행하기 위해 구성되는 또는 적응되는 처리 수단들(예를 들어, 컴퓨터, 또는 프로그램 가능한 논리 디바이스)을 포함한다.

추가 실시예는 여기서 설명되는 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예들에서, 프로그램 가능한 논리 디바이스(예를 들어, 필드 프로그램 가능한 게이트 어레이(Gate Array))는 여기서 설명되는 방법들의 일부 또는 모든 기능들을 실행하도록 사용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능한 게이트 어레이는 여기서 설명되는 방법들 중 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떤 하드웨어 장치들에 의해 실행된다.

상술한 실시예들은 단지 본 발명의 원리들을 위해 예시한 것이다. 여기서 설명되는 배치들 및 상세 내용들의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그러므로, 여기서 실시예들의 서술 및 설명을 통해 제시되는 특정 세부 내용들에 의해 제한되지 않고, 첨부한 특허청구범위의 범위에 의해서만 제한되는 것으로 의도된다.

8. 참고 문헌들

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part Ⅱ: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007

[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.

Claims

렌더링(Rendering) 정보(120; 482)에 따라 그리고, 다운믹스(Downmix) 신호 표현(110; 430) 및 객체-관련 파라메트릭(Object-related parametric) 정보(112; 432)를 기초로 하여 업믹스(Upmix) 신호 표현(130; 484a 내지 484M)을 제공하는 오디오 신호 디코더(Decoder)(100; 420)에 있어서,
복수의 오디오 객체 쌍들을 위한 객체-간-상관(Inter-object-correlation) 값들(142; IOC_ij)을 획득하도록 구성된 객체 파라미터 결정기(140; 464, 468, 474)로서, 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지를 결정하기 위하여 비트스트림 시그날링 파라미터(bsOneIOC)를 평가하도록 구성된, 상기 객체 파라미터 결정기; 및
복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들 및 렌더링 정보를 사용하고 다운믹스 신호 표현을 기초로 하여 업믹스 신호 표현을 획득하도록 구성된 신호 처리기(150; 480)를 포함하는, 오디오 신호 디코더.
청구항 1에 있어서,
상기 객체 파라미터 결정기(140; 464, 468, 474)는, 2개의 오디오 객체들이 서로 관련되는지를 설명하는 객체 관계 정보(bsRelatedTo)를 평가하도록 구성되고,
상기 객체 파라미터 결정기는, 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 객체-관계-정보가 관계를 나타내는 오디오 객체들의 쌍들을 위한 객체-간-상관 값들을 선택적으로 획득하도록 구성되고, 객체-관계-정보가 관계 없음을 나타내는 오디오 객체들의 쌍들을 위한 객체-간-상관 값들을 미리 정의된 값으로 설정하도록 구성된, 오디오 신호 디코더.
청구항 1 또는 2에 있어서, 상기 객체 파라미터 결정기(140; 464, 468, 474)는,
다른 오디오 객체들의 각 결합을 위한 1비트 플래그를 포함하는 객체 관계 정보를 평가하도록 구성되며, 다른 오디오 객체들의 주어진 결합에 연관되는 상기 1비트 플래그는 주어진 결합의 오디오 객체들이 관련되는지 아닌지를 나타내는, 오디오 신호 디코더.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 객체 파라미터 결정기(140; 464, 468, 474)는,
다른 관련된 오디오 객체들의 모든 쌍들을 위한 객체-간-상관 값을, 공통 객체-간-상관 비트스트림 파라미터 값에 의해 정의되는 공통 값, 또는 공통 객체-간-상관 비트스트림 파라미터 값에 의해 정의되는 공통 값으로부터 도출되는 값으로 설정하도록 구성된, 오디오 신호 디코더.
청구항 1 내지 4 중 어느 한 항에 있어서, 상기 객체 파라미터 결정기(140; 464, 468, 474)는,
비트스트림 시그날링 파라미터(bsOneIOC) 및 개별 객체-간-상관 비트스트림 파라미터 값들 또는 공통 객체-간-상관 비트스트림 파라미터 값을 획득하기 위하여, 오디오 컨텐츠의 비트스트림 표현을 분석하도록 구성된 비트스트림 분석기(Parser)를 포함하는, 오디오 신호 디코더.
청구항 1 내지 5 중 어느 한 항에 있어서, 상기 오디오 신호 디코더는,
관련된 오디오 객체들의 쌍에 연관되는 공분산(Covariance) 값(e_i _,j)을 획득하기 위하여, 관련된 오디오 객체들의 쌍에 연관되는 객체-간-상관 값(IOC_i _,j)과, 관련된 오디오 객체들의 쌍의 제1 오디오 객체의 객체 레벨을 설명하는 객체 레벨 차이 값(OLD_i) 및 관련된 오디오 객체들의 쌍의 제2 오디오 객체의 객체 레벨을 설명하는 객체 레벨 차이 값(OLD_j)을 결합하도록 구성된, 오디오 신호 디코더.
청구항 1 내지 6 중 어느 한 항에 있어서,
상기 오디오 신호 디코더는 3개 이상의 오디오 객체들을 처리하도록 구성되고,
상기 객체 파라미터 결정기(140; 464, 468, 474)는 다른 오디오 객체들의 모든 쌍을 위한 객체-간-상관 값을 제공하도록 구성된, 오디오 신호 디코더.
청구항 1 내지 7 중 어느 한 항에 있어서,
상기 객체 파라미터 결정기(140; 464, 468, 474)는, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하도록 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값을 획득할지를 결정하기 위하여, 구성 비트스트림 부분(SAOCSpecificConfig)에 포함되는 비트스트림 시그날링 파라미터를 평가하도록 구성되고,
상기 객체 파라미터 결정기는, 2개의 오디오 객체들이 관련되어 있는지를 결정하도록, 구성 비트스트림 부분에 포함되는 객체 관계 정보(bsRelatedTo[i][j])를 평가하도록 구성되고,
상기 객체 파라미터 결정기는, 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍을 위한 객체-간-상관 값들을 획득하도록 결정된 경우, 오디오 컨텐츠의 모든 프레임을 위한 프레임 데이터 비트스트림 부분(SAOCFrame)에 포함되는 공통 객체-간-상관 비트스트림 파라미터 값을 평가하도록 구성된, 오디오 신호 디코더.
복수의 오디오 객체 신호들(210a 내지 210N, 420a 내지 420N)을 기초로 하여 비트스트림 표현을 제공하는 오디오 신호 인코더에 있어서,
다운믹스 신호의 하나 이상의 채널들에 대한 오디오 객체 신호들의 기여분을 설명하는 다운믹스 파라미터들(DMG, DCLD)에 따라 그리고 오디오 객체 신호들을 기초로 하여 다운믹스 신호(232; 430)를 제공하도록 구성된 다운믹서(Downmixer)(230; 440);
복수의 관련된 오디오 객체 신호 쌍들에 연관되는 공통 객체-간-상관 비트스트림 파라미터 값(242)을 제공하고, 또한 복수의 각 객체-간-상관 비트스트림 파라미터 값들을 대신하여 공통 객체-간-상관 비트스트림 파라미터 값이 제공되는 것을 나타내는 비트스트림 시그날링 파라미터(bsOneIOC; 244; 452)를 제공하도록 구성된 파라미터 제공기(240; 444, 450, 460); 및
다운믹스 신호의 표현, 공통 객체-간-상관 비트스트림 파라미터 값의 표현 및 비트스트림 시그날링 파라미터를 포함하는 비트스트림을 제공하도록 구성된 비트스트림 형식 구성기(250)를 포함하는, 오디오 신호 인코더.
청구항 9에 있어서, 상기 파라미터 제공기는,
크로스 파워 텀(Cross power terms)의 합과 평균 파워 텀의 합 간의 비율에 따라 공통 객체-간-상관 비트스트림 파라미터 값을 제공하도록 구성된, 오디오 신호 인코더.
청구항 10에 있어서,
상기 파라미터 제공기는, 복수의 시간 인스탄스(Instansces) 또는 복수의 주파수 인스탄스 상에서 오디오 객체들의 주어진 쌍의 오디오 객체들에 연관되는 스펙트럼 계수들의 곱(Product)의 합을 평가함으로써 오디오 객체들의 주어진 쌍을 위한 크로스 파워 텀을 계산하도록 구성되고,
상기 파라미터 제공기는, 복수의 시간 인스탄스 또는 복수의 주파수 인스탄스 상에서 제1 오디오 객체의 파워를 표현하는 파워 값, 및 복수의 시간 인스탄스 또는 복수의 주파수 인스탄스 상에서 제2 오디오 객체의 파워를 표현하는 파워 값의 기하 평균을 평가함으로써 오디오 객체들의 주어진 쌍을 위한 평균 파워 텀을 계산하도록 구성된, 오디오 신호 인코더.
청구항 10 또는 11에 있어서, 상기 파라미터 제공기는,

에 따라 공통 객체-간-상관 비트스트림 파라미터 값(IOC_single)을 제공하도록 구성되며,
여기서,
이고,
n 및 k는 SAOC 파라미터 적용을 위한 시간 및 주파수 인스탄스를 설명하고,

는 오디오 객체 인덱스 i를 가지는 오디오 객체의 시간 인스탄스 n 및 주파수 인스탄스 k에 연관되는 스펙트럴(Spectral) 값이며,

는 오디오 객체 인덱스 j를 가지는 오디오 객체의 시간 인스탄스 n 및 주파수 인스탄스 k에 연관되는 스펙트럴 값이며,
N은 오디오 객체들의 전체 개수를 표시하는, 오디오 신호 인코더.
청구항 9에 있어서, 상기 파라미터 제공기는,
공통 객체-간-상관 비트스트림 파라미터 값으로서 미리 결정된 상수 값을 제공하도록 구성된, 오디오 신호 인코더.
청구항 9 내지 13 중 어느 한 항에 있어서, 상기 파라미터 제공기는,
2개의 오디오 객체들이 서로 관련되어 있는지를 설명하는 객체 관계 정보(beRelatedTo)를 또한 제공하도록 구성된, 오디오 신호 인코더.
청구항 14에 있어서, 상기 파라미터 제공기는,
공통 객체-간-상관 비트스트림 파라미터 값의 계산을 위한, 객체 관계 정보가 관계를 나타내는 오디오 객체들의 객체-간-상관을 선택적으로 평가하도록 구성된, 오디오 신호 인코더.
렌더링(Rendering) 정보에 따라 그리고 다운믹스(Downmix) 신호 표현 및 객체 관련 파라메트릭 정보를 기초로 하여 업믹스(Upmix) 신호 표현을 제공하는 방법에 있어서,
복수의 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득하는 단계로서,
비트스트림 시그날링 파라미터는, 개별 객체-간-상관 비트스트림 파라미터 값들을 평가할지, 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지, 또는 공통 객체-간-상관 비트스트림 파라미터 값을 사용하여 복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들을 획득할지를 결정하기 위하여 평가되는, 상기 단계; 및
복수의 관련된 오디오 객체 쌍들을 위한 객체-간-상관 값들 및 렌더링 정보를 사용하고 다운믹스 신호 표현을 기초로 하여 업믹스 신호 표현을 획득하는 단계를 포함하는, 업믹스 신호 표현을 제공하는 방법.
복수의 오디오 객체 신호들을 기초로 하여 비트스트림 표현을 제공하는 방법에 있어서,
다운믹스(Downmix) 신호의 하나 이상의 채널들에 대한 오디오 객체 신호들의 기여분을 설명하는 다운믹스 파라미터들에 따라 그리고 오디오 객체 신호들을 기초로 하여 다운믹스 신호를 제공하는 단계;
복수의 관련된 오디오 객체 신호 쌍들에 연관되는 공통 객체-간-상관 비트스트림 파라미터를 제공하는 단계;
복수의 개별 객체-간-상관 비트스트림 파라미터 값들을 대신하여 공통 객체-간-상관 비트스트림 파라미터 값이 제공되는 것을 나타내는 비트스트림 시그날링 파라미터를 제공하는 단계; 및
다운믹스 신호 표현, 공통 객체-간-상관 비트스트림 파라미터 값의 표현 및 비트스트림 시그날링 파라미터를 포함하는 비트스트림을 제공하는 단계를 포함하는, 비트스트림 표현을 제공하는 방법.
컴퓨터상에서 실행되는 경우, 청구항 16 또는 17에 따른 방법을 실행하는 컴퓨터 프로그램.
다중-채널 오디오 신호를 표현하는 비트스트림에 있어서,
복수의 오디오 객체들의 오디오 신호들을 결합하는 다운믹스(Downmix) 신호의 표현; 및
오디오 객체들의 특성들을 설명하는 객체-관련 파라메트릭 보조 정보를 포함하되,
객체-관련 파라메트릭 보조 정보는, 비트스트림이 개별 객체-간-상관 비트스트림 파라미터 값들 또는 공통 객체-간-상관 비트스트림 파라미터 값을 포함하는지를 나타내는 비트스트림 시그날링 파라미터를 포함하는, 비트스트림.