KR102050455B1

KR102050455B1 - 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법

Info

Publication number: KR102050455B1
Application number: KR1020157003513A
Authority: KR
Inventors: 토르스텐 카스트너; 위르겐 헤레; 조우니 파울루스; 레온 테렌티브; 올리버 헬무트; 하랄드 푹스
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2012-08-10
Filing date: 2013-04-16
Publication date: 2019-12-02
Also published as: US10818301B2; AU2013301831B2; KR101903664B1; KR20150040921A; HK1211734A1; PL2883225T3; ES2638391T3; US20150162012A1; SG11201500878PA; JP2015529850A; CA2881065C; KR20170042809A; BR112015002793B1; AR090703A1; TW201407603A; BR112015002793A2; EP2883225B1; RU2015107578A; PT2883225T; MX351193B

Abstract

디코더가 제공된다. 디코더는 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로서, 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키기 위한 파라미터 디코딩 유닛(110)을 포함하고, 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하며, 파라미터 디코딩 유닛(110)은 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성된다, 게다가, 디코더는 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키기 위한 잔류 처리 유닛(120)을 포함하고, 잔류 처리 유닛(120)은 하나 또는 그 이상의 잔류 신호에 의존하여 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성된다.

Description

파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법{ENCODER, DECODER, SYSTEM AND METHOD EMPLOYING A RESIDUAL CONCEPT FOR PARAMETRIC AUDIO OBJECT CODING}

본 발명은 오디오 신호 인코딩, 디코딩 및 처리에 관한 것으로서, 특히, 파라미터 오디오 오브젝트 코딩(parameter audio object coding)을 위한 잔류 개념을 이용하는, 인코더, 디코더 및 방법에 관한 것이다.

최근에, 오디오 코딩 분야(예를 들면, [BCC], [JSC], [SAOC], [SAOC1] 및 [SAOC2] 참조) 및 정통한 음원 분리(예를 들면, [ISS1], [ISS2], [ISS3], [ISS4], [ISS5] 및 [ISS6] 참조) 분야에서 다중 오디오 오브젝트를 포함하는 오디오 장면들의 비트레이트 효율적인 전송/저장을 위한 파라미터 기술들이 제안되어 왔다. 이러한 기술들은 전송되거나 및/또는 저장된 오디오 장면 및/또는 오디오 장면 내의 오디오 소스 오브젝트들을 기술하는 부가적인 부가정보를 기초로 하여 원하는 출력 오디오 장면 또는 원하는 오디오 소스 오브젝트의 재구성을 목표로 한다.

도 5는 동영상 전문가 그룹(MPEG, Moving Picture Experts Group, 이하 MPEG로 표기) 공간적 오디오 오브젝트 코딩(SAOC, Spatial Audio Object Coding)의 예를 사용하여 그러한 파라미터 시스템들의 원리를 설명하는 공간적 오디오 오브젝트 코딩 시스템 개요를 도시한다(예를 들면, [SAOC], [SAOC1] 및 [SAOC2] 참조).

일반적인 처리는 시간/주파수 선택적 방식으로 수행되고 다음과 같이 설명될 수 있다:

공간적 오디오 오브젝트 코딩 인코더(510), 특히 공간적 오디오 오브젝트 코딩 인코더(510)의 부가정보 추정기(side information estimator, 530)는 최대 32 입력 오디오 오브젝트 신호들(s₁...s₃₂, 가장 간단한 형태에서 오디오 오브젝트 신호들의 오브젝트 파워(object power)의 관계들)의 특징들을 기술하는 부가정보를 추출한다. 공간적 오디오 오브젝트 코딩 인코더(510)의 믹서(mixer, 520)는 다운믹스 이득 인자들(d₁ _.1...d₃₂ _.2)을 사용하여 단일 또는 2-채널 신호 혼합물(즉, 하나 또는 두 개의 다운믹스 신호)을 획득하기 위하여 오디오 오브젝트 신호들(s₁...s₃₂)을 다운믹스한다.

다운믹스 신호(들) 및 부가정보는 전송되거나 또는 저장된다. 이를 위하여, 다운믹스 오디오 신호(들)는 오디오 인코더(540)를 사용하여 인코딩될 수 있다. 오디오 인코더(540)는 종래의 지각적 오디오 인코더(perceptual audio encoder), 예를 들면 MPEG-1 계층 Ⅱ 또는 Ⅲ(aka .mp3) 오디오 인코더, MPEG 고급 오디오 코딩(AAC) 오디오 인코더 등일 수 있다.

수신기 면 상에서, 상응하는 오디오 디코더(550), 예를 들면 MPEG-1 계층 Ⅱ 또는 Ⅲ(aka .mp3) 오디오 디코더, MPEG 고급 오디오 코딩 오디오 디코더 등과 같은, 지각 오디오 디코더(550)가 인코딩된 다운믹스 오디오 신호(들)를 디코딩한다.

공간적 오디오 오브젝트 코딩 디코더(560)는 개념적으로 예를 들면 가상 오브젝트 분리기(570)를 이용함으로써 전송되거나 및/또는 저장된 부가정보를 사용하여 하나 또는 두 개의 다운믹스 신호로부터 원래의 (오디오) 오브젝트 신호들을 복원하려고 시도한다("오브젝트 분리"). 이러한 근사치 (오디오) 오브젝트 신호들(s₁ _, _est...s₃₂ _, _est)은 그리고 나서 공간적 오디오 오브젝트 코딩 디코더(560)의 렌더러(renderer, 580)에 의해 렌더링 매트릭스(계수들(r₁ _,1...r₃₂ _,6)에 의해 설명되는)를 사용하여 최대 6 오디오 출력 채널(y₁ _, _est...y₆ _, _est)에 의해 표현되는 표적 장면(target scene)과 믹싱된다. 출력은 단일-채널, 2-채널 스테레오 또는 5.1 멀티-채널 표적 장면일 수 있다(예를 들면, 1, 2, 또는 6 출력 신호).

디코딩 면에서 오디오 오브젝트들의 파라미터 추정의 근본적인 한계들 때문에, 대부분의 경우에 있어서, 원하는 표적 출력 장면이 완벽하게 발생되지 않는다. 극단의 연산점들(예를 들면, 하나의 오디오 오브젝트의 단독 재생)에서, 때때로, 처리는 적절한 주관적 음향을 더 이상 달성할 수 없다. 이를 위하여, 공간적 오디오 오브젝트 코딩 전략은 향상된 오디오 오브젝트(Enhanced Audio Object, EAO)들을 도입함으로써 확장되었다(예를 들면, [Dfx] 참조, 게다가 예를 들면, [SAOC] 참조). 향상된 오디오 오브젝트들로서 인코딩되는 오디오 오브젝트들은 증가된 부가정보 비율을 희생하여 동일한 다운믹스 신호 내에서 인코딩되는 다른 (정규) 비-향상된 오디오 오브젝트(비-EAO)보다 증가된 분리 능력을 나타낸다. 향상된 오디오 오브젝트 개념은 각각의 향상된 오디오 오브젝트를 위하여 파라미터 모델의 예측 오차(잔류 신호)를 고려한다.

도 6은 각각의 향상된 오디오 오브젝트를 위한 잔류 신호들의 계산을 개략적으로 나타내는, 인코더 면에서의 잔류 추정을 도시한다. 공간적 오디오 오브젝트 코딩 인코더에서, 잔류 신호들(4 향상된 오디오 오브젝트까지)은 추출된 파라미터 부가정보(Parametric Side Information, PSI) 및 원래의 소스 신호를 사용하여 추정되고, 파형은 비-파라미터 잔류 부가정보(RSI)로서 공간적 오디오 오브젝트 코딩 비트스트림 내에 코딩되고 포함된다. 더 상세히 설명하면, 향상된 오디오 오브젝트들(610)을 위한 파라미터 부가정보 공간적 오디오 오브젝트 코딩 디코더는 다운믹스(X)로부터 추정된 오디오 오브젝트 신호들(s_est _, _EAO)을 발생시킨다. 잔류 부가정보 발생 유닛(620)은 그리고 나서 발생된 추정된 오디오 오브젝트 신호들(s_est _, _EAO)을 기초로 하고 원래의 향상된 오디오 오브젝트 오디오 오브젝트 신호들(s₁,...,s₄)을 기초로 하여 4개의 잔류 신호(s_res _, _RSI _,{1,...,4})까지 발생시킨다.

도 7은 공간적 오디오 오브젝트 코딩 디코딩/트랜스코딩 체인(트랜스코딩=하나의 인코딩으로부터 다른 인코딩으로의 데이터 변환)과 통합하는 향상된 오디오 오브젝트 처리 전략의 개념적 개요를 설명하는, 향상된 오디오 오브젝트 지원을 갖는 공간적 오디오 오브젝트 코딩 디코더의 기본 구조를 도시한다.

다운믹스 신호 기원 파라미터들, 즉, 채널 예측 계수(CPC)들은 채널 예측 계수 추정 유닛(710)에 의해 파라미터 부가정보로부터 유도된다.

다운믹스 신호와 함께 채널 예측 계수들은 2-대-N-박스(Two-to-N-box, TTN-box, 720) 내에 제공된다. 2-대-N-박스(720)는 개념적으로 전송된 다운믹스 신호(X)로부터 향상된 오디오 오브젝트들(s_est _, _EAO)을 추정하고 비-향상된 오디오 오브젝트들로만 구성되는 추정된 비-향상된 오디오 오브젝트 다운믹스(X_{est, nonEAO)}를 제공하려고 시도한다.

전송된/저장된(그리고 디코딩된) 잔류 신호들(s_res _, _RSI)은 향상된 오디오 오브젝트들(s_est _, _EAO) 및 비-향상된 오디오 오브젝트 오브젝트들(X_nonEAO)만의 다운믹스의 추정을 향상시키기 위하여 잔류 부가정보 처리 유닛(730)에 의해 사용된다.

종래 기술에 따르면, 그 다음 단계에서, 잔류 부가정보 처리 유닛(730)은 비-향상된 오디오 오브젝트들(s_est _, _nonEAO)을 추정하기 위하여 비-향상된 오디오 오브젝트 다운믹스 신호(X_nonEAO)를 공간적 오디오 오브젝트 코딩 다운믹스 프로세서(파라미터 부가정보 디코딩 유닛, 740) 내로 제공한다. 파라미터 부가정보 디코딩 유닛(740)은 추정된 비-향상된 오디오 오브젝트 오디오 오브젝트들(s_est _, _nonEAO)을 렌더링 유닛(750)으로 넘긴다. 게다가, 잔류 부가정보 처리 유닛(750)은 직접적으로 향상된 오디오 오브젝트들(

)을 렌더링 유닛(750) 내로 제공한다. 렌더링 유닛(750)은 그리고 나서 추정된 비-향상된 오디오 오브젝트 오디오 오브젝트들(s_est _, _nonEAO)을 기초로 하고 향상된 오디오 오브젝트들(

)을 기초로 하여 모노 또는 스테레오 출력 신호들을 발생시킨다.

종래 시스템은 다음의 단점들을 갖는다:

공간적 오디오 오브젝트 코딩 디코더 내의 향상된 오디오 오브젝트들을 계산하기 위하여 잔류 신호들이 적용되기 전에, 다운믹스 기원 채널 예측 계수들이 전송된/저장된 파라미터 부가정보로부터 계산되어야만 한다.

모든 다운믹스 신호는 향상된 오디오 오브젝트 처리를 위한 그것들의 유용성과 상관없이 공간적 오디오 오브젝트 코딩 잔류 개념 내에서 처리되어야만 한다.

공간적 오디오 오브젝트 코딩 전류 개념은 2-대-N-박스의 한계들 때문에 단일 또는 2-채널 신호 혼합물로만 사용될 수 있다. 향상된 오디오 오브젝트 잔류 개념은 멀티-채널 혼합물들(예를 들면, 5.1 멀티-채널 혼합물들)과 조합하여 사용될 수 없다.

게다가, 그것들의 추정의 상응하는 계산 복잡성 때문에, 공간적 오디오 오브젝트 코딩 향상된 오디오 오브젝트 처리는 향상된 오디오 오브젝트들의 수의 제한(즉, 최대 4까지)을 설정한다.

이러한 한계들 때문에, 공간적 오디오 오브젝트 코딩 향상된 오디오 오브젝트 잔류 처리 개념은 멀티-채널(예를 들면, 5.1) 다운믹스 신호들에 적용될 수 없거나 또는 4개 이상의 향상된 오디오 오브젝트를 위하여 사용될 수 없다.

따라서 만일 오디오 신호 인코딩, 오디오 신호 디코딩 및 오디오 신호 처리를 위한 향상된 개념들이 제공될 수 있으면, 매우 바람직할 것이다.

본 발명의 목적은 오디오 신호 인코딩, 오디오 신호 디코딩 및 오디오 신호 처리를 위한 향상된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1항에 따른 디코더, 청구항 11항에 따른 잔류 신호 발생기, 청구항 19항에 따른 인코더, 청구항 21항에 따른 시스템, 청구항 22항에 따른 인코딩된 신호, 청구항 23항에 따른 방법, 청구항 24항에 따른 방법 및 청구항 25항에 따른 컴퓨터 프로그램에 의해 해결된다.

디코더가 제공된다. 디코더는 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키기 위한 파라미터 디코딩 유닛을 포함하고, 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하며, 파라미터 디코딩 유닛은 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 따라 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성된다. 게다가, 디코더는 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키기 위한 잔류 처리 유닛을 포함하고, 잔류 처리 유닛은 하나 또는 그 이상의 잔류 신호에 따라 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성된다.

실시 예는 향상된 오디오 오브젝트들의 지각 품질을 향상시키는 오브젝트 기원 잔류 개념을 나타낸다. 종래 시스템과 달리, 본 발명의 개념은 다운믹스 신호들의 수와 향상된 오디오 오브젝트들의 수에 제한되지 않는다. 오브젝트 관련 잔류 신호들을 유도하기 위한 두 가지 방법이 제시된다. 첫 번째는 높은 계산 복잡도의 희생으로 향상된 오디오 오브젝트들의 수가 증가함에 따라 잔류 신호의 에너지가 반복적으로 감소되는 캐스케이드식 개념(cascaded concept)이고, 두 번째 개념은 모든 잔류가 동시에 추정되는 덜한 계산 복잡도를 갖는다.

게다가, 실시 예들은 디코더 면에서 오브젝트 기원 잔류 신호들을 적용하는 향상된 개념, 및 디코더 면에서 향상된 오디오 오브젝트들만이 조작되거나, 또는 비-향상된 오디오 오브젝트들의 변형이 이득 스케일링(gain scaling)에 한정되는 적용 시나리오들을 위하여 디자인된 감소된 복잡도를 갖는 개념들을 제공한다.

일 실시 예에 따르면, 잔류 처리 유닛은 적어도 세 개의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성될 수 있다. 디코더는 복수의 제 2 추정된 오디오 신호를 기초로 하여 적어도 세 개의 오디오 출력 신호를 발생시키도록 적용된다.

일 실시 예에 따르면, 디코더는 다운믹스 변형 유닛(downmix modification unit)을 더 포함할 수 있다. 잔류 처리 유닛은 복수의 제 2 추정된 오디오 오브젝트 신호 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정할 수 있다. 다운믹스 변형 유닛은 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 다운믹스 신호로부터 결정된 하나 또는 그 이상의 제 2 추정된 오디오 오브젝트 신호를 제거하도록 적용될 수 있다. 파라미터 디코딩 유닛은 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 제 1 추정된 오디오 오브젝트 신호들의 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성될 수 있다.

특정 실시 예에서, 다운믹스 변형 유닛은 예를 들면, 공식(

)을 적용하도록 적응될 수 있다.

게다가, 디코더는 두 가지 또는 그 이상의 반복 단계를 수행하도록 적용될 수 있다. 각각의 반복 단계를 위하여, 파라미터 디코딩 유닛은 복수의 제 1 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용될 수 있다. 게다가, 상기 반복 단계를 위하여, 잔류 처리 유닛은 복수의 제 1 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용될 수 있다. 게다가, 상기 반복 단계를 위하여, 다운믹스 변형 유닛은 세 개 또는 그 이상의 다운믹스 신호를 변형하기 위하여 세 개 또는 그 이상의 다운믹스 신호로부터 복수의 제 2 추정된 오디오 오브젝트 신호의 상기 오디오 오브젝트 신호를 제거하도록 적용될 수 있다. 상기 반복 단계 뒤의 그 다음 반복 단계에서, 파라미터 디코딩 유닛은 변형된 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 복수의 제 1 추정된 오디오 오브젝트 신호 중 정학하게 하나의 오디오 오브젝트 신호를 결정하도록 적용될 수 있다.

일 실시 예에서, 하나 또는 그 이상의 잔류 신호 각각은 복수의 원래 오디오 오브젝트 신호들 중 하나 및 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타낼 수 있다.

일 실시 예에 따르면, 잔류 처리 유닛은 5개 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키도록 적용될 수 있고, 잔류 처리 유닛은 5개 또는 그 이상의 잔류 신호에 의존하여 상기 5개 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성될 수 있다.

또 다른 실시 예에서, 디코더는 복수의 제 2 추정된 오디오 오브젝트 신호를 기초로 하여 7개 또는 그 이상의 오디오 출력 채널을 발생시키도록 구성될 수 있다.

또 다른 실시 예에 따르면, 디코더는 복수의 제 2 추정된 오디오 오브젝트 신호를 결정하기 위하여 채널 예측 계수들을 결정하지 않도록 적용될 수 있다. 실시 예들은 종래 기술의 공간적 오디오 오브젝트 코딩에서 디코딩을 위하여 지금까지 필요했던 채널 예측 계수들의 계산이 디코딩을 위하여 더 이상 필요하지 않도록 하기 위한 개념들을 제공한다.

또 다른 실시 예에서, 디코더는 공간적 오디오 오브젝트 코딩 디코더일 수 있다.

게다가, 잔류 신호 발생기가 제공된다. 잔류 신호 발생기는 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호를 발생시키기 위한 파라미터 디코딩 유닛을 포함하고, 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하며, 파라미터 디코딩 유닛은 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성될 수 있다. 게다가, 잔류 신호 발생기는 복수의 잔류 신호 각각이 복수의 원래 오디오 오브젝트 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호(difference signal)인 것과 같이, 복수의 원래 오디오 오브젝트 신호를 기초로 하고 복수의 추정된 오디오 오브젝트 신호를 기초로 하여 복수의 잔류 신호를 발생시키기 위한 잔류 추정 유닛을 포함한다.

일 실시 예에서, 잔류 추정 유닛은 복수의 원래 오디오 오브젝트 신호 중 5개의 원래 오디오 오브젝트 신호를 기초로 하고 복수의 추정된 오디오 오브젝트 신호 중 적어도 5개의 추정된 오디오 오브젝트 신호를 기초로 하여 적어도 5개의 잔류 신호를 발생시키도록 적용될 수 있다.

일 실시 예에서, 잔류 신호 발생기는 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용되는 다운믹스 변형 유닛을 더 포함할 수 있다. 파라미터 디코딩 유닛은 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성될 수 있다.

일 실시 예에서, 다운믹스 변형 유닛은 예를 들면, 세 개 또는 그 이상의 원래 다운믹스 신호로부터 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상을 제거함으로써, 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 원래 다운믹스 신호를 변형하도록 구성될 수 있다.

또 다른 실시 예에서, 다운믹스 변형 유닛은 예를 들면, 하나 또는 그 이상의 추정된 오디오 오브젝트 신호를 기초로 하고 하나 또는 그 이상의 잔류 신호를 기초로 하여 하나 또는 그 이상의 변형된 오디오 오브젝트를 발생시킴으로써, 그리고 세 개 또는 그 이상의 다운믹스 신호로부터 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 제거함으로써, 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 원래 다운믹스 신호를 변형하도록 구성될 수 있다. 예를 들면, 하나 또는 그 이상의 변형된 오디오 오브젝트 신호 각각은 추정된 오디오 오브젝트 신호 중 하나를 변형함으로써 다운믹스 변형 유닛에 의해 발생될 수 있고, 다운믹스 변형 유닛은 하나 또는 그 이상의 잔류 신호 중 하나에 의존하여 상기 추정된 오디오 오브젝트 신호를 변형하도록 적용될 수 있다.

위에 설명된 두 실시 예 모두에서, 다운믹스 변형 유닛은 예를 들면, 공식(

)을 적용하도록 적응될 수 있는데, 여기서 X는 변형되려는 다운믹스이고, D는 다운믹싱 정보를 나타내며, S_eao는 제거되려는 원래 오디오 오브젝트 신호 또는 변형된 오디오 오브젝트 신호를 포함하며,

는 제거되려는 신호들의 위치들을 나타내며,

는 변형된 다운믹스 신호를 나타낸다. 예를 들면, 오디오 오브젝트 신호의 위치는 모든 오브젝트 목록 내의 그것의 오디오 오브젝트의 위치와 상응한다.

일 실시 예에 따르면, 잔류 신호 발생기는 두 번 또는 그 이상의 반복 단계를 수행하도록 적용될 수 있다. 각각의 반복 단계를 위하여, 파라미터 디코딩 유닛은 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용될 수 있다. 게다가, 상기 반복 단계를 위하여, 잔류 추정 유닛은 복수의 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 변형함으로써 복수의 잔류 신호 중 정확하게 하나의 잔류 신호를 결정하도록 적용될 수 있다. 게다가, 상기 반복 단계를 위하여, 다운믹스 변형 유닛은 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용될 수 있다. 상기 반복 단계 뒤의 그 다음 반복 단계에서, 파라미터 디코딩 유닛은 변형된 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용될 수 있다.

일 실시 예에서, 세 개 또는 그 이상의 다운믹스 신호의 발생에 의해, 파라미터 부가정보의 발생에 의해, 그리고 복수의 잔류 신호의 발생에 의해, 복수의 원래 오디오 오브젝트 신호를 인코딩하기 위한 인코더가 제공된다. 인코더는 복수의 원래 오디오 오브젝트 신호 중 하나의 다운믹스를 나타내는 세 개 또는 그 이상의 다운믹스 신호를 제공하기 위한 다운믹스 발생기를 포함한다. 게다가. 인코더는 파라미터 부가정보를 획득하기 위하여 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보를 발생시키기 위한 파라미터 부가정보 추정기를 포함한다. 게다가, 인코더는 위에 설명된 실시 예들 중 하나에 따른 잔류 신호 발생기를 포함한다. 잔류 신호 발생기의 파라미터 디코딩 유닛은 다운믹스 발생기에 의해 제공되는 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호를 발생시키도록 적용되고, 다운믹스 신호들은 복수의 원래 오디오 오브젝트 신호를 인코딩한다. 파라미터 디코딩 유닛은 파라미터 부가정보 추정기에 의해 발생되는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성된다. 잔류 신호 발생기의 잔류 추정 유닛은 복수의 잔류 신호 각각이 복수의 원래 오디오 오브젝트 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이 신호를 나타내는 것과 같이, 복수의 원래 오디오 오브젝트 신호를 기초로 하고 복수의 추정된 오디오 오브젝트 신호를 기초로 하여 복수의 잔류 신호를 발생시키도록 적용된다.

일 실시 예에서, 인코더는 공간적 오디오 오브젝트 코딩 인코더일 수 있다.

게다가, 시스템이 제공된다. 시스템은 세 개 또는 그 이상의 다운믹스 신호의 발생에 의해, 파라미터 부가정보의 발생에 의해, 그리고 복수의 잔류 신호의 발생에 의해, 복수의 원래 오디오 오브젝트 신호를 인코딩하기 위하여 위에 설명된 실시 예들 중 하나에 따른 인코더를 포함한다. 게다가, 시스템은 위에 설명된 실시 예들 중 하나에 따른 디코더를 포함하고, 디코더는 인코더에 의해 발생되는 세 개 또는 그 이상의 다운믹스 신호를 기초로 하고, 인코더에 의해 발생되는 파라미터 부가정보를 기초로 하며 인코더에 의해 발생되는 복수의 잔류 신호를 기초로 하여 복수의 오디오 출력 채널을 발생시키도록 적용된다.

게다가, 인코딩된 오디오 신호가 제공된다. 인코딩된 오디오 신호는 세 개 또는 그 이상의 다운믹스 신호, 파라미터 부가정보 및 복수의 잔류 신호를 포함한다. 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호들의 다운믹스이다. 파라미터 부가정보는 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터들을 포함한다. 복수의 잔류 신호 각각은 복수의 원래 오디오 오브젝트 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호이다.

게다가 방법이 제공된다. 방법은 다음을 포함한다:

- 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키는 단계는 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하는 단계를 포함하는, 단계, 및

- 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키는 단계는 하나 또는 그 이상의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하는 단계를 포함하는 단계.

게다가, 또 다른 방법이 제공된다. 방법은 다음을 포함한다:

- 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 복수의 추정된 오디오 오브젝트 신호를 발생시키는 단계는 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하는 단계를 포함하는, 단계, 및

- 복수의 잔류 신호 각각이 복수의 원래 오디오 오브젝트 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호인 것과 같이, 복수의 원래 오디오 오브젝트 신호를 기초로 하고 복수의 추정된 오디오 오브젝트 신호를 기초로 하여 복수의 잔류 신호발생시키는 단계.

게다가, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 위에 설명된 방법들 중 하나를 구현하기 위한 컴퓨터 프로그램이 제공된다.

이후에, 도면들을 참조하여 본 발명의 실시 예들이 더 상세히 설명된다.
도 1a는 일 실시 예에 따른 디코더를 도시한다.
도 1b는 렌더러를 더 포함하는, 또 다른 실시 예에 따른 디코더를 도시한다.
도 2a는 일 실시 예에 따른 잔류 신호 발생기를 도시한다.
도 2b는 일 실시 예에 따른 인코더를 도시한다.
도 3은 일 실시 예에 따른 시스템을 도시한다.
도 4는 일 실시 예에 따른 인코딩된 오디오 신호를 도시한다.
도 5는 MPEG 공간적 오디오 오브젝트 코딩의 예를 사용하여 그러한 파라미터 시스템들의 원리를 설명하는 공간적 오디오 오브젝트 코딩 시스템 개요를 도시한다.
도 6은 각각의 향상된 오디오 오브젝트를 위한 잔류 신호들의 계산을 개략적으로 나타내는, 인코더 면에서의 잔류 추정을 도시한다.
도 7은 공간적 오디오 오브젝트 코딩 디코딩/트랜스코딩 유닛과 통합된 향상된 오디오 오브젝트 처리 전략의 개념적 개요를 나타내는, 향상된 오디오 오브젝트 지원을 갖는 공간적 오디오 오브젝트 코딩 디코더의 기본 구조를 도시한다.
도 8은 일 실시 예에 따라 제시되는 파라미터 및 잔류 기반 오디오 오브젝트 코딩 전략의 개념적 개요를 도시한다.
도 9는 일 실시 예에 따라 인코더 면에서 각각의 향상된 오디오 오브젝트 신호를 위한 잔류 신호를 공동으로 추정하기 위한 개념을 도시한다.
도 10은 일 실시 예에 따른 디코딩 면에서의 공동 잔류 디코딩의 개념을 도시한다.
도 11은 다운믹스 변형 유닛을 더 포함하는, 일 실시 예에 따른 잔류 신호 발생기를 도시한다.
도 12는 다운믹스 변형 유닛을 더 포함하는, 일 실시 예에 따른 디코더를 도시한다.
도 13은 일 실시 예에 따라 인코더 면에서 캐스케이스식 방법으로 잔류 성분들을 계산하는 개념을 도시한다.
도 14는 일 실시 예에 따라 디코더 면에서 캐스케이스 잔류 계산과 조합하여 이용되는 캐스케이드식 "잔류 부가정보 디코딩" 유닛을 도시한다.
도 15는 캐스케이드 개념을 이용하는, 일 실시 예에 따른 잔류 신호 발생기를 도시한다.
도 16은 캐스케이드식 개념을 이용하는, 일 실시 예에 따른 디코더를 도시한다.

도 2a는 일 실시 예에 따른 잔류 신호 발생기(200)를 도시한다.

잔류 신호 발생기(200)는 세 개 또는 그 이상의 다운믹스 신호(downmix signal #1, downmix signal #2, downmix signal #3,..., downmix signal #N)를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호(estimated audio object signal #1,..., estimated audio object signal #M)를 발생시키기 위한 파라미터 디코딩 유닛(230)을 포함한다. 세 개 또는 그 이상의 다운믹스 신호(downmix signal #1, downmix signal #2, downmix signal #3,..., downmix signal #N)는 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M)를 인코딩한다. 파라미터 디코딩 유닛(230)은 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M)에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호(downmix signal #1, downmix signal #2, downmix signal #3,..., downmix signal #N)를 업믹싱하도록 구성된다.

게다가, 잔류 신호 발생기(200)는 복수의 잔류 신호(residual signal #1,..., residual signal #M) 각각이 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M) 중 하나 및 복수의 추정된 오디오 오브젝트 신호(estimated audio object signal #1,..., estimated audio object signal #M) 중 하나 사이의 차이를 나타내는 차이 신호인 것과 같이, 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M)를 기초로 하고 복수의 추정된 오디오 오브젝트 신호(estimated audio object signal #1,..., estimated audio object signal #M)를 기초로 하여 복수의 잔류 신호(residual signal #1,..., residual signal #M)를 발생시키기 위한 잔류 추정 유닛(240)을 포함한다.

위에 설명된 실시 예에 따른 인코더는 종래의 공간적 오디오 오브젝트 코딩 제한들([SAOC] 참조)을 극복한다.

제시된 공간적 오디오 오브젝트 코딩 시스템들은 하나 또는 그 이상의 2-대-1-박스 또는 하나 또는 그 이상의 3-대-2-박스를 이용함으로써 다운믹싱을 수행한다. 그 중에서도, 그러한 근본적인 제한들 때문에, 제시된 공간적 오디오 오브젝트 코딩 시스템들은 두 개의 다운믹스 채널/두 개의 다운믹스 신호에 오디오 오브젝트 신호들을 다운믹싱할 수 있다.

두 개 이상의 전송 채널을 이용하는 전송 시스템들 위하여 이제 오디오 오브젝트 코딩이 바람직하도록 공간적 오디오 오브젝트 코딩의 제한들을 극복하도록 허용하는, 잔류 신호 발생기들과 인코더들을 위한 개념들이 제공된다.

일 실시 예에서, 잔류 추정 유닛은 복수의 원래 오디오 오브젝트 신호 중 적어도 5개의 원래 오디오 오브젝트 신호를 기초로 하고 복수의 추정된 오디오 오브젝트 신호 중 적어도 5개의 추정된 오디오 오브젝트 신호를 기초로 하여 적어도 5개의 잔류 신호를 발생시키도록 적용된다.

도 2b는 일 실시 예에 따른 인코더를 도시한다. 도 2b의 인코더는 잔류 신호 발생기(200)를 포함한다.

게다가, 인코더는 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M, 또 다른 오디오 오브젝트 신호(들))의 다운믹스를 나타내는 세 개 또는 그 이상의 다운믹스 신호(downmix signal #1, downmix signal #2, downmix signal #3,..., downmix signal #N)를 제공하기 위한 다운믹스 발생기(210)를 포함한다.

원래 오디오 오브젝트 신호들(original audio object signal #1,..., original audio object signal #M)과 관계없이, 잔류 추정 유닛(240)은 잔류 신호(residual signal #1,..., residual signal #M)를 발생시킨다. 따라서, 원래 오디오 오브젝트 신호들(original audio object signal #1,..., original audio object signal #M)은 향상된 오디오 오브젝트(EOA)들을 언급한다.

그러나, 도 2b에서 알 수 있는 것과 같이, 다운믹싱되나 어떠한 잔류 신호도 발생되지 않을, 또 다른 원래 오디오 오브젝트 신호(들)가 선택적으로 존재할 수 있다. 이러한 또 다른 원래 오디오 오브젝트 신호(들)는 따라서 비-향상된 오디오 오브젝트(Non-EAO)들로서 언급된다.

도 2b의 인코더는 파라미터 부가정보를 획득하기 위하여, 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M, 또 다른 오디오 오브젝트 신호(들))에 대한 정보를 나타내는 파라미터 부가정보를 발생시키기 위한 파라미터 부가정보 추정기(220)를 더 포함한다. 도 2b의 실시 예에서, 파라미터 부가정보 추정기는 또한 비-향상된 오디오 오브젝트들을 언급하는 원래 오디오 오브젝트 신호들(또 다른 오디오 오브젝트 신호(들))을 고려한다.

일 실시 예에서, 원래 오디오 오브젝트 신호들의 수는 예를 들면, 모든 원래 오디오 오브젝트 신호가 향상된 오디오 오브젝트들을 언급할 때 잔류 신호들의 수와 동일할 수 있다.

그러나 다른 실시 예들에서, 잔류 신호들의 수는 원래 오디오 오브젝트 신호들의 수와 다를 수 있거나 및/또는 예를 들면, 원래 오디오 오브젝트 신호가 비-향상된 오디오 오브젝트들을 언급할 때 추정된 오디오 오브젝트 신호들의 수와 다를 수 있다.

일부 실시 예들에서, 인코더는 공간적 오디오 오브젝트 코딩 인코더이다.

도 1a는 일 실시 예에 따른 디코더를 도시한다.

디코더는 세 개 또는 그 이상의 다운믹스 신호(downmix signa #1, downmix signa #2, downmix signa #3,..., downmix signa #N)를 업믹싱함으로써 복수의 제 1 추정된 오디오 오브젝트 신호(1^st estimated audio object signal #1,...,1^st estimated audio object signal #M)를 발생시키기 위한 파라미터 디코딩 유닛(110)을 포함하고, 세 개 또는 그 이상의 다운믹스 신호(downmix signa #1, downmix signa #2, downmix signa #3,..., downmix signa #N)는 복수의 원래 오디오 오브젝트 신호를 인코딩하며, 파라미터 디코딩 유닛(110)은 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 세 개 또는 그 이상의 다운믹스 신호(downmix signa #1, downmix signa #2, downmix signa #3,..., downmix signa #N)를 업믹싱하도록 구성된다.

게다가, 디코더는 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호(1^st estimated audio object signal #1,...,1^st estimated audio object signal #M)를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호(2^nd estimated audio object signal #1,...,2^nd estimated audio object signal #M)를 발생시키기 위한 잔류 처리 유닛(120)을 포함하고, 잔류 처리 유닛(120)은 하나 또는 그 이상의 잔류 신호(residual signal #1,..., residual signal #M)에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호(1^st estimated audio object signal #1,...,1^st estimated audio object signal #M)를 변형하도록 구성된다.

위에 설명된 실시 예에 따른 디코더는 종래의 공간적 오디오 오브젝트 코딩 제한들([SAOC] 참조)을 극복한다.

게다가, 제시된 공간적 오디오 오브젝트 코딩 시스템들은 하나 또는 그 이상의 1-대-2-박스 또는 하나 또는 그 이상의 2-대-3-박스를 이용함으로써 업믹싱을 수행한다. 그 중에서도, 그러한 근본적인 제한들 때문에, 두 개 이상의 다운믹스 신호/다운믹스 채널로 인코딩되는 오디오 오브젝트 신호들은 종래의 공간적 오디오 오브젝트 코딩 디코더들에 의해 업믹싱될 수 없다.

두 개 이상의 전송 채널을 이용하는 전송 시스템을 위하여 오디오 오브젝트 코딩이 이제 바람직하도록 공간적 오디오 오브젝트 코딩의 제한들을 극복하도록 허용하는 디코더들을 위한 개념들이 제공된다.

도 1b는 또 다른 실시 예에 따른 디코더이며, 디코더는 렌더링 정보에 의존하여 제 2 추정된 오디오 오브젝트 신호들(2^nd estimated audio object signal #1,...,2^nd estimated audio object signal #M)로부터 복수의 오디오 출력 채널(audio output channel #1,..., audio output channel #R)을 발생시키기 위한 렌더링 유닛(130)을 더 포함한다. 예를 들면, 렌더링 정보는 렌더링 매트릭스 및/또는 렌더링 매트릭스의 계수들일 수 있으며 렌더링 유닛(130)은 복수의 오디오 출력 채널(audio output channel #1,..., audio output channel #R)을 획득하기 위하여 렌더링 매트릭스를 제 2 추정된 오디오 오브젝트 신호들(2^nd estimated audio object signal #1,...,2^nd estimated audio object signal #M) 상에 적용하도록 구성될 수 있다.

일 실시 예에 따르면, 잔류 처리 유닛(120)은 적어도 세 개의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성된다. 디코더는 복수의 제 2 추정된 오디오 오브젝트 신호를 기초로 하여 적어도 세 개의 오디오 출력 채널을 발생시키도록 적용된다.

또 다른 실시 예에서, 하나 또는 그 이상의 잔류 신호 각각은 복수의 원래 오디오 오브젝트 신호 중 하나 및 하나 또는 그 이상의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타낸다.

일 실시 예에 따르면, 잔류 처리 유닛(120)은 5개 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키도록 적용된다. 잔류 처리 유닛(120)은 5개 또는 그 이상의 잔류 신호에 의존하여 상기 5개 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 적용된다.

또 다른 실시 예에서, 디코더는 복수의 제 2 추정된 오디오 오브젝트 신호를 기초로 하여 7개 또는 그 이상의 오디오 출력 채널을 발생시키도록 구성된다.

또 다른 실시 예에 따르면, 디코더는 복수의 제 2 추정된 오디오 오브젝트 신호를 결정하기 위하여 채널 예측 계수들을 결정하지 않도록 적용된다.

또 다른 실시 예에서, 디코더는 공간적 오디오 오브젝트 코딩 디코더이다.

도 3은 일 실시 예에 따른 시스템을 도시한다. 시스템은 파라미터 부가정보를 발생시키고 복수의 잔류 신호를 발생시킴으로써, 세 개 또는 그 이상의 다운믹스 신호의 발생에 의해 복수의 원래 오디오 오브젝트 신호(original audio object signal #1,..., original audio object signal #M)를 인코딩하기 위한 위에 설명된 실시 예들 중 하나에 따른 인코더(310)를 포함한다. 게다가, 시스템은 위에 설명된 실시 예들 중 하나에 따른 디코더(320)를 포함하는데, 디코더(320)는 인코더(310)에 의해 발생되는 세 개 또는 그 이상의 다운믹스 신호를 기초로 하고, 인코더에 의해 발생되는 파라미터 부가정보를 기초로 하며 인코더(310)에 의해 발생되는 복수의 잔류 신호를 기초로 하여, 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키도록 구성된다.

도 4는 일 실시 예에 따른 인코딩된 오디오 신호를 도시한다. 인코딩된 오디오 신호는 세 개 또는 그 이상의 다운믹스 신호(410), 파라미터 부가정보(420) 및 복수의 잔류 신호(430)를 포함한다. 세 개 또는 그 이상의 다운믹스 신호(410)는 복수의 원래 오디오 오브젝트 신호의 다운믹스이다. 파라미터 부가정보(420)는 복수의 원래 오디오 오브젝트 신호에 대한 부가정보를 나타내는 파라미터들을 포함한다. 복수의 잔류 신호(430) 각각은 복수의 원래 오디오 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호이다.

다음에서, 일 실시 예에 따른 개념 개요가 제공된다.

도 8은 일 실시 예에 따른 오디오 오브젝트 코딩 전략을 기초로 하여 제시되는 파라미터 및 잔류의 개념적 개요를 도시하는데, 코딩 전략은 고급 다운믹스 신호 및 고급 향상된 오디오 오브젝트 지원을 나타낸다.

인코더 면에서, 파라미터 부가정보 추정기("파라미터 부가정보 발생 유닛", 220)는 소스와 다운믹스 관련 특징들을 이용하여 디코더 면에서 오브젝트 신호들을 추정하기 위한 파라미터 부가정보를 계산한다, 잔류 부가정보 발생 유닛(245)은 추정된 오브젝트 신호들과 원래 오브젝트 신호들 사이의 차이를 분석함으로써 향상된 잔류 정보가 되도록 각각의 오브젝트 신호를 계산한다. 잔류 부가정보 발생 유닛(245)은 예를 들면, 파라미터 디코딩 유닛(230) 및 잔류 추정 유닛(240)을 포함할 수 있다.

디코더 면에서, 파라미터 디코딩 유닛("파라미터 부가정보 디코딩" 유닛, 110)은 주어진 파라미터 부가정보로 다운믹스 신호들로부터 오브젝트 신호들을 추정한다. 제 2 단계에서, 잔류 처리 유닛("잔류 부가정보 디코딩" 유닛, 120)은 추정된 오브젝트 신호들의 품질을 향상시키기 위하여 잔류 부가정보를 사용한다. 모든 오브젝트 신호(향상된 오디오 오브젝트 및 비-향상된 오디오 오브젝트)는 예를 들면, 표적 출력 장면을 발생시키도록 렌더링 유닛(130)으로 넘겨질 수 있다.

모든 다운믹스 신호를 고려할 필요는 없다는 것을 이해하여야 한다. 다운믹스 신호들은 만일 오브젝트 신호들의 추정 및/또는 향상에 대한 그것들의 기여가 무시될 수 있으면, 계산으로부터 누락될 수 있다.

이해의 편의를 위하여, 도 8의 처리 단계 및 그 다음의 도면들은 분리된 처리 유닛들로 시각화된다. 실제로, 그것들은 계산 복잡도를 감소시키기 위하여 효율적으로 조합될 수 있다.

다음에서, 공동 잔류 인코딩(joint residual encoding)/디코딩 개념이 제공된다.

도 9는 일 실시 예에 따른 인코더 면에서 각각의 향상된 오디오 오브젝트 신호를 위한 잔류 신호를 공동으로 추정하기 위한 개념을 도시한다.

파라미터 디코딩 유닛("파라미터 부가정보 디코딩" 유닛, 230)은 입력으로서 추정된 파라미터 부가정보 및 다운믹스 신호(들)가 주어질 때 오디오 오브젝트 신호들(추정된 오디오 오브젝트 신호들(S_est _, _PSI _,{1,...,M}))을 생산한다. 추정된 오디오 오브젝트 신호들(S_est _, _PSI _,{1,...,M})은 잔류 추정 유닛("잔류 부가정보 추정" 유닛) 내의 원래 변경되지 않은 소스 신호들(s₁,...,s_M)과 비교된다. 잔류 추정 유닛(240)은 향상되려는 각각의 오디오 오브젝트를 위한 잔류/오차 신호 항(S_res _, _RSI _,{1,...,M})를 제공한다.

도 10은 디코더에서의 공동 잔류 계산과 조합하여 사용되는 "잔류 부가정보 디코딩" 유닛을 도시한다. 특히, 도 10은 일 실시 예에 따라 디코더 면에서의 공동 잔류 디코딩의 개념을 도시한다.

파라미터 디코딩 유닛("파라미터 부가정보 디코딩" 유닛, 110)으로부터의 (제 1) 추정된 오디오 오브젝트 신호들(S_est _, _Psi _,{1,...,M})은 잔류 정보("잔류 부가정보")와 함께 잔류 처리 유닛("잔류 부가정보 디코딩", 120) 내로 제공된다. 잔류 처리 유닛(120)은 잔류 (부가) 정보 및 추정된 오디오 오브젝트 신호들(S_est _, _Psi _,{1,...,M})로부터 제 2 추정된 오디오 오브젝트 신호들(S_est _, _RSI _,{1,...,M}), 예를 들면, 추정된 오디오 오브젝트 신호들과 비-추정된 오디오 오브젝트 신호들을 계산하고, 잔류 처리 유닛(120)의 출력으로서, 제 2 추정된 오디오 오브젝트 신호들(S_est _, _RSI _,{1,...,M}), 예를 들면, 향상된 오디오 오브젝트 신호들과 비-향상된 오디오 오브젝트 신호들을 생산한다.

부가적으로, 비-향상된 오디오 오브젝트들의 재-추정이 수행될 수 있다(도 10에서는 도시되지 않음). 향상된 오디오 오브젝트들은 신호 혼합물로부터 제거되고 나머지 비-향상된 오디오 오브젝트들은 이러한 혼합물로부터 재-추정된다. 이는 모든 오브젝트 신호를 포함하는 신호 혼합물로부터의 추정과 비교하여 이러한 오브젝트들의 향상된 추정을 생산한다. 이러한 재-추정은 만일 표적이 혼합물 내의 향상된 오브젝트 신호들만을 조작하려고 하면 생략될 수 있다.

도 11은 일 실시 예에 따른 잔류 신호 발생기를 도시한다.

도 11에서, 잔류 신호 발생기(200)는 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용되는 다운믹스 변형 유닛(250)을 더 포함한다.

파라미터 디코딩 유닛(230)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성된다.

그리고 나서, 잔류 추정 유닛(240)은 예를 들면, 상기 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 기초로 하여 하나 또는 그 이상의 잔류 신호를 결정할 수 있다.

일 실시 예에서, 다운믹스 변형 유닛(250)은 예를 들면, 세 개 또는 그 이상의 다운믹스 신호로부터 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상을 제거함으로써 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 원래 다운믹스 신호를 변형하도록 구성될 수 있다.

또 다른 실시 예에서, 다운믹스 변형 유닛(250)은 예를 들면, 하나 또는 그 이상의 추정된 오디오 오브젝트 신호를 기초로 하고 하나 또는 그 이상의 잔류 신호를 기초로 하여 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 발생시킴으로써, 그리고 세 개 또는 그 이상의 원래 다운믹스 신호로부터 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 제거함으로써, 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 원래 다운믹스 신호를 변형하도록 구성될 수 있다. 예를 들면, 하나 또는 그 이상의 원래 다운믹스 신호 각각은 하나 또는 그 이상의 추정된 오디오 오브젝트 신호를 변형함으로써 다운믹스 변형 유닛에 의해 발생될 수 있으며, 다운믹스 변형 유닛은 하나 또는 그 이상의 잔류 신호 중 하나에 의존하여 상기 추정된 오디오 오브젝트 신호를 변형하도록 적용될 수 있다.

위에 설명된 실시 예 모두에서, 다운믹스 변형 유닛은 예를 들면, 다음의 공식을 적용하도록 적응될 수 있는데,

여기서

X는 변형되려는 다운믹스이고,

D는 관련 다운믹싱 정보를 나타내며,

S _eao 는 제거되려는 원래 오디오 오브젝트 신들 또는 제거되려는 변형된 오디오 오브젝트 신호들을 포함하며,

는 제거되려는 신호들의 위치를 나타내며,

는 변형된 다운믹스 신호이다.

예를 들면, 오디오 오브젝트 신호의 위치는 모든 오브젝트의 목록 내의 그것의 오디오 오브젝트의 위치와 상응한다.

도 12는 일 실시 예에 따른 디코더를 도시한다.

도 12의 실시 예에서, 디코더는 다운믹스 변형 유닛(140)을 더 포함한다.

잔류 처리 유닛(120)은 복수의 제 2 추정된 오디오 오브젝트 신호 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정한다.

다운믹스 변형 유닛(140)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 세 개 또는 그 이상의 다운믹스 신호로부터 결정된 하나 또는 그 이상의 추정된 오디오 개체 신호를 제거하도록 적용된다.

파라미터 디코딩 유닛(110)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성된다.

잔류 처리 유닛(120)은 그리고 나서 예를 들면, 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 기초로 하여 하나 또는 그 이상의 추가의 제 2 추정된 오디오 오브젝트 신호를 결정할 수 있다.

특정 실시 예에서, 다운믹스 변형 유닛(130)은 예를 들면, 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하도록 세 개 또는 그 이상의 다운믹스 신호로부터 잔류 처리 유닛(120)에 의해 결정된 복수의 제 2 추정된 오디오 오브젝트 신호 중 하나 또는 그 이상의 오디오 오브젝트 신호를 제거하기 위하여 다음의 공식을 적용하도록 적응될 수 있는데,

여기서 X는 변형되기 전의 세 개 또는 그 이상의 다운믹스 신호를 나타내고,

는 세 개 또는 그 이상의 변형된 다운믹스 신호를 나타내며,

D는 다운믹스 매트릭스를 나타내며,

Z _eao 는 향상된 오디오 오브젝트들의 위치들을 나타내는 매핑 서브-매트릭스를 나타낸다(본 실시 예의 특정 변형들에 대한 상세 설명을 위하여, 아래의 설명이 참조된다).

아래에, 캐스케이드식 잔류 인코딩/디코딩 개념이 제공된다.

도 13은 일 실시 예에 따라 인코더 면에서 캐스케이드 방법으로 잔류 성분들을 계산하는 개념을 도시한다. 공동 잔류 계산 개념과 비교하여, 캐스케이드식 접근법은 각각의 반복 단계에서 높은 계산 복잡도를 희생하여 잔류 에너지의 에너지를 감소시킨다. 각각의 단계에서, 향상된 오디오 오브젝트의 원래 오디오 오브젝트 신호들(s_M, 또는 대안의 실시 예에서, 추정된 오디오 오브젝트 신호; 파선 화살표(2461, 2462) 참조) 중 하나는 신호 혼합물(다운믹스)이 그 다음 처리 유닛(2452)으로 넘겨지기 전에 신호 혼합물(다운믹스)로부터 제거된다. 이러한 방법으로 신호 혼합물(다운믹스) 내의 오브젝트 신호들의 수는 각각의 처리 단계에 따라 감소된다. 그 다음 단계에서의 향상된 오디오 오브젝트 신호(제 2 추정된 오디오 오브젝트 신호)의 추정이 이에 의해 향상되고, 따라서 연속적으로 잔류 신호들의 에너지를 감소시킨다.

대안의 실시 예에서, 각각의 반복 단계에서 추정된 오디오 오브젝트 신호는 신호 혼합물로부터 제거되고, 다운믹스 변형 서브유닛들(2501, 2502)은 원래 오디오 오브젝트 신호들(s_M)을 받을 필요가 없다는 것을 이해하여야 한다.

이와는 반대로, 본 실시 예에서, 각각의 반복 단계에서, 원래 오디오 오브젝트 신호는 신호 혼합물로부터 제거되고, 다운믹스 변형 서브유닛들(2501, 2502)은 추정된 오디오 오브젝트 신호들(s_M)을 받을 필요가 없다는 것을 이해하여야 한다.

더 상세히 설명하면, 도 13은 복수의 잔류 부가정보 발생 서브유닛(2451, 2452)을 도시한다. 복수의 잔류 부가정보 발생 서브유닛(2451, 2452)은 함께 잔류 부가정보 발생 유닛을 형성한다.

복수의 잔류 부가정보 발생 서브유닛(2451, 2452) 각각은 파라미터 디코딩 서브유닛(2301)을 포함한다. 복수의 파라미터 디코딩 서브유닛(2301)은 함께 파라미터 디코딩 유닛을 형성한다. 파라미터 디코딩 서브유닛들(2301)은 제 1 추정된 오디오 오브젝트 신호들(S_est _, _Psi _,{1,...,M})을 발생시킨다.

복수의 잔류 부가정보 발생 서브유닛(2451, 2452) 각각은 잔류 추정 서브유닛(2401)을 포함한다. 복수의 잔류 추정 서브유닛(2401)은 함께 잔류 추정 유닛을 형성한다. 잔류 추정 서브유닛들(2401)은 제 2 추정된 오디오 오브젝트 신호들(s_est _, _RSI _,M, S_est _, _RSI _,M-1)을 발생시킨다.

게다가, 도 13은 복수의 다운믹스 변형 서브유닛(2501, 2502)을 도시한다. 각각의 다운믹스 변형 서브유닛들(2501, 2502)은 함께 다운믹스 변형 유닛을 형성한다.

도 14는 일 실시 예에 따른 디코더 면에서 캐스케이드 잔류 계산과 조합하여 사용되는 캐스케이드 "잔류 부가정보 디코딩" 유닛을 도시한다.

각각의 단계에서, 향상되려는 오브젝트 신호들 중 하나는 파라미터 디코딩 서브유닛("파라미터 부가정보 디코딩", 1101)에 의해 추정되고(제 1 추정된 오디오 오브젝트 신호들(s_est _, _PSI _,M)을 획득하기 위하여), 제 1 추정된 오디오 오브젝트 신호들(s_est _, _PSI _,M) 중 하나는 그리고 나서 오브젝트 신호(제 2 추정된 오디오 오브젝트 신호들 중 하나, s_est,RSI,M)의 향상된 버전을 생산하기 위하여, 잔류 처리 서브유닛("잔류 부가정보 처리")에 의해 상응하는 잔류 신호(s_res _, _RSI _,M)와 함께 처리된다. 향상된 오브젝트 신호(s_res _, _RSI _,M)는 변형된 다운믹스 신호들이 그 다음 잔류 디코딩 서브유닛("잔류 디코딩", 1252) 내로 제공되기 전에 다운믹스 변형 서브유닛("다운믹스 변형")에 의해 다운믹스 신호로부터 취소된다.

공동 잔류 인코딩/디코딩 개념과 동일하게, 비-향상된 오디오 오브젝트들이 부가적으로 재-추정될 수 있다.

더 상세히 설명하면, 도 14는 복수의 잔류 디코딩 서브유닛(1251, 1252)을 도시한다. 복수의 잔류 디코딩 서브유닛(1251, 1252)은 잔류 디코딩 유닛을 함께 형성한다.

복수의 잔류 디코딩 서브유닛(1251, 1252) 각각은 파라미터 디코딩 서브유닛(1101)을 포함한다. 복수의 파라미터 디코딩 서브유닛(1101)은 파라미터 디코딩 유닛을 함께 형성한다. 파라미터 디코딩 서브유닛들(1101)은 제 1 추정된 오디오 오브젝트 신호들(s_est _, _PSI _,{1,...,M})을 발생시킨다.

복수의 잔류 디코딩 서브유닛(1251, 1252) 각각은 잔류 처리 서브유닛(1201)을 포함한다. 복수의 잔류 처리 서브유닛(1201)은 잔류 처리 유닛을 함께 형성한다. 잔류 처리 서브유닛들(1201)은 제 2 추정된 오디오 오브젝트 신호들(s_est _, _RSI _,M,s_est,RSI,M-1)을 발생시킨다.

게다가, 도 14는 복수의 다운믹스 변형 서브유닛(1401, 1402)을 도시한다. 각각의 다운믹스 변형 서브유닛들(1401, 1402)은 다운믹스 변형 유닛을 함께 형성한다.

도 15에서, 잔류 신호 발생기는 다운믹스 변형 유닛(250)을 포함한다.

잔류 신호 발생기(200)는 두 가지 또는 그 이상의 반복 단계를 수행하도록 적용된다.

각각의 반복 단계를 위하여, 복수의 디코딩 유닛(230)은 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용된다.

게다가, 상기 반복 단계를 위하여, 잔류 추정 유닛(240)은 복수의 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 변형함으로써 복수의 잔류 신호 중 정확하게 하나의 잔류 신호를 결정하도록 적용된다.

게다가, 상기 반복 단계를 위하여, 다운믹스 변형 유닛(250)은 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용된다.

상기 반복 단계 뒤의 그 다음 반복 단계에서, 파라미터 디코딩 유닛(230)은 변형된 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용된다.

도 16은 캐스케이드식 개념을 사용하는, 일 실시 예에 따른 디코더를 도시한다. 도 16에서, 디코더는 다시 다운믹스 변형 유닛(140)을 포함한다.

도 16의 디코더는 두 가지 또는 그 이상의 반복 단계를 수행하도록 적용된다.

각각의 반복 단계를 위하여, 파라미터 디코딩 유닛(110)은 복수의 제 1 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용된다.

게다가, 상기 반복 단계를 위하여, 잔류 처리 유닛(120)은 복수의 제 1 추정된 오디오 오브젝트 신호 중 상기오디오 오브젝트 신호를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용된다.

게다가, 상기 반복 단계를 위하여, 다운믹스 변형 유닛(140)은 세 개 또는 그 이상의 다운믹스 신호를 변형하기 위하여 세 개 또는 그 이상의 다운믹스 신호로부터 복수의 제 2 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 제거하도록 적용된다.

상기 반복 단계 뒤의 그 다음 반복 단계에서, 파라미터 디코딩 유닛(110)은 변형된 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 복수의 제 1 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용된다.

다음에서, 공동 잔류 인코딩/디코딩 개념의 예에 대한 수학적 도출이 설명된다.

다음의 기호는 아래와 같이 사용된다:

크기:

N _Objects - 오디오 오브젝트 신호들의 수

N _DmxCh - 다운믹스 신호들의 수

N _UpmixCh - 업믹스 신호들의 수

N _samples - 처리된 데이터의 수

N _EAO - 향상된 오디오 오브젝트들의 수

용어:

Z ^* - 별-연산자(^*)는 주어진 매트릭스의 켤레 전치(conjugate transpose)를 나타낸다

S - 인코더에 제공되는 원래 오디오 오브젝트 신호 (크기 N _Objects × N _samples )

D - 다운믹스 매트릭스 (크기 N _DmxCh × N _Objects )

R - 렌더링 매트릭스 (크기 N _UpmixCh × N _Objects )

X - 다운믹스 오디오 신호 X = DS (크기 N _DmxCh × N _samples )

Y - 이상적인 오디오 출력 신호 Y = RS (크기 N _UpmixCh × N _samples )

S _est - S _est = GX로 정의되는

와 근사치의 파라미터로 재구성되는 오브젝트 신호 (크기 N _Objects × N _samples )

- 모든 비-향상된 오디오 오브젝트(파라미터로 추정된) 및 향상된 오디오 오브젝트(파라미터로 + 잔류) 신호 추정을 포함하는 디코더 출력 (크기 N _Objects × N _samples )

-

로서 정의되는

와 근사치인 업믹스 오디오 출력 신호 (크기 N _UpmixCh × N _samples )

Z _nonEao ; Z _eao - 모든 오브젝트의 목록 내의 비-향상된 오디오 오브젝트들 및 향상된 오디오 오브젝트들의 위치를 나타내는 매핑 서브-매트릭스. Z _nonEao Z ^* _eao = [0] (크기 (N _Objects -N _EAO )×N _Objects ; N_EAO×N_Objects)인 것에 유의하여야 한다. 비-향상된 오디오 오브젝트 Z _nonEao 및 상응하는 Z _eao 매핑 매트릭스는 다음과 같이 정의된다:

예를 들면, N _Objects = 5이고 오브젝트 번호가 2와 4가 향상된 오디오 오브젝트들인 것을 위하여, 이러한 매트릭스들을 다음과 같다:

,

.

D _nonEao - D _nonEao = DZ ^* _nonEao로서 정의되는, 비-향상된 오디오 오브젝트들과 상응하는 다운믹스 서브-매트릭스 (크기 N _DmxCh × (N _Objects - N _EAO ))

D _eao - D _eao = DZ ^* _eao로서 정의되는, 향상된 오디오 오브젝트들과 상응하는 다운믹스 서브-매트릭스 (크기 N _DmxCh × N _EAO )

G - 파라미터 소스 추정 매트릭스 (크기 N _Objects × N _DmxCh )

E - 오브젝트 공분산 매트릭스 (크기 N _Objects × N _Objects )

E _nonEao - E _nonEao = Z _nonEao EZ ^* _nonEao로서 정의되는, 비-향상된 오디오 오브젝트들과 상응하는 공분산 서브-매트릭스 (크기 (N _Objects - N _EAO )×(N _Objects - N _EAO ))

S _eao - 향상된 오디오 오브젝트들의 재구성들을 포함하는 향상된 오디오 오브젝트 신호 (크기 N _EAO × N _Samples )

S _nonEao - 비-향상된 오디오 오브젝트들의 재구성들을 포함하는 비-향상된 오디오 오브젝트 신호 (크기 (N _Objects -N _EAO ) × N _samples )

S _res - 향상된 오디오 오브젝트들을 위한 잔류 신호들 (크기 N _EAO × N _Samples )

- 공간적 오디오 오브젝트 코딩 다운믹스 및 재구성되는 향상된 오디오 오브젝트들의 다운믹스 사이의 차이로서 계산되는, 비-향상된 오디오 오브젝트 신호들만을 포함하는 변형된 다운믹스 신호 (크기 N _DmxCh × N _Samples )

소개된 모든 매트릭스는 (일반적으로) 시간 및 주파수 변이이다.

이제, 디코더 면에서 비-향상된 오디오 오브젝트 신호 재-추정을 갖는 일반적인 방법이 고려된다:

일반적인 방법은 우선 상응하는 다운믹스 신호로부터 모든 향상된 오디오 오브젝트 신호를 추출하는 단계, 및 그리고 나서 향상된 오디오 오브젝트들을 고려하여 모든 비-향상된 오디오 오브젝트 신호를 재구성하는 단계를 갖는 2-단계 접근법으로서 설명될 수 있다. 오브젝트 신호들은 파라미터 부가정보(E, D) 및 통합된 잔류 신호(S _res)를 사용하여 다운믹스 신호(X)로부터 복원된다.

최종 렌더링된 출력 신호(

)는 다음과 같이 주어지는 것이 고려된다:

디코더 출력 오브젝트 신호(

)는 다음의 합과 같이 표현될 수 있다:

향상된 오디오 오브젝트 신호(S _eao)는 파라미터 향상된 오디오 오브젝트 재구성 매트릭스(G _eao) 및 상응하는 향상된 오디오 오브젝트 잔류들(S _res)의 희생으로 다운믹스(X)로부터 다음과 같이 계산된다:

S _eao = G _eao X + S _res

비-향상된 오디오 오브젝트 신호(S _nonEao)는 파라미터 비-향상된 오디오 오브젝트 재구성 매트릭스(

)의 희생으로 변형된 다운믹스(

)로부터 다음과 같이 계산된다:

변형된 다운믹스(

) 신호는 다음과 같이 다운믹스(X) 및 재구성된 향상된 오디오 오브젝트들의 상응하는 다운믹스 사이의 차이로서 결정되며, 따라서 다운믹스 신호(X)로부터 향상된 오디오 오브젝트들을 취소한다:

여기서 향상된 오디오 오브젝트들(G _eao) 및 비-향상된 오디오 오브젝트들(

)을 위한 파라미터 오브젝트 재구성 매트릭스들은 파라미터 부가정보(E, D)를 사용하여 다음과 같이 결정된다:

,

다음에서, 디코더 면에서 비-향상된 오디오 오브젝트 신호 재-추정이 없는 단순화된 방법 "A"가 설명된다:

만일 신호 혼합물 내의 향상된 오디오 오브젝트들만이 조작되면, 표적 정면은 다운믹스 신호들과 향상된 오디오 오브젝트 신호들의 선형 조합으로서 해석된다. 비-향상된 오디오 오브젝트 신호들의 부가적인 재-추정은 따라서 생략될 수 있다. 비-향상된 오디오 오브젝트 신호 재-추정을 갖는 일반적인 방법은 단일 단계 과정으로 단순화될 수 있다.

신호(X _dif = f(S _res,D))는 향상된 오디오 오브젝트들의 전송된 잔류 보상 신호 및 다음의 정의가 유지되도록 잔류 보상 항(compensation term)들을 포함한다:

이러한 조건은 향상된 오디오 오브젝트들만을 조작하도록 한정되는, 어떠한 음향 장면을 렌더링하는데 충분하다.

및 DS _est = X와 함께, 항 X _dif를 위한 다음의 제약이 충족되어야만 한다:

DX _dif = 0.

항 X _dif는 인코더에 의해 결정되는(및 전송되는 또는 저장되는) 성분들(S _res) 및 이러한 공식을 사용하여 결정되는 성분들(X _n _onEao)로 구성된다.

다운믹스 매트릭스(D = D _eao Z _eao + D _nonEao Z _nonEao) 및 보상 항(X _dif = Z ^* _eao S _res + Z ^* _nonEao X _noneao)의 정의들을 사용하여 다음의 방정식을 도출할 수 있다:

Z _eao Z ^* _eao = I, Z _nonEao Z ^* _nonEao = I, Z _nonEao Z ^* _eao = [0], Z _eao Z ^* _nonEao = [0]으로, 방정식은 다음과 같이 단순화될 수 있다:

D _eao S _res + D _nonEao X _nonEao = 0

X _nonEao를 위한 선형 방정식의 해결책은 다음과 같다:

선형 방정식들의 이러한 시스템을 해결한 후에 다음과 같이 다음의 파라미터 예측 항과 잔류 향상 항의 합계로서 바람직한 표적 장면이 계산될 수 있다:

,

다음에서, 디코더 면에서 비-향상된 오디오 오브젝트 신호 재-추정이 없는 단순화된 방법 "B"가 제공된다:

파라미터 신호 예측(S _est)을 위한 위(

)와 같은 보상 항(X _dif)이 고려되고 다음과 같이 이르게 하는 잔류 신호들(Sres)의 다음의 함수(

)로서 이를 표현한다:

대안의 공식은 다음을 따르는 것과 같이 다운믹스 신호들(H _dmx X), 향상된 오브젝트들(H _enh Z ^* _eao Z _eao S _enh), 및 비-향상된 오브젝트들(H _est S _est)의 적절한 선형 조합을 포함하는 세 가지 뒤따르는 부분을 포함한다:

매트릭스들은 크기들(H _dmx : N _Objects × N _DmxCh , H _enh : N _Objects × N _Objects , H _enh : N _Objects × N _Samples , H _est : N _Objects × N _Objects )을 갖는다.

DS _est = X이고 S _enh = S _est + Z ^* _eao S _res라고 가정하면, 이는 다음과 같이 쓰여질 수 있다:

이것과 재구성된 신호들의 초기 정의(

)를 비교하면, 이는 다음과 같다:

다음과 같이 항(H _est)을 도출할 수 있다:

비-향상된 신호들의 기여가 최소화될 때 최종 재구성에서의 오차는 최소화될 것이다. 따라서,

을 위한 표적화는 선형 방정식의 시스템으로부터 항(H _est)을 해결하도록 허용한다:

여기서 확장된 다운믹스 매트릭스(D _ext) 및 업믹스 매트릭스(H _ext)는 연결 매트릭스들로서 정의된다:

및

, 및 따라서

선형 방정식들의 이러한 시스템을 해결한 후에,

및

의 최종 출력에 이르게 하는, 다음과 같은 보정 항이 획득될 수 있다:

다음에서, 단순화된 방법 "C"가 고려된다:

만일 임의 방식으로 향상된 오디오 오브젝트들만이 조작되면, 다운믹스 신호들과 향상된 오디오 오브젝트들의 선형 조합에 의해 어떠한 표적 장면이 발생될 수 있다. 다운믹스 대신에, 취소된 향상된 오디오 오브젝트들을 갖는 다운믹스가 또한 사용될 수 있다는 것에 유의하여야 한다. 만일 잔류 처리가 향상된 오디오 오브젝트들을 완벽하게 저장하면, 표적 정면은 완벽하게 발생될 수 있다. 어떠한 표적 장면의 렌더링은 다운믹스 및 향상된 오디오 오브젝트 재구성들을 위한 두 가지 성분 렌더링 매트릭스(R _D 및 R _eao)의 발견을 이용하여 수행될 수 있다. 매트릭스들은 크기들(R _D : N _UpmixCh ×N _DmxCh 및 R _eao : N _UpmixCh ×N _EAO )을 갖는다. 표적 렌더링 매트릭스(R)는 다음과 같이 조합된 렌더링 매트릭스와 다운믹스 매트릭스의 산물로서 표현될 수 있다:

이로부터, R _ext는 다음으로 해결될 수 있고:

서브-매트릭스들(R _D 및 R _eao)은 다음으로의 해결책으로부터 추출될 수 있다:

및

표적 장면은 이제 다음과 같이 계산되며:

여기서 S _eao는 향상된 오디오 오브젝트들의 완전한 재구성들을 포함하고 다음과 같이(앞에서와 같이) 정의된다:

다운믹스로부터 D _eao S _eao를 추출함으로써 믹스로부터 취소된 향상된 오디오 오브젝트들을 갖는 다운믹스를 사용하여 표적을 렌더링하기 위하여 유사한 방정식이 만들어질 수 있다.

다음에서, 공동 잔류 인코딩/디코딩 개념에 대한 또 다른 수학적 도출과 또 다른 상세내용이 설명되고, 일반적인 방법 및 단순화 "A" 사이의 통합이 제공된다.

이후의 설명에서, 다음의 기호가 위에 제공된 기호와 일치하면, 이후의 설명에서, 이러한 구성요소들을 위하여 다음의 기호만이 적용된다.

정의들:

S는 크기(N _Objects ×N _Samples )의 오브젝트 신호들이다.

E= SS ^* 는 크기(N _Objects ×N _Objects )의 오브젝트 공분산 매트릭스이다.

D는 크기(N _DmxCh ×N _Objects )의 다운믹싱 매트릭스이다.

X= DS는 크기(N _DmxCh ×N _Samples )의 다운믹스 신호이다.

G= ED ^* J는 크기(N _Objects ×N _DmxCh )의 업믹싱 매트릭스이다.

M _ren 은 크기(N _UpmixCh ×N _Objects )의 렌더링 매트릭스이다.

X _res 는 크기(N _EAO ×N _Samples )의 잔류 신호들이다.

R _eao 는 다음과 같이 정의되는 향상된 오디오 오브젝트들의 위치들을 나타내는 크기((N _EAO ×N _Objects )의 매트릭스이다:

R _nonEao 는 다음과 같이 정의되는 비-향상된 오디오 오브젝트들의 위치들을 나타내는 크기((N _Objects -N _EAO )×N _Objects )의 매트릭스이다:

비-향상된 오디오 오브젝트들과 상응하는 위의 일부의 서브-매트릭스는 선택 매트릭스들(R _nonEao)들을 희생하여 다음과 같이 지정될 수 있다:

다음에서, 일반적인 방법(디코더에서 비-향상된 오디오 오브젝트 신호 재-추정을 갖는)에 대한 상세한 수학적 설명이 제공된다:

오브젝트 신호들은 부가정보 및 통합된 잔류 신호들을 사용하여 다운믹스로부터 복원된다. 디코더(

)로부터의 출력은 다음과 같이 생산된다:

향상된 오디오 오브젝트들을 갖는 크기(N _EAO )의 향상된 오디오 오브젝트 항(X _eao)은 다음과 같이 계산된다:

여기서 크기(N _EAO )의 잔류 신호 항(X _res)은 향상된 오디오 오브젝트들을 위한 잔류 신호들을 포함한다.

비-향상된 오디오 오브젝트들을 포함하는 크기(N _Objects -N _EAO )의 비-향상된 오디오 오브젝트 항(X _nonEao)은 다음과 같이 계산된다:

여기서 비-향상된 오디오 오브젝트 신호들만을 포함하는 변형된 다운믹스 신호(

)는 공간적 오디오 오브젝트 코딩 다운믹스 및 재구성된 향상된 오디오 오브젝트들의 다운믹스 사이의 차이로서 계산된다:

비-향상된 오디오 오브젝트들과 상응하는 크기((N _Objects -N _EAO )×(N _Objects -N _EAO ))의 공분산 서브-매트릭스(E _nonEao)는 다음과 같이 계산된다:

비-향상된 오디오 오브젝트들과 상응하는 크기(N _DmxCh ×(N _Objects -N _EAO ))의 다운믹스 서브-매트릭스(D _nonEao)는 다음과 같이 계산된다:

다음에서, 단순화된 방법 "A"(디코더에서 비-향상된 오디오 오브젝트 신호 재-추정이 없는)에 대한 또 다른 상세한 수학적 설명이 제공된다:

오브젝트 신호들은 부가정보 및 통합된 잔류 신호들을 사용하여 다운믹스로부터 복구된다. 디코더(

)로부터의 최종 출력은 다음과 같다:

크기(N _Objects )의 항(X _dif)은 다음과 같이 향상된 오디오 오브젝트들을 위한 N _EAO 잔류 신호들(X _res) 및 비-향상된 오디오 오브젝트들을 위한 예측된 항(X _nonEao)과 통합한다:

예측된 항(X _nonEao)은 다음과 같이 추정된다:

향상된 오디오 오브젝트들과 상응하는 다운믹스 서브-매트릭스(D _eao) 및 정규 오브젝트들과 상응하는 D _nonEao는 다음과 같이 정의된다:

다음에서 렌더링 매트릭스 1의 특별한 경우가 고려된다:

향상된 오디오 오브젝트들의 임의 변형 및 비-향상된 오디오 오브젝트들의 균일한 스케일링(다운믹스와 비교하여)을 갖는 크기(N _DmxCh ×N _Objects )의 다운믹스 유사 렌더링 매트릭스(M _D)의 다음의 특별한 경우가 고려된다.

이제, 일반적인 방법의 상세한 수학적 설명이 제공된다:

이제, 단순화된 방법 "A"의 상세한 수학적 설명이 제공된다:

렌더링 매트릭스의 가정이 유지될 때, 두 가지 결과가 동일하다는 것을 알 수 있다.

이제 렌더링 매트릭스 2의 특별한 경우가 고려된다:

크기(

)의 렌더링 매트릭스(M _s)의 구조에 대한 부가적인 제약을 포함하면, 모든 비-향상된 오디오 오브젝트는 다운믹스와 비교하여 단지 공통 스케일링 인자(a)에 의해서만 변형되고, 또한 모든 향상된 오디오 오브젝트는 다운믹스와 비교하여 단지 공통 스케일링 인자(b)에 의해서만 변형된다.

초기 결과들에 이어서 시스템의 출력은 다음과 같을 것이다:

장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것을 이해하여야 한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 블록 또는 아이템 또는 특징의 설명을 나타낸다.

본 발명의 분해된 신호는 디지털 저장 매체 상에서 저장될 수 있거나 또는 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에서 전송될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD< ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 그 안에 기록된, 컴퓨터 프로그램을 포함하는, 데이터 캐리어(또는 데이터 저장 매체, 또는 컴퓨터 판독가능 매체)이다.

따라서, 본 발명의 방법의 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 그 안에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모든 기능을 실행하기 위하여 프로그램가능 논리 장치(예를 들면 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치의 일부분 상에서 실행된다.

위에 설명된 실시 예들은 단지 본 발명의 원리들의 설명을 나타낸다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해하여야 한다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용에 의해서가 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

참고문헌

[BCC] C. Faller and F. Baumgarte, Binaural Cue Coding - Part II: Schemes and applications, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, Parametric Joint-Coding of Audio Sources, 120th AES Convention, Paris,2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UKAES Conference,Cambridge,UK, April 2007.

[SAOC2] J. Engdegrd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, MPEG audio technologies Part 2: Spatial Audio Object Coding (SAOC), ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[ISS1] M. Parvaix and L. Girin: Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding, IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: A watermarking-based method for informed source separation of audio signals with a single sensor, IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: Informed source separation through spectrogram coding and data embedding, Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: Informed source separation: source coding meets source separation, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] Shuhua Zhang and Laurent Girin: An Informed Source Separation System for Speech Signals, INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: Informed Audio Source Separation from Compressed Linear Stereo Mixtures, AES 42nd International Conference: Semantic Audio, 2011.

[Dfx] C. Falch and L. Terentiev and J. Herre: Spatial Audio Object Coding with Enhanced Audio Object Separation, 10th International Conference on Digital Audio Effects, 2010.

110 : 파라미터 디코딩 유닛
120 : 잔류 처리 유닛
130 : 렌더링 유닛
140 : 다운믹스 변형 유닛
210 : 다운믹스 발생기
220 : 파라미터 부가정보 추정기
230 : 파라미터 디코딩 유닛
240 : 잔류 추정 유닛
245 : 잔류 부가정보 발생 유닛
250 : 다운믹스 변형 유닛
310 : 인코더
320 : 디코더
410 : 다운믹스 신호
420 : 파라미터 부가정보
430 : 잔류 신호
510 : 공간적 오디오 오브젝트 코딩 인코더
520 : 믹서
530 : 부가정보 추정기
540 : 오디오 인코더
550 : 오디오 디코더
560 : 공간적 오디오 오브젝트 코딩 인코더
570 : 오브젝트 분리기
580 : 렌더러
610 : 파라미터 부가정보 공간적 오디오 오브젝트 코딩 디코더
620 : 잔류 부가정보 발생 유닛
710 : 채널 예측 계수 추정 유닛
720 : 2-대-N-박스
730 : 잔류 부가정보 처리 유닛
740 : 파라미터 부가정보 디코딩 유닛
750 : 렌더링 유닛
1101 : 파라미터 디코딩 서브유닛
1201 : 잔류 처리 서브유닛
1251, 1252 : 잔류 디코딩 서브유닛
1401, 1402 : 다운믹스 변형 서브유닛
2301 : 파라미터 디코딩 서브유닛
2401 : 잔류 추정 서브유닛
2451, 2452 : 잔류 부가정보 발생 서브유닛
2461, 2462 : 추정된 오디오 오브젝트 신호
2501, 2502 : 다운믹스 변형 서브유닛

Claims

세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써, 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키기 위한 파라미터 디코딩 유닛(110)을 구비하되, 상기 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 상기 파라미터 디코딩 유닛(110)은 상기 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성됨; 및
하나 또는 그 이상의 상기 제 1 추정된 오디오 오브젝트를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키기 위한 잔류 처리 유닛(120)을 구비하되, 상기 잔류 처리 유닛(120)은 하나 또는 그 이상의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성됨;을 포함하며,
상기 파라미터 디코딩 유닛 및 잔류 처리 유닛 중 적어도 하나는 하드웨어 장치 또는 컴퓨터 또는 하드웨어 장치와 컴퓨터의 조합을 이용하여 실행되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서,
상기 잔류 처리 유닛(120)은 적어도 세 개의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하도록 구성되고,
상기 오디오 디코더는 상기 복수의 제 2 추정된 오디오 오브젝트 신호를 기초로 하여 적어도 세 개의 오디오 출력 채널을 발생시키도록 적용되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서,
상기 오디오 디코더는 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 상기 세 개 또는 그 이상의 다운믹스 신호로부터 상기 잔류 처리 유닛(120)에 의해 결정된 상기 복수의 제 2 추정된 오디오 오브젝트 신호 중 하나 또는 그 이상의 오디오 오브젝트 신호를 제거하도록 적용되는 다운믹스 변형 유닛(140)을 더 포함하고,
상기 파라미터 디코딩 유닛(110)은 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 상기 복수의 제 1 추정된 오디오 오브젝트 신호 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성되는 것을 특징으로 하는 오디오 디코더.
제 3항에 있어서,
상기 다운믹스 변형 유닛(140)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 상기 세 개 또는 그 이상의 다운믹스 신호로부터 상기 잔류 처리 유닛(120)에 의해 결정된 상기 복수의 제 2 추정된 오디오 오브젝트 신호 중 상기 하나 또는 그 이상의 오디오 오브젝트 신호를 제거하도록 다음의 공식을 적용하도록 적응될 수 있으며:

,
여기서
X는 변형되기 전의 상기 세 개 또는 그 이상의 다운믹스 신호를 나타내고,

는 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 나타내며,
D는 다운믹스 매트릭스를 나타내며,
Z_eao 는 향상된 오디오 오브젝트들의 위치들을 나타내는 매핑 서브-매트릭스를 나타내는 것을 특징으로 하는 오디오 디코더.
제 3항에 있어서,
성기 오디오 디코더는 두 가지 또는 그 이상의 반복 단계를 수행하도록 적용되고,
각각의 반복 단계를 위하여, 상기 파라미터 디코딩 유닛(110)은 상기 복수의 제 1 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용되며,
각각의 반복 단계를 위하여, 상기 파라미터 디코딩 유닛(110)은 상기 복수의 제 1 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 변형함으로써 상기 복수의 제 2 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용되며,
각각의 반복 단계를 위하여, 상기 다운믹스 변형 유닛(140)은 상기 세 개 또는 그 이상의 다운믹스 신호를 변형하기 위하여 상기 세 개 또는 그 이상의 다운믹스 신호로부터 상기 복수의 제 2 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 제거하도록 적용되며, 및
상기 반복 단계 뒤의 그 다음 반복 단계를 위하여, 상기 파라미터 디코딩 유닛(110)은 변형된 상기 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 상기 복수의 제 1 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서, 상기 하나 또는 그 이상의 잔류 신호 각각은 상기 복수의 원래 오디오 오브젝트 신호 중 하나 및 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서,
상기 잔류 처리 유닛(120)은 5개 또는 그 이상의 상기 제 1 추정된 오디오 오브젝트 신호를 변형함으로써 상기 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키도록 적용되고,
상기 잔류 처리 유닛(120)은 5개 또는 그 이상의 잔류 신호에 의존하여 상기 5개 또는 그 이상의 제 1 처리된 오디오 오브젝트 신호를 변형하도록 구성되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서, 상기 오디오 디코더는 상기 복수의 제 2 추정된 오디오 오브젝트 신호를 기초로 하여 7개 또는 그 이상의 오디오 출력 채널을 발생시키도록 구성되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서, 상기 오디오 디코더는 상기 복수의 제 2 추정된 오디오 오브젝트 신호를 결정하기 위하여 채널 예측 계수들을 결정하지 않도록 적용되는 것을 특징으로 하는 오디오 디코더.
제 1항에 있어서, 상기 오디오 디코더는 공간적 오디오 오브젝트 코딩 디코더인 것을 특징으로 하는 오디오 디코더.
세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로서, 복수의 추정된 오디오 오브젝트 신호를 발생시키기 위한 파라미터 디코딩 유닛(230)을 구비하되, 상기 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 상기 파라미터 디코딩 유닛(230)은 상기 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성됨; 및
복수의 잔류 신호 각각이 상기 복수의 원래 오디오 오브젝트 신호 중 하나 및 상기 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호인 것과 같이, 상기 복수의 원래 오디오 오브젝트 신호를 기초로 하고 상기 복수의 추정된 오디오 오브젝트를 기초로 하여 상기 복수의 잔류 신호를 발생시키기 위한 잔류 추정 유닛(240);를 포함하며,
상기 파라미터 디코딩 유닛 및 잔류 추정 유닛 중 적어도 하나는 하드웨어 장치 또는 컴퓨터 또는 하드웨어 장치와 컴퓨터의 조합을 이용하여 실행되는 것을 특징으로 하는 오디오 인코딩을 위한 잔류 신호 발생기(200).
제 11항에 있어서,
상기 잔류 신호 발생기(200)는 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 상기 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용되는 다운믹스 변형 유닛(250)을 더 포함하고,
상기 파라미터 디코딩 유닛(230)은 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 기초로 하여 상기 제 1 추정된 오디오 오브젝트 신호들 중 하나 또는 그 이상의 오디오 오브젝트 신호를 결정하도록 구성되는 것을 특징으로 하는 잔류 신호 발생기(200).
제 12항에 있어서, 상기 다운믹스 변형 유닛(250)은 상기 세 개 또는 그 이상의 원래 다운믹스 신호로부터 상기 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상을 제거함으로써, 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하기 위하여 상기 세 개 또는 그 이상의 원래 다운믹스 신호를 변형하도록 구성되는 것을 특징으로 하는 잔류 신호 발생기(200).
제 13항에 있어서,
상기 다운믹스 변형 유닛(250)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하도록 상기 세 개 또는 그 이상의 다운믹스 신호로부터 상기 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상을 제거하기 위하여 다음의 공식을 적용하도록 적응될 수 있으며,

여기서 X는 변형되기 전의 상기 세 개 또는 그 이상의 다운믹스 신호를 나타내고,

는 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 나타내며,
D는 다운믹싱 정보를 나타내며,
S _eao 는 상기 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상을 포함하며,
Z ^* _eao는 상기 복수의 원래 오디오 오브젝트 신호 중 하나 또는 그 이상의 위치를 나타내는 것을 특징으로 하는 잔류 신호 발생기(200).
제 12항에 있어서, 상기 다운믹스 변형 유닛(250)은 하나 또는 그 이상의 상기 추정된 오디오 오브젝트 신호를 기초로 하고 하나 또는 그 이상의 상기 잔류 신호를 기초로 하여 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 발생시킴으로써, 그리고 상기 세 개 또는 그 이상의 원래 오디오 오브젝트 신호로부터 상기 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 제거함으로써, 상기 세 개 또는 그 이상의 다운믹스 신호를 획득하기 위하여 상기 세 개 또는 그 이상의 원래 오디오 오브젝트 신호를 변형하도록 구성되는 것을 특징으로 하는 잔류 신호 발생기(200).
제 15항에 있어서,
상기 다운믹스 변형 유닛(250)은 세 개 또는 그 이상의 변형된 다운믹스 신호를 획득하도록 상기 세 개 또는 그 이상의 다운믹스 신호로부터 상기 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 제거하기 위하여 다음의 공식을 적용하도록 적응될 수 있으며,

여기서 X는 변형되기 전의 상기 세 개 또는 그 이상의 다운믹스 신호를 나타내고,

는 상기 세 개 또는 그 이상의 변형된 다운믹스 신호를 나타내며,
D는 다운믹싱 정보를 나타내며,
S _eao 는 상기 하나 또는 그 이상의 변형된 오디오 오브젝트 신호를 포함하며,
Z ^* _eao는 상기 하나 또는 그 이상의 변형된 오디오 오브젝트 신호의 위치를 나타내는 것을 특징으로 하는 잔류 신호 발생기(200).
제 12항에 있어서,
성기 잔류 신호 발생기(200)는 두 가지 또는 그 이상의 반복 단계를 수행하도록 적용되고,
각각의 반복 단계를 위하여, 상기 파라미터 디코딩 유닛(230)은 상기 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용되며,
각각의 반복 단계를 위하여, 상기 잔류 추정 유닛(240)은 상기 복수의 추정된 오디오 오브젝트 신호 중 상기 오디오 오브젝트 신호를 변형함으로써 상기 복수의 잔류 신호 중 정확하게 하나의 잔류 신호를 결정하도록 적용되며,
각각의 반복 단계를 위하여, 상기 다운믹스 변형 유닛(250)은 상기 세 개 또는 그 이상의 다운믹스 신호를 변형하도록 적용되며, 및
상기 반복 단계 뒤의 그 다음 반복 단계를 위하여, 상기 파라미터 디코딩 유닛(230)은 변형된 상기 세 개 또는 그 이상의 다운믹스 신호를 기초로 하여 상기 복수의 추정된 오디오 오브젝트 신호 중 정확하게 하나의 오디오 오브젝트 신호를 결정하도록 적용되는 것을 특징으로 하는 잔류 신호 발생기(200).
제 11항에 있어서, 상기 잔류 추정 유닛(240)은 상기 복수의 원래 오디오 오브젝트 신호 중 적어도 5개의 원래 오디오 오브젝트 신호를 기초로 하고 상기 복수의 추정된 오디오 오브젝트 신호 중 적어도 5개의 추정된 오디오 오브젝트 신호를 기초로 하여 적어도 5개의 잔류 신호를 발생시키도록 적용되는 것을 특징으로 하는 잔류 신호 발생기(200).
세 개 또는 그 이상의 다운믹스 신호를 발생시킴으로써, 파라미터 부가정보를 발생시킴으로써, 그리고 복수의 잔류 신호를 발생시킴으로써 복수의 원래 오디오 오브젝트 신호를 인코딩하기 위한 오디오 인코더에 있어서,
상기 복수의 원래 오디오 오브젝트 신호의 다운믹스를 나타내는 상기 세 개 또는 그 이상의 다운믹스 신호를 발생시키기 위한 다운믹스 발생기(210);
상기 파라미터 부가정보를 획득하기 위하여 상기 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 상기 파라미터 부가정보를 발생시키기 위한 파라미터 부가정보 추정기(220); 및
제 11항 내지 18항 중 어느 한 항에 따른 잔류 신호 발생기(200);를 포함하고,
상기 잔류 신호 발생기(200)의 파라미터 디코딩 유닛(230)은 상기 다운믹스 발생기(210)에 의해 제공되는 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호를 발생시키도록 적용되고, 상기 다운믹스 신호들은 상기 복수의 원래 오디오 오브젝트 신호를 인코딩하며, 상기 파라미터 디코딩 유닛(230)은 상기 파라미터 부가정보 추정기(220)에 의해 발생되는 상기 파라미터 부가정보에 의존하여 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하도록 구성되며, 및
상기 잔류 신호 발생기(200)의 잔류 추정 유닛(240)은 상기 복수의 잔류 신호 각각이 상기 복수의 원래 오디오 오브젝트 신호 중 하나 및 상기 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 것과 같이, 상기 복수의 원래 오디오 오브젝트 신호를 기초로 하고 상기 복수의 추정된 오디오 오브젝트 신호를 기초로 하여 상기 복수의 잔류 신호를 발생시키도록 적용되는 것을 특징으로 하는 오디오 인코더.
제 19항에 있어서, 상기 인코더는 공간적 오디오 오브젝트 코딩 인코더인 것을 특징으로 하는 오디오 인코더.
세 개 또는 그 이상의 다운믹스 신호를 발생시킴으로써, 파라미터 부가정보를 발생시킴으로써, 그리고 복수의 잔류 신호를 발생시킴으로써 복수의 원래 오디오 오브젝트 신호를 인코딩하기 위한 제 19항 또는 20항에 따른 오디오 인코더(310); 및
제 1항 내지 10항 중 어느 한 항에 따른 오디오 디코더(320);를 포함하며,
상기 오디오 디코더(320)는 상기 오디오 인코더(310)에 의해 발생되는 상기 세 개 또는 그 이상의 다운믹스 신호를 기초로 하고, 상기 오디오 인코더(310)에 의해 발생되는 상기 파라미터 부가정보를 기초로 하며, 상기 오디오 인코더(310)에 의해 발생되는 상기 복수의 잔류 신호를 기초로 하여, 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키도록 구성되는 것을 특징으로 하는 시스템.
세 개 또는 그 이상의 다운믹스 신호(410), 파라미터 부가정보(420) 및 복수의 잔류 신호(430)를 포함하는 인코딩된 오디오 신호에 있어서,
상기 세 개 또는 그 이상의 다운믹스 신호(410)는 복수의 원래 오디오 오브젝트 신호의 다운믹스이고,
상기 파라미터 부가정보(420)는 상기 복수의 원래 오디오 오브젝트 신호에 대한 부가정보를 나타내는 파라미터들을 포함하며,
상기 복수의 잔류 신호(430) 각각은 상기 복수의 원래 오디오 오브젝트 신호 중 하나 및 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호인 것을 특징으로 하는 인코딩된 오디오 신호를 저장한 디지털 저장 매체.
오디오 디코딩 방법에 있어서,
세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 상기 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 상기 복수의 제 1 추정된 오디오 오브젝트 신호를 발생시키는 단계는 상기 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하는 단계를 포함함; 및
하나 또는 그 이상의 상기 제 1 추정된 오디오 오브젝트를 변형함으로써 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 상기 복수의 제 2 추정된 오디오 오브젝트 신호를 발생시키는 단계는 하나 또는 그 이상의 잔류 신호에 의존하여 상기 하나 또는 그 이상의 제 1 추정된 오디오 오브젝트 신호를 변형하는 단계를 포함함;을 포함하며,
상기 오디오 디코딩 방법은 하드웨어 장치 또는 컴퓨터 또는 하드웨어 장치와 컴퓨터의 조합을 이용하여 수행되는 것을 특징으로 하는 오디오 디코딩 방법.
오디오 인코딩 방법에 있어서,
세 개 또는 그 이상의 다운믹스 신호를 업믹싱함으로써 복수의 추정된 오디오 오브젝트 신호를 발생시키는 단계를 구비하되, 상기 세 개 또는 그 이상의 다운믹스 신호는 복수의 원래 오디오 오브젝트 신호를 인코딩하고, 상기 복수의 추정된 오디오 오브젝트 신호를 발생시키는 단계는 상기 복수의 원래 오디오 오브젝트 신호에 대한 정보를 나타내는 파라미터 부가정보에 의존하여 상기 세 개 또는 그 이상의 다운믹스 신호를 업믹싱하는 단계를 포함함; 및
복수의 잔류 신호 각각이 상기 복수의 원래 오디오 오브젝트 신호 중 하나 및 상기 복수의 추정된 오디오 오브젝트 신호 중 하나 사이의 차이를 나타내는 차이 신호인 것과 같이, 상기 복수의 원래 오디오 오브젝트 신호를 기초로 하고 상기 복수의 추정된 오디오 오브젝트 신호를 기초로 하여 상기 복수의 잔류 신호를 발생시키는 단계;를 포함하며,
상기 오디오 인코딩 방법은 하드웨어 장치 또는 컴퓨터 또는 하드웨어 장치와 컴퓨터의 조합을 이용하여 수행되는 것을 특징으로 하는 오디오 인코딩 방법.
컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 23항 또는 24항의 방법을 구현하기 위한 컴퓨터 프로그램을 저장한 디지털 저장 매체.