KR101325402B1

KR101325402B1 - 오브젝트 기반 메타데이터를 이용한 오디오 출력 신호를 생성하는 장치 및 방법

Info

Publication number: KR101325402B1
Application number: KR1020127026868A
Authority: KR
Inventors: 스테판 쉬라이너; 볼프강 피에젤; 마티아스 네우싱거; 올리버 헬무트; 랄프 스페르슈나이더
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2008-07-17
Filing date: 2009-07-06
Publication date: 2013-11-04
Also published as: KR20120131210A; AU2009270526A1; JP5467105B2; BRPI0910375A2; CN102100088A; CN102100088B; MX2010012087A; CN103354630A; US8315396B2; US20120308049A1; ES2453074T3; WO2010006719A1; EP2297978B1; CA2725793A1; EP2297978A1; AR094591A2; TWI549527B; TW201010450A; KR101283771B1; EP2146522A1

Abstract

적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 장치는 오디오 입력 신호를 처리하여 상기 오디오 입력 신호의 오브젝트 표시를 제공하기 위한 프로세서를 포함하며, 여기에서 이 오브젝트 표시는 오브젝트 다운믹스 신호를 이용하여 원래의 오브젝트의 파라메트릭적으로 가이드된 근사에 의해 생성될 수 있다. 오브젝트 매니퓰레이터는 개별 오디오 오브젝트에 관한 오디오 오브젝트 기반 메타데이터를 이용하여 오브젝트를 개별적으로 조작하여 조작된 오디오 오브젝트를 획득한다. 조작된 오디오 오브젝트는 특정 렌더링 단계에 따른 하나 또는 여러 개의 채널 신호를 갖는 오디오 출력 신호를 최종적으로 획득하기 위해 오브젝트 믹서를 이용하여 믹스된다.

Description

오브젝트 기반 메타데이터를 이용한 오디오 출력 신호를 생성하는 장치 및 방법{APPARATUS AND METHOD FOR GENERATING AUDIO OUTPUT SIGNALS USING OBJECT BASED METADATA}

본 발명은 오디오 처리에 관한 것으로, 특히 공간 오디오 오브젝트 코딩과 같은 오디오 오브젝트 코딩의 맥락에서의 오디오 처리에 관한 것이다.

텔레비전 같은 현대의 방송 시스템에서, 특정 환경에서는, 사운드 엔지니어가 오디오 트랙을 디자인했기 때문에, 오디오 트랙을 재생하는 것보다는 렌더링(rendering) 시간에 제공되는 어드레스 제약에 대한 특별한 조정을 행하는 것이 바람직하다. 그러한 생산 후 조정을 제어하기 위한 잘 알려진 기술은 그들 오디오 트랙과 함께 적절한 메타데이터를 제공하는 것이다.

통상적인 사운드 재생 시스템 예컨대, 오래된 홈 텔레비전 시스템은 하나의 라우드스피커 또는 스테레오 쌍의 라우드스피커로 이루어진다. 더욱 복잡한 멀티채널 재생 시스템은 5개 또는 더 많은 라우드스피커를 사용한다.

멀티채널 재생 시스템이 고려되면, 사운드 엔지니어는 단일 소스를 2차원 평면에 위치시킬 때 더더욱 유연하게 될 수 있으며, 그에 따라 잘 알려진 칵테일 파티 효과(cocktail party effect)로 인해 음성 명료도(voice intelligibility)가 크게 나아지기 때문에, 그 전체 오디오 트랙에 대해 더 높은 다이나믹 범위를 사용할 수도 있다.

그러나, 그들 실제의 높은 다이나믹한 사운드는 통상적인 재생 시스템에 문제를 일으킬 수도 있다. 소비자가 이 높은 다이나믹 신호를 원하지 않을 수도 있는 시나리오가 존재할 수 있는데, 그 이유는 그녀 또는 그가 노이즈가 많은 환경에서 (예컨대, 차량 운전 중에 또는 기내 또는 휴대용 엔터테인먼트 시스템을 이용하여) 컨텐츠를 듣고 있기 때문에, 그녀 또는 그가 보청기를 착용하고 있거나, 그녀 또는 그가 그녀 또는 그의 이웃을 방해하기를 원하지 않기 때문이다.

또한, 방송사는, 하나의 프로그램 내의 상이한 아이템들(예컨대, 광고들)은 연속적인 아이템의 레벨 조정을 필요로 하는 상이한 파고율(crest factor)로 인해 상이한 음량 레벨에 있을 수 있다는 문제에 직면한다.

고전적인 방송 송신 체인에서, 최종 사용자는 이미 혼합된 오디오 트랙을 수신한다. 수신기 측 상의 어떤 추가의 조작이 매우 제한된 형태로만 행해질 수도 있다. 현재 돌비(Dolby) 메타데이터의 작은 특징 세트로 인해 사용자가 오디오 신호의 몇몇 특성을 변경할 수 있다.

일반적으로, 오디오 신호에 통상적으로 첨부되는 메타데이터는 주파수 선택 구별하기에 충분한 정보를 제공하지 않기 때문에, 상술한 메타데이터에 기초하는 매니퓰레이터(manipulator)는 어떠한 주파수 선택 구별 없이 적용된다.

또한, 전체 오디오 스트림 자체만이 조작될 수 있다. 또, 이 오디오 스트림 내부의 각 오디오 오브젝트를 채택하여 분리하는 방법이 존재하지 않는다. 특히 부적절한 청취 환경에서, 이것은 불만족스러울 수도 있다.

심야 모드에서, 현재의 오디오 프로세서가 가이드하는 정보의 손실로 인해 주변 노이즈와 다이얼로그 간을 구별하는 것은 불가능하다. 따라서, (압축되어야 하거나/음량이 제한되어야 하는) 고레벨 노이즈의 경우에, 또한 다이얼로그가 병렬로 조작될 것이다. 이것은 음성 명료도에 해로울 수도 있다.

주변 사운드에 비해 다이얼로그 레벨을 증가시키는 것은 특히 장애자들이 듣기 위한 음성의 지각을 향상시키는데 도움을 준다. 이 기술은 오직, 오디오 신호가 특성 제어 정보와 함께 수신기 측 상에서 다이얼로그와 주변 성분으로 실제로 분리되면 작업한다. 스테레오 다운믹스 신호만 사용 가능한 경우, 음성 정보를 분리하여 구별 및 조작하기 위해 추가의 분리는 더 이상 적용될 수 없다.

현재의 다운믹스 해법은 중앙 및 서라운드 채널에 대한 다이나믹 스테레오 레벨 튜닝을 가능하게 한다. 그러나, 스테레오 대신에 어떤 변종 라우드스피커 구성에 있어서, 최종 멀티채널 오디오 소스를 어떻게 다운믹스하는지에 대한 송신기로부터의 실제 기술은 존재하지 않는다. 디코더 내부의 실제 디폴트 공식이 매우 비신축적인 방법으로 신호 믹스를 실행한다.

모든 설명된 시나리오에서, 일반적으로 2개의 상이한 접근법이 존재한다. 첫 번째 접근법은 송신될 오디오 신호를 생성할 때, 오디오 오브젝트의 세트가 모노, 스테레오 또는 멀티채널 신호로 다운믹스되는 것이다. 방송을 통해, 어떤 다른 송신 프로토콜을 통해, 또는 컴퓨터로 판독 가능한 기억 매체의 배포를 통해 이 신호의 사용자에게 송신될 이 신호는 통상적으로 예를 들어, 스튜디오 환경에서 사운드 엔지니어에 의해 다운믹스되었던 원래의 오디오 오브젝트의 수보다 작은 채널의 수를 갖는다. 또한, 메타데이터는 여러 가지 상이한 변형을 허용하기 위해 첨부될 수 있지만, 이들 변형은 오직 전체 송신 신호에, 또는 송신된 신호가 여러 개의 상이한 송신 채널을 갖는 경우 전체로서 개별 송신 채널에 적용될 수 있다. 그러나, 그러한 송신 채널이 항상 여러 개의 오디오 오브젝트의 중첩이기 때문에, 또 다른 오디오 오브젝트가 조작되지 않는 동안 특정 오디오 오브젝트의 개별 조작은 전혀 불가능하다.

다른 접근법은 오브젝트 다운믹스를 실행하지 않고, 오디오 오브젝트 신호를 그대로 별개의 송신 채널로서 송신하는 것이다. 그러한 시나리오는 오디오 오브젝트의 수가 작을 때 잘 동작한다. 예를 들면, 5개의 오디오 오브젝트만 존재할 때, 5.1 시나리오 내에서 이들 5개의 상이한 오디오 오브젝트를 서로 별개로 송신하는 것이 가능해진다. 메타데이터는 이들 채널과 관련되어 오브젝트/채널의 특정 성질을 나타낼 수 있다. 그 후, 수신기 측에서, 송신된 채널이 송신된 메타데이터에 기초하여 조작될 수 있다.

이 접근법의 결점은 이전 기종과 호환이 되지 않고 작은 수의 오디오 오브젝트의 맥락에서만 잘 동작하는 것이다. 오디오 오브젝트의 수가 증가하면, 별개의 명백한 오디오 트랙으로서 모든 오브젝트를 송신하는 데 필요한 비트레이트가 빠르게 증가한다. 이 증가하는 비트레이트는 방송 애플리케이션의 맥락에서는 특히 유용하지 않다.

따라서, 현재의 비트레이트 효율적인 접근법은 별개의 오디오 오브젝트들의 개별 조작을 허용하지 않는다. 그러한 개별 조작은, 각 오브젝트를 별개로 송신할 때에만 허용된다. 그러나, 이 접근법은 비트레이트 효율적이지 않으므로, 방송 시나리오에 실현 불가능하다.

본 발명의 목적은 이들 문제점에 대한 비트레이트 효율적이지만 신축적인 해결법을 제공하는 것이다.

본 발명의 제1 양태에 따르면, 이 목적은 적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 장치로서: 오디오 입력 신호를 처리하여 상기 오디오 입력 신호의 오브젝트 표시를 제공하기 위한 프로세서 - 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 분리되고, 상기 적어도 2개의 상이한 오디오 오브젝트는 별개의 오디오 오브젝트 신호로서 사용 가능하며, 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 독립적으로 조작됨 - ; 상기 적어도 하나의 오디오 오브젝트에 대해 조작된 믹스된 오디오 오브젝트 신호 또는 조작된 오디오 오브젝트 신호를 얻기 위해, 상기 적어도 하나의 오디오 오브젝트에 관한 오디오 오브젝트 기반 메타데이터에 기초하여 적어도 하나의 오디오 오브젝트의 믹스된 오디오 오브젝트 신호 또는 상기 오디오 오브젝트 신호를 조작하는 오브젝트 매니퓰레이터(manipulator); 및 상기 조작된 오디오 오브젝트를, 변형되지 않은 오디오 오브젝트 또는 상기 적어도 하나의 오디오 오브젝트와 상이한 방식으로 조작되는 조작된 상이한 오디오 오브젝트와 결합하여 상기 오브젝트 표시를 믹스하는 오브젝트 믹서를 포함하는, 장치에 의해 달성된다.

본 발명의 제2 양태에 따르면, 이 목적은 적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 방법으로서: 오디오 입력 신호를 처리하여 상기 오디오 입력 신호의 오브젝트 표시를 제공하는 단계 - 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 분리되고, 상기 적어도 2개의 상이한 오디오 오브젝트는 별개의 오디오 오브젝트 신호로서 사용 가능하며, 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 독립적으로 조작됨 - ; 상기 적어도 하나의 오디오 오브젝트에 관한 오디오 오브젝트 기반 메타데이터에 기초하여 적어도 하나의 오디오 오브젝트의 믹스된 오디오 오브젝트 신호 또는 상기 오디오 오브젝트 신호를 조작하여, 상기 적어도 하나의 오디오 오브젝트에 대해 조작된 믹스된 오디오 오브젝트 신호 또는 조작된 오디오 오브젝트 신호를 얻는 단계; 및 상기 조작된 오디오 오브젝트를, 변형되지 않은 오디오 오브젝트 또는 상기 적어도 하나의 오디오 오브젝트와 상이한 방식으로 조작되는 조작된 상이한 오디오 오브젝트와 결합하여 상기 오브젝트 표시를 믹스하는 단계를 포함하는, 방법에 의해 달성된다.

본 발명의 제3 양태에 따르면, 이 목적은 적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 인코딩된 오디오 신호를 생성하는 장치로서: 데이터 스트림이 상기 적어도 2개의 상이한 오디오 오브젝트의 조합을 나타내는 오브젝트 다운믹스 신호와, 사이드 정보로서, 상기 상이한 오디오 오브젝트 중 적어도 하나에 관한 메타데이터를 포함하도록 상기 데이터 스트림을 포맷하기 위한 데이터 스트림 포맷터(formatter)를 포함하는, 장치에 의해 달성된다.

본 발명의 제4 양태에 따르면, 이 목적은 적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 인코딩된 오디오 신호를 생성하는 방법으로서: 데이터 스트림이 상기 적어도 2개의 상이한 오디오 오브젝트의 조합을 나타내는 오브젝트 다운믹스 신호와, 사이드 정보로서, 상기 상이한 오디오 오브젝트 중 적어도 하나에 관한 메타데이터를 포함하도록 상기 데이터 스트림을 포맷하는 단계를 포함하는, 방법에 의해 달성된다.

본 발명의 또 다른 양태는 본 발명의 방법들을 구현하는 컴퓨터 프로그램과, 오브젝트 다운믹스 신호 및 사이드 정보로서, 오브젝트 다운믹스 신호에 포함되는 하나 이상의 오디오 오브젝트에 대한 메타데이터 및 오브젝트 파라미터 데이터가 저장되어 있는 컴퓨터로 판독 가능한 기억 매체에 관한 것이다.

본 발명은 별개의 오디오 오브젝트 신호 또는 믹스된 오디오 오브젝트 신호의 별개의 세트의 개별 조작이 오브젝트 관련 메타데이터에 기초하여 개별 오브젝트 관련 처리를 가능하게 하는 것을 찾는 것을 기초로 한다. 본 발명에 따르면, 조작의 결과가 라우드스피커에 직접 출력되는 것이 아니라 오브젝트 믹서에 제공되며, 오브젝트 믹서는 특정 렌더링 시나리오용의 출력 신호를 생성하고, 여기에서 출력 신호는 다른 조작된 오브젝트 신호 및/또는 변형되지 않은 오브젝트 신호와 함께 적어도 하나의 조작된 오브젝트 신호 또는 믹스된 오브젝트 신호의 세트의 중첩에 의해 생성된다. 자연스럽게, 각 오브젝트를 조작할 필요는 없지만, 몇몇 경우에는, 하나의 오브젝트만 조작하는 것 및 복수의 오디오 오브젝트의 또 다른 오브젝트를 조작하지 않는 것이 충분할 수 있다. 오브젝트 믹싱 동작의 결과는 조작된 오브젝트에 기초하는 하나 또는 복수의 오디오 출력 신호이다. 이들 오디오 출력 신호는 라우드스피커에 송신될 수 있거나 추가의 사용을 위해 저장될 수 있거나 특정 애플리케이션 시나리오에 따르는 추가의 수신기에 송신될 수도 있다.

바람직하게는, 본 발명의 조작/믹싱 장치로 입력되는 신호는 복수의 오디오 오브젝트 신호를 다운믹스함으로써 생성되는 다운믹스 신호이다. 다운믹스 동작은 각 오브젝트에 대해 개별적으로 메타데이터 제어될 수 있거나 각 오브젝트에 대해 동일하게 되는 것과 같이 제어되지 않을 수 있다. 전자의 경우에는, 메타데이터에 따른 오브젝트의 조작은 오브젝트 개별 제어 및 오브젝트 특정 업믹스 동작이며, 여기에서 이 오브젝트를 나타내는 스피커 성분 신호가 생성된다. 바람직하게는, 공간 오브젝트 파라미터가 또한 제공되어 송신된 오브젝트 다운믹스 신호를 이용하여 그 근사 버전에 의해 원래의 신호를 재구성하는 데 이용될 수 있다. 그 후, 오디오 입력 신호의 오브젝트 표시를 제공하기 위해 오디오 입력 신호를 처리하는 프로세서가 파라메트릭 데이터에 기초하여 원래의 오디오 오브젝트의 재구성된 버전을 계산하도록 기동되며, 여기에서 이들 근사치로 계산된 오브젝트 신호가 그 후 오브젝트 기반 메타데이터에 의해 개별적으로 조작될 수 있다.

바람직하게는, 오브젝트 렌더링 정보가 또한 제공되며, 여기에서 오브젝트 렌더링 정보는 의도된 오디오 재생 셋업에 대한 정보 및 재생 시나리오 내에서의 개별 오디오 오브젝트의 위치결정에 대한 정보를 포함한다. 그러나, 특정 실시예는 그러한 오브젝트 배치 데이터 없이 작용할 수 있다. 그러한 구성은 예를 들면, 완전한 오디오 트랙을 위해 송신기와 수신기 사이에서 협상될 수 있거나 고정적으로 설정될 수 있는 정적인 오브젝트 위치의 제공이다.

본 발명에 의하면, 종래의 문제점에 대한 비트레이트 효율적이지만 신축적인 해결법을 얻을 수 있다.

본 발명의 바람직한 실시예들은 이후 첨부된 도면의 맥락에서 논의된다.
도 1은 적어도 하나의 오디오 출력 신호를 생성하기 위한 장치의 바람직한 실시예를 도시하는 도면이다.
도 2는 도 1의 프로세서의 바람직한 구현을 도시하는 도면이다.
도 3a는 오브젝트 신호를 조작하는 매니퓰레이터의 바람직한 실시예를 도시하는 도면이다.
도 3b는 도 3a에 도시된 바와 같은 매니퓰레이터의 맥락에서 오브젝트 믹서의 바람직한 구현을 도시하는 도면이다.
도 4는 조작이 오브젝트 다운믹스에 이후이지만 최종 오브젝트 믹스 이전에 실행되는 상황에서의 프로세서/매니퓰레이터/오브젝트 믹서 구성을 도시하는 도면이다.
도 5a는 인코딩된 오디오 신호를 생성하는 장치의 바람직한 실시예를 도시하는 도면이다.
도 5b는 오브젝트 다운믹스, 오브젝트 기반 메타데이터 및 공간 오브젝트 파라미터를 갖는 송신 신호를 도시하는 도면이다.
도 6은 오브젝트 오디오 파일 및 조인트 오디오 오브젝트 정보 매트릭스 E를 갖는 특정 ID에 의해 식별되는 여러 개의 오디오 오브젝트를 나타내는 맵을 도시하는 도면이다.
도 7은 도 6의 오브젝트 공분산 매트릭스 E의 설명을 나타내는 도면이다.
도 8은 다운믹스 매트릭스 E에 의해 제어되는 오디오 오브젝트 인코더 및 다운믹스 매트릭스를 도시하는 도면이다.
도 9는 특정 타깃 렌더링 시나리오에 대한 일례 및 사용자에 의해 통상적으로 제공되는 타깃 렌더링 매트릭스 A를 도시하는 도면이다.
도 10은 본 발명의 또 다른 양태에 따라 적어도 하나의 오디오 출력 신호를 생성하는 장치의 바람직한 실시예를 도시하는 도면이다.
도 11a는 다른 실시예를 도시하는 도면이다.
도 11b는 또 다른 실시예를 도시하는 도면이다.
도 11c는 다른 실시예를 도시하는 도면이다.
도 12a는 예시적인 애플리케이션 시나리오를 도시하는 도면이다.
도 12b는 다른 예시적인 애플리케이션 시나리오를 도시하는 도면이다.

상술한 문제점에 직면하여, 바람직한 접근방법은 그들 오디오 트랙과 함께 적절한 메타데이터를 제공하는 것이다. 그러한 메타데이터는 아래의 3개의 인자(3개의 "고전적인" D's)를 제어하기 위한 정보로 이루어질 수 있다:

· 다이얼로그 정규화

· 다이나믹 범위 제어

· 다운믹스

그러한 오디오 메타데이터는 수신기가 청취자에 의해 실행되는 조정에 기초하여 수신된 오디오 신호를 조작하는 것을 돕는다. 이러한 종류의 오디오 메타데이터를 다른 것들(예컨대, 저자, 제목 같은 서술형 메타데이터)로부터 구별하기 위해, "돌비(Dolby) 메타데이터"라고 통칭된다(그들이 돌비에 의해서만 구현되기 때문). 그 후에, 이러한 종류의 오디오 메타데이터만이 고려되고 간단히 메타데이터라고 칭해진다.

오디오 메타데이터는 오디오에 대한 근본적인 정보를 갖고 오디오 프로그램과 함께 수신기에 반송되는 부가적인 제어 정보이다. 메타데이터는 이상적인 청취 환경 미만에 대한 다이나믹 범위 제어, 프로그램들간의 레벨 매칭, 몇몇 스피커 채널을 통한 멀티채널 오디오의 재생을 위한 다운믹싱 정보, 및 다른 정보를 포함하는 다수의 중요한 기능을 제공한다.

메타데이터는 스피커 채널의 수, 재생 장비의 품질, 또는 상대적인 주변 노이즈 레벨에 무관하게, 완전한 홈시어터(full-blown home theaters)로부터 기내 엔터테인먼트(inflight entertainment)까지 다수의 상이한 청취 상황에서 오디오 프로그램이 정확하고 예술적으로 재생되게 하는데 필요한 도구(tools)를 제공한다.

기술자나 컨텐츠 제작자가 자신의 프로그램 내에 가능한 최고 품질의 오디오를 제공하는데 큰 관심을 갖기는 하지만, 그녀 또는 그는 원래의 사운드트랙을 재생하도록 시도하는 가전제품이나 청취 환경의 거대한 어레이에 대한 제어를 하지 않는다. 메타데이터는 기술자나 컨텐츠 제작자에게 자신의 저작물이 거의 대부분의 가능한 청취 환경에서 어떻게 재생되어 즐기게 되는지에 대한 더 큰 제어를 제공한다.

돌비 메타데이터는 언급한 3개의 인자를 제어하도록 정보를 제공하기 위한 특별한 포맷이다.

3개의 가장 중요한 돌비 메타데이터 기능은:

· 피처 필름, 광고 등과 같은 상이한 종류의 프로그램으로 종종 이루어지는 프레젠테이션 내의 다이얼로그의 장기적인 평균 레벨을 얻기 위한 다이얼로그 정규화.

· 오디오 압축을 즐기는 청중의 대부분을 만족시키지만, 동시에 각 개별 고객이 오디오 신호의 다이나믹스를 제어할 수 있고 그녀 또는 그의 개인 청취 환경으로 그 압축을 조정할 수 있게 하기 위한 다이나믹 범위 제어.

· 멀티채널 오디오 재생 장비가 사용 가능한 경우 멀티채널 오디오 신호의 사운드를 둘 또는 하나의 채널에 맵(map)시키기 위한 다운믹스.

돌비 메타데이터는 돌비 디지털 (AC-3) 및 돌비 E와 함께 사용된다. 돌비 E 오디오 메타데이터 포맷은 [16]에 기재되어 있다. 돌비 디지털 (AC-3)은 디지털 텔레비전 방송(고 또는 표준 선명도 중 하나), DVD 또는 다른 매체를 통해 홈으로 오디오의 변환을 위해 의도된다.

돌비 디지털은 단일 채널의 오디오로부터 풀(full) 5.1 채널 프로그램까지, 메타데이터를 포함하는 어느 것을 반송할 수 있다. 디지털 텔레비전과 DVD의 양자에서, 돌비 디지털은 풀 5.1 이산 오디오 프로그램뿐만 아니라 스테레오의 송신을 위해 공용된다.

돌비 E는 전문적인 생산 및 배포 환경에서 멀티채널 오디오의 배포를 위해 의도된다. 소비자에게 전달하기 전에는 언제라도, 돌비 E는 멀티채널/멀티프로그램 오디오의 비디오와 함께 배포하기 위한 바람직한 방법이다. 돌비 E는 기존의 2 채널 디지털 오디오 인프라스트럭처 내에서 (각각에 대한 메타데이터를 포함하는) 임의의 수의 개별 프로그램 구성으로 구성되는 8개의 이산 오디오 채널까지 반송할 수 있다. 돌비 디지털과 달리, 돌비 E는 다수의 인코드/디코드 생성을 다룰 수 있고, 비디오 프레임 레이트와 동기이다. 돌비 디지털과 마찬가지로, 돌비 E는 데이터 스트림 내에서 인코드된 각 개별 오디오 프로그램에 대한 메타데이터를 반송한다. 돌비 E의 사용으로 인해 결과적으로 생성된 오디오 데이터 스트림이 디코딩, 변형, 및 청취력 저하 없이 재인코딩될 수 있다. 돌비 E 스트림이 비디오 프레임 레이트와 동기하므로, 돌비 E 스트림은 전문적인 방송 환경에서 라우팅, 스위칭 및 편집될 수 있다.

이와 별개로, 다이나믹 범위 제어를 실행하기 위해 그리고 다운믹스 생성을 제어하기 위해 MPEG AAC와 함께 수단이 제공된다.

고객에 대한 변동성을 최소화하는 방식으로 가변 피크 레벨, 평균 레벨 및 다이나믹 범위로 소스 물질을 다루기 위해, 예를 들면, 다이얼로그 레벨 또는 평균 음악 레벨이, 프로그램이 어떻게 개시되었는지에 무관하게, 재생 시에 고객 제어 레벨로 설정되도록 재생 레벨을 제어하는 것이 필요하다. 또한, 고객이 얼마나 시끄러운 음을 내는가에 대한 제약 없이, 모든 고객이 양호한(즉, 저 노이즈) 환경에서 프로그램을 들을 수 있는 것은 아니다. 예를 들면, 차량 환경은 높은 주위 노이즈 레벨을 갖고, 따라서, 청취자가 재생될 레벨의 범위를 감소시키기를 원하는 것이 예상될 수 있다.

이들 이유의 양자로 인해, 다이나믹 범위 제어가 AAC의 사양에 사용 가능하게 되어야 한다. 이것을 달성하기 위해, 프로그램 아이템의 다이나믹 범위를 설정 및 제어하는 데 사용되는 데이터를 비트레이트 감소된 오디오에 첨부할 필요가 있다. 이 제어는 기준 레벨에 관련하여 그리고 중요한 프로그램 요소 예컨대, 다이얼로그와 관련하여 구체화되어야 한다.

다이나믹 범위 제어의 특징은 아래와 같다:

1. 다이나믹 범위 제어는 전적으로 선택적이다. 따라서, 올바른 신택스(syntax)에 의해, DRC를 적용하기를 원하지 않는 것들에 대하여 복잡성의 변화가 없다.

2. 비트레이트 감소된 오디오 데이터가, 다이나믹 범위 제어를 돕도록 데이터를 지원하면서, 소스 물질의 전체 다이나믹 범위로 송신된다.

3. 다이나믹 범위 제어 데이터는 설정 리플레이 이득에서의 지체를 최소로 감소시키도록 프레임마다 전송될 수 있다.

4. 다이나믹 범위 제어 데이터는 AAC의 "fill_element" 특징을 사용하여 전송된다.

5. 기준 레벨이 실물 크기(full-scale)로 정의된다.

6. 프로그램 기준 레벨이, 다른 소스들의 리플레이 레벨들 사이의 레벨 패리티를 허용하도록 및 다이나믹 범위 제어가 적용될 수 있는 기준을 제공하도록 송신된다. 소스 신호의 그런 특징은, 프로그램의 다이얼로그 컨텐츠의 레벨이나 음악 프로그램의 평균 레벨과 같은 프로그램의 소리의 세기에 대한 주관적인 느낌에 관련되는 것이다.

7. 프로그램 기준 레벨은 리플레이 레벨 패리티를 달성하기 위해 고객 하드웨어 내의 기준 레벨에 관련된 설정 레벨에서 재생될 수 있는 프로그램의 레벨을 나타낸다. 이와 관련하여, 프로그램의 조용한 부분은 레벨이 증가할 수 있고 프로그램의 시끄러운 부분은 레벨이 감소할 수 있다.

8. 프로그램 기준 레벨은 기준 레벨에 대해 0 ∼ -31.75 dB의 범위 내에 특정된다.

9. 프로그램 기준 레벨은 0.25 dB 단계를 갖는 7 비트 필드를 사용한다.

10. 다이나믹 범위 제어는 범위 ±31.75 dB 내에 특정된다.

11. 다이나믹 범위 제어는 0.25 dB 단계를 갖는 8 비트 필드(1 부호, 7 크기)를 사용한다.

12. 다이나믹 범위 제어는 단일 엔티티로서 오디오 채널의 스펙트럼 계수나 주파수 대역의 모두에 적용될 수 있거나, 계수들은, 각각이 다이나믹 범위 제어 데이터의 별개의 세트에 의해 별개로 제어되는 상이한 스케일팩터(scalefactor) 대역으로 분할될 수 있다.

13. 다이나믹 범위 제어는 단일 엔티티로서 (스테레오나 멀티채널 비트스트림의) 모든 채널에 적용될 수 있거나, 채널의 세트가 다이나믹 범위 제어 데이터의 별개의 세트에 의해 별개로 제어되는 상태로 분할될 수 있다.

14. 예상되는 다이나믹 범위 제어 데이터의 세트가 분실되면, 가장 최근에 수신된 유효값이 사용되어야 한다.

15. 다이나믹 범위 제어 데이터의 모든 요소가 매번 전송되는 것은 아니다. 예를 들면, 프로그램 기준 레벨이 200 ms 마다 평균 1회만 전송될 수 있다.

16. 필요한 경우, 에러 검출/보호가 트랜스포트 레이어(Transport Layer)에 제공된다.

17. 사용자는 신호의 레벨에 적용되는 비트스트림에 존재하는 다이나믹 범위 제어의 크기를 변경하기 위한 수단을 제공해야 한다.

5.1 채널 송신에서 별개의 모노 또는 스테레오 믹스다운 채널을 송신할 가능성 이외에, AAC는 또한 5 채널 소스 트랙으로부터 자동 믹스다운 생성을 가능하게 한다. LFE 채널은 이 경우에 생략되어야 한다.

이 매트릭스 믹스다운 방법은 믹스다운에 부가되는 후방 채널의 크기를 정의하는 파라미터의 작은 세트를 갖는 오디오 트랙의 에디터에 의해 제어될 수 있다.

매트릭스 믹스다운 방법은 3 전방/ 2 후방 스피커 구성, 5 채널 프로그램을 스테레오 또는 모노 프로그램에 믹스다운하는 데만 적용한다. 3/2와 다른 구성을 갖는 어떤 프로그램에 적용 불가능하다.

MPEG 내에서, 수신기 측 상에서 오디오 렌더링을 제어하기 위한 여러 가지 수단이 제공된다.

포괄적인 기술이 장면 기술 언어 예컨대, BIFS 및 LASeR에 의해 제공된다. 양 기술은 별개의 코딩된 오브젝트로부터 재생 장면으로 오디오-비주얼 요소를 렌더링하는 데 사용된다.

BIFS는 [5]에 정규화되어 있고 LASeR은 [6]에 정규화되어 있다.

MPEG-D는 주로

· 다운믹스된 오디오 표시(MPEG 서라운드)에 기초하여 멀티채널 오디오를 생성하기 위해; 및

· 오디오 오브젝트(MPEG 공간 오디오 오브젝트 코딩)에 기초하여 MPEG 서라운드 파라미터를 생성하기 위해

(파라메트릭) 기술(즉, 메타데이터)을 다룬다.

MPEG 서라운드는 송신된 다운믹스 신호에 관련된 멀티채널 오디오 신호의 공간 이미지를 캡처하도록 ILD, ITD 및 IC 큐(cues)에 등가인 레벨, 위상 및 코히어런스(coherence)에서의 채널간 차이를 활용하여, 이들 큐를 매우 컴팩트한 형태로 인코드하여 큐들과 송신된 신호가 디코딩되어 고화질 멀티채널 표시를 합성할 수 있게 된다. MPEG 서라운드 인코더는 멀티채널 오디오 신호를 수신하며, N은 입력 채널의 수(예컨대, 5.1)이다. 인코딩 프로세스의 핵심적인 양태는, 일반적으로 스테레오인(그렇지만 모노일 수도 있는) 다운믹스 신호, xt1 및 xt2가 멀티채널 입력 신호로부터 도출되고, 이 다운믹스 신호가 멀티채널 신호와 다른 채널 상으로 송신하기 위해 압축되는 것이다. 인코더는, 모노 또는 스테레오 다운믹스에서의 멀티채널 신호의 신뢰할 수 있는 등가물을 생성하고, 또한 다운믹스 및 인코딩된 공간 큐에 기초하여 최상의 가능한 멀티채널 디코딩을 생성하도록, 다운믹스 프로세스를 유리하게 활용할 수도 있다. 이와 달리, 다운믹스는 외부적으로 공급될 수 있다. MPEG 서라운드 인코딩 프로세스는 송신된 채널에 사용되는 압축 알고리즘에 대해 알 수 없으며; 그 프로세스는 MPEG-1 레이어 Ⅲ, MPEG-4 AAC 또는 MPEG-4 고효율 AAC와 같은 다수의 고성능 압축 알고리즘 중 어느 하나일 수 있거나, 그 프로세스는 PCM일 수도 있다.

MPEG 서라운드 기술은 멀티채널 오디오 신호의 매우 효율적인 파라메트릭 코딩을 지원한다. MPEG SAOC의 아이디어는 개별 오디오 오브젝트(트랙)의 매우 효율적인 파라메트릭 코딩을 위한 유사한 파라미터 표시와 함께 유사한 기본 가설(assumption)을 적용하는 것이다. 또한, 렌더링 기능이 여러 가지 타입의 재생 시스템(라우드스피커용의 1.0, 2.0, 5.0, ... 또는 헤드폰용 양이(binaural))에 대한 청각적인 장면으로 오디오 오브젝트를 대화식으로 렌더링하도록 포함된다. SAOC는 이후에 대화식으로 렌더링된 오디오 장면에서 개별 오브젝트의 재생을 허용하기 위해 조인트 모노 또는 스테레오 다운믹스 신호에 다수의 오디오 오브젝트를 송신하도록 설계된다. 이러한 목적으로, SAOC는 오브젝트 레벨 차이(OLD), 오브젝트간 크로스 코히어런스(IOC) 및 다운믹스 채널 레벨 차이(DCLD)를 파라미터 비트스트림으로 인코드한다. SAOC 디코더는 SAOC 파라미터 표시를 MPEG 서라운드 파라미터 표시로 변환하며, 그 표시는 이후에 원하는 오디오 장면을 생성하도록 MPEG 서라운드 디코더에 의해 다운믹스 신호와 함께 디코딩된다. 사용자는 결과적으로 생성된 오디오 장면에서 오디오 오브젝트의 표시를 변경하도록 이 프로세스를 대화식으로 제어한다. SAOC에 대한 다수의 가능한 애플리케이션 중에서, 몇몇 일반적인 시나리오가 아래에 열거된다.

고객은 가상 믹싱 데스크를 사용하여 개인적인 대화식 리믹스를 생성할 수 있다. 특정 악기가 예컨대, (가라오케처럼) 협조하기 위해 약화디ㅗㄹ 수 있고, 원래의 믹스가 개인의 취향에 맞추기 위해 변경될 수 있으며, 영화/방송에서의 다이얼로그 레벨이 더 나은 음성 명료도 등에 대해 조정될 수 있다.

대화식 게임을 위해, SAOC는 사운드 트랙을 재생하는 저장 및 계산 효율적인 방법이다. 가상 장면에서의 움직임이 오브젝트 렌더링 파라미터의 채택에 의해 반영된다. 네트워크 멀티플레이어 게임은 특정 플레이어의 단말기 외부에 있는 모든 사운드 오브젝트를 나타내기 위해 하나의 SAOC 스트림을 사용하는 송신 효율에서 유익하다.

이 애플리케이션의 맥락에서, 용어 "오디오 오브젝트"는 또한 사운드 재생 시나리오에서 알려진 "스템(stem)"을 포함한다. 특히, 스템은 리믹스에 사용할 목적으로 (일반적으로 디스크에) 별개로 세이브되는 믹스의 개별 성분이다. 관련된 스템은 동일한 원래 위치로부터 일반적으로 바운스된다(bounced). 예들은 드럼 스템(믹스 내의 모든 관련된 드럼 악기를 포함), 보컬 스템(보컬 트랙만 포함) 또는 리듬 스템(드럼, 기타, 키보드, …와 같은 모든 리듬 관련 악기를 포함)일 수 있다.

현재의 전기 통신 인프라스트럭처는 모노포닉이고 그 기능성이 확장될 수 있다. SAOC 확장이 설치된 단말은 여러 개의 사운드 소스(오브젝트)를 선택하여 기존의 (음성) 코더를 사용하여 호환이 되는 방식으로 송신되는 모노포닉 다운믹스 신호를 생성한다. 사이드 정보는 매설된 이전 기능과 호환이 되는 방식으로 이송될 수 있다. 이전 방식의 단말은 SAOC 인에이블된 단말들이 음향 장면을 렌더링할 수 있는 동안 모노포닉 출력을 계속 생성하므로, 상이한 스피커들을 공간적으로 분리함으로써 명료성을 증가시킨다("칵테일 파티 효과").

실제 사용 가능한 돌비 오디오 메타데이터 애플리케이션의 개관에서 아래의 섹션을 설명한다.

심야 모드

섹션 [ ]에서 언급한 바와 같이, 청취자가 높은 다이나믹 신호를 원하지 않을 수 있는 시나리오가 존재할 수도 있다. 따라서, 청취자는 자신의 수신기의 소위 "심야 모드"를 활성화시킬 수 있다. 그러면, 전체 오디오 신호에 압축기가 적용된다. 이 압축기의 파라미터를 제어하기 위해, 송신된 메타데이터가 평가되어 전체 오디오 신호에 적용된다.

클린 오디오

다른 시나리오는 높은 다이나믹 주위 노이즈를 갖기를 원하지 않고 다이얼로그를 포함하는 상당히 클린 신호("CleanAudio")를 갖기를 원하는 청각 장애자이다. 이 모드는 또한 메타데이터를 사용하여 인에이블될 수도 있다.

현재 제안된 해결법은 [15] - 부록 E에 정의되어 있다. 스테레오 메인 신호와 부가적인 모노 다이얼로그 기술 채널 사이의 밸런스가 개별 레벨 파라미터 세트에 의해 여기에서 다루어진다. 별개의 신택스에 기초하여 제안된 해결법은 DVB에서의 보조 오디오 서비스라고 한다.

다운믹스

L/R 다운믹스를 관리하는 별개의 메타데이터 파라미터가 존재한다. 특정 메타데이터 파라미터는 엔지니어가 어떻게 스테레오 다운믹스가 구성되는지 및 어느 스테레오 아날로그 신호가 우선되는지를 선택할 수 있게 한다. 여기에서, 중앙 및 서라운드 다운믹스 레벨이 디코더마다 다운믹스 신호의 최종 믹싱 밸런스를 정한다.

도 1은 본 발명의 바람직한 실시예에 따라서 적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 장치를 도시한다. 도 1의 장치는 오디오 입력 신호의 오브젝트 표시(12)를 제공하도록 오디오 입력 신호(11)를 처리하는 프로세서(10)를 포함하고, 여기에서 적어도 2개의 상이한 오디오 오브젝트가 서로 분리되며, 적어도 2개의 상이한 오디오 오브젝트는 별개의 오디오 오브젝트 신호로서 사용 가능하고, 적어도 2개의 상이한 오디오 오브젝트는 서로 독립적으로 조작 가능하다.

오브젝트 표시의 조작은 적어도 하나의 오디오 오브젝트와 관련있는 오디오 오브젝트 기반 메타데이터(14)에 기초하여 적어도 하나의 오디오 오브젝트의 오디오 오브젝트 신호의 믹스된 표시 또는 오디오 오브젝트 신호를 조작하기 위한 오브젝트 매니퓰레이터(13)에서 실행된다. 오디오 오브젝트 매니퓰레이터(13)는 조작된 오디오 오브젝트 신호 또는 적어도 하나의 오디오 오브젝트에 대한 조작된 믹스된 오디오 오브젝트 신호 표시(15)를 얻기 위해 적응된다.

오브젝트 매니퓰레이터에 의해 생성되는 신호는 조작된 오디오 오브젝트와 변경되지 않은 오디오 오브젝트 또는 조작된 상이한 오디오 오브젝트를 결합함으로써 오브젝트 표시를 믹스하는 오브젝트 믹서(16)로 입력되며, 여기에서 조작된 상이한 오디오 오브젝트는 적어도 하나의 오디오 오브젝트와 상이한 방식으로 조작되고 있다. 오브젝트 믹서의 결과는 하나 이상의 오디오 출력 신호(17a, 17b, 17c)를 포함한다. 바람직하게는, 하나 이상의 출력 신호(17a 내지 17c)는 모노 렌더링 셋업, 스테레오 렌더링 셋업, 적어도 5개 또는 적어도 7개의 상이한 오디오 출력 신호를 필요로 하는 서라운드 셋업과 같은 3 이상의 채널을 포함하는 멀티채널 렌더링 셋업과 같은 특정 렌더링 셋업용으로 설계된다.

도 2는 오디오 입력 신호를 처리하는 프로세서(10)의 바람직한 구현을 도시한다. 바람직하게는, 오디오 입력 신호(11)는 후술하는 도 5a의 오브젝트 다운믹서(101a)에 의해 얻어지는 것과 같은 오브젝트 다운믹스(11)로서 구현된다. 이 상황에서, 프로세서는 또한 후술하는 바와 같은 예를 들면, 도 5a의 오브젝트 파라미터 계산기(101b)에 의해 생성되는 것과 같은 오브젝트 파라미터(18)를 수신한다. 그 후, 프로세서(10)는 별개의 오디오 오브젝트 신호(12)를 계산하기 위한 위치에 있다. 오디오 오브젝트 신호(12)의 수는 오브젝트 다운믹스(11) 내의 채널의 수보다 크다. 오브젝트 다운믹스(11)는 모노 다운믹스, 스테레오 다운믹스 또는 2 이상의 채널을 갖는 다운믹스도 포함할 수 있다. 그러나, 프로세서(12)는 오브젝트 다운믹스(11) 내의 개별 신호의 수와 비교하여 더 많은 오디오 오브젝트 신호(12)를 생성하도록 동작 가능하게 된다. 오디오 오브젝트 신호는 프로세서(10)에 의해 실행되는 파라메트릭 처리로 인해, 오브젝트 다운믹스(11)가 실행되기 전에 존재했던 원래의 오디오 오브젝트의 진정한 재생이 아니라, 오디오 오브젝트 신호가 원래의 오디오 오브젝트의 근사 버전이며, 근사치의 정확성은 프로세서(10)에서 실행되는 분리 알고리즘의 수에 그리고 물론 송신된 파라미터의 정확성에 의존한다. 바람직한 오브젝트 파라미터는 공간적인 오디오 오브젝트 코딩으로부터 알려진 파라미터이고, 개별적으로 분리된 오디오 오브젝트 신호를 생성하기 위한 바람직한 재구성 알고리즘은 공간적인 오디오 오브젝트 코딩 표준에 따라 실행되는 재구성 알고리즘이다. 프로세서(10) 및 오브젝트 파라미터의 바람직한 실시예는 도 6∼도 9의 맥락에서 이후에 논의된다.

도 3a 및 도 3b는 오브젝트 조작이 재생 셋업까지 오브젝트 아운믹스 이전에 실행되는 구현예를 집합적으로 도시하는 한편, 도 4는 오브젝트 다운믹스가 조작 이전에 실행되고, 조작이 최종 오브젝트 믹싱 동작 이전에 실행되는 또 다른 구현예를 도시한다. 도 4와 비교하여 도 3a, 3b에서의 절차의 결과는 동일하지만, 오브젝트 조작은 처리 시나리오에서 상이한 레벨에서 실행된다. 오디오 오브젝트 신호의 조작이 효율성 및 계산 자원의 맥락에서 이슈인 경우, 도 3a/3b 실시예는 오디오 신호 조작이 도 4에서와 같이 복수의 오디오 신호가 아닐 단일 오디오 신호에 대해서만 실행되기 때문에 바람직하다. 오브젝트 다운믹스가 변형되지 않은 오브젝트 신호를 사용하여 실행되어야 하는 요건이 있을 수 있는 상이한 구현예에서는, 도 4의 구성이 바람직하며, 여기에서 조작은 오브젝트 다운믹스 이후이지만 예컨대, 좌측 채널 L, 중앙 채널 C 또는 우측 채널 R용의 출력 신호를 얻기 위한 최종 오브젝트 믹스 이전에 실행된다.

도 3a는 도 2의 프로세서(10)가 별개의 오디오 오브젝트 신호들을 출력하는 상황을 도시한다. 오브젝트(1)용 신호와 같은 적어도 하나의 오디오 오브젝트 신호가 이 오브젝트(10)에 대한 메타데이터에 기초하여 매니퓰레이터(13a)에서 조작된다. 구현예에 따라, 오브젝트(2)와 같은 다른 오브젝트가 매니퓰레이터(13b)에 의해 또한 조작된다. 자연스럽게, 조작되지 않지만 그럼에도 불구하고 오브젝트 분리에 의해 생성되는 오브젝트(3)와 같은 오브젝트가 실제로 존재하는 상황이 발생할 수 있다. 도 3a 처리의 결과는 도 3a 예에서, 2개의 조작된 오브젝트 신호 및 하나의 조작되지 않은 신호이다.

이들 결과는 오브젝트 다운믹서(19a, 19b, 19c)로 구현되는 제1 믹서 스테이지(stage)를 포함하고, 또한 디바이스들(16a, 16b, 16c)에 의해 구현되는 제2 오브젝트 믹서 스테이지를 포함하는 오브젝트 믹서(16)로 입력된다.

오브젝트 믹서(16)의 제1 스테이지는 도 3a의 각 출력에 대해, 도 3a의 출력(1)에 대한 오브젝트 다운믹서(19a), 도 3a의 출력(2)에 대한 오브젝트 다운믹서(19b) 및 도 3a의 출력(3)에 대한 오브젝트 다운믹서(19c)와 같은 오브젝트 다운믹서를 포함한다. 오브젝트 다운믹서(19a∼19c)의 목적은 출력 채널에 각 오브젝트를 "분배"하기 위한 것이다. 따라서, 각 오브젝트 다운믹서(19a, 19b, 19c)는 좌측 성분 신호 L, 중앙 성분 신호 C 및 우측 성분 신호 R에 대한 출력을 갖는다. 그러므로, 예를 들어, 오브젝트(1)이 단일 오브젝트이면, 다운믹서(19a)는 간단명료한 다운믹서이고, 블록 19a의 출력은 17a, 17b, 17c에 나타나는 최종 출력 L, C, R과 동일하게 된다. 오브젝트 다운믹서(19a∼19c)는 바람직하게는 30에 나타나는 렌더링 정보를 수신하며, 여기에서 렌더링 정보는 렌더링 셋업을 기술할 수도 있다, 즉, 도 3e 실시예에서와 같이 3개의 출력 스피커만 존재한다. 이들 출력은 좌측 스피커 L, 중앙 스피커 C 및 우측 스피커 R이다. 예를 들어, 렌더링 셋업 또는 재생 셋업이 5.1 시나리오를 포함하면, 각 오브젝트 다운믹서는 6개의 출력 채널을 가지게 되고, 좌측 채널용 최종 출력 신호, 우측 채널용 최종 출력 신호, 중앙 채널용 최종 출력 신호, 좌측 서라운드 채널용 최종 출력 신호, 우측 서라운드 채널용 최종 출력 신호 및 저주파수 강화(서브우퍼) 채널용 최종 출력 신호가 얻어지도록 6개의 가산기가 존재하게 된다.

구체적으로는, 가산기(16a, 16b, 16c)는 대응하는 오브젝트 다운믹서에 의해 생성된 각각의 채널에 대한 성분 신호를 결합하도록 적응된다. 이 결합은 바람직하게는 간단명료한 한 샘플씩의 가산이지만 구현예에 따라 가중 계수도 적용될 수 있다. 또한, 도 3a, 3b에서의 기능은 주파수 또는 서브대역 영역(subband domain)에서 실행될 수 있으므로, 구성요소들(19a 내지 16c)이 주파수 영역에서 동작할 수 있고 재생 셋업 시에 신호를 스피커에 실제로 출력하기 전에 몇 가지 종류의 주파수/시간 변환이 있게 된다.

도 4는 구성요소(19a, 19b, 19c, 16a, 16b, 16c)의 기능이 도 3b 실시예와 유사한 대체 구현예를 도시한다. 그러나, 중요한 것은, 오브젝트 다운믹스(19a) 이전에 도 3a에서 일어나는 조작이 지금은 오브젝트 다운믹스(19a) 이후에 일어나는 것이다. 따라서, 각각의 오브젝트에 대한 메타데이터에 의해 제어되는 오브젝트 특정 조작은 다운믹스 영역에서, 즉, 그 후 조작되는 성분 신호의 실제 가산 이전에 행해진다. 도 4를 도 1과 비교할 때, 19a, 19b, 19c와 같은 오브젝트 다운믹서가 프로세서(10) 내에서 구현되고, 오브젝트 믹서(16)가 가산기(16a, 16b, 16c)를 포함하는 것이 명백해진다. 도 4가 구현되고 오브젝트 다운믹서가 프로세서의 일부이면, 프로세서는 도 1의 오브젝트 파라미터(18)에 덧붙여서, 렌더링 정보(30), 즉, 각 오디오 오브젝트의 위치에 대한 정보 및 렌더링 셋업에 대한 정보 및 경우에 따라 부가 정보를 수신할 것이다.

또한, 조작은 블록 19a, 19b, 19c에 의해 구현되는 다운믹스 동작을 포함할 수 있다. 이 실시예에서, 매니퓰레이터는 이들 블록을 포함하고, 부가 조작이 발생할 수 있지만 어느 경우에나 필요한 것은 아니다.

도 5a는 도 5b에 개략적으로 도시된 바와 같은 데이터 스트림을 생성할 수 있는 인코더측 실시예를 도시한다. 구체적으로는, 도 5a는 적어도 2개의 상이한 오디오 오브젝트를 나타내는 인코딩된 오디오 신호(50)를 생성하기 위한 장치를 도시한다. 기본적으로, 도 5a의 장치는, 데이터 스트림이 적어도 2개의 오디오 오브젝트의 가중되거나 가중되지 않은 조합과 같은 조합을 나타내는 오브젝트 다운믹스 신호(52)를 포함하도록 데이터 스트림(50)을 포맷(formatting)하기 위한 데이터 스트림 포맷터(51)를 도시한다. 또한, 데이터 스트림(50)은 사이드 정보로서, 상이한 오디오 오브젝트 중 적어도 하나에 관한 오브젝트 관련 메타데이터(53)를 포함한다. 바람직하게는, 데이터 스트림(50)은 시간 및 주파수 선택적이고 오브젝트 다운믹스 신호의 여러 개의 오디오 오브젝트로의 고품질 분리를 가능하게 하는 파라메트릭 데이터(54)를 더 포함하며, 여기에서 이 동작은 앞서 논급된 바와 같이 도 1에서 프로세서(10)에 의해 실행되는 오브젝트 업믹스(upmix) 동작이라고도 한다.

오브젝트 다운믹스 신호(52)는 바람직하게는 오브젝트 다운믹서(101a)에 의해 생성된다. 파라메트릭 데이터(54)는 바람직하게는 오브젝트 파라미터 계산기(101b)에 의해 생성되고, 오브젝트 선택 메타데이터(53)는 오브젝트 선택 메타데이터 제공자(55)에 의해 생성된다. 오브젝트 선택 메타데이터 제공자는 사운드 스튜디오 내에서 오디오 제작자에 의해 생성되는 것과 같은 메타데이터를 수신하기 위한 입력일 수 있거나, 오브젝트 분리에 후속하여 실행될 수 있는 오브젝트 관련 분석에 의해 생성되는 데이터일 수 있다. 구체적으로는, 오브젝트 선택 메타데이터 제공자는 예를 들면, 오브젝트가 음성 오브젝트, 사운드 오브젝트 또는 서라운드 사운드 오브젝트 중 어느 것인지를 찾기 위해 프로세서(10)에 의해 오브젝트의 출력을 분석하도록 구현될 수 있다. 그러므로, 음성 오브젝트는 음성 코딩으로부터 알려지는 잘 알려진 음성 검출 알고리즘의 일부에 의해 분석될 수 있고, 오브젝트 선택 분석은 계기들로부터 기인하는 사운드 오브젝트를 또한 찾기 위해 구현될 수 있다. 그러한 사운드 오브젝트는 음색 성질을 가지며, 그에 따라 음성 오브젝트나 서라운드 사운드 오브젝트와 구별될 수 있다. 서라운드 사운드 오브젝트는 일반적으로 예컨대, 영화관 영화에 존재하는 배경 사운드를 반영하는 상당히 노이지(noisy) 성질을 가지며, 여기에서 예를 들면, 배경 노이즈는 트래픽 사운드 또는 어떤 다른 정적인 노이지 신호 또는 예컨대, 슈팅(shooting) 장면이 영화관에서 일어날 때 생성되는 것과 같은 광대역 스펙트럼을 갖는 정적이지 않은 신호이다.

이 분석에 기초하여, 사운드 오브젝트를 증폭하고, 청각 장애자에 대한 또는 노령자에 대한 영화의 더 나은 이해를 위해 유용한 그대로의 음성을 강조하기 위해 다른 오브젝트를 감쇠시킬 수 있다. 앞서 언급한 바와 같이, 다른 구현예는 스테레오 다운믹스 또는 서라운드 사운드 다운믹스와 같은 실제의 오브젝트 다운믹스 신호를 CD나 DVD에 생성하는 사운드 엔지니어에 의한 오브젝트 식별 및 오브젝트 관련 데이터와 같은 오브젝트 특정 메타데이터의 제공을 포함한다.

도 5d는 메인 정보로서, 모노, 스테레오 또는 멀티채널 오브젝트 다운믹스를 갖고, 사이드 정보로서, 오브젝트 파라미터(54) 및 오브젝트 기반 메타데이터(53)를 갖는 예시적인 데이터 스트림(50)을 도시하며, 오브젝트 기반 메타데이터는 음성이나 서라운드로서 오브젝트를 식별하는 경우에만 고정적이거나, 심야 모드에 의해 필요한 것과 같은 오브젝트 기반 메타데이터로서 레벨 데이터를 제공하는 경우에는 시간 가변적이다. 바람직하게는, 그러나, 오브젝트 기반 메타데이터는 데이터 레이트를 세이브하기 위해 주파수 선택적인 방법으로 제공되지 않는다.

도 6은 N개의 오브젝트를 도시하는 오디오 오브젝트 맵의 일 실시예를 도시한다. 도 6의 예시적인 설명에서, 각 오브젝트는 오브젝트 ID, 대응하는 오브젝트 오디오 파일, 및 중요한 것으로는 바람직하게는 오디오 오브젝트의 에너지에 그리고 오디오 오브젝트의 오브젝트간 상관에 관련된 정보인 오디오 오브젝트 파라미터 정보를 갖는다. 구체적으로는, 오디오 오브젝트 파라미터 정보는 각 서브밴드마다 및 각 시간 블록마다 오브젝트 코베리언스 매트릭스 E를 포함한다. 그러한 오브젝트 오디오 파라미터 정보 매트릭스 E에 대한 일례가 도 7에 도시되어 있다. 대각선 원소 e_ii는 대응하는 서브밴드 및 대응하는 시간 블록 내의 오디오 오브젝트 i의 파워 또는 에너지 정보를 포함한다. 이를 위해, 특정 오디오 오브젝트 i를 나타내는 서브밴드 신호가 예를 들어 몇몇 정규화로 또는 정규화 없이 값 e₁₁을 얻기 위해 자동 상관 기능(acf)을 실행할 수 있는 파워 또는 에너지 계산기로 입력된다. 이와 달리, 에너지는 특정 길이에 신호의 제곱의 합으로서 (즉, 벡터곱: ss*) 계산될 수 있다. acf는 어떤 의미로는 에너지의 스펙트럼 분포를 기술할 수 있지만, 주파수 선택을 위한 T/F 변환이 바람직하게는 어떻게든지 사용된다는 사실로 인해, 에너지 계산이 각 서브밴드에 대해 별개로 acf 없이 실행될 수 있다. 그러므로, 오브젝트 오디오 파라미터 매트릭스 E의 메인 대각선 원소는 특정 시간 블록 내의 특정 서브밴드의 오디오 오브젝트의 에너지의 파워에 대한 측정치를 나타낸다.

한편, 대각선을 벗어난 원소 e_ij는 대응하는 서브밴드 및 시간 블록 내의 오디오 오브젝트 i, j 사이의 각각의 상관 측정치를 나타낸다. 매트릭스 E는 메인 대각선에 대해 대칭인 실측된 엔트리에 대한 것임이 도 7로부터 명확해진다. 일반적으로, 이 매트릭스가 에르미트(Hermitian) 매트릭스이다. 상관 측정 원소 e_ij는 예를 들면, 각각의 오디오 오브젝트의 2개의 서브밴드 신호의 교차 상관에 의해 계산될 수 있어 정규화되거나 되지 않을 수도 있는 교차 상관 측정치가 얻어진다. 교차 상관 연산을 사용하여 계산되지 않고 2개의 신호 사이의 상관을 결정하는 다른 방법에 의해 계산되는 다른 상관 측정치들이 사용될 수 있다. 실제적인 이유로, 매트릭스 E의 모든 원소들이 정규화되어 그들 원소가 0과 1 사이의 크기를 가지며, 여기에서 1은 최대 파워 또는 최대 상관을 나타내고, 0은 최소 파워(제로 파워)를 나타내며, -1은 최소 상관(이상)을 나타낸다.

K＞1인 사이즈 K×N의 다운믹스 매트릭스 D는 매트릭스 승산을 통해 K개의 로우(row)를 갖는 매트릭스의 형태로 K개의 채널 다운믹스 신호를 결정한다.

X=DS (2)

도 8은 다운믹스 매트릭스 원소 d_ij를 갖는 다운믹스 매트릭스 D의 일례를 도시한다. 그러한 원소 d_ij는 일부나 전체 오브젝트 j가 오브젝트 다운믹스 신호 i에포함되는지의 여부를 나타낸다. 예를 들어, d₁₂가 0과 같은 경우, 이것은 오브젝트 2가 오브젝트 다운믹스 신호 1에 포함되지 않는 것을 의미한다. 한편, 1과 같은 d₂₃의 값은 오브젝트 3이 오브젝트 다운믹스 신호 2에 완전히 포함되는 것을 나타낸다.

0과 1 사이의 다운믹스 매트릭스 원소의 값이 가능하다. 구체적으로는, 0.5의 값은 특정 오브젝트가 자신의 에너지의 절반만 갖고 다운믹스 신호에 포함되는 것을 나타낸다. 그러므로, 그러한 오브젝트 번호 4의 오디오 오브젝트가 양 다운믹스 신호 채널에 동일하게 분배되면, d₂₄ 및 d₁₄는 0.5와 같아진다. 이 다운믹싱 방법은 몇몇 상황에 바람직한 에너지 보존 다운믹스 동작이다. 그러나, 이와 달리, 에너지 비보존 다운믹스도 물론 사용될 수 있으며, 전체 오디오 오브젝트가 좌측 다운믹스 채널 및 우측 다운믹스 채널에 도입되어 이 오디오 오브젝트의 에너지가 다운믹스 신호 내의 다른 오디오 오브젝트에 대해 2배로 되게 된다.

도 8의 하부에, 도 1의 오브젝트 인코더(101)의 개략도가 제공된다. 구체적으로는, 오브젝트 인코더(101)는 2개의 상이한 부분(101a 및 101b)을 포함한다. 부분(101a)은 바람직하게는 오디오 오브젝트 1, 2, …, N의 가중 일차 결합을 실행하는 다운믹서이고, 오브젝트 인코더(101)의 제2 부분은, 오디오 에너지 및 파라메트릭 정보인 상관 정보를 제공하기 위해 각 시간 블록 또는 서브밴드에 대해 매트릭스 E와 같은 오디오 오브젝트 파라미터를 계산하는 오디오 오브젝트 파라미터 계산기(101b)이며, 상기 상관 정보는 따라서, 낮은 비트 레이트로 송신될 수 있거나 소량의 메모리 자원을 소비하여 저장될 수 있다.

사이즈 M×N의 사용자 제어 오브젝트 렌더링 매트릭스 A는 아래의 매트릭스 승산을 통해 M개의 로우를 갖는 매트릭스의 형태로 오디오 오브젝트의 M개의 채널 타깃 렌더링을 결정한다.

Y=AS (3)

아래의 도출을 통해 스테레오 렌더링에 초점이 맞추어져 있으므로, M=2라고 가정한다. 2 이상의 채널에 초기 렌더링 매트릭스를 제공하고, 그들 여러 개의 채널로부터 2개의 채널로의 다운믹스 규칙을 제공하면, 당업자가 스테레오 렌더링을 위한 사이즈 2×N의 대응하는 렌더링 매트릭스 A를 도출하는 것이 명백하다. 간략함을 위해 오브젝트 다운믹스가 또한 스테레오 신호이도록 K=2라고 또한 가정한다. 스테레오 오브젝트 다운믹스의 경우는 또한 애플리케이션 시나리오 면에서 가장 중요한 특별한 경우이다.

도 9는 타깃 렌더링 매트릭스 A의 상세한 설명을 나타낸다. 애플리케이션에 따라, 타깃 렌더링 매트릭스 A는 사용자에 의해 제공될 수 있다. 사용자는 오디오 오브젝트가 리플레이 셋업을 위해 가상 방식으로 위치되어야 하는 위치를 나타내기 위한 완전한 자유도를 갖는다. 오디오 오브젝트 개념의 영향력은 다운믹스 정보 및 오디오 오브젝트 파라미터 정보가 오디오 오브젝트의 특정 국소화에 완전히 독립적이라는 것이다. 이 오디오 오브젝트의 국소화는 타깃 렌더링 정보의 형태로 사용자에 의해 제공된다. 바람직하게는, 타깃 렌더링 정보는 도 9에서 매트릭스 형태일 수 있는 타깃 렌더링 매트릭스 A로서 구현될 수 있다. 구체적으로는, 렌더링 매트릭스 A는 M개의 라인 및 N개의 칼럼을 갖고, 여기에서 M은 렌더링된 출력 신호에서의 채널의 수와 같고, N은 오디오 오브젝트의 수와 같다. M은 바람직한 스테레오 렌더링 시나리오의 2와 같지만, M 채널 렌더링이 실행되면, 매트릭스 A는 M개의 라인을 갖는다.

구체적으로는, 매트릭스 원소 a_ij는 일부나 전체 오브젝트 j가 특정 출력 채널 i에서 렌더링되는지의 여부를 나타낸다. 도 9의 하부는 시나리오의 타깃 렌더링 매트릭스에 대한 간단한 예를 제공하며, 여기에서는 6개의 오디오 오브젝트 A01∼A06이 존재하고, 첫 번째 5개의 오디오 오브젝트만이 특정 위치에서 렌더링되어야 하고 6번째 오디오 오브젝트는 전혀 렌더링되지 않아야 한다.

오디오 오브젝트 A01에 관하여, 사용자는 이 오디오 오브젝트가 리플레이 시나리오의 좌측에서 렌더링되는 것을 원한다. 따라서, 이 오브젝트는 (가상) 리플레이 룸 내의 좌측 스피커의 위치에 위치하고, 그 결과 렌더링 매트릭스 A의 제1 칼럼이 (10)이 된다. 제2 오디오 오브젝트에 관하여, a₂₂는 1이고 a₁₂는 0이며, 이것은 제2 오디오 오브젝트가 우측에서 렌더링되는 것을 의미한다.

오디오 오브젝트 3은 좌측 스피커와 우측 스피커 사이의 중간에서 렌더링되어, 이 오디오 오브젝트의 레벨 또는 신호의 50%가 좌측 채널로 가고 레벨 또는 신호의 50%가 우측으로 가게 되어 타깃 렌더링 매트릭스 A의 대응하는 제3 칼럼이 (0.5 길이 0.5)가 된다.

유사하게, 좌측 스피커와 우측 스피커 사이의 어떤 배치가 타깃 렌더링 매트릭스에 의해 나타날 수 있다. 오디오 오브젝트 4에 관하여, 배치는 더욱 우측으로 되는데, 그 이유는 매트릭스 원소 a₂₄가 a₁₄보다 크기 때문이다. 유사하게, 제5 오디오 오브젝트 A05는 타깃 렌더링 매트릭스 원소 a₁₅ 및 a₂₅에 의해 나타나는 바와 같이 좌측 스피커에 대해 더 많이 렌더링된다. 타깃 렌더링 매트릭스 A는 또한, 특정 오디오 오브젝트를 전혀 렌더링할 수 없다. 이것은 0 원소를 갖는 타깃 렌더링 매트릭스 A의 제6 칼럼에 의해 예시적으로 나타나 있다.

이어서, 본 발명의 바람직한 실시예를 도 10을 참조하여 요약한다.

바람직하게는, SAOC(공간 오디오 오브젝트 코딩)로부터 공지된 방법은 하나의 오디오 신호를 상이한 부분으로 분할한다. 이들 부분은 예를 들면, 상이한 사운드 오브젝트일 수 있지만, 이것에 한정되는 것은 아니다.

메타데이터가 오디오 신호의 각 단일 부분에 대해 송신되면, 신호 성분의 일부만을 조정하게 할 수 있는 한편, 다른 부분은 불변인체로 남거나 상이한 메타데이터로 변형될 수도 있다.

이것은 상이한 사운드 오브젝트에 대해 행해질 수 있지만, 개별 스펙트럼 범위에 대해서도 행해질 수 있다.

오브젝트 분리를 위한 파라미터가 개별 오디오 오브젝트마다의 고전적이거나 더욱 새로운 메타데이터(이득, 압축, 레벨, …)이다. 이들 데이터가 바람직하게는 송신된다.

디코더 처리 박스는 2개의 상이한 단계에서 구현된다: 제1 단계에서, 오브젝트 분리 파라미터가 개별 오디오 오브젝트를 생성하는 데(10) 사용된다. 제2 단계에서, 처리 유닛(13)이 다수 사례(instance)를 갖고, 각 사례는 개별 오브젝트를 위한 것이다. 여기에서, 오브젝트 특정 메타데이터가 적용되어야 한다. 디코더의 단부에서, 모든 개별 오브젝트가 다시 하나의 단일 오디오 신호로 결합된다(16). 또한, 건식/습식 제어기(20)는 최종 사용자에게 그녀 또는 그의 바람직한 세팅을 찾을 간단한 가능성을 제공하도록 원래 및 조작된 신호 사이의 원활한 페이드 오버(fade-over)를 가능하게 할 수 있다.

특정 구현예에 따라, 도 10은 2개의 양상을 나타낸다. 베이스 양상에서, 오브젝트 관련 메타데이터는 바로 특정 오브젝트에 대한 오브젝트 기술을 나타내고 있다. 바람직하게는, 오브젝트 기술은 도 10에서 21에 나타내는 바와 같이 오브젝트 ID에 관련된다. 따라서, 장치(13a)에 의해 조작되는 상부 오브젝트에 대한 오브젝트 기반 메타데이터는 바로 이 오브젝트가 "음성" 오브젝트라는 정보이다. 아이템(13b)에 이해 처리되는 다른 오브젝트에 대한 오브젝트 기반 메타데이터는 이 제2 오브젝트가 서라운드 오브젝트라는 정보를 갖는다.

양 오브젝트에 대한 이 기본 오브젝트 관련 메타데이터는 강화된 클린 오디오 모드를 구현하기에 충분하게 될 수 있으며, 여기에서 음성 오브젝트가 증폭되고 서라운드 오브젝트가 감쇠되거나, 일반적으로는, 음성 오브젝트가 서라운드 오브젝트에 대해 증폭되거나 서라운드 오브젝트가 음성 오브젝트에 대해 감쇠된다. 그러나, 사용자는 바람직하게는, 모드 제어 입력을 통해 프로그래밍될 수 있는 수신기/디코더 측에서 상이한 처리 모드를 구현할 수 있다. 이들 상이한 모드는 다이얼로그 레벨 모드, 압축 모드, 다운믹스 모드, 강화된 심야 모드, 강화된 클린 오디오 모드, 다이나믹 다운믹스 모드, 가이드된 업믹스 모드, 오브젝트의 재배치를 위한 모드 등일 수 있다.

구현예에 따라, 상이한 모드들은 음성 또는 서라운드와 같은 오브젝트의 종류나 특성을 나타내는 기본 정보에 덧붙여 상이한 오브젝트 기반 메타데이터를 필요로 한다. 오디오 신호의 다이나믹 범위가 압축되어야 하는 심야 모드에서는, 음성 오브젝트 및 서라운드 오브젝트와 같은 각 오브젝트에 대해, 심야 모드에 대한 실제 레벨 또는 타깃 레벨 중 어느 하나가 메타데이터로서 제공된다. 오브젝트의 실제 레벨이 제공되면, 수신기는 심야 모드에 대한 타깃 레벨을 계산해야 한다. 그러나, 타깃 관련 레벨이 제공되면, 디코더/수신기 측 처리가 감소된다.

이 구현예에서, 각 오브젝트는 다이나믹 범위를 압축하기 위해 수신기에 의해 사용되는 레벨 정보의 시간 가변 오브젝트 기반 시퀀스를 가지므로 단일 오브젝트 내의 레벨 차이가 감소된다. 이것은 자동으로 최종 오디오 신호를 생성하고, 여기에서 레벨 차이가 종종 심야 모드 구현에 의해 필요한 경우 감소된다. 클린 오디오 애플리케이션에 대해, 음성 오브젝트에 대한 타깃 레벨도 물론 제공될 수 있다. 그러면, 서라운드 오브젝트가 특정 라우드스피커 셋업에 의해 생성되는 사운드 내의 음성 오브젝트를 과중하게 강조하기 위해 0 또는 거의 0으로 설정될 수 있다. 심야 모드의 반대인 고성능 애플리케이션에서, 오브젝트의 다이나믹 범위 또는 오브젝트들 사이의 차이의 다이나믹 범위가 향상될 수도 있다. 이 구현예에서, 이들 타깃 레벨이 결국 사운드가 사운드 스튜디오 내에서 아티스틱 사운드 엔지니어에 의해 생성되어 얻어지므로 자동 또는 사용자 정의 세팅과 비교하여 최고의 품질을 갖는 것을 보증하기 때문에 타깃 오브젝트 이득 레벨을 제공하는 것이 바람직하게 된다.

오브젝트 기반 메타데이터가 진전된 다운믹스에 관련되는 다른 구현예에서, 오브젝트 조작이 특정 렌더링 셋업에 대한 것과 상이한 다운믹스를 포함한다. 그 후, 오브젝트 기반 메타데이터가 도 3b 또는 도 4에서의 오브젝트 다운믹서 블록(19a∼19c)으로 도입된다. 이 구현예에서, 매니퓰레이터는 개별 오브젝트 다운믹스가 렌더링 셋업에 따라 실행될 때, 블록(19a∼19c)을 포함할 수 있다. 구체적으로는, 오브젝트 다운믹스 블록(19a∼19c)은 서로 상이하게 설정될 수 있다. 이 경우에, 음성 오브젝트가 채널 구성에 따라서, 좌측이나 우측 채널이 아니라 중앙 채널에만 도입될 수 있다. 그 후, 다운믹서 블록(19a∼19c)은 상이한 수의 성분 신호 출력을 가질 수 있다. 다운믹스는 또한 다이나믹하게 구현될 수도 있다.

또한, 가이드된 업믹스 정보 및 오브젝트의 재배치를 위한 정보도 물론 제공될 수 있다.

이어서, 메타데이터 및 오브젝트 특정 메타데이터의 애플리케이션을 제공하는 바람직한 방법의 요약을 제공한다.

오디오 오브젝트는 이상적으로는 일반적인 SOAC 애플리케이션에서와 같이 분리되지 않을 수도 있다. 오디오의 조작을 위해, 전체 분리가 아닌 오브젝트의 "마스크"를 갖는 것이 충분할 수도 있다.

이것은 오브젝트 분리를 위한 더 적은/더 대략적인 파라미터를 유도할 수 있다.

"심야 모드"라고 하는 애플리케이션에 있어서, 오디오 엔지니어는 각 오브젝트에 대해 독립적으로 모든 메타데이터 파라미터를 정의할 필요가 있어, 예를 들어, 다이얼로그 볼륨을 일정하게 하지만 조작된 주변 노이즈를 생성한다("강화된 심야 모드").

이것은 보청기를 착용하고 있는 사람에게 또한 유용하게 될 수 있다("강화된 클린 오디오").

새로운 다운믹스 시나리오: 상이한 분리된 오브젝트가 각 특정 다운믹스 상황에서 상이하게 다루어질 수도 있다. 예를 들면, 5.1 채널 신호는 스테레오 홈 텔레비전 시스템용으로 다운믹스되어야 하고 다른 수신기는 모노 재생 시스템만을 갖는다. 따라서, 상이한 오브젝트들이 상이한 방법으로 다루어질 수도 있다(그리고 이 모두는 사운드 엔지니어에 의해 제공되는 메타데이터로 인해 생성 중에 사운드 엔지니어에 의해 제어된다).

또한 3.0 등으로의 다운믹스가 바람직하다.

생성된 다운믹스는 고정된 글로벌 파라미터(세트)에 의해 정의되지 않고, 시간 가변 오브젝트 의존 파라미터로부터 생성될 수도 있다.

새로운 오브젝트 기반 메타데이터에 의해, 가이드된 업믹스도 실행하는 것이 가능해진다.

오브젝트는 상이한 위치 예컨대, 분위기가 감쇠할 때 공간 이미지를 더 확장시키도록 위치할 수 있다. 이것이 청각 장애인에 대한 음성 명료도를 돕는다.

이 문서에서 제안된 방법은 돌비 코덱(Dolby Codecs)으로 구현되어 주로 사용되는 기존의 메타데이터 개념을 확장한다. 이제, 전체 오디오 스트림에 뿐만 아니라 이 스트림 내에서 추출된 오브젝트에도 공지된 메타데이터 개념을 적용하는 것이 가능해진다. 이것은 오디오 엔지니어 및 아티스트들에게 더욱 많은 유연성, 더 큰 범위의 조정성을 제공하므로, 청취자에게 더 나은 음질 및 즐거움을 제공한다.

도 12a, 12b는 발명의 개념의 다른 애플리케이션 시나리오를 도시한다. 고전적인 시나리오에서는, 스포츠 텔레비전 중계(Sports in Televisoin)가 있으며, 여기에서 모두 5.1 채널에서 스타디움 분위기를 갖고, 스피커 채널은 중간 채널에 맵핑된다. 이 "맵핑"은 스타디움 분위기를 반송하는 5.1 채널에 대해 존재하는 중간 채널에 스피커 채널의 간단명료한 가산에 의해 실행될 수 있다. 이제, 발명의 프로세스는 스타디움 분위기 사운드 기술에서 그러한 중간 채널을 갖는 것을 허용한다. 그 후, 가산 동작이 스피커 및 스타디움 분위기로부터의 중간 채널을 믹스한다. 스타디움 분위기로부터 중간 채널과 스피커에 대한 오브젝트 파라미터를 생성함으로써, 본 발명은 이들 2개의 사운드 오브젝트가 디코더 측에 분리시킬 수 있고, 스타디움 분위기로부터 중간 채널 또는 스피커를 증대 또는 감쇠시킬 수 있게 된다. 또 다른 시나리오는 2개의 스피커를 가질 때이다. 그러한 상황은 두 사람이 하나의 동일한 축구 게임을 논평하고 있을 때 발생할 수 있다. 구체적으로는, 동시에 소리가 나는 2개의 스피커가 존재할 때, 이들 2개의 스피커가 별개의 오브젝트로 되게 하는 것이, 그리고 또한, 이들 2개의 스피커가 스타디움 분위기 채널로부터 분리되게 하는 것이 유용할 수 있다. 그러한 애플리케이션에서, 저주파수 강화 채널(서브우퍼 채널)이 무시될 때, 5.1 채널 및 2개의 스피커 채널이 8개의 상이한 오디오 오브젝트 또는 7개의 상이한 오디오 오브젝트로서 처리될 수 있다. 5.1 채널 사운드 신호에 간단명료한 분배 인프라스트럭처가 적응되기 때문에, 7개(또는 8개)의 오브젝트가 5.1 채널 다운믹스 신호로 다운믹스될 수 있고, 오브젝트 파라미터가 5.1 다운믹스 채널에 덧붙여 제공될 수 있어, 수신기 측에서 오브젝트가 다시 분리될 수 있고 오브젝트 기반 메타데이터가 스타디움 분위기 오브젝트로부터 스피커 오브젝트를 식별한다는 사실로 인해, 오브젝트 믹서에 의한 최종 5.1 채널 다운믹스가 수신기 측에서 일어나기 전에, 오브젝트 특정 처리가 가능해진다.

이 시나리오에서, 제1 스피커를 포함하는 제1 오브젝트, 제2 스피커를 포함하는 제2 오브젝트 및 완전한 스타디움 분위기를 포함하는 제3 오브젝트를 가질 수도 있다.

이어서, 오브젝트 기반 다운믹스 시나리오의 상이한 구현예를 도 11a∼11c의 맥락에서 논의한다.

예를 들어, 도 12a 또는 12b 시나리오에 의해 생성되는 사운드가 통상적인 5.1 재생 시스템에서 리플레이되어야 할 때, 내포된 메타데이터 스트림은 무시될 수 있고, 수신된 스트림이 그대로 플레이될 수 있다. 그러나, 재생이 스테레오 스피커 셋업에서 발생해야 할 때, 5.1에서 스테레오로의 다운믹스가 발생해야 한다. 서라운드 채널이 좌측/우측에 바로 부가되면, 조정자(moderator)가 매우 작은 레벨에 있을 수 있다. 따라서, 조정자 오브젝트가 (다시) 부가되기 전에 다운믹스 전이나 후에 분위기 레벨을 감소시키는 것이 바람직하다.

청각 장애자는 "칵테일 파티 효과"로 알려져 있는 좌측/우측으로 분리된 양 스피커를 여전히 가지면서 더 나은 음성 명료도를 갖도록 분위기 레벨을 감소시키를 원할 수 있으며, 여기에서 청각 장애자는 그녀 또는 그의 이름을 들은 후 그녀 또는 그가 그녀 또는 그의 이름을 들었던 방향으로 집중한다. 이 방향 특정 집중은 음향 심리학적 관점에서 상이한 방향에서 오는 사운드를 감쇠시킨다. 따라서, 스피커가 좌측이나 우측의 사이의 중앙에 나타나도록 좌측이나 우측에서 또는 좌측이나 우측의 양측에서 스피커와 같은 특정 오브젝트의 샤프한 배치가 명료도를 증가시킨다. 이를 위해, 입력 오디오 스트림이 바람직하게는, 별개의 오브젝트로 분리되며, 여기에서 오브젝트들은 오브젝트가 중요하거나 덜 중요하다고 하는 메타데이터의 순위를 가져야 한다. 그 후, 그들 오브젝트 사이의 레벨 차이가 메타데이터에 따라 조정될 수 있거나, 오브젝트 위치가 메타데이터에 따라 명료도를 증가시키도록 재배치될 수 있다.

이 목표를 이루기 위해, 메타데이터가 송신된 신호에 적용되는 것이 아니라 메타데이터는 경우에 따라 오브젝트 다운믹스 전이나 후에 단일의 분리 가능한 오디오 오브젝트에 적용된다. 이제, 본 발명은 이들 채널이 개별적으로 조작될 수 있도록 오브젝트들이 공간 채널에 한정되어야 하는 것을 더 이상 필요로 하지 않는다. 그 대신에, 본 발명의 오브젝트 기반 메타데이터 개념은 특정 채널에 특정 오브젝트를 가질 필요가 없이, 오브젝트들이 여러 개의 채널로 다운믹스될 수 있고 개별적으로 조작될 수 있다.

도 11a는 바람직한 실시예의 또 다른 구현예를 나타낸다. 오브젝트 다운믹서(16)는 k×n개의 입력 채널 중에서 m개의 출력 채널을 생성하며, 여기에서 k는 오브젝트의 수이고 오브젝트당 n개의 채널이 생성된다. 도 11a는 도 3a, 3b의 시나리오에 대응하며, 여기에서 조작 13a, 13b, 13c가 오브젝트 다운믹스 전에 발생한다.

도 11a는 메타데이터 제어 없이 구현될 수 있는 레벨 매니퓰레이터(19d, 19e, 19f)를 더 포함한다. 이와 달리, 그러나, 이들 레벨 매니퓰레이터가 오브젝트 기반 메타데이터에 의해 제어될 수도 있으며, 블록 19d∼19f에 의해 구현되는 레벨 변형이 또한 도 1의 오브젝트 매니퓰레이터(13)의 부분이 된다. 이것은, 이들 다운믹스 동작이 오브젝트 기반 메타데이터에 의해 제어될 때, 다운믹스 동작 19a 내지 19b 내지 19c에 대해서 참이다. 그러나, 이 경우는 도 11a에 나타나지 않지만, 오브젝트 기반 메타데이터가 다운믹스 블록 19a∼19c에도 전송될 때, 구현될 수도 있다. 후자의 경우에, 이들 블록은 또한 도 11a의 오브젝트 매니퓰레이터(13)의 부분이고, 오브젝트 믹서(16)의 나머지 기능이 대응하는 출력 채널에 대한 조작된 오브젝트 성분 신호의 출력 채널 방식 결합에 의해 구현된다. 도 11a는 통상적인 메타데이터에 의해 구현될 수도 있는 다이얼로그 정규화 기능(25)을 더 포함하는데, 그 이유는 이 다이얼로그 정규화가 오브젝트 영역이 아니라 출력 채널 영역에서 발생하기 때문이다.

도 11b는 오브젝트 기반 5.1 스테레오 다운믹스의 구현예를 나타낸다. 여기에서, 다운믹스는 조작 이전에 실행되며, 따라서 도 11b는 도 4의 시나리오에 대응한다. 레벨 변경 13a, 13b가 오브젝트 기반 메타데이터에 의해 실행되며, 예를 들면, 상부 분기는 음성 오브젝트에 대응하고 하부 분기는 서라운드 오브젝트에 대응하거나, 도 12a, 12b에서의 예에서는, 상부 분기는 하나 또는 양 스피커에 대응하고 하부 분기는 모든 서라운드 정보에 대응한다. 그 후, 레벨 매니퓰레이터 블록 13a, 13b는 고정적으로 설정된 파라미터에 기초하여 양 오브젝트를 조작하여, 오브젝트 기반 메타데이터가 바로 오브젝트의 식별이지만, 레벨 매니퓰레이터(13a, 13b)가 메타데이터(14)에 의해 제공되는 타깃 레벨에 기초하여 또는 메타데이터(14)에 의해 제공되는 실제 레벨에 기초하여 레벨을 조작할 수도 있다. 따라서, 멀티채널 입력용 스테레오 다운믹스를 생성하기 위해, 각 오브젝트에 대한 다운믹스 공식이 적용되고, 오브젝트들은 그들을 출력 신호에 다시 리믹스하기 전에 주어진 레벨로 가중된다.

도 11c에 도시된 바와 같은 클린 오디오 애플리케이션에 있어서, 중요 레벨이 메타데이터로서 송신되어 덜 중요한 신호 성분의 감소를 가능하게 한다. 그 후, 다른 분기는 증폭되는 중요 성분에 대응하는 한편, 하부 분기는 감쇠될 수 있는 덜 중요한 성분에 대응할 수 있다. 상이한 오브젝트의 특정 감쇠 및/또는 증폭이 어떻게 실행되는지는 수신기에 의해 고정적으로 설정될 수 있지만, 또한 도 11c의 "건식/습식" 제어(14)에 의해 구현되는 바와 같은 오브젝트 기반 메타데이터에 의해 제어될 수도 있다.

일반적으로, 다이나믹 범위 제어는 다중 대역 압축으로서의 AAC 다이나믹 범위 제어 구현예와 유사하게 달성되는 오브젝트 영역에서 실행될 수 있다. 오브젝트 기반 메타데이터는 주파수 선택 데이터일 수도 있어, 주파수 선택 압축이 이퀄라이저 구현예와 유사하게 실행된다.

앞서 서술한 바와 같이, 다이얼로그 정규화는 바람직하게는 다운믹스에 이어서 즉, 다운믹스 신호에서 실행된다. 다운믹싱은 일반적으로 n개의 입력 채널을 갖는 k개의 오브젝트를 m개의 출력 채널로 처리할 수 있어야 한다.

오브젝트를 개별 오브젝트로 분리하는 것이 반드시 중요한 것은 아니다. 조작될 신호 성분을 "마스크 아웃(mask out)"하는 것으로 충분할 수도 있다. 이것은 이미지 처리 시의 마스크 편집과 유사하다. 그 후, 일반화된 "오브젝트"가 여러 개의 원래의 오브젝트의 중첩이며, 이 중첩은 원래의 오브젝트의 총 수보다 적은 수의 오브젝트를 포함한다. 모든 오브젝트는 최종 스테이지에서 다시 가산된다. 별개의 단일 오브젝트에는 관심이 없을 수 있으며, 몇몇 오브젝트에 대해서, 가라오케 가수가 그녀 또는 그 자신의 보컬을 나머지 악기 오브젝트에 도입할 수 있도록 보컬 오브젝트를 완전히 제거하는 것에 관심을 둘 수 있는 가라오케 애플리케이션에 대해서와 같이 특정 오브젝트가 완전히 제거되어야 하는 경우, 레벨 값이 높은 음의 dB 수치인 0으로 설정될 수도 있다.

본 발명의 다른 바람직한 애플리케이션은 앞서 서술된 바와 같이 단일 오브젝트의 다이나믹 범위가 감소될 수 있는 강화된 심야 모드이거나, 오브젝트의 다이나믹 범위가 확장되는 고 충실도 모드이다. 이 맥락에서, 송신된 신호는 압축될 수도 있고 이 압축을 반전시키는 것이 의도된다. 다이얼로그 정규화의 애플리케이션은 주로, 스피커로의 출력으로서 전체 신호에 대해 발생하는 것이 바람직하지만, 상이한 오브젝트에 대해 1차가 아닌 감쇠/증폭이 다이얼로그 정규화가 조정되는 경우 유용하다. 오브젝트 다운믹스 신호로부터 상이한 오디오 오브젝트를 분리하기 위해 파라메트릭 데이터에 덧붙여, 각 오브젝트 및 합 신호에 대해 합 신호에 관련된 고전적인 메타데이터에 덧붙여, 다운믹스를 위한 레벨 값들, 클린 오디오용의 중요 레벨을 나타내는 중요도 값, 오브젝트 식별, 시간 가변 정보로서의 실제 절대적 또는 상대적 레벨, 또는 시간 가변 정보로서의 절대적 또는 상대적 타깃 레벨 등을 송신하는 것이 바람직하다.

설명한 실시예들은 단지 본 발명의 원리에 대한 예시에 불과하다. 여기에 설명된 구성 및 상세의 변형 및 수정이 당업자에게는 명백하게 되는 것을 이해할 것이다. 따라서, 여기의 실시예들의 기술 및 설명에 의해 제공되는 특정 상세에 의해서가 아니라 바로 뒤의 특허 청구범위의 범위에 의해서만 제한되도록 의도된다.

본 발명의 방법의 특정 구현 요건에 따라, 본 발명의 방법은 하드웨어에서 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체 특히, 디스크, DVD 또는 본 발명의 방법이 실행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 전기적으로 판독 가능한 제어 신호가 저장되어 있는 CD를 이용하여 실행될 수 있다. 일반적으로, 본 발명은 머신 판독 가능한 캐리어 상에 저장되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품이며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행할 때 본 발명의 방법을 실행하기 위해 작동된다. 바꿔 말하면,

참조문헌

[1] ISO/IEC 13818-7: MPEG-2 (Generic coding of moving pictures and associated audio information) - Part 7: Advanced Audio Coding (AAC)

[2] ISO/IEC 23003-1: MPEG-D (MPEG audio technologies) - Part 1: MPEG Surround

[3] ISO/IEC 23003-2: MPEG-D (MPEG audio technologies) - Part 2: Spatial Audio Object Coding (SAOC)

[4] ISO/IEC 13818-7: MPEG-2 (Generic coding of moving pictures and associated audio information) - Part 7: Advanced Audio Coding (AAC)

[5] ISO/IEC 14496-11: MPEG 4 (Coding of audio-visual ob- jects) - Part 11: Scene Description and Application Engine (BIFS)

[6] ISO/IEC 14496-: MPEG 4 (Coding of audio-visual objects) - Part 20: Lightweight Application Scene Representation (LASER) and Simple Aggregation Format (SAF)

[7] http:/www.dolby.com/assets/pdf/techlibrary/17. AllMeta-data.pdf

[8] http:/www.dolby.com/assets/pdf/tech_library/18_Metadata.Guide.pdf

[9] Krauss, Kurt; Roden, Jonas; Schildbach, Wolfgang: Transcoding of Dynamic Range Control Coefficients and Other Metadata into MPEG-4 HE AA, AES convention 123, October 2007, pp 7217

[10] Robinson, Charles Q., Gundry, Kenneth: Dynamic Range Control via Metadata, AES Convention 102, September 1999, pp 5028

[11] Dolby, "Standards and Practices for Authoring Dolby Digital and Dolby E Bitstreams", Issue 3

[14] Coding Technologies/Dolby, "Dolby E / aacPlus Metadata Transcoder Solution for aacPlus Multichannel Digital Video Broadcast (DVB)", Vl.1.0

[15] ETSI TS101154: Digital Video Broadcasting (DVB), Vl.8.1

[16] SMPTE RDD 6-2008: Description and Guide to the Use of Dolby E audio Metadata Serial Bitstream

10 : 프로세서 11 : 오디오 입력 신호
12 : 별개의 오디오 오브젝트 신호
13 : 오브젝트 매니퓰레이터
15 : 조작된 오브젝트 정보 16 : 오브젝트 믹서
19a, 19b, 19c : 오브젝트 다운믹서

Claims

적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 장치로서:
오디오 입력 신호를 처리하여 상기 오디오 입력 신호의 오브젝트 표시를 제공하기 위한 프로세서 - 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 분리되고, 상기 적어도 2개의 상이한 오디오 오브젝트는 별개의 오디오 오브젝트 신호로서 사용 가능하며, 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 독립적으로 조작됨 - ;
적어도 하나의 오디오 오브젝트에 대해 조작된 오디오 오브젝트 신호를 얻기 위해, 상기 적어도 하나의 오디오 오브젝트에 관한 오디오 오브젝트 기반 메타데이터에 기초하여, 상기 적어도 하나의 오디오 오브젝트를 포함하는 상기 오디오 오브젝트 신호를 조작하는 오브젝트 매니퓰레이터(manipulator); 및
상기 조작된 오디오 오브젝트를, 변형되지 않은 오디오 오브젝트와 또는 상기 적어도 하나의 오디오 오브젝트와는 상이한 방식으로 조작되는 조작된 상이한 오디오 오브젝트와 결합하여 상기 오브젝트 표시를 믹스하는 오브젝트 믹서를 포함하는, 장치.
청구항 1에 있어서,
상기 오디오 입력 신호는 복수의 원래의 오디오 오브젝트의 다운믹스된 표시이고, 사이드 정보로서, 상기 다운믹스 표시에 포함되는 하나 이상의 오디오 오브젝트에 대한 정보를 갖는 오브젝트 기반 메타데이터를 포함하며,
상기 오브젝트 매니퓰레이터는 상기 오디오 입력 신호로부터 상기 오브젝트 기반 메타데이터를 추출하도록 적응되는, 장치.
청구항 1에 있어서, 상기 오브젝트 매니퓰레이터는 상기 오디오 오브젝트에 대한 오브젝트 성분 신호를 얻기 위해 상기 오브젝트에 대한 메타데이터에 기초하여 동일한 방식으로 복수의 오브젝트 성분 신호의 각각을 조작하도록 가동되고,
상기 오브젝트 믹서는 상기 출력 채널에 대한 상기 오디오 출력 신호를 얻기 위해 동일한 출력 채널에 대한 상이한 오브젝트로부터 오브젝트 성분 신호를 가산하도록 적응되는, 장치.
청구항 1에 있어서, 적어도 하나의 오디오 오브젝트의 조작에 기초하여 얻어지는 상기 오디오 출력 신호와 상기 적어도 하나의 오디오 오브젝트의 조작 없이 얻어지는 대응하는 오디오 출력 신호를 믹스하기 위한 출력 신호 믹서를 더 포함하는, 장치.
청구항 1에 있어서, 상기 메타데이터는 이득, 압축, 레벨, 다운믹스 셋업 또는 특정 오브젝트에 특정된 특성에 대한 정보를 포함하고,
상기 오브젝트 매니퓰레이터는 오브젝트 특정 방식으로 심야(midnight) 모드, 고 충실도(high fidelity) 모드, 클린 오디오 모드, 다이얼로그 정규화, 다운믹스 특정 조작, 다이나믹 다운믹스, 가이드된 업믹스(guided upmix), 음성 오브젝트의 재배치 또는 분위기 오브젝트의 감쇠를 구현하기 위해 상기 메타데이터에 기초하여 상기 오브젝트 또는 다른 오브젝트를 조작하도록 적응되는, 장치.
적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 인코딩된 오디오 신호를 생성하는 장치로서:
데이터 스트림이 상기 적어도 2개의 상이한 오디오 오브젝트의 조합을 나타내는 오브젝트 다운믹스 신호와, 사이드 정보로서, 상기 상이한 오디오 오브젝트 중 적어도 하나에 관한 메타데이터를 포함하도록 상기 데이터 스트림을 포맷하기 위한 데이터 스트림 포맷터(formatter)로서, 상기 메타데이터는, 압축에 관한 정보, 이득에 관한 정보, 다운믹스 셋업에 관한 정보, 오브젝트가 음성 오브젝트인지 또는 사운드 오브젝트인지 또는 서라운드 오브젝트인지에 관한 정보, 또는 제1 오브젝트가 제2 오브젝트보다 더 중요한 오브젝트들 사이의 순위에 관한 정보를 포함하는 것인, 스트림 포맷터, 및
상기 적어도 2개의 상이한 오디오 오브젝트의 재구성을 위한 파라메트릭(parametric) 데이터를 계산하기 위한 파라미터 계산기를 포함하는, 장치.
청구항 6에 있어서, 상기 데이터 스트림 포맷터는 사이드 정보로서, 상기 적어도 2개의 상이한 오디오 오브젝트의 재구성을 가능하게 하는 상기 파라메트릭(parametric) 데이터를 상기 데이터 스트림에 부가적으로 도입하도록 가동되는, 장치.
청구항 6에 있어서, 상기 장치는 상기 다운믹스 신호를 얻기 위해 상기 적어도 2개의 상이한 오디오 오브젝트를 다운믹스하기 위한 다운믹서, 및 상기 적어도 2개의 상이한 오디오 오브젝트에 개별적으로 관련하는 메타데이터용 입력을 더 포함하는, 장치.
적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 적어도 하나의 오디오 출력 신호를 생성하는 방법으로서:
오디오 입력 신호를 처리하여 상기 오디오 입력 신호의 오브젝트 표시를 제공하는 단계 - 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 분리되고, 상기 적어도 2개의 상이한 오디오 오브젝트는 별개의 오디오 오브젝트 신호로서 사용 가능하며, 상기 적어도 2개의 상이한 오디오 오브젝트는 서로 독립적으로 조작됨 - ;
적어도 하나의 오디오 오브젝트에 관한 오디오 오브젝트 기반 메타데이터에 기초하여 상기 적어도 하나의 오디오 오브젝트를 포함하는 상기 오디오 오브젝트 신호를 조작하여, 상기 적어도 하나의 오디오 오브젝트에 대해 조작된 오디오 오브젝트 신호를 얻는 단계; 및
상기 조작된 오디오 오브젝트를, 변형되지 않은 오디오 오브젝트와 또는 상기 적어도 하나의 오디오 오브젝트와는 상이한 방식으로 조작되는 조작된 상이한 오디오 오브젝트와 결합하여 상기 오브젝트 표시를 믹스하는 단계를 포함하는, 방법.
적어도 2개의 상이한 오디오 오브젝트의 중첩을 나타내는 인코딩된 오디오 신호를 생성하는 방법으로서:
데이터 스트림이 상기 적어도 2개의 상이한 오디오 오브젝트의 조합을 나타내는 오브젝트 다운믹스 신호와, 사이드 정보로서, 상기 상이한 오디오 오브젝트 중 적어도 하나에 관한 메타데이터를 포함하도록 상기 데이터 스트림을 포맷하는 단계로서, 상기 메타데이터는, 압축에 관한 정보, 이득에 관한 정보, 다운믹스 셋업에 관한 정보, 오브젝트가 음성 오브젝트인지 또는 사운드 오브젝트인지 또는 서라운드 오브젝트인지에 관한 정보, 또는 제1 오브젝트가 제2 오브젝트보다 더 중요한 오브젝트들 사이의 순위에 관한 정보를 포함하는 것인, 단계, 및
상기 적어도 2개의 상이한 오디오 오브젝트의 재구성을 위한 파라메트릭(parametric) 데이터를 계산하는 단계를 포함하는, 방법
컴퓨터에서 실행될 때, 청구항 9에 기재된 적어도 하나의 오디오 출력 신호를 생성하는 방법 또는 청구항 10에 기재된 인코딩된 오디오 신호를 생성하는 방법을 수행하는 컴퓨터 프로그램이 저장된 컴퓨터로 읽을 수 있는 매체.