KR102551796B1

KR102551796B1 - 프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩

Info

Publication number: KR102551796B1
Application number: KR1020187008359A
Authority: KR
Inventors: 더크 제로엔 브리바트; 데이비드 엠. 쿠퍼; 레이프 제이. 사무엘손; 제로엔 코펜스; 론다 조이 윌슨; 헤이코 푸른하겐; 알렉산더 스탈만
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2015-08-25
Filing date: 2016-08-24
Publication date: 2023-07-06
Also published as: EA202090186A2; HK1257673A1; AU2021203143B2; KR20180042397A; EP4224887A1; CA3219512A1; CN112492501B; US20240105186A1; CN108141685A; KR20230105002A; EP3342186B1; WO2017035281A2; WO2017035281A3; US10978079B2; EA201890576A1; CN112492501A; EA202090186A3; PH12018500648A1; US11798567B2; AU2023203584A1

Abstract

입력 오디오 스트림을 인코딩하기 위한 방법으로서, 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 획득하는 단계, 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 획득하는 단계, 중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하는 단계 - 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 - , 및 디코더로의 전송을 위한 제1 플레이백 스트림 프레젠테이션 및 변환 파라미터들의 세트를 인코딩하는 단계를 포함한다.

Description

프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩

이 출원은 2015년 8월 25일에 출원된 미국 가 출원 제62/209,735호 및 2015년 10월 9일에 출원된 유럽 특허 출원 제15189094.4호를 우선권 주장하며, 이들 둘 모두는 그 전체가 참조로 본원에 포함된다.

본 발명은 신호 프로세싱 분야에 관한 것이고, 특히, 공간화 컴포넌트들, 즉 상이한 공간 위치들과 연관된 오디오 컴포넌트들을 가지는 오디오 신호들의 효율적 전송을 위한 시스템을 개시한다.

명세서 전반에 걸친 배경 기술에 대한 임의의 논의는 어떤 식으로든, 이러한 기술이 그 분야의 공통적인 일반적인 지식으로 널리 알려지거나 그 일부분을 형성한다는 것을 수용하는 것으로서 고려되지는 않아야 한다.

콘텐츠 생성, 코딩, 배포 및 오디오의 재생은 전통적으로는 채널 기반 포맷으로 수행되는데, 즉, 하나의 특정 타겟 플레이백 시스템이 콘텐츠 생태계 전반에 걸친 콘텐츠에 대해 고안된다. 이러한 타겟 플레이백 시스템 오디오 포맷들의 예들은 모노, 스테레오, 5.1, 7.1 등이다.

콘텐츠가 의도된 것과는 상이한 플레이백 시스템 상에서 재생될 경우, 다운믹싱 또는 업믹싱 프로세스가 적용될 수 있다. 예를 들어, 5.1 콘텐츠는 특정 다운믹스 방정식들을 사용함으로써 스테레오 플레이백 시스템 상에서 재생될 수 있다. 또 다른 예는 7.1 스피커 셋업에 대한 스테레오 인코딩된 콘텐츠의 플레이백인데, 이는 스테레오 신호 내에 존재하는 정보에 의해 가이드될 수 있거나 가이드 될 수 없는, 소위 업믹싱 프로세스를 포함할 수 있다. 업믹싱이 가능한 시스템은 Dolby Laboratories Inc로부터의 Dolby Pro Logic이다(Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).

대안적인 오디오 포맷 시스템은 예컨대 Dolby Atmos system에 의해 제공되는 오디오 오브젝트 포맷이다(Robinson, C. Q., Mehta, S., & Tsingos, N.(2012) "Scalable format and tools to extend the possibilities of cinema audio" Motion Imaging Journal, SMPTE, 121(8), 63-69를 참조). 이러한 타입의 포맷에서, 오브젝트들은 청취자 주위의 특정한 위치를 가지도록 정의되는데, 이는 시간 가변적일 수 있다. 이러한 오브젝트-기반 포맷에서, 콘텐츠는 특정한 플레이백 또는 재생 시스템에 대해 불변적인 방식으로 표현된다. 결과적으로, 콘텐츠를 라우드스피커 셋업 또는 헤드폰들과 같은 특정 플레이백 시스템에 적합한 프레젠테이션으로 변환하기 위해 전용 렌더링 프로세스가 요구된다.

스테레오, 멀티-채널 또는 오브젝트-기반 콘텐츠가 헤드폰들 상에서 재생될 때, 헤드-관련 임펄스 응답(HRIR)들 또는 바이너럴 룸 임펄스 응답(BRIR)들에 의해 멀티-채널 스피커 셋업(채널-기반 콘텐츠의 경우) 또는 가상 음원들의 세트(오브젝트-기반 콘텐츠의 경우)을 시뮬레이트하는 것이 종종 바람직한데, 이는 각자, 무반향 또는 반향(시뮬레이트된) 환경에서, 각각의 라우드스피커로부터 고막들까지의 음향적 경로를 시뮬레이트한다. 특히, 오디오 신호들은 HRIR들 또는 BRIR들과 컨벌브되어(convolve) 청취자가 각각의 개별 채널의 위치를 결정하게 하는 ILD(inter-aural level difference)들, ITD(inter-aural time difference)들 및 스펙트럼 큐들을 복귀시킬 수 있다. 음향 환경(잔향)의 시뮬레이션은 또한 특정 인지 거리를 달성하는 것을 돕는다. 도 1을 참조하면, 4개의 HRIR(예를 들어, 14)을 프로세싱하기 위한 콘텐츠 스토어(12) 밖에서 판독되는, 2개의 오브젝트 또는 채널 신호(x_i)를 렌더링하기 위한 프로세싱 흐름(10, 11)의 개략적 개요가 예시된다. HRIR 출력들은 이후, 헤드폰들(18)을 통해 청취자에게로의 플레이백을 위한 헤드폰 출력들을 생성하기 위해, 각각의 채널 신호에 대해, 합산된다(15, 16). HRIR들의 기본 원리는, 예를 들어, Wightman, F. L., and Kistler, D. J. (1989b). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867에 설명되어 있다. 결과적인 스테레오 헤드폰 신호(15, 16)는 종종 바이너럴 신호, 바이너럴 프레젠테이션, 또는 (바이너럴) 헤드폰 프레젠테이션이라 지칭된다. 또한, 이러한 바이너럴 프레젠테이션은 라우드스피커 프레젠테이션 신호(들) 내에 존재하는 채널들에 매치하는 라우드스피커 셋업 상에서 재생되도록 의도되는 라우드스피커 프레젠테이션과는 대조적으로, 헤드폰들을 통해 재생되도록 의도된다(또는 구체적으로 설계된다). 이러한 상이한 재생 시스템들은 모달리티(modality)들이라 지칭되는데, 예를 들어, 하나의 플레이백 모달리티는 헤드폰들로 구성되는 반면, 또 다른 플레이백 또는 재생 모달리티는 하나 이상의 라우드스피커를 포함한다. 플레이백 모달리티와는 무관하게, 상이한 프레젠테이션들(스테레오, 바이너럴, 5.1)은 멀티-채널 또는 오브젝트-기반 콘텐츠 포맷과 같은 입력 스트림으로부터 렌더링된다(생성된다). 이상적으로는, 예술적 의도가 청취자에게 정확하게 전달됨을 보장하기 위해, 프레젠테이션들이 특정 플레이백 모달리티들에 대해 렌더링되거나 생성된다. 헤드폰 플레이백에 대해, 이는 바이너럴 프레젠테이션을 생성하기 위한 HRIR들 또는 BRIR들의 적용을 내포하는 반면, 라우드스피커들에 대해, 진폭 패닝 기법들이 공통적으로 사용된다. 따라서 이러한 렌더링 프로세스는 채널-기반 입력 콘텐츠(5.1, 7.1 등) 뿐만 아니라 Dolby Atmos와 같은 몰입형의, 오브젝트-기반 콘텐츠에 적용될 수 있다. 후자에 대해, 진폭 패닝(라우드스피커 프레젠테이션들에 대해) 또는 BRIR들(헤드폰 프레젠테이션들에 대해)이 통상적으로, 개별 오브젝트 기여들의 결과적인 바이너럴 신호로의 합산에 선행하여, 독립적으로 모든 입력 오브젝트에 대해 사용된다.

헤드폰들 상에서의 플레이백을 위해 의도되는 바이너럴 프레젠테이션을 생성하기 위한 컨볼루션 프로세스는, (무반향) HRTF들 내에 존재하는 음원 위치결정 큐들(sound source localization cues)이, 입력 채널 또는 오브젝트의 (의도된, 인지된) 위치에 따라, 독립적으로 모든 입력에 대해 복귀되는 반면, 반향 시뮬레이트된 환경은, 적어도 부분적으로는, 입력들 중 2개 이상에 걸쳐 공통 알고리즘에 의해 공유될 수 있다. 이러한 목적으로, 하나 이상의 입력 신호는 하나 이상의 환경 시뮬레이션 알고리즘 입력 신호로 믹스되거나 결합되는데, 이는 후속적으로 프로세싱되어 무반향 HRTF 컨볼루션 프로세스의 출력과 결합될 수 있는 환경 시뮬레이션 출력 신호들을 생성한다. 환경 시뮬레이션 알고리즘은 조기 반사들, 추후 잔향들, 또는 둘 모두를 시뮬레이트할 수 있고, 컨볼루션, 지연들, 피드백-지연 네트워크들, 전역 통과 필터들 등과 같은 공지된 기법들에 의해 구현될 수 있다.

HRIR/BRIR 컨볼루션 접근법은 몇몇 결함들을 수반하는데, 그 중 하나는 헤드폰 플레이백을 위해 요구되는 상당량의 컨볼루션 프로세싱이다. HRIR 또는 BRIR 컨볼루션은 모든 입력 오브젝트 또는 채널에 대해 별도로 적용될 필요가 있고, 따라서 복잡성은 통상적으로 채널들 또는 오브젝트들의 수에 따라 선형적으로 커진다. 헤드폰들이 종종 배터리-전력공급형 휴대용 디바이스들과 함께 종종 사용됨에 따라, 높은 계산적 복잡성은 그것이 배터리 수명을 실질적으로 단축시킬 수 있음에 따라 바람직하지 않다. 또한, 소위 100개 초과의 활성인 오브젝트들을 동시에 포함할 수 있는 오브젝트-기반 오디오 콘텐츠의 도입과 더불어, HRIR 컨볼루션의 복잡성은 전통적인 채널-기반 콘텐츠에 대해서보다 실질적으로 더 높을 수 있다.

디코더-측 계산 부하를 감소시키기 위한 하나의 해법은 프로세싱 체인에서 추가적인 업스트림을 컨볼루션 프로세스들에 적용하는 것이다. 예를 들어, 콘텐츠 생성 또는 인코딩 스테이지 동안. '바이너럴 사전-렌더링'이라 지칭되는 이러한 특정한 경우, 사전-렌더링 스테이지 동안 생성되는 결과적인 바이너럴 신호 또는 바이너럴 프레젠테이션은 헤드폰 플레이백을 위해 의도되는 모든 위치결정 큐들을 포함하며, 재생 디바이스에서 어떠한 추가적인 프로세싱도 요구되지 않는다. 이 방법의 결함은 HRIR들 내에 존재하는 유입된 음원 위치결정 큐들(예컨대, ITD(interaural time difference)들, ILD(interaural level difference)들, 스펙트럼 큐들 및 잔향)이 이러한 특정한 바이너럴 프레젠테이션이 라우드스피커들 상에서 재생될 때 인지되는 품질을 저하시킨다는 것인데, 왜냐하면 이러한 위치결정 큐들이 이후, 라우드스피커들과 청취자의 귀 사이의 음향 경로의 결과, 사실상 두번; 한번은 사전-렌더링 단계에 의해 알고리즘 방식으로, 그리고 한번은 음향적으로 적용될 것이기 때문이다.

본 발명의 목적은 그것의 바람직한 형태로, 재생을 위한 오디오 신호들의 인코딩 및 디코딩의 개선된 형태를 제공하는 것이다.

본 발명의 제1 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 입력 오디오 스트림을 인코딩하는 방법이 제공되며, 여기서 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 방법은 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 획득하는 단계 - 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 -, 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 획득하는 단계 - 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트임 -, 중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하는 단계 - 중간 플레이백 스트림 프레젠테이션은 제1 플레이백 스트림 프레젠테이션, 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 - , 및 디코더로의 전송을 위한 제1 플레이백 스트림 프레젠테이션 및 전송 파라미터들의 세트를 인코딩하는 단계를 포함한다.

본 발명의 제2 양태에 따르면, 데이터 스트림으로부터 플레이백 스트림 프레젠테이션들을 디코딩하는 방법이 제공되며, 방법은 제1 플레이백 스트림 프레젠테이션을 수신 및 디코딩하는 단계 - 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 - , 중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 수신 및 디코딩하는 단계 - 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트이고, 중간 플레이백 스트림 프레젠테이션은 제1 플레이백 스트림 프레젠테이션, 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정이 최소화됨을 보장함 - , 및 변환 파라미터들을 중간 플레이백 스트림 프레젠테이션에 적용하여 제2 플레이백 스트림 프레젠테이션의 근사치를 생성하는 단계를 포함한다.

이 디코딩 방식을 이용하여, 데이터 스트림은 제1 오디오 플레이백 스트림 프레젠테이션 및 제2 오디오 플레이백 스트림 프레젠테이션 둘 모두를 디코딩하기에 충분한 정보를 포함할 것이다. 원하는 출력 오디오 재생 시스템이 제1 오디오 재생 시스템에 대응하는 경우, 제1 프레젠테이션이 직접 사용될 수 있다. 반면, 원하는 출력 오디오 재생 시스템이 제2 오디오 재생 시스템에 대응한다고 결정되는 경우, 변환 파라미터들이 사용되어 제2 프레젠테이션을 획득할 수 있다.

일부 실시예들에서, 제1 오디오 재생 시스템은 고정된 공간 위치들에서 일련의 스피커들을 포함할 수 있고, 제2 오디오 재생 시스템은 청취자들의 귀에 인접한 헤드폰들의 세트를 포함할 수 있다. 제1 또는 제2 플레이백 스트림 프레젠테이션은 반향 또는 무반향 바이너럴 프레젠테이션일 수 있다.

변환 파라미터들은 바람직하게는 시간 가변적이며 주파수 종속적이다.

변환 파라미터들은 바람직하게는: 제1 플레이백 스트림 프레젠테이션과 제2 플레이백 스트림 프레젠테이션에 적용되는 변환 파라미터들의 결과 사이의 차이의 측정의 최소화에 의해 결정된다.

본 발명의 또 다른 양태에 따르면, 데이터 스트림으로서 오디오 채널들 또는 오디오 오브젝트들을 인코딩하기 위한 방법이 제공되며, 방법은: N 개의 입력 오디오 채널 또는 오브젝트를 수신하는 단계; N 개의 입력 오디오 채널 또는 오브젝트의 조합들을 형성함으로써 M 개의 신호의 세트를 계산하는 단계 - 여기서 M ≤ N이고, M 개의 신호의 세트는 제1 오디오 재생 시스템 상에서의 재생을 위해 의도됨 - ; 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M 개의 신호의 세트를 제2 오디오 재생 시스템 상에서의 근사화 재생으로 변환하는 시간 가변 변환 파라미터들(W)의 세트를 계산하는 단계 ― 근사화 재생은 제2 재생 시스템 상에서의 N 개의 입력 오디오 채널 또는 오브젝트의 재생에 의해 생성되는 임의의 공간화 효과들을 근사화시킴 ― ; 및 M 개의 신호 및 변환 파라미터(W)를 디코더로의 전송을 위한 데이터 스트림에 결합하는 단계를 포함한다.

일부 실시예들에서, 변환 파라미터들은 제1 플레이백 스트림 프레젠테이션에 직접 인가되어 제2 플레이백 스트림 프레젠테이션의 상기 근사화를 형성할 수 있는 M1xM2 이득 행렬을 형성한다. 일부 실시예들에서, M1은 M2와 동일한데, 즉, 제1 및 제2 프레젠테이션들 모두 동일한 개수의 채널들을 가진다. 특정 경우에서, 제1 및 제2 프레젠테이션들 모두는 스테레오 프레젠테이션들인데, 즉, M1=M2=2이다.

인코더 내에서 인코딩되는 제1 프레젠테이션 스트림이 멀티채널 라우드스피커 프레젠테이션, 예를 들어, 5.1, 7.1, 5.1.2, 5.1.4, 7.1.2, 또는 7.1.4 프레젠테이션과 같은 서라운드 또는 몰입형(3D) 라우드스피커 프레젠테이션일 수 있다는 것이 본 기술분야의 통상의 기술자에 의해 인지될 것이다. 이러한 상황에서, 계산적인 복잡성의 증가를 회피하거나 최소화시키기 위해, 본 발명의 일 실시예에 따라, 변환 파라미터들의 세트를 결정하는 단계는 제1 플레이백 스트림 프레젠테이션을 더 적은 채널들을 가지는 중간 프레젠테이션으로 다운믹싱하는 것을 포함할 수 있다.

특정 예에서, 중간 프레젠테이션은 2-채널 프레젠테이션이다. 이 경우, 따라서 변환 파라미터들은 중간 2-채널 프레젠테이션을 제2 플레이백 스트림 프레젠테이션으로 변환하기에 적합하다. 제1 플레이백 스트림 프레젠테이션은 서라운드 또는 몰입형 라우드스피커 프레젠테이션일 수 있다.

데이터 스트림은 다이얼로그 신호 추정 파라미터들을 더 포함할 수 있고, 방법은: 다이얼로그 신호 추정 파라미터들을 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 신호들에 적용하여 하나 이상의 추정된 다이얼로그 신호를 생성하는 단계; 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 신호들로부터 하나 이상의 추정된 다이얼로그 신호를 차감하여 다이얼로그 감소된 중간 신호를 생성하는 단계; 다이얼로그 감소된 중간 신호를 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및 하나 이상의 시뮬레이트된 음향 환경 신호를 제2 오디오 재생 시스템 상에서의 재생에 적합한 오디오 스트림과 결합하는 단계를 더 포함한다.

데이터 스트림은 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 더 포함할 수 있고, 방법은: 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 신호들에 적용하여 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계; 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및 하나 이상의 시뮬레이트된 음향 환경 신호를 제2 오디오 재생 시스템 상에서의 재생에 적합한 오디오 스트림과 결합하는 단계를 더 포함한다.

바람직하게는, 하나 이상의 시뮬레이트된 음향 환경 신호는: 조기 반사 신호들 및 추후 잔향 신호들 중 하나 이상을 포함할 수 있다. 음향 환경 시뮬레이션 프로세스는: 조기 반사 시뮬레이션 프로세스 및 추후 잔향 시뮬레이션 프로세스 중 하나 이상을 포함할 수 있다. 조기 반사 시뮬레이션 프로세스는 지연 엘리먼트를 통해 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함할 수 있다. 일부 실시예들에서, 추후 잔향 시뮬레이션 프로세스는 피드백 지연 네트워크를 통해 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함할 수 있다.

데이터 스트림은 바람직하게는 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 포함할 수 있고, 방법은: 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 신호들에 적용하여 하나 이상의 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계; 하나 이상의 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호를 추가적인 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 추가적인 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및 하나 이상의 추가적인 시뮬레이트된 음향 환경 신호를: 하나 이상의 시뮬레이트된 음향 환경 신호들 및 제2 오디오 재생 시스템 상에서의 재생에 적합한 오디오 스트림 중 하나 이상과 결합하는 단계를 더 포함한다.

음향 환경 시뮬레이션 프로세스는 하나 이상의 파라미터에 응답하여 구성될 수 있고, 파라미터들은 사용자 설정들 및 데이터 스트림에 포함되는 정보 중 하나 이상에 의존한다.

본 발명의 또 다른 양태에 따르면, 하나 이상의 오디오 컴포넌트를 가지는 입력 오디오 스트림을 인코딩하기 위한 인코더가 제공되고, 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 인코더는, 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 렌더링하기 위한 제1 렌더링 유닛 ― 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 ― , 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 렌더링하기 위한 제2 렌더링 유닛 ― 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트임 ― , 중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하기 위한 변환 파라미터 결정 유닛 ― 중간 플레이백 스트림 프레젠테이션은 제1 플레이백 스트림 프레젠테이션, 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 ― , 및 디코더로의 전송을 위한 제1 플레이백 스트림 프레젠테이션 및 변환 파라미터들의 세트를 인코딩하기 위한 인코딩 유닛을 포함한다.

본 발명의 또 다른 양태에 따르면, 데이터 스트림으로부터 플레이백 스트림 프레젠테이션들을 디코딩하기 위한 디코더가 제공되고, 디코더는:

제1 플레이백 스트림 프레젠테이션을 수신 및 디코딩하고 - 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 -,

중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 수신 및 디코딩

하도록 구성되는 코어 디코더 유닛을 포함하고, 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트이고, 중간 플레이백 스트림 프레젠테이션은 제1 플레이백 스트림 프레젠테이션, 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정이 최소화됨을 보장한다.

디코더는 변환 파라미터들을 중간 플레이백 스트림 프레젠테이션에 적용하여 제2 플레이백 스트림 프레젠테이션의 근사치를 생성하기 위한 행렬 곱셈기를 더 포함한다.

본 발명의 추가적인 양태에 따르면, 데이터 스트림으로부터 일련의 오디오 채널들 및/또는 오디오 오브젝트들의 디코딩을 위한 디코더가 제공되고, 데이터 스트림은 제1 오디오 재생 시스템 상에서의 재생을 위한 M개 신호의 세트 및 제2 오디오 재생 시스템 상에서의 재생을 위한 M 개의 신호를 변환하도록 적응되는 변환 파라미터들(W)을 포함하고, 디코더는: 데이터 스트림으로부터 M 개의 신호와 W개의 변환 파라미터를 분리하기 위한 코어 디코더 유닛 - M 개의 신호는 적어도 높은 주파수 대역 및 낮은 주파수 대역으로 분리됨 - ; W개의 변환 파라미터를 M 개의 신호에 적용하여 주파수 분리된 출력 신호들의 세트를 생성하기 위한 행렬 곱셈기; 및 주파수 분리된 출력 신호들의 세트를 제2 오디오 재생 시스템 상에서의 재생에 적합한 일련의 시간 도메인 출력 신호들로 변환하도록 적응되는 역변환 유닛을 포함한다.

일부 실시예들에서, 디코더는: 역 변환 유닛에 의한 변환 이전에 주파수 분리된 출력 신호들의 세트에 잔향을 추가하도록 적응되는 잔향 유닛을 더 포함할 수 있다.

일부 실시예들에서, 제1 오디오 재생 시스템은 스피커들의 세트를 포함할 수 있고, 제2 오디오 재생 시스템은 헤드폰들의 세트를 포함할 수 있고, 변환 파라미터들(W)은, 제2 플레이백 스트림 프레젠테이션이 반향 또는 무반향 바이너럴 프레젠테이션이라는 의미에서, 주파수 분리된 출력 신호들의 세트의 바이너럴화(binauralization)를 제공한다.

본 발명의 추가적인 양태에 다르면, 하나 이상의 오디오 컴포넌트를 가지는, 입력 오디오 스트림을 인코딩하기 위한 인코더가 제공되고, 각각의 오디오 컴포넌트는 공간 위치와 연관되며, 시스템은: 제1 플레이백 스트림 프레젠테이션을 출력하는, 제1 플레이백 모달리티에 대한 입력 오디오 스트림을 인코딩하기 위한 제1 인코딩 유닛; 제1 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션에 매핑하기 위한 일련의 변환 파라미터들을 결정하기 위한 변환 파라미터 결정 유닛; 및 제1 플레이백 스트림 프레젠테이션 및 변환 파라미터들을 출력 인코딩 스트림으로 인코딩하기 위한 제2 인코딩 유닛을 포함한다.

변환 파라미터 결정 유닛은 원하는 제2 플레이백 스트림 프레젠테이션과, 일련의 변환 파라미터들의 제1 플레이백 스트림 프레젠테이션으로의 적용 사이의 에러 측정의 크기의 최소화를 통해, 일련의 변환 파라미터들을 결정한다. 일련이라는 것은 시간 가변 변환 파라미터들 및/또는 주파수-종속적 변환 파라미터들을 갖는 특성을 지칭할 수 있다. 제2 플레이백 스트림 프레젠테이션은 헤드폰 플레이백을 위한 바이너럴화된 오디오를 포함할 수 있다.

본 발명의 추가적인 양태에 따르면, 헤드폰들 상에서의 프레젠테이션을 위한 오디오 신호를 생성하는 방법이 제공되며, 방법은: 인코딩된 무반향 바이너럴 신호 및 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 포함하는 데이터 스트림을 수신하는 단계; 인코딩된 무반향 바이너럴 신호를 디코딩하여 디코딩된 무반향 바이너럴 신호를 생성하는 단계; 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 디코딩된 무반향 바이너럴 신호에 적용하여 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계; 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및 하나 이상의 시뮬레이트된 음향 환경 신호 및 디코딩된 무반향 바이너럴 신호를 결합하여 헤드폰들 상에서의 프레젠테이션을 위한 오디오 신호를 생성하는 단계를 포함한다.

일부 실시예들에서, 하나 이상의 시뮬레이트된 음향 환경 신호는 바람직하게는: 조기 반사 신호들 및 추후 잔향 신호들 중 하나 이상이다. 음향 환경 시뮬레이션 프로세스는: 조기 반사 시뮬레이션 프로세스 및 추후 잔향 시뮬레이션 프로세스 중 하나 이상을 포함할 수 있다. 조기 반사 시뮬레이션 프로세스는 지연 엘리먼트를 통해 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함할 수 있다. 추후 잔향 시뮬레이션 프로세스는 피드백 지연 네트워크를 통해 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함할 수 있다.

데이터 스트림은 바람직하게는 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 포함할 수 있고, 방법은: 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 디코딩된 무반향 바이너럴 신호에 적용하여 하나 이상의 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계; 하나 이상의 추가적인 음향 환경 시뮬레이션 프로세스 입력 신호를 추가적인 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 추가적인 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및 하나 이상의 추가적인 시뮬레이트된 음향 환경 신호를: 하나 이상의 시뮬레이트된 음향 환경 신호들 및 디코딩된 무반향 바이너럴 신호 중 하나 이상과 결합하는 단계를 더 포함할 수 있다.

본 발명의 추가적인 양태에 따르면, 헤드폰들 상에서의 프레젠테이션을 위한 오디오 신호를 생성하기 위한 디코더가 제공되고, 디코더는: 인코딩된 무반향 바이너럴 신호 및 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 포함하는 데이터 스트림을 수신하고; 인코딩된 무반향 바이너럴 신호를 디코딩하여 디코딩된 무반향 바이너럴 신호를 생성하고; 음향 환경 시뮬레이션 프로세스 입력 신호 생성 파라미터들(W(W_F, W_E))을 디코딩된 무반향 바이너럴 신호에 적용하여 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하고; 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하고; 그리고 하나 이상의 시뮬레이트된 음향 환경 신호 및 디코딩된 무반향 바이너럴 신호를 결합하여 헤드폰들 상에서의 프레젠테이션을 위한 오디오 신호를 생성하도록 구성되는, 하나 이상의 프로세서를 포함한다.

발명의 실시예들이 이제, 첨부 도면들에 관해, 단지 예시로써 기술될 것이다.
도 1은 2개의 소스 오브젝트에 대한 HRIR 컨볼루션 프로세스의 개략적 개요를 예시하며, 각각의 채널 또는 오브젝트는 한 쌍의 HRIR들/BRIR들에 의해 프로세싱된다.
도 2는 라우드스피커들 상에서 재생되는 바이너럴 사전-렌더링된 콘텐츠를 개략적으로 예시한다(종래 기술).
도 3은 라우드스피커들 상에서 재생되는 바이너럴 사전-렌더링된 콘텐츠를 개략적으로 예시한다.
도 4는 헤드폰 재생을 위한 라우드스피커 프레젠테이션을 프로세싱하기 위한 계수들(w)의 생성을 개략적으로 예시한다.
도 5는 코어 디코더 출력으로부터 (추가적인 벌크 지연 스테이지를 갖는) 하나의 조기 반사 및 무반향 신호를 재구성하기 위해 사용되는 계수들(W(W_E))을 개략적으로 예시한다.
도 6은 코어 디코더 출력으로부터 무반향 신호 및 FDN 입력 신호를 재구성하기 위해 사용되는 계수들(W(W_F))을 사용하는 프로세스를 개략적으로 예시한다.
도 7은 헤드폰들 및 라우드스피커들에 대한 무반향 프레젠테이션을 프로세싱하기 위한 계수들(w)의 생성 및 프로세싱을 개략적으로 예시한다.
도 8a-8b는 본 발명의 추가적인 실시예에 따른 인코더/디코더의 개략적 블록도들이다.
도 9a는 본 발명의 추가적인 실시예에 따른 디코더의 개략적 블록도이다.
도 9b는 도 9a에서의 디코더의 간략화된 버전의 개략적 블록도이다.

실시예들은 라우드스피커 및 헤드폰(바이너럴) 플레이백에 적합한 채널 및/또는 오브젝트 기반 오디오의 낮은 비트 레이트, 낮은 복잡성 표현을 위한 방법을 제공한다. 이는 (1) 특정 플레이백 재생 시스템(예를 들어, 라우드스피커들, 그러나 이에 제한되지 않음)에 대해 의도되는 렌더링을 생성 및 인코딩하고, (2) 그 특정 렌더링의 또 다른 재생 시스템(예를 들어, 헤드폰들)에 적합한 수정된 렌더링으로의 변환을 허용하는 추가적인 메타데이터를 추가함으로써 달성된다. 특정 렌더링은 제1 오디오 플레이백 스트림 프레젠테이션이라 지칭될 수 있는 반면, 수정된 렌더링은 제2 오디오 플레이백 스트림 프레젠테이션이라 지칭될 수 있다. 제1 프레젠테이션은 M1 개의 채널의 세트를 가질 수 있는 반면, 제2 프레젠테이션은 M2 개의 채널의 세트를 가질 수 있다. 채널들의 수는 동일하거나(M1=M2) 또는 상이할 수 있다. 메타데이터는 파라미터들의 세트의 형태일 수 있고, 가능하게는 시간 및 주파수 가변적일 수 있다.

일 구현예에서, 변환 메타데이터는, 조기 반사들 및 추후 잔향을 포함할 가능성을 가지고, 스테레오 라우드스피커 렌더링을 바이너럴 헤드폰 렌더링으로 변환하기 위한 수단을 제공한다. 또한, 오브젝트-기반 오디오 콘텐츠에 대해, 가상 음향 속성들, 특히 추후 잔향의 (상대적) 레벨 및/또는 하나 이상의 조기 반사의 레벨, 스펙트럼 및 시간적 특성들은 오브젝트별 기반으로 제어될 수 있다.

실시예들은 하나 이상의 재생 시스템 상에서의 재생을 가이드하는 메타데이터에 의한 아티팩트들의 제거 및/또는 재생 품질의 개선 및 예술적 의도의 유지에 관한 것이다. 특히, 실시예들은, 재생 시스템 레이아웃이 콘텐츠 생성동안 예상되는 의도된 레이아웃에 대응하지 않을 때 재생의 품질을 개선하는 오브젝트, 채널 또는 하이브리드 신호 표현을 가지는 메타데이터를 포함한다. 따라서, 메타데이터의 결과로서의 애플리케이션 및/또는 효과는 의도되는 실제 재생 시스템들에 의존할 것이다.

라우드스피커들 상에서 재생되는 바이너럴 사전- 렌더링된 콘텐츠

배경 섹션에서 기술된 바와 같이, 라우드스피커들 상에서의 바이너럴 사전-렌더링된 콘텐츠의 재생은, HRIR들 또는 BRIR들에 본질적으로 존재하는 스펙트럼 큐들이 두 번; 사전-렌더링 동안 한번, 그리고 음향 환경에서의 플레이백 동안 또 한번 적용된다는 사실로 인해 부자연스러운 음색(timbre)을 초래할 수 있다. 또한, 바이너럴 사전-렌더링된 콘텐츠의 이러한 재생은 본질적으로 역시 두 번 적용되는 방위 위치결정 큐(azimuthal localization cue)들을 가져서, 부정확한 공간적 이미지 및 위치결정 에러들을 야기할 것이다.

도 2는 이러한 형태의 프로세싱(20)을 예시한다. 채널 또는 오브젝트(21)는 초기에는 인코딩(25) 이전에 HRIR(23)과 컨볼빙된다(22). 따라서, 인코딩 이전에, 채널 또는 오브젝트-기반 콘텐츠는 HRIR 또는 BRIR 프로세싱에 의해 라우드스피커 재생 시뮬레이션을 거친다. 결과적으로, 프로세싱된 신호가 인코딩되고(25), 디코딩되고(26), 라우드스피커들 상에서 재생되어(27), 전술된 아티팩트들을 유입한다.

스피커들로부터 고막들까지의 음향 경로를 두 번 적용하는 것으로부터 초래되는 스펙트럼 아티팩트들은, 적어도 부분적으로는, 디코딩 또는 재생 동안 주파수-종속적 이득 또는 감쇠를 적용함으로써 보상될 수 있다. 이러한 이득 또는 감쇠 파라미터들은 후속적으로 인코딩되어 콘텐츠와 함께 포함될 수 있다. 헤드폰 재생을 위해, 이러한 파라미터들은 폐기될 수 있는 반면, 라우드스피커들 상에서의 재생을 위해, 인코딩된 이득들이 재생 이전에 신호들에 적용된다.

하나의 형태의 적절한 결과적 프로세싱 흐름(30)이 도 3에 도시된다. 이 방식에서, 플레이백이 라우드스피커들에 대해 의도될 때, 이득 메타데이터는 렌더링이 생성될 때 미리계산된다(31). 이 메타데이터는 바이너럴방식으로 프로세싱되는 신호들을 이용하여 인코딩된다. 디코딩동안 메타데이터 정보 역시 디코딩된다(32). 이는 이득을 디코딩된 신호에 적용하기 위해(33) 그 후 사용되어 아티팩트들의 중요성을 감소시킨다. 반면, 헤드폰 플레이백에 대해, 스테이지들(31-33)이 요구되지 않으며(폐기되며), 디코딩된 정보는 헤드폰 재생에 대해 직접 적용될 수 있다.

구현예

일 구현예에서, 이득 메타데이터를 계산하기 위해(31), 이산-시간 인덱스

및 입력 인덱스

를 가지는 입력 신호들

가 시간 및 주파수 타일들에서 분석된다. 입력 신호들

각각은 시간 프레임들로 분해될 수 있고, 각각의 프레임은, 차례로 주파수 대역들로 분할되어 시간/주파수 타일들을 구성할 수 있다. 주파수 대역들은, 예를 들어, 직교 미러 필터(QMF) 뱅크와 같은 필터 뱅크, 이산 푸리에 변환(DFT), 이산 코사인 변환(DCT), 또는 입력 신호들을 여러 주파수 대역들로 분할하기 위한 임의의 다른 수단에 의해 달성될 수 있다. 이러한 변환의 결과는 인덱스 i 및 이산-시간 인덱스 n를 가지는 입력에 대한 입력 신호

가 시간 슬롯(또는 프레임) k 및 서브대역 b에 대해 서브-대역 신호들

로 표현된다는 것이다. 시간/주파수 타일(K,B) 내의 단기 에너지는:

에 의해 주어지고, 주파수(b) 및 시간(k) 인덱스들의 B, K 세트들은 원하는 시간/주파수 타일에 대응한다.

바이너럴 신호들(y_l[n], y_r[n])의 이산-시간 도메인 표현은, 좌측 및 우측 귀에 대해, 각자:

에 의해 주어지고,

, HRIR 또는 BRIR은 각자 좌측 및 우측 귀들에 대한, 입력 인덱스 i에 대응한다. 다시 말해, 바이너럴 신호 쌍(y_l[n], y_r[n])은 입력들에 걸친 컨볼루션 및 합산의 조합에 의해 생성될 수 있다. 후속적으로, 이러한 바이너럴 신호들은 신호들

에 적용된 것과 동일한 프로세스를 사용하여 시간/주파수 타일들로 전환될 수 있다. 이러한 주파수-도메인 바이너럴 신호들에 대해, 시간/주파수 타일(K,B) 내의 단기 에너지는 따라서:

로서 계산될 수 있다.

이득 메타데이터 w(K,B)가 분자 내의 입력 오브젝트들 i에 걸쳐 그리고 분모 내의 바이너럴 신호들 j에 걸쳐 합산되는 각각의 시간/주파수 타일 내의 에너지 보존에 기반하여 이제 구성될 수 있다:

메타데이터 w(K,B)는 후속적으로 양자화되고, 인코딩되고, 오디오 코덱 비트 스트림 내에 포함될 수 있다. 디코더는 이후 메타데이터 w(K,B)를 신호들(y_l 및 y_r)(입력 프레젠테이션) 모두의 프레임(K) 및 대역(B)에 적용하여 출력 프레젠테이션을 생성할 것이다. y_l 및 y_r 모두에 적용되는 공통 w(K,B)의 이러한 사용은 입력 프레젠테이션의 스테레오 균형이 유지됨을 보장한다.

바이너럴 신호들(y_l[n], y_r[n])이 시간-도메인 컨볼루션에 의해 생성되는 전술된 방법 이외에도, 바이너럴 렌더링 프로세스는 또한 주파수 도메인에 적용될 수 있다. 다시 말해, 시간 도메인에서 바이너럴 신호들(y_l[n], y_r[n])을 먼저 계산하는 것 대신에, 대신, 입력 신호들(x_i[n])을 주파수-도메인 표현으로 전환시키고, 주파수 도메인에서 HRIR 컨볼루션 프로세스를 적용하여, 예를 들어, 주파수-도메인 고속 컨볼루션 방법들에 의해, 바이너럴 신호들(

)의 주파수-도메인 표현을 생성할 수 있다. 이러한 방식에서, 바이너럴 신호들(

)의 주파수-도메인 표현은 이러한 신호들이 시간 도메인에서 생성될 것을 요구하지 않고도 획득되며, 시간-도메인 바이너럴 신호들에 적용될 필터뱅크 또는 변환을 요구하지 않는다.

무반향 바이너럴 렌더링을 포함하는, 헤드폰들 상에서 재생되는 스테레오 콘텐츠

이 구현예에서, 라우드스피커 플레이백을 위해 의도되는 스테레오 신호는, 헤드폰들 상에서 그 라우드스피커 신호의 플레이백을 향상시키기 위한 추가적인 데이터를 이용하여 인코딩된다. 입력 오브젝트들 또는 채널들의 세트(x_i[n])가 주어지면, 라우드스피커 신호들의 세트(z_s[n])는 통상적으로 스피커(s)에 대한 오브젝트(i)의 이득을 나타내는, 진폭 패닝 이득(g_i,s)에 의해 통상적으로 생성된다:

채널-기반 콘텐츠에 대해, 진폭 패닝 이득(g_i,s)은 통상적으로 일정한 반면, 오브젝트의 의도된 위치가 시간 가변 오브젝트 메타데이터에 의해 제공되는 오브젝트-기반 콘텐츠에 대해, 이득은 결과적으로 시간 가변적일 것이다.

인코딩되고 디코딩될 신호들(z_s[n])이 주어지면, 계수들(w)의 세트가 신호들(z_s[n])에 적용되는 경우,

로서 구성되는 결과적인 수정된 신호들

이:

에 따라 원래 입력 신호들(x_i[n])의 바이너럴 프레젠테이션에 가깝게 매치하도록 이들 계수들을 찾는 것이 바람직하다.

원하는 바이너럴 프레젠테이션과 실제 바이너럴 프레젠테이션 사이의 L2 놈(norm) E를 최소화시킴으로써 계수들(w)을 찾을 수 있다:

에러(E)를 최소화시키기 위한 해법은 닫힌-형태(closed-form) 해법들, 기울기 하강 방법들, 또는 에러 함수를 최소화시키기 위한 임의의 다른 적절한 반복적 방법에 의해 획득될 수 있다. 이러한 해법의 일 예로서, 다양한 렌더링 단계들을 행렬 표기로 기입할 수 있다:

이러한 행렬 표기는 하나의 열:

로서 표현되는 N 개의 샘플 및 다수의 채널 i = { 1, ..., I }의 조합으로서의 행렬들을 포함하는 단일-채널 프레임에 기초하고, 각각은 행렬 내에서 하나의 열 벡터:

에 의해 표현된다.

E를 최소화시키는 W에 대한 해법은 이후:

에 의해 주어지고, (*)는 복소 켤레 전치 연산자이고, I는 항등 행렬이고,

는 정규화 상수이다. 이 해법은 신호

가 교차-항들(예를 들어, Z에서의 제1 신호로부터 (부분적으로) 재구성되는

의 제2 신호)을 가지는 옵션을 포함하는 신호 Z에 적용되는 스칼라 W라기보다는 행렬에 의해 생성된다는 점에서 이득-기반 방법과는 상이하다.

이상적으로는, 계수들(w)은 각각의 시간/주파수 타일 내의 에러 E를 최소화시키기 위해 각각의 시간/주파수 타일에 대해 결정된다.

위의 섹션들에서, 최소 평균-제곱 에러 기준(L2 놈)이 사용되어 행렬 계수들을 결정한다. 일반성의 손실 없이, 행렬 계수들을 계산하기 위한 다른 널리-공지된 기준들 또는 방법들이 사용되어 최소 평균-제곱 에러 원리를 유사하게 대체하거나 높일 수 있다. 예를 들어, 행렬 계수들은 고차 에러 항목들을 사용하여, 또는 L1 놈의 최소화(예를 들어, 최소 절대 편차 기준)에 의해, 계산될 수 있다. 또한 음이 아닌 인수분해 또는 최적화 기법들, 비-파라미터 추정기들, 최대-우도비 추정기들 등을 포함하는 다양한 방법들이 사용될 수 있다. 추가로, 행렬 계수들은 반복적 또는 기울기-하강 프로세스들, 보간법들, 발견적 방법들, 동적 프로그래밍, 머신 학습, 퍼지 최적화, 시뮬레이트된 어닐링, 또는 닫힌 형태 해법들을 사용하여 계산될 수 있고, 합성에 의한 분석(analysis-by-synthesis) 기법들이 사용될 수 있다. 마지막으로 그러나 중요하게는, 행렬 계수 추정은 다양한 방식들로, 예를 들어, 값들의 범위, 정규화 항목들, 에너지-보존 요건들의 중첩 등을 제한함으로써 제약될 수 있다.

실제 상황들에서, HRIR 또는 BRIR

는 주파수-종속적 지연들 및/또는 위상 시프트들을 수반할 것이다. 따라서, 계수들(w)은 제로와는 실질적으로 상이한 허수 컴포넌트들 가지는 복소-값일 수 있다.

이 실시예의 프로세싱의 구현예의 한 가지 형태가 도 4에서 40으로 도시된다. 오디오 콘텐츠(41)는 하이브리드 복소 직교 미러 필터(HCQMF) 분석 뱅크(42)에 의해 서브-대역 신호들로 프로세싱된다. 후속적으로, HRIR들(44)이 필터 뱅크 출력들에 적용되어(43) 바이너럴 신호들(Y)을 생성한다. 동시에, 입력들이 라우드스피커 플레이백에 대해 렌더링되어(45) 라우드스피커 신호들(Z)을 초래한다. 추가로, 계수들(또는 가중들)(w)이 라우드스피커 및 바이너럴 신호들(Y 및 Z)로부터 계산되고(46) 코어 코더 비트스트림(48)에 포함된다. 예를 들어, 둘 모두가 참조로 본원에 포함되는, Brandenburg, K., & Bosi, M. (1997). "Overview of MPEG audio: Current and future standards for low bit-rate audio coding". Journal of the Audio Engineering Society, 45(1/2), 4-21 또는 Riedmiller, J., Mehta, S., Tsingos, N., & Boon, P. (2015). "Immersive and Personalized Audio: A Practical System for Enabling Interchange, Distribution, and Delivery of Next-Generation Audio Experiences". Motion Imaging Journal, SMPTE, 124(5), 1-23에 개시되는 바와 같은, MPEG-1 계층 1, 2, 및 3과 같은 상이한 코어 코더들이 사용될 수 있다. 코어 코더가 입력으로서 서브-대역 신호들을 사용할 수 없는 경우, 서브-대역 신호들은 먼저 하이브리드 복소 직교 미러 필터(HCQMF) 합성 필터 뱅크(47)를 사용하여 시간 도메인으로 전환될 수 있다.

디코딩 측 상에서, 디코더가 헤드폰 플레이백을 위해 구성되는 경우, 계수들은 HCQMF 합성(51) 및 재생(52) 이전에 추출되고(49) 코어 디코더 신호들에 적용된다(50). 코어 코더가 HCQMF 도메인에서 신호들을 생성하지 않는 경우, 임의적인 HCQMF 분석 필터 뱅크(54)가 도 4에 표시된 바와 같이 요구될 수 있다. 요약하면, 코어 코더에 의해 인코딩되는 신호들은 라우드스피커 플레이백을 위해 의도되는 반면, 라우드스피커-대-바이너럴 계수들은 인코더에서 결정되고, 디코더에서 적용된다. 디코더에는 사용자 무효화 기능성이 추가로 구비될 수 있고, 따라서, 헤드폰 플레이백 모드에서, 사용자는 바이너럴방식으로 프로세싱된 신호들보다는 종래의 라우드스피커 신호들을 헤드폰들 상에서 플레이백하도록 선택할 수 있다. 이 경우, 가중들은 디코더에 의해 무시된다. 마지막으로, 디코더가 라우드스피커 플레이백을 위해 구성될 때, 가중들은 무시될 수 있고, 코어 디코더 신호들은 라우드스피커 재생 시스템 상에서, 직접 또는, 라우드스피커 재생 시스템의 레이아웃에 매치하도록 업믹싱 또는 다운믹싱한 이후 플레이백될 수 있다.

이전 문단들에서 기술되는 방법들이, 단기 윈도우화된 이산 푸리에 변환과 같은 다른 필터 뱅크 구조들 또는 변환들이 동일하게 적절히 잘 사용될 수 있음에 따라, 직교 미러 필터 뱅크들을 사용하는 것으로 제한되지 않는다는 것이 명백할 것이다.

이 방식은 종래의 방식들에 비해 다양한 이점들을 가진다. 이들은 다음을 포함할 수 있다: 1) 디코더 복잡성은 디코더에서의 추가가 비트 스트림 정보에 의해 제어되는 단순한(시간 및 주파수-종속적인) 행렬로만 구성됨에 따라, 순수 스테레오 플레이백에 대한 복잡도보다 조금만 더 높다. 2) 이 접근법은 채널-기반 및 오브젝트-기반 콘텐츠에 대해 적합하며, 콘텐츠 내에 존재하는 오브젝트들 또는 채널들의 수에 의존하지 않는다. 3) HRTF들은 인코더 튜닝 파라미터들이 되는데, 즉 이들은 디코더 호환성과는 무관하게 임의의 시간에 수정되고, 개선되고, 변형되거나 적응될 수 있다. 실제로 존재하는 디코더들을 이용하여, HRTF들은 디코더-측 프로세싱 스테이지들을 수정할 필요 없이 여전히 최적화되거나 커스터마이즈될 수 있다. 4) 비트레이트가 멀티-채널 또는 오브젝트-기반 콘텐츠에 대해 요구되는 비트 레이트에 비해 매우 낮은데, 왜냐하면, 단지 수개의 라우드스피커 신호(통상적으로 1개 내지 2개)만이 계수들(w)을 위한 추가적인(낮은-레이트의) 데이터를 가지고 인코더로부터 디코더로 전달될 필요가 있기 때문이다. 5) 동일한 비트 스트림이 라우드스피커들 및 헤드폰들 상에서 충실히 재생될 수 있다. 6) 비트 스트림은 스케일링가능한 방식으로 구성될 수 있는데; 특정 서비스 상황에서, 엔드 포인트가 라우드스피커들만을 사용하도록 보장되는 경우, 변환 계수들(w)은 종래의 라우드스피커 프레젠테이션에 대한 결과들 없이 비트 스트림으로부터 제거될 수 있다. 7) 소리크기(loudness) 관리, 다이얼로그 향상 등과 같은 라우드스피커 프레젠테이션들에 대해 작용하는 진보된 코덱 피처들이 (라우드스피커들 상에 플레이백이 있을 때) 의도된 바와 같이 계속 작용할 것이다. 8) 바이너럴 프레젠테이션에 대한 소리크기는 계수들(w)의 스케일링에 의한 라우드스피커 플레이백의 소리크기와는 독립적으로 핸들링될 수 있다. 9) 헤드폰을 사용하는 청취자들은 하나 또는 다른 하나를 청취하도록 강제되는 대신에, 바이너럴 또는 종래의 스테레오 프레젠테이션을 청취하도록 선택할 수 있다.

조기 반사들을 가지는 확장

바이너럴 프레젠테이션의 현실감을 증가시키기 위해 마룻바닥, 벽, 또는 천장의 존재의 결과인 바이너럴 렌더링 내에 하나 이상의 조기 반사를 포함하는 것이 종종 바람직하다. 반사가 정반사 속성인 경우, 그것은 그 자체로 바이너럴 프레젠테이션인 것으로 해석되는데, 여기서 대응하는 HRIR들은 표면 흡수의 효과, 지연의 증가, 및 음원으로부터 고막들까지의 증가한 음향 경로 길이로 인한 더 낮은 전체 레벨을 포함한다.

이러한 특징들은 도 4의 배열에 대한 수정인 도 5에 예시된 것(60)과 같은 수정된 배열을 이용하여 캡처될 수 있다. 인코더(64)에서, 계수들(W)은 (1) 라우드스피커 프레젠테이션으로부터의 무반향 바이너럴 프레젠테이션의 재구성(계수들 W_Y), 및 (2) 라우드스피커 프레젠테이션으로부터의 반사의 바이너럴 프레젠테이션의 재구성(계수들 W_E)에 대해 결정된다. 이 경우, 무반향 바이너럴 프레젠테이션은 바이너럴 렌더링 HRIR들(H_a)에 의해 결정되어 무반향 바이너럴 신호 쌍(Y)을 초래하는 반면, 조기 반사는 HRIR들(H_e)에 의해 결정되어 조기 반사 신호 쌍(E)을 초래한다. 스테레오 믹스로부터의 조기 반사의 파라미터 재구성을 허용하기 위해, 조기 반사의 더 긴 경로 길이로 인한 지연이 인코더 내의 HRIR들(H_e)로부터 제거되며, 이러한 특정한 지연이 디코더에 적용된다는 것이 중요하다.

디코더는 계수들(W(W_Y; W_E))을 라우드스피커 신호들에 적용함으로써 무반향 신호 쌍 및 조기 반사 신호 쌍을 생성할 것이다. 조기 반사가 지연 스테이지(68)에 의해 후속적으로 프로세싱되어 조기 반사를 위한 더 긴 경로 길이를 시뮬레이트한다. 블록(68)의 지연 파라미터는 코더 비트 스트림에 포함될 수 있거나, 또는 사용자-정의된 파라미터일 수 있거나, 또는 시뮬레이트된 음향 환경에 대해 종속적이게 될 수 있거나, 또는 청취자가 있는 실제 음향 환경에 대해 종속적이게 될 수 있다.

추후 잔향을 가지는 확장

바이너럴 프레젠테이션에 추후 잔향의 시뮬레이션을 포함하기 위해, 피드백-지연 네트워크(FDN)와 같은 추후-잔향 알고리즘이 사용될 수 있다. FDN은 하나 이상의 오브젝트 및 또는 채널을 입력으로서 취하고, (바이너럴 잔향기의 경우) 2개의 추후 잔향 신호를 생성한다. 종래의 알고리즘에서, 디코더 출력(또는 그것의 다운믹스)은 FDN에 대한 입력으로서 사용될 수 있다. 이 접근법은 상당한 단점을 가진다. 많은 사용 경우들에서, 오브젝트별 기반으로 추후 잔향의 양을 조정하는 것이 바람직할 수 있다. 예를 들어, 추후 잔향의 양이 감소되는 경우, 다이얼로그 명료성이 개선된다.

대안적인 실시예에서, 잔향의 양의 오브젝트별 또는 채널별 제어는 무반향 또는 조기-반사 바이너럴 프레젠테이션들이 스테레오 믹스로부터 구성되는 것과 동일한 방식으로 제공될 수 있다.

도 6에 예시된 바와 같이, 이전 배열들에 대한 다양한 수정들이 추가적인 추후 잔향을 수용하기 위해 이루어질 수 있다. 인코더(81)에서, 입력들의 가중된 조합일 수 있는 FDN 입력 신호(F)가 계산된다(82). 이들 가중은 예를 들어, 미디어 지능 알고리즘들을 통한 콘텐츠 생성 또는 자동 분류 동안 수동 라벨링의 결과로서, 콘텐츠에 종속적일 수 있다. FDN 입력 신호 자체는 가중 추정 유닛(83)에 의해 폐기되지만, 라우드스피커 프레젠테이션으로부터의 FDN 입력 신호의 추정, 재구성 또는 근사를 허용하는 계수 데이터(W_F)는 비트 스트림 내에 포함된다(85). 디코더(86)에서, FDN 입력 신호가 재구성되고(87), FDN(88)에 의해 프로세싱되고, 청취자(91)를 위한 바이너럴 출력 신호에 포함된다(89).

추가로, FDN은, 다수의(2개 이상의) 입력이, 입력 신호들의 공간적 품질들이 FDN 출력에서 보존되도록 허용되도록 구성될 수 있다. 이러한 경우들에서, 라우드스피커 프레젠테이션으로부터의 각각의 FDN 입력 신호의 추정을 허용하는 계수 데이터가 비트스트림에 포함된다.

이 경우, FDN 입력들에 대해 오브젝트 및 또는 채널의 공간 위치결정을 제어하는 것이 바람직할 수 있다.

일부 경우에, 별도의 목적으로 데이터 스트림 내에 존재하는 파라미터들(예를 들어, FDN 입력 신호들을 생성하기 위해 베이스 신호들에 적용되도록 구체적으로 의도되지 않는 파라미터들)에 응답하여 추후 잔향 시뮬레이션(예를 들어, FDN) 입력 신호들을 생성하는 것이 가능할 수 있다. 예를 들어, 한 가지 예시적인 다이얼로그 향상 시스템에서, 다이얼로그 신호는 다이얼로그 향상 파라미터들을 베이스 신호들에 적용함으로써 베이스 신호들의 세트로부터 재구성된다. 다이얼로그 신호는 이후 향상되고(예를 들어, 증폭되고) 베이스 신호들로 다시 믹스된다(따라서, 다이얼로그 컴포넌트들을 베이스 신호들의 나머지 컴포넌트들에 대해 증폭시킴). 전술된 바와 같이, 다이얼로그 컴포넌트들을 포함하지 않도록 FDN 입력 신호를 구성하는 것이 종종 바람직하다. 따라서, 다이얼로그 향상 파라미터가 이미 이용가능한 시스템들에서, 먼저 베이스 신호 및 다이얼로그 향상 파라미터들로부터 다이얼로그 신호를 재구성하고, 이후 베이스 신호들로부터 다이얼로그 신호를 차감(예를 들어, 소거)함으로써 원하는 다이얼로그 없는(또는 적어도 다이얼로그 감소된) FDN 입력 신호를 재구성하는 것이 가능하다. 이러한 시스템에서, 베이스 신호들로부터 FDN 입력 신호를 재구성하기 위한 전용 파라미터들이 (다이얼로그 향상 파라미터들이 대신 사용될 수 있기 때문에) 필수적이지 않을 수 있고, 따라서 배제되어, 기능성의 손실 없이 요구되는 파라미터 데이터 레이트에서의 감소를 초래할 수 있다.

조기 반사들 및 추후 잔향들의 결합

조기 반사(들) 및 추후 잔향을 가지는 무반향 프레젠테이션의 확장들이 이전 섹션들에서 독립적으로 표기되었지만, 조합들 역시 가능하다. 예를 들어, 시스템은: 1) 라우드 스피커 프레젠테이션으로부터 무반향 프레젠테이션을 결정하기 위한 계수들(W_Y); 2) 라우드스피커 프레젠테이션으로부터 특정 개수의 조기 반사들을 결정하기 위한 추가적인 계수들(W_E); 3) 라우드스피커 프레젠테이션으로부터 하나 이상의 추후-잔향 입력 신호를 결정하여, 오브젝트별 기반으로 추후 잔향의 양을 제어하도록 허용하는 추가적인 계수들(W_F)을 포함할 수 있다.

제1 프레젠테이션으로서의 무반향 렌더링

코어 코더에 의해 인코딩될 제1 프레젠테이션으로서의 라우드스피커 프레젠테이션의 사용이 변환 데이터(w)를 해석하거나 프로세싱할 수 없는 디코더들에 역호환성을 제공한다는 장점을 가지지만, 제1 프레젠테이션은 라우드스피커 플레이백을 위한 프레젠테이션에 제한되지 않는다. 도 7은 헤드폰들(130) 또는 라우드스피커들(140) 상에서의 재생을 위한 오디오 콘텐츠(105)를 인코딩 및 디코딩하기 위한 방법(100)의 개략적 개요를 도시한다. 인코더(101)는 입력 오디오 콘텐츠(105)를 취하고 이 신호들을 HCQMF 필터뱅크(106)에 의해 프로세싱한다. 후속적으로, 무반향 프레젠테이션(Y)이 HRIR/HRTF 데이터베이스(104)에 기초하여 HRIR 컨볼루션 엘리먼트(109)에 의해 생성된다. 추가로, 라우드스피커 프레젠테이션(Z)는 라우드스피커 패닝 행렬(G)을 계산하고 적용하는 엘리먼트(108)에 의해 생성된다. 또한, 엘리먼트(107)는 FDN 입력 믹스(F)를 생성한다.

무반향 신호(Y)는 HCQMF 합성 필터뱅크(110)를 사용하여 시간 도메인으로 임의적으로 전환되고, 코어 인코더(111)에 의해 인코딩된다. 변환 추정 블록(114)은 무반향 프레젠테이션(Y)로부터 FDN 입력 신호(F)의 재구성을 허용하는 파라미터들(W_F)(112) 뿐만 아니라, 무반향 프레젠테이션(Y)로부터 라우드스피커 프레젠테이션(Z)를 재구성하기 위한 파라미터들(W_Z)(113)을 계산한다. 파라미터들(112 및 113)은 모두 코어 코더 비트 스트림에 포함된다. 대안적으로, 또는 추가로, 도 7에는 도시되지 않지만, 변환 추정 블록은 무반향 프레젠테이션(Y)로부터 조기 반사 신호(E)의 재구성을 허용하는 파라미터들(W_E)을 계산할 수 있다.

디코더는 2개의 동작 모드인, 헤드폰 청취(130)를 위해 의도되는 디코더에 의한 시각화된 모드(102), 및 라우드스피커 플레이백(140)을 위해 의도되는 디코더 모드(103)를 가진다. 헤드폰 플레이백의 경우, 코어 디코더(115)는 무반향 프레젠테이션(Y)를 디코딩하고, 변환 파라미터들(W_F)을 디코딩한다. 후속적으로, 변환 파라미터들(W_F)은 행렬화 블록(116)에 의해 무반향 프레젠테이션(Y)에 인가되어 추정된 FDN 입력 신호를 생성하는데, 이는 후속적으로 FDN(117)에 의해 프로세싱되어 추후 잔향 신호를 생성한다. 이 추후 잔향 신호는 헤드폰 프레젠테이션(130)를 생성하기 위한 HCQMF 합성 필터뱅크(118)에 선행하여, 가산기(150)에 의해 무반향 프레젠테이션(Y)와 믹스된다. 파라미터들(W_E)이 또한 존재하는 경우, 디코더는 이들 파라미터들을 무반향 프레젠테이션(Y)에 적용하여 추정된 조기 반사 신호를 생성할 수 있는데, 이는 후속적으로 지연을 통해 프로세싱되고 무반향 프레젠테이션(Y)와 믹스된다.

라우드스피커 플레이백의 경우, 디코더는, 코어 디코더(115)가 무반향 프레젠테이션(Y) 뿐만 아니라 파라미터들(W_Z)을 디코딩하는 모드(103)에서 동작한다. 후속적으로, 행렬화 스테이지(116)는 파라미터들(W_Z)을 무반향 프레젠테이션(Y)에 인가하여 라우드스피커 프레젠테이션(Z)의 추정 또는 근사치를 생성한다. 마지막으로, 신호는 HCQMF 합성 필터뱅크(118)에 의해 시간 도메인으로 전환되고 라우드스피커들(140)에 의해 생성된다.

마지막으로, 도 7의 시스템이 파라미터들(W_Z)을 결정 및 전송하지 않고 임의적으로 동작될 수 있다는 것에 유의해야 한다. 이러한 동작 모드에서, 무반향 프레젠테이션(Y)로부터 라우드스피커 프레젠테이션(Z)를 생성하는 것이 가능하지 않다. 그러나, 파라미터들(W_E 및/또는 W_F)이 결정되고 전송되기 때문에, 무반향 프레젠테이션으로부터 조기 반사 및/또는 추후 잔향 컴포넌트들을 포함하는 헤드폰 프레젠테이션을 생성하는 것이 가능하다.

멀티-채널 라우드스피커 프레젠테이션

인코더에서 인코딩되는 제1 플레이백 스트림 프레젠테이션이 멀티채널 프레젠테이션, 예를 들어, 5.1, 7.1, 7.1.4 프레젠테이션 등과 같은 서라운드 또는 몰입형 라우드스피커 프레젠테이션일 수 있다는 것이 본 기술분야의 통상의 기술자에 의해 인식될 것이다. 예를 들어, 도 4와 관련하여, 제2 플레이백 스트림 프레젠테이션이 스테레오 프레젠테이션인, 위에서 논의된 발명의 실시예들이 유사한 방식으로 동작할 것이지만, 행렬들의 크기는 조정될 것이다. 예를 들어, 2x2 파라미터 행렬이 스테레오-대-스테레오 변환을 위해 충분하지만, 5x2 행렬이 5 채널 서라운드 프레젠테이션으로부터 스테레오 프레젠테이션으로의 변환을 위해 요구되고, 6x2 행렬이 5.1 서라운드 프레젠테이션(5개의 전체 대역폭 채널 및 저-주파수 효과(LFE) 채널)로부터 스테레오 프레젠테이션으로의 변환을 위해 요구된다. 그 결과, 프레젠테이션 변환 파라미터들에 대해 요구되는 사이드 정보의 양은 라우드스피커 프레젠테이션 내의 채널들의 수에 따라 증가할 것이고, 또한 디코딩 프로세스의 계산적 복잡성이 대응적으로 증가할 것이다.

M1>M2인, M1 개의 채널을 이용한 제1 프레젠테이션이 M2 개의 채널을 이용한 제2 프레젠테이션으로 변환될 때, 예를 들어, 서라운드 또는 몰입형 라우드스피커 프레젠테이션이 바이너럴 스테레오 프레젠테이션으로 변환될 때, 이러한 계산적 복잡성의 증가를 회피하거나 최소화하기 위해, 변환 파라미터들을 결정하기 이전에 제1 프레젠테이션을 중간 프레젠테이션으로 다운믹스하는 것이 유리할 수 있다. 예를 들어, 5.1 서라운드 프레젠테이션은 2.0 스테레오 라우드스피커 프레젠테이션으로 다운믹스될 수 있다.

도 8a는 인코더(200)를 도시하며 여기서, 오디오 콘텐츠(201)가 코어 인코더(203)에 의해 인코딩되는 5.1 서라운드 라우드스피커 프레젠테이션(S)로 렌더러(202)에 의해 렌더링된다. 5.1 프레젠테이션(S)는 또한 다운믹스 모듈(204)에 의해 중간 2-채널(스테레오) 다운믹스 프레젠테이션(Z)로 전환된다. 예를 들어, Z의 좌측 채널(Z_L)은 후속하는 방정식:

에 따라, 서라운드 프레젠테이션(S)의, 좌측 채널(S_L), 좌측 채널(S_LS), 중심 채널(S_C) 및 낮은 주파수 효과 채널(S_LFE)의 가중된 합산으로서 표현될 수 있고, 여기서, a, b 및 c는 적절한 상수들인데 예를 들어, a=b=sqrt(0.5)=0.71, c=0.5이다.

오디오 콘텐츠가 또한 무반향 바이너럴 신호(Y)를 렌더링하도록 구성되는 바이너럴 렌더러(205)에 입력된다. 파라미터 계산 블록(206)은 무반향 신호(Y) 및 스테레오 다운믹스 신호(Z)를 수신하고, 스테레오-대-무반향 파라미터들(W_Y)을 계산한다. 위의 도 4에 비교하면, 렌더러(202)는, 두 경우 모두에서의 출력이 코어 인코더(203/48)에 제공됨에 따라, 렌더러(45)의 멀티-채널 변형이다. 블록들(205 및 206)은 원리상 블록들(43 및 46)과 동일하다.

게다가, 인코더는 또한 FDN 입력 신호를 렌더링하기 위한 블록(207)(도 6에서의 블록(82)에 대응함)을 포함할 수 있고, 계산 블록(206)이 이후 FDN 파라미터들의 세트(W_F)를 또한 계산하도록(도 6에서의 블록(83)에 대응함) 구성될 수 있다.

도 8b는 디코더(210)를 도시하는데, 여기서 코어 디코더(211)는 5.1 서라운드 프레젠테이션(S) 뿐만 아니라 파라미터 세트들(W_Y 및 W_F)을 수신 및 디코딩한다. 서라운드 프레젠테이션(S)는 인코더 내의 그것의 대응부(204)와 동일한 방식으로 동작하는 다운믹스 모듈(212)에 의해 2-채널(스테레오) 다운믹스 신호(Z)로 전환된다. 제1 행렬화 블록(213)은 파라미터들(W_Y)을 스테레오 프레젠테이션(Z)에 적용하여 재구성된 무반향 신호(

)를 제공한다. 제2 행렬화 블록(214)은 파라미터들(W_F)을 스테레오 프레젠테이션(Z)에 적용하여 재구성된 FDN 입력 신호를 제공한다. FDN 입력 신호는 FDN(215)에서 사용되어 추후 잔향 신호를 제공하는데, 이는 재구성된 무반향 신호(

)에 추가되어(216) 바이너럴 출력을 제공한다. 블록들(213-216)에서의 프로세싱이 도 6에서의 디코더(86)에서의 프로세싱과 유사하다는 것에 유의한다.

낮은 타겟 비트-레이트들의 경우, 2.1 다운믹스 및 커플링 파라미터들의 세트의 도움으로 5.1 프레젠테이션을 전달하기 위한 파라미터 방법들을 사용하는 것이 알려져 있다(예를 들어, ETSI TS 103 190-1 V1.2.1 (2015-06)를 참조). 이러한 시스템에서, 코어 디코더는 디코딩된 5.1 프레젠테이션을 제공하기 위해 업-믹스를 효과적으로 수행한다. 도 8b에서의 실시예가 이러한 디코더에서 구현되는 경우, 결과는 도 9a에 도시된 바와 같은 디코더일 것이다. 도 9a에서의 코어 디코더(311)가 2.1 프레젠테이션을 5.1 프레젠테이션으로 업-믹싱하기 위한 업-믹스 모듈(312)을 포함한다는 것에 유의한다. 5.1 프레젠테이션은 이후 도 8b에서와 같이, 다운믹스 모듈(212)에 의해 2.0 프레젠테이션으로 다운-믹스된다.

그러나, 이 상황에서, 2.1 프레젠테이션이 비트 스트림에 이미 포함된 경우, 5.1로의 업-믹스는 필요하지 않으며, 디코더를 간략화하기 위해 생략될 수 있다. 이러한 간략화된 디코더가 도 9b에 도시되어 있다. 여기서, 코어 디코더(411)는 단지 2.1 프레젠테이션을 디코딩한다. 이 프레젠테이션은 간략화된 다운-믹스 모듈(412)에 의해 수신되는데, 이는:

에 따라, 2.1 프레젠테이션을 2.0 프레젠테이션으로 전환시키도록 구성되며, L, R 및 LFE는 디코딩된 2.1 프레젠테이션의 좌측 및 우측 전체 대역폭 채널들 및 낮은 주파수 효과 채널이며, a 및 b는 도 9a에서 모듈들(312 및 212)에 의해 수행되는 업-믹스 및 다운-믹스의 효과를 고려하는, 적절한 상수들이다.

도 9a 및 9b에 기술된 프로세스는 2.1 다운믹스 및 대응하는 커플링 파라미터들을 가정한다. 유사한 방식이 예를 들어, 3.1 다운믹스 및 대응하는 커플링 파라미터들을 사용하는 시스템에서 사용될 수 있다. 대안적으로, 도 8a 및 8b에서의 시스템은, ETSI TS 103 190-1 V1.2.1 (2015-06)에서 논의된 바와 같이, 5.1 프레젠테이션을 오브젝트-기반 표현으로 업믹스하도록 허용하는 추가적인 사이드 정보를 또한 반송할 수 있다.

해석

"일 실시예", "일부 실시예들" 또는 "실시예"에 대한 이 명세서 전반에 걸친 참조는, 실시예와 관련하여 기술되는 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 이 명세서 전반에 걸친 여러 곳들에서의 구문들 "일 실시예에서", "일부 실시예들에서" 또는 "실시예에서"의 출현은 반드시 모두 동일한 실시예를 지칭하지는 않지만, 그럴 수도 있다. 또한, 특정 특징들, 구조들 또는 특성들은, 하나 이상의 실시예에서, 이 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백할 바와 같이, 임의의 적절한 방식으로 조합될 수 있다.

본원에서 사용되는 바와 같이, 다른 방식으로 특정되지 않는 한, 공통적인 오브젝트를 기술하기 위한 서수 형용사들 "제1", "제2", "제3" 등의 사용은 단지, 유사한 오브젝트들의 상이한 인스턴스들이 지칭되는 것을 나타내며, 그렇게 지칭된 오브젝트들이 주어진 순서대로, 시간적으로, 공간적으로, 순위상으로, 또는 임의의 다른 방식으로, 존재해야 함을 내포하도록 의도되지는 않는다.

하기의 청구항들 및 본원의 기재에서, 용어들 포함하는(comprising), 구성되는 또는 포함한다 중 임의의 하나는 적어도 따르지만 다른 것들을 배제하지는 않는 엘리먼트들/특징들을 포함함을 의미하는 개방 용어이다. 따라서, 포함하는이란 용어는, 청구항들에서 사용될 때, 그 다음에 열거되는 수단 또는 엘리먼트들 또는 단계들로 제한되는 것으로 해석되지 않아야 한다. 예를 들어, 표현 A 및 B를 포함하는 디바이스의 범위는 엘리먼트들 A 및 B만으로 구성되는 디바이스들로 제한되지 않아야 한다. 본원에서 사용되는 바와 같은 용어들 포함하는(including) 또는 포함한다(which includes 또는 that includes) 중 임의의 하나는 또한 적어도 그 용어를 따르지만 다른 것들을 배제하지는 않는 엘리먼트들/특징들을 포함하는 것을 의미하는 개방 용어이다. 따라서, 포함하는(including)은 포함하는(comprising)과 유의어이며 이를 의미한다.

본원에 사용되는 바와 같이, 용어 "예시적인"은 품질을 나타내는 것과는 대조적으로, 예들을 제공하는 것의 의미로 사용된다. 즉, "예시적인 실시예"는, 반드시 예시적인 품질의 실시예인 것과는 대조적으로, 예로서 제공되는 실시예이다.

발명의 예시적인 실시예들의 위 기재에서, 발명의 다양한 특징들이 개시내용을 개요화하고 다양한 발명적 양태들 중 하나 이상의 이해를 도울 목적으로 단일 실시예, 도면, 또는 그것의 설명에서 때때로 함께 그룹화된다는 것이 인식되어야 한다. 그러나, 개시내용의 이러한 방법은 청구되는 발명이 각각의 청구항에 명시적으로 인용되는 것보다 더 많은 특징들을 요구한다는 의도를 반영하는 것으로서 해석되지는 않을 것이다. 오히려, 후속하는 청구항들이 반영하는 바와 같이, 발명적 양태는 단일의 이전에 개시된 실시예의 모든 특징보다 더 적은 특징들에 있다. 따라서, 상세한 설명에 후속하는 청구항들은 이에 의해 이 상세한 설명 내에 명시적으로 포함되며, 각각의 청구항은 그 자체가 이 발명의 별도의 실시예로서 존재한다.

또한, 본원에 기술되는 일부 실시예들이 다른 실시예들에 포함되는 일부 특징들을 포함하고 다른 특징들을 포함하지 않지만, 상이한 실시예들의 특징들의 조합들은 발명의 범위 내에 있는 것으로 의도되며, 본 기술분야의 통상의 기술자에 의해 이해될 바와 같이, 상이한 실시예들을 형성한다. 예를 들어, 후속하는 청구항들에서, 청구되는 실시예들 중 임의의 것이 임의의 조합으로 사용될 수 있다.

또한, 실시예들 중 일부가 컴퓨터 시스템의 프로세서에 의해 또는 기능을 수행하는 다른 수단에 의해 구현될 수 있는 방법 또는 방법의 엘리먼트들의 조합으로서 본원에 기술된다. 따라서, 이러한 방법 또는 방법의 엘리먼트를 수행하기 위한 필수적인 명령들을 가지는 프로세서는 방법 도는 방법의 엘리먼트를 수행하기 위한 수단을 형성한다. 또한 장치 실시예에 대해 본원에 기술되는 엘리먼트는 발명을 수행할 목적으로 엘리먼트에 의해 수행되는 기능을 수행하기 위한 수단이다.

본원에 제공되는 기재에서, 다수의 특정 상세항목들이 설명된다. 그러나, 발명의 실시예들이 이러한 특정 상세항목들 없이도 구현될 수 있다는 것이 이해된다. 다른 경우들에서, 널리 공지된 방법들, 구조들 및 기법들은 이 기재의 이해를 모호하게 하지 않기 위해 상세히 보여지지 않는다.

유사하게, 용어 커플링되는이, 청구항들에서 사용될 때, 직접적인 접속들만으로 제한되는 것으로 해석되지 않아야 한다는 것에 유의해야 한다. 용어들 "커플링되는" 및 "접속되는"은, 그 파생어들과 더불어, 사용될 수 있다. 이 용어들이 서로 유의어들로서 의도되지 않는다는 것이 이해되어야 한다. 따라서, 표현 디바이스 B에 커플링되는 디바이스 A의 범위는 디바이스 A의 출력이 디바이스 B의 입력에 직접 접속되는 디바이스들 또는 시스템들에 제한되지 않아야 한다. 그것은 다른 디바이스들 또는 수단을 포함하는 경로일 수 있는, A의 출력과 B의 입력 사이의 경로가 존재한다는 것을 의미한다. "커플링되는"은 2개 이상의 엘리먼트가 직접적인 물리적 또는 전기적 접촉에 있는 것, 또는 2개 이상의 엘리먼트가 서로 직접 접촉하지는 않지만 여전히 서로 협력하거나 상호작용하는 것을 의미할 수 있다.

따라서, 발명의 바람직한 실시예들인 것으로 간주되는 것들이 기술되었지만, 본 기술분야의 통상의 기술자는 다른 그리고 추가적인 수정들이 발명의 사상으로부터 벗어나지 않고 이에 대해 이루어질 수 있음을 인지할 것이며, 모든 이러한 변경들 및 수정들을 발명의 범위 내에 드는 것으로서 주장하는 것이 의도된다. 예를 들어, 위에서 주어진 임의의 공식들은 사용될 수 있는 절차들을 대표할 뿐이다. 기능성이 블록도들로부터 추가되거나 삭제될 수 있고, 동작들은 기능 블록들 간에 교환될 수 있다. 본 발명의 범위 내에서 기술되는 방법들에 대해 단계들이 추가되거나 삭제될 수 있다.

Claims

하나 이상의 오디오 컴포넌트를 갖는 입력 오디오 스트림을 인코딩하는 방법으로서,
각각의 오디오 컴포넌트는 공간 위치와 연관되고, 상기 방법은:
상기 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션(playback stream presentation)을 렌더링하는 단계 - 상기 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 - ;
상기 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 렌더링하는 단계 - 상기 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트임 - ;
중간 플레이백 스트림 프레젠테이션을 상기 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하는 단계 - 상기 중간 플레이백 스트림 프레젠테이션은 상기 제1 플레이백 스트림 프레젠테이션, 상기 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 상기 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이며, 상기 변환 파라미터들은 상기 제2 플레이백 스트림 프레젠테이션의 근사치와 상기 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 - ; 및
디코더로의 전송을 위한 상기 제1 플레이백 스트림 프레젠테이션 및 상기 변환 파라미터들의 세트를 인코딩하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 제1 플레이백 스트림 프레젠테이션 및 상기 제2 플레이백 스트림 프레젠테이션 중 하나 및 하나만이 라우드스피커 프레젠테이션인 방법.
제1항에 있어서,
상기 제1 플레이백 스트림 프레젠테이션 및 상기 제2 플레이백 스트림 프레젠테이션 중 하나 및 하나만이 반향(echoic) 또는 무반향 바이너럴 프레젠테이션(anechoic binaural presentation)인 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 변환 파라미터들은 시간 가변적 및/또는 주파수 종속적인 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 변환 파라미터들은, 상기 제1 플레이백 스트림 프레젠테이션에 직접 적용되어 상기 제2 플레이백 스트림 프레젠테이션의 근사치를 형성할 수 있는, M1xM2 이득 행렬을 형성하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, M1=M2=2인 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
M1>2 및 M2=2이고, 상기 제1 플레이백 스트림 프레젠테이션을 2-채널 프레젠테이션으로 다운-믹싱함으로써 상기 중간 플레이백 스트림 프레젠테이션을 형성하는 단계를 더 포함하는 방법.
제5항에 있어서,
상기 제1 플레이백 스트림 프레젠테이션은 5.1, 7.1 또는 7.1.4 프레젠테이션과 같은 서라운드 또는 몰입형 프레젠테이션인 방법.
데이터 스트림으로부터 플레이백 스트림 프레젠테이션들을 디코딩하는 방법으로서,
제1 렌더링된 플레이백 스트림 프레젠테이션을 수신 및 디코딩하는 단계 - 상기 제1 렌더링된 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 - ;
중간 플레이백 스트림 프레젠테이션을 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 수신 및 디코딩하는 단계 - 상기 제2 렌더링된 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트이고, 상기 중간 플레이백 스트림 프레젠테이션은 상기 제1 렌더링된 플레이백 스트림 프레젠테이션, 상기 제1 렌더링된 플레이백 스트림 프레젠테이션의 다운-믹스, 및 상기 제1 렌더링된 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이며, 상기 변환 파라미터들은 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치와 상기 제2 렌더링된 플레이백 스트림 프레젠테이션 사이의 차이의 측정이 최소화되는 것을 보장함 - ; 및
상기 변환 파라미터들을 상기 중간 플레이백 스트림 프레젠테이션에 적용하여 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치를 생성하는 단계
를 포함하는 방법.
제9항에 있어서,
상기 제1 및 제2 렌더링된 플레이백 스트림 프레젠테이션 중 하나 및 하나만이 반향 또는 무반향 바이너럴 프레젠테이션인 방법.
제10항에 있어서,
상기 제1 및 제2 렌더링된 플레이백 스트림 프레젠테이션 중 하나 및 하나만이 라우드스피커 프레젠테이션인 방법.
제9항 내지 제11항 중 어느 한 항에 있어서,
상기 변환 파라미터들은 시간 가변적 및/또는 주파수 종속적인 방법.
제9항 내지 제11항 중 어느 한 항에 있어서,
상기 변환 파라미터들은, 상기 제1 렌더링된 플레이백 스트림 프레젠테이션에 직접 적용되는, M1xM2 이득 행렬을 형성하는 방법.
제13항에 있어서, M1=M2=2인 방법.
제9항 내지 제11항 중 어느 한 항에 있어서,
M1>2 및 M2=2이고, 상기 제1 렌더링된 플레이백 스트림 프레젠테이션을 2-채널 프레젠테이션으로 다운-믹싱함으로써 상기 중간 플레이백 스트림 프레젠테이션을 형성하는 단계를 더 포함하는 방법.
제13항에 있어서,
상기 제1 렌더링된 플레이백 스트림 프레젠테이션은 5.1, 7.1 또는 7.1.4 프레젠테이션과 같은 서라운드 또는 몰입형 프레젠테이션인 방법.
제15항에 있어서,
상기 제1 렌더링된 플레이백 스트림 프레젠테이션은 2.1 프레젠테이션이고, 상기 다운-믹싱하는 단계는:

에 따라, 상기 2.1 프레젠테이션을 2.0 스테레오 프레젠테이션으로 전환하는 단계를 포함하고,
L, R 및 LFE는 상기 디코딩된 2.1 프레젠테이션의 좌측 및 우측 전체 대역폭 채널들 및 낮은 주파수 효과 채널이고, a 및 b는 상수들인 방법.
제9항에 있어서,
상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치는 무반향 바이너럴 프레젠테이션이고, 상기 방법은:
상기 중간 플레이백 스트림 프레젠테이션을 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호로 변환하기에 적합한 변환 파라미터들의 하나 이상의 추가 세트를 수신 및 디코딩하는 단계;
상기 변환 파라미터들의 하나 이상의 추가 세트를 상기 중간 플레이백 스트림 프레젠테이션에 적용하여 상기 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계;
상기 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 하나 이상의 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및
상기 하나 이상의 시뮬레이트된 음향 환경 신호를 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치와 결합하는 단계
를 더 포함하는 방법.
제18항에 있어서,
상기 하나 이상의 시뮬레이트된 음향 환경 신호는: 조기 반사 신호들 및 추후 잔향 신호들 중 하나 이상을 포함하는 방법.
제18항 또는 제19항에 있어서,
상기 음향 환경 시뮬레이션 프로세스들은: 조기 반사 시뮬레이션 프로세스 및 추후 잔향 시뮬레이션 프로세스 중 하나 이상을 포함하는 방법.
제20항에 있어서,
상기 조기 반사 시뮬레이션 프로세스는 지연 엘리먼트를 통해 상기 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함하는 방법.
제20항에 있어서,
상기 추후 잔향 시뮬레이션 프로세스는 피드백 지연 네트워크를 통해 상기 음향 환경 시뮬레이션 프로세스 입력 신호들 중 하나 이상을 프로세싱하는 것을 포함하는 방법.
제9항에 있어서,
상기 중간 플레이백 스트림 프레젠테이션을 하나 이상의 추정된 다이얼로그 신호로 변환하기에 적합한 다이얼로그 신호 추정 파라미터들의 하나 이상의 세트를 수신 및 디코딩하는 단계;
상기 다이얼로그 신호 추정 파라미터들의 하나 이상의 세트를 상기 중간 플레이백 스트림 프레젠테이션에 적용하여 상기 하나 이상의 추정된 다이얼로그 신호를 생성하는 단계;
상기 중간 플레이백 스트림 프레젠테이션으로부터 상기 하나 이상의 추정된 다이얼로그 신호를 차감하여 하나 이상의 다이얼로그 감소된 신호를 생성하는 단계;
상기 하나 이상의 다이얼로그 감소된 신호를 하나 이상의 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및
상기 하나 이상의 시뮬레이트된 음향 환경 신호를 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치와 결합하는 단계
를 더 포함하는 방법.
제18항, 제19항 및 제23항 중 어느 한 항에 있어서,
상기 음향 환경 시뮬레이션 프로세스들 중 하나 이상은 하나 이상의 파라미터에 응답하여 구성되고, 상기 파라미터들은: 사용자 설정들 및 상기 데이터 스트림에 포함된 정보 중 하나 이상에 의존하는 방법.
데이터 스트림으로부터 플레이백 스트림 프레젠테이션들을 디코딩하는 방법으로서,
제1 렌더링된 플레이백 스트림 프레젠테이션을 수신 및 디코딩하는 단계 - 상기 제1 렌더링된 플레이백 스트림 프레젠테이션은 무반향 바이너럴 프레젠테이션임 - ;
상기 무반향 바이너럴 프레젠테이션을 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호로 변환하기에 적합한 변환 파라미터들의 하나 이상의 세트를 수신 및 디코딩하는 단계;
상기 변환 파라미터들의 하나 이상의 세트를 상기 제1 렌더링된 플레이백 스트림 프레젠테이션에 적용하여 상기 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 생성하는 단계;
상기 하나 이상의 음향 환경 시뮬레이션 프로세스 입력 신호를 하나 이상의 음향 환경 시뮬레이션 프로세스에 적용하여 하나 이상의 시뮬레이트된 음향 환경 신호를 생성하는 단계; 및
상기 하나 이상의 시뮬레이트된 음향 환경 신호를 상기 제1 렌더링된 플레이백 스트림 프레젠테이션과 결합하는 단계
를 포함하는 방법.
하나 이상의 오디오 컴포넌트를 갖는 입력 오디오 스트림을 인코딩하기 위한 인코더로서,
각각의 오디오 컴포넌트는 공간 위치와 연관되고, 상기 인코더는:
상기 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 렌더링하기 위한 제1 렌더링 유닛 - 상기 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 - ;
상기 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 렌더링하기 위한 제2 렌더링 유닛 - 상기 제2 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트임 - ;
중간 플레이백 스트림 프레젠테이션을 상기 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하기 위한 변환 파라미터 결정 유닛 - 상기 중간 플레이백 스트림 프레젠테이션은 상기 제1 플레이백 스트림 프레젠테이션, 상기 제1 플레이백 스트림 프레젠테이션의 다운-믹스, 및 상기 제1 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 상기 변환 파라미터들은 상기 제2 플레이백 스트림 프레젠테이션의 근사치와 상기 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 - ; 및
디코더로의 전송을 위한 상기 제1 플레이백 스트림 프레젠테이션 및 상기 변환 파라미터들의 세트를 인코딩하기 위한 인코딩 유닛
을 포함하는 인코더.
데이터 스트림으로부터 플레이백 스트림 프레젠테이션들을 디코딩하기 위한 디코더로서,
제1 렌더링된 플레이백 스트림 프레젠테이션을 수신 및 디코딩하고 - 상기 제1 렌더링된 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 - ,
중간 플레이백 스트림 프레젠테이션을 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 수신 및 디코딩하도록
구성되는 코어 디코더 유닛 - 상기 제2 렌더링된 플레이백 스트림 프레젠테이션은 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M2 개의 신호의 세트이고, 상기 중간 플레이백 스트림 프레젠테이션은 상기 제1 렌더링된 플레이백 스트림 프레젠테이션, 상기 제1 렌더링된 플레이백 스트림 프레젠테이션의 다운-믹스, 및 상기 제1 렌더링된 플레이백 스트림 프레젠테이션의 업-믹스 중 하나이고, 상기 변환 파라미터들은 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치와 상기 제2 렌더링된 플레이백 스트림 프레젠테이션 사이의 차이의 측정이 최소화됨을 보장함 - ; 및
상기 변환 파라미터들을 상기 중간 플레이백 스트림 프레젠테이션에 적용하여 상기 제2 렌더링된 플레이백 스트림 프레젠테이션의 근사치를 생성하기 위한 행렬 곱셈기
를 포함하는 디코더.
컴퓨터 판독가능 기록 매체에 저장된, 인코더 컴퓨터 프로그램으로서,
컴퓨터 프로세서 상에서 실행될 때, 상기 컴퓨터 프로세서로 하여금 제1항 내지 제3항 중 어느 한 항에 따른 방법을 수행하게 하는 컴퓨터 프로그램 코드 부분들을 포함하는 인코더 컴퓨터 프로그램.
컴퓨터 판독가능 기록 매체에 저장된, 디코더 컴퓨터 프로그램으로서,
컴퓨터 프로세서 상에서 실행될 때, 상기 컴퓨터 프로세서로 하여금 제9항 내지 제11항, 제18항, 제19항, 제23항 및 제25항 중 어느 한 항에 따른 방법을 수행하게 하는 컴퓨터 프로그램 코드 부분들을 포함하는 디코더 컴퓨터 프로그램.
제28항의 인코더 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 기록 매체.
제29항의 디코더 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 기록 매체.