KR20180018761A

KR20180018761A - 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어

Info

Publication number: KR20180018761A
Application number: KR1020187001349A
Authority: KR
Inventors: 파비안 쿠에치; 크리스티안 울레; 미카엘 크라이치머; 베른하르트 노이게바우어; 미카엘 마이어
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-06-17
Filing date: 2016-06-09
Publication date: 2018-02-21
Also published as: MX2017016333A; JP2021089437A; CA2988645A1; WO2016202682A1; JP2023062138A; RU2685999C1; US20190265944A1; JP6838093B2; US11379178B2; BR112017026915A2; ZA201708348B; US20220291896A1; AR123136A2; BR112017026915B1; EP4156180A1; TWI664623B; CN107820711A; EP3311379A1; CN112291699A; AR105028A1

Abstract

오디오 신호(100)를 처리하기 위한 오디오 프로세서는: 사용자 입력(200)에 응답하여 오디오 신호(100)를 수정하기 위한 오디오 신호 수정기(2); 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하기 위한 음량 제어기(6) ― 수정된 음량(L_mod) 또는 수정된 이득(h_i)은 사용자 입력에 좌우됨 ―; 및 음량 보상 이득(C)을 사용하여 신호(101)의 음량을 조작하기 위한 음량 조작기(5)를 포함한다.

Description

오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어

본 발명은 오디오 프로세서 및 오디오 인코더와 관련이 있다. 본 발명은 또한 대응하는 방법들과 관련이 있다.

현대 오디오 코딩 시스템들은 단순히 디코더 측에서 플레이백(playback)되는 라우드스피커 채널 기반 표현으로 효율적으로 오디오 콘텐츠를 송신하기 위한 수단만을 제공하지는 않는다. 그러한 시스템들은 추가로, 사용자들이 콘텐츠와 상호 작용할 수 있게 하며 이에 따라 디코더에서 오디오가 어떻게 재생되고 렌더링되는지에 영향을 줄 수 있게 할 더 많은 고급 특징들을 포함한다. 이는 레거시 오디오 코딩 시스템들에 비해 새로운 타입들의 사용자 경험들을 가능하게 한다.

고급 오디오 코딩 시스템들에 대한 일례는 MPEG-H 3D 오디오 표준(J. Herre 등의 "MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding", 137th AES Convention, 2014, Los Angeles)이다. 이는 채널 기반, 객체 기반 및 고차 앰비소닉스(HOA: higher order ambisonics)를 이용한 장면 기반의 세 가지 서로 다른 포맷들의 실감 오디오 콘텐츠의 송신을 가능하게 한다. 이는 서로 다른 사용 시나리오들에 대한 오디오의 개인화 및 적응을 위한 사용자 상호 작용과 같은 새로운 성능들을 제공하도록 설계되었다.

콘텐츠 포맷들에 대한 세 가지 서로 다른 카테고리들은 다음과 같이 설명될 수 있다:

채널 기반: 종래에는, 청취자에 대해 정확하게 정의된 고정 목표 위치에 있는 라우드스피커들에 의해 재생되도록 지정되는 한 세트의 채널 신호들로서 (단순히 2개의 채널 스테레오에서 시작하는) 공간 오디오 콘텐츠가 전달되었다.

객체 기반: 오디오 객체들은 오디오와 함께 메타데이터로서 제공되는 연관된 부가 정보에 의해 지정된 특정 목표 위치에서 발생하도록 재생되어야 하는 신호들이다. 채널 신호들과는 대조적으로, 오디오 객체들의 실제 배치는 시간이 지남에 따라 변할 수 있으며, 반드시 사운드 재생 프로세스 동안 미리 정의되는 것이 아니라 이를 재생시 목표 라우드스피커 설정으로 렌더링함으로써 이루어진다. 이는 또한 객체 또는 객체들의 그룹의 위치 또는 레벨에 대한 사용자 상호 작용을 포함할 수 있다.

고차 앰비소닉스(HOA)는 채널들 또는 객체들에 직접 관계가 없는 다수의 '계수 신호들'을 송신함으로써 3D 음장을 캡처하기 위한 대안적인 접근 방식이다. 재생할 실제 오디오 신호들은 주어진 라우드스피커 구성을 고려하여 디코더에서 생성된다.

사용자 상호 작용을 포함하여 객체 기반 오디오 코딩 시스템들의 음량 보상을 위한 방법은 EP 2 879 131 A1에서 제시되었다. 디코더는 오디오 객체 신호들을 포함하는 오디오 입력 신호를 수신하고, 오디오 출력 신호를 생성한다. 신호 프로세서는 오디오 입력 신호와 연관된 음량 정보에 기초하여 그리고 렌더링 정보에 기초하여 오디오 출력 신호에 대한 음량 보상 값을 결정한다. 렌더링 정보는 오디오 객체 신호들 중 하나 이상이 증폭되어야 하는지 아니면 감쇄되어야 하는지를 표시하고, 사용자의 희망에 의해 조절될 수 있다.

본 발명의 과제는 음량 보상의 실행 가능성을 향상시키는 것이다.

이 과제는 오디오 신호를 처리하기 위한 오디오 프로세서에 의해 달성되며, 이 오디오 프로세서는: 오디오 신호 수정기(modifier) ― 오디오 신호 수정기는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성됨 ―; 음량 제어기 ― 음량 제어기는 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하도록 구성되고, 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우되며, 음량 제어기는 음량 보상 이득을 결정하기 위해 어떤 그룹이 사용되어야 하는지 또는 사용되지 않아야 하는지를 나타내는 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성되고, 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함함 ―; 및 음량 조작기를 포함하며, 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작하도록 구성된다.

오디오 프로세서― 또는 오디오 신호를 처리하기 위한 장치 또는 디코더 ―는 오디오 신호를 수신하고, 일 실시예에서는 예를 들어, 라우드스피커들 또는 이어폰들에 의해 재생될 또는 매체 등에 저장될 오디오 신호의 오디오 객체들 및 오디오 엘리먼트들 등을 포함하는 출력 신호를 발생시킨다.

오디오 프로세서는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성되는 오디오 신호 수정기를 통해 사용자 입력에 반응한다. 사용자 입력은 일 실시예에서는, 그룹의 증폭 또는 감쇄 그리고/또는 그룹의 오프 전환 또는 그룹의 온 전환을 의미한다. 그룹들은 하나 또는 그보다 많은 오디오 엘리먼트들, 예를 들어 오디오 객체들, 채널들, 객체들 또는 HOA 컴포넌트들을 포함한다. 사용자 입력은 또한 실시예에 따라, 신호의 재생에 사용되는 플레이백 구성에 관한 데이터를 의미한다. 추가 사용자 입력은 사전 설정(preset)의 선택을 의미한다. 사전 설정은 적어도 하나의 그룹의 세트를 의미하며, 각각의 그룹들에 대해 구체적으로 측정된 그룹 음량 값들 및/또는 이득 값들을 ― 실시예에 따라 ― 지정한다. 사용자 입력은 오디오 신호를 적절하게 수정하기 위해 오디오 신호 수정기에 의해 사용된다. 일 실시예에서, 메타데이터는 복수의 사전 설정들에 속하는 데이터를 포함한다.

사전 설정은 일 실시예에서 한 세트의 그룹을 참조하며, 다른 실시예에서는 사전 설정에 속하지 않는 그룹들을 정의한다.

오디오 프로세서는 또한 음량 보상 이득을 결정하도록 구성되는 음량 제어기를 포함한다. 음량 보상 이득― 여기서는 C라고 함 ―은 필요에 따라 또는 사용자에 의해 설정된 대로 전체 음량을 갖는 신호를 제공하기 위해 사용자 입력의 효과를 상쇄할 수 있게 한다. 음량 보상 이득은 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 결정된다. 따라서 음량 보상 이득은 기준 음량 또는 기준 이득 그리고 수정된 음량 또는 수정된 이득에 기초하여 결정된다. 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우된다.

음량 제어기는 추가로, 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성된다. 오디오 신호와 연관된 메타데이터는 오디오 신호 및 개개의 그룹들에 관한 정보를 전달하고, 일 실시예에서는 오디오 신호 자체에 의해 절충된다.

― 오디오 프로세서의 여기서 논의되는 실시예의 ― 메타데이터의 데이터는 음량 보상 이득을 결정하기 위해 ― 특히 오디오 신호에 포함된 ― 그룹이 사용되어야 하는지― 예를 들어, 고려되어야 하는지 - 아니면 사용되지 않아야 하는지― 예를 들어, 무시되어야 하는지 ―를 표시하고 있다. 따라서 음량 보상 이득을 결정하는 데 해당 그룹들에 관한 정보가 고려되거나 무시된다. 적어도 하나의 실시예에서, 그룹 또는 그룹들이 고려되는지 아니면 무시되는지는 사용자 입력에 추가로 좌우된다.

일 실시예에서, 그룹들을 고려하거나 무시하는 것은 또한, 그룹들 및 이들의 각각의 값들이 음량 보상 이득의 결정의 일부에만, 예를 들어 기준 또는 수정된 음량의 계산에만 사용된다는 의미에서 부분적으로 그룹들을 고려하거나 무시하는 것을 포함한다.

음량 보상 이득은 오디오 프로세서에 포함된 음량 조작기에 의해 사용된다. 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작한다. 적용된 음량 보상 이득은 사용자 입력의 영향을 받을 뿐만 아니라, 오디오 신호와 연관된 또는 심지어는 오디오 신호에 속하는 메타데이터의 데이터의 결과이다.

음량 조작기에 의해 조작된 신호는 일 실시예에 따라 오디오 프로세서에 의해 제공되며 오디오 신호에 기초하는 출력 신호이다. 이 실시예에서, 음량 조작기는 출력 신호들을 제공하고, 음량 보상 이득을 이용하여 출력 신호의 음량을 조작한다.

다른 실시예에서, 음량 조작기는 음량 조작기에 제공되며 바람직하게는 사용자 입력에 따라 이미 수정된 신호의 음량을 조작한다. 이 실시예에서, 오디오 프로세서의 일부는, 음량 조작기에 공급되고 이에 따라 처리되는, 즉 음량 조작기에 의해 그 음량과 관련하여 수정된 신호를 제공하거나 생성한다.

추가 실시예에서, 음량 조작기에 의해 음량이 조작되는 신호는 오디오 신호이다. 이 경우, 음량 조작기는 수정에 의해 오디오 신호의 메타데이터를 수정한다. 이 실시예는 오디오 프로세서가 수정된 오디오 신호를 제공하는 추가 실시예와 연관된다. 수정된 오디오 신호는 사용자 입력에 그리고 음량의 수정에 따라 수정된다. 이 수정된 오디오 신호는 나중에는 또한 비트 스트림이 된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 메타데이터의 데이터에 포함된 적어도 하나의 플래그에 기초하여 음량 보상 이득을 결정하도록 구성되며, 여기서 플래그는 그룹이 음량 보상 이득을 결정하는 데 고려될지 여부 또는 어떻게 고려될지를 표시하고 있다. 이 실시예에서, 메타데이터는 예를 들면, 연관된 그룹이 음량 보상 이득을 계산하기 위해 고려되어야 하는지 여부를 각각 표시하는 "참" 또는 "거짓" 값을 갖는 플래그들을 포함한다. 그룹의 고려는 일 실시예에서는 또한, 그룹이 어떤 계산 단계에 사용되어야 하는지에 대한 질문을 참조한다. 이는 예를 들어, 기준 음량 및 수정된 음량의 계산을 참조한다. 기준 음량 및 수정된 음량은 각각 사용자 입력의 고려 전과 후의 계산된 전체 음량들이다. 플래그는 다른 실시예에서는, 해당 그룹이 단지 짧은 간격 동안 존재하고, 이에 따라 음량 보상 이득을 결정하는 데에는 무시될 수 있음을 나타낸다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 그룹들이 오디오 신호의 메타데이터에 포함된 앵커에 속할 때 음량 보상 이득을 결정하기 위해 그 그룹들만을 사용하도록 구성된다. 앵커는 일 실시예에서는, 예를 들어 음성들, 대화들 또는 특수 음향 효과들에 속하는 오디오 엘리먼트들을 참조한다.

앵커에 속하는 그룹들의 취급은 다음 실시예들에서 더 상세히 설명된다.

일 실시예에서, 음량 제어기는 앵커에 속하는 적어도 하나의 그룹의 수정된 이득이 대응하는 기준 이득보다 더 큰 경우에 음량 보상 이득을 결정하기 위해 앵커에 속하는 그룹들만을 사용하도록 구성된다. 따라서 사용자 입력으로 인해 "앵커 그룹들" 중 적어도 하나의 그룹의 이득 값이 증가될 때, 즉 사용자가 이러한 그룹들 중 적어도 하나를 증폭했을 때, 음량 보상 이득의 계산에 단지 이러한 앵커 그룹들이 사용된다.

대안적인 또는 추가 실시예에서, 음량 제어기는 앵커에 속하는 적어도 하나의 그룹의 수정된 이득이 대응하는 기준 이득보다 더 낮은 경우에 음량 보상 이득을 결정하기 위해 앵커 속하는 그룹들 및 앵커에서 누락된 그룹들을 사용하도록 구성된다. 따라서 이 실시예에서는, 적어도 하나의 앵커 그룹의 이득 값이 사용자 입력으로 인해 낮아지는 경우에, 앵커에 속하는 그룹들뿐만 아니라 앵커에 속하지 않는 그룹들도 계산에 사용된다.

일 실시예에서는, 앞서 말한 2개의 실시예들이 조합된다. 따라서 앵커에 속하는 적어도 하나의 그룹의 이득의 변화는, 음량 보상 이득을 결정하기 위해 앵커 그룹들만 사용되는지 아니면 앵커 그룹들과 비-앵커 그룹들이 사용되는지를 결정한다.

이 과제는 또한 오디오 신호를 처리하기 위한 오디오 프로세서에 의해 달성되며, 이 오디오 프로세서는: 오디오 신호 수정기 ― 오디오 신호 수정기는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성됨 ―; 음량 제어기 ― 음량 제어기는 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하도록 구성되고, 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우되며, 음량 제어기는 적어도 하나의 사전 설정을 참조하는 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성되고, 사전 설정은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트를 참조함 ―; 및 음량 조작기를 포함하며, 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작하도록 구성된다.

오디오 프로세서의 일반적인 설명에 대해 상기의 논의를 참조한다.

오디오 프로세서의 음량 제어기는 오디오 신호와 연관된 또는 오디오 신호에 속하는 메타데이터의 데이터를 참조한다. 데이터는 사전 설정을 참조하며, 사전 설정은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트를 참조한다. 이 실시예에서는, 그룹들의 조합들이 특정 사전 설정에 대한 특정 음량 및/또는 이득 값들과 연관되는 경우가 처리된다. 그러므로 메타데이터는 서로 다른 사전 설정들에 따라 또는 적어도 디폴트 사전 설정에 따라 그룹들에 대한 데이터를 포함한다. 따라서 음량 제어기는 사용자에 의해 선택된 사전 설정과 연관된 또는 디폴트 사전 설정인 데이터를 사용한다.

오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나에 따라 구성된다. 그러므로 앞서 논의한 실시예들은 또한 적어도 부분적으로는, 이전에 언급된 오디오 프로세서로 실현된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 사전 설정에 의해 참조된 세트의 적어도 하나의 그룹의 그룹 음량들 및/또는 이득 값들에 기초하여 음량 보상 이득을 결정하도록 구성된다. 사전 설정은 오디오 신호에 포함된 오디오 엘리먼트들의 그룹들의 특정 세트를 참조한다. 이러한 그룹들의 경우, 메타데이터는 대응하는 사전 설정이 선택되거나 디폴트 사전 설정으로 설정되는 경우에 음량 보상 이득의 결정을 위해 사용될 특정 데이터― 즉, 그룹 음량들 및/또는 이득 값들 ―을 포함한다.

추가 실시예에서, 음량 제어기는 각각의 그룹 음량들 및 각각의 이득 값들을 사용하여 사전 설정에 의해 참조된 세트에 대한 기준 음량을 결정하도록 구성된다. 음량 제어기는 또한 각각의 그룹 음량들 및 각각의 수정된 이득 값들을 사용하여 사전 설정에 의해 참조된 세트에 대한 수정된 음량을 결정하도록 구성된다. 수정된 이득 값들은 사용자 입력에 의해 수정된다. 이 실시예에서, 기준 음량 및 수정된 음량은 사전 설정과 연관된 그리고 사전 설정에 속하는 그룹들에 대한 값들에 따라 결정된다. 이 결정은 또한 ― 예를 들어, 기준 또는 수정된 음량의 결정을 위해 ― 그룹들이 사용되어야 하는지 여부 그리고 어떻게 사용되어야 하는지의 표시를 처리한다.

추가 실시예에서, 음량 제어기는 선택된 사전 설정을 참조하는 오디오 신호의 메타데이터에 포함된 데이터를 기초로 음량 보상 이득을 결정하도록 구성되며, 사전 설정은 사용자 입력에 의해 선택된다. 이 실시예에서, 사전 설정은 사용자 입력을 통해 사용자에 의해 선택된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 디폴트 사전 설정을 참조하는 오디오 신호의 메타데이터에 포함된 데이터에 기초하여 음량 보상 이득을 결정하도록 구성된다. 디폴트 사전 설정은 사용자 입력 전에 또는 사용자 입력과 독립적으로 설정된다. 이 실시예는 사용자가 사전 설정을 선택하지 않는 상황을 다룬다. 이를 위해, 예를 들면, 사용자에 의한 상호 작용이 없어도 ― 여기서는 디폴트 사전 설정을 커버하는 ― 한 세트의 데이터가 음량 보상 이득을 결정하기 위해 사용됨을 보장하기 위한 임의의 사용자 입력 전에 디폴트 사전 설정이 사용된다.

이 과제는 또한 오디오 신호를 처리하기 위한 오디오 프로세서에 의해 달성되며, 이 오디오 프로세서는: 오디오 신호 수정기 ― 오디오 신호 수정기는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성됨 ―; 음량 제어기 ― 음량 제어기는 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하도록 구성되고, 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우되며, 음량 제어기는 그룹이 오프 전환되는지 아니면 온 전환되는지를 표시하는 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성되고, 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함함 ―; 및 음량 조작기를 포함하며, 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작하도록 구성된다.

이 실시예의 오디오 프로세서의 일반적인 설명에 대해 상기의 논의를 참조한다.

여기서 음량 제어기는 그룹이 오프 전환되는지 아니면 온 전환되는지를 표시하는 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성된다. 일례로, 오디오는 영화의 서로 다른 언어 버전들에 속하는 서로 다른 사운드 트랙들을 오디오 객체들로서 포함할 수 있다. 사전 설정들은 또한 서로 다른 언어 버전들을 참조할 수 있다. 그러므로 서로 다른 사전 설정들에서는 하나의 언어의 하나의 사운드 트랙이 온 전환되는 한편, 다른 버전들은 오프 전환될 것이다. 이 예는 또한, 사용자가 원하는 그리고 제공되는 언어 버전을 온으로 전환하고, 이에 따라 디폴트 사전 설정과 연관된 사운드 트랙을 오프로 전환함으로써 서로 다른 언어 버전들 간에 전환할 수 있음을 보여준다. 그럼에도, 한 그룹을 온으로 전환하는 것이 항상 다른 그룹을 오프로 전환하는 것을 의미하는 것은 아니며 그 반대의 경우도 마찬가지이다.

오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나에 따라 구성된다.

오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나에 따라 구성된다. 그러므로 앞서 논의한 실시예들은 또한 적어도 부분적으로는, 이전에 언급된 오디오 프로세서로 실현된다. 이는 또한, 앞서 논의한 하나의 오디오 프로세서가 적어도 하나의 실시예에서 다음의 실시예들을 고려하여 실현될 때 다른 점도 있다.

일 실시예에 따르면, 음량 제어기는 사용자 입력에 의해 그룹이 오프 전환되는지 아니면 온 전환되는지에 따라 사용자 입력에 기초하여 음량 보상 이득을 결정한다. 여기서 사용자 상호 작용은 음량 제어기 이득의 결정에 영향을 미친다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 수정된 음량을 결정하기 위한 그룹이 사용자 입력에 응답하여 오프 전환될 때 그 그룹을 폐기하도록 구성된다. 이 실시예에서, 사용자가 그룹을 오프로 전환한다면, 그 그룹은 사용자의 희망들을 나타내는 음량 값들로부터 야기되는 수정된 음량을 결정하는 데 사용되지 않는다.

추가 실시예에서, 음량 제어기는 기준 음량을 결정하기 위한 그룹이 메타데이터에서 오프 전환될 때 그 그룹을 폐기하고, 사용자 입력에 의해 그룹이 온 전환될 때 수정된 음량을 결정하기 위해 그룹을 포함시키도록 구성된다. 이 실시예에서, 그룹은 메타데이터에서 오프 전환되며, 기준 음량을 결정하는 데 사용되지 않는다. 사용자가 그룹을 온으로 전환한다면, 수정된 음량의 평가를 위해 그룹이 포함된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 메타데이터에서 그룹이 온 전환될 때 기준 음량을 결정하기 위해 그룹을 포함시키고, 사용자 입력에 의해 그룹이 오프 전환될 때 수정된 음량을 결정하는 데 그룹을 제외시키도록 구성된다. 이 실시예에서는, 앞서 말한 실시예의 반대 경우가 처리된다.

이 과제는 또한 오디오 신호를 처리하기 위한 오디오 프로세서에 의해 달성되며, 이 오디오 프로세서는: 오디오 신호 수정기 ― 오디오 신호 수정기는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성됨 ―; 음량 제어기 ― 음량 제어기는 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하도록 구성되고, 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우되며, 음량 제어기는 오디오 신호에 포함된 그룹의 메타데이터에 적어도 하나의 그룹 음량이 누락된 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성됨 ―; 및 음량 조작기를 포함하며, 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작하도록 구성된다.

이 오디오 프로세서(또는 디코더)에서, 음량 제어기는 오디오 신호 내에 존재하는 그룹에 대해, 대응하는 그룹이 누락되고 있는 상황을 처리한다. 그룹 음량은 특정 사전 설정 또는 플레이백 구성 등에 대해 누락될 수도 있고 또는 메타데이터에 이 그룹에 대한 어떠한 그룹 음량도 완전히 없을 수 있다.

오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나에 따라 구성된다. 그러므로 앞서 논의한 실시예들은 또한 적어도 부분적으로는, 이전에 언급된 오디오 프로세서로 실현된다. 이는 또한, 앞서 논의한 오디오 프로세서가 적어도 하나의 실시예에서 다음의 실시예들을 고려하여 실현될 때 다른 점도 있다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 사전 설정의 음량, 누락 그룹 음량을 갖는 그룹의 기준 이득뿐만 아니라 그룹 음량을 갖는 그룹들에 대한 그룹 음량들 및 기준 이득들을 사용하여 누락 그룹 음량을 계산하도록 구성된다. 사전 설정의 음량은 사전 설정의 그룹들의 전체 음량이다.

추가 실시예에서, 음량 제어기는 적어도 하나의 기준 이득 및 적어도 하나의 수정된 이득만을 사용하는 블라인드 음량 보상을 위해 오디오 신호의 메타데이터가 적어도 하나의 그룹 음량을 누락하고 있는 경우의 음량 보상 이득을 결정하도록 구성된다. 이 실시예에서, 적어도 하나의 누락 그룹 음량의 경우는 모든 그룹 음량들이 누락되고 있는 경우와 동일하게 취급된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 적어도 하나의 기준 이득 및 적어도 하나의 수정된 이득만을 사용하는 블라인드 음량 보상을 위해 오디오 신호의 메타데이터에 그룹 음량들이 없는 경우의 음량 보상 이득을 결정하도록 구성된다.

이 과제는 또한 오디오 신호를 처리하기 위한 오디오 프로세서에 의해 달성되며, 이 오디오 프로세서는: 오디오 신호 수정기 ― 오디오 신호 수정기는 사용자 입력에 응답하여 오디오 신호를 수정하도록 구성됨 ―; 음량 제어기 ― 음량 제어기는 한편으로는 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하도록 구성되고, 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우되며, 음량 제어기는 신호의 재생을 위한 플레이백 구성을 참조하는 오디오 신호의 메타데이터에 기초하여 음량 보상 이득을 결정하도록 구성됨 ―; 및 음량 조작기를 포함하며, 음량 조작기는 음량 보상 이득을 사용하여 신호의 음량을 조작하도록 구성된다.

오디오 프로세서는 특정 플레이백 구성을 참조하는 데이터에 기초하여 음량 보상 이득을 결정한다. 따라서 오디오 신호와 연관되며 일 실시예에서는 오디오 신호에 포함되는 메타데이터는 적어도 하나의 플레이백 구성에 대해 지정된 데이터를 포함한다. 일 실시예에서는, 각각의 플레이백 구성에 대해 메타데이터는 각각의 플레이백 ― 또는 재생 ― 구성에 대응하는 데이터를 포함한다.

오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나에 따라 구성된다. 그러므로 이 오디오 프로세서는 일 실시예에서, 앞서 말한 실시예들 중 적어도 하나와 조합된다.

오디오 프로세서의 일 실시예에 따르면, 음량 제어기는 플레이백 구성을 참조하며 연관된 그룹 음량들 및/또는 기준 이득 값들을 포함하는 메타데이터의 데이터에 기초하여 음량 보상 이득을 결정하도록 구성된다. 그러므로 서로 다른 플레이백 구성들은 각각의 그룹들에 대한 서로 다른 이득 값들 및/또는 그룹 음량들과 연관된다.

일 실시예에서, 메타데이터는 서로 다른 사전 설정들 및 서로 다른 플레이백 구성들에 대한 데이터를 포함한다.

추가 실시예에서, 오디오 프로세서는 메타데이터에 포함되며 플레이백 구성을 참조하는 데이터를, 현재 플레이백 구성을 참조하는 데이터로 변환하기 위한 구성 변환기를 포함하고, 음량 제어기는 구성 변환기에 의해 제공된 데이터를 이용하여 음량 보상 이득을 결정하도록 구성된다. 이 실시예에서, 오디오 프로세서는 신호의 재생을 위한 현재 플레이백 구성이 메타데이터에 의해 제공되는 플레이백 구성들과 상이한 상황을 처리한다. 그러므로 메타데이터의 데이터가 현재 플레이백 구성에 맞도록 변환되고, 변환된 데이터는 음량 보상 이득의 결정을 위해 사용된다.

일 실시예에서, 오디오 프로세서는 미리 정의된 플레이백 구성으로 신호를 변환하기 위한 포맷 변환기를 포함한다. 추가 실시예에서, 음량 제어기는 포맷 변환기에 의해 사용되는 특정 플레이백 구성에 대한 특정 음량 값을 선택하도록 구성된다.

다음의 실시예들은 앞서 말한 실시예들 중 임의의 실시예로 실현될 수 있다.

일 실시예에서, 오디오 신호는 메타데이터를 갖는 비트 스트림을 포함하고, 메타데이터는 적어도 하나의 그룹에 대한 기준 이득을 포함한다.

오디오 프로세서의 일 실시예에 따르면, 오디오 신호의 메타데이터는 적어도 하나의 그룹에 대한 그룹 음량을 포함한다. 추가 실시예에서, 메타데이터는 오디오 신호에 속하는 복수의 그룹들에 대한 그룹 음량들을 포함한다.

추가 실시예에서, 음량 제어기는 ― 적어도 하나의 ― 그룹에 대한 그룹 음량 및 이득 값을 사용하여 적어도 하나의 그룹에 대한 기준 음량을 결정하도록 구성되며, 음량 제어기는 그룹 음량 및 수정된 이득 값을 사용하여 ― 적어도 하나의 ― 그룹에 대한 수정된 음량을 결정하도록 구성되고, 수정된 이득 값은 사용자 입력에 의해 수정된다.

일 실시예에서, 음량 제어기는 복수의 그룹들에 대한 ― L_ref라고 하는 ― 기준 음량을 이 그룹들에 대한 ― L_i라고 하는 ― 각각의 그룹 음량들 및 ― g_i라고 하는 ― 이득 값들을 사용하여 결정하도록 구성된다. 또한, 음량 제어기는 복수의 그룹들에 대한 ― L_mod라고 하는 ― 수정된 음량을 이 그룹들에 대한 각각의 그룹 음량(L_i) 및 ― h_i라고 하는 ― 수정된 이득 값들을 사용하여 결정하도록 구성된다. 일 실시예에서, 그룹들의 2개의 복수들은 동일하고, 다른 실시예에서는 서로 다르다. 복수들은 또한 메타데이터의 각각의 데이터에 좌우된다.

추가 실시예에서, 음량 제어기는 음량 보상 이득이 상한 임계치보다 낮도록 그리고/또는 음량 보상 이득이 하한 임계치보다 크도록 음량 보상 이득에 대한 제한 동작을 수행하도록 구성된다.

오디오 프로세서의 일 실시예에 따르면, 음량 조작기는 음량 보상 이득에 의해 그리고 사용자 입력에 의해 설정된 목표 음량 레벨 및 오디오 신호의 메타데이터에 포함된 메타데이터 음량 레벨에 의해 결정된 정규화 이득에 의해 결정되는 신호에 보정된 이득을 적용하도록 구성된다. 일 실시예에서, 정규화 이득은 오디오 신호의 각각의 그룹들의 음량 레벨과 오디오 신호의 재생에 대해 사용자에 의해 경험되도록 사용자에 의해 설정된 음량 레벨의 비를 사용함으로써 결정된다.

오디오 프로세서의 앞서 말한 실시예들은 사용자 입력에 따른 음량 보상을 가능하게 한다. 음량 보상은 오디오 신호의 그룹들 및 이들의 관련성 또는 음량 보상에 대한 사용의 종류를 설명하는 데이터를 고려함으로써 개선된다. 그룹들에 관한 정보는 음량 보상을 세밀화한다.

앞서 말한 실시예들은 오디오 프로세서 또는 오디오 디코더와 관련이 있다. 이하에서, 오디오 프로세서에 의해 사용될, 연관된 또는 심지어 포함된 메타데이터를 갖는 오디오 신호를 제공하는 인코더가 논의될 것이다.

이 과제는 메타데이터를 포함하는 오디오 신호를 생성하기 위한 오디오 인코더에 의해 달성된다. 오디오 인코더는, 하나 또는 그보다 많은 오디오 엘리먼트들을 갖는 적어도 하나의 그룹에 대한 음량 값을 결정하기 위한 음량 결정기; 및 결정된 음량 값을 그룹 음량으로서 메타데이터에 삽입하기 위한 메타데이터 기록기를 포함한다.

오디오 인코더의 일 실시예에 따르면, 음량 결정기는 서로 다른 플레이백 구성들에 대해 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 결정하도록 구성되고, 메타데이터 기록기는 각각의 플레이백 구성과 연관하여 결정된 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 메타데이터에 삽입하도록 구성된다. 이 실시예에서, 메타데이터는 서로 다른 플레이백 구성들에 대해 관련 그룹들에 대한 서로 다른 데이터를 포함하여, 이에 따라 오디오 신호의 그룹들의 플레이백을 개선한다.

일 실시예에서, 음량 결정기는 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트들을 참조하는 서로 다른 사전 설정들에 대한 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 결정하도록 구성된다. 또한, 메타데이터 기록기는 각각의 사전 설정과 연관하여 결정된 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 메타데이터에 삽입하도록 구성된다. 이 실시예에서, 사전 설정들은 특정 그룹 음량들 및/또는 기준 이득 값들과 연관된 그룹들의 특정 세트들을 참조한다.

추가 실시예에서, 오디오 인코더는 제어기를 더 포함하고, 제어기는 어떤 그룹이 음량 보상 이득을 결정하기 위해 사용되어야 하는지 또는 무시되어야 하는지를 결정하도록 구성되며, 메타데이터 기록기는 음량 보상 이득을 결정하기 위해 어떤 그룹이 사용되어야 하는지 또는 무시되어야 하는지를 표시하는 표시를 메타데이터에 기록하도록 구성된다. 표시는 일 실시예에서 플래그이다. 일부 실시예들에서, 이 표시는 사전 설정들, 플레이백 구성들, 앵커들 및/또는 지속기간들 그리고 이에 따라 그룹의 관련성을 의미한다.

적어도 하나의 실시예에서, 메타데이터는 오디오 신호의 적어도 하나의 그룹에 대해, 서로 다른 값들을 갖는 서로 다른 데이터(예를 들어, 그룹 음량 또는 기준 이득)를 포함한다.

오디오 인코더의 일 실시예에 따르면, 오디오 인코더는 추정기를 더 포함하며, 추정기는 그룹에 대한 그룹 음량 값을 계산하도록 구성되고, 그룹에 대한 그룹 음량 값은 음량 결정기에 의해 결정되지 않는다. 메타데이터 기록기는 오디오 신호의 모든 그룹들이 연관된 그룹 음량들을 갖도록 메타데이터에 계산된 그룹 음량 값을 삽입하도록 구성된다. 이 실시예에서, 오디오 인코더는 이용 가능한 데이터에 기초하여 누락 그룹 음량을 계산함으로써 누락 그룹 음량을 보상한다.

이 과제는 또한 오디오 신호를 처리하기 위한 방법에 의해 달성된다.

이 방법은 적어도 다음의 단계들을 포함한다:

사용자 입력에 응답하여 오디오 신호를 수정하는 단계.

한편으로는 (사용자에 의한 수정 이전 연관된 개개의 그룹들의 전체 음량으로서) 기준 음량 또는 기준 이득에 기초하여 그리고 다른 한편으로는 (사용자 입력 이후 관련 그룹들의 결합된 음량인 기준 음량의 상대로서) 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하는 단계 ― 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우됨 ―.

― C라고 하는 ― 음량 보상 이득의 결정은 오디오 신호와 연관된 ― 또는 심지어 그에 포함된 ― 메타데이터의 데이터에 기초하여 음량 보상 이득이 결정되는 다음의 실시예들 중 적어도 하나 또는 이들의 조합을 사용하여 수행된다. 다른 실시예들에서, 데이터는 다음과 같은데, 여기서 각각의 그룹들은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하며:

데이터는 오디오 신호에 포함된 그룹이 음량 보상 이득을 결정하기 위해 고려되어야 하는지 아니면 무시되어야 하는지를 표시하고 있다.

데이터는 사전 설정을 참조하고 있고, 사전 설정은 적어도 하나의 그룹의 세트를 참조한다.

데이터는 그룹이 오프 전환되는지 아니면 온 전환되는지를 표시하고 있다.

데이터에서 오디오 신호에 포함된 그룹 중 적어도 하나 그룹 음량이 누락되고 있다.

데이터는 신호의 재생을 위한 플레이백 구성을 참조하고 있다.

음량 보상 이득을 사용하여 오디오 신호와 연관된 출력 신호의 음량을 조작하는 단계.

이 과제는 또한 메타데이터를 포함하는 오디오 신호를 생성하기 위한 방법에 의해 달성된다. 이 방법은, 하나 또는 그보다 많은 오디오 엘리먼트들을 갖는 그룹에 대한 음량 값을 결정하는 단계, 및 그룹에 대해 결정된 음량 값을 그룹 음량으로서 메타데이터에 삽입하는 단계를 포함한다.

이 과제는 또한 컴퓨터 또는 프로세서 상에서 실행될 때, 상기의 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램에 의해 달성된다.

장치(오디오 프로세서든 아니면 오디오 인코더든)의 실시예들은 또한 방법들의 단계들 및 방법의 대응하는 실시예들에 의해 수행될 수 있다. 따라서 장치의 실시예들에 주어진 설명들은 또한 방법에 대해 유지된다.

본 발명은 첨부 도면들 및 첨부 도면들에 도시된 실시예들과 관련하여 다음에 설명될 것이다:
도 1은 오디오 디코더의 개요를 도시한다.
도 2는 본 발명에 따른 오디오 프로세서의 개요를 도시한다.
도 3은 본 발명의 오디오 인코더의 개요를 도시한다.

도 1은 시스템의 모든 주요 구성 블록들을 예시하는, 오디오 프로세서에 대한 일례인 MPEG-H 3D 오디오 디코더의 개요를 도시한다:

제1 단계로서, (채널들, 객체들 또는 HOA 컴포넌트들일 수 있는 송신된 오디오 신호들을 연관된 메타데이터와 함께 포함하는) 수신된 오디오 스트림(500)이 오디오 콘텐츠(502) 및 연관된 메타데이터(503)를 제공하는 디코더(501)에 의해 디코딩된다.

채널 신호들이 채널 렌더러 및 포맷 변환기로서 기능하는 포맷 변환기(504)를 이용하여 목표 재생 라우드스피커 설정에 매핑된다.

객체 신호들은 연관된 객체 메타데이터를 사용하여 객체 렌더러(505)에 의해 목표 재생 라우드스피커 설정에 렌더링된다.

HOA 렌더러(506)에 의해 고차 앰비소닉스 콘텐츠가 연관된 HOA 메타데이터를 이용하여 목표 재생 라우드스피커 설정에 렌더링된다.

그 다음, 포맷 변환기(504), 객체 렌더러(505) 및 HOA 렌더러(506)의 출력들인 오디오 신호들(507)의 형태의 서로 다른 컴포넌트들(채널들, 객체, HOA)에 대응하는 라우드스피커 신호들이 믹싱 단계에서 서로 믹싱된다. 이것은 믹싱된 오디오 신호(509)를 제공하는 믹서(508)에 의해 수행된다.

믹서(508)의 출력(509)은 다음에 음량 제어 스테이지에 의해 처리되며, 여기서는 오디오가 원하는 목표 음량 레벨로 정규화된다. 음량 제어기(510)는 정규화뿐만 아니라 음량 보상도 수행한다. 이를 위해, 음량 제어기(510)는 사용자 입력(511)을 수신한다. 사용자의 상호 작용의 결과인 사용자 입력(511)은 또한 플레이백을 위해 사용될 라우드스피커 구성에 관한 정보를 의미하고, 또한 포맷 변환기(504), 객체 렌더러(505) 및 HOA 렌더러(506)에 제시된다. 음량 제어기(510)에는 특히, 수신된 오디오 스트림(500)으로부터 디코더(501)에 의해 추출된 렌더링 및/또는 음량 정보를 참조하여 메타데이터(503)가 제공된다. 결과적인 신호(512)는 도시된 실시예에서, 플레이백에 이용 가능한 라우드스피커 구성의 라우드스피커들에 제시된다.

가능한 사용자 상호 작용은 예를 들어, 2개의 서로 다른 카테고리들로 나뉠 수 있다:

송신된 오디오 프로그램의 사전 설정들의 선택.

오디오 엘리먼트들의 그룹들의 디폴트 렌더링의 조작.

MPEG-H 3D 오디오의 맥락에서 그리고 본 발명의 사전 설정들 및 그룹의 의미가 다음에 제시된다.

송신된 오디오 프로그램에 이용 가능한 개개의 채널들, 객체들 및 HOA 장면들은 오디오 엘리먼트들로 지칭된다. 그룹은 개개의 오디오 엘리먼트들의 특정 집합을 의미한다. 오디오 엘리먼트들의 특정 그룹화 정보는 오디오 스트림의 오디오 콘텐츠와 함께 송신되는 MPEG-H 3D 오디오 메타데이터에 포함된다. 그룹의 엘리먼트들은 상호 작용하게 스스로 변경될 수 없다. 전체 그룹만이 조작할 수 있는데, 즉 엘리먼트들이 모두 함께 포함될 수 있다. 스테레오 또는 5.1 채널 라우드스피커 구성에 대응하는 채널들로 구성되는 그룹으로 일례가 주어진다. 극단적인 경우, 그룹은 단지 단일 엘리먼트, 예를 들어 프로그램의 대화 객체로 구성될 수 있다. 사용자는 예를 들어, 오디오 장면 내에서 이 대화 객체의 레벨을 변경할 수 있다.

사전 설정들은 오디오 장면에서 그룹들의 조합을 정의한다. 사전 설정들은 동일한 오디오 스트림 내에서 동일한 오디오 프로그램의 서로 다른 표현을 효율적으로 시그널링하는 데 사용될 수 있다. 사전 설정 정의는 또한 개개의 그룹들의 디폴트 또는 초기 렌더링 정보를 포함하는데, 이는 사용자가 어떠한 수정도 적용하지 않는 경우에 사용된다. 이 렌더링 정보의 가장 중요한 예는 전체 오디오 장면을 렌더링할 때 그룹에 적용되는 이득이다. 사전 설정을 정의하는 구성 정보는 인코더에서 결정되며, 이는 메타데이터, 예를 들어 MPEG-H 3D 오디오 메타데이터의 일부이다.

주요 또는 디폴트 오디오 장면이, 반드시 그룹화 정보를 지정하지는 않는 모든 오디오 엘리먼트들을 포함하는 사전 설정의 특별한 타입으로 간주될 수 있다는 점이 주목되어야 한다. 그럼에도, 개개의 오디오 엘리먼트들에 대한 디폴트 또는 초기 렌더링 정보(예를 들어, 이득)는 일반적으로 주요 오디오 장면에 대해서도 또한 메타데이터에서 제공된다.

차세대 오디오 전달을 위한 가장 중요한 특징들 중 하나는 고급 음량 제어, 즉 음량 정보 및 음량 정규화의 적절한 시그널링이다. 음량 제어는 방송 애플리케이션에서 특히 중요한데, 여기서 음량 제어는 적용 가능한 방송 규정들 및 권장 사항들을 충족시키기 위한 필수적인 특징을 나타낸다.

MPEG-H 3D 오디오에 포함된 음량 제어 개념은 오디오 프로그램의 측정된 음량을 나타내는 메타데이터에 기초한다. 메타데이터는 실제 오디오 콘텐츠와 함께 오디오 프로세서에 의해 처리될 오디오 신호의 일 실시예인 오디오 스트림에서 송신된다. 일 실시예에 따른 디코더에서, 송신된 음량 정보 및 목표 음량 레벨에 기초하여 음량 정규화 이득이 계산된다. 일 실시예에서, 음량 정규화 이득은 그런 다음, 예를 들어 도 1에 예시된 바와 같이, 믹서(508) 다음에 오디오 신호에 적용된다.

동일한 오디오 스트림을 갖는 동일한 오디오 프로그램의 다수의 사전 설정들을 제공하는 특정한 특징을 고려하기 위해, 서로 다른 사전 설정들의 측정된 음량에 대응하는 추가 음량 메타데이터가 포함된다. 포맷 변환(다운믹싱) 또는 동적 범위 처리와 같은 처리 단계들이 오디오의 음량을 잠재적으로 변경할 수 있다. 따라서 일 실시예에서는, 이러한 경우들에도 또한 정확한 음량 정규화를 보장하기 위해 추가 음량 정보가 포함된다.

다른 실시예에서, 개개의 그룹들 또는 심지어 단일 오디오 엘리먼트들의 음량 정보가 송신된다. 일 실시예에서는, 서로 다른 라우드스피커 구성들에 대해 그룹 음량의 정보가 제공된다. 예를 들어, 그룹이 채널 신호들로 구성된다면, 스테레오 또는 5.1 라우드스피커 구성에 대한 재생의 경우에 서로 다른 그룹 음량 정보가 포함될 수 있다. 본 발명에서 제안된 바와 같은 대화식 시나리오들에서는 그룹들의 음량 정보가 음량 제어에 사용될 것이다.

위에서 언급한 음량 정보는 프로그램에 대한 매우 다양한 구성들(예를 들어, 서로 다른 사전 설정들 또는 서로 다른 라우드스피커 재생 레이아웃들)을 의미한다. 이러한 구성들은 정적이기 때문에, 일 실시예는 인코더에서(또는 인코딩 처리 이전에) 이러한 구성들의 음량을 측정하고 예를 들어, MPEG-H 3DA 스트림의 대응하는 메타데이터 필드들을 채우는 것을 구상한다.

그러나 앞서 이미 언급한 바와 같이, MPEG-H 3DA와 같은 최신 오디오 코딩 시스템들의 중요한 특징은 디코더에서의 사용자 상호 작용의 지원이다: 사용자는 예를 들어, 특정 그룹들의 볼륨을 조절하거나 심지어 이러한 그룹들을 온 및 오프 전환할 수 있다. 사용자가 대화 객체 또는 대화와 연관된 그룹의 레벨을 조작할 수 있는 대화 확장에 의해 중요한 사용 사례가 주어진다. 다른 예에서, 사용자는 HOA 기반 그룹으로 표현되는 실감 사운드 베드(immersive sound bed)의 레벨을 향상시킨다. 또 다른 예에서, 사용자는 예를 들어, 청각 장애인을 위한 비디오 설명 또는 음성 해설(voice-over) 트랙들을 나타내는 특정 그룹을 온으로 전환하길 원한다.

그룹들의 레벨을 변경하는 것은 렌더링된 오디오 장면의 전체 음량이 수정되지 않는 경우와 비교하여 변경되는 것을 또한 의미한다. 따라서 이득 상호 작용 이후에는 더 이상 일관성 있는 플레이백 음량이 보장될 수 없다. 사용자는 서로 다른 객체들의 레벨들을 또한 더 자주 변경할 수 있기 때문에, 오디오 출력의 음량 레벨은 동일한 프로그램에 대해서도 시간에 따라 변할 수 있다.

오디오 프로그램의 정적 표현들에 대한 음량 제어를 제공할 뿐만 아니라, 오디오 장면의 음량을 변경하는 사용자 상호 작용을 고려하는 것이 매우 바람직하다. 본 발명은 오디오 엘리먼트들의 그룹들의 레벨들에 대한 사용자 상호 작용의 경우에도 또한 일관성 있는 음량 정규화를 가능하게 하기 위해 디코더에서의 음량 제어를 개선할 수 있게 한다.

사용자가 렌더링된 오디오 장면 내의 특정 오디오 엘리먼트들 또는 그룹들의 레벨을 변경할 때, 프로그램 또는 사정 설정의 음량이 유지된다. 일 실시예에서는, 원래 오디오 장면에 대응하는 기준 음량 및 사용자의 이득 상호 작용을 고려하여 수정된 음량에 기초하여 음량 보상 이득이 결정된다. 그 다음, 음량 보상 이득은 보통의 음량 정규화 이득과 함께 렌더링된 오디오 신호에 적용되어, 원하는 디코더 목표 음량을 달성한다.

도 2는 오디오 신호(100)를 수신하고 출력 신호(101)를 제공하는 ― 오디오 신호를 처리하기 위한 디코더 또는 단지 장치(1)로도 또한 불리는 ― 오디오 프로세서(1)의 일례를 개략적으로 도시한다. 도시된 예에서, 출력 신호(101)는 플레이백 상황의 라우드스피커들에 연결된 ― 도시되지 않은 ― 증폭기에 공급되거나 라우드스피커들 또는 헤드폰에 직접 공급되기에 적합한 오디오 신호이다. 오디오 신호(100)는 오디오 엘리먼트들에 관한 정보를 제공하는 메타데이터 및 개개의 오디오 객체들의 오디오 신호들을 갖는 비트스트림을 포함한다.

오디오 신호(100)는 사용자 입력(200)을 수신하는 오디오 신호 수정기(2)에 제시된다. 사용자 입력(200)은 ― 도시된 실시예에서는 ― 적어도 특정 사전 설정의 선택을 참조한다. 사전 설정들은 오디오 엘리먼트들의 그룹들과 오디오 엘리먼트들의 대응하는 그룹들에 대한 연관된 기준 이득들(g_i) 및/또는 그룹 음량들(L_i)의 특정 조합들을 의미한다. 사용자가 사전 설정을 선택하지 않는다면, 도시된 실시예에서는 디폴트 값들을 갖는 디폴트 사전 설정이 사용될 것이다.

또한, 사용자는 입력(200)을 통해 개개의 그룹들의 이득 값들을 설정한다. 수정된 이득 값들(h_i)은 대응하는 그룹이 메타데이터에 포함된 기준 이득 값들(g_i)에 대응하여 증폭 또는 감쇠될 것임을 의미한다. 예를 들어, 사용자는 ― 평소와 같이 ― 리딩 보이스를 듣는 것이 아니라 증폭된 배경 합창을 듣는 것을 선호할 수도 있다. 그러므로 사용자는 배경 합창의 이득 값을 올리고 리드 보이스의 이득 값을 감소시키거나 이러한 보이스를 오프 전환할 것이다.

사용자는 또한 그룹을 오프 또는 온으로 전환할 가능성을 갖고 있다. 그러므로 사용자가 그룹을 듣길 원하지 않는다면, 그룹은 오프 전환될 수 있다. 다른 식으로, 메타데이터가 특정 사전 설정에 대해 그룹이 오프 전환됨을 의미하는 플래그를 포함한다면, 사용자는 이를 온으로 전환할 수 있다. 이는 예를 들어, 오디오 신호가 음성 텍스트의 서로 다른 언어 버전들을 포함하고 사전 설정들이 서로 다른 언어들을 참조하는 경우일 수 있다. 그러므로 그룹을 온 또는 오프 전환하는 것은 그룹이 플레이백에 사용되는지 여부를 참조한다.

요약하면, 신호 수정기(2)는 오디오 신호(100)에 속하는 오디오 엘리먼트들의 그룹들을 증폭 또는 감쇠시키는 것을 통해 사용자 입력(200)에 따라 그리고 메타데이터의 각각의 데이터에 의해 커버되는 선택된 또는 디폴트 사전 설정에 따라 오디오 신호(100)를 수정한다.

이는 오디오 신호(100)가 재생될 현재 플레이백 구성으로 데이터를 변환하는 구성 변환기(3)를 따른다. 어떤 플레이백 구성이 주어지는지 그리고 이에 따라 현재 상황이 어떤지는 또한 예를 들어, 리스트로부터의 선택을 통한 사용자 입력(200)에 의해 커버된다. 예를 들어, 메타데이터는 서라운드 사운드 상황을 참조할 수 있는 반면, 현재 플레이백 상황은 스테레오 플레이백을 허용한다. 이 변환은 일 실시예에서는, 이득 값들뿐만 아니라 음량 값들도 참조한다.

구성 변환기(3)는 변환된 데이터를 음량 제어기(6)에 제시하는데, 음량 제어기(6)는 사용자 입력(200)을 또한 수신한다. 이러한 데이터에 기초하여, 음량 제어기(6)는 음량 조작기(5)에 제시되는 음량 보상 이득(C)을 계산한다.

음량 조작기(5)는 음량 보상 이득(C) 및 믹서(4)로부터 수신된 신호를 사용함으로써 출력 신호(101)의 전체 음량을 설정한다. 믹서(4)는 도시된 실시예에서, 오디오 신호 수정기(2)에 의한 수정 및 구성 변환기(3)에 의한 변환 이후 오디오 신호(100)를 구성 변환기(3)를 통해 수신하고 오디오 엘리먼트의 서로 다른 그룹들을 조합한다(도 1과 비교).

설명을 위해, 예시적인 예에서는, 특정 오디오 장면이 사전 설정, 즉 그룹들의 특정 조합에 의해 정의되는 경우가 고려된다. 그룹들 각각은 주어진 사전 설정에 대해 정의된 연관된 초기/디폴트 이득을 갖는다. 추가로, 사전 설정 내의 각각의 그룹의 음량이 이용 가능한 것으로 가정된다. 사전 설정은 사용자에 의해 선택되거나 디폴트 사전 설정으로 설정될 수 있다. 다음의 표기가 사용될 것이다:

L_i는 사전 설정의 제i 그룹의 음량이다.

g_i는 제i 그룹의 (예를 들어, ㏈ 스케일로 주어진) 초기/디폴트 이득이다.

h_i는 제i 그룹의 (예를 들어, ㏈ 스케일로 주어진) 수정된 상호 작용 이득이다.

M_ref는 사전 설정(또는 디폴트 오디오 장면)의 기준 음량의 계산을 위해 포함되는 그룹들을 참조하는 인덱스들의 세트를 나타낸다.

M_mod는 사전 설정(또는 수정된 오디오 장면)의 수정된 음량의 계산을 위해 포함되는 그룹들을 참조하는 인덱스들의 세트를 나타낸다.

그룹이 특정 라우드스피커 구성에 또는 예를 들면, HOA 오디오 장면에 대응하는 채널 신호들의 집합으로 구성되는 경우에, 다수의 그룹 음량 값들이 메타데이터에 포함될 수 있다. 이러한 서로 다른 음량 값들은 재생에 사용되는 서로 다른 라우드스피커 구성들과 연관된다. 예를 들어, 그룹이 5.1 22.2 라우드스피커 구성을 갖는 채널 베드를 나타낸다면, 포맷 변환기를 사용하여 채널 베드가 스테레오 재생 시스템에 매핑되어야 하는 경우에 비해 원래 5.1 또는 22.2 라우드스피커 구성에 대한 그룹을 재생하기 위해 다른 음량이 측정될 수 있다. 이 경우, 스테레오 재생과 연관된 그룹 음량이 일 실시예에서, 송신된 메타데이터에서 이용 가능하다면 선택된다. 그렇지 않으면, 원래 라우드스피커 구성과 연관된 그룹 음량이 사용된다. 그룹이 HOA 기반 오디오 장면을 나타내는 경우에 적절한 그룹 음량을 선택하기 위한 유사한 전략이 제안된다. 이 경우, 현재 재생 라우드스피커 구성과 연관된 그룹 음량이 (메타데이터에 이용 가능하다면) 기준 라우드스피커 레이아웃과 연관된 그룹 음량 대신 사용되어야 한다.

일부 실시예들에서, 음량 정보는 각각의 그룹에 개별적으로 제공되는 것이 아니라, 그룹들 전체에 의해 동일한 음량 값이 참조된다.

일반적으로, 서로 다른 그룹들의 오디오 신호들은 상관되지 않는다고 가정하는 것이 적당하다. 그 다음, 사전 설정의 기준 음량은 다음과 같이 계산될 수 있다:

유사하게, 수정된 오디오 장면의 음량은 다음과 같이 계산된다:

사전 설정의 디폴트 설정시 그룹이 오프 전환되는 경우, 기준 음량(L_ref) 계산시 그룹은 폐기된다. 유사하게, 사용자가 그룹을 오프로 전환한다면, 그 그룹은 수정된 음량(L_mod) 계산시 폐기된다. 그룹이 디폴트 사전 설정에서 오프 전환되지만 수정된 장면에서는 사용자에 의해 온으로 전환된다면, 해당 그룹 음량(L_i)이 기준 음량(L_ref)에서의 계산에서는 제외되지만 수정된 음량(L_mod)의 계산에는 포함되며, 그 반대의 경우도 마찬가지이다. 오프 전환되는 그룹을 폐기하는 것은 그 이득(g_i 또는 h_i)을 -∞로 설정하는 것으로 동일하게 해석될 수 있다는 점에 주목한다. 이 경우 M_ref= M_mod이다. 그러므로 두 음량(L_ref 및 L_mod) 모두 그룹들의 동일한 세트들을 참조하여 계산된다.

음량 보상 이득(C)은 사전 설정의 기준 음량(L_ref)을 사전 설정의 수정된 음량(L_mod)에 관련시키는 것으로부터 얻어진다:

음량 보상 이득(C)은 일 실시예에서는, 극단적인 경우들에 대한 임의의 바람직하지 않은 행위를 피하도록 허용된 이득들의 범위 내로 제한된다:

그 다음, 최신 기술에 따라 음량 정규화에 사용된 음량 정규화 이득(G_N)(예를 들어, EP 2 879 131 A1 참조)이 다음에 따라 보정되어:

사용자에 의한 이득 상호 작용 후 일관성 있는 음량을 보장한다. 대안으로, 음량 정규화는 원래 정규화 이득(G_N)에 기초하여 수행되고, 음량 보상은 보상 이득(C_lim)의 제한된 버전을 이용하여 오디오 신호들에 대해 개별적으로 수행된다.

위의 논의는 오디오 프로그램의 사전 설정을 기반으로 하였다. 프로그램에 대한 이용 가능한 사전 설정들이 항상 존재하는 것이 아니라, 단일 전역 디폴트 장면만이 정의되는 것이 언급되어야 한다. 이 경우는 위에서 설명한 사전 설정의 경우와 유사하게 처리되는데, 여기서 인덱스들(M_ref 및 M_mod)의 세트는 각각 디폴트 장면 및 그 수정된 버전의 그룹들을 참조한다.

음량 보상 프로세스에서 의도적으로 특정 그룹들을 제외시키는 것이 적절한 상황들이 있다. 예를 들어, 특정 그룹은 프로그램 내에서 매우 짧은 시간 동안만 활성화될 수 있고 나머지 시간 동안에는 완전히 침묵한다. 예를 들어, ― 국제 전기 통신 연합(ITU: International Telecommunication Union)의 세 부문들 중 하나인 ITU 무선 통신 부문(ITU-R: ITU Radiocommunication Sector)에 의한 ― ITU-R BS.1770-3에 따른 음량 측정 동안의 게이팅 프로세스로 인해, 이러한 그룹은 여전히 중요한 측정된 음량을 가질 수 있다. 그룹이 매우 짧은 양의 시간 동안에만 활성이더라도, 이 그룹 음량은 다음에 전체 프로그램 지속기간 동안 음량 보상 이득에 영향을 미칠 것이다. 다른 한편으로는 이러한 희소 그룹 신호는 전체 프로그램/사전 설정 믹스의 음량 측정에 거의 기여하지 않는다.

예를 들어, 사용자가 이러한 희소 그룹/객체를 강화하기로 정하면, 음량 보상은 프로그램 지속기간 동안 나머지 모든 오디오 엘리먼트들의 감쇠로 이어질 것이다. 이러한 동작은 바람직하지 않고 음량 보상 프로세스는 특정 희소 그룹을 무시해야 한다. 그러므로 메타데이터는 이 그룹이 음량 보상의 계산에서 무시되도록 대응하는 플래그를 포함한다.

앞서 설명한 기능을 제공하기 위해, 그룹이 음량 보상으로부터, 즉 사전 설정 또는 전역 오디오 장면의 기준 및 수정된 음량의 계산으로부터 제외되어야 하는지 여부를 표시하는 정보가 오디오 스트림 또는 오디오 신호에 포함된 메타데이터에 추가된다. 이 정보는 일 실시예에서, 각각의 그룹이 음량 보상 프로세스에 포함되는지 여부를 나타내는, 각각의 그룹에 대한 단순한 플래그이다.

음량 제어에 대한 서로 다른 방송 규정들은 프로그램 음량을 정의하기 위해 서로 다른 접근 방식들을 사용한다. EBU-R128은 전체 프로그램 믹스의 음량을 측정할 것을 요구하지만, ATSC A/85는 일반적으로 대화로 표현되는 프로그램의 앵커 엘리먼트의 음량만을 측정하는 것을 권고한다.

프로그램에 대한 음량 측정에 대한 이러한 서로 다른 접근 방식들은 또한 음량 보상을 위해 고려된다. 앵커 기반 음량 보상은 앞서 논의한 바와 같이 전체 믹스의 음량 보상으로부터 즉시 결론이 내려질 수 있다.

사전 설정(또는 프로그램의 디폴트 믹스)의 앵커 기반 기준 및 수정된 음량에 대해서는, 프로그램 앵커에 기여하는 그러한 그룹들만이 포함된다. 어떤 그룹이 프로그램 앵커의 일부인지의 정보는 일 실시예에서, 오디오 스트림/오디오 신호의 메타데이터에 포함된다. 기준 음량은 다음 식에 의해 얻어지며:

여기서 A_ref는 디폴트 오디오 장면 또는 사전 설정의 앵커 엘리먼트의 일부인 그룹들을 참조하는 인덱스들의 세트를 나타낸다.

유사하게, (수정된 오디오 장면 또는 사전 설정의 앵커 엘리먼트의 일부인 그룹들을 참조하는) 그룹 인덱스들(A_mod)의 세트를 이용하여 앵커 기반 음량 보상을 위한 수정된 음량은 다음 식을 나타낸다:

이는 보상 이득이 아래와 같이 얻어지는 것이 바로 뒤따른다:

음량 보정을 수행하기 위한 나머지 단계들은 전체 프로그램 믹스의 경우(위의 논의 참조)와 비교하여 변경되지 않는다.

어떤 경우들에는, 두 음량 보상 접근 방식들 ― 앵커 기반 및 전체 프로그램 믹스 기반 ― 모두의 혼합이 음량 보상의 사용자 경험에 유리하다.

일 실시예에서, 앵커 기반 접근 방식은 앵커 그룹들 중 하나 또는 전부가 사용자에 의해 증폭되는, 즉 h_i > g_i인 경우에 사용된다. 앵커 그룹들이 감쇠된다면, 전체 믹스의 음량에 대한 음량 보상이 사용되는데, 즉 h_i < g_i인 경우에 사용된다. 앵커 그룹들에 관한 정보가 메타데이터에 포함된다.

위에서 제시된 음량 보상 접근 방식은 사전 설정 또는 전역 오디오 장면 내에서 각각의 그룹의 음량에 대한 정보를 필요로 한다. 일부 시나리오들에서, 음량 정보는 일부 그룹들에 대해서만 이용 가능하고 다른 그룹들에 대해서는 누락될 수 있다. 그러므로 일 실시예에서, 누락 그룹 음량 정보가 이용 가능한 그룹 음량 값들 및 사전 설정(또는 디폴트 오디오 장면)의 음량으로부터 계산된다.

L_p가 오디오 프로그램의 고려되는 사전 설정의 측정된 음량, 즉 각각의 사전 설정에 속하는 오디오 객체들의 측정된 공동 음량을 나타낸다고 하자. 더욱이,

는 음량 정보가 이용 가능한 그룹들에 대한 인덱스들의 세트를 나타낸다고 하자. 사전 설정의 잔차 음량(L_res)은 사전 설정 음량, 이용 가능한 그룹 음량 정보, 및 이러한 그룹들의 디폴트/초기 이득들로부터 계산된다:

잔류 음량의 대안적인 표현은 이용 가능하지 않은 그룹 음량 값들 및 대응하는 디폴트/초기 이득들을 고려함으로써 얻어질 수 있다:

실제로는 음량 정보가 누락되는 각각의 그룹의 음량이 동일하다고 가정하는 것이 합리적이다:

이 경우, 잔차 음량은 다음과 같이 표현될 수 있다:

이것으로부터 누락 그룹들의 음량 값들에 대한 추정치가 아래와 같이 즉시 얻어진다:

다음에, 음량 보상에 필요한 기준 음량 및 수정된 음량이 이미 논의한 바와 같이 계산되며, 여기서 임의의 누락 그룹 음량(L_i)은 대응하는 추정치(L_A)로 대체된다.

누락 그룹 음량 정보의 추정은 오디오 코딩 시스템의 인코더 측 또는 디코더 측에서 이루어진다.

추정이 인코더에서 이루어진다면, 오디오 스트림의 송신된 메타데이터 내의 그룹 음량에 대한 정보가 측정될 수 있거나, 앞서 설명한 바와 같은 대응하는 추정치가 대신 포함될 수 있다. 그 후, 디코더에서의 음량 보상 스테이지는 필요한 모든 음량 정보를 가지며, 모든 그룹 음량이 인코더에 의해 미리 측정된 경우에 따라 처리를 수행할 수 있다.

추정이 디코더에서 이루어진다면, 오디오 스트림의 메타데이터의 누락 그룹 음량 값들이 앞서 설명한 바와 같이 추정되고, 다음에 음량 보상은 추정된 그룹 음량 값들을 기초로 한다.

오디오 스트림의 메타데이터에서 임의의 그룹의 음량에 대한 어떠한 정보도 제공되지 않는다면, 특별한 사용 사례가 주어진다. 이 경우, 음량 보상은 이용 가능한 관련 렌더링 정보, 즉 그룹(g_i)의 디폴트 또는 초기 이득 및 사용자 상호 작용 이후의 그 수정된 버전(h_i)에만 기초하여 작용해야 한다. 그룹들에 대한 어떠한 음량 정보도 디코더에 공지되지 않기 때문에, 이것은 블라인드 음량 보상으로 지칭된다. 다른 실시예에서는, 메타데이터에서 단지 하나의 그룹 음량이 누락되더라도 블라인드 음량 보상이 수행된다.

보상을 위해, 사전 설정 내의 모든 그룹들의 음량 값들이 동일하다는 가정이 사용된다. 블라인드 음량 보상의 일 실시예에서는, M_ref 및 M_mod에 각각 포함된 모든 그룹들에 대해

라는 가정이 도입된다. 이것에 의해, 음량 보상 이득을 계산하기 위한 규칙이 아래 식에 따라 얻어진다:

블라인드 음량 보상에 대한 이득 계수는 그룹 이득들에 대한 정보만을 필요로 하지만 음량 관련 정보는 필요로 않는다는 점에 주목한다.

추가 실시예에서, 블라인드 음량 보상은 적어도 하나의 그룹 음량이 누락되는 경우에 수행된다. 그러므로 하나의 누락 그룹 음량이라도 블라인드 음량 보상을 야기한다.

이 섹션에서는 상기의 내용이 요약된다:

일 실시예에서, 사전 설정 또는 디폴트 오디오 장면의 기준 음량의 계산을 위해 포함되어야 하는 그룹들을 참조하는 인덱스들의 일반 세트가 지정된다. 이 세트는 그룹이 디폴트 오디오 장면 또는 사전 설정에 대한 음량 보상을 수행하기 위해 포함되어야 하는지 여부에 대한, 오디오 스트림의 메타데이터 내의 정보로부터 도출된다. 이 정보는 대개 인코더에서 오디오 스트림의 메타데이터에 삽입된다.

인코더에서는, 이러한 비트스트림 엘리먼트들을 적절하게 정의함으로써 음량 보상 프로세스가 제어된다. 예를 들어, 특정 그룹이 제외되어야 한다면, 대응하는 비트스트림 엘리먼트가 "거짓"으로 설정된다. 일 실시예에서는, 디폴트 오디오 장면의 또는 정의된 사전 설정의 앵커 엘리먼트의 일부인 그룹들만을 포함하고, 대응하는 비트스트림 엘리먼트들을 "참"으로 설정함으로써 앵커 기반 음량 보상이 실현된다. 이 정보를 제공하기 위한 다른 방식들이 다른 구현들에 사용될 수 있다.

일 실시예에서 이미 언급한 바와 같이, 그룹들이 디폴트 오디오 장면에서 또는 사전 설정에서 오프 전환된다면, 그 그룹들은 기준 음량(L_ref)을 계산하기 위해 폐기된다. 인덱스들의 결과적인 세트는 K_ref로 표기된다.

유사하게, 수정된 장면에서 오프 전환되는 임의의 그룹은 수정된 음량(L_mod)의 계산에서 제외된다. 그룹이 디폴트 장면에서 오프 전환되지만 수정된 장면에서는 사용자에 의해 온으로 전환된다면, 해당 그룹 음량이 기준 음량(L_ref)에서의 계산에서는 제외되지만 수정된 음량(L_mod)의 계산에는 포함되며, 그 반대의 경우도 마찬가지이다. 수정된 음량(L_mod)에 대한 그룹 인덱스들의 세트는 K_mod로 표기된다.

그 다음, M_ref를 K_ref로 대체함으로써 그리고 M_mod를 K_mod로 대체함으로써 상기 논의와 유사하게 음량 보상 이득이 계산된다.

기준 또는 수정된 음량을 계산하는 데 필요한 임의의 그룹 음량 정보가 디코더에서 누락되는 경우, 블라인드 음량 보상이 폴백(fallback) 모드로서 사용된다. 앞서 설명한 바와 같이 음량 보상을 위한 그룹 인덱스들(K_ref및 K_mod)의 선택에 대한 동일한 접근 방식이 폴백 모드에 적용된다.

도 3은 서로 다른 오디오 소스들에 기초하여 디지털 오디오 신호(100)를 생성하는 오디오 인코더(20)의 실시예를 도시한다. 오디오 신호(100)는 예를 들어, 앞서 논의한 오디오 프로세서에 의해 사용될 메타데이터를 포함한다.

오디오 인코더(20)는 하나 또는 그보다 많은 오디오 엘리먼트들(50)을 갖는 적어도 하나의 그룹에 대한 음량 값을 결정하기 위한 음량 결정기(21)를 포함한다. 도시된 예에서는, 각각 하나의 그룹으로 포함된 3개의 오디오 소스들(X₁, X₂, X₃)이 존재한다. 이들 중 2개(X₂ 및 X₃)의 음량 값들은 L₂ 및 L₃으로서 결정되며, 메타데이터 기록기(22)에 제시된다. 메타데이터 기록기(22)는 2개의 그룹들(X₂ 및 X₃)에 대해 결정된 음량 값들을 대응하는 그룹 기준 음량 정보(L₂ 및 L₃)로서 오디오 신호(100)의 메타데이터에 삽입한다.

그룹들(X₁, X₂, X₃)에 대한 기준 이득들(g₁, g₂, g₃)인 이득 값들은 메타데이터 기록기(22)에 의해 오디오 신호(100)의 메타데이터에 삽입된다. 추가 실시예에 따르면, 특정 사전 설정들 및/또는 서로 다른 플레이백 구성들에 대해 그룹 음량들 및 기준 이득 값들이 결정된다. 또한, 각각의 전체 음량(L_p)인 서로 다른 사전 설정들에 대한 음량이 측정된다.

X₁로 표기된 제1 오디오 엘리먼트(50)의 음량은 음량 결정기(21)에 의해 측정되는 것은 아니라, 추정기(24)에 의해 계산되거나 추정되고(상기 논의 참조), 메타데이터에 기록되도록 대응하는 기준 음량(L₁)으로서 메타데이터 기록기(22)에 주어진다.

도시된 실시예에서 제어기(23)는 음량 결정기(21)뿐만 아니라 메타데이터 기록기(22)에도 연결된다. 제어기(23)는 음량 보상 이득(C)의 결정을 위해 어떤 그룹 또는 어떤 그룹들이 고려되어야 하거나 무시되어야 하는지를 결정한다. 그룹들의 사용에 관한 데이터에 대해, 메타데이터 기록기(22)에 의해 메타데이터에 표시가 기록된다. 예를 들어, 플래그들의 형태의 대응하는 데이터는 오디오 프로세서에 의한 또는 디코더에 의한 음량 보상 이득(C)의 결정을 위해 어떤 그룹이 사용되어야 하는지 또는 어떤 그룹이 무시되어야 하는지를 나타낸다.

결과적인 오디오 신호(100)는 오디오 객체들(50)로부터 수신되는 실제 신호들 그리고 실제 신호들 및 오디오 디코더(1)에 의한 이들의 의도된 처리를 특성화하는 메타데이터를 포함한다. 메타데이터의 데이터는 오디오 객체들의 그룹들을 참조하는 반면, 그룹은 단 하나의 오디오 객체/엘리먼트를 커버하는 것이 또한 가능하다.

메타데이터는 다음과 같은 데이터의 적어도 일부를 포함한다:

개개의 그룹들에 대해 측정된 음량 값들(L_i),

다른 관련 그룹들과 함께 관련하여 그룹들의 음량 또는 중요성을 설명하는 개개의 그룹들에 대한 기준 이득 값들(g_i),

주어진 사전 설정 및/또는 주어진 플레이백 구성에 대한 조합된 그룹들의 결과적인 음량인 기준 음량(L_ref),

(예를 들면, 기준 및/또는 수정된 음량의 계산을 위해) 그룹 또는 그 대응하는 값들이 음량 보상 이득(C)을 결정하는 데 사용되는지 여부(예를 들면, 그룹이 앵커에 속하는지 여부 또는 그룹의 지속기간이 그룹이 무시될 수 있을 만큼 그렇게 짧은지 여부 등) 또는 어떻게 사용되는지의 표시자.

각각의 그룹에 대해, 메타데이터는 바람직하게는 서로 다른 사전 설정들 및/또는 서로 다른 플레이백 구성들에 대한 데이터의 서로 다른 세트들을 포함한다. 그러므로 관련 그룹들에 대한 서로 다른 데이터 세트들로 이어지는 서로 다른 기록 및 서로 다른 재생 상황들이 고려된다.

본 발명은 다음에, 오디오 코딩 시스템과의 사용자 상호 작용을 위해 음량 보상을 구현하기 위한 서로 다른 예들을 통해 설명된다.

인코더 측에서, 디폴트 오디오 장면 및/또는 사전 설정들에 포함된 각각의 그룹의 음량이 결정된다. 음량 정보는 오디오 스트림 또는 오디오 신호에 일부로서 포함된 메타데이터에 삽입된다.

다수의 음량 값들이 적어도 하나의 그룹에 대해 포함되는데, 여기서는 서로 다른 값들이 서로 다른 라우드스피커 플레이백 구성들(예를 들어, 스테레오, 5.1 등)과 연관된다.

인코더 측에서, 음량 보상을 수행하기 위해 그룹이 포함되어야 하는지 여부, 즉 각각 기준 음량 및 수정된 음량의 계산을 위해 그룹이 고려되어야 하는지 여부의 정보에 대응하는 추가 메타데이터가 생성된다. 예를 들어, 디폴트 오디오 장면의 또는 정의된 사전 설정의 앵커 엘리먼트의 일부인 그룹들만을 포함하도록 메타데이터를 구성함으로써 앵커 기반 음량 보상이 실현된다.

디코더는 오디오 신호 및 연관된 메타데이터를 나타내는 해당 오디오 스트림을 수신한다. 디코더는 오디오 스트림을 디코딩하여 채널들 및/또는 객체들 그리고/또는 고차 앰비소닉스 포맷들에 대응하는 디코딩된 오디오 신호들을 생성한다.

메타데이터에 기초하여, 디코더는 주어진 오디오 장면 또는 사전 설정에 대한 음량 보상을 위해 포함되어야 하는 모든 그룹 인덱스들을 선택한다.

디코더에서, 오디오 장면 또는 사전 설정의 기준 음량(L_ref)이 각각의 선택된 그룹의 디폴트 이득들(g_i) 및 대응하는 음량 정보에 기초하여 계산된다. 그룹에 대해 다수의 음량 값들이 송신된다면, 주어진 재생 라우드스피커 구성과 연관된 음량 값이 선택된다.

유사하게, 수정된 음량(L_mod)이 선택된 그룹들의 음량 정보 및 사용자 상호 작용 이후 수정된 이득들(h_i)로부터 계산된다.

디폴트 오디오 장면 또는 사전 설정에 대한 음량 보상 이득(C)이 기준 음량(L_ref) 및 수정된 음량(L_mod)에 기초하여 계산된다.

음량 보상 이득(C)은 재생 전에 오디오 신호에 적용되어 출력 신호를 제공한다.

일부 실시예들에서는, 인코더에서 모든 그룹들에 대해 필요한 음량 정보를 측정하는 것이 실행 가능하지 않다. 그래서 인코더는 누락 그룹 음량 값들의 추정치들을 계산한다. 인코더는 또한 누락(측정되지 않은) 그룹 정보 음량 정보를 추정하기 위해 상이한 방법들을 적용할 수 있다. 그런 다음, 모든 그룹들에 대해 음량 정보가 측정된 경우와 같이 디코더에서 음량 보상이 수행된다.

추가 실시예들에서, 오디오 스트림은 제한된 수의 그룹들에 대해서만 음량 정보를 포함한다. 이 경우, 누락 그룹 음량 정보가 디코더에서 추정된다. 그런 다음, 필요한 모든 음량 정보가 오디오 스트림의 메타데이터에 포함된 경우와 같이 디코더에서 음량 보상이 수행된다.

다른 실시예는 정확한 음량 보상을 수행하기 위해, 디코더에서 필요한 임의의 그룹 음량 정보가 누락된다면 폴백 모드로서 블라인드 음량 보상을 포함한다. 앞서 설명한 바와 같이 기준 및 수정된 음량의 계산에 포함될 그룹들을 선택하기 위한 인덱스들(K_ref 및 K_mod)의 세트를 결정하기 위한 동일한 메커니즘이 폴백 모드에서 사용된다. 즉, 그룹 인덱스들(K_ref and K_mod)의 세트의 선택은 여전히 인코더 측에서 생성된 대응하는 정보에 기초하는데, 이는 오디오 스트림의 메타데이터와 함께 제공된다.

상기의 실시예들과 조합될 수 있는 본 발명의 일부 실시예들은 다음과 같다:

제1 실시예는 오디오 신호를 처리하기 위한 오디오 프로세서에 관련이 있으며, 이 오디오 프로세서는: 사용자 입력에 응답하여 오디오 신호를 수정하기 위한 오디오 신호 수정기; 기준 음량 또는 기준 이득에 기초하여 그리고 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하기 위한 음량 제어기 ― 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우됨 ―; 및 음량 보상 이득을 사용하여 신호의 음량을 조작하기 위한 음량 조작기를 포함한다.

제1 실시예에 따른 제2 실시예는 장치에 관련되며, 여기서 오디오 신호는 메타데이터를 갖는 비트스트림을 포함하고, 메타데이터는 그룹에 대한 그룹 음량 및 그룹에 대한 이득 값을 포함한다.

제1 또는 제2 실시예에 따른 제3 실시예는 장치에 관련되며, 여기서 음량 제어기는 그룹 또는 한 세트의 그룹들에 대한 그룹 음량 또는 그룹 음량들 및 이득 값 또는 이득 값들을 사용하여 그룹 또는 한 세트의 그룹들에 대한 기준 음량을 계산하고, 그리고 그룹 또는 한 세트의 그룹들에 대한 그룹 음량 또는 그룹 음량들 및 수정된 이득 값 또는 수정된 이득 값들을 사용하여 그룹 또는 한 세트의 그룹들에 대한 수정된 기준 음량을 계산하도록 구성되고, 수정된 이득 값 또는 수정된 이득 값들은 사용자 입력에 의해 수정된다.

상기 실시예들 중 하나에 따른 제4 실시예는 장치에 관련되며, 여기서 음량 제어기는 기준 음량의 결정하기 위한 그룹이 오디오 신호의 메타데이터에서 폐기될 때 그 그룹을 폐기하도록 구성되거나, 또는 음량 제어기는 사용자 입력에 응답하여 그룹이 오프 전환될 때, 기준 음량의 결정시 그룹을 폐기하도록 구성되거나, 또는 음량 제어기는 그룹이 메타데이터에서 오프 전환되고 사용자 입력에 의해 온 전환될 때, 또는 그 반대의 경우도 마찬가지로, 기준 음량의 계산으로부터 그룹을 제외시키도록 구성된다.

상기 실시예들 중 하나에 따른 제5 실시예는 장치에 관련되며, 여기서 음량 제어기는 기준 음량을 사전 설정의 음량에 관련시킴으로써 음량 보상 이득을 계산하도록 구성되고, 사전 설정은 하나 또는 그보다 많은 그룹들을 포함하며, 그룹은 하나 또는 그보다 많은 객체들을 포함한다.

상기 실시예들 중 하나에 따른 제6 실시예는 장치에 관련되며, 여기서 음량 제어기는 음량 보상 이득이 상한 임계치보다 낮도록 또는 음량 보상 이득이 하한 임계치보다 크도록 음량 보상 이득에 대한 제한 동작을 수행하도록 구성된다.

상기 실시예들 중 하나에 따른 제7 실시예는 장치에 관련되며, 여기서 음량 보상 이득에 의해 그리고 오디오 프로세서에 의해 설정된 목표 레벨에 의해 결정된 원래 정규화 이득 및 오디오 신호의 메타데이터에 표시된 메타데이터 레벨에 의해 결정된 신호에 이득을 적용하도록 구성된다.

상기 실시예들 중 하나에 따른 제8 실시예는 장치에 관련되며, 여기서 오디오 신호는 음량 보상 이득의 결정을 위해 어떤 그룹이 사용되어야 하는지 또는 음량 보상 이득을 결정하기 위해 어떤 그룹이 사용되지 않아야 하는지를 표시하는 보상 메타데이터 정보를 포함하며, 음량 제어기는 보상 메타데이터 정보에 의해 사용될 것으로 표시된 그룹만을 음량 보상 이득을 결정하는 데 사용하도록 또는 보상 메타데이터 정보에 의해 사용되지 않을 것으로 표시된 그룹을 음량 보상 이득을 결정하는 데 사용하지 않도록 구성된다.

상기 실시예들 중 하나에 따른 제9 실시예는 장치에 관련되며, 여기서 오디오 신호는 앵커 엘리먼트를 갖는 것으로 표시되고, 음량 제어기는 음량 보상 이득을 결정하기 위해 앵커 엘리먼트의 오디오 객체 또는 오디오 객체들의 그룹에 대한 정보만을 사용하도록 구성된다.

제1 내지 제8 실시예들 중 하나에 따른 제10 실시예는 장치에 관련되며, 여기서 오디오 신호는 앵커 엘리먼트를 갖는 것으로 표시되고, 음량 제어기는 앵커 엘리먼트의 하나 또는 그보다 많은 오디오 객체들이 사용자 입력에 의해 증폭될 때, 음량 보상 이득을 결정하기 위해 앵커 엘리먼트의 오디오 객체 또는 오디오 객체들의 그룹에 대한 정보만을 사용하도록, 그리고 앵커 엘리먼트의 하나 또는 그보다 많은 오디오 객체들이 사용자 입력에 의해 감쇠될 때, 앵커 엘리먼트의 하나 또는 그보다 많은 오디오 객체들로부터의 정보 및 앵커 엘리먼트에 포함되지 않은 하나 또는 그보다 많은 오디오 객체들의 정보를 사용하도록 구성된다.

상기 실시예들 중 하나에 따른 제11 실시예는 장치에 관련되며, 여기서 음량 제어기는 적어도 2개의 그룹들을 포함하는 사전 설정의 음량 및 사전 설정에 대해 누락되지 않은 이득 및 음량 정보를 사용하여 오디오 신호에서 누락된 그룹 음량을 계산하도록 구성된다.

상기 실시예들 중 하나에 따른 제12 실시예는 장치에 관련되며, 여기서 음량 제어기는 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 이득 값들 및 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 수정된 이득 값들을 사용하여 블라인드 음량 보상을 수행하도록 구성된다.

상기 실시예들 중 하나에 따른 제13 실시예는 장치에 관련되며, 여기서 음량 제어기는 오디오 신호가 기준 음량 정보를 포함하는지 여부 체크하고, 오디오 신호가 기준 음량 정보를 포함하지 않는다면, 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 이득 값들 및 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 수정된 이득 값들을 사용하여 블라인드 음량 보상을 수행하도록, 또는 수정된 음량 정보가 계산될 수 없는지 여부를 체크하여, 수정된 음량 정보가 계산될 때, 블라인드 음량 보상을 수행하도록 구성되며, 블라인드 음량 보상은 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 이득 값들 및 하나 또는 그보다 많은 그룹들에 대한 하나 또는 그보다 많은 수정된 이득 값들을 사용하는 것을 포함한다.

상기 실시예들 중 하나에 따른 제14 실시예는 장치에 관련되며, 여기서 오디오 신호는 서로 다른 플레이백 구성들에 대한 서로 다른 기준 음량 정보 값들을 포함하고, 이 장치는 미리 정의된 플레이백 구성으로 신호를 변환하기 위한 포맷 변환기를 더 포함하며, 음량 제어기는 포맷 변환기에 의해 사용되는 특정 플레이백 구성에 대한 특정 음량 값을 선택하도록 구성된다.

제15 실시예는 메타데이터를 포함하는 오디오 신호를 생성하기 위한 오디오 인코더에 관련이 있으며, 이 오디오 인코더는: 하나 또는 그보다 많은 오디오 객체를 갖는 그룹에 대한 음량을 결정하기 위한 음량 결정기; 및 그룹에 대한 음량을 기준 음량 정보로서 메타데이터에 삽입하기 위한 메타데이터 기록기를 포함한다.

제15 실시예에 따른 제16 실시예는 오디오 인코더에 관련되며, 여기서 음량 결정기는 서로 다른 플레이백 구성들에 대한 서로 다른 음량 값들을 결정하도록 구성되고, 메타데이터 기록기는 서로 다른 플레이백 구성들과 연관하여 서로 다른 음량 값들을 메타데이터에 삽입하도록 구성된다.

제15 실시예 또는 제16 실시예에 따른 제17 실시예는 오디오 인코더에 관련되며, 이 오디오 인코더는 어떤 그룹이 음량 보상에 사용되어야 하는지 또는 사용되지 않아야 하는지를 결정하기 위한 제어기를 더 포함하고, 메타데이터 기록기는 음량 보상을 위해 어떤 그룹이 사용되어야 하는지 또는 어떤 그룹이 사용되지 않아야 하는지를 표시하는 표시를 메타데이터에 기록하도록 구성된다.

제15 실시예 내지 제17 실시예 중 하나에 따른 제18 실시예는 오디오 인코더에 관련되며, 여기서 음량 결정기는 그룹에 대한 그룹 음량 값을 계산하도록 구성되고, 그룹에 대한 그룹 음량 값은 메타데이터에서 누락되며, 메타데이터 기록기는 오디오 신호의 모든 그룹들이 연관된 기준 음량 정보를 갖도록 메타데이터에 누락 음량 값을 삽입하도록 구성된다.

제19 실시예는 오디오 신호를 처리하기 위한 방법에 관련이 있으며, 이 방법은: 사용자 입력에 응답하여 오디오 신호를 수정하는 단계; 기준 음량 또는 기준 이득에 기초하여 그리고 수정된 음량 또는 수정된 이득에 기초하여 음량 보상 이득을 결정하는 단계 ― 수정된 음량 또는 수정된 이득은 사용자 입력에 좌우됨 ―; 및 음량 보상 이득을 사용하여 신호의 음량을 조작하는 단계를 포함한다.

제20 실시예는 메타데이터를 포함하는 오디오 신호를 생성하기 위한 방법에 관련이 있으며, 이 방법은: 하나 또는 그보다 많은 오디오 객체를 갖는 그룹에 대한 음량을 결정하는 단계; 및 그룹에 대한 음량을 기준 음량 정보로서 메타데이터에 삽입하는 단계를 포함한다.

제21 실시예는 컴퓨터 또는 프로세서 상에서 실행될 때, 제19 실시예에 따른 방법 또는 제20 실시예에 따른 방법을 수행하기 위한 컴퓨터 프로그램에 관련이 있다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계들이 이러한 장치에 의해 실행될 수도 있다.

본 발명의 송신된 또는 인코딩된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체와 같은 비-일시적 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

Claims

오디오 신호(100)를 처리하기 위한 오디오 프로세서(1)로서,
오디오 신호 수정기(modifier)(2) ― 상기 오디오 신호 수정기(2)는 사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하도록 구성됨 ―;
음량 제어기(6) ― 상기 음량 제어기(6)는 한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하도록 구성되고,
상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 제어기(6)는 상기 음량 보상 이득(C)을 결정하기 위해 어떤 그룹이 사용되어야 하는지 또는 사용되지 않아야 하는지를 나타내는 상기 오디오 신호(100)의 메타데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되고,
상기 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함함 ―; 및
음량 조작기(5)를 포함하며,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)을 사용하여 신호의 음량을 조작하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항에 있어서,
상기 음량 제어기(6)는 상기 메타데이터의 데이터에 포함된 적어도 하나의 플래그에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되며,
상기 플래그는 그룹이 상기 음량 보상 이득(C)을 결정하기 위해 고려될지 여부 또는 어떻게 고려될지를 표시하는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 또는 제2 항에 있어서,
상기 음량 제어기(6)는 그룹들이 상기 오디오 신호(100)의 메타데이터에 포함된 앵커에 속할 때 상기 음량 보상 이득(C)을 결정하기 위해 상기 그룹들만을 사용하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제3 항에 있어서,
상기 음량 제어기(6)는 앵커에 속하는 적어도 하나의 그룹의 수정된 이득(h_i)이 대응하는 기준 이득(g_i)보다 더 큰 경우에 상기 음량 보상 이득(C)을 결정하기 위해 상기 앵커에 속하는 그룹들만을 사용하도록 구성되고, 그리고/또는
상기 음량 제어기(6)는 상기 앵커에 속하는 적어도 하나의 그룹의 수정된 이득(h_i)이 상기 대응하는 기준 이득(g_i)보다 더 낮은 경우에 상기 음량 보상 이득(C)을 결정하기 위해 상기 앵커 속하는 그룹들 및 상기 앵커에서 누락된 그룹들을 사용하도록 구성되며,
상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1)로서,
오디오 신호 수정기(2) ― 상기 오디오 신호 수정기(2)는 사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하도록 구성됨 ―;
음량 제어기(6) ― 상기 음량 제어기(6)는 한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하도록 구성되고,
상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 제어기(6)는 적어도 하나의 사전 설정(preset)을 참조하는 상기 오디오 신호(100)의 메타데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되고,
상기 사전 설정은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트를 참조함 ―; 및
음량 조작기(5)를 포함하며,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)을 사용하여 신호의 음량을 조작하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제5 항에 있어서,
상기 오디오 프로세서(1)는 제1 항 내지 제4 항 중 어느 한 항에 따라 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제6 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 상기 사전 설정에 의해 참조된 상기 세트의 적어도 하나의 그룹의 그룹 음량들(L_i) 및/또는 이득 값들(g_i)에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제7 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 각각의 그룹 음량들(L_i) 및 각각의 이득 값들(g_i)을 사용하여 상기 사전 설정에 의해 참조된 상기 세트에 대한 기준 음량(L_ref)을 결정하도록 구성되고,
상기 음량 제어기(6)는 상기 각각의 그룹 음량들(L_i) 및 각각의 수정된 이득 값들(h_i)을 사용하여 상기 사전 설정에 의해 참조된 상기 세트에 대한 수정된 음량(L_mod)을 결정하도록 구성되며,
상기 수정된 이득 값들(h_i) 은 상기 사용자 입력에 의해 수정되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제5 항 내지 제8 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 선택된 사전 설정을 참조하는 상기 메타데이터의 데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되고,
상기 사전 설정은 상기 사용자 입력에 의해 선택되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제5 항 내지 제9 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 디폴트 사전 설정을 참조하는 상기 메타데이터의 데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되고,
상기 디폴트 사전 설정은 사용자 입력 전에 또는 사용자 입력과 독립적으로 설정되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1)로서,
오디오 신호 수정기(2) ― 상기 오디오 신호 수정기(2)는 사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하도록 구성됨 ―;
음량 제어기(6) ― 상기 음량 제어기(6)는 한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하도록 구성되고,
상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 제어기(6)는 그룹이 오프 전환되는지 아니면 온 전환되는지를 표시하는 상기 오디오 신호(100)의 메타데이터에 기초하여 상기 음량 보상 이득C)을 결정하도록 구성되고,
상기 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함함 ―; 및
음량 조작기(5)를 포함하며,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)을 사용하여 신호의 음량을 조작하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제11 항에 있어서,
상기 오디오 프로세서(1)는 제1 항 내지 제10 항 중 어느 한 항에 따라 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제11 항 또는 제12 항에 있어서,
상기 음량 제어기(6)는 수정된 음량(L_mod)을 결정하기 위한 그룹이 상기 사용자 입력에 응답하여 오프 전환될 때 상기 그룹을 폐기하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제11 항 내지 제13 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 상기 기준 음량(L_ref)을 결정하기 위한 그룹이 상기 메타데이터에서 오프 전환될 때 상기 그룹을 폐기하고, 상기 사용자 입력에 의해 상기 그룹이 온 전환될 때 상기 수정된 음량(L_mod)을 결정하기 위해 상기 그룹을 포함시키도록 구성되고, 그리고/또는
상기 음량 제어기(6)는 상기 메타데이터에서 그룹이 온 전환될 때 상기 기준 음량(L_ref)을 결정하기 위해 상기 그룹을 포함시키고, 상기 사용자 입력에 의해 상기 그룹이 오프 전환될 때 상기 수정된 음량(L_mod)을 결정하는 데 상기 그룹을 제외시키도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1)로서,
오디오 신호 수정기(2) ― 상기 오디오 신호 수정기(2)는 사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하도록 구성됨 ―;
음량 제어기(6) ― 상기 음량 제어기(6)는 한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하도록 구성되고,
상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 제어기(6)는 상기 오디오 신호(100)에 포함된 그룹의 메타데이터에 적어도 하나의 그룹 음량이 누락된 상기 오디오 신호(100)의 메타데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성됨 ―; 및
음량 조작기(5)를 포함하며,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)을 사용하여 신호(101)의 음량을 조작하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제15 항에 있어서,
상기 오디오 프로세서(1)는 제1 항 내지 제14 항 중 어느 한 항에 따라 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제15 항 또는 제16 항에 있어서,
상기 음량 제어기(6)는 사전 설정의 음량(L_p), 누락 그룹 음량을 갖는 그룹의 기준 이득(g_i)뿐만 아니라 그룹 음량(L_i)을 갖는 그룹들에 대한 그룹 음량들(L_i) 및 기준 이득들(g_i)을 사용하여 상기 누락 그룹 음량(L_A)을 계산하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제15 항 내지 제17 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 적어도 하나의 기준 이득(g_i) 및 적어도 하나의 수정된 이득만(h_i)을 사용하는 블라인드 음량 보상을 위해 상기 오디오 신호(100)의 메타데이터가 적어도 하나의 그룹 음량을 누락하고 있는 경우의 상기 음량 보상 이득C)을 결정하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제15 항 내지 제18 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 적어도 하나의 기준 이득(g_i) 및 적어도 하나의 수정된 이득만(h_i)을 사용하는 블라인드 음량 보상을 위해 상기 오디오 신호(100)의 메타데이터에 그룹 음량들이 없는 경우의 상기 음량 보상 이득C)을 결정하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1)로서,
오디오 신호 수정기(2) ― 상기 오디오 신호 수정기(2)는 사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하도록 구성됨 ―;
음량 제어기(6) ― 상기 음량 제어기(6)는 한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(h_i)에 기초하여 음량 보상 이득(C)을 결정하도록 구성되고,
상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 제어기(6)는 상기 오디오 신호(100)의 재생을 위한 플레이백(playback) 구성을 참조하는 상기 오디오 신호(100)의 메타데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성됨 ―; 및
음량 조작기(5)를 포함하며,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)을 사용하여 신호(101)의 음량을 조작하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제20 항에 있어서,
상기 오디오 프로세서(1)는 제1 항 내지 제19 항 중 어느 한 항에 따라 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제20 항 또는 제21 항에 있어서,
상기 음량 제어기(6)는 플레이백 구성을 참조하며 연관된 그룹 음량들(L_i) 및/또는 기준 이득 값들(g_i)을 포함하는 상기 메타데이터의 데이터에 기초하여 상기 음량 보상 이득(C)을 결정하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제22 항 중 어느 한 항에 있어서,
상기 오디오 신호(100)는 상기 메타데이터를 갖는 비트스트림을 포함하고,
상기 메타데이터는 적어도 하나의 그룹에 대한 기준 이득(g_i)을 포함하는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제23 항 중 어느 한 항에 있어서,
상기 오디오 신호(100)의 메타데이터는 적어도 하나의 그룹에 대한 그룹 음량(L_i)을 포함하는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제24 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 상기 그룹에 대한 그룹 음량(L_i) 및 이득 값(g_i)을 사용하여 적어도 하나의 그룹에 대한 기준 음량(L_ref)을 결정하도록 구성되고,
상기 음량 제어기(6)는 상기 그룹 음량(L_i) 및 상기 수정된 이득 값(h_i)을 사용하여 상기 그룹에 대한 수정된 음량(L_mod)을 결정하도록 구성되며,
상기 수정된 이득 값(h_i)은 상기 사용자 입력에 의해 수정되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제25 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 복수의 그룹들에 대한 각각의 그룹 음량들(L_i) 및 이득 값들(g_i)을 사용하여 상기 그룹들에 대한 기준 음량(L_ref)을 결정하도록 구성되고,
상기 음량 제어기(6)는 복수의 그룹들에 대한 각각의 그룹 음량(L_i) 및 수정된 이득 값(h_i)을 사용하여 상기 그룹들에 대한 수정된 음량(L_mod)을 결정하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제26 항 중 어느 한 항에 있어서,
상기 음량 제어기(6)는 상기 음량 보상 이득(C)이 상한 임계치(C_max)보다 낮도록 그리고/또는 상기 음량 보상 이득(C)이 하한 임계치(C_min)보다 크도록 상기 음량 보상 이득(C)에 대한 제한 동작을 수행하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
제1 항 내지 제27 항 중 어느 한 항에 있어서,
상기 음량 조작기(5)는 상기 음량 보상 이득(C)에 의해 그리고 사용자 입력에 의해 설정된 목표 음량 레벨 및 오디오 신호(100)의 메타데이터에 포함된 메타데이터 음량 레벨에 의해 결정된 정규화 이득(G_N)에 의해 결정되는 신호에 보정된 이득(G_corrected)을 적용하도록 구성되는,
오디오 신호(100)를 처리하기 위한 오디오 프로세서(1).
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20)로서,
하나 또는 그보다 많은 오디오 엘리먼트들(50)을 갖는 적어도 하나의 그룹에 대한 음량 값을 결정하기 위한 음량 결정기(21); 및
결정된 음량 값을 그룹 음량(L_i)으로서 상기 메타데이터에 삽입하기 위한 메타데이터 기록기(22)를 포함하는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20).
제29 항에 있어서,
상기 음량 결정기(21)는 서로 다른 플레이백 구성들에 대한 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 결정하도록 구성되고,
상기 메타데이터 기록기(22)는 각각의 플레이백 구성과 연관하여 결정된 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 상기 메타데이터에 삽입하도록 구성되는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20).
제29 항 또는 제30 항에 있어서,
상기 음량 결정기(21)는 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트들을 참조하는 서로 다른 사전 설정들에 대한 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 결정하도록 구성되고,
상기 메타데이터 기록기(22)는 각각의 사전 설정 구성과 연관하여 결정된 서로 다른 음량 값들 및/또는 서로 다른 이득 값들을 상기 메타데이터에 삽입하도록 구성되는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20).
제29 항 내지 제31 항 중 어느 한 항에 있어서,
제어기(23)를 더 포함하며,
상기 제어기(23)는 어떤 그룹이 음량 보상 이득(C)을 결정하기 위해 사용되어야 하는지 또는 무시되어야 하는지를 결정하도록 구성되며,
상기 메타데이터 기록기(22)는 상기 음량 보상 이득(C)을 결정하기 위해 어떤 그룹이 사용되어야 하는지 또는 무시되어야 하는지를 표시하는 표시를 상기 메타데이터에 기록하도록 구성되는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20).
제29 항 내지 제32 항 중 어느 한 항에 있어서,
추정기(24)를 더 포함하며,
상기 추정기(24)는 그룹에 대한 그룹 음량 값을 계산하도록 구성되고,
상기 그룹에 대한 그룹 음량 값은 상기 음량 결정기(21)에 의해 결정되지 않으며,
상기 메타데이터 기록기(22)는 상기 오디오 신호(100)의 모든 그룹들이 연관된 그룹 음량들을 갖도록 상기 메타데이터에 계산된 그룹 음량 값을 삽입하도록 구성되는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 오디오 인코더(20).
오디오 신호(100)를 처리하기 위한 방법으로서,
사용자 입력에 응답하여 상기 오디오 신호(100)를 수정하는 단계;
한편으로는 기준 음량(L_ref) 또는 기준 이득(g_i)에 기초하여 그리고 다른 한편으로는 수정된 음량(L_mod) 또는 수정된 이득(hi)에 기초하여 음량 보상 이득(C)을 결정하는 단계 ― 상기 수정된 음량(L_mod) 또는 상기 수정된 이득(h_i)은 상기 사용자 입력에 좌우되며,
상기 음량 보상 이득(C)은 상기 음량 보상 이득(C)을 결정하기 위해 사용되어야 하는지 아니면 사용되지 않아야 하는지를 표시하는 상기 오디오 신호(100)의 메타데이터에 기초하여 결정되며, 상기 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하고, 그리고/또는
상기 음량 보상 이득(C)은 사전 설정을 참조하는 상기 오디오 신호(100)의 메타데이터에 기초하여 결정되며, 상기 사전 설정은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하는 적어도 하나의 그룹의 세트를 참조하고, 그리고/또는
상기 음량 보상 이득(C)은 그룹이 오프 전환되는지 아니면 온 전환되는지를 표시하는 상기 오디오 신호(100)의 메타데이터에 기초하여 결정되며, 상기 그룹은 하나 또는 그보다 많은 오디오 엘리먼트들을 포함하고, 그리고/또는
상기 음량 보상 이득(C)은 상기 오디오 신호(100)에 포함된 그룹의 메타데이터에 적어도 하나의 그룹 음량(L_A)이 누락된 상기 오디오 신호(100)의 메타데이터에 기초하여 결정되고, 그리고/또는
상기 음량 보상 이득(C)은 상기 오디오 신호(100)의 재생을 위한 플레이백 구성을 참조하는 상기 오디오 신호(100)의 메타데이터에 기초하여 결정됨 ―; 및
상기 음량 보상 이득(C)을 사용하여 신호의 음량을 조작하는 단계를 포함하는,
오디오 신호(100)를 처리하는 방법.
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 방법으로서,
하나 또는 그보다 많은 오디오 엘리먼트들을 갖는 그룹에 대한 음량 값을 결정하는 단계; 및
상기 그룹에 대해 결정된 음량 값을 그룹 음량(L_i)으로서 상기 메타데이터에 삽입하는 단계를 포함하는,
메타데이터를 포함하는 오디오 신호(100)를 생성하기 위한 방법.
컴퓨터 또는 프로세서 상에서 실행될 때, 제34 항의 방법 또는 제 35 항의 방법을 수행하기 위한,
컴퓨터 프로그램.