KR101761041B1

KR101761041B1 - 음량 및 동적 범위 제어에 대한 메타데이터

Info

Publication number: KR101761041B1
Application number: KR1020157026825A
Authority: KR
Inventors: 프랑크 바움가르테; 에릭 에이. 알라만체; 스테판 케이.오. 스트로머
Original assignee: 애플 인크.
Priority date: 2013-03-29
Filing date: 2014-03-27
Publication date: 2017-07-25
Also published as: CN105103222B; CN111370007B; CN111370007A; EP2956936B1; EP2956936A2; CN105103222A; US11563411B2; AU2014241222B2; TW201443886A; US20140294200A1; US10958229B2; US10644666B2; US9559651B2; HK1215489A1; CN117275493A; US20200169233A1; AU2014241222A1; WO2014160849A3; KR20150122760A; TWI562138B

Abstract

오디오 정규화 이득 값이 정규화된 신호를 생산하도록 오디오 신호에 적용된다. 정규화된 신호는 몇몇 사전 정의된 DRC 특징들 중 선택된 DRC 특징에 따라 동적 범위 제어(DRC) 이득 값들을 컴퓨팅하도록 프로세싱된다. 오디오 신호가 인코딩되고 DRC 이득 값들이 인코딩된 오디오 신호와 연관된 메타데이터로서 제공된다. 몇몇 다른 실시예들이 또한 기술되고 청구되었다.

Description

음량 및 동적 범위 제어에 대한 메타데이터{METADATA FOR LOUDNESS AND DYNAMIC RANGE CONTROL}

본 정식 출원은 더 이른 출원일을 갖는 2013년 3월 29일 출원된 미국 가출원 제61/806,570호의 우선권을 주장한다.

본 발명은 일반적으로 오디오 신호의 인코딩 및 디코딩과 소비자 전자기기 최종 소비자 디바이스 내의 디코딩된 신호의 재생 품질을 향상시키기 위한 인코딩된 신호와 연관된 메타데이터의 사용에 관한 것이다. 다른 실시예들 또한 기술되었다.

디지털 오디오 콘텐츠는 예를 들어 음악 및 영화 파일들을 포함하는 다수의 서로 다른 사례들을 나타낸다. 대부분의 사례들에서, 오디오 신호는 미디어 파일 또는 스트림의 전송 또는 전달이 더 적은 대역폭을 소비하고 더 빠르도록 데이터 속도 감소를 위한 목적으로 인코딩되며, 그에 따라 다수의 다른 전송이 동시에 발생하는 것을 가능하게 한다. 미디어 파일 또는 스트림은 서로 다른 타입의 최종 사용자 디바이스에서 수신될 수 있고 이때 인코딩된 오디오 신호가 빌트인 또는 탈착가능한 스피커를 통해 소비자에게 제시되기 전에 디코딩된다. 이것은 인터넷을 통해 디지털 미디어를 획득하기 위한 사용자의 입맛을 충족시키는 것을 돕는다. 디지털 오디오 프로그램의 생산자 및 배포자는 오디오 콘텐츠의 인코딩 및 디코딩에 사용될 수 있는 자유롭게 사용가능한 몇몇 산업 표준들을 가진다. 이것은 디지털 오디오 압축 표준(AC-3, E-AC-3), 개선된 텔레비전 시스템 위원회, 인크.(Advanced Television Systems Committee, Inc.)에 의해 2005년 6월 14일 공개된 레비전 B, 문서 A/52B("ATSC 표준"), 유럽 전기통신 표준 위원회의 ISO/IEC 13818-7 내의 MPEG-2 수송 스트림 기반 ETSI TS 101 154 디지털 비디오 방송 (DVB), 국제 표준 기구(ISO)에 의해 공개된 개선된 오디오 코딩(AAC) ("MPEG-2 AAC 표준"), 및 ISO/IEC 14496-3 ("MPEG-4 오디오")를 포함한다.

데스크톱 컴퓨터, 랩탑 컴퓨터, 휴대용 핸드헬드 디바이스(예를 들어, 스마트폰), 홈 텔레비전 및 차량 내 미디어 시스템을 포함하는 디지털 오디오의 재생을 위한 다양한 최종 사용자 디바이스들이 계속 증가하고 있다. 이러한 디바이스들은 서로 다른 아날로그 신호 경로, 스피커 및 음향 환경을 가진다. 또한, 오디오 신호의 동적 범위는 서로 다른 프로그램들 사이에서 달라진다. 또한, (생산자 및 때때로 배포자도 포함하는) 디지털 오디오 프로그램들의 프로듀서가 종종 프로그램의 평균 음량이 몇 dB 만큼 더 높도록 오디오 신호를 디지털적으로 변조함으로써 그들의 프로그램의 평균 음량을 증가시키길 원한다. 그러나 이렇게 하는 것은 또한 (원치 않는 청취가능한 왜곡으로 이어지는) 클리핑(clipping)을 방지하기 위해 결과적인 오디오 신호의 피크 레벨이 감소될 것을 요구한다. 이것은 결과적인 오디오 신호가 더 좁은 인벨롭 내에 맞춰질 수 있도록 (그에 따라 클리핑을 방지하도록) 높은 오디오 신호 및 낮은 오디오 신호를 압축하는 동적 범위 제어(DRC)를 이용하여 달성된다. 그러나 이러한 모든 요인들은 최종 사용자에 의해 인식되는 음량이 동일한 디바이스 상의 연이은 프로그램들 사이에서 그리고 서로 다른 최종 사용자 디바이스들에 걸쳐 뚜렷하게 달라질 수 있으며, 이것이 재생 동안에 불쾌한 사용자 경험으로 이어질 수 있다는 점에서 문제를 발생시킨다.

애플 인크.(Apple Inc.)의 SoundCheck™ 프로그램과 같은 소프트웨어 툴은 예를 들어 1970년대의 오래된 노래에 비교하여 더 작은 동적 범위를 가지지만 더 높은 평균 음량을 갖는 최근의 팝 레코딩이 낮추어지도록 바라건대 동일하게 인식될 수 있는 음량을 산출하도록 노래들의 재생 볼륨을 자동으로 조정한다. 또한, 오디오 프로그램은 인코딩된 오디오 신호와 연관되고 연관된 오디오 신호를 기술하는 메타데이터 부분을 포함할 수 있다. 메타데이터는 예를 들어 대화 레벨, DRC 및 디코딩된 오디오 신호의 임의의 다운믹싱(downmixing)을 제어하도록 최종 사용자 디바이스 내의 소프트웨어에 의해 사용되는 정보를 포함할 수 있으며, 그에 따라 재생 중 소비자의 경험을 변화시킨다.

임의의 종래의 인코딩/디코딩(코덱) 및 연관된 메타데이터 구성을 이용하여, 소비자에게 전달되는 오디오 품질을 제어하기 위한 체계적이지만 탄력적인 접근법이 요구될 수 있다. 적어도 이어지는 본 발명의 실시예들이 아래에서 더욱 자세하게 기술된다.

일 실시예에서, 오디오 신호를 인코딩하기 위한 방법이 정규화된 신호를 생산하기 위해서 오디오 신호에 오디오 정규화 이득 값을 적용하는 것을 포함한다. 정규화된 신호는 정규화된 신호를 위해 다수의 동적 범위 제어(DRC) 이득 값들을 컴퓨팅하도록 프로세싱된다. DRC 이득 값들은 몇몇 사전 정의된 DRC 특징들 중 선택된 하나의 DRC 특징에 따라 컴퓨팅된다. 오디오 신호가 인코딩되고 이득 값들이 인코딩된 신호와 연관된 메타데이터로서 제공된다. 그 다음 제공된 DRC 이득 값들이 재생 중에 디코딩된 오디오 신호의 동적 범위를 조정하도록 재생 프로세싱의 디코딩 단계에서 디코딩된 오디오 신호에 적용될 수 있다.

다른 실시예에서, 몇몇 사전 정의된 DRC 특징들이 인코더 및 디코더 장치들에 "알려져" 있다. 인코더 장치에서 사용되는 DRC 특징의 인덱스가 디코더 장치에 전달된다. 이것은 최종 사용자 디바이스의 디코더 장치가 사용자 입력(재생 볼륨 및/또는 음량 정규화 온 또는 오프 설정), 사용자 콘텍스트(또는 최종 사용자 디바이스가 사용되는 조건, 예를 들어 늦은 밤, 차량 내 등) 및 디지털-아날로그 변환기 및 디코딩된 오디오 신호의 재생을 위해 사용될 스피커의 동적 범위와 같은 로컬 파라미터들에 따라 (디코딩된 오디오 신호를 압축하도록 사용되는) 제공된 DRC 이득 값들을 변조하는 것을 가능하게 한다.

다른 실시예에서, 음량 정보 또는 음량 파라미터들이 예를 들어 다중 채널 오디오 신호의 DRC 압축 버전 또는 다운믹스된 버전에 대해 인코딩된 장치 내에서 컴퓨팅될 수 있다. 그 다음 음량 정보는 인코딩된 다중 채널 오디오 신호와 연관된 메타데이터로서 제공될 수 있다. 일 실시예에서, 인코딩 장치에서, 입력 다중 채널 오디오 신호의 다운믹스된 버전의 음량 파라미터가 측정되며, 이때 다운믹스 신호가 입력 신호에 이전에 적용되었던 DRC를 가지고 또는 가지지 않고 획득되었을 수 있다.

입력 신호의 인코딩된 버전과 연관된 메타데이터로서 예를 들어 인코딩 단계에서 다운믹스된 신호를 생산하도록 사용된 다운믹스 이득과 함께 인코딩 단계에 의해 제공될 수 있는 다양한 음량 파라미터들이 존재한다. 메타데이터 내에 포함된 음량 정보는: (ITU BS.1770에 따라 컴퓨팅된 것과 같은 전체 오디오 프로그램의 주관적인 음량 측정에서와 같은) 프로그램 음량, (ITU BS.1770에 따라 측정된 것과 같은) 트루 피크 값(true peak value), 앵커 음량(anchor loudness), 음량 범위, 최고 음량 범위, 최대 순간 음량 및 단기 음량 중 하나 이상을 포함할 수 있다. 이러한 메타데이터는 또한 입력 오디오 신호에 대해 DRC 이득 값들을 생성하도록 선택된 DRC 특징의 인덱스를 포함할 수 있으며, 이러한 DRC 이득 값들은 또한 메타데이터 내에 포함될 수 있다.

디코딩 장치에서, DRC 프로세서가 1) 메타데이터 내에서 획득된 DRC 특징의 인덱스, 2) 메타데이터 내에서 획득된 DRC 이득 값들 및 3) 예를 들어 볼륨 설정 및 음량 정규화 온/오프 설정과 같은 사용자 입력을 포함하는 로컬 파라미터들에 기초하여 DRC에 대한 서로 다른 이득 값들을 조정 또는 생성할 수 있다. 따라서, 동적 범위 제어가 디코딩된 오디오 신호의 프레임당 음량 값들(또는 DRC 입력 레벨들)을 컴퓨팅해야 하는 디코딩 장치 없이 재생 프로세싱 동안에 실시간으로 달성될 수 있다. 일 실시예에서, 오디오 파일 또는 스트림을 디코딩할 때, 오디오 파일 또는 스트림과 연관된 메타데이터가 디코더 장치 내에서 실행하는 미디어 플레이어에 의해 판독되며, (디지털-아날로그 변환에 앞서) 디코딩된 디지털 오디오 콘텐츠의 음량을 자동으로(즉, 사용자 입력 없이 사용자에게 투명하게) 조정하도록 사용된다. 이것은 사용자 입력 및 사용자 선택된 재생 모드의 동적 범위에 의존하여 오디오 파일 또는 스트림 내의 콘텐츠의 재생에 대한 사용자 경험을 향상시키도록 수행될 수 있다(예를 들어, 라인-아웃 대 빌트인 스피커).

다른 실시예에서, 디코딩 장치에서 적용되는 DRC 압축량은 재생을 위해 사용되고 있는 이용가능한 스피커 디바이스 및 디지털-아날로그 변환의 동적 범위 및 사용자 재생 볼륨 설정에 기초하여 디코딩 장치에서 컴퓨팅될 수 있는 타겟 헤드룸(headroom)(디지털 오디오 신호의 피크 레벨과 그것의 클리핑 레벨 사이의 차이)에 기초하여 및/또는 메타데이터를 통해 제공되고 인코딩 장치에 의해 측정되는 트루 피크 값 및/또는 사용자에 의해 설정된 재생 볼륨에 따라 제어된다.

또 다른 실시예에서, 타겟 DRC 특징이 디코딩 단계에서 정의될 수 있으며, 이러한 타겟은 i) 어느 인코딩 단계 DRC 특징이 사용되었는지 찾고, ii) 수신된 DRC 이득 값들을 변조하는 방식을 결정하도록 두 DRC 특징들을 비교함으로써 획득될 수 있다. 동적 범위 조정은 따라서 인코딩 단계에서 설정된 추출된 DRC 이득 값들인 (인코더에 의해 사용된 DRC 특징을 가리키는) 메타데이터로부터 추출된 DRC 특징 인덱스에 기초하여, 그리고 서로 다른 타겟 DRC 특징 인덱스가 채택되는 것을 제안하는 소정의 로컬 조건에 기초하여 디코더에서 실시간으로 변조된다.

다른 실시예에서, DRC-압축된 오디오 콘텐츠 신호 및/또는 다운믹스된 오디오 콘텐츠 신호와 관련된 음량 정보는 인코딩된 다중 채널 디지털 오디오 파일 또는 스트림 내의 메타데이터로서 생성되고 내장된다. 그 다음 이러한 특정한 메타데이터는 디코딩된 다중 채널 오디오 콘텐츠의 다운믹스를 맞춤화함으로써 사용자의 경험을 향상시키도록 (디코딩 단계에서) 디코딩 후에 사용된다.

또 다른 실시예에서, 디코딩 단계에서 (스피커를 구동하기 전에 디코딩된 오디오 콘텐츠 신호에) 적용되는 DRC-압축량이 스피커의 입력에서의 클리핑을 방지하기 위해 변화된다. 이러한 DRC-압축의 변화는 a) 사용자에 의해 설정된 재생 볼륨, b) (인코딩된 오디오 파일 또는 스트림으로부터 추출된) 트루 피크 값 및/또는 c) 디지털-아날로그 변환기(DAC)로의 입력에서의 (DRC-압축이 적용된 후의) 타겟 헤드룸의 함수일 수 있다. 예를 들어, 낮은 재생 볼륨에서, 더 많은 헤드룸이 존재하며, 그에 따라 더 적은 DRC-압축이 적용될 수 있고 그 결과 디코딩된 오디오 신호 내의 더 높은 피크가 스피커를 통과하는 것을 가능하게 할 것이다.

위의 개요는 본 발명의 모든 양태들의 독점적인 리스트를 포함하지 않는다. 본 발명은 아래의 상세한 설명에서 개시되고 본 출원서와 함께 출원된 청구범위에서 특히 지적된 것뿐만 아니라, 위에서 요약된 다양한 양태들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들을 포함한다. 이러한 조합들은 위의 개요에서 구체적으로 개진되지 않은 특정한 장점들을 가진다.

본 발명의 실시예들이 첨부된 도면들의 그림에서 제한적이지 않은 예시적인 방식으로 나타내어졌으며, 도면에서 동일한 참조번호는 유사한 요소를 나타낸다. 본 개시내용에서 지칭하는 본 발명의 "실시예" 또는 "일 실시예"가 반드시 동일한 실시예인 것은 아니며, 적어도 하나의 실시예를 의미할 수 있다. 또한, 주어진 그림은 본 발명의 하나보다 많은 실시예의 특징부의 실례를 나타내도록 사용될 수 있으며, 그림에 있는 모든 요소들이 주어진 실시예에 대해 요구되는 것은 아닐 수 있다.
도 1은 디지털 오디오 인코딩 단계 또는 인코딩 장치의 관련 구성요소들의 블록도.
도 2는 인코딩 단계에서 사용될 수 있는 몇몇 예시적인 DRC 특징들을 나타낸 도면.
도 3은 디코더 단계 또는 디코더 장치의 관련 구성요소들, 특히 프로세싱이 디코딩된 오디오 신호의 재생 중에 수행되는 관련 구성요소들의 블록도.
도 4는 새로운 DRC 이득 값들을 생산하도록 디코딩 단계에서 사용될 수 있는 몇몇 예시적인 DRC 특징들을 나타낸 도면.
도 5는 디코딩된 다중 채널 오디오 신호를 수신하는 다운믹스 프로세서를 갖는 디코딩 단계 내의 구성요소들의 블록도.
도 6은 새로운 이득 값들을 생산하도록 디코딩 단계에서 사용하기 적합한 몇몇 예시적인 DRC 특징들을 도시한 도면.
도 7은 특정한 다운믹스 시나리오에 대해 적합한 디지털 오디오 인코딩 단계 또는 인코딩 장치의 관련 구성요소들의 블록도.

본 발명의 몇몇 실시예들이 명시된 메타데이터를 갖는 코딩된 오디오 파일 또는 코딩된 오디오 스트림의 재생 중에 음량 정규화 및 동적 범위 제어(DRC)를 위해 사용되는 디지털 오디오 코딩 및 디코딩에서의 메타데이터 개선으로서 기술되었다. 다수의 세부사항들이 개시되었지만, 본 발명의 일부 실시예들이 이러한 세부사항들 없이 실시될 수 있다는 것이 이해될 것이다. 다른 사례들에서, 잘 알려진 회로들, 구조들 및 기술들이 본 설명에 대한 이해를 불필요하게 흐리지 않도록 자세하게 나타내어지지 않았다. 예를 들어, 소정의 세부사항들이 본 명세서에서 MPEG 표준에 따른 비트-레이트 감소를 위한 인코딩의 맥락으로 기술되고, 본 발명의 실시예들은 또한 애플 무손실 오디오 코덱(Apple Lossless Audio Codec; ALAC)과 같은 무손실 데이터 압축을 포함하는 오디오 코딩 및 디코딩의 다른 형태들에도 적용가능하다.

도 1을 참조하면, 본 발명의 실시예에 따른 인코더 단계 또는 인코더 장치의 블록도가 도시되었다. 이러한 블록도는 디지털 오디오 인코더 장치뿐만 아니라, 오디오 신호를 인코딩하기 위한 방법을 기술하는 데에도 사용될 수 있다. 디지털 오디오 신호가 인코더(2)에 의해 인코딩된 다음, 멀티플렉서(mux)(8)를 이용하여 메타데이터와 어셈블링될 수 있다. 결과적인 인코딩된 오디오 또는 인코딩된 오디오 비트스트림은 디지털 오디오의 프레임당 동적 범위 제어(DRC) 이득 값을 포함하는 내장된 메타데이터를 포함한다. 도시되지 않았지만, 인코딩된 신호에 메타데이터를 내장하는 것에 대한 대안은 보조 데이터 채널(7)로서 도 1에서 지칭되는 분리된 메타데이터 채널을 통해 (이러한 경우에서 프레임당 DRC 이득 값을 포함하는) 메타데이터를 제공하는 것이다. 오디오 신호의 인코딩은 손실 데이터 레이트 감소 인코딩을 포함할 수 있거나 또는 무손실 데이터 압축을 포함할 수 있다. 또한, 오디오 신호는 예를 들어, 6 채널 5.1 서라운드, 2-채널 스테레오 등과 같은 오디오의 다수의 채널들을 포함할 수 있는 펄스 코드 변조된, PCM, 디지털 오디오 시퀀스 또는 다른 샘플링된 단일 채널 또는 다채널 오디오 신호(본 명세서에서 오디오 프로그램으로도 지칭됨)일 수 있다.

메타데이터는 DRC 프로세서(4)에 의해 컴퓨팅되는 (프레임당) DRC 이득 값을 포함한다. 도시된 바와 같이 곱셈 기호로 나타내어진 정규화기(normalizer) 또는 조정기(adjuster)는 오디오 정규화 이득 값(예로서, G_LN)을 입력 디지털 오디오 신호에 적용시켜 정규화된 신호를 생산한다. 정규화된 신호는 다수의 사전 정의된 DRC 특징들 중 선택된 하나에 따라 다수의 DRC 이득 값들을 컴퓨팅하도록 (DRC 프로세서(4)에 의해) 프로세싱된다. DRC 특징들은 인코딩 장치 내에서 DRC 프로세서(4)의 부분으로서 메모리 내에 저장될 수 있다. DRC 특징들의 예가 도 2에 주어졌으며 이때 x-축에 따른 DRC 입력 레벨은 (본 명세서에서 DRC 입력 레벨로도 지칭되는) 단기 음량 값을 지칭하고, y-축에 따른 이득 값들의 범위는 입력 오디오 신호에 따라 압축 또는 팽창 효과를 획득하도록 적용되는 것이다. 도 2의 이득 값들은 본 명세서에서 DRC 이득 값으로도 지칭된다.

오디오 정규화는 오디오 신호의 평균 또는 피크 값을 타겟 레벨(규정량)으로 가져가도록 (오디오 프로그램, 또는 오디오 신호로도 지칭되는) 오디오 리코딩에 일정량의 이득을 적용하는 것이다. 동일량의 이득이 전체 신호 또는 오디오 프로그램에 걸쳐 적용될 때, 신호-대-노이즈 비율 및 상대적인 신호 역학은 변화하지 않은 대다수의 부분에 대한 것이다. 정규화는 결과를 최소로부터 최대까지의 범위 내에 맞추기 위해서 이득의 시간-변화 레벨들을 입력 오디오 신호에 적용하는 동적 범위 압축 또는 동적 범위 제어(DRC)와 다르다. 그 예는 가장 높은 디지털 샘플 값(예로서, 펄스 코드 변조(PCM) 값) 또는 아날로그 신호 피크를 주어진 레벨로 가져가도록 이득이 변화되는 피크 정규화를 포함한다.

다른 타입의 오디오 정규화가 프로그램 음량의 측정에 기초한다. 여기에서, 적용된 이득(도 1에서 특히 프로그램 음량 정규화 이득 또는 G_LN으로서 도시된)이 예를 들어 전체 오디오 프로그램에 걸쳐 평균 음량을 타겟 레벨로 가져가도록 변화된다. 프로그램 음량의 예들은 RMS 값과 같은 평균 파워의 측정 또는 국제 전기통신 연합(ITU) 추천 BS.1770 "프로그램 음량 및 트루-피크 오디오 레벨을 측정하기 위한 알고리즘"에 의해 제안된 것과 같은 사람이 인식하는 음량의 측정을 포함한다. 입력 신호 및 타겟 레벨의 동적 범위에 의존하여, 프로그램 음량 정규화는 주어진 레코딩 또는 전송 또는 재생 매체의 한계보다 높은 피크를 발생시킬 수 있다. 이러한 경우들에서, DRC는 이러한 경우들에서의 클립핑(clipping)을 방지하도록 사용될 수 있으며, 그 결과 신호-대-노이즈 비율 및 오디오 신호의 상대적인 역학을 변경시킬 수 있다.

DRC는 오디오 신호의 동적 범위를 좁히거나 "압축" 함으로써 시끄러운 사운드의 볼륨을 감소시킬 수 있거나 조용한 사운드를 증폭시킬 수 있다. 압축은 흔히 사운드 녹음 및 재생 및 방송에서 흔히 사용된다. 압축을 적용하기 위해 사용되는 전자 하드웨어 유닛, 또는 오디오 소프트웨어는 때때로 압축기로 지칭된다. 압축기는 종종 예를 들어 압축이 적용되는 속도를 변화시키고, 효과 및 하드/소프트 니 컨트롤(hard/soft knee control)을 스무딩하는 임계값(예로서, dB 단위), 이득 감소의 비율 또는 양(이득 값), 어택 및 릴리즈 제어를 포함하는 몇몇 제어들을 갖는다.

(본 명세서에서 구(phrase)로서 사용될 때) DRC 특징은 예를 들어 5-100msec의 간격과 같은 디지털 오디오 신호의 프레임 또는 패킷에 따를 수 있는 시간 간격에 대해 컴퓨팅된 (본 명세서에서 도 4의 "음량[dB]" 또는 도 2의 DRC 입력 레벨로도 지칭되는) 입력 오디오 신호의 음량의 단기 측정과 입력 오디오 신호에 적용될 수 있는 이득 값 사이의 관계를 부여한다. 이것은 (이득 값들이 입력 오디오 신호를 압축 또는 팽창시키는 역할을 하는) 압축기 프로파일로도 지칭될 수 있다. 인코딩 단계에서 사용될 수 있는 몇몇 예시적인 DRC 특징들이 도 2에 도시된 반면, 도 4 및 도 6은 (아래에서 기술될) 디코딩 단계에서 사용될 수 있는 예시적인 DRC 특징들을 도시한다.

임의의 적합한 프로세스가 인코딩 단계에서 현재 DRC 특징을 선택하도록 사용될 수 있다. 선택을 수신한 것에 응답하여, DRC 프로세서(4)가 저장된 DRC 특징에 액세스하고 액세스된 프로파일을 (이 경우에서는 이득-정규화된 디지털 오디오 신호인) 입력 신호에 적용하며, 그에 따라 프레임당 DRC 이득 값을 생성한다. DRC 프로세서(4)는 아래와 같이 DRC 이득 값들을 생성할 수 있다. 정규화된 오디오 신호는 예를 들어 입력 오디오 신호의 하나의 프레임에 따라 컴퓨팅되는 음량의 단기 측정을 컴퓨팅하도록 프로세싱된다. 컴퓨팅된 음량의 단기 측정이 그 다음 도 2에 도시된 것과 같은 DRC 특징들 또는 임의의 다른 적절한 DRC 특징 중 하나를 반영하는 룩업 테이블로의 입력으로서 사용되어 DRC 이득 값을 발생시킨다. 예를 들어, 만약 오디오 프레임이 소프트하다면 더욱 양인 DRC 이득이 발생할 가능성이 있고, 만약 시끄럽다면 더욱 음인 DRC 이득 값의 가능성이 있다. 일 실시예에서, 입력 디지털 오디오의 각 프레임이 독립적으로 생성된 DRC 이득 값과 연관될 수 있다. DRC 이득 값들이 그 다음 예를 들어 동일한 비트스트림 내에 내장된 인코딩된 오디오 신호와 연관된 메타데이터로서 제공된다. 이러한 인코딩 장치는 요청하는 최종 사용자 디바이스에게 인터넷 상에서 (예를 들어, 음악 파일 또는 영화 파일의 일부로서) 오디오 프로그램을 전송하도록 예를 들어 최종 사용자 디바이스 내에서 실행하는 클라이언트 프로그램으로부터의 요청에 응답하는 미디어 서버의 일부일 수 있다. 이와 다르게, 인코딩된 오디오 비트스트림이 임의의 적절한 녹음 매체의 형태로 저장을 위해 제공될 수 있다.

일 실시예에서, DRC 프로세서(4)는 DRC 프로세서(4)로의 입력이 인코더(2)에 입력되는 오디오 신호의 정규화된 버전인 것을 제외하면 인코더(2)와 동시에 동작하는 것으로서 보여질 수 있다. 도 1의 예에서, 정규화 값 GLN이 디지털 오디오 신호의 신호 샘플들로 곱해지고 전체 오디오 프로그램에 대해 고정되는 스칼라일 수 있다. 정규화 이득 값 GLN은 DRC 프로세서(4)를 통해 (정규화된) 오디오 신호를 통과하기 "이전에" 컴퓨팅될 수 있다. 정규화 이득이 예를 들어 프로그램 음량과 같은 오디오 측정 모듈(6)에 의해 이전에 컴퓨팅된 음량 파라미터에 기초하여 (도 1의 GLN로 라벨링된 블록에 의해) 컴퓨팅될 수 있다. 이것은 (입력 오디오 신호의 정규화된 버전을 통해) DRC 프로세서(4)가 제2 통과를 수행하기 이전에 입력 오디오 신호를 통해 제1 통과에서 오디오 측정 모듈(6)에 의해 수행될 수 있다. 그 다음 예를 들어 (i) 오리지널 디지털 오디오 프로그램의 측정된 음량(예를 들어, 전체 오리지널 오디오 프로그램에 대해 컴퓨팅된 프로그램 음량)과 (ii) 타겟 또는 원하는 음량의 비율에 기초하여 GLN의 컴퓨팅이 이어진다. 예시적인 GLN를 컴퓨팅하는 방식에 대한 추가적인 세부사항을 위해 아래를 참고한다.

추가적인 실시예에서, 오디오 정규화 이득 값이 입력 오디오 신호 내의 오디오 콘텐츠의 타입에 응답하여, 오디오 콘텐츠의 다수의 서로 다른 타입들과 연관된 다수의 사전결정된 타겟 음량 값들 각각에 기초하여 자동으로 선택될 수 있다. 예를 들어, 만약 오디오 프로그램이 클래식 음악이면, 타겟 프로그램이 팝 음악이거나, 대화 또는 토크쇼이거나, 또는 액션이 가득 찬 모션 픽처인 경우와 다른 타겟 음량 값이 선택된다.

도 1은 (동적 범위 조정을 위한) 멀티플라이어(multiplier), 다중 채널 오디오 신호의 다운믹스(downmix)를 발생시키기 위한) 다운믹스 프로세서(20) 및 사전-컨디셔닝(pre-conditioning) 필터(9)의 세 개의 신호 프로세싱 블록들을 통과하는 오디오 측정 모듈(6)로의 입력 신호를 도시한다. 그러나, 이것은 단지 도 1에 도시되어 있는 일 실시예이다. 다른 실시예들에서, 세 개의 신호 프로세싱 블록들 중 하나 이상이 생략될 수 있다. 예를 들어, 만약 다운믹스가 오디오 신호(오디오 프로그램)에 대해 표시되지 않으면, 다운믹스 프로세서(20)가 인코딩 단계로부터 생략될 수 있으며, 그에 따라 오디오 신호가 (오디오 측정 모듈(6)에 의해 프로세싱되기 전에) 동적 범위 조정 및 사전-컨디셔닝만을 거칠 것이다. 다른 예로서, 사전-컨디셔닝 필터(9)가 생략될 수 있는 동시에, 다운믹스 및 동적 범위 조정이 여전히 표시되며, 이러한 경우에 오디오 신호는 (오디오 측정 모듈(6)에 의해 프로세싱 되기 전에) 동적 범위 조정 및 다운믹스만을 거칠 것이다.

도 1을 여전히 참조하면, 메타데이터로서의 DRC 이득에 더하여, 인코딩 장치는 또한 (인코딩된 오디오 신호와 연관된) 추가의 메타데이터로서 새로운 메타데이터 수송 필드 내의 선택된 DRC 특징의 인덱스를 제공할 수 있다. 도 1의 예에서, 보조 데이터 채널(7)이 인덱스를 제공하도록 사용되는 동시에 DRC 이득에 인코딩된 오디오 신호가 내장된다. 보조 채널은 인코딩된 오디오가 전달되는 1차 데이터 채널로부터 분리된다. 인코딩된 오디오 신호와 연관된 메타데이터를 제공하는 것이 가능한 몇몇 수단들이 존재한다. 도 1은 오직 하나의 메커니즘만을 도시하며, 이때 DRC 이득 값들에 (멀티플렉서에 의해서) 동일한 비트스트림("1차" 데이터 채널) 내의 인코딩된 오디오가 내장되는 동시에, 음량 파라미터들이 보조 데이터 채널 프로세서(7)를 통해 공급된다. 다른 수단에서, 어셈블러(assembler) 또는 포매터(formatter)가 인코딩된 오디오 신호를 갖는 DRC 이득 값들을 예를 들어 단일 파일 내의 프레임 또는 패킷으로 배치한다. 또 다른 수단에서, 동일한 파일 또는 비트스트림 내의 오디오 신호가 내장되었기 때문에 DRC 이득값들의 비트레이트를 감소시키는 압축기가 추가될 수 있다. 또 다른 수단에서, 보조 데이터 채널 프로세서(7)는 DRC 이득 값들을 (다른 메타데이터에 추가로) 보조 데이터 채널로 배치한다.

현재 DRC 특징의 인덱스에 더하여, 메타데이터는 또한 인코딩 단계 내의 오디오 측정 모듈(6)에 의해 컴퓨팅된 프로그램 음량 값 및 또한 선택적으로 트루 피크 값(true peak value)을 포함할 수 있다. 프로그램 음량 및 트루 피크 값들을 컴퓨팅하기 위해 입력 오디오 신호에 기초하여 수행되는 오디오 측정은 임의의 적합한 알려진 기술, 예를 들어 ITU-BS.1770-3에 따를 수 있다. 추가의 실시예에서, 도 1에 도시된 바와 같이, 이러한 오디오 측정은 다른 메타데이터로서 제공되는 음량 파라미터들(예를 들어 프로그램 음량 및 트루 피크 값들)을 컴퓨팅하기 위해 DRC 프로세서(4)에 의해 컴퓨팅된 DRC 이득 값들을 이용할 수 있다. 다시 말하면, 프로그램 음량 값 및 트루 피크 값이 (GLN 정규화 없이) 입력 오디오 신호의 DRC 조정된 또는 압축된 버전에 기초한 오디오 프로그램에 대해 컴퓨팅될 수 있다. 도 1에 도시된 바와 같이, 압축된 오디오 신호는 다운믹스 프로세서(20)에 의해 프로세싱된 다중 채널 오디오 신호일 수 있으며, 이것은 오디오 측정 모듈(6)의 입력으로 생산되고 공급되는 특정한 다운믹스 오디오 신호를 발생시킨다는 것을 인지해야 한다. 여기에서 다운믹스 프로세서(20)가 생략되거나 스킵될 수 있다는 점에서 다운믹스 프로세싱은 선택적이며, 그에 따라 오디오 측정이 다운믹싱 없이 압축된 오디오 신호에 따라 수행된다.

추가의 실시예에서, (오디오 측정 모듈(6)에서) 오디오 측정을 수행하기 위해, 1) 입력 오디오 신호의 특성 또는 특징 및/또는 2) 인코딩된 오디오 비트스트림을 수신하여 재생을 수행할 것이 예상되는 최종 사용자 재생 디바이스의 특징에 기초해 구성된 선택적 사전-컨디셔닝 필터(9)가 사용된다. 도 1에서 보여지는 바와 같이, 입력 오디오 신호는 모듈(6)로 입력되기 전에 필터(9)에 의해 사전-컨디셔닝될 수 있으며, 이때 음량 계산이 그에 따라 수행될 것이다. 사전-컨디셔닝 필터(9)는 예를 들어 데스크톱 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 스마트폰, 또는 인터넷 상의 디지털 콘텐츠를 수신하고 부착된 디스플레이 모니터를 통해 재생을 수행하도록 설계된 디지털 미디어 플레이어와 같은 소비자 전자기기 디바이스와 같은 특정한 재생 디바이스의 디지털-아날로그 변환 및 스피커(트랜듀서) 단계들의 주파수 응답 또는 전송 기능을 모델링하는 예를 들어 고역 필터, 대역통과 필터, 또는 이들의 조합일 수 있다.

이제 도 3을 참조하면, 디코딩 단계 또는 디코딩 장치의 관련 구성요소들의 블록도가 도시되었다. 도 3의 블록도는 디지털 오디오 디코더 장치 또는 디코딩 단계에 대한 지원만을 제공하지 않고, 아래에서 설명되는 바와 같이 오디오를 디코딩하기 위한 방법에 대한 지원도 제공한다. 도시된 디코더 장치는 디멀티플렉서(13)에 의해 인코딩된 오디오 비트스트림으로부터 추출된 인코딩 오디오 신호를 수신하는 디코더(10)를 구비한다. 비트스트림은 예를 들어 DRC 이득 값들, (인코딩 단계에서 사용되는) DRC 특징의 인덱스 및 음량 파라미터들과 같은 내장된 메타데이터를 포함할 수 있다. 인코딩 장치에 대해 위에서 제안된 바와 같이, 대안은 분리된 보조 데이터 채널(7) 내의 일부 또는 모든 메타데이터를 포함한다(도 1 참조). 두 경우 모두에서, 인코딩된 오디오 신호가 입력으로서 디코더(10)에 제공되고, 그에 대한 응답으로 디코딩된 오디오 신호를 생산한다. 디코더(10)는 도 1의 인코더(20)에 대해 상보적일 수 있으며, 그에 따라 인코딩 단계의 오리지널 입력 오디오 신호와 본질적으로 유사할 수 있는 신호를 복구할 수 있다. 디코딩된 오디오 신호는 이것이 디지털-아날로그 변환기(DAC)(18) 및 전력 증폭기(도시되지 않음)에 도달하여 아날로그 형태로 변환되고 트랜듀서(스피커)(19)를 구동하도록 적용될 때까지 광학적 신호 프로세싱 블록들(14, 16)을 통과한다.

디코딩 장치는 또한 인코딩된 오디오 신호와 연관된 메타데이터를 수신하는 DRC_1 프로세서(12)를 구비하며, 이때 메타데이터는 인코딩 단계 내에서 컴퓨팅된 DRC 이득 값들을 포함한다. DRC_1 프로세서(12)는 새로운 또는 변조된 이득 값들을 생산하도록 이득 값들을 변조할 수 있다. 이러한 변조는 디코딩된 오디오 신호의 재생을 위해 사용되는 사용자 입력 및/또는 트랜듀서(19) (예를 들어, 빌트인 스피커 또는 외부의 무선 또는 유선 부착된 스피커)의 동적 범위, 전력 증폭기(도시되지 않음) 및 디지털-아날로그 변환기(DAC)(19) 조합을 포함하는 로컬 파라미터들에 기초할 수 있다. 변조된 이득 값들은 그 다음 광학적 믹싱 및 추가의 오디오 프로세싱 블록(블록들(14, 16))에 공급되기 전에 디코딩된 신호에 적용되며(이러한 조정은 멀티플라이어 기호에 의해 도시되었다), 그 다음 DAC(18)에 적용된다. 따라서 변조된 DRC 이득 값들은 소위 디코딩 단계 DRC 조정된 오디오 신호를 생산하도록 디코딩된 오디오 신호에 적용된다. 후자는 DAC(18)에 공급되기 전에 도시된 바와 같이(즉, 다른 동적 범위 조정 유닛(15)을 통해) 다른 오디오 소스로부터 다른 디코딩 단계 DRC 조정된 오디오 신호들과 믹서(14)에 의해 결합될 수 있다.

일 실시예에서, 디코딩 단계 내에서 수신된 메타데이터는 (도 1에서와 같이, DRC 이득 값들이 인코딩 단계에서 따라서 컴퓨팅되는) 이전에 선택된 또는 현재 DRC 특징의 인덱스를 포함한다. 일 예에서, 선택된 또는 현재 DRC 특징의 카피가 DRC_1 프로세서(12)에 저장될 수 있으며 이러한 인덱스와 연관된다. 이것은 인코딩 단계 DRC 특징으로 지칭된다. 반면에, DRC_1 프로세서(12)는 또한 도시된 바와 같은 다수의 소위 디코딩 단계 DRC 특징들을 포함할 수 있다. 후자들 중 하나는 아래와 같이 새로운 또는 변조된 이득 값들을 생산하도록 사용된다.

일 실시예에서, DRC_1 프로세서(12)는 인코딩 단계의 DRC 프로세서(4)에 의해 수행되는 동작들을 "인버트(invert)"하고, 그에 따라 현재 DRC 특징들에 (수신된 메타데이터로부터) 수신된 DRC 이득 값을 적용함으로써 프로세서(12) 내에 저장된 선택된 또는 현재 DRC 특징으로부터 시작하는 단기 음량 또는 DRC 입력 레벨(예로서, dB 단위)을 획득한다. 이렇게 복구된 단기 음량 값은 그 다음 디코딩 단계 DRC 특징들 중 선택된 하나로의 입력으로서 사용되어, 그에 따라 새로운 또는 변조된 이득 값을 산출한다. 후자는 여기에서 디코딩 단계 또는 디코더 DRC 이득 값으로 지칭된다. 각각의 디코딩 단계 및 인코딩 단계 DRC 특징들이 룩업 테이블 방식으로 저장될 수 있다.

디코딩 단계 DRC 특징의 선택은 사용자 맥락(늦은 밤, 걷는 중, 뛰는 중, 차량 또는 승용차 내부 및 헤드셋 대 빌트인 확성기를 포함) 및 스피커 신호 경로 동적 범위 중 하나 이상에 따를 수 있다. 그러한 경우에서 도 3의 디코딩 장치는 종종 상당히 다른 사용자 맥락들 내의 모바일폰, 랩탑 컴퓨터, 또는 태블릿 컴퓨터와 같은 최종 사용자 디바이스 내에 내장될 수 있다. 이러한 맥락들은 주변 광 및 위치, 배향 또는 동작 센서를 포함하는 알려진 전자 센서 하드웨어 및 소프트웨어에 의해 검출될 수 있다. 트랜듀서 신호 경로 동적 범위는 최종 사용자 디바이스의 제조자에 의해 사전에 결정될 수 있으며 디코딩 프로세스 중에 사용하기 위해 DRC_1 프로세서(12)에 저장될 수 있거나 다른 방식으로 제공될 수 있다. 트랜듀서 동적 범위는 DAC(18)의 동적 범위를 포함할 수 있다. 더 넓은 동적 범위가 이용가능한 경우에서, DRC_1 프로세서(12)는 디코딩된 오디오 신호의 단기 음량의 예상 범위에 걸쳐 더 많은 동적 범위가 보유되는 것을 가능하게 하는 디코딩 단계 DRC 특징을 선택할 수 있다.

다른 실시예에서, 도 3에 도시된 바와 같이, 디코딩 단계 내의 수신된 메타데이터는: 프로그램 음량, 트루 피크, 음량 범위, 최대 순간 음량 및 단기 음량 중 하나 이상일 수 있는 다수의 음량 파라미터들을 더 포함할 수 있다. 하나 이상의 이러한 값들은 (각 프레임 기반의) 변조된 또는 새로운 DRC 이득 값을 생산할 때 DRC_1 프로세서(12)에 의해 사용될 수 있다.

전술된 바와 같이, (디코더 DRC 프로세서로도 지칭되는) 디코딩 단계 내의 DRC_1 프로세서(12)는 선택된 디코딩 단계 DRC 특징을 이용하여 자신의 변조된 DRC 이득 값들을 생성할 수 있다. 위에서 후자가 프로세서(12) 내에 저장되는 몇몇 사전 정의된 DRC 특징들 중 하나일 수 있고 사용자 입력 또는 사용자 콘텍스트 제어 신호에 따라 액세스될 수 있다고 제안된다. 도 4는 이용될 수 있는 디코딩 단계 DRC 특징들의 몇몇 예들을 도시한다. 이러한 예들은 늦은 밤의 이용을 위한 예, 승용차 또는 차량 내의 이용을 위한 다른 예 및 제한된 동적 범위를 갖는 스피커 또는 트랜듀서(19)에 대한 예를 포함한다.

본 발명의 다른 실시예에 따르면, 도 1 및 도 3으로부터의 구성요소들의 조합이 오디오 신호 인코딩 및 디코딩 모두에 대한 시스템을 산출할 수 있다. 다수의 인코더 동적 범위 제어(DRC) 특징들이 인코더 단계에서 저장된다. 이들 각각은 DRC 이득 값들을 단기 음량 값들에 관련시키며, 이때 각 음량 값이 예를 들어 5와 100ms 길이 사이인 디지털 오디오의 대략 일 프레임에 따라 사전결정된 간격에 걸쳐 오디오 신호의 평균 파워를 지칭할 수 있다. 인코더 DRC 특징들 중 하나가 선택된 다음 인코더 단계 이득 값들을 생산하도록 사용된다. 이들은 그 다음 인코딩된 오디오 신호와 연관된 메타데이터로서 제공된다. 이러한 인코더 단계의 몇몇 예들이 도 1과 관련하여 기술되고 위에서 주어졌다.

디코더 단계는 인코더 DRC 특징들뿐만 아니라 다수의 디코더 DRC 특징들도 저장하는 프로세서를 구비한다. 후자의 각각은 DRC 이득 값들을 단기 음량 값들에 관련시키며, 이것은 인코더 DRC 이득 값들을 결정하는 데에 사용하기 위해 인코더 단계 내에서 컴퓨팅되는 것과 유사할 수 있다. 디코더 단계 내의 프로세서는 인코더 단계로부터의 인코더 단계 이득 값들을 이용하여 디코더 단계 이득 값들을 컴퓨팅하기 위한 것이다. 특정한 경우에서, 디코더 단계 내의 프로세서가 메타데이터-기반 인코더 단계 이득 값들과 함께 선택된 인코더 DRC 특징의 인덱스를 사용하며, 그에 따라 자신의 디코더 단계 이득 값들을 컴퓨팅한다. 이것의 예들이 위에서 주어졌으며 도 3과 관련하여 기술되었다. 디코더 단계는 궁극적으로 (예를 들어 최종 사용자 디바이스에서 재생 프로세싱의 일부로서 사용되었을 때) 인코딩된 오디오 신호를 디코딩할 수 있으며 그 다음 (디코딩된 오디오 신호에 따라) 원하는 동적 범위 조정을 획득하기 위해서 디코더 단계 이득 값들을 적용할 수 있다.

본 발명의 또 다른 실시예에 따르면, 인코딩된 오디오 및 연관된 메타데이터를 제공하기 위한 방법은 다중-채널 오디오 신호의 다운믹스를 포함한다. 도 1에서 보여지는 바와 같이, 음량 파라미터들의 세트가 다운믹스 프로세서(20)을 통과한 다중-채널 디지털 오디오 신호에 기초하여 오디오 측정 모듈(6)에 의해 컴퓨팅되며, 이때 파라미터들은 다중-채널 오디오 신호의 다운믹스의 음량 프로파일을 기술한다. 예를 들어, 6 또는 7 채널 오디오 신호가 다운믹스 프로세서(20)에 의해 2-채널 또는 스테레오 신호로 프로세싱될 수 있으며; 보다 일반적으로, 다운믹스는 N 채널들의 오디오 신호의 M 채널을 갖는 오디오 신호로의 변환이며, 이때 N이 M보다 크다.

다중-채널 오디오 신호가 인코딩되고, 인코딩된 신호는 그와 연관된 메타데이터와 함께 제공되며, 이러한 경우에서 메타데이터는 다운믹스의 음량 프로파일을 기술하는 음량 파라미터들의 컴퓨팅된 세트를 포함한다. 메타데이터는 또한 다중-채널 오디오 신호의 베이스 채널 레이아웃을 포함할 수 있다. 예를 들어, 베이스 채널 레이아웃은 예를 들어 전방 중심, 전방 우측, 전방 좌측, 서라운드 좌측, 서라운드 우측 및 서브우퍼(subwoofer)와 같은 6 채널들 각각을 식별함으로써 5.1 서라운드 다중-채널 오디오 신호의 세부사항들을 제공할 수 있다. 인코딩된 다중 채널 오디오 신호 및 그것의 연관된 메타데이터가 그 다음 메타데이터 내에 포함된 베이스 채널 레이아웃 및 음량 파라미터들의 세트에 따라 다운믹스를 생산하기 위해 인코딩된 오디오 신호가 디코딩되고 프로세싱되는 디코딩 단계 ―예를 들어 아래에서 기술되는 도 5를 참조- 에 의해 수신될 수 있다. 메타데이터는 또한 음량 파라미터들이 메타데이터 내에 포함된 특정 다운믹스를 컴퓨팅하도록 인코딩 단계 내에서 사용된 다운믹스 이득을 포함한다. 이러한 실시예에서, (로컬 스피커를 통한 재생 중에) 디코딩 단계에 의한 동적 범위에 대해 수행되는 임의의 조정이 필요하지 않다는 것을 인지해야 한다. 이러한 방안은 예를 들어 디코딩 단계에서 수신된 메타데이터가 DRC 이득 값들을 포함하지 않는다면 DRC 조정이 디코딩된 신호에 대해 수행되지 않는 관례를 채택함으로써 구현될 수 있다.

도 5는 트루 피크 및 다운믹스와 관련한 프로그램 음량과 같은 음량 파라미터들에 더하여, 인코딩된 다중-채널 오디오 신호와 연관된 메타데이터가 DRC 이득 값들을 더 포함할 수 있는 본 발명의 다른 실시예를 도시한다. 이 도면은 디코더(13)로 이어지는 디멀티플렉서(13)를 포함할 수 있고 선택적으로 오디오 프로세싱(16) 및 DAC(18)를 더 포함할 수 있다는 점에서 도 3과 유사한 일부 방식들로 디코딩 단계를 도시한다. 여기에서도, 인코딩 오디오 신호와 연관된 수신된 메타데이터가 DRC 이득 값들을 제공한다. 이것은 다운믹스를 생산하기 위해서 디코딩된 오디오 신호를 프로세싱하기 전에, 디코딩된 오디오 신호에 따라 동적 범위 조정을 수행하도록 디코딩된 단계에서 사용된다. 다시 말하면, 인코딩된 다중-채널 오디오 신호가 디코더(10)에 의해 디코딩된 다음, 하나 이상의 디코딩된 채널이 새로운 DRC 이득 값들 또는 오리지널 DRC 이득 값들(후자는 디멀티플렉서(13)로부터 획득되었다)에 의해 조정된다. 이것은 다운믹스 모듈(20)이 특정한 다운믹스를 생산하기 이전에 발생한다. 다운믹스 모듈(20)은 (위에서 제안된 바와 같이) 역시 메타데이터로부터 추출된 다운믹스 이득 값들을 사용할 수 있다. 다른 실시예에서, 디코딩된 오디오 신호는 예를 들어 도 3과 관련하여 전술된 것과 유사한 절차들을 이용하여 DRC_1 프로세서(12)에 의해 컴퓨팅되는 새로운 이득 값들을 이용하여 동적 범위에 대해 조정된다. 여기에서 새로운 이득 값들에 영향을 미칠 수 있는 로컬 파라미터들이 유사할 수 있으며 사용자 볼륨 설정 및 음량 정규화 온/오프 스위치를 포함할 수 있다. 이러한 로컬 파라미터들은 새로운 DRC 이득 값들을 생산하기 위해 몇몇 이용가능한 디코딩 단계 DRC 특징들 중 특정한 하나의 선택을 좌우할 수 있다.

이전의 단락에서 기술된 접근법에 대한 대안으로서, (디코딩 단계 내의) DRC_1 프로세서(12)에 의해 생산된 DRC 이득 값들이 다운믹스 모듈(20)의 다운스트림에 적용되도록 설계될 수 있다. 이러한 실시예의 실례를 들기 위해서, 도 5의 디코딩 단계가 변조될 수 있으며 그에 따라 본 명세서에 도시된 멀티플라이어의 입력(이것의 다른 입력이 DRC_1 프로세서(12)로부터 DRC 이득 값들을 수신함)이 다운믹스 모듈(20)의 다운스트림(및 DAC(18)의 업스트림)에 위치될 것이다. 이러한 경우에서 DRC_1 프로세서(12)는 (인코딩 단계로부터) 메타데이터를 통해 수신된 오리지널 DRC 이득 값들에 기초한 변조된 DRC 이득 값들을 생산할 수 있거나, 또는 조정기 또는 멀티플라이어 블록으로 오리지널 DRC 이득 값들을 통과할 수 있다. 이러한 경우에 대한 오리지널 DRC 이득 값들의 특정 형태를 생성하기 위해, 상응하는 인코딩 단계가 도 7에 도시된 바와 같을 수 있다.

도 7을 참조하면, 적어도 아래의 양태를 제외하고 도 1과 유사할 수 있는 인코더 장치가 도시되었다. 여기에서, DRC 이득들이 디코더 장치 내에서 다운믹스에 직접 적용될 수 있는 방식으로 (DRC 프로세서(4)에 의해) 컴퓨팅된다. 도 1과 대비하여, 도 7의 DRC 프로세서(4)는 또한 오리지널 다중-채널 입력 오디오 신호를 수신하고 그에 응답하여 자신의 다른 입력이 정규화 이득 값 GLN을 수신하는 정규화기(또는 멀티플라이어)에 공급하는 다운믹스 프로세서(20)에 의해 생산되는 다운믹스 신호에 따라 동작한다. 인코더(2)는 여전히 인코딩된 신호를 생성하도록 도 1과 동일한 방식으로 오리지널 입력 오디오 신호를 프로세싱할 수 있다.

도 5로 돌아가면, 여기에서 디코딩 단계는 입력 다중-채널 오디오 신호의 특정한 다운믹스가 생산되는 (도시되지 않은) 인코딩 단계로부터 자신의 인코딩된 오디오 신호 및 메타데이터를 수신할 수 있다. 현재 DRC 이득 값들은 입력 다중-채널 오디오 신호 및/또는 이것의 특정 다운믹스를 이용하여 인코딩 단계 내에서 컴퓨팅된 다음, (예를 들어, 도 1에서와 같은 멀티플렉서(8)를 이용하여 단일 인코딩된 비트스트림 또는 파일 내의 메타데이터로서 현재 DRC 이득 값들과 인코딩된 오디오 신호를 어셈블링함으로써) 다중-채널 오디오 신호의 인코딩된 버전과 함께 메타데이터로서 제공된다. 음량 파라미터들 및 베이스 채널 레이아웃의 컴퓨팅된 세트 및 선택적으로 현재 DRC 파라미터들(이들 전부가 인코딩된 오디오 신호와 연관되는 메타데이터임)과 함께 인코딩된 오디오 신호를 제공하기 위한 다른 수단이 가능하다. 예들은 DRC 이득 값들을 오디오 신호와 함께 단일 파일 내의 프레임 또는 패킷에 배치하는 어셈블러 또는 포매터, 인코딩된 오디오 신호의 프레임들과 시간-멀티플렉싱된 DRC 이득 값들을 포함하는 비트스트림을 생산하는 멀티플렉서, 동일한 파일 또는 동일한 비트스트림 내의 인코딩된 오디오 신호가 내장된 것과 같은 DRC 이득 값들의 데이터 속도를 감소시키는 압축기 및 DRC 이득 값들을 1차 데이터 채널로부터 분리된 보조 데이터 채널에 배치하는 보조 데이터 채널 프로세서(이때 후자는 도 5의 디코딩 단계로 전달되는 인코딩된 오디오 신호를 포함함)를 포함한다.

앞서 제안된 바와 같이, 만약 인코딩된 다중-채널 오디오 신호가 동적 범위 조정을 명시하지 않거나 또는 단순히 DRC 이득 값들 또는 DRC 파라미터들을 포함하지 않으면(예를 들어 DRC 특징의 유효 인덱스에 대해 언급하지 않으면), 디코딩된 오디오 신호가 프로세싱되어 디코딩된 오디오 신호에 따라 임의의 동적 범위 조정을 수행하지 않고 다운믹스를 생산한다는 것에 주목한다. 도 5에 도시된 바와 같이, DRC_1 프로세서(12)가 자신의 새로운 이득 값들을 모두 0dB이도록 제공할 것이며, 이것은 디코딩된 오디오 신호의 동적 범위에 따라 조정이 수행되지 않음을 의미한다.

DRC_1 프로세서(12)가 메타데이터로서 DRC 파라미터들을 수신하는 경우에서, 새로운 이득 값들이 도 6에 도시된 예들로부터 선택될 수 있는 디코딩 단계 DRC 특징(또는 다른 적합한 DRC 특징들)에 따라 프로세서(12)에 의해 생산될 수 있다. 도 6은 각각이 서로 다른 사용자 볼륨 설정 또는 레벨과 연관되는 세 개의 서로 다른 DRC 특징들을 도시한다. 도시된 바와 같이, 단기 음량이 증가할 때 볼륨이 증가하면서 DRC 특징에 의해 정의된 압축 정도가 증가한다.

본 명세서에 기술된 기술로부터 이익을 얻을 수 있는 코덱들의 예들은 MPEG 및 AAC 및 AC-3와 같은 ATSC에 의한 표준을 포함하지만, 디코딩된 오디오 신호의 동적 범위 및 음량을 제어하기 위한 메커니즘을 포함하는 다른 표준 또는 접근법 또한 바람직할 수 있다.

메타데이터로서 저장될 수 있는 예시적인 오디오 측정

오디오 측정 모듈(6)은 프로세서, 또는 주어진 디지털 오디오 파일에 대한 하나 이상의 음량 파라미터들을 컴퓨팅하거나 제공하는 하드와이어 디지털 오디오 프로세싱 논리 회로의 배치에 의해 실행되는 소프트웨어 루틴일 수 있다. 이러한 루틴은 음악 콘텐츠의 음량 정규화를 위해 미디어 플레이어와 같은 오디오 제품의 범위 내에서 사용될 수 있다. 컴퓨팅된 오디오 측정은 디지털 오디오 코딩 프로세스 동안 인코딩된 오디오 파일 내에 메타데이터로서 저장될 수 있다. 예를 들어, MPEG는 현재 이러한 메타데이터가 저장될 수 있는 비트스트림 필드를 제공한다. 이러한 필드의 현재 사용은 기준 음량의 저장, 디지털 오디오의 프레임당 동적 범위 제어(DRC) 이득 및 다운믹스 가중 인자를 포함한다. 본 발명의 실시예에 따르면, (아래에서 추가로 기술되는 바와 같이) 메타데이터를 저장하기 위해 새로운 "박스"가 MPEG-4 오디오 시스템 프레임워크의 "샘플 서술 확장" 내에서 정의된다.

프로그램 음량은 디지털 오디오 파일의 전체 콘텐츠의 평균 음량 추정일 수 있는 오디오 측정이다. 예시가 ITU-BS.1770-3에 따라 컴퓨팅될 수 있다. 프로그램 음량은 예를 들어 도 1을 참조하여 동적 범위 압축을 오디오 콘텐츠 신호에 적용한 후에 인코딩 단계에서 컴퓨팅될 수 있으며, 이때 정규화되지 않은 오디오 신호가 필터(9)에 의해 사전-컨디셔닝되기 이전에 동적 범위에 대해 조정되며 (다운믹스 프로세서(20)를 스킵하는 동안) 오디오 측정 모듈(6)로 공급된다. 다른 실시예에서, 프로그램 음량은 예를 들어 도 1을 참조하여 오디오 콘텐츠 신호의 다운믹스를 위해 인코딩 단계에서 오디오 측정 모듈(6)에 의해 컴퓨팅될 수 있다.

트루 피크 값은 (예를 들어 4x 오버샘플링된 속도에서) 오디오 파일로부터 오디오 비트스트림의 최대 샘플 크기일 수 있는 오디오 측정값이다. 예시는 ITU-BS.1770-3마다 컴퓨팅될 수 있다.

음량 범위는 유럽 방송 연합(EBU) 명세에 따른 또는 ITU BS.1770에 기초한 오디오 측정일 수 있다. 이것은 디지털 오디오의 주어진 블록 크기(예를 들어, 400ms 블록들)에 대한 음량의 통계학적 분포를 측정하고 동적 범위를 기술하기 위해 음량 분포의 낮은 백분위 및 높은 백분위의 차를 생성한다. 음량 범위를 나타내는 다른 오디오 측정이 가능하다.

메타데이터 개선

여기에서 본 발명의 실시예는 예를 들어 프로그램 음량, 앵커 음량, 트루 피크 및 음량 범위와 같은 각 트랙(오디오 프로그램)에 대한 정적 메타데이터로 채워질 수 있는 MPEG-4 시스템 프레임워크의 "샘플 서술 확장" 부분 내의 새로운 "박스"이다. MPEG-4 샘플 서술 확장 내의 새로운 박스의 추가적인 트랙당 또는 오디오 프로그램당 콘텐츠는: 0.4s 윈도우와 같은 최대 순간 음량, 0.3s 윈도우에 걸친 것과 같은 최대 단기 음량, 높이 채널 등을 포함하는 재생 시스템에 대한 채널 레이아웃을 정의하는 채널 맵핑, DRC 채널 맵핑, DRC 특징의 인덱스, 다운믹스 계수, 스테레오 다운믹스의 프로그램 음량, 스테레오 다운믹스의 앵커 음량 및 스테레오 다운믹스의 트루 피크를 포함할 수 있다. 메타데이터를 재생 프로세서에 전달하기 위한 다른 보조 데이터 채널들이 전술되었지만, 특정한 접근법이: 오디오 비트스트림을 디코딩하지 않고 정적 메타데이터가 이용가능하다; 영화/TV 콘텐츠 볼륨 정규화를 지원하기 위한 앵커 음량(다이얼놈(dialnorm)으로도 알려짐)의 추가; 인코더 내에서 사용된 DRC 특징의 지식이 DRC 이득의 효과를 예측하는 것을 도울 수 있다; DRC 특징의 지식이 디코더에서 DRC 특징을 수정하도록 사용될 수 있다; 다운믹스 계수들이 5.1보다 큰 다중-채널 오디오 포맷을 지원할 수 있는 미래를 보증하는 방식으로 정의될 수 있다; 다운믹스 음량 및 클립핑에 대한 더 나은 제어와 같은 장점들을 가질 수 있다.

메타데이터 이용

프로그램 음량 또는 앵커 음량의 이용은 음량 정규화에 적합하다. 앵커 음량은 일반적으로 추출된 스피치 세그먼트에 기초하며 영화/TV-쇼 콘텐츠에만 적용할 수 있다.

동적 범위 제어(DRC)와 관련하여, 기록된 오디오 콘텐츠의 동적 범위의 양태들을 기술하는 몇몇 메타데이터 값들이 이용가능해질 수 있다(아래의 표 참조). 동적 범위의 크기는 재생 중에 DRC를 조정하는 데에 유용할 수 있으며, 예를 들어, 동적 범위가 작으면 DRC가 약해지거나 DRC가 턴오프될 수도 있다. 또한, 타겟 동적 범위는 사용자 입력, 볼륨 설정 및 DAC 동적 범위 및 스피커 동적 범위에 따라서 설정될 수 있으며, DRC 특징을 선택할 수 있고 그에 따라 범위가 타겟까지 감소될 수 있다. 이것은 또한 더 작은 공간(청취 환경)에 대한 합리적인 동적 범위 제한도 고려할 수 있다. 트루 피크 및 최대 음량 값들이 예를 들어 음량 정규화가 양의 이득[dB]을 발생시키거나 다운믹스의 클립핑을 방지하도록 헤드룸(headroom)이 필요한 경우에 헤드룸을 추정하기 위해 유용할 수 있다. 그 다음 DRC 특징이 헤드룸 타겟에 접근하도록 조정될 수 있다.

동적 범위의 양태들을 기술하는 예시적인 메타데이터

DRC 프로세서는 사전 정의된 DRC 특징들 중 선택된 DRC 특징을 이용하여 이득 값들을 생성하도록 인코더 단계에서 사용된다. 선택된 DRC 특징의 인덱스는 새로운 MPEG-4 박스에서 전송될 수 있다. (프레임당) 이득 값들이 (가벼운 및/또는 무거운 압축 동안) 현존하는 필드 내에서 전송될 수 있다.

예를 들어 도 1에 도시된 바와 같이, 선택된 DRC 특징에 대해 적절한 레벨 정렬을 보장하도록 프로그램 음량 정규화 이득 GLN이 입력에서 DRC 프로세서(4)에 적용된다. 정규화 이득은 예로서 LCTL = -31 dB를 갖는 GLN = LCTL ― LPL [dB]와 같은 DRC 타겟 음량 값 LCTL [dB]과 오디오 측정 모듈(6)에 의해 생산된 프로그램 음량 값 LPL에 기초하여 컴퓨팅될 수 있다.

본 발명의 실시예에 따르면, 예를 들어 (인코딩 단계에서 사용되는 것과) 상이한 DRC 특징으로 변경함으로써 사실상 다양한 조건들에 적응될 수 있는 커스텀 DRC를 획득하도록 추출된 DRC 이득 값들이 디코딩 단계에서 변경된다. 추출된 인덱스의 의미를 이해할 수 있기 때문에 이제 재생에서의 프로세싱에 인코딩 단계에서 어떤 DRC 특징이 적용되었는지에 대한 지식이 주어진다. 이러한 변화를 정당화할 수 있는 로컬 조건들은: 늦은 밤 모드; 시끄러운 환경(예를 들어, 움직이는 차량 내의 소음); 재생 시스템 제한(예를 들어 외부 확성기 또는 헤드폰에 반대되는 랩탑, 태블릿 컴퓨터 또는 스마트폰의 내부 스피커); 사용자 선호도; 및 콘텐츠의 동적 범위를 포함한다. 예를 들어 이러한 상황에서 유용한 예시적인 DRC 특징들이 도시된 도 4를 참조한다.

일 실시예에서, 이용가능한 DRC 특징들이 1 ㎑에서의 사인 입력에 대해 압축기의 정상 상태(steady state) 입력/출력 레벨들에 기초해야만 한다. 이것은 k-가중된 음량 추정을 사용하는 압축기와의 호환가능성을 유지한다. DRC 특징이 음량 정규화된 오디오 신호에 적용된다고 가정된다. (만약 적용가능하다면) 정정 레벨에서 DRC 불감대(dead-band)를 갖기 위해 중요하며 특히 이러한 콘텐츠가 음량 정규화가 턴온된 채로 재생된다면 다양한 음량 레벨을 갖는 콘텐츠에 대해 더욱 일관적인 결과를 생산한다.

다운믹스

다운믹싱은 다수의 구별되는 오디오 채널들이 더 낮은 수의 채널들을 생성하도록 혼합되는 오디오의 조작을 지칭한다. 다운믹스는 필요하다면 오디오 프로그램 생산 시설에 의해 제어될 수 있다. 예를 들어, 양해도(intelligibility)를 유지하기 위해서 다운믹싱 이전에 일부 콘텐츠가 서라운드 채널의 더 많은 감쇠를 요구할 수 있다.

현재 DVB 및 MPEG는 DRC_presentation_mode가 설정되면 다운믹스를 생성할 때 DRC의 사용을 요구한다. 이것은 다운믹스의 동적 범위의 손실을 발생시킬 수 있다. 반면에, 적절한 경우 동적 범위를 유지하기 위해서, 본 발명의 실시예는 DRC 압축이 도 5에 도시된 바와 같은 높은 재생 볼륨 동안 다운믹싱하기 위해서만 요구되는 적응성 방안이다. 그 다음 DRC의 적용이 오직 가장 시끄러운 세그먼트의 레벨을 감소시키도록 적응된다(예를 들어 도 6을 참조). 또한, 오디오 측정 모듈(6)에 의해 인코딩 단계에서 컴퓨팅되었을 수 있고(도 1 참조) 메타데이터로서 제공된 스테레오 다운믹스의 트루 피크 값이 이제 디코딩 단계에서 추출되고 얼마나 많은 DRC 압축이 다운믹스 이전에 디코딩된 신호에 적용되어야 하는지를 추정하도록 사용될 수 있다. 도 5가 다운믹스 프로세서(20)로 디코딩된 신호를 건네기 전에 프로세서(12)로부터의 DRC 이득 값들이 디코딩된 신호에 적용되는 실시예를 도시하지만, 대안은 다운믹스 후에 예를 들어 다운믹스 프로세서(20)의 출력에 직접 DRC 이득 값들을 적용하는 것임을 인지해야 한다.

만약 다운믹싱이 사용되고 DRC 압축이 독립적으로 활동하면, 다운믹스에 대해 충분한 헤드룸이 획득되도록 필요하다면 DRC 특징이 변조될 수 있다. 이러한 솔루션은 더욱 큰 유연성을 제공한다. 또한, 스테레오 다운믹스는 예를 들어 (메타데이터로서 수신되는) 풀 스케일에 대한 음량 K-가중된(LKFS) 값들을 이용하여 디코딩 단계에서 음량에 대해 정규화될 수 있다. 이러한 LKFS 값들은 오리지널 다중 채널 디지털 오디오 신호의 다운믹스된 버전에 기초하여 오디오 측정 모듈(6)에 의해 인코딩 단계에서 컴퓨팅된 음량 파라미터들이다(도 1 참조). 이것은 다중 채널 콘텐츠 및 스테레오 콘텐츠가 스테레오 시스템 상에서 동일한 레벨에서 재생할 것임을 보장한다.

발명의 명세

1) 오디오 신호를 인코딩 및 디코딩하기 위한 시스템으로서, 복수의 인코더 동적 범위 제어(DRC) 특징들이 저장되는 인코더 단계 - 각각의 인코더DRC 특징들이 이득 값들을 음량 값들에 관련시키고, 인코더 단계가 인코더 DRC 특징들 중 선택된 인코더 DRC 특징을 이용하여 인코더 단계 이득 값들을 생산하고 인코더 단계 이득 값들을 인코딩된 오디오 신호와 연관된 메타데이터로서 제공함 -; 및 a) 복수의 인코더 DRC 특징들 및 b) 복수의 디코더 DRC 특징들을 저장하는 프로세서를 구비하는 디코더 단계 - 각각의 디코더 DRC 특징들이 이득 값들을 음량 값들에 관련시키고, 인코더 단계로부터의 인코더 단계 이득 값들을 이용하여 디코더 단계 이득 값들을 컴퓨팅함 - 를 포함한다.

2) 명세 1의 시스템에서, 인코더 단계는 선택된 인코더 DRC 특징의 인덱스를 제공하기 위한 것이고, 디코더 단계 내의 프로세서는 인덱스를 사용하기 위한 것이며 인코더 단계 이득 값들은 디코더 단계 이득 값들을 컴퓨팅하기 위한 것이다.

3) 명세 1의 시스템에서, 디코더 단계는 인코딩된 오디오 신호를 디코딩한 다음 디코더 단계 이득 값들을 적용하여 디코딩된 오디오 신호에 따라 동적 범위 제어를 획득하기 위한 것이다.

4) 오디오를 디코딩하기 위한 방법으로서, 인코딩된 오디오 신호 및 그와 연관된 메타데이터를 수신하는 단계-메타데이터는 복수의 음량 파라미터들의 세트 중 하나를 포함할 수 있고, 복수의 음량 파라미터들의 세트는 a) 개별 다운믹스의 음량 프로파일을 서술하는 세트 및 b) 베이스 채널 레이아웃의 음량 프로파일을 서술하는 세트를 포함함-; 인코딩된 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 생산하는 단계; 및 디코딩된 오디오 신호를 프로세싱하여 메타데이터 내에 포함된 음량 파라미터들의 세트에 따라 다운믹스를 생산하는 단계를 포함한다.

5) 명세 4의 방법에서, 인코딩된 오디오 신호와 연관된 메타데이터가 DRC 파라미터들을 더 포함하며, 이 방법은: 다운믹스를 생산하도록 디코딩된 오디오 신호를 프로세싱하기 이전에 또는 프로세싱한 이후에 DRC 파라미터들에 따라 디코딩된 오디오 신호에 대해 동적 범위 조정을 수행하는 단계를 더 포함한다.

6) 명세 4의 방법에서, 인코딩된 오디오 신호와 연관된 메타데이터는 동적 범위 조정을 명시하지 않거나 또는 DRC 파라미터들을 포함하지 않으며, 디코딩된 오디오 신호를 프로세싱하여 다운믹스를 생산하는 단계는 다운믹스를 생산하기 이전에 디코딩된 오디오 신호에 대한 동적 범위 조정을 수행하지 않고 발생한다.

7) 디지털 오디오 디코더 장치로서, 인코딩된 오디오 신호를 수신하고 디코딩된 오디오 신호를 생산하기 위한 디코더; 및 디코딩된 오디오 신호 및 그와 연관된 메타데이터를 수신하기 위한 다운믹스 프로세서를 포함하며, 이때 메타데이터는 a) 개별 다운믹스의 음량 프로파일을 기술하는 세트 또는 b) 베이스 채널 레이아웃의 음량 프로파일을 기술하는 세트 중 하나인 세트 음량 파라미터들을 포함하고, 다운믹스 프로세서는 메타데이터에 포함된 음량 파라미터들의 세트에 따라 다운믹스된 오디오 신호를 생산하기 위한 것이다.

8) 인코딩된 오디오 및 연관된 메타데이터를 제공하기 위한 방법으로서, 다중-채널 오디오 신호의 다운믹스의 음량 프로파일을 서술하는 다중-채널 오디오 신호에 기초하여 음량 파라미터들의 세트를 컴퓨팅하는 단계; 다중-채널 오디오 신호를 인코딩하는 단계; 및 a) 인코딩된 다중-채널 오디오 신호 및 b) 다중-채널 오디오 신호의 베이스 채널 레이아웃 및 음량 파라미터들의 컴퓨팅된 세트를 그와 연관된 메타데이터로서 제공하는 단계를 포함한다.

9) 명세 8의 방법에서, 다중-채널 오디오 신호의 다운믹스를 생산하는 단계; 다운믹스를 이용하여 동적 범위 제어(DRC) 이득 값들을 컴퓨팅하는 단계; 및 인코딩된 오디오 신호와 연관된 메타데이터로서 컴퓨팅된 DRC 이득 값들을 인코딩된 오디오 신호와 어셈블링하는 단계를 더 포함한다.

10) 디지털 오디오 인코더 장치로서, 다중-채널 오디오 신호의 다운믹스의 음량 프로파일을 서술하는 음량 파라미터들의 세트를 컴퓨팅하기 위한 음량 파라미터 계산기; 다중-채널 오디오 신호를 인코딩하기 위한 인코더; 및 인코딩된 오디오 신호와 연관된 메타데이터로서 다중-채널 오디오 신호의 베이스 채널 레이아웃 및 음량 파라미터들의 컴퓨팅된 세트와 함께 인코딩된 오디오 신호를 제공하기 위한 수단을 포함한다.

11) 오디오를 디코딩하기 위한 방법으로서, 인코딩된 오디오 신호 및 그와 연관되고 음량 파라미터들의 세트를 포함하는 메타데이터를 수신하는 단계; 인코딩된 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 생산하기 위한 단계; 및 a) 메타데이터에 포함된 음량 파라미터들의 세트, b) 재생 볼륨, 또는 c) 타겟 헤드룸 중 하나에 따라 디코딩된 오디오 신호의 동적 범위 압축을 획득하도록 디코딩된 오디오 신호를 프로세싱하는 단계를 포함한다.

전술된 바와 같이, 본 발명의 실시예는 인코딩, 디코딩, 음량 측정, 필터링, 믹싱, 추가, 인버전, 비교 및 결정을 포함하는 전술된 디지털 오디오 프로세싱 동작들을 수행하기 위한 (본 명세서에서 일반적으로 "프로세서"로 지칭되는) 하나 이상의 데이터 프로세싱 구성요소를 프로그래밍하는 명령어들이 저장된 (마이크로 전자 메모리와 같은) 기계-판독가능한 매체일 수 있다. 이러한 명령어들은 미디어 플레이어 애플리케이션 프로그램의 부분일 수 있다. 다른 실시예들에서, 이러한 동작들의 일부가 하드와이어 로직(예를 들어 전용 디지털 필터 블록들, 상태 기계)을 포함하는 특정한 하드웨어 구성요소들에 의해 수행될 수 있다. 이러한 동작들은 이와 다르게 프로그래밍된 데이터 프로세싱 구성요소들 및 고정된 하드와이어 회로 구성요소들의 임의의 조합에 의해 수행될 수도 있다.

소정의 실시예들이 기술되고 첨부된 도면에 도시되었지만, 이러한 실시예들이 단지 예시적인 것이며 광범위한 발명에 제한을 두는 것은 아니며, 다양한 다른 수정들이 당업자에게 발생할 수 있기 때문에 본 발명이 도시되고 기술된 특정한 구성 및 배치로 제한되지 않는다는 것이 이해될 것이다. 예를 들어, 각각의 인코딩 및 디코딩 단계들이 일 실시예에서 예를 들어 인터넷 상에서 통신하는 오디오 콘텐츠 프로듀서 머신 및 오디오 콘텐츠 소비자 머신에서 따로따로 동작하는 것으로서 기술되었지만, 인코딩 및 디코딩 또한 예를 들어 트랜스코딩 프로세스의 부분으로서 동일한 머신 내에서 수행될 수 있다. 따라서 제한적인 것이 아닌 예시적인 것으로서 고려되어야 한다.

Claims

오디오 신호를 인코딩하기 위한 방법으로서,
오디오 정규화 이득 값을 오디오 신호에 적용하여 정규화된 신호를 생산하는 단계;
그 다음 상기 정규화된 신호를 프로세싱하여, 상기 정규화된 신호에 대한 복수의 동적 범위 제어(DRC) 이득 값들을, 복수의 사전 정의된 DRC 특징들 중 선택된 DRC 특징에 따라 컴퓨팅하는 단계;
상기 오디오 신호를 인코딩하는 단계; 및
상기 인코딩된 오디오 신호를 디코딩된 오디오 신호로 디코딩하는 최종 사용자 디바이스의 디코더 장치로 하여금 변조된(modified) DRC 이득 값들을 생성하게 하고 그런 다음 상기 변조된 DRC 이득 값들을 이용해서 상기 디코딩된 오디오 신호를 압축할 수 있게 하도록, 상기 인코딩된 오디오 신호와 연관된 메타데이터로서, 상기 DRC 이득 값들과 상기 선택된 DRC 특징의 인덱스를 제공하는 단계를 포함하는, 방법.
삭제
제1항에 있어서, 상기 오디오 정규화 이득 값이 프로그램 음량 정규화 이득 값인, 방법.
제1항에 있어서, 메타데이터로서 상기 DRC 이득 값들을 제공하는 단계는,
상기 DRC 이득 값들을 상기 인코딩된 오디오 신호와 함께 1차 데이터 채널 내에 임베딩(embedding)하는 단계; 및
상기 선택된 DRC 특징의 상기 인덱스를 다른 메타데이터와 함께 상기 1차 데이터 채널과 연관된 보조 데이터 채널 내에 제공하는 단계를 포함하는, 방법.
제4항에 있어서, 상기 다른 메타데이터는 프로그램 음량 값 및 트루 피크 값(True Peak value)을 포함하는, 방법.
제1항에 있어서,
상기 DRC 이득 값들을 상기 오디오 신호 또는 상기 정규화된 신호 중 하나로부터 파생된 신호에 적용하여 동적 범위 조정된 신호를 생산하는 단계; 및
상기 동적 범위 조정된 신호에 기초한 오디오 측정을 수행하여 프로그램 음량 값을 컴퓨팅하는 단계; 및
상기 프로그램 음량 값을 이용하여 상기 오디오 정규화 이득 값을 컴퓨팅하는 단계를 더 포함하는, 방법.
제6항에 있어서,
상기 오디오 신호의 특징에 기초하여 및/또는 상기 인코딩된 오디오 신호를 수신할 것으로 기대되는 재생 디바이스의 특징에 기초하여 필터를 구성하는 단계; 및
상기 오디오 측정을 수행하기 전에 상기 필터를 이용하여 상기 동적 범위 조정된 신호를 사전-컨디셔닝(pre-conditioning)하는 단계를 더 포함하는, 방법.
제1항에 있어서,
상기 오디오 신호 내의 오디오 콘텐츠 타입에 응답하여, 복수의 서로 다른 타입의 오디오 콘텐츠와 연관된 복수의 사전결정된 표적 음량 값들에 각각 기초해 상기 오디오 정규화 이득 값을 자동으로 선택하는 단계를 더 포함하는, 방법.
디지털 오디오 인코더 장치로서,
오디오 정규화 이득 값을 오디오 신호에 적용하여 정규화된 오디오 신호를 생산하기 위한 정규화기(normalizer);
상기 정규화된 오디오 신호를 프로세싱하여 상기 정규화된 오디오 신호에 대한 복수의 동적 범위 제어(DRC) 이득 값들을 복수의 사전 정의된 DRC 특징들 중 선택된 DRC 특징에 따라 컴퓨팅하기 위한 DRC 프로세서;
상기 오디오 신호를 인코딩하기 위한 인코더;
상기 인코딩된 오디오 신호와 연관된 메타데이터로서, 상기 DRC 이득 값들을 제공하기 위한 수단; 및
상기 인코딩된 오디오 신호를 디코딩된 오디오 신호로 디코딩하는 최종 사용자 디바이스의 디코더 장치로 하여금 변조된 DRC 이득 값들을 생성하게 하고 그런 다음 상기 변조된 DRC 이득 값들을 이용해서 상기 디코딩된 오디오 신호를 압축할 수 있게 하도록, 상기 인코딩된 오디오 신호와 연관된 메타데이터로서, 상기 선택된 DRC 특징의 인덱스를 제공하기 위한 수단을 포함하는, 장치.
삭제
제9항에 있어서,
상기 오디오 신호에 기초하여 음량 파라미터들을 컴퓨팅하기 위한 오디오 측정 유닛; 및
상기 인코딩된 신호와 연관된 메타데이터로서, 컴퓨팅된 상기 음량 파라미터들을 제공하기 위한 수단을 더 포함하는, 장치.
제11항에 있어서,
상기 오디오 신호의 다운믹스(downmix)를 컴퓨팅하기 위한 다운믹스 프로세서를 더 포함하며, 상기 오디오 측정 유닛은 상기 다운믹스에 기초하여 상기 음량 파라미터들을 컴퓨팅하는, 장치.
제11항에 있어서, 상기 오디오 신호를 상기 오디오 측정 유닛에 입력하기 전에 상기 오디오 신호가 통과하는 사전-컨디셔닝 필터를 더 포함하는, 장치.
재생 프로세싱 동안에 오디오를 디코딩하기 위한 방법으로서,
인코딩된 오디오 신호를 수신하는 단계;
상기 인코딩된 오디오 신호와 연관되고, 복수의 동적 범위 제어(DRC) 이득 값들 및 사전 선택된 DRC 특징의 인덱스를 포함하는 메타데이터를 수신하는 단계 - 상기 DRC 이득 값들은, 상기 인코딩된 오디오 신호가 생성되던 때에 상기 사전 선택된 DRC 특징에 따라 컴퓨팅된 것임 -;
상기 인코딩된 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 생산하는 단계;
복수의 이용가능한 DRC 특징들 중에서, 상기 인덱스와 연관된 현재 DRC 특징을 선택하는 단계;
i) 상기 메타데이터로부터의 상기 복수의 DRC 이득 값들을 상기 현재 DRC 특징에 적용하여 복수의 입력 레벨들을 획득하고, ii) 상기 복수의 이용가능한 DRC 특징들 중에서 타겟 DRC 특징을 선택하고, iii) 상기 획득된 복수의 입력 레벨들을 상기 타겟 DRC 특징에 적용함으로써, 변조된 DRC 이득 값들을 생성하는 단계; 및
재생 프로세싱 동안에 상기 변조된 DRC 이득 값들을 상기 디코딩된 오디오 신호에 적용하여 DRC 조정된 오디오 신호를 생산하는 단계를 포함하는, 방법.
삭제
제14항에 있어서, 상기 수신된 메타데이터는, 프로그램 음량, 트루 피크, 음량 범위, 최대 순간 음량 및 단기 음량 값들로 구성된 그룹으로부터 선택된 복수의 값들을 더 포함하는, 방법.
제14항에 있어서, 상기 복수의 이용가능한 DRC 특징들 중에서 상기 타겟 DRC 특징을 선택하는 단계는, 늦은 밤, 걷는 중, 뛰는 중, 및 차량을 포함하는 사용자 맥락; 및 스피커 동적 범위 중 하나 이상에 더 기초하는, 방법.
디지털 오디오 디코더 장치로서,
디코더, DRC 프로세서 및 멀티플라이어를 포함하는 디지털 미디어 플레이어를 포함하고,
상기 디코더는, 인코딩된 오디오 신호를 수신하고 디코딩된 오디오 신호를 생산하며,
상기 DRC 프로세서는, 상기 인코딩된 오디오 신호와 연관된 메타데이터를 수신 - 상기 메타데이터는 복수의 동적 범위 제어(DRC) 이득 값들 및 사전 선택된 DRC 특징의 인덱스를 포함하며, 상기 DRC 이득 값들은, 상기 인코딩된 오디오 신호가 생성되던 때에 상기 사전 선택된 DRC 특징에 따라 컴퓨팅된 것임 - 하고,
상기 DRC 프로세서는 복수의 저장된 DRC 특징들 중에서 상기 인덱스와 연관된 현재 DRC 특징을 선택하며,
상기 DRC 프로세서는, i) 상기 메타데이터로부터의 상기 복수의 DRC 이득 값들을 상기 현재 DRC 특징에 적용하여 복수의 입력 레벨들을 획득하고, ii) 상기 복수의 저장된 DRC 특징들 중에서 타겟 DRC 특징을 선택하고, iii) 상기 획득된 복수의 입력 레벨들을 상기 타겟 DRC 특징에 적용하는 것에 기초하여, 변조된 DRC 이득 값들을 생성하고,
상기 멀티플라이어는, 상기 변조된 DRC 이득 값들을 상기 디코딩된 오디오 신호에 적용하여 DRC 조정된 오디오 신호를 생산하는, 장치.
삭제
제18항에 있어서,
상기 디코더, 상기 DRC 프로세서 및 상기 멀티플라이어는, 상기 인코딩된 오디오 신호의 재생 동안에, 상기 DRC 조정된 오디오 신호를 아날로그 형태로 변환하는 디지털-아날로그 변환기(DAC)를 더 포함하는 최종 사용자 디바이스의 일부인, 장치.
제20항에 있어서,
상기 메타데이터로부터 추출된 다운믹스 이득 값들에 기초하여, 아날로그 형태로의 변환 이전에, 상기 DRC 조정된 오디오 신호에 대한 다운믹스 변환을 수행하는 다운믹스 프로세서를 더 포함하는, 장치.
제21항에 있어서,
상기 DRC 프로세서는, 재생 볼륨 설정; 늦은 밤, 걷는 중, 뛰는 중, 및 차량을 포함하는 사용자 맥락; DAC 동적 범위; 및 스피커 동적 범위 중 하나 이상에 기초하여, 상기 복수의 저장된 DRC 특징들 중에서 상기 타겟 DRC 특징을 선택하는, 장치.
제21항에 있어서,
상기 DRC 프로세서는, 상기 변조된 DRC 이득 값들을 상기 디코딩된 오디오 신호에 적용하여 DRC 조정된 오디오 신호를 생산할 때, 다운믹싱 시에, 재생 볼륨이 임계값보다 큰 때에만 그리고 상기 디코딩된 오디오 신호 중 가장 시끄러운 세그먼트의 레벨을 줄이는데 필요한 한도까지만, 상기 디코딩된 오디오 신호가 DRC 조정되도록, 제어되는, 장치.
제23항에 있어서,
상기 DRC 프로세서는, 상기 메타데이터로부터 상기 인코딩된 오디오 신호의 스테레오 다운믹스의 트루 피크 값을 추출하고, 상기 트루 피크 값을 이용하여 상기 다운믹스 변환 이전에 얼마나 많은 DRC 압축이 상기 디코딩된 오디오 신호에 적용될지를 추정하는, 장치.
제20항에 있어서,
상기 DRC 프로세서는, 재생 볼륨 설정; 늦은 밤, 걷는 중, 뛰는 중, 및 차량을 포함하는 사용자 맥락; DAC 동적 범위; 및 스피커 동적 범위 중 하나 이상에 기초하여, 상기 복수의 저장된 DRC 특징들 중에서 상기 타겟 DRC 특징을 선택하는, 장치.
제14항에 있어서,
상기 메타데이터로부터 추출된 다운믹스 이득 값들에 기초하여, 상기 DRC 조정된 오디오 신호의 아날로그 형태로의 변환 이전에, 상기 DRC 조정된 오디오 신호에 대한 다운믹스 변환을 수행하는 단계를 더 포함하는, 방법.
제26항에 있어서,
상기 복수의 저장된 DRC 특징들 중에서 상기 타겟 DRC 특징을 선택하는 단계는, 재생 볼륨 설정; 늦은 밤, 걷는 중, 뛰는 중, 및 차량을 포함하는 사용자 맥락; 디지털-아날로그 변환기 동적 범위; 및 스피커 동적 범위 중 하나 이상의 판정에 기초하는, 방법.
제26항에 있어서,
상기 변조된 DRC 이득 값들을 상기 디코딩된 오디오 신호에 적용하여 DRC 조정된 오디오 신호를 생산할 때, 다운믹싱 시에, 재생 볼륨이 임계값보다 큰 때에만 그리고 상기 디코딩된 오디오 신호 중 가장 시끄러운 세그먼트의 레벨을 줄이는데 필요한 한도까지만, 상기 디코딩된 오디오 신호가 DRC 조정되도록, 제어하는 단계를 더 포함하는, 방법.
제28항에 있어서,
상기 메타데이터로부터 상기 인코딩된 오디오 신호의 스테레오 다운믹스의 트루 피크 값을 추출하는 단계; 및
상기 트루 피크 값을 이용하여 상기 다운믹스 변환 이전에 얼마나 많은 DRC 압축이 상기 디코딩된 오디오 신호에 적용될지를 추정하는 단계를 더 포함하는, 방법.
제14항에 있어서,
상기 복수의 저장된 DRC 특징들 중에서 상기 타겟 DRC 특징을 선택하는 단계는, 재생 볼륨 설정; 늦은 밤, 걷는 중, 뛰는 중, 및 차량을 포함하는 사용자 맥락; 디지털-아날로그 변환기 동적 범위; 및 스피커 동적 범위 중 하나 이상의 판정에 기초하는, 방법.