KR20210111332A

KR20210111332A - 프로그램 정보 또는 서브스트림 구조 메타데이터를 갖는 오디오 인코더 및 디코더

Info

Publication number: KR20210111332A
Application number: KR1020217027339A
Authority: KR
Inventors: 제프리 리드밀러; 마이클 와드
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2013-06-19
Filing date: 2014-06-12
Publication date: 2021-09-10
Also published as: BR122020017897B1; TWI553632B; US20160322060A1; JP6046275B2; CN106297811A; JP3186472U; KR200478147Y1; TW201506911A; US10037763B2; AU2014281794B9; TW201735012A; EP2954515A1; CN110473559A; SG10201604617VA; JP2016507088A; TWI588817B; CN104240709A; FR3007564A3; MY171737A; US10147436B2

Abstract

본 발명은 비트스트림에 서브스트림 구조 메타데이터(SSM) 및/또는 프로그램 정보 메타데이터(PIM) 및 오디오 데이터를 포함함으로써 포함하는 인코딩된 오디오 비트스트림을 생성하기 위한 장치 및 방법들에 관한 것이다. 다른 양태들은 이러한 비트스트림을 디코딩하기 위한 장치 및 방법들, 및 방법의 임의의 실시예를 수행하도록 구성되거나(예를 들면, 프로그래밍되는) 또는 방법의 임의의 실시예에 따라 생성된 오디오 비트스트림의 적어도 하나의 프레임을 저장하는 버퍼 메모리를 포함하는 오디오 처리 유닛(예를 들면, 인코더, 디코더, 또는 후처리-프로세서)이다.

Description

프로그램 정보 또는 서브스트림 구조 메타데이터를 갖는 오디오 인코더 및 디코더{AUDIO ENCODER AND DECODER WITH PROGRAM INFORMATION OR SUBSTREAM STRUCTURE METADATA}

본 출원은 2013년 6월 19일에 출원된 미국 가특허 출원 제 61/836,865 호에 대한 우선권을 주장하고, 그의 전체가 참조로서 여기에 통합된다.

본 발명은 오디오 신호 처리에 관한 것이고, 특히, 서브스트림 구조를 나타내는 메타데이터 및/또는 비트스트림들로 나타낸 오디오 콘텐트에 관한 프로그램 정보를 갖고 오디오 데이터 비트스트림들의 인코딩 및 디코딩에 관한 것이다. 본 발명의 몇몇 실시예들은 돌비 디지털(AC-3), 돌비 디지털 플러스(인핸스드 AC-3 또는 E-AC-3), 또는 돌비 E로서 알려진 포맷들 중 하나로 오디오 데이터를 생성하거나 디코딩한다.

돌비, 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E는 돌비 래버러토리즈 라이쎈싱 코오포레이션의 상표들이다. 돌비 래버러토리즈는 돌비 디지털 및 돌비 디지털 플러스로서 각각 알려진 AC-3 및 E-AC-3의 독점 구현들을 제공한다.

오디오 데이터 처리 유닛들은 일반적으로 블라인드 방식으로 동작하고 데이터가 수신되기 전에 발생하는 오디오 데이터의 처리 이력에 주목하지 않는다. 이는 단일 엔티티가 다양한 타깃 미디어 렌더링 디바이스들에 대한 모든 오디오 데이터 처리 및 인코딩을 행하고 동시에 타깃 미디어 렌더링 디바이스가 인코딩된 오디오 데이터의 모든 디코딩 및 렌더링을 행하는 처리 프레임워크에서 작동할 수 있다.

그러나, 이러한 블라인드 처리는 복수의 오디오 처리 유닛들이 다양한 네트워크에 걸쳐 흩어져 있거나 또는 나란히 위치되고(즉, 연쇄) 그들의 각각의 형태들의 오디오 처리를 최적으로 수행할 것이 예상되는 상황들에서 잘 작동하지 않는다(또는 전혀 동작하지 않는다). 예를 들면, 몇몇 오디오 데이터는 고성능 미디어 시스템들에 대해 인코딩될 수 있고 미디어 처리 연쇄를 따라 이동 디바이스에 적절한 감소된 형태로 변환되어야 할 수 있다. 따라서, 오디오 처리 유닛은 이미 수행된 오디오 데이터상의 처리의 형태를 불필요하게 수행할 수 있다. 예를 들면, 체적 레벨링 유닛은 동일하거나 또는 유사한 체적 레벨링이 입력 오디오 클립상에 이미 수행되었는지의 여부와 관계없이 입력 오디오 클립상에 처리를 수행할 수 있다. 결과로서, 체적 레벨링 유닛은 심지어 필요하지 않을 때조차 레벨링을 수행할 수 있다. 이러한 불필요한 처리는 또한 오디오 데이터의 콘텐트를 렌더링하는 동안 특정 피처들의 제거 및/또는 열화를 야기할 수 있다.

일 종류의 실시예들에서, 본 발명은 비트스트림의 적어도 하나의 프레임의 적어도 하나의 세그먼트에 서브스트림 구조 메타데이터 및/또는 프로그램 정보 메타데이터(및 선택적으로 또한 다른 메타데이터, 예를 들면, 라우드니스 처리 상태 메타데이터) 및 프레임의 적어도 하나의 다른 세그먼트에서 오디오 데이터를 포함하는 인코딩된 비트스트림을 디코딩할 수 있는 오디오 처리 유닛이다. 여기서, 서브스트림 구조 메타데이터(즉 "SSM")는 인코딩된 비트스트림(들)의 오디오 콘텐트의 서브스트림 구조를 나타내는 인코딩된 비트스트림(또는 인코딩된 비트스트림들의 세트)의 메타데이터를 나타내고, "프로그램 정보 메타데이터"(즉 "PIM")는 적어도 하나의 오디오 프로그램(예를 들면, 두 개 이상의 오디오 프로그램들)을 나타내는 인코딩된 오디오 비트스트림의 메타데이터를 나타내고, 프로그램 정보 메타데이터는 적어도 하나의 상기 프로그램의 오디오 콘텐트의 적어도 하나의 속성 또는 특징을 나타낸다(예를 들면, 메타데이터는 프로그램의 오디오 데이터에 수행된 처리의 파라미터 또는 형태를 나타내거나 또는 메타데이터는 프로그램의 어느 채널들이 활성 채널들인지를 나타낸다).

일반적인 경우들에서(예를 들면, 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 경우에), 프로그램 정보 메타데이터(PIM)는 비트스트림의 다른 부분들에서 실제로 실행될 수 없는 프로그램 정보를 나타낸다. 예를 들면, PIM은 오디오 프로그램의 어느 주파수 대역들이 특정 오디오 코딩 기술들을 사용하여 인코딩되었는지에 대한 인코딩(예를 들면, AC-3 또는 E-AC-3 인코딩) 전에 PCM 오디오, 및 비트스트림에서 동적 범위 압축(DRC) 데이터를 생성하기 위해 사용된 압축 프로파일에 적용된 처리를 나타낸다.

다른 종류의 실시예들에서, 방법은 비트스트림의 각각의 프레임(또는 적어도 일부 프레임들의 각각)에서 SSM 및/또는 PIM에 의해 인코딩된 오디오 데이터를 멀티플렉싱하는 단계를 포함한다. 일반적인 디코딩에서, 디코더는 (SSM 및/또는 PIM 및 오디오 데이터를 파싱 및 디멀티플렉싱함으로써 포함하는) 비트스트림으로부터 SSM 및/또는 PIM를 추출하고 오디오 데이터를 처리하여 디코딩된 오디오 데이터의 스트림을 생성한다(및 몇몇 경우들에서, 오디오 데이터의 적응식 처리를 또한 수행한다). 몇몇 실시예들에서, 디코딩된 오디오 데이터 및 SSM 및/또는 PIM은 디코더로부터 SSM 및/또는 PIM을 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행하도록 구성된 후처리 프로세서로 전송된다.

일 종류의 실시예들에서, 발명의 인코딩 방법은 인코딩된 오디오 데이터를 포함하는 오디오 데이터 세그먼트들(예를 들면, 도 4에 도시된 프레임의 AB0-AB5 세그먼트들 또는 도 7에 도시된 프레임의 세그먼트들(AB0-AB5)의 모두 또는 일부), 및 오디오 데이터 세그먼트들로 시분할 멀티플렉싱된 메타데이터 세그먼트들(SSM 및/또는 PIM, 및 선택적으로 또한 다른 메타데이터를 포함하는)을 포함하는 인코딩된 오디오 비트스트림(예를 들면, AC-3 또는 E-AC-3 비트스트림)을 생성한다. 몇몇 실시예들에서, 각각의 메타데이터 세그먼트(때때로 여기서 "컨테이너"라고 불림)는 메타데이터 세그먼트 헤더(및 선택적으로 또한 다른 필수 또는 "코어" 요소들), 및 메타데이터 세그먼트 헤더에 후속하는 하나 이상의 메타데이터 페이로드들을 포함하는 포맷을 갖는다. 존재하는 경우, SIM은 메타데이터 페이로드들 중 하나에 포함된다(페이로드 헤더에 의해 식별되고, 일반적으로 제 1 형태의 포맷을 가짐). 존재하는 경우, PIM은 메타데이터 페이로드들 중 또 다른 하나에 포함된다(페이로드 헤더에 의해 식별되고 일반적으로 제 2 형태의 포맷을 가짐). 유사하게, 각각 다른 형태의 메타데이터(존재하는 경우)는 메타데이터 페이로드들의 또 다른 하나에 포함된다(페이로드 헤더에 의해 식별되고 일반적으로 메타데이터 형태에 특정된 포맷을 가짐). 예시적인 포맷은 디코딩 동안과 다른 시간들에서 SSM, PIM, 및 다른 메타데이터에 편리한 액세스를 허용하고(예를 들면, 디코딩에 후속하는 후처리-프로세서에 의해, 또는 인코딩된 비트스트림에 풀 디코딩을 수행하지 않고 메타데이터를 인식하도록 구성된 프로세서에 의해), 비트스트림의 디코딩 동안 편리하고 효율적인 에러 검출 및 정정(예를 들면, 서브스트림 식별의)을 허용한다. 예를 들면, 예시적인 포맷의 SSM에 대한 액세스 없이, 디코더는 프로그램과 연관된 정확한 수의 서브스트림들을 부정확하게 식별할 수 있다. 메타데이터 세그먼트에서 하나의 메타데이터 페이로드는 SSM을 포함할 수 있고, 메타데이터 세그먼트에서 또 다른 메타데이터 페이로드는 PIM을 포함할 수 있고, 메타데이터 세그먼트에서 선택적으로 또한 적어도 하나의 다른 메타데이터 페이로드는 다른 메타데이터를 포함할 수 있다(예를 들면, 라우드니스 처리 상태 메타데이터, 즉 "LPSM").

본 발명은 서브스트림 구조를 나타내는 메타데이터 및/또는 비트스트림들로 나타낸 오디오 콘텐트에 관한 프로그램 정보를 갖고 오디오 데이터 비트스트림들의 인코딩 및 디코딩하는 방법 및 장치를 제공한다.

도 1은 본 발명의 방법의 일 실시예를 수행하도록 구성될 수 있는 시스템의 일 실시예의 블록도.
도 2는 발명의 오디오 처리 유닛의 일 실시예인 인코더의 블록도.
도 3은 발명의 오디오 처리 유닛의 일 실시예인 디코더, 및 발명의 오디오 처리 유닛의 다른 실시예인 그에 결합된 후처리-프로세서의 블록도
도 4는 분할된 세그먼트들을 포함하는 AC-3 프레임의 도면.
도 5는 분할된 세그먼트들을 포함하는 AC-3 프레임의 동기화 정보(SI) 세그먼트의 도면.
도 6은 분할된 세그먼트들을 포함하는 AC-3 프레임의 비트스트림 정보(BSI) 세그먼트의 도면.
도 7은 분할된 세그먼트들을 포함하는 E-AC-3 프레임의 도면.
도 8은 다수의 메타데이터 페이로드들 및 보호 비트들로 후속되는, 컨테이너 동기 워드(도 8에서 "컨테이너 동기"로서 식별됨) 및 버전 및 키 ID 값들을 포함하는 메타데이터 세그먼트 헤더를 포함하는, 본 발명의 일 실시예에 따라 생성된 인코딩된 비트스트림의 메타데이터 세그먼트의 도면.

청구항들에 포함하는 본 개시를 통하여, 신호 또는 데이터 "상"에 동작을 수행한다는 표현(예를 들면, 필터링, 스케일링, 변환, 또는 이득을 신호 또는 데이터에 적용)은 넓은 의미로 신호 또는 데이터에 직접, 또는 신호 또는 데이터의 처리된 버전상(그에 대한 동작의 수행 전에 예비 필터링 또는 선처리를 겪는 신호의 버전상)에 동작을 수행한다는 것을 나타내기 위해 사용된다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "시스템"은 넓은 의미로 디바이스, 시스템, 또는 서브시스템을 나타내기 위해 사용된다. 예를 들면, 디코더를 실행하는 서브시스템은 디코더 시스템이라고 불릴 수 있고, 이러한 서브시스템을 포함하는 시스템(예를 들면, 다수의 입력들에 응답하여 X 개의 출력 신호들을 생성하는 시스템, 여기서 서브시스템은 M 개의 입력들을 생성하고, 다른 X-M 개의 입력들은 외부 소스로부터 수신됨)은 또한 디코더 시스템이라고 불릴 수 있다.

청구항들에 포함하는 이러한 개시를 통해, 용어 "프로세서"는 넓은 의미로 데이터(예를 들면, 오디오, 또는 비디오 또는 다른 이미지 데이터)에 대해 동작들을 수행하기 위해 프로그램 가능하거나 또는 그와 달리 구성 가능한(예를 들면, 소프트웨어 또는 펌웨어와 함께) 시스템 또는 디바이스를 나타내기 위해 사용된다. 프로세서들의 예들은 필드-프로그램 가능 게이트 어레이(또는 다른 구성가능한 집적 회로 또는 칩 세트), 오디오 또는 다른 사운드 데이터에 파이프라인 처리를 수행하도록 프로그래밍되거나 및/또는 그와 달리 구성되는 디지털 신호 처리기, 프로그램가능 범용 프로세서 또는 컴퓨터, 및 프로그램 가능 마이크로프로세서 칩 또는 칩 세트를 포함한다.

청구항들에 포함하는 이러한 개시를 통해, 표현들 "오디오 프로세서" 및 "오디오 처리 유닛"은 교체가능하고, 넓은 의미로 오디오 데이터를 처리하도록 구성된 시스템을 나타내기 위해 사용된다. 오디오 처리 유닛들의 예들은 인코더들(예를 들면, 트랜스코더들), 디코더들, 코덱들, 선처리 시스템들, 후처리 시스템들, 및 비트스트림 처리 시스템들(때때로 비트스트림 처리 툴들이라고 불림)을 포함하지만, 그로 제한되지 않는다.

청구항들에 포함하는 이러한 개시를 통해, 표현 (인코딩된 오디오 비트스트림의) "메타데이터"는 비트스트림의 대응하는 오디오 데이터와 별개이고 상이한 데이터를 말한다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "서브스트림 구조 메타데이터"(즉 "SSM")는 인코딩된 비트스트림(들)의 오디오 콘텐트의 서브스트림 구조를 나타내는 인코딩된 오디오 비트스트림(또는 인코딩된 오디오 비트스트림들의 세트)의 메타데이터를 나타낸다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "프로그램 정보 메타데이터"(즉 "PIM")는 적어도 하나의 오디오 프로그램(예를 들면, 두 개 이상의 오디오 프로그램들)을 나타내는 인코딩된 오디오 비트스트림의 메타데이터를 나타내고, 상기 메타데이터는 적어도 하나의 상기 프로그램의 오디오 콘텐트의 적어도 하나의 속성 또는 특징을 나타낸다(예를 들면, 메타데이터는 프로그램의 오디오 데이터에 수행된 처리의 형태 또는 파라미터를 나타내거나, 메타데이터는 프로그램의 어느 채널들이 활성 채널들인지를 나타낸다).

청구항들에 포함하는 이러한 개시를 통해, 표현 "처리 상태 메타데이터"(예를 들면, 표현 "라우드니스 처리 상태 메타데이터"에서와 같이)는 비트스트림의 오디오 데이터와 연관된 (인코딩된 오디오 비트스트림의) 메타데이터를 말하고, 대응하는 (연관된) 오디오 데이터의 처리 상태(예를 들면, 어떤 형태(들)의 처리가 이미 오디오 데이터에 수행되었는지)를 나타내고, 일반적으로 또한 오디오 데이터의 적어도 하나의 피처 또는 특징을 나타낸다. 처리 상태 메타데이터와 오디오 데이터의 연관은 시간 동기적이다. 따라서, 현재(가장 최근에 수신되거나 갱신된) 처리 상태 메타데이터는 대응하는 오디오 데이터가 표시된 형태(들)의 오디오 데이터 처리의 결과들을 동시에 포함한다는 것을 나타낸다. 몇몇 경우들에서, 처리 상태 메타데이터는 처리 이력 및/또는 표시된 형태들의 처리에서 사용되고 및/또는 그로부터 도출되는 파라미터들의 일부 또는 모두를 포함할 수 있다. 추가로, 처리 상태 메타데이터는 오디오 데이터로부터 계산되거나 추출된 대응하는 오디오 데이터의 적어도 하나의 피처 또는 특징을 포함할 수 있다. 처리 상태 메타데이터는 대응하는 오디오 데이터의 임의의 처리에 관련되지 않거나 또는 그로부터 도출되지 않는 다른 메타데이터를 또한 포함할 수 있다. 예를 들면, 제 3 자 데이터, 추적 정보, 식별자들, 속성 또는 표준 정보, 사용자 주석 데이터, 사용자 선호 데이터, 등은 특정 오디오 처리 유닛에 의해 다른 오디오 처리 유닛들상에 전달하기 위해 추가될 수 있다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "라우드니스 처리 상태 메타데이터"(즉, "LPSM")는 대응하는 오디오 데이터의 라우드니스 처리 상태(예를 들면, 어떤 형태(들)의 라우드니스 처리가 오디오 데이터에 수행되었는지) 및 일반적으로 또한 대응하는 오디오 데이터의 적어도 하나의 피처 또는 특징(예를 들면, 라우드니스)을 나타내는 처리 상태 메타데이터를 나타낸다. 라우드니스 처리 상태 메타데이터는 라우드니스 처리 상태 메타데이터가 아닌(즉, 그것이 홀로 고려될 때) 데이터(예를 들면, 다른 메타데이터)를 포함할 수 있다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "채널"(또는 "오디오 채널")은 모노포닉 오디오 신호를 나타낸다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "오디오 프로그램"은 일 세트의 하나 이상의 오디오 채널들 및 선택적으로 또한 연관된 메타데이터(예를 들면, 원하는 공간 오디오 표현, 및/또는 PIM, 및/또는 SSM, 및/또는 LPSM, 및/또는 프로그램 경계 메타데이터를 기술하는 메타데이터)를 나타낸다.

청구항들에 포함하는 이러한 개시를 통해, 표현 "프로그램 경계 메타데이터"는 인코딩된 오디오 비트스트림의 메타데이터를 나타내고, 인코딩된 오디오 비트스트림은 적어도 하나의 오디오 프로그램(예를 들면, 두 개 이상의 오디오 프로그램들)을 나타내고, 프로그램 경계 메타데이터는 적어도 하나의 상기 오디오 프로그램의 적어도 하나의 경계(시작 및/또는 종료)의 비트스트림에서 위치를 나타낸다. 예를 들면, 프로그램 경계 메타데이터(오디오 프로그램을 나타내는 인코딩된 오디오 비트스트림의)는 프로그램의 시작의 위치(예를 들면, 비트스트림의 "N"번째 프레임의 시작, 또는 비트스트림의 "N"번째 프레임의 "M"번째 샘플 위치)를 나타내는 메타데이터, 및 프로그램의 종료의 위치(예를 들면, 비트스트림의 "J"번째 프레임의 시작, 또는 비트스트림의 "J"번째 프레임의 "K"번째 샘플 위치)를 나타내는 추가의 메타데이터를 포함할 수 있다.

청구항들에 포함하는 이러한 개시를 통해, 용어 "결합하는" 또는 "결합된"은 직접 또는 간접 접속 중 하나를 의미하도록 사용된다. 따라서, 제 1 디바이스가 제 2 디바이스에 결합되는 경우, 상기 접속은 직접 접속을 통하거나, 또는 다른 디바이스들 및 접속들을 통해 간접 접속을 통해서일 수 있다.

발명의 실시예들의 상세한 설명

오디오 데이터의 일반적인 스트림은 오디오 콘텐트(예를 들면, 오디오 콘텐트의 하나 이상의 채널들) 및 오디오 콘텐트의 적어도 하나의 특징을 나타내는 메타데이터 모두를 포함한다. 예를 들면, AC-3 비트스트림에서, 리스닝 환경으로 전달된 프로그램의 사운드의 변경시 사용을 위해 특별히 의도되는 수 개의 오디오 메타데이터 파라미터들이 존재한다. 메타데이터 파라미터들 중 하나는 DIALNORM 파라미터이고, DIALNORM 파라미터는 오디오 프로그램에서 다이얼로그의 평균 레벨을 나타내는 것으로 의도되고, 오디오 재생 신호 레벨을 결정하기 위해 사용된다.

상이한 오디오 프로그램 세그먼트들(각각이 상이한 DIALNORM 파라미터를 가짐)의 시퀀스를 포함하는 비트스트림의 재생 동안, AC-3 디코더는 세그먼트들의 시퀀스의 다이얼로그의 인지된 라우드니스가 일관된 레벨에 있도록 재생 레벨 또는 라우드니스를 변경하는 라우드니스 처리의 형태를 수행하기 위해 각각의 세그먼트의 DIALNORM 파라미터를 사용한다. 인코딩된 오디오 아이템들의 시퀀스에서 각각의 인코딩된 오디오 세그먼트(아이템)는 (일반적으로) 상이한 DIALNORM 파라미터를 갖고, 디코더는, 각각의 아이템에 대한 다이얼로그의 재생 레벨 또는 라우드니스가 재생 동안 아이템들의 상이한 것들에 대해 상이한 양들의 이득의 적용을 요구하지만, 이것이 동일하거나 매우 유사하도록 아이템들의 각각의 레벨을 크기 조정할 것이다.

DIALNORM은 일반적으로 사용자에 의해 설정되고, 사용자에 의해 설정된 값이 없는 경우, 디폴트 DIALNORM 값이 존재하지만, 자동으로 생성되지는 않는다. 예를 들면, 콘텐트 생성자는 AC-3 인코더 외부의 디바이스에 의해 라우드니스 측정들을 행할 수 있고, 그 후 결과(오디오 프로그램의 음성 다이얼로그의 라우드니스를 나타냄)를 인코더로 전송하여 DIALNORM 값을 설정한다. 따라서, DIALNORM 파라미터를 정확하게 설정하기 위한 콘텐트 생성자에 대한 신뢰가 존재한다.

AC-3 비트스트림에서 DIALNORM 파라미터가 부정확할 수 있는 수개의 상이한 이유들이 존재한다. 첫째로, 각각의 AC-3 인코더는, DIALNORM 값이 콘텐트 생성자에 의해 설정되지 않는 경우, 비트스트림의 생성 동안 사용되는 디폴트 DIALNORM 값을 갖는다. 이러한 디폴트값은 오디오의 실제 다이얼로그 라우드니스 레벨과 실질적으로 상이할 수 있다. 둘째로, 심지어 콘텐트 생성자가 라우드니스를 측정하고 그에 따라서 DIALNORM 값을 설정하는 경우조차, 권장된 AC-3 라우드니스 측정 방법을 따르지 않는 라우드니스 측정 알고리즘 또는 계량 장치가 사용되었을 수 있고, 이는 부정확한 DIALNORM 값을 초래한다. 셋째로, 심지어 AC-3 비트스트림이 콘텐트 생성자에 의해 측정되고 정확하게 설정된 DIALNORM 값으로 생성된 경우조차, 비트스트림의 송신 및/또는 저장 동안 부정확한 값으로 변경될 수 있다. 예를 들면, 디코딩되고, 변경되고, 이후 부정확한 DIALNORM 메타데이터 정보를 사용하여 재인코딩되는 것은 AC-3 비트스트림들에 대한 텔레비전 방송 애플리케이션들에서 드문 경우가 아니다. 따라서, AC-3 비트스트림에 포함된 DIALNORM 값은 부정확하거나 오류가 있을 수 있고, 따라서, 리스닝 경험의 품질에 부정적인 영향을 미칠 수 있다.

또한, DIALNORM 파라미터는 대응하는 오디오 데이터의 라우드니스 처리 상태(예를 들면, 어떤 형태(들)의 라우드니스 처리가 오디오 데이터에 수행되었는지)를 나타내지 않는다. 라우드니스 처리 상태 메타데이터(본 발명의 몇몇 실시예들에 제공되는 포맷의)는, 특히 효율적인 방식으로, 오디오 비트스트림의 적응식 라우드니스 처리 및/또는 라우드니스 처리 상태의 유효성 및 오디오 콘텐트의 라우드니스의 검증을 용이하게 하기에 유용하다.

본 발명이 AC-3 비트스트림, E-AC-3 비트스트림, 또는 돌비 E 비트스트림과 함께 사용하도록 제한되지 않지만, 편의상, 이는 이러한 비트스트림을 생성, 디코딩, 또는 그와 달리 처리하는 실시예들에서 기술될 것이다.

AC-3 인코딩된 비트스트림은 메타데이터 및 오디오 콘텐트의 하나 내지 여섯 개의 채널들을 포함한다. 오디오 콘텐트는 지각된 오디오 코딩을 사용하여 압축된 오디오 데이터이다. 메타데이터는 리스닝 환경에 전달된 프로그램의 사운드의 변경시 사용을 위해 의도되는 수 개의 오디오 메타데이터 파라미터들을 포함한다.

AC-3 인코딩된 오디오 비트스트림들의 각각의 프레임은 디지털 오디오의 1536 개의 샘플들에 대한 메타데이터 및 오디오 콘텐트를 포함한다. 48 ㎑의 샘플링 레이트에 대하여, 이는 32 밀리초의 디지털 오디오 또는 초당 31.25 개의 프레임들의 레이트의 오디오를 나타낸다.

E-AC-3 인코딩된 오디오 비트스트림의 각각의 프레임은 프레임이 각각 오디오 데이터의 한 개, 두 개, 세 개 또는 여섯 개의 블록들을 포함하는지의 여부에 의존하여 디지털 오디오의 256, 512, 768, 또는 1536 개의 샘플들에 대한 오디오 콘텐트 및 메타데이터를 포함한다. 48㎑의 샘플링 레이트에 대하여, 이는 디지털 오디오의 5.333, 10.667, 16 또는 32 밀리초를 각각 또는 오디오의 초당 189.9, 93.75, 62.5 또는 31.25 개의 프레임들을 각각 나타낸다.

도 4에 나타낸 바와 같이, 각각의 AC-3 프레임은 섹션들(세그먼트들)로 분할되고, 상기 섹션들(세그먼트들)은: 동기화 워드(SW) 및 제 1의 두 개의 에러 정정 워드들(CRC1)을 포함하는(도 5에 도시되는) 동기화 정보(SI) 섹션; 대부분의 메타데이터를 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축된 오디오 콘텐트를 포함하는(및 메타데이터를 또한 포함할 수 있는) 여섯 개의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후 남겨진 임의의 사용되지 않은 비트들을 포함하는 여분의 비트 세그먼트들(W)(또한 "스킵 필드들"로서 알려짐); 더 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 제 2의 두 개의 에러 정정 워드들(CRC2)을 포함한다.

도 7에 나타낸 바와 같이, 각각의 E-AC-3 프레임은 섹션들(세그먼트들)로 분할되고, 상기 섹션들(세그먼트들)은: 동기화 워드(SW)를 포함하는(도 5에 도시되는) 동기화 정보(SI) 섹션; 대부분의 메타데이터를 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축된 오디오 콘텐트를 포함하는(및 메타데이터를 또한 포함할 수 있는) 하나와 여섯 개 사이의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후 남겨진 임의의 사용되지 않은 비트들을 포함하는 여분의 비트 세그먼트들(W)(또한 "스킵 필드들"로서 알려짐)(단지 하나의 여분의 비트 세그먼트가 도시되었지만, 상이한 여분의 비트 또는 스킵 필드 세그먼트가 일반적으로 각각의 오디오 블록에 후속할 것이다); 더 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 에러 정정 워드(CRC)를 포함한다.

AC-3(또는 E-AC-3) 비트스트림에서, 리스닝 환경에 전달된 프로그램의 사운드의 변경시 사용을 위해 특별히 의도되는 수 개의 오디오 메타데이터 파라미터들이 존재한다. 메타데이터 파라미터들 중 하나는 BSI 세그먼트에 포함되는 DIALNORM 파라미터이다.

도 6에 도시된 바와 같이, AC-3 프레임의 BSI 세그먼트는 프로그램에 대한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM")를 포함한다. 동일한 AC-3 프레임에 전달된 제 2 오디오 프로그램에 대한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM2")는, 이중-모노 또는 "1+1" 채널 구성이 사용중인 것을 나타내는, AC-3 프레임의 오디오 코딩 모드("acmod")가 "0"인 경우에 포함된다.

BSI 세그먼트는 또한 "addbsie" 비트에 후속하는 추가의 비트 스트림 정보의 존재(또는 부재)를 나타내는 플래그("addbsie"), "addbsil" 값에 후속하는 임의의 추가의 비트 스트림 정보의 길이를 나타내는 파라미터("addbsil"), 및 "addbsil" 값에 후속하는 64 비트까지의 추가의 비트 스트림 정보("addbsi")를 포함한다.

BSI 세그먼트는 도 6에 구체적으로 도시되지 않은 다른 메타데이터 값들을 포함한다.

일 종류의 실시예들에 따라, 인코딩된 오디오 비트스트림은 오디오 콘텐트의 다수의 서브스트림들을 나타낸다. 몇몇 경우들에서, 서브스트림들은 다채널 프로그램의 오디오 콘텐트를 나타내고, 서브스트림들의 각각은 프로그램의 채널들 중 하나 이상을 나타낸다. 다른 경우들에서, 인코딩된 오디오 비트스트림의 다수의 서브스트림들은 수 개의 오디오 프로그램들, 일반적으로 "메인" 오디오 프로그램(다채널 프로그램일 수 있는) 및 적어도 하나의 다른 오디오 프로그램(예를 들면, 메인 오디오 프로그램상의 코멘터리인 프로그램)의 오디오 콘텐트를 나타낸다.

적어도 하나의 오디오 프로그램을 나타내는 인코딩된 오디오 비트스트림은 반드시 오디오 콘텐트의 적어도 하나의 "독립적인" 서브스트림을 포함한다. 독립적인 서브스트림은 오디오 프로그램의 적어도 하나의 채널을 나타낸다(예를 들면, 독립적인 서브스트림은 종래의 5.1 채널 오디오 프로그램의 5 개의 전 범위 채널들을 나타낼 수 있다). 여기서, 이러한 오디오 프로그램은 "메인" 프로그램이라고 불린다.

몇몇 종류들의 실시예들에서, 인코딩된 오디오 비트스트림은 두 개 이상의 오디오 프로그램들("메인" 프로그램 및 적어도 하나의 다른 오디오 프로그램)을 나타낸다. 이러한 경우들에서, 비트스트림은 두 개 이상의 독립적인 서브스트림들을 포함한다: 제 1 독립적인 서브스트림은 메인 프로그램의 적어도 하나의 채널을 나타내고; 적어도 하나의 다른 독립적인 서브스트림은 또 다른 오디오 프로그램(메인 프로그램과 별개인 프로그램)의 적어도 하나의 채널을 나타낸다. 각각의 독립적인 비트스트림은 독립적으로 디코딩될 수 있고, 디코더는 인코딩된 비트스트림의 독립적인 서브스트림들의 단지 하나의 서브세트(모두는 아님)를 디코딩하도록 동작할 수 있다.

두 개의 독립적인 서브스트림들을 나타내는 인코딩된 오디오 비트스트림의 하나의 일반적인 예에서, 독립적인 서브스트림들 중 하나는 다채널 메인 프로그램의 표준 포맷 스피커 채널들을 나타내고(예를 들면, 5.1 채널 메인 프로그램의 왼쪽, 오른쪽, 중앙, 왼쪽 서라운드, 오른쪽 서라운드 전범위 스피커 채널들), 다른 독립적인 서브스트림은 메인 프로그램상의 모노포닉 오디오 코멘터리(예를 들면, 영화에서 감독의 코멘터리, 여기서 메인 프로그램은 영화의 사운드트랙)를 나타낸다. 다수의 독립적인 서브스트림들을 나타내는 인코딩된 오디오 비트스트림의 또 다른 예에서, 독립적인 서브스트림들 중 하나는 제 1 언어의 다이얼로그를 포함하는 다채널 메인 프로그램(예를 들면, 5.1 채널 메인 프로그램)의 표준 포맷 스피커 채널들을 나타내고(예를 들면, 메인 프로그램의 스피커 채널들 중 하나는 다이얼로그를 나타낼 수 있다), 각각의 다른 독립적인 서브스트림은 다이얼로그의 모노포닉 번역(다른 언어로)을 나타낸다.

선택적으로, 메인 프로그램을 나타내는 인코딩된 오디오 비트스트림(및 선택적으로 또한 적어도 하나의 다른 오디오 프로그램)은 오디오 콘텐트의 적어도 하나의 "종속적인" 서브스트림을 포함한다. 각각의 종속적인 서브스트림은 비트스트림의 하나의 독립적인 서브스트림과 연관되고, 그의 콘텐트가 연관된 독립적인 서브스트림에 의해 나타내어지는 프로그램(예를 들면, 메인 프로그램)의 적어도 하나의 추가의 채널을 나타낸다(즉, 종속적인 서브스트림은 연관된 독립적인 서브스트림에 의해 나타내어지지 않는 프로그램의 적어도 하나의 채널을 나타내고, 연관된 독립적인 서브스트림은 프로그램의 적어도 하나의 채널을 나타낸다).

독립적인 서브스트림(메인 프로그램의 적어도 하나의 채널을 나타내는)을 포함하는 인코딩된 비트스트림의 일 예에서, 비트스트림은 메인 프로그램의 하나 이상의 추가의 스피커 채널들을 나타내는 종속적인 서브스트림(독립적인 비트스트림과 연관된)을 또한 포함한다. 이러한 추가의 스피커 채널들은 독립적인 서브스트림으로 나타낸 메인 프로그램 채널(들)에 추가된다. 예를 들면, 독립적인 서브스트림이 7.1 채널 메인 프로그램의 표준 포맷 왼쪽, 오른쪽, 중앙, 왼쪽 서라운드, 오른쪽 서라운드 전범위 스피커 채널들을 나타내는 경우, 종속적인 서브스트림은 메인 프로그램의 두 개의 다른 전 범위 스피커 채널들을 나타낼 수 있다.

E-AC-3 표준에 따라, E-AC-3 비트스트림은 적어도 하나의 독립적인 서브스트림(예를 들면, 단일의 AC-3 비트스트림)을 나타내어야 하고, 여덟 개까지의 독립적인 서브스트림들을 나타낼 수 있다. E-AC-3 비트스트림의 각각의 독립적인 서브스트림은 여덟 개까지의 종속적인 서브스트림들과 연관될 수 있다.

E-AC-3 비트스트림은 비트스트림의 서브스트림 구조를 나타내는 메타데이터를 포함한다. 예를 들면, E-AC-3 비트스트림의 비트스트림 정보(BSI) 섹션에서 "chanmap" 필드는 비트스트림의 종속적인 서브스트림으로 나타낸 프로그램 채널들에 대한 채널 맵을 결정한다. 그러나, 서브스트림 구조를 나타내는 메타데이터는, 디코딩 후(예를 들면, 후처리-프로세서에 의해) 또는 디코딩 전에(예를 들면, 메타데이터를 인식하도록 구성된 프로세서에 의해) 액세스 및 사용을 위해서가 아닌, E-AC-3 디코더에 의해서만 액세스 및 사용(인코딩된 E-AC-3 비트스트림의 디코딩 동안)을 위해 편리한 이러한 포맷으로 E-AC-3 비트스트림에 관습적으로 포함된다. 또한, 디코더가 관습적으로 포함된 메타데이터를 사용하여 종래의 E-AC-3 인코딩된 비트스트림의 서브스트림들을 부정확하게 식별할 수 있는 위험이 존재하고, 본 발명이 비트스트림의 디코딩 동안 서브스트림 식별에서 에러들의 편리하고 효율적인 검출 및 정정을 허용하기 위해 이러한 포맷에서 인코딩된 비트스트림(예를 들면, 인코딩된 E-AC-3 비트스트림)에서 서브스트림 구조 메타데이터를 포함하는 방법까지는 알려지지 않았다.

E-AC-3 비트스트림은 오디오 프로그램의 오디오 콘텐트에 관한 메타데이터를 또한 포함할 수 있다. 예를 들면, 오디오 프로그램을 나타내는 E-AC-3 비트스트림은 스펙트럼 확장 처리(및 채널 결합 인코딩)가 프로그램의 콘텐트를 인코딩하기 위해 채용되는 최소 및 최대 횟수들을 나타내는 메타데이터를 포함한다. 그러나, 이러한 메타데이터는, 디코딩 후(예를 들면, 후처리-프로세서에 의해) 또는 디코딩 전(예를 들면, 메타데이터를 인식하도록 구성된 프로세서에 의해) 액세스 및 사용을 위해서가 아닌, E-AC-3 디코더에 의해서만 (인코딩된 E-AC-3 비트스트림의 디코딩 동안) 액세스 및 사용되기에 편리한 이러한 포맷으로 E-AC-3 비트스트림에 일반적으로 포함된다. 또한, 이러한 메타데이터는 비트스트림의 디코딩 동안 이러한 메타데이터의 식별의 편리하고 효율적인 에러 검출 및 에러 보정을 허용하는 포맷으로 E-AC-3 비트스트림에 포함되지 않는다.

본 발명의 일반적인 실시예들에 따라, PIM 및/또는 SSM(및 선택적으로 또한 다른 메타데이터, 예를 들면, 라우드니스 처리 상태 메타데이터, 즉, "LPSM")은 다른 세그먼트들에서 오디오 데이터에 또한 포함하는 오디오 비트스트림의 메타데이터 세그먼트들의 하나 이상의 예약된 필드들(또는 슬롯들)에 임베딩된다. 일반적으로, 비트스트림의 각각의 프레임의 적어도 하나의 세그먼트는 PIM 또는 SSM을 포함하고, 프레임의 적어도 하나의 다른 세그먼트는 대응하는 오디오 데이터(즉, 서브스트림 구조가 SSM으로 나타내고 및/또는 PIM에 의해 나타낸 적어도 하나의 특징 또는 속성을 갖는 오디오 데이터)를 포함한다.

일 종류의 실시예들에서, 각각의 메타데이터 세그먼트는 하나 이상의 메타데이터 페이로드들을 포함할 수 있는 데이터 구조(때때로 여기서 컨테이너라고 불림)이다. 각각의 페이로드는 페이로드에 존재하는 메타데이터의 형태의 분명한 표시를 제공하기 위해 특정한 페이로드 식별자(및 페이로드 구성 데이터)를 포함하는 헤더를 포함한다. 컨테이너 내 페이로드들의 순서는 규정되지 않아서, 페이로드들은 임의의 순서로 저장될 수 있고, 파서는 관련된 페이로드들을 추출하고 관련이 없거나 또는 지원되지 않는 페이로드들을 무시하기 위해 전체 컨테이너를 분석할 수 있어야만 한다. 도 8(이하에 기술될)은 이러한 컨테이너의 구조 및 컨테이너 내 페이로드들을 도시한다.

오디오 데이터 처리 연쇄에서 메타데이터(예를 들면, SSM 및/또는 PIM 및/또는 LPSM)를 전달하는 것은 두 개 이상의 오디오 처리 유닛들이 전체 처리 연쇄(또는 콘텐트 수명 주기)를 통해 서로 협력하여 작동할 필요가 있을 때 특히 유용하다. 오디오 비트스트림에서 메타데이터를 포함하지 않고, 품질, 레벨, 및 공간 열화들과 같은 심각한 매체 처리 문제들은, 예를 들면, 두 개 이상의 오디오 코덱들이 연쇄에서 이용되고 단일 종단 볼륨 레벨링이 미디어 소비 디바이스에 대한 비트스트림 경로(또는 비트스트림의 오디오 콘텐트의 렌더링 포인트) 동안 한 번 이상 적용될 때 발생할 수 있다.

본 발명의 몇몇 실시예들에 따라 오디오 비트스트림에 임베딩된 라우드니스 처리 상태 메타데이터(LPSM)는, 예를 들면, 라우드니스 규제 엔티티들이 특정한 프로그램의 라우드니스가 이미 특정 범위 내에 있는지 및 대응하는 오디오 데이터 그 자체가 변경되었다는 것(그에 의해 적용가능한 규제들과 호환성을 보장)을 검증하게 하기 위해, 인증 및 확인될 수 있다. 라우드니스 처리 상태 메타데이터를 포함하는 데이터 블록에 포함된 라우드니스 값은 다시 라우드니스를 계산하는 대신 이를 검증하기 위해 판독될 수 있다. LPSM에 응답하여, 규제 에이전시는 대응하는 오디오 콘텐트가 오디오 콘텐트의 라우드니스를 계산할 필요 없이 라우드니스 제정법 및/또는 규제 요구 사항들(예를 들면, "CALM" 조항으로 또한 알려진 상업 광고 라우드니스 완화 조항하에서 널리 알려진 규제들)을 따른다고(LPSM으로 나타내는) 결정할 수 있다.

도 1은 시스템의 하나 이상의 요소들이 본 발명의 일 실시예에 따라 구성될 수 있는 일 예시적인 오디오 처리 연쇄(오디오 데이터 처리 시스템)의 블록도이다. 시스템은 도시된 바와 같이 함께 결합된 다음의 요소들을 포함한다: 선처리 유닛, 인코더, 신호 분석 및 메타데이터 정정 유닛, 트랜스코더, 디코더, 및 선처리 유닛. 도시된 시스템의 변형들에서, 요소들 중 하나 이상이 생략되거나 추가의 오디오 데이터 처리 유닛들이 포함된다.

몇몇 구현들에서, 도 1의 선처리 유닛은 오디오 콘텐트를 입력으로서 포함하는 PCM(시간-도메인) 샘플들을 입수하고, 처리된 PCM 샘플들을 출력하도록 구성된다. 인코더는 PCM 샘플들을 입력으로서 입수하고 오디오 콘텐트를 나타내는 인코딩된(예를 들면, 압축된) 오디오 비트스트림을 출력하도록 구성될 수 있다. 오디오 콘텐트를 나타내는 비트스트림의 데이터는 때때로 여기서 "오디오 데이터"라고 불린다. 인코더가 본 발명의 일반적인 실시예에 따라 구성되는 경우, 인코더로부터 출력된 오디오 비트스트림은 PIM 및/또는 SSM(및 선택적으로 또한 라우드니스 처리 상태 메타데이터 및/또는 다른 메타데이터) 또한 오디오 데이터를 포함한다.

도 1의 신호 분석 및 메타데이터 정정 유닛은, 신호 분석을 수행함으로써(예를 들면, 인코딩된 오디오 비트스트림에서 프로그램 경계 메타데이터를 사용하여), 하나 이상의 인코딩된 오디오 비트스트림들을 입력으로서 입수하고 각각의 인코딩된 오디오 비트스트림에서 메타데이터(예를 들면, 처리 상태 메타데이터)가 정확한지의 여부를 결정(예를 들면, 확인)할 수 있다. 신호 분석 및 메타데이터 정정 유닛이 포함된 메타데이터가 유효하지 않다는 것을 발견한 경우, 이는 일반적으로 부정확한 값(들)을 신호 분석으로부터 획득된 정확한 값(들)으로 교체한다. 따라서, 신호 분석 및 메타데이터 정정 유닛으로부터 출력된 각각의 인코딩된 오디오 비트스트림은 인코딩된 오디오 데이터뿐만 아니라 정정된(또는 정정되지 않은) 처리 상태 메타데이터를 포함할 수 있다.

도 1의 트랜스코더는 인코딩된 오디오 비트스트림들을 입력으로서 입수하고 응답시(예를 들면, 상이한 인코딩 포맷으로 입력 스트림을 디코딩하고 디코딩된 스트림을 재인코딩함으로써) 변경된(예를 들면, 상이하게 인코딩된) 오디오 비트스트림들을 출력할 수 있다. 트랜스코더가 본 발명의 일반적인 실시예에 따라 구성되는 경우, 트랜스코더로부터 출력된 오디오 비트스트림은 인코딩된 오디오 데이터뿐만 아니라 SSM 및/또는 PIM(및 일반적으로 또한 다른 메타데이터)을 포함한다. 메타데이터는 입력 비트스트림에 포함될 수 있다.

도 1의 디코더는 인코딩된(예를 들면, 압축된) 오디오 비트스트림들을 입력으로서 입수하고, 디코딩된 PCM 오디오 샘플들의 스트림들을 (응답시) 출력할 수 있다. 디코더가 본 발명의 일반적인 실시예에 따라 구성되는 경우, 일반적인 동작에서 디코더의 출력은 다음 중 어느 하나이거나 또는 그를 포함한다:

오디오 샘플들의 스트림, 및 입력된 인코딩된 비트스트림으로부터 추출된 SSM 및/또는 PIM(및 일반적으로 또한 다른 메타데이터)의 적어도 하나의 대응하는 스트림; 또는

오디오 샘플들의 스트림, 및 입력된 인코딩된 비트스트림으로부터 추출된 SSM 및/또는 PIM(및 일반적으로 또한 다른 메타데이터, 예를 들면, LPSM)으로부터 결정된 제어 비트들의 대응하는 스트림; 또는

메타데이터의 대응하는 스트림 또는 메타데이터로부터 결정된 제어 비트들이 없는 오디오 샘플들의 스트림. 이러한 마지막 경우에서, 디코더는, 그가 추출된 메타데이터 또는 그로부터 결정된 제어 비트들을 출력하지 않더라도, 입력된 인코딩된 비트스트림으로부터 메타데이터를 추출하고 추출된 메타데이터에 적어도 하나의 동작(예를 들면, 확인)을 수행할 수 있다.

본 발명의 일반적인 실시예에 따라, 도 1의 후처리 유닛을 구성함으로써, 후처리 유닛은 디코딩된 PCM 오디오 샘플들의 스트림을 입수하고, 샘플들과 함께 수신된 SSM 및/또는 PIM(및 일반적으로 또한 다른 메타데이터, 예를 들면, LPSM), 또는 샘플들과 함께 수신된 메타데이터로부터 디코더에 의해 결정된 제어 비트들을 사용하여 그에 (예를 들면, 오디오 콘텐트의 체적 레벨링) 후처리를 수행하도록 구성된다. 후처리 유닛은 일반적으로 하나 이상의 스피커들에 의한 재생을 위해 후처리된 오디오 콘텐트를 렌더링하도록 또한 구성된다.

본 발명의 일반적인 실시예들은 오디오 처리 유닛들(예를 들면, 인코더들, 디코더들, 트랜스코더들, 및 선처리 및 후처리 유닛들)이 오디오 처리 유닛들에 의해 각각 수신된 메타데이터로 나타내어지는 미디어 데이터의 동시에 발생하는 상태에 따라 오디오 데이터에 적용될 그들의 각각의 처리를 적응시키는 강화된 오디오 처리 연쇄를 제공한다.

도 1 시스템의 임의의 오디오 처리 유닛(예를 들면, 도 1의 인코더 또는 트랜스코더)에 입력된 오디오 데이터는 오디오 데이터(예를 들면, 인코딩된 오디오 데이터)뿐만 아니라 SSM 및/또는 PIM(및 선택적으로 또한 다른 메타데이터)을 포함할 수 있다. 이러한 메타데이터는 본 발명의 일 실시예에 따라 도 1 시스템의 다른 요소(또는 도 1에 도시되지 않은 또 다른 소스)에 의해 입력 오디오에 포함될 수 있다. 입력 오디오(메타데이터를 갖는)를 수신하는 처리 유닛은 메타데이터에 적어도 하나의 동작(예를 들면, 확인) 또는 메타데이터에 응답하여(예를 들면, 입력 오디오의 적응식 처리) 수행하고, 일반적으로 또한 그의 출력 오디오에 메타데이터, 메타데이터의 처리된 버전, 또는 메타데이터로부터 결정된 제어 비트들을 포함하도록 구성될 수 있다.

본 발명의 오디오 처리 유닛(또는 오디오 프로세서)의 일반적인 실시예는 오디오 데이터에 대응하는 메타데이터로 나타낸 오디오 데이터의 상태에 기초하여 오디오 데이터의 적응식 처리를 수행하도록 구성된다. 몇몇 실시예들에서, 적응식 처리는 라우드니스 처리이지만(또는 그를 포함하지만)(메타데이터가 라우드니스 처리, 또는 그와 유사한 처리가 오디오 데이터에 미리 수행되지 않았다는 것을 나타내는 경우), 라우드니스 처리가 아니다(및 그를 포함하지 않는다)(이러한 라우드니스 처리, 또는 그와 유사한 처리가 오디오 데이터에 미리 수행되었다는 것을 나타내는 경우). 몇몇 실시예들에서, 적응식 처리는 오디오 처리 유닛이 메타데이터로 나타낸 오디오 데이터의 상태에 기초하여 오디오 데이터의 다른 적응식 처리를 수행하는 것을 보장하기 위해 메타데이터 확인(예를 들면, 메타데이터 확인 서브-유닛에서 수행된)이거나 또는 그를 포함한다. 몇몇 실시예들에서, 확인은 오디오 데이터와 연관된(예를 들면, 그와 함께 비트스트림에 포함된) 메타데이터의 신뢰성을 결정한다. 예를 들면, 메타데이터가 신뢰할 수 있다고 확인되는 경우, 이전에 수행된 오디오 처리의 형태로부터의 결과들은 재사용될 수 있고 동일한 형태의 오디오 처리의 새로운 수행이 회피될 수 있다. 다른 한편으로, 메타데이터가 조작되었다는 것이 발견된 경우(또는 그렇지 않으면 신뢰할 수 없는 경우), 알려진 대로 이전에 수행된 미디어 처리의 형태(신뢰할 수 없는 메타데이터로 나타내어진)가 오디오 처리 유닛에 의해 반복될 수 있고, 및/또는 다른 처리가 오디오 처리 유닛에 의해 메타데이터 및/또는 오디오 데이터에 수행될 수 있다. 오디오 처리 유닛은 또한, 유닛이 메타데이터가 유효하다고 결정한 경우(예를 들면, 추출된 암호값 및 기준 암호값의 매칭에 기초하여), 메타데이터(예를 들면, 미디어 비트스트림에 존재하는)가 유효한 강화된 미디어 처리 연쇄에서 다른 오디오 처리 유닛들에 다운스트림으로 시그널링하도록 구성될 수 있다.

도 2는 본 발명의 오디오 처리 유닛의 일 실시예인 인코더(100)의 블록도이다. 인코더(100)의 임의의 구성 요소들 또는 요소들은 하나 이상의 프로세스들 및/또는 하나 이상의 회로들(예를 들면, ASICs, FPGAs, 또는 다른 집적 회로들)로서, 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합에서 구현될 수 있다. 인코더(100)는 도시된 바와 같이 연결된 프레임 버퍼(110), 파서(111), 디코더(101), 오디오 상태 확인기(102), 라우드니스 처리 상태(103), 오디오 스트림 선택 스테이지(104), 인코더(105), 스터퍼/포맷터 스테이지(107), 메타데이터 발생 스테이지(106), 다이얼로그 라우드니스 측정 서브시스템(108), 및 프레임 버퍼(109)를 포함한다. 일반적으로 또한, 인코더(100)는 다른 처리 요소들(도시되지 않음)을 포함한다.

(트랜스코더인) 인코더(100)는 입력 오디오 비트스트림(예를 들면, AC-3 비트스트림, E-AC-3 비트스트림, 또는 돌비 E 비트스트림 중 하나일 수 있는)을 입력 비트스트림에 포함된 라우드니스 처리 상태 메타데이터를 사용하여 적응식 및 자동화된 라우드니스 처리를 수행함으로써 포함하는 인코딩된 출력 오디오 비트스트림(예를 들면, AC-3 비트스트림, E-AC-3 비트스트림, 또는 돌비 E 비트스트림의 또 다른 하나 일 수 있는)으로 변환하도록 구성된다. 예를 들면, 인코더(100)는 입력된 돌비 E 비트스트림(제품 및 방송 설비들에서 일반적으로 사용되지만, 그에 방송된 오디오 프로그램들을 수신하는 소비자 디바이스들에서는 사용되지 않는 포맷)을 AC-3 또는 E-AC-3 포맷의 인코딩된 출력 오디오 비트스트림(소비자 디바이스들에 방송하기에 적합한)으로 변환하도록 구성될 수 있다.

도 2의 시스템은 또한 인코딩된 오디오 전달 서브시스템(150)(인코더(100)로부터 출력된 인코딩된 비트스트림들을 저장 및/또는 전달하는) 및 디코더(152)를 포함한다. 인코더(100)로부터 출력된 인코딩된 오디오 비트스트림은 서브시스템(150)에 의해 저장되거나(예를 들면, DVD 또는 블루 레이 디스크의 형태의), 또는 서브시스템(150)에 의해 송신될 수 있거나(예를 들면, 송신 링크 또는 네트워크를 구현할 수 있는), 또는 서브시스템(150)에 의해 저장 및 송신이 모두 될 수 있다. 디코더(152)는 그가 비트스트림의 각각의 프레임으로부터 메타데이터(PIM 및/또는 SSM, 및 선택적으로 또한 라우드니스 처리 상태 메타데이터 및/또는 다른 메타데이터)를 추출하고(및 선택적으로 비트스트림으로부터 프로그램 경계 메타데이터를 또한 추출하고), 디코딩된 오디오 데이터를 생성함으로써 포함하는 서브시스템(150)을 통해 수신하는 인코딩된 오디오 비트스트림(인코더(100)에 의해 생성된)을 디코딩하도록 구성된다. 일반적으로, 디코더(152)는 PIM 및/또는 SSM, 및/또는 LPSM(및 선택적으로 또한 프로그램 경계 메타데이터)을 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행하고, 및/또는 디코딩된 오디오 데이터 및 메타데이터를 메타데이터를 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행하도록 구성된 후처리-프로세서로 전송하도록 구성된다. 일반적으로, 디코더(152)는 서브시스템(150)으로부터 수신된 인코딩된 오디오 비트스트림을 (예를 들면, 비일시적 방식으로) 저장하는 버퍼를 포함한다.

인코더(100) 및 디코더(152)의 다수의 구현들은 본 발명의 방법의 상이한 실시예들을 수행하도록 구성된다.

프레임 버퍼(110)는 인코딩된 입력 오디오 비트스트림을 수신하도록 결합된 버퍼 메모리이다. 동작시, 버퍼(110)는 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장하고(예를 들면, 비일시적인 방식으로), 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 버퍼(110)로부터 파서(111)로 어서트된다.

파서(111)는 이러한 메타데이터가 포함된 인코딩된 입력 오디오의 각각의 프레임으로부터 PIM 및/또는 SSM, 및 라우드니스 처리 상태 메타데이터(LPSM), 및 선택적으로 또한 프로그램 경계 메타데이터(및/또는 다른 메타데이터)를 추출하고, 적어도 LPSM(및 선택적으로 또한 프로그램 경계 메타데이터 및/또는 다른 메타데이터)을 오디오 상태 확인기(102), 라우드니스 처리 스테이지(103), 스테이지(106) 및 서브시스템(108)에 어서트하고, 인코딩된 입력 오디오로부터 오디오 데이터를 추출하고, 오디오 데이터를 디코더(101)에 어서트하도록 결합 및 구성된다. 인코더(100)의 디코더(101)는 오디오 데이터를 디코딩하여 디코딩된 오디오 데이터를 생성하고, 디코딩된 오디오 데이터를 라우드니스 처리 스테이지(103), 오디오 스트림 선택 스테이지(104), 서브시스템(108), 및 일반적으로 또한 상태 확인기(102)로 어서트하도록 구성된다.

상태 확인기(102)는 그에 어서트된 LPSM(및 선택적으로 다른 메타데이터)을 인증 및 확인하도록 구성된다. 몇몇 실시예들에서, LPSM은 (예를 들면, 본 발명의 일 실시예에 따라) 입력 비트스트림에 포함된 데이터 블록이다(또는 그에 포함된다). 블록은 LPSM(및 선택적으로 또한 다른 메타데이터)을 처리하기 위한 암호 해시(해시-기반 메시지 인증 코드, 즉, "HMAC") 및/또는 기초적인 오디오 데이터(디코더(101)로부터 확인기(102)로 제공된)를 포함할 수 있다. 데이터 블록은 이들 실시예들에서 디지털로 서명될 수 있어서, 다운스트림 오디오 처리 유닛은 처리 상태 메타데이터를 비교적 쉽게 인증 및 확인할 수 있다.

예를 들면, HMAC는 다이제스트를 생성하기 위해 사용되고, 본 발명의 비트스트림에 포함된 보호값(들)은 다이제스트를 포함할 수 있다. 다이제스트는 AC-3 프레임에 대해 다음과 같이 생성될 수 있다:

1. AC-3 데이터 및 LPSM이 인코딩된 후, 프레임 데이터 바이트들(연결된 frame_data#1 및 frame_data#2) 및 LPSM 데이터 바이트들은 해싱 함수(HMAC)에 대한 입력으로서 사용된다. 보조 데이터 필드 내에 존재할 수 있는 다른 데이터는 다이제스트를 계산하기 위해 고려되지 않는다. 이러한 다른 데이터는 AC-3 데이터에 속하지 않고 LSPSM 데이터에 속하지 않는 바이트들일 수 있다. LPSM에 포함된 보호 비트들은 HMAC 다이제스트를 계산하기 위해 고려되지 않을 수 있다.

2. 다이제스트가 계산된 후, 이는 보호 피트들에 예약된 필드에 비트스트림으로 기록된다.

3. 완전한 AC-3 프레임의 생성의 마지막 단계는 CRC-검사의 계산이다. 이는 프레임의 맨끝에 기록되고 이 프레임에 속하는 모든 데이터가 LPSM 비트들을 포함하여 고려된다.

하나 이상의 비-HMAC 암호 방법들 중 임의의 하나를 포함하지만 그로 제한되지 않는 다른 암호 방법들은 메타데이터 및/또는 기본적인 오디오 데이터의 안전한 송신 및 수신을 보장하기 위해 LPSM 및/또는 다른 메타데이터(예를 들면, 확인기(102)에서)의 확인을 위해 사용될 수 있다. 예를 들면, 확인(이러한 암호 방법을 사용하는)은 비트스트림에 포함된 메타데이터 및 대응하는 오디오 데이터가 특정 처리(메타데이터로 나타내는)가 행해지고(및/또는 그로부터 기인되고) 이러한 특정 처리의 수행 후 변경되었는지의 여부를 결정하기 위해 본 발명의 오디오 비트스트림의 일 실시예를 수신하는 각각의 오디오 처리 유닛에서 수행될 수 있다.

상태 확인기(102)는 확인 동작의 결과들을 나타내기 위해 제어 데이터를 오디오 스트림 선택 스테이지(104), 메타데이터 생성기(106), 및 다이얼로그 라우드니스 측정 서브시스템(108)에 어서트한다. 제어 데이터에 응답하여, 스테이지(104)는 다음 중 하나를 선택할 수 있다(및 인코더(105)로 전달한다):

라우드니스 처리 스테이지(103)의 적응적으로 처리된 출력(예를 들면, LPSM이 디코더(101)로부터 출력된 오디오 데이터가 특정 형태의 라우드니스 처리를 겪지 않았다는 것을 나타내고, 확인기(102)로부터의 제어 비트들이 LPSM이 유효하다는 것을 나타낼 때);

디코더(101)로부터의 오디오 데이터 출력(예를 들면, LPSM이 디코더(101)로부터 출력된 오디오 데이터가 스테이지(103)에 의해 수행된 특정 형태의 라우드니스 처리를 이미 겪었고, 확인기(102)로부터의 제어 비트들이 LPSM이 유효하다는 것을 나타낼 때).

인코더(100)의 스테이지(103)는 디코더(101)에 의해 추출된 LPSM으로 나타낸 하나 이상의 오디오 데이터 특징들에 기초하여 디코더(101)로부터 출력된 디코딩된 오디오 데이터에 적응식 라우드니스 처리를 수행하도록 구성된다. 스테이지(103)는 적응식 변환 도메인 실시간 라우드니스 및 동적 범위 제어 프로세서일 수 있다. 스테이지(103)는 사용자 입력(예를 들면, 사용자 타깃 라우드니스/동적 범위 값들 또는 다이얼놈 값들), 또는 다른 메타데이터 입력(예를 들면, 제 3 당사자 데이터, 추적 정보, 식별자들, 사유 또는 표준 정보, 사용자 주석 정보, 사용자 선호 데이터, 등 중 하나 이상의 형태들) 및/또는 다른 입력(예를 들면, 핑거프린팅 프로세스로부터)을 수신하고, 디코더(101)로부터 출력된 디코딩된 오디오 데이터를 처리하기 위해 이러한 입력을 사용할 수 있다. 스테이지(103)는 (파서(111)에 의해 추출된 프로그램 경계 메타데이터로 나타낸) 단일 오디오 프로그램을 나타내는 디코딩된 오디오 데이터(디코더(101)로부터 출력된)에 적응식 라우드니스 처리를 수행할 수 있고, 파서(111)에 의해 추출된 프로그램 경계 메타데이터에 의해 표시된 상이한 오디오 프로그램을 나타내는 디코딩된 오디오 데이터(디코더(101)에 의해 출력된)를 수신하는 것에 응답하여 라우드니스 처리를 리셋할 수 있다.

다이얼로그 라우드니스 측정 서브시스템(108)은, 확인기(102)로부터의 제어 비트들이 LPSM이 무효인 것을 나타낼 때, 예를 들면, 디코더(101)에 의해 추출된 LPSM(및/또는 다른 메타데이터)을 사용하여 다이얼로그(또는 다른 스피치)를 나타내는 디코딩된 오디오(디코더(101)로부터)의 세그먼트들의 라우드니스를 결정하도록 동작할 수 있다. 확인기(102)로부터의 제어 비트들이 LPSM이 유효하다는 것을 나타낼 때, LPSM이 디코딩된 오디오(디코더(101)로부터)의 다이얼로그(또는 다른 스피치) 세그먼트들의 이전에 결정된 라우드니스를 나타낼 때, 다이얼로그 라우드니스 측정 서브시스템(108)의 동작은 디스에이블될 수 있다. 서브시스템(108)은 (파서(111)에 의해 추출된 프로그램 경계 메타데이터로 나타낸) 단일 오디오 프로그램을 나타내는 디코딩된 오디오 데이터에 라우드니스 측정을 수행할 수 있고, 이러한 프로그램 경계 메타데이터로 나타낸 상이한 오디오 프로그램을 나타낸 디코딩된 오디오 데이터를 수신하는 것에 응답하여 측정을 리셋할 수 있다.

유용한 툴들(예를 들면, 돌비 LM100 라우드니스 미터)은 편리하고 쉽게 오디오 콘텐트에서 다이얼로그의 레벨을 측정하기 위해 존재한다. 발명의 APU(예를 들면, 인코더(100)의 스테이지(108))의 몇몇 실시예들은 오디오 비트스트림(예를 들면, 인코더(100)의 디코더(101)로부터 스테이지(108)에 어서트된 디코딩된 AC-3 비트스트림)의 오디오 콘텐트의 평균 다이얼로그 라우드니스를 측정하기 위해 이러한 툴을 포함하도록(또는 그의 기능들을 수행하도록) 구현된다.

스테이지(108)가 오디오 데이터의 진평균 다이얼로그 라우드니스를 측정하도록 구현되는 경우, 측정은 대부분 스피치를 포함하는 오디오 콘텐트의 세그먼트들을 분리하는 단계를 포함할 수 있다. 대부분 스피치인 오디오 세그먼트들은 이후 라우드니스 측정 알고리즘에 따라 처리된다. AC-3 비트스트림으로부터 디코딩된 오디오 데이터에 대하여, 이러한 알고리즘은 표준 K-가중 라우드니스 측정(국제 표준 ITU-R BS.1770에 따라)일 수 있다. 대안적으로, 다른 라우드니스 측정들이 사용될 수 있다(예를 들면, 이들은 라우드니스의 음향 심리학적 모델들에 기초한다).

스피치 세그먼트들의 분리는 오디오 데이터의 평균 다이얼로그 라우드니스를 측정하기 위해 필수적이지는 않다. 그러나, 측정의 정확성을 개선하고 일반적으로 청취자의 관점으로부터 더 만족스러운 결과들을 제공한다. 모든 오디오 콘텐트가 다이얼로그(스피치)를 포함하지는 않기 때문에, 전체 오디오 콘텐트의 라우드니스 측정은 스피치가 존재했던 오디오의 다이얼로그 레벨의 충분한 근사를 제공할 수 있다.

메타데이터 생성기(106)는 인코더(100)로부터 출력될 인코딩된 비트스트림에서 스테이지(107)에 의해 포함될 메타데이터를 생성한다(및/또는 스테이지(107)를 통과한다). 메타데이터 생성기(106)는 인코더(101) 및/또는 파서(111)에 의해 추출된 LPSM(및 선택적으로 또한 LIM 및/또는 PIM 및/또는 프로그램 경계 메타데이터 및/또는 다른 메타데이터)을 스테이지(107)로 전달하거나(예를 들면, 확인기(102)로부터의 제어 비트들이 LPSM 및/또는 다른 메타데이터가 유효하다는 것을 나타낼 때), 또는 새로운 LIM 및/또는 PIM 및/또는 LPSM 및/또는 프로그램 경계 메타데이터 및/또는 다른 메타데이터를 생성하고, 새로운 메타데이터를 스테이지(107)로 어서트하거나(예를 들면, 확인기(102)로부터의 제어 비트들이 디코더(101)에 의해 추출된 메타데이터가 무효하다는 것을 나타낼 때), 또는 이는 디코더(101) 및/또는 파서(111)에 의해 추출된 메타데이터 및 새롭게 생성된 메타데이터의 조합을 스테이지(107)에 어서트할 수 있다. 메타데이터 생성기(106)는 서브시스템(108)에 의해 생성된 라우드니스 데이터, 및 인코더(100)로부터 출력될 인코딩된 비트스트림에 포함하기 위해 스테이지(107)에 어서팅하는 LPSM에서 서브시스템(108)에 의해 수행된 라우드니스 처리의 형태를 나타내는 적어도 하나의 값을 포함할 수 있다.

메타데이터 생성기(106)는 인코딩된 비트스트림에 포함될 LPSM(및 선택적으로 또한 다른 메타데이터) 및/또는 인코딩된 비트스트림에 포함될 기본적인 오디오 데이터의 해독, 인증, 또는 확인 중 적어도 하나를 위해 유용한 보호 비트들(해시 기반 메시지 인증 코드, 즉, "HMAC"를 구성하거나 포함할 수 있는)을 생성할 수 있다. 메타데이터 생성기(106)는 인코딩된 비트스트림에 포함을 위해 이러한 보호 비트들을 스테이지(107)로 제공할 수 있다.

일반적인 동작에서, 다이얼로그 라우드니스 측정 서브시스템(108)은 그에 응답하여 라우드니스 값들(예를 들면, 게이트 및 언게이트 다이얼로그 라우드니스 값들) 및 동적 범위 값들을 생성하기 위해 디코더(101)로부터 출력된 오디오 데이터를 처리한다. 이들 값들에 응답하여, 메타데이터 생성기(106)는 인코더(100)로부터 출력될 인코딩된 비트스트림으로 (스터퍼/포맷터(107)에 의한) 포함을 위해 라우드니스 처리 상태 메타데이터(LPSM)를 생성할 수 있다.

추가로, 선택적으로, 또는 대안적으로, 인코더(100)의 서브시스템들(106 및/또는 108)은 스테이지(107)로부터 출력될 인코딩된 비트스트림에 포함을 위한 오디오 데이터의 적어도 하나의 특징을 나타내는 메타데이터를 생성하기 위해 오디오 데이터의 추가의 분석을 수행할 수 있다.

인코더(105)는 선택 스테이지(104)로부터 출력된 오디오 데이터를 인코딩하고(예를 들면, 그에 압축을 수행함으로써), 스테이지(107)로부터 출력될 인코딩된 비트스트림에 포함을 위해 인코딩된 오디오를 스테이지(107)로 어서트한다.

스테이지(107)는, 바람직하게 인코딩된 비트스트림이 본 발명의 바람직한 실시예에 의해 특정된 포맷을 갖도록, 스테이지(107)로부터 출력될 인코딩된 비트스트림을 생성하기 위해 인코더(105)로부터 인코딩된 오디오 및 생성기(106)로부터 메타데이터(PIM 및/또는 SSM을 포함하여)를 멀티플렉싱한다.

프레임 버퍼(109)는 스테이지(107)로부터 출력된 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장하는(예를 들면, 비일시적인 방식으로) 버퍼 메모리이고, 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 이후 인코더(100)로부터 전달 시스템(150)으로 출력될 때 버퍼(109)로부터 어서트된다.

메타데이터 생성기(106)에 의해 생성되고 스테이지(107)에 의해 인코딩된 비트스트림에 포함된 LPSM은 일반적으로 대응하는 오디오 데이터의 라우드니스 처리 상태(예를 들면, 어떤 형태(들)의 라우드니스 처리가 오디오 데이터에 수행되었는지) 및 대응하는 오디오 데이터의 라우드니스(예를 들면, 측정된 다이얼로그 라우드니스, 게이트 및/또는 언게이트 라우드니스, 및/또는 동적 범위)를 나타낸다.

여기서, 오디오 데이터에 수행된 라우드니스의 "게이팅" 및/또는 레벨 측정들은 임계치를 초과하는 계산된 값(들)이 마지막 측정에 포함되는 특정 레벨 또는 라우드니스 임계치를 말한다(예를 들면, 마지막 측정된 값들에서 -60 dBFS 아래의 단기 라우드니스 값들을 무시한다). 절대값에 대한 게이팅은 고정 레벨 또는 라우드니스를 말하고, 반면에 상대적인 값에 대한 게이팅은 현재 "언게이트" 측정 값에 종속되는 값을 말한다.

인코더(100)의 몇몇 구현들에서, 메모리(109)에서 버퍼링된(및 전달 시스템(150)에 출력된) 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 오디오 데이터 세그먼트들(예를 들면, 도 4에 도시된 프레임의 AB0-AB5 세그먼트들) 및 메타데이터 세그먼트들을 포함하고, 오디오 데이터 세그먼트들은 오디오 데이터를 나타내고, 메타데이터 세그먼트들의 적어도 일부의 각각은 PIM 및/또는 SSM(및 선택적으로 또한 다른 메타데이터)을 포함한다. 스테이지(107)는 메타데이터 세그먼트들(메타데이터를 포함하는)을 다음의 포맷의 비트 스트림으로 삽입한다. PIM 및/또는 SSM을 포함하는 메타데이터 세그먼트들의 각각은 비트스트림의 여분의 비트 세그먼트(예를 들면, 도 4 또는 도 7에 도시된 여분의 비트 세그먼트 "W"), 또는 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드, 또는 비트스트림의 프레임의 단부에서 보조 데이터 필드(예를 들면, 도 4 또는 도 7에 도시된 AUX 세그먼트)에 포함된다. 비트스트림의 프레임은 하나 또는 두 개의 메타데이터 세그먼트들을 포함할 수 있고, 그의 각각은 메타데이터를 포함하고, 프레임이 두 개의 메타데이터 세그먼트들을 포함하는 경우, 하나는 프레임의 addbsi 필드에 존재하고 다른 것은 프레임의 AUX 필드에 존재한다.

몇몇 실시예들에서, 스테이지(107)에 의해 삽입된 각각의 메타데이터 세그먼트(때때로 여기서 "컨테이너"라고 불림)는 메타데이터 세그먼트 헤더(및 선택적으로 또한 다른 필수 또는 "코어" 요소들)를 포함하는 포맷을 갖고, 하나 이상의 메타데이터 페이로드들은 메타데이터 세그먼트 헤더에 후속한다. SIM은, 존재하는 경우, 메타데이터 페이로드들 중 하나에 포함된다(페이로드 헤더로 식별되고, 일반적으로 제 1 형태의 포맷을 갖는). PIM은, 존재하는 경우, 메타데이터 페이로드들 중 또 다른 것에 포함된다(페이로드 헤더에 의해 식별되고 일반적으로 제 2 형태의 포맷을 갖는). 유사하게, 각각의 다른 형태의 메타데이터(존재하는 경우)는 메타데이터 페이로드들 중 또 다른 하나에 포함된다(페이로드 헤더에 의해 식별되고 일반적으로 메타데이터의 형태로 지정된 포맷을 갖는). 예시적인 포맷은 (예를 들면, 디코딩에 후속하는 후처리-프로세서에 의해, 또는 인코딩된 비트스트림상에 전체 디코딩을 수행하지 않고 메타데이터를 인식하도록 구성된 프로세서에 의해) 디코딩 동안과 다른 시간들에 SSM, PIM, 및 다른 메타데이터에 편리한 액세스를 허용하고, 비트스트림의 디코딩 동안 편리하고 효율적인 에러 검출 및 정정(예를 들면, 서브스트림 식별의)을 허용한다. 예를 들면, 예시적인 포맷에서 SSM에 대한 액세스 없이, 디코더는 프로그램과 연관된 서브스트림들의 정확한 숫자를 부정확하게 식별할 수 있다. 메타데이터 세그먼트에서 하나의 메타데이터 페이로드는 SSM을 포함할 수 있고, 메타데이터 세그먼트에서 또 다른 메타데이터 페이로드는 PIM을 포함할 수 있고, 선택적으로 또한 메타데이터 세그먼트에서 적어도 하나의 다른 메타데이터 페이로드는 다른 메타데이터(예를 들면, 라우드니스 처리 상태 메타데이터 즉 "LPSM")를 포함할 수 있다.

몇몇 실시예들에서, 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된 (스테이지(107)에 의해) 서브스트림 구조 메타데이터(SSM) 페이로드는 다음의 포맷으로 SSM을 포함한다:

일반적으로 적어도 하나의 식별값(예를 들면, SSM 포맷 버전을 나타내는 2-비트 값, 선택적으로 또한 길이, 기간, 카운트, 및 서브스트림 연관 값들)을 포함하는, 페이로드 헤더; 및

헤더 뒤에:

비트스트림으로 나타낸 프로그램의 독립적인 서브스트림들의 수를 나타내는 독립적인 서브스트림 메타데이터; 및

프로그램의 각각의 독립적인 서브스트림이 적어도 하나의 연관된 종속적인 서브스트림을 갖는지의 여부(즉, 적어도 하나의 종속적인 서브스트림은 상기 각각의 독립적인 서브스트림과 연관되는지의 여부), 및 연관되는 경우, 프로그램의 각각의 독립적인 서브스트림과 연관된 종속적인 서브스트림들의 수를 나타내는 종속적인 서브스트림 메타데이터.

인코딩된 비트스트림의 독립적인 서브스트림이 오디오 프로그램의 일 세트의 스피커 채널들(예를 들면, 5.1 스피커 채널 오디오 프로그램의 스피커 채널들)을 나타낼 수 있고, 하나 이상의 종속적인 서브스트림들의 각각(종속적인 서브스트림 메타데이터를 나타내는 독립적인 서브스트림과 연관된)은 프로그램의 객체 채널을 나타낼 수 있다는 것이 고려된다. 일반적으로, 그러나, 인코딩된 비트스트림의 독립적인 서브스트림은 프로그램의 일 세트의 스피커 채널들을 나타내고, 독립적인 서브스트림과 연관된 각각의 종속적인 서브스트림(종속적인 서브스트림 메타데이터로 나타낸)은 프로그램의 적어도 하나의 추가의 스피커 채널을 나타낸다.

몇몇 실시예들에서, 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된(스테이지(107)에 의해) 프로그램 정보 메타데이터(PIM) 페이로드는 다음의 포맷을 갖는다:

일반적으로 적어도 하나의 식별값(예를 들면, PIM 포맷 버전, 및 선택적으로 또한 길이, 기간, 카운트, 및 서브스트림 연관값들을 나타내는 값)을 포함하는, 페이로드 헤더; 및

헤더 뒤에, PIM은 다음 포맷으로:

(즉, 프로그램의 채널(들)이 오디오 정보를 포함하고, (만약에 있다면) 단지 사일런스(일반적으로 프레임의 지속 기간 동안)를 포함하는) 오디오 프로그램의 각각의 사일런트 채널 및 각각의 비-사일런트 채널을 나타내는 활성 채널 메타데이터. 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에서, 비트스트림의 프레임에서 활성 채널 메타데이터는 프로그램의 어느 채널(들)이 오디오 정보를 포함하고 어느 것이 사일런스를 포함하는지를 결정하기 위해 비트스트림의 추가의 메타데이터(예를 들면, 프레임의 오디오 코딩 모드("acmod") 필드, 및 존재하는 경우, 프레임 또는 연관된 종속적인 서브스트림 프레임(들)에서 chanmap 필드)와 함께 사용될 수 있다. AC-3 또는 E-AC-3 프레임의 "acmod" 필드는 프레임의 오디오 콘텐트에 의해 나타낸 오디오 프로그램의 전 범위 채널들의 수를 나타내거나(예를 들면, 프로그램이 1.0 채널 모노포닉 프로그램, 2.0 채널 스테레오 프로그램, 또는 L, R, C, Ls, Rs 전 범위 채널들을 포함하는 프로그램인지), 또는 프레임이 두 개의 독립적인 1.0 채널 모노포닉 프로그램들을 나타내는지를 나타낸다. E-AC-3 비트스트림의 "chanmap" 필드는 비트스트림으로 나타낸 종속적인 서브스트림에 대한 채널 맵을 나타낸다. 활성 채널 메타데이터는, 예를 들면, 디코더의 출력에 사일런스를 포함하는 채널들에 오디오를 추가하기 위해, 디코더의 다운스트림으로 (후처리-프로세서에서) 업믹싱하는 것을 수행하기에 유용할 수 있다;

프로그램이 다운믹싱되었는지의 여부, 및 프로그램이 다운믹싱된 경우, 적용된 다운믹싱의 형태를 나타내는 다운믹스 처리 상태 메타데이터. 다운믹스 처리 상태 메타데이터는, 예를 들면, 적용된 다운믹싱의 형태에 가장 근접하게 매칭하는 파라미터들을 사용하여 프로그램의 오디오 콘텐트를 업믹싱하기 위해, 디코더의 다운스트림으로 (후처리-프로세서에서) 업믹싱을 수행하기에 유용할 수 있다. 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에서, 다운믹스 처리 상태 메타데이터는 (만약에 있다면) 프로그램의 채널(들)에 적용된 다운믹싱의 형태를 결정하기 위해 프레임의 오디오 코딩 모드("acmod") 필드와 함께 사용될 수 있다;

인코딩 전 또는 인코딩 동안 (예를 들면, 더 작은 수의 채널들로부터) 프로그램이 업믹싱되었는지의 여부, 및 프로그램이 업믹싱된 경우, 적용된 업믹싱의 형태를 나타내는 업믹스 처리 상태 메타데이터. 업믹스 처리 상태 메타데이터는, 예를 들면, 프로그램에 적용된 업믹싱의 형태(예를 들면, 돌비 프로 로직, 또는 돌비 프로 로직 Ⅱ 무비 모드, 또는 돌비 프로 로직 Ⅱ 뮤직 모드, 또는 돌비 프로페셔널 업믹서)와 호환가능한 방식으로 프로그램의 오디오 콘텐트를 다운믹싱하기 위해, 디코더의 다운스트림으로 (후처리-프로세서에서) 다운믹싱하는 것을 수행하기에 유용할 수 있다. 인코딩된 비트스트림이 E-AC-3 비트스트림인 실시예들에서, 업믹스 처리 상태 메타데이터는 프로그램의 채널(들)에 적용된 업믹싱(만약 있다면)의 형태를 결정하기 위해 다른 메타데이터(예를 들면, 프레임의 "strmtyp" 필드의 값)와 함께 사용될 수 있다. (E-AC-3 비트스트림의 프레임의 BSI 세그먼트에서) "strmtyp" 필드의 값은 프레임의 오디오 콘텐트가 (프로그램을 결정하는) 독립적인 스트림 또는 (다수의 서브스트림들을 포함하거나 그와 연관되는 프로그램의) 독립적인 서브스트림에 속하고, 그래서 E-AC-3 비트스트림으로 나타낸 임의의 다른 서브스트림과 관계 없이 디코딩될 수 있는지의 여부, 또는 프레임의 오디오 콘텐트가 (다수의 서브스트림들을 포함하거나 또는 그와 연관되는 프로그램의) 종속적인 서브스트림에 속하고, 그래서 그것이 연관되는 독립적인 서브스트림과 함께 디코딩되어야 하는지의 여부를 나타낸다; 및

(생성된 인코딩된 비트스트림에 대해 오디오 콘텐트의 인코딩 전에) 선처리가 프레임의 오디오 콘텐트에 수행되었는지의 여부, 및 선처리가 수행된 경우, 수행된 선처리의 형태를 나타내는 선처리 상태 메타데이터.

몇몇 구현들에서, 선처리 상태 메타데이터는:

서라운드 감쇠가 적용되었는지의 여부(예를 들면, 오디오 프로그램의 서라운드 채널들이 인코딩 전에 3 dB로 감쇠되었는지의 여부),

90도 위상 시프트가 적용되었는지의 여부(예를 들면, 인코딩 전에 오디오 프로그램의 서라운드 채널들 Ls 및 Rs 채널들에 대해),

저역 통과 필터가 인코딩 전에 오디오 프로그램의 LFE 채널에 적용되었는지의 여부;

프로그램의 LFE 채널의 레벨이 프로덕션 동안 모니터링되었는지의 여부, 및 모니터링된 경우, LFE 채널의 모니터링된 레벨은 프로그램의 전 범위 오디오 채널들의 레벨에 관련되고,

동적 범위 압축은 프로그램의 디코딩된 오디오 콘텐트의 각각의 블록상에 (예를 들면, 디코더에서) 수행되는지의 여부, 및 수행되는 경우, 수행될 동적 범위 압축의 형태(및/또는 파라미터들)(예를 들면, 이러한 형태의 선처리 상태 메타데이터는 다음의 압축 프로파일 형태들 중 어느 것이 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어 값들을 생성하기 위해 인코더에 의해 가정되었는지를 나타낼 수 있다: 필름 표준, 필름 라이트, 뮤직 표준, 뮤직 라이트, 또는 스피치. 대안적으로, 이러한 형태의 선처리 상태 메타데이터는 큰 동적 범위 압축("compr" 압축)이 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어값들에 의해 결정된 방식으로 프로그램의 디코딩된 오디오 콘텐트의 각각의 프레임상에 수행된다는 것을 나타낼 수 있다),

스펙트럼 확장 처리 및/또는 채널 커플링 인코딩이 프로그램의 콘텐트의 지정된 주파수 범위들을 인코딩하도록 채용되는지의 여부 및 스펙트럼 확장 처리 및/또는 채널 커플링 인코딩이 채용되는 경우, 스펙트럼 확장 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들 및 채널 커플링 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들. 이러한 형태의 선처리 상태 메타데이터 정보는 디코더의 다운스트림으로 (후처리-프로세서에서) 균등화를 수행하기에 유용할 수 있다. 채널 커플링 및 스펙트럼 확장 정보 모두는 또한 트랜스코드 동작들 및 적용들 동안 품질을 최적화하기에 유용하다. 예를 들면, 인코더는 스펙트럼 확장 및 채널 커플링 정보와 같은 파라미터들의 상태에 기초하여 그의 거동(헤드폰 가상화, 업믹싱 등과 같은 선처리 단계들의 적응을 포함하여)을 최적화할 수 있다. 더욱이, 인코더는 인바운드(및 인증된) 메타데이터의 상태에 기초하여 매칭 및/또는 최적의 값들에 그의 커플링 및 스펙트럼 확장 파라미터들을 동적으로 적응할 수 있다, 및

다이얼로그 인핸스먼트 조정 범위 데이터가 인코딩된 비트스트림에 포함되는지의 여부, 및 포함되는 경우, 오디오 프로그램에서 비-다이얼로그 콘텐트의 레벨에 관하여 다이얼로그 콘텐트의 레벨을 조정하기 위해 (예를 들면, 디코더의 다운스트림으로 후처리-프로세서에서) 다이얼로그 인핸스먼트 처리의 수행 동안 이용가능한 조정의 범위를 나타낸다.

몇몇 구현들에서, 추가의 선처리 상태 메타데이터(예를 들면, 헤드폰-관련된 파라미터들을 나타내는 메타데이터)는 인코더(100)로부터 출력될 인코딩된 비트스트림의 PIM 페이로드에(스테이지(107)에 의해) 포함된다.

몇몇 실시예들에서, 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된 (스테이지(107)에 의해) LPSM 페이로드는 다음의 포맷의 LPSM을 포함한다:

헤더(일반적으로, 적어도 하나의 식별값, 예를 들면, 이하의 표 2에 나타낸 LPSM 포맷 버전, 길이, 기간, 카운트, 및 서브스트림 연관값들로 후속되는 LPSM 페이로드의 시작을 식별하는 동기 워드를 포함한다); 및

헤더 뒤에,

대응하는 오디오 데이터가 다이얼로그를 나타내거나 또는 다이얼로그를 나타내지 않는지(예를 들면, 대응하는 오디오 데이터의 어느 채널들이 다이얼로그를 나타내는지)의 여부를 나타내는 적어도 하나의 다이얼로그 식별값(예를 들면, 표 2의 파라미터 "다이얼로그 채널(들)");

대응하는 오디오 데이터가 라우드니스 규제들의 표시된 세트를 준수하는지의 여부를 나타내는 적어도 하나의 라우드니스 규제 준수값(예를 들면, 표 2의 파라미터 "라우드니스 규제 형태");

대응하는 오디오 데이터에 수행된 라우드니스 처리의 적어도 하나의 형태를 나타내는 적어도 하나의 라우드니스 처리값(예를 들면, 표 2의 파라미터들 "다이얼로그 게이팅된 라우드니스 정정 플래그", "라우드니스 정정 형태" 중 하나 이상); 및

대응하는 오디오 데이터의 적어도 하나의 라우드니스(예를 들면, 피크 또는 평균 라우드니스) 특징을 나타내는 적어도 하나의 라우드니스 값(예를 들면, 표 2의 파라미터들 "ITU 관련 게이팅된 라우드니스", "ITU 스피치 게이팅된 라우드니스", "ITU(EBU 3341) 단기 3s 라우드니스", 및 "트루 피크" 중 하나 이상).

몇몇 실시예들에서, PIM 및/또는 SSM(및 선택적으로 또한 다른 메타데이터)을 포함하는 각각의 메타데이터 세그먼트는 메타데이터 세그먼트 헤더(및 선택적으로 또한 추가의 코어 요소들)를 포함하고, 메타데이터 세그먼트 헤더(또는 메타데이터 세그먼트 헤더 및 다른 코어 요소들) 후, 다음의 포맷을 갖는 적어도 하나의 메타데이터 페이로드 세그먼트를 포함한다:

일반적으로 적어도 하나의 식별값(예를 들면, SSM 또는 PIM 포맷 버전, 길이, 기간, 카운트, 및 서브스트림 연관값들)을 포함하는 페이로드 헤더, 및

페이로드 헤더 뒤에, SSM 또는 PIM(또는 다른 형태의 메타데이터).

몇몇 구현들에서, 스테이지(107)에 의해 비트스트림의 프레임의 여분의 비트/스킵 필드 세그먼트(또는 "addbsi" 필드 또는 보조 데이터 필드)로 삽입된 메타데이터 세그먼트들(여기서 "메타데이터 컨테이너들" 또는 "컨테이너들"이라고 때때로 불림)의 각각은 다음의 포맷을 갖는다:

메타데이터 세그먼트 헤더(일반적으로, 식별값들, 예를 들면, 이하의 표 1에 나타낸 버전, 길이, 기간, 확장된 요소 카운트, 및 서브스트림 연관값들로 후속되는, 메타데이터 세그먼트의 시작을 식별하는 동기 워드를 포함하는); 및

메타데이터 세그먼트 헤더 뒤에, 메타데이터 세그먼트의 메타데이터 또는 대응하는 오디오 데이터 중 적어도 하나의 해독, 인증, 또는 확인 중 적어도 하나에 유용한 적어도 하나의 보호값(예를 들면, 표 1의 HMAC 다이제스트 및 오디오 핑거프린트 값들); 및

또한 메타데이터 세그먼트 헤더 뒤에, 각각의 후속하는 메타데이터 페이로드에서 메타데이터의 형태를 식별하고 각각의 이러한 페이로드의 구성의 적어도 일 양태(예를 들면, 크기)를 나타내는 메타데이터 페이로드 식별("ID") 및 페이로드 구성값들.

각각의 메타데이터 페이로드는 대응하는 페이로드 ID 및 페이로드 구성값들에 후속한다.

몇몇 실시예들에서, 프레임의 여분의 비트 세그먼트(또는 보조 데이터 필드 또는 "addbsi" 필드)에서 메타데이터 세그먼트들의 각각은 세 개의 레벨들의 구조를 갖는다:

여분의 비트(또는 보조 데이터 또는 addbsi) 필드가 메타데이터를 포함하는지의 여부를 나타내는 플래그, 어떤 형태(들)의 메타데이터가 존재하는지를 나타내는 적어도 하나의 ID값, 및 일반적으로 또한 (예를 들면, 각각의 형태의) 메타데이터의 얼마나 많은 비트들이 존재하는지(메타데이터가 존재하는 경우)를 나타내는 값을 포함하는 고 레벨 구조(예를 들면, 메타데이터 세그먼트 헤더). 존재할 수 있는 일 형태의 메타데이터는 PIM이고, 존재할 수 있는 다른 형태의 메타데이터는 SSM이고, 존재할 수 있는 다른 형태들의 메타데이터는 LPSM, 및/또는 프로그램 경계 메타데이터, 및/또는 미디어 검색 메타데이터이다;

메타데이터의 각각의 식별된 형태(예를 들면, 메타데이터의 각각의 식별된 형태에 대한 메타데이터 페이로드 헤더, 보호값들, 및 페이로드 ID 및 페이로드 구성값들)와 연관된 데이터를 포함하는, 중간 레벨 구조; 및

각각의 식별된 형태의 메타데이터에 대한 메타데이터 페이로드(예를 들면, PIM이 존재하는 것으로 식별되는 경우, PIM 값들의 시퀀스, 및/또는 다른 형태의 메타데이터가 존재하는 것으로 식별되는 경우, 다른 형태(예를 들면, SSM 또는 LPSM)의 메타데이터 값들)를 포함하는, 저 레벨 구조.

이러한 세 개의 레벨 구조에 데이터 값들이 네스트될 수 있다. 예를 들면, 고 레벨 및 중간 레벨 구조들로 식별된 각각의 페이로드(예를 들면, 각각의 PIM, 또는 SSM, 또는 다른 메타데이터 페이로드)에 대한 보호값(들)은 페이로드 후(및 따라서 페이로드의 메타데이터 페이로드 헤더 뒤에)에 포함될 수 있거나, 또는 고 레벨 및 중간 레벨 구조들로 식별된 모든 메타데이터 페이로드에 대한 보호값(들)은 메타데이터 세그먼트에서 최종 메타데이터 페이로드 후(및 따라서 메타데이터 세그먼트의 모든 페이로드들의 메타데이터 페이로드 헤더들 후)에 포함될 수 있다.

(도 8의 메타데이터 세그먼트 또는 "컨테이너"를 참조하여 기술되는) 일 예에서, 메타데이터 세그먼트 헤더는 네 개의 메타데이터 페이로드들을 식별한다. 도 8에 도시된 바와 같이, 메타데이터 세그먼트 헤더는 컨테이너 동기 워드("컨테이너 동기"로서 식별된) 및 버전 및 키 ID 값들을 포함한다. 메타데이터 세그먼트 헤더는 네 개의 메타데이터 페이로드들 및 보호 비트들로 후속된다. 제 1 페이로드(예를 들면, PIM 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들은 메타데이터 세그먼트 헤더에 후속하고, 제 1 페이로드 그 자체는 ID 및 구성값들에 후속하고, 제 2 페이로드(예를 들면, SSM 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들은 제 1 페이로드에 후속하고, 제 2 페이로드 그 자체는 이들 ID 및 구성값들에 후속하고, 제 3 페이로드(예를 들면, LPSM 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들은 제 2 페이로드에 후속하고, 제 3 페이로드 그 자체는 이들 ID 및 구성값들에 후속하고, 제 4 페이로드에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들은 제 3 페이로드에 후속하고, 제 4 페이로드 그 자체는 이들 ID 및 구성 값들에 후속하고, 페이로드들 모두 또는 일부에 대한(또는 고 레벨 및 중간 레벨 구조 및 페이로드들의 모두 또는 일부에 대하여) 보호값(들)(도 8에서 "보호 데이터"라고 식별된)은 마지막 페이로드에 후속한다.

몇몇 실시예들에서, 디코더(101)가 암호화 해시를 갖고 본 발명의 일 실시예에 따라 생성된 오디오 비트스트림을 수신하는 경우, 디코더는 비트스트림으로부터 결정된 데이터 블록으로부터 암호화 해시를 파싱 및 검색하도록 구성되고, 상기 블록은 메타데이터를 포함한다. 확인기(102)는 수신된 비트스트림 및/또는 연관된 메타데이터를 확인하기 위해 암호화 해시를 사용할 수 있다. 예를 들면, 확인기(102)가 기준 암호화 해시와 데이터 블록으로부터 검색된 암호화 해시 사이의 매칭에 기초하여 메타데이터가 유효한 것을 발견한 경우, 대응하는 오디오 데이터에 프로세서(103)의 동작을 디스에이블하고, 선택 스테이지(104)가 (변경되지 않은) 오디오 데이터를 통과시키게 한다. 추가로, 선택적으로, 또는 대안적으로, 다른 형태들의 암호화 기술들은 암호화 해시에 기초한 방법을 대신하여 사용될 수 있다.

도 2의 인코더(100)는 후처리/선처리 유닛이 (요소들(105, 106, 107)에서) 인코딩될 오디오 데이터에 일 형태의 라우드니스 처리를 수행했다는 것을 결정할 수 있고(LPSM, 및 선택적으로 또한, 디코더(101)에 의해 추출된, 프로그램 경계 메타데이터에 응답하여), 따라서 이전에 수행된 라우드니스 처리에서 사용된 및/또는 그로부터 도출된 특정 파라미터들을 포함하는 라우드니스 처리 상태 메타데이터를 (생성기(106)에서) 생성할 수 있다. 몇몇 구현들에서, 인코더(100)는, 인코더가 오디오 콘텐트에 수행된 처리의 형태들을 아는 한 오디오 콘텐트상의 처리 이력을 나타내는 메타데이터를 생성(및 그로부터 출력된 인코딩된 비트스트림에 포함)할 수 있다.

도 3은 본 발명의 오디오 처리 유닛, 및 그에 결합된 후처리-프로세서(300)의 일 실시예인 디코더(200)의 블록도이다. 후처리-프로세서(300)는 또한 발명의 오디오 처리 유닛의 일 실시예이다. 디코더(200) 및 후처리-프로세서(300)의 구성 요소들 또는 요소들 중 어느 것은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합에서 하나 이상의 프로세스들 및/또는 하나 이상의 회로들(예를 들면, ASICs, FPGAs, 또는 다른 집적 회로들)로서 구현될 수 있다. 디코더(200)는 도시된 바와 같이 접속된 프레임 버퍼(201), 파서(205), 오디오 디코더(202), 오디오 상태 확인 스테이지(확인기)(203), 및 제어 비트 생성 스테이지(204)를 포함한다. 일반적으로 또한, 디코더(200)는 다른 처리 요소들(도시되지 않음)을 포함한다.

프레임 버퍼(201)(버퍼 메모리)는 디코더(200)에 의해 수신된 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적인 방식으로) 저장한다. 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 버퍼(201)로부터 파서(205)로 어서트된다.

파서(205)는 인코딩된 입력 오디오의 각각의 프레임으로부터 PIM 및/또는 SSM(및 선택적으로 또한 다른 메타데이터, 예를 들면, LPSM)을 추출하고, 메타데이터의 적어도 일부(예를 들면, 존재하는 경우, LPSM 및 프로그램 경계 메타데이터가 추출되고, 및/또는 PIM 및/또는 SSM)를 오디오 상태 확인기(203) 및 스테이지(204)에 어서트하고, 추출된 메타데이터를 (예를 들면, 후처리-프로세서(300)로) 출력으로서 어서트하고, 인코딩된 입력 오디오로부터 오디오 데이터를 추출하고, 추출된 오디오 데이터를 디코더(202)로 어서트하도록 결합 및 구성된다.

디코더(200)에 입력된 인코딩된 오디오 비트스트림은 AC-3 비트스트림, E-AC-3 비트스트림, 또는 돌비 E 비트스트림 중 하나일 수 있다.

도 3의 시스템은 또한 후처리-프로세서(300)를 포함한다. 후처리-프로세서(300)는 프레임 버퍼(301) 및 버퍼(301)에 연결된 적어도 하나의 처리 요소를 포함하는 다른 처리 요소들(도시되지 않음)을 포함한다. 프레임 버퍼(301)는 디코더(200)로부터 후처리-프로세서(300)에 의해 수신된 디코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적 방식으로) 저장한다. 후처리-프로세서(300)의 처리 요소들은, 디코더(200)로부터 출력된 메타데이터 및/또는 디코더(200)의 스테이지(204)로부터 출력된 제어 비트들을 사용하여, 버퍼(301)로부터 출력된 디코딩된 오디오 비트스트림의 프레임들의 시퀀스를 수신 및 적응적으로 처리하도록 연결 및 구성된다. 일반적으로, 후처리-프로세서(300)는 디코더(200)로부터의 메타데이터를 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행하도록 구성된다(예를 들면, LPSM 값들 및 선택적으로 또한 프로그램 경계 메타데이터를 사용하여 디코딩된 오디오 데이터에 적응식 라우드니스 처리로서, 적응식 처리는 라우드니스 처리 상태, 및/또는 단일 오디오 프로그램을 나타내는 오디오 데이터에 대한 LPSM으로 나타낸 하나 이상의 오디오 데이터 특징들에 기초할 수 있다).

디코더(200) 및 후처리-프로세서(300)의 다양한 구현들은 본 발명의 방법의 상이한 실시예들을 수행하도록 구성된다.

디코더(200)의 오디오 디코더(202)는 디코딩된 오디오 데이터를 생성하기 위해 파서(205)에 의해 추출된 오디오 데이터를 디코딩하고, 디코딩된 오디오 데이터를 출력으로서 (예를 들면, 후처리-프로세서(300)에) 어서트하도록 구성된다.

상태 확인기(203)는 그에 어서팅된 메타데이터를 인증 및 확인하도록 구성된다. 몇몇 실시예들에서, 메타데이터는 (예를 들면, 본 발명의 일 실시예에 따라) 입력 비트스트림에 포함된 데이터 블록이다(또는 그에 포함된다). 블록은 메타데이터 및/또는 기본 오디오 데이터(파서(205) 및/또는 디코더(202)로부터 확인기(203)에 제공된)를 처리하기 위한 암호화 해시(해시-기반 메시지 인증 코드, 즉 "HMAC")를 포함할 수 있다. 데이터 블록은 이들 실시예들에서 디지털로 서명될 수 있고, 그래서 다운스트림 오디오 처리 유닛은 처리 상태 메타데이터를 비교적 쉽게 인증 및 확인할 수 있다.

하나 이상의 비-HMAC 암호화 방법들 중 어느 것을 포함하지만 그로 제한되지 않는 다른 암호화 방법들은 메타데이터 및/또는 기본 오디오 데이터의 안전한 송신 및 수신을 보장하기 위해 (예를 들면, 확인기(203)에서) 메타데이터의 확인을 위해 사용될 수 있다. 예를 들면, 확인(이러한 암호화 방법을 사용하는)은, 비트스트림에 포함된 대응하는 오디오 데이터 및 라우드니스 처리 상태 메타데이터가 특정한 라우드니스 처리(메타데이터로 나타내는)를 행했는지(및/또는 그로부터 기인되었는지) 및 이러한 특정 라우드니스 처리의 수행 후 변경되지 않았는지의 여부를 결정하기 위해 본 발명의 오디오 비트스트림의 일 실시예를 수신하는 각각의 오디오 처리 유닛에서 수행될 수 있다.

상태 확인기(203)는 제어 데이터를 제어 비트 생성기(204)에 어서트하고 및/또는 확인 동작의 결과들을 나타내기 위해 제어 데이터를 출력으로서 (예를 들면, 후처리-프로세서(300)에) 어서트한다. 제어 데이터(및 선택적으로 또한 입력 비트스트림으로부터 추출된 다른 메타데이터)에 응답하여, 스테이지(204)가 다음 중 하나를 생성(및 후처리-프로세서(300)에 어서트)할 수 있다:

디코더(202)로부터 출력된 디코딩된 오디오 데이터가 특정한 형태의 라우드니스 처리가 행해진다는 것을 나타내는 제어 비트들(LPSM이 디코더(202)로부터 출력된 오디오 데이터가 특정한 형태의 라우드니스 처리가 행해졌다는 것을 나타내고, 확인기(203)로부터의 제어 비트들이 LPSM이 유효하다는 것을 나타낼 때); 또는

디코더(202)로부터 출력된 디코딩된 오디오 데이터가 특정한 형태의 라우드니스 처리가 행해진다는 것을 나타내는 제어 비트들(예를 들면, LPSM이 디코더(202)로부터 출력된 오디오 데이터가 특정한 형태의 라우드니스 처리가 행해지지 않았다는 것을 나타낼 때, 또는 LPSM이 디코더(202)로부터 출력된 오디오 데이터가 특정한 형태의 라우드니스 처리가 행해졌지만 확인기(203)로부터의 제어 비트들이 LPSM이 유효하지 않다는 것을 나타낼 때).

대안적으로, 디코더(200)는 디코더(202)에 의해 입력 비트스트림으로부터 추출된 메타데이터, 및 파서(205)에 의해 입력 비트스트림으로부터 추출된 메타데이터를 후처리-프로세서(300)에 어서트하고, 후처리-프로세서(300)는 메타데이터를 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행하거나, 또는 메타데이터의 확인을 수행하고, 이후, 확인이 메타데이터가 유효한지를 나타내는 경우, 메타데이터를 사용하여 디코딩된 오디오 데이터에 적응식 처리를 수행한다.

몇몇 실시예들에서, 디코더(200)가 암호화 해시에 의해 본 발명의 일 실시예에 따라 생성된 오디오 비트스트림을 수신하는 경우, 디코더는 비트스트림으로부터 결정된 데이터 블록으로부터 암호화 해시를 파싱 및 검출하도록 구성되고, 상기 블록은 라우드니스 처리 상태 메타데이터(LPSM)를 포함한다. 확인기(203)는 수신된 비트스트림 및/또는 연관된 메타데이터를 확인하기 위해 암호화 해시를 사용할 수 있다. 예를 들면, 확인기(203)가 LPSM이 기준 암호화 해시와 데이터 블록으로부터 검출된 암호화 해시 사이의 매칭에 기초하여 유효한 것을 발견한 경우, 이는 (변경되지 않은) 비트스트림의 오디오 데이터를 통과시킬 것을 다운스트림 오디오 처리 유닛(예를 들면, 볼륨 레벨링 유닛일 수 있거나 그를 포함하는 후처리-프로세서(300))으로 시그널링한다. 추가로, 선택적으로, 또는 대안적으로, 다른 형태들의 암호화 기술들이 암호화 해시에 기초하는 방법을 대신하여 사용될 수 있다.

디코더(200)의 몇몇 구현들에서, 수신된(및 메모리(201)에서 버퍼링된) 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 오디오 데이터 세그먼트들(예를 들면, 도 4에 도시된 프레임의 AB0 내지 AB5 세그먼트들) 및 메타데이터 세그먼트들을 포함하고, 오디오 데이터 세그먼트들은 오디오 데이터를 나타내고, 메타데이터 세그먼트들의 적어도 일부의 각각은 PIM 또는 SSM(또는 다른 메타데이터)을 포함한다. 디코더 스테이지(202)(및/또는 파서(205))는 비트스트림으로부터 메타데이터를 추출하도록 구성된다. PIM 및/또는 SSM(및 선택적으로 또한 다른 메타데이터)을 포함하는 메타데이터 세그먼트들의 각각은 비트스트림의 프레임의 여분의 비트 세그먼트, 또는 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드에, 또는 비트스트림의 프레임의 단부의 보조 데이터 필드(예를 들면, 도 4에 도시된 AUX 세그먼트)에 포함된다. 비트스트림의 프레임은 하나 또는 두 개의 메타데이터 세그먼트들을 포함할 수 있고, 그의 각각은 메타데이터를 포함하고, 프레임이 두 개의 메타데이터 세그먼트들을 포함하는 경우, 하나는 프레임의 addbsi 필드에 존재하고 다른 것은 프레임의 AUX 필드에 존재한다.

몇몇 실시예들에서, 버퍼(201)에서 버퍼링된 비트스트림의 각각의 메타데이터 세그먼트(여기서 때때로 "컨테이너"라고 불림)는 메타데이터 세그먼트 헤더(및 선택적으로 또한 다른 필수적인 또는 "코어" 요소들)를 포함하는 포맷을 갖고, 하나 이상의 메타데이터 페이로드들이 메타데이터 세그먼트 헤더에 후속한다. 존재하는 경우, SIM은 (페이로드 헤더에 의해 식별되고, 일반적으로 제 1 형태의 포맷을 갖는) 메타데이터 페이로드들 중 하나에 포함된다. 존재하는 경우, PIM은 (페이로드 헤더에 의해 식별되고, 일반적으로 제 2 형태의 포맷을 갖는) 메타데이터 페이로드들 중 다른 것에 포함된다. 유사하게는, 메타데이터의 각각의 다른 형태(존재하는 경우)는 (페이로드 헤더에 의해 식별되고 일반적으로 메타데이터의 형태에 특정된 포맷을 갖는) 메타데이터 페이로드들 중 또 다른 것에 포함된다. 예시적인 포맷은 디코딩 동안이 아닌 시간들에 SSM, PIM, 및 다른 메타데이터에 편리한 액세스를 허용하고(예를 들면, 디코딩에 후속하는 후처리-프로세서(300)에 의해, 또는 인코딩된 비트스트림상에 전체 디코딩을 수행하지 않고 메타데이터를 인식하도록 구성된 프로세서에 의해), 비트스트림의 디코딩 동안 (예를 들면, 서브스트림 식별의) 편리하고 효율적인 에러 검출 및 정정을 허용한다. 예를 들면, 예시적인 포맷에서 SSM에 대한 액세스 없이, 디코더(200)는 프로그램과 연관된 서브스트림들의 정확한 수를 부정확하게 식별할 수 있다. 메타데이터 세그먼트에서 하나의 메타데이터 페이로드는 SSM을 포함할 수 있고, 메타데이터 세그먼트에서 다른 메타데이터 페이로드는 PIM을 포함할 수 있고, 선택적으로 또한 메타데이터 세그먼트에서 적어도 하나의 다른 메타데이터 페이로드는 다른 메타데이터(예를 들면, 라우드니스 처리 상태 메타데이터, 즉, "LPSM")를 포함할 수 있다

몇몇 실시예들에서, 버퍼(201)에서 버퍼링된 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된 서브스트림 구조 메타데이터(SSM) 페이로드는 다음의 포맷의 SSM을 포함한다:

일반적으로 적어도 하나의 식별값(예를 들면, SSM 포맷 버전을 나타내는 2-비트값, 및 선택적으로 또한 길이, 기간, 카운트, 및 서브스트림 연관값들)을 포함하는 페이로드 헤더; 및

헤더 뒤에:

프로그램의 각각의 독립적인 서브스트림이 그와 연관된 적어도 하나의 종속적인 서브스트림을 갖는지의 여부, 및 그와 연관된 적어도 하나의 종속적인 서브스트림을 갖는 경우, 프로그램의 각각의 독립적인 서브스트림과 연관된 종속적인 서브스트림들의 수를 나타내는 종속적인 서브스트림 메타데이터.

몇몇 실시예들에서, 버퍼(201)에서 버퍼링된 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된 프로그램 정보 메타데이터(PIM) 페이로드는 다음의 포맷을 갖는다:

일반적으로 적어도 하나의 식별값(예를 들면, PIM 포맷 버전을 나타내는 값, 및 선택적으로 또한 길이, 기간, 카운트, 및 서브스트림 연관값들)을 포함하는 페이로드 헤더; 및

헤더 뒤에, PIM은 다음 포맷이다:

오디오 프로그램의 각각의 사일런트 채널 및 각각의 비-사일런트 채널의 활성 채널 메타데이터(즉, 프로그램의 채널(들)이 오디오 정보를 포함하고, (만약에 있다면) 단지 사일런스(일반적으로 프레임의 지속 기간 동안)를 포함한다). 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에서, 비트스트림의 프레임에서 활성 채널 메타데이터는 어느 프로그램의 채널(들)이 오디오 정보를 포함하고 어느 것이 사일런스를 포함하는지를 결정하기 위해 비트스트림의 추가적인 메타데이터(예를 들면, 프레임의 오디오 코딩 모드("acmod") 필드, 및 존재하는 경우, 프레임 또는 연관된 종속적인 서브스트림 프레임(들)에서 chanmap 필드)와 함께 사용될 수 있다;

(인코딩 전 또는 인코딩 동안) 프로그램이 다운믹싱되었는지의 여부, 및 다운믹싱된 경우, 적용된 다운믹싱의 형태를 나타내는 다운믹스 처리 상태 메타데이터. 다운믹스 처리 상태 메타데이터는, 예를 들면, 적용된 다운믹싱의 형태에 가장 근접하게 매칭하는 파라미터들을 사용하여 프로그램의 오디오 콘텐트를 업믹스하기 위해, 디코더의 다운스트림으로 (예를 들면, 후처리-프로세서(300)에서) 업믹싱하는 것을 수행하기에 유용할 수 있다. 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에서, 다운믹스 처리 상태 메타데이터는 (만약 있다면) 프로그램의 채널(들)에 적용된 다운믹싱의 형태를 결정하기 위해 프레임의 오디오 코딩 모드("acmod") 필드와 함께 사용될 수 있다;

인코딩 전 또는 인코딩 동안 프로그램이 (예를 들면, 더 작은 수의 채널들로부터) 업믹싱되었는지의 여부, 및 업믹싱된 경우, 적용된 업믹싱의 형태를 나타내는 업믹스 처리 상태 메타데이터. 업믹스 처리 상태 메타데이터는, 예를 들면, 프로그램에 적용된 업믹싱의 형태(예를 들면, 돌비 프로 로직, 또는 돌비 프로 로직 Ⅱ 무비 모드, 또는 돌비 프로 로직 Ⅱ 뮤직 모드 또는 돌비 프로페셔널 업믹서)와 호환가능한 방식으로 프로그램의 오디오 콘텐트를 다운믹싱하기 위해 디코더의 다운스트림으로 (후처리-프로세서에서) 다운믹싱을 수행하기에 유용할 수 있다. 인코딩된 비트스트림이 E-AC-3 비트스트림인 실시예들에서, 업믹스 처리 상태 메타데이터는 (만약에 있다면) 프로그램의 채널(들)에 적용될 업믹싱의 형태를 결정하기 위해 다른 메타데이터(예를 들면, 프레임의 "strmtyp" 필드의 값)와 함께 사용될 수 있다. (E-AC-3 비트스트림의 프레임의 BSI 세그먼트에서) "strmtyp" 필드의 값은 프레임의 오디오 콘텐트가 (프로그램을 결정하는) 독립적인 스트림에 속하는지 또는 (다수의 서브스트림들을 포함하거나 그와 연관되는 프로그램의) 독립적인 서브스트림에 속하는지, 및 따라서 E-AC-3 비트스트림으로 나타낸 임의의 다른 서브스트림에 독립적으로 디코딩될 수 있는지, 또는 프레임의 오디오 콘텐트가 (다수의 서브스트림들을 포함하거나 그와 연관되는 프로그램의) 종속적인 서브스트림에 속하는지의 여부, 및 따라서 연관되는 독립적인 서브스트림과 함께 디코딩되어야 하는지를 나타낸다; 및

(생성된 인코딩된 비트스트림에 오디오 콘텐트의 인코딩 전에) 선처리가 프레임의 오디오 콘텐트에 수행되었는지, 및 수행된 경우, 수행된 선처리의 형태를 나타내는 선처리 상태 메타데이터.

몇몇 구현들에서, 선처리 상태 메타데이터는:

서라운드 감쇠가 적용되었는지의 여부(예를 들면, 오디오 프로그램의 서라운드 채널들이 인코딩 전에 3㏈로 감쇠되었는지의 여부),

90도 위상 시프트가 적용되는지의 여부(예를 들면, 인코딩 전에 오디오 프로그램의 서라운드 채널들 Ls 및 Rs 채널들에),

저역 통과 필터가 인코딩 전에 오디오 프로그램의 LFE 채널에 적용되었는지의 여부,

프로그램의 LFE 채널의 레벨이 프로덕션 동안 모니터링되었는지의 여부 및 모니터링되는 경우, 프로그램의 전 범위 오디오 채널들의 레벨에 관련된 LFE 채널의 모니터링된 레벨,

동적 범위 압축이 (예를 들면, 디코더에서) 프로그램의 디코딩된 오디오 콘텐트의 각각의 블록상에 수행되어야 하는지의 여부, 및 수행되어야 하는 경우, 수행될 동적 범위 압축의 형태(및/또는 파라미터들)(예를 들면, 이러한 형태의 선처리 상태 메타데이터는 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어 값들을 생성하기 위해 인코더에 의해 다음의 압축 프로파일 형태들(필름 표준, 필름 라이트, 뮤직 표준, 뮤직 라이트, 또는 스피치) 중 어느 것이 가정되었는지를 나타낼 수 있다. 대안적으로, 이러한 형태의 선처리 상태 메타데이터는 대량의 동적 범위 압축("compr" 압축)이 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어값들에 의해 결정된 방식으로 프로그램의 디코딩된 오디오 콘텐트의 각각의 프레임상에 수행되어야 한다는 것을 나타낼 수 있다),

스펙트럼 확장 처리 및/또는 채널 커플링 인코딩이 프로그램의 콘텐트의 특정한 주파수 범위들을 인코딩하기 위해 채용되었는지의 여부, 및 채용되는 경우, 특정한 확장 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들, 및 채널 커플링 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들을 나타낸다. 이러한 형태의 선처리 상태 메타데이터 정보는 디코더의 다운스트림으로 균등화를 (후처리-프로세서에서) 수행하기에 유용할 수 있다. 채널 커플링 정보 및 스펙트럼 확장 정보 둘 모두는 또한 트랜스코드 동작들 및 적용들 동안 품질을 최적화하기에 유용하다. 예를 들면, 인코더는 스펙트럼 확장 및 채널 커플링 정보와 같은 파라미터들의 상태에 기초하여 그의 거동(헤드폰 가상화, 업 믹싱, 등과 같은 선처리 단계들의 적응을 포함하여)을 최적화할 수 있다. 더욱이, 인코더는 그의 커플링 및 스펙트럼 확장 파라미터들을 인바운드(및 인증된) 메타데이터의 상태에 기초하여 매칭 및/또는 최적 값들에 동적으로 적응시킬 수 있다,

다이얼로그 인핸스먼트 조정 범위 데이터가 인코딩된 비트스트림에 포함되는지의 여부, 및 포함되는 경우, 오디오 프로그램에서 비-다이얼로그 콘텐트의 레벨에 관하여 다이얼로그 콘텐트의 레벨을 조정하기 위해 다이얼로그 인핸스먼트 처리의 수행(예를 들면, 디코더의 다운스트림으로 후처리-프로세서에서) 동안 이용가능한 조정의 범위.

몇몇 실시예들에서, 버퍼(201)에서 버퍼링된 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 E-AC-3 비트스트림)의 프레임에 포함된 LPSM 페이로드는 다음의 포맷의 LPSM을 포함한다:

헤더(적어도 하나의 식별값, 예를 들면 이하의 표 2에 나타낸 LPSM 포맷 버전, 길이, 기간, 카운트, 및 서브스트림 연관값들이 후속되는, LPSM 페이로드의 시작을 식별하는 동기 워드를 일반적으로 포함하는); 및

헤더 뒤에,

대응하는 오디오 데이터가 다이얼로그를 나타내는지 또는 다이얼로그를 나타내지 않는지(예를 들면, 대응하는 오디오 데이터의 어느 채널들이 다이얼로그를 나타내는지)를 나타내는 적어도 하나의 다이얼로그 표시값(예를 들면, 표 2의 파라미터 "다이얼로그 채널(들)");

대응하는 오디오 데이터가 라우드니스 규제들의 나타낸 세트를 준수하는지의 여부를 나타내는 적어도 하나의 라우드니스 규제 준수값(예를 들면, 표 2의 파라미터 "라우드니스 규제 형태");

대응하는 오디오 데이터의 적어도 하나의 라우드니스(예를 들면, 피크 또는 평균 라우드니스) 특징을 나타내는 적어도 하나의 라우드니스 값(예를 들면, 표 2의 파라미터들 "ITU 관련 게이팅된 라우드니스", "ITU 스피치 게이팅된 라우드니스", "ITU(EBU 3341) 단기 3s 라우드니스" 및 "트루 피크" 중 하나 이상).

몇몇 구현들에서, 파서(205)(및/또는 디코더 스테이지(202))는 비트스트림의 프레임의 여분의 비트 세그먼트, 또는 "addbsi" 필드, 또는 보조 데이터 필드로부터 추출되도록 구성되고, 각각의 메타데이터 세그먼트는 다음 포맷을 갖는다:

메타데이터 세그먼트 헤더(적어도 하나의 식별값, 예를 들면, 버전, 길이, 및 기간, 확장된 요소 카운트, 및 서브스트림 연관값들로 후속된 메타데이터 세그먼트의 시작을 식별하는 동기 워드를 일반적으로 포함하는); 및

메타데이터 세그먼트 헤더 뒤에, 메타데이터 세그먼트의 메타데이터 또는 대응하는 오디오 데이터 중 적어도 하나의 해독, 인증, 또는 확인의 적어도 하나에 유용한 적어도 하나의 보호값(예를 들면, 표 1의 HMAC 다이제스트 및 오디오 핑거프린트 값들); 및

또한 메타데이터 세그먼트 헤더 뒤에, 각각의 후속하는 메타데이터 페이로드의 구성의 적어도 하나의 양태(예를 들면, 크기) 및 형태를 식별하는 메타데이터 페이로드 식별("ID") 및 페이로드 구성값들.

각각의 메타데이터 페이로드 세그먼트(바람직하게는 상기 특정된 포맷을 갖는)는 대응하는 메타데이터 페이로드 ID 및 페이로드 구성값들에 후속한다.

더 일반적으로, 본 발명의 바람직한 실시예들에 의해 생성된 인코딩된 오디오 비트스트림은 코어(필수적인) 또는 확장된(선택적인) 요소들 또는 서브-요소들로서 라벨 메타데이터 요소들 및 서브-요소들에 메커니즘을 제공하는 구조를 갖는다. 이는 (그의 메타데이터를 포함하는) 비트스트림의 데이터 레이트가 다수의 애플리케이션들에 걸쳐 크기 조정하는 것을 허용한다. 바람직한 비트스트림 신택스의 코어(필수적인) 요소들은 오디오 콘텐트와 연관된 확장된(선택적인) 요소들이 존재하고(대역내) 및/또는 원격 위치에 있는 것(대역외)을 또한 시그널링할 수 있어야 한다.

코어 요소(들)는 비트스트림의 모든 프레임에 존재하도록 요구된다. 코어 요소들의 몇몇 서브-요소들은 선택적이고 임의의 조합으로 존재할 수 있다. 확장된 요소들은 (비트레이트 오버헤드를 제한하기 위해) 모든 프레임에 존재하도록 요구되지는 않는다. 따라서, 확장된 요소들은 몇몇 프레임들에 존재할 수 있고, 다른 것들에 존재하지 않을 수 있다. 확장된 요소의 몇몇 서브-요소들은 선택적이고, 임의의 조합으로 존재할 수 있고, 반면에 확장된 요소의 몇몇 서브-요소들은 필수적일 수 있다(즉, 확장된 요소가 비트스트림의 프레임 내에 존재하는 경우).

일 종류의 실시예들에서, 오디오 데이터 세그먼트들 및 메타데이터 세그먼트들의 시퀀스를 포함하는 인코딩된 오디오 비트스트림이 생성된다(예를 들면, 본 발명을 구현하는 오디오 처리 유닛에 의해). 오디오 데이터 세그먼트들은 오디오 데이터를 나타내고, 메타데이터 세그먼트들의 적어도 일부의 각각은 PIM 및/또는 SSM(및 선택적으로 또한 적어도 하나의 다른 형태의 메타데이터)을 포함하고, 오디오 데이터 세그먼트들은 메타데이터 세그먼트들로 시분할 멀티플렉싱된다. 이러한 종류의 바람직한 실시예들에서, 메타데이터 세그먼트들의 각각은 여기에 기술될 바람직한 포맷을 갖는다.

일 바람직한 포맷에서, 인코딩된 비트스트림은 AC-3 비트스트림이거나 E-AC-3 비트스트림이고, SSM 및/또는 PIM을 포함하는 메타데이터 세그먼트들의 각각은 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드(도 6에 도시됨)에, 또는 비트스트림의 프레임의 보조 데이터 필드에, 또는 비트스트림의 프레임의 여분의 비트 세그먼트에 추가의 비트 스트림 정보로서 (예를 들면, 인코더(100)의 바람직한 구현의 스테이지(107)에 의해) 포함된다.

바람직한 포맷에서, 프레임들의 각각은 프레임의 여분의 비트 세그먼트(또는 addbsi 필드)에 메타데이터 세그먼트(때때로 여기서 메타데이터 컨테이너, 또는 컨테이너라고 불림)를 포함한다. 메타데이터 세그먼트는 이하의 표 1에 보여지는 필수적인 요소들(집합적으로 "코어 요소"라고 불림)을 갖는다(및 표 1에 보여지는 선택적인 요소들을 포함할 수 있다). 표 1에 보여지는 요구된 요소들의 적어도 일부는 메타데이터 세그먼트의 메타데이터 세그먼트 헤더에 포함되지만 일부는 메타데이터 세그먼트에서 어느 곳에도 포함될 수 있다

바람직한 포맷에서, SSM, PIM, 또는 LPSM을 포함하는 각각의 메타데이터 세그먼트(인코딩된 비트스트림의 프레임의 여분의 비트 세그먼트 또는 addbsi 또는 보조 데이터 필드에서)는 메타데이터 세그먼트 헤더(및 선택적으로 또한 추가의 코어 요소들), 및 메타데이터 세그먼트 헤더(또는 메타데이터 세그먼트 헤더 및 다른 코어 요소들) 후, 하나 이상의 메타데이터 페이로드들을 포함한다. 각각의 메타데이터 페이로드는 특정 형태의 메타데이터가 후속되는 (페이로드에 포함된 특정한 형태의 메타데이터(예를 들면, SSM, PIM, 또는 LPSM)를 나타내는) 메타데이터 페이로드 헤더를 포함한다. 일반적으로, 메타데이터 페이로드 헤더는 다음의 값들(파라미터들)을 포함한다:

메타데이터 세그먼트 헤더(표 1에 특정된 값들을 포함할 수 있는)에 후속하는 페이로드 ID(메타데이터의 형태, 예를 들면, SSM, PIM, 또는 LPSM을 식별하는);

페이로드 ID에 후속하는 페이로드 구성값(일반적으로 페이로드의 크기를 나타냄); 및

선택적으로 또한, 추가적인 페이로드 구성값들(예를 들면, 프레임의 시작으로부터 페이로드가 속하는 제 1 오디오 샘플까지의 오디오 샘플들의 수를 나타내는 오프셋 값, 및 예를 들면, 페이로드가 폐기될 수 있는 상태를 나타내는, 페이로드 우선 순위 값).

일반적으로, 페이로드의 메타데이터는 다음의 포맷들 중 하나를 갖는다:

페이로드의 메타데이터는, 비트스트림으로 나타낸 프로그램의 독립적인 서브스트림들의 수를 나타내는 독립적인 서브스트림 메타데이터; 및 프로그램의 각각의 독립적인 서브스트림이 그와 연관된 적어도 하나의 종속적인 서브스트림을 갖는지의 여부, 및 적어도 하나의 종속적인 서브스트림을 갖는 경우, 프로그램의 각각의 독립적인 서브스트림과 연관된 종속적인 서브스트림들의 수를 나타내는 종속적인 서브스트림 메타데이터를 포함하는, SSM이다.

페이로드의 메타데이터는, 오디오 프로그램의 어느 채널(들)이 오디오 정보를 포함하는지, 및 어느 것이 (존재하는 경우) 단지 사일런스만을 (일반적으로 프레임의 지속 기간 동안) 포함하는지를 나타내는 활성 채널 메타데이터; 프로그램이 다운믹싱되었는지의 여부, 및 다운믹싱된 경우, 적용된 다운믹싱의 형태를 나타내는 다운믹스 처리 상태 메타데이터; 프로그램이 인코딩 전 또는 인코딩 동안 (예를 들면, 적은 수의 채널들로부터) 업믹싱되었는지의 여부, 및 인코딩 전 또는 인코딩 동안 업믹싱된 경우, 적용된 업믹싱의 형태를 나타내는 업믹스 처리 상태 메타데이터; 및 선처리가 (오디오 콘텐트의 인코딩 전에 생성된 인코딩된 비트스트림에 대해) 프레임의 오디오 콘텐트에 수행되었는지의 여부, 및 선처리가 수행된 경우, 수행된 선처리의 형태를 나타내는 선처리 상태 메타데이터를 포함하는, PIM이다; 또는

페이로드의 메타데이터는 다음 표(표 2)에 나타낸 포맷을 갖는 LPSM이다:

본 발명에 따라 생성된 인코딩된 비트스트림의 다른 바람직한 포맷에서, 비트스트림은 AC-3 비트스트림이거나 E-AC-3 비트스트림이고, PIM 및/또는 SSM(및 선택적으로 또한 적어도 하나의 다른 형태의 메타데이터)을 포함하는 메타데이터 세그먼트들의 각각은 (예를 들면, 인코더(100)의 바람직한 구현의 스테이지(107)에 의해) 다음 중 어느 하나에 포함된다: 비트스트림의 프레임의 여분의 비트 세그먼트; 또는 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드(도 6에 도시됨); 또는 비트스트림의 프레임의 단부에 보조 데이터 필드(예를 들면, 도 4에 도시된 AUX 세그먼트). 프레임은, 각각이 PIM 및/또는 SSM을 포함하는, 하나 또는 두 개의 메타데이터 세그먼트들을 포함할 수 있고, (몇몇 실시예들에서) 프레임이 두 개의 메타데이터 세그먼트들을 포함하는 경우, 하나는 프레임의 addbsi 필드에 존재하고, 다른 것은 프레임의 AUX 필드에 존재한다. 각각의 메타데이터 세그먼트는 바람직하게는 상기 표 1을 참조하여 상기에 특정된 포맷을 갖는다(즉, 이는 페이로드 ID(메타데이터 세그먼트의 각각의 페이로드에서 메타데이터의 형태를 식별), 페이로드 구성값들, 및 각각의 메타데이터 페이로드로 후속되는, 표 1에 특정된 코어 요소들을 포함한다). LPSM을 포함하는 각각의 메타데이터 세그먼트는 바람직하게는 상기 표 1 및 표 2를 참조하여 상기에 특정된 포맷을 갖는다(즉, 이는 표 1에 지정된 코어 요소들을 포함하고, 코어 요소들은 페이로드 ID(LPSM으로서 메타데이터를 식별함) 및 페이로드 구성값들로 후속되고, 페이로드 ID 및 페이로드 구성값들은 페이로드로 후속된다(표 2에 나타낸 포맷을 갖는 LPSM 데이터)).

다른 바람직한 포맷에서, 인코딩된 비트스트림은 돌비 E 비트스트림이고, PIM 및/또는 SSM(및/또는 선택적으로 또한 다른 메타데이터)을 포함하는 메타데이터 세그먼트들의 각각은 돌비 E 가드 대역 간격의 제 1의 N 개의 샘플 위치들이다. LPSM을 포함하는 이러한 메타데이터 세그먼트를 포함하는 돌비 E 비트스트림은 바람직하게는 SMPTE 337M 프리앰블(SMPTE 337M Pa 워드 반복 레이트는 바람직하게는 연관된 비디오 프레임 레이트와 동일하게 유지된다)의 Pd 워드로 시그널링된 LPSM 페이로드 길이를 나타내는 값을 포함한다.

인코딩된 비트스트림이 E-AC-3 비트스트림인 바람직한 포맷에서, PIM 및/또는 SSM(및/또는 선택적으로 또한 다른 메타데이터)을 포함하는 메타데이터 세그먼트들의 각각은, 비트스트림의 프레임의 여분의 비트 세그먼트에서 또는 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드에서 추가의 비트스트림 정보로서 (예를 들면, 인코더(100)의 바람직한 구현의 스테이지(107)에 의해) 포함된다. 이러한 바람직한 포맷의 LPSM으로 E-AC-3 비트스트림을 인코딩하는 추가의 양태들을 다음에 개시한다:

1. E-AC-3 비트스트림의 생성 동안, (LPSM 값들을 비트스트림에 삽입하는) E-AC-3 인코더가 "활성"인 동안, 생성된 모든 프레임(동기 프레임)에 대하여, 비트스트림은 프레임의 addbsi 필드(또는 여분의 비트 세그먼트)에 구비된 메타데이터 블록(LPSM을 포함하는)을 포함해야 한다. 메타 데이터 블록을 구비하기 위해 요구된 비트들은 인코더 비트레이트(프레임 길이)를 증가시키지 않아야 한다;

2. 모든 메타데이터 블록(LPSM을 포함하여)은 다음의 정보를 포함해야 한다:

loudness_correction_type_flag : '1'은 대응하는 오디오 데이터의 라우드니스가 인코더로부터 정정된 업스트림이라는 것을 나타내고, '0'은 라우드니스가 인코더에 임베딩된 라우드니스 정정기에 의해 정정된다는 것을 나타낸다(예를 들면, 도 2의 인코더(100)의 라우드니스 프로세서(103))

speech_channel : 어느 소스 채널(들)이 스피치(이전에 0.5초를 넘는)를 포함하는지를 나타낸다. 스피치가 검출되지 않는 경우, 이는 다음과 같이 나타낸다;

speech_loudness : 스피치(이전에 0.5초를 넘는)를 포함하는 각각의 대응하는 오디오 채널의 통합된 스피치 라우드니스를 나타낸다;

ITU_loudness : 각각의 대응하는 오디오 채널의 통합된 ITU BS.1770-3 라우드니스를 나타낸다; 및

이득 : (가역성을 설명하기 위해) 디코더에서 반전에 대한 라우드니스 합성 이득(들);

3. (LPSM 값들을 비트스트림에 삽입하는) E-AC-3 인코더가 "활성"이고 '신뢰' 플래그와 함께 AC-3 프레임을 수신하고 있는 동안, 인코더의 라우드니스 제어기(예를 들면, 도 2의 인코더(100)의 라우드니스 프로세서(103))는 바이패스된다. '신뢰된' 소스 dialnorm 및 DRC 값들은 (예를 들면, 인코더(100)의 생성기(106)에 의해) E-AC-3 인코더 구성 요소(예를 들면, 인코더(100)의 스테이지(107))를 통해 전달된다. LPSM 블록 생성은 계속되고 loudness_correction_type_flag는 '1'로 설정된다. 라우드니스 제어기 바이패스 시퀀스는 '신뢰' 플래그가 나타나는 디코딩된 AC-3 프레임의 시작과 동기되어야 한다. 라우드니스 제어기 바이패스 시퀀스는 다음과 같이 구현된다: leveler_amount 제어는 10의 오디오 블록 기간들(즉, 53.3msec)을 통해 9의 값으로부터 0의 값으로 감소되고 leveler_back_end_meter 제어는 바이패스 모드로 놓인다(이러한 동작은 끊김없는 이동을 초래한다). 용어 레벨러의 "신뢰된" 바이패스는 소스 비트스트림의 dialnorm 값이 또한 인코더의 출력에서 재이용된다는 것을 내포한다(예를 들면, '신뢰된' 소스 비트스트림이 -30의 dialnorm 값을 갖는 경우, 인코더의 출력은 아웃바운드 dialnorm 값에 대해 -30을 이용한다);

4. (LPSM 값들을 비트스트림에 삽입하는) E-AC-3 인코더가 "활성"이고 '신뢰' 플래그 없이 AC-3 프레임을 수신하고 있는 동안, 인코더에 임베딩된 라우드니스 제어기(예를 들면, 도 2의 인코더(100)의 라우드니스 프로세서(103))는 활성이다. LPSM 블록 생성은 계속되고 loudness_correction_type_flag는 '0'으로 설정된다. 라우드니스 제어기 활성 시퀀스는 '신뢰' 플래그가 사라지는 디코딩된 AC-3 프레임의 시작에 동기화되어야 한다. 라우드니스 제어기 활성 시퀀스는 다음과 같이 수행된다: leveler_amount 제어는 1 오디오 블록 기간(즉, 5.3msec)에 걸쳐 0의 값으로부터 9의 값으로 증가되고 leveler_back_end_meter 제어는 '활성' 모드로 놓인다(이러한 동작은 끊김 없는 이동을 초래하고, back_end_meter 통합 리셋을 포함한다); 및

5. 디코딩 동안, 그래픽 사용자 인터페이스(GUI)는 사용자에게 다음의 파라미터들을 나타낼 것이다: "입력 오디오 프로그램 : [신뢰됨/신뢰되지 않음]" - 이러한 파라미터의 상태는 입력 신호 내 "신뢰" 플래그; 및 "실시간 라우드니스 정정:[인에이블/디스에이블]"의 존재에 기초한다 -이러한 파라미터의 상태는 인코더에 임베딩된 이러한 라우드니스 제어기가 활성인지의 여부에 기초한다-.

비트스트림의 각각의 프레임의, 여분의 비트 또는 스킵 필드 세그먼트, 또는 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드에 포함된 LPSM(바람직한 포맷으로)을 갖는 AC-3 또는 E-AC-3 비트스트림을 디코딩할 때, 디코더는 LPSM 블록 데이터(여분의 비트 세그먼트 또는 addbsi 필드에서)를 파싱하고 모든 추출된 LPSM 값들을 그래픽 사용자 인터페이스(GUI)로 전달한다. 추출된 LPSM 값들의 세트는 매 프레임마다 리프레시된다.

본 발명에 따라 생성된 인코딩된 비트스트림의 다른 바람직한 포맷에서, 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, PIM 및/또는 SSM(및 선택적으로 또한 LPSM 및/또는 다른 메타데이터)을 포함하는 메타데이터 세그먼트들의 각각이, 비트스트림의 프레임의, 여분의 비트 세그먼트에, 또는 Aux 세그먼트에, 또는 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드(도 6에 도시됨)에 추가의 비트 스트림 정보로서 포함된다(예를 들면, 인코더(100)의 바람직한 구현의 스테이지(107)에 의해). (표 1 및 표 2를 참조하여 상기에 기재된 포맷의 변형인) 이러한 포맷에서, LPSM을 포함하는 addbsi(또는 Aux 또는 여분의 비트) 필드들의 각각은 다음의 LPSM 값들을 포함한다:

페이로드 ID(LPSM으로서 메타데이터를 식별하는) 및 다음의 포맷(상기 표 2에 나타낸 필수 요소들과 유사한)을 갖는 페이로드(LPSM 데이터)로 후속되는, 페이로드 구성 값들이 후속되는 표 1에 지정된 코어 요소들:

LPSM 페이로드의 버전: LPSM 페이로드의 버전을 나타내는 2-비트 필드;

dialchan : 대응하는 오디오 데이터의 왼쪽, 오른쪽, 및/또는 중앙 채널들이 음성 다이얼로그를 포함하는지의 여부를 나타내는 3-비트 필드. dialchan 필드의 비트 할당은 다음과 같을 수 있다: 왼쪽 채널에서 다이얼로그의 존재를 나타내는 비트 0은 dialchan 필드의 최상위 비트에 저장되고 ; 및 중앙 채널에서 다이얼로그의 존재를 나타내는 비트 2는 dialchan 필드의 최하위 비트에 저장된다. dialchan 필드의 각각의 비트는 대응하는 채널이 프로그램의 이전 0.5초 동안 음성 다이얼로그를 포함하는 경우 '1'로 설정된다;

loudregtyp: 프로그램 라우드니스가 어느 라우드니스 규제 표준을 따르는지를 나타내는 4-비트 필드. "loudregtyp" 필드를 '000'으로 설정하는 것은 LPSM이 라우드니스 규제 준수를 나타내지 않는다는 것을 나타낸다. 예를 들면, 이러한 필드의 하나의 값(예를 들면, 0000)은 라우드니스 규제 표준의 준수가 나타나지 않는 것을 나타낼 수 있고, 이러한 필드의 또 다른 값(예를 들면, 0001)은 프로그램의 오디오 데이터가 ATSC A/85 표준을 준수한다는 것을 나타낼 수 있고, 이러한 필드의 또 다른 값(예를 들면, 0010)은 프로그램의 오디오 데이터가 EBU R128 표준을 준수한다는 것을 나타낼 수 있다. 예에서, 필드가 '0000'과 다른 임의의 값으로 설정되는 경우, loudcorrdialgat 및 loudcorrtyp 필드들이 페이로드에 후속한다;

loudcorrdialgat : 다이얼-게이팅 라우드니스 정정이 적용되었는지를 나타내는 1-비트 필드. 프로그램의 라우드니스가 다이얼로그 게이팅을 사용하여 정정되는 경우, loudcorrdialgat 필드의 값은 '1'로 설정된다. 그렇지 않은 경우, 이는 '0'으로 설정된다;

loudcorrtyp : 프로그램에 적용된 라우드니스 정정의 형태를 나타내는 1-비트 필드. 프로그램의 라우드니스가 무한 룩-어헤드(필드-기반) 라우드니스 정정 프로세스로 정정된 경우, loudcorrtyp 필드의 값은 '0'으로 설정된다. 프로그램의 라우드니스가 실시간 라우드니스 측정 및 동적 범위 제어의 조합을 사용하여 정정된 경우, 이러한 필드의 값은 '1'로 설정된다;

loudrelgate : 관련된 게이팅 라우드니스 데이터(ITU)가 존재하는지의 여부를 나타내는 1-비트 필드. loudrelgate 필드가 '1'로 설정되는 경우, 7-비트 ituloudrelgat 필드는 페이로드에 후속한다;

loudrelgat : 관련된 게이팅 프로그램 라우드니스(ITU)를 나타내는 7-비트 필드. 이러한 필드는 적용되는 dialnorm 및 동적 범위 압축(DRC) 때문에 임의의 이득 조정들 없이 ITU-R BS.1770-3에 따라 측정된 오디오 프로그램의 통합된 라우드니스를 나타낸다. 0 내지 127의 값들은 0.5 LKFS 스텝들에서 -58 LKFS 내지 +5.5 LKFS로서 해석된다;

loudspchgate : 스피치-게이팅 라우드니스 데이터(ITU)가 존재하는지의 여부를 나타내는 1-비트 필드. loudspchgate 필드가 '1'로 설정된 경우, 7-비트 loudspchgat 필드는 페이로드에 후속된다;

loudspchgat: 스피치-게이팅 프로그램 라우드니스를 나타내는 7-비트 필드. 이러한 필드는 ITU-R BS.1770-3의 식(2)에 따라 및 적용되는 dialnorm 및 동적 범위 압축에 의한 임의의 이득 조정들 없이 측정된 전체 대응하는 오디오 프로그램의 통합된 라우드니스를 나타낸다. 0 내지 127의 값들은 0.5 LKFS 스텝들에서 -58 LKFS 내지 +5.5 LKFS로서 해석된다;

loudstrm3se : 단기(3초) 라우드니스 데이터가 존재하는지의 여부를 나타내는 1-비트 필드. 필드가 '1'로 설정된 경우, 7-비트 loudstrm3s 필드가 페이로드에 후속한다;

loudstrm3s : ITU-R BS.1771-1에 따라 및 적용되는 dialnorm 및 동적 범위 압축에 의한 임의의 이득 조정들 없이 측정된 대응하는 오디오 프로그램의 이전 3초의 언게이팅 라우드니스를 나타내는 7-비트 필드. 0 내지 256의 값들은 0.5 LKFS 스텝들에서 -116 LKFS 내지 +11.5 LKFS로서 해석된다;

truepke : 트루 피크 라우드니스 데이터가 존재하는지의 여부를 나타내는 1-비트 필드. truepke 필드가 '1'로 설정되는 경우, 8-비트 truepk 필드가 페이로드에 후속한다; 및

truepk : ITU-R BS.1770-3의 Annex 2에 따라 및 적용되는 dialnorm 및 동적 범위 압축에 의한 임의의 이득 조정들 없이 측정된 프로그램의 트루 피크 샘플값을 나타내는 8-비트 필드. 0 내지 256의 값들은 0.5 LKFS 스텝들에서 -116 LKFS 내지 +11.5 LKFS로서 해석된다;

몇몇 실시예들에서, 여분의 비트 세그먼트에서 또는 AC-3 비트스트림 또는 E-AC-3 비트스트림의 프레임의 보조 데이터(또는 "addbsi") 필드에서 메타데이터 세그먼트의 코어 요소는 메타데이터 세그먼트 헤더(일반적으로 식별값들, 예를 들면, 버전을 포함하는), 및 메타데이터 세그먼트 헤더 뒤에: 핑거프린트 데이터가(또는 다른 보호값들이) 메타데이터 세그먼트의 메타데이터에 대하여 포함되는지의 여부를 나타내는 값들, (메타데이터 세그먼트의 메타데이터에 대응하는 오디오 데이터에 관련된) 외부 데이터가 존재하는지의 여부를 나타내는 값들, 코어 요소에 의해 식별된 메타데이터(예를 들면, PIM 및/또는 SSM 및/또는 LPSM 및/또는 일 형태의 메타데이터)의 각각의 형태에 대한 페이로드 ID 및 페이로드 구성값들, 및 메타데이터 세그먼트 헤더(또는 메타데이터 세그먼트의 다른 코어 요소들)에 의해 식별된 메타데이터의 적어도 하나의 형태에 대한 보호값들을 포함한다. 메타데이터 세그먼트의 메타데이터 페이로드(들)는 메타데이터 세그먼트 헤더에 후속하고, (몇몇 경우들에서) 메타데이터 세그먼트의 코어 요소들 내에 포함된다.

본 발명의 실시예들은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 둘의 조합(예를 들면, 프로그램 가능한 로직 어레이)에서 수행될 수 있다. 달리 지정되지 않으면, 본 발명의 부분으로서 포함된 알고리즘들 또는 프로세스들은 임의의 특정 컴퓨터 또는 다른 장치에 본질적으로 관련되지 않는다. 특히, 다양한 범용 머신들은 여기서 교시들에 따라 기록된 프로그램들과 함께 사용될 수 있거나, 또는 요청된 방법 단계들을 수행하기 위해 더 많은 특수화된 장치(예를 들면, 집적 회로들)를 구성하기에 더 편리할 수 있다. 따라서, 본 발명은, 각각이 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함하는), 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 하나 이상의 프로그램 가능 컴퓨터 시스템들상에 실행(예를 들면, 도 1의 요소들, 또는 도 2의 인코더(100)(또는 그의 요소), 또는 도 3의 디코더(200)(또는 그의 요소), 또는 도 3의 후처리-프로세서(300) 중 어느 하나의 실행)하는 하나 이상의 컴퓨터 프로그램들로 수행될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 수행하고 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 알려진 방식으로 하나 이상의 출력 디바이스들에 적용된다.

각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 원하는 컴퓨터 언어(머신, 어셈블리, 또는 고레벨 절차, 로직, 또는 객체 지향 프로그래밍 언어들을 포함하여)로 실행될 수 있다. 임의의 경우에, 언어는 준수되거나 해석된 언어일 수 있다.

예를 들면, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 실행될 때, 본 발명의 실시예들의 다양한 기능들 및 단계들은 적절한 디지털 신호 처리 하드웨어에서 구동하는 멀티스레드 소프트웨어 명령 시퀀스들에 의해 실행될 수 있고, 이러한 경우, 실시예들의 다수의 디바이스들, 단계들 및 기능들은 소프트웨어 명령들의 부분들에 대응할 수 있다.

각각의 이러한 컴퓨터 프로그램은 저장 매체들 또는 디바이스가 여기에 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성하고 동작하기 위해, 범용 또는 특수 목적 프로그램가능 컴퓨터에 의해 판독 가능한 저장 매체들 또는 디바이스(예를 들면, 고상 메모리 또는 매체들, 또는 자기 또는 광 매체들)상에 바람직하게 저장되거나 또는 그로 다운로딩된다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성되는(즉, 저장하는) 컴퓨터 판독가능 저장 매체로서 구현되고, 이렇게 구성된 저장 매체는 컴퓨터 시스템이 여기에 기술된 기능들을 수행하기 위해 특수 및 미리 규정된 방식으로 동작하게 한다.

본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 정신 및 범위로부터 벗어나지 않고 다수의 변경들이 행해질 수 있다는 것이 이해될 것이다. 본 발명의 다수의 변경들 및 변형들은 상기 교시들을 고려하여 가능하다. 첨부된 청구항들의 범위 내에서, 본 발명은 여기에 특별히 기술된 바와 달리 실행될 수 있다는 것이 이해될 것이다.

100 : 인코더 102 : 오디오 상태 확인기
106 : 메타데이터 생성기 107 : 스터퍼/포맷터
109, 110 : 버퍼 111 : 파서
152 : 디코더

Claims

오디오 처리 유닛에 있어서,
비-일시적 매체인 버퍼 메모리로서, 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장하도록 구성되고, 상기 인코딩된 오디오 비트스트림은 오디오 데이터 및 메타데이터 컨테이너를 포함하고, 상기 메타데이터 컨테이너는 동적 범위 압축(DRC) 메타데이터를 포함하는 하나 이상의 메타데이터 페이로드를 포함하고, 상기 DRC 메타데이터는, 동적 범위 압축 데이터와, 상기 동적 범위 압축 데이터를 생성하기 위해 인코더에 의해 사용된 압축 프로파일의 표시(indication)를 포함하고, 하나의 상기 압축 프로파일은 필름 표준(film standard) 압축 프로파일인, 상기 버퍼 메모리;
상기 버퍼 메모리에 결합되고, 상기 인코딩된 오디오 비트스트림을 파싱하도록 구성되는, 파서(parser); 및
상기 파서에 결합되고, 오디오 데이터의 적어도 일부에 대해, 또는 오디오 데이터의 상기 적어도 일부를 디코딩함으로써 생성된 디코딩된 오디오 데이터에 대해, DRC 데이터를 사용하여, 동적 범위 압축을 수행하도록 구성되는, 서브시스템을 포함하는, 오디오 처리 유닛.
오디오 디코딩 방법에 있어서,
인코딩된 오디오 비트스트림을 수신하는 단계로서, 상기 인코딩된 오디오 비트스트림은 하나 이상의 프레임으로 분할되어 있는, 상기 수신하는 단계;
상기 인코딩된 오디오 비트스트림으로부터 오디오 데이터 및 메타데이터의 컨테이너를 추출하는 단계로서, 상기 메타데이터의 컨테이너는 동적 범위 압축(DRC) 메타데이터를 포함하는 하나 이상의 메타데이터 페이로드를 포함하고, 상기 DRC 메타데이터는, 동적 범위 압축 데이터와, 상기 동적 범위 압축 데이터를 생성하기 위해 인코더에 의해 사용된 압축 프로파일의 표시를 포함하고, 하나의 상기 압축 프로파일은 필름 표준 압축 프로파일인, 상기 추출하는 단계; 및
오디오 데이터의 적어도 일부에 대해, 또는 오디오 데이터의 상기 적어도 일부를 디코딩함으로써 생성된 디코딩된 오디오 데이터에 대해, DRC 데이터를 사용하여, 동적 범위 압축을 수행하는 단계를 포함하는, 오디오 디코딩 방법.