KR20140006469U

KR20140006469U - 프로그램 정보 메타데이터를 갖는 오디오 디코더

Info

Publication number: KR20140006469U
Application number: KR2020130006888U
Authority: KR
Inventors: 제프리 리드밀러; 마이클 워드
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2013-06-19
Filing date: 2013-08-19
Publication date: 2014-12-30
Also published as: BR112015019435A2; RU2624099C1; CN110459228A; BR112015019435B1; SG10201604617VA; TW202343437A; JP2016507088A; EP2954515A1; JP2017004022A; TWI790902B; KR20190125536A; CN110491395B; KR20240055880A; MY171737A; TW201506911A; IL239687A; HK1217377A1; KR102041098B1; CN106297811B; CN110491396A

Abstract

인코딩된 오디오의 프레임을 수신하기 위한 인터페이스를 포함하는 전기 디바이스가 개시되고, 프레임은 프레임의 스킵 필드에 위치된 프로그램 정보 메타데이터 및 스킵 필드 밖에 위치된 인코딩된 오디오 데이터를 포함한다. 프레임을 일시적으로 저장하기 위해 버퍼가 인터페이스에 결합되고, 프레임으로부터 인코딩된 오디오 데이터를 추출하기 위해 파서가 버퍼에 결합된다. 인코딩된 오디오 데이터로부터 디코딩된 오디오를 생성하기 위해 AC-3 오디오 디코더가 파서에 결합되거나 파서와 통합된다.

Description

프로그램 정보 메타데이터를 갖는 오디오 디코더{AUDIO DECODER WITH PROGRAM INFORMATION METADATA}

본 출원은 2013년 6월 19일 출원되고, 명칭이 "프로그램 정보 또는 서브스트림 구조 메타데이터를 갖는 오디오 인코더 및 디코더(Audio Encoder and Decoder with Program Information or Substream Structure Metadata)"이고 발명자들이 제프리 리드밀러(Jeffrey Riedmiller) 및 마이클 워드(Michael Ward)인 미국 가 출원 제 61/836,865 호에 대한 우선권을 청구한다.

본 출원은 오디오 신호 처리 유닛들에 관한 것으로, 특히, 비트스트림들로 표시되는 오디오 콘텐트에 관한 프로그램 정보를 나타내는 메타데이터를 갖는 오디오 데이터 비트스트림들의 디코더들에 관한 것이다. 본 고안의 일부 실시예들은 돌비 디지털(AC-3), 돌비 디지털 플러스(인핸스드 AC-3 또는 E-AC-3) 또는 돌비 E로서 공지되어 있는 포맷들 중 하나로 오디오 데이터를 생성하거나 디코딩한다.

돌비, 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E는 돌비 레버러토리즈 라이쎈싱 코오포레이션(Dolby Laboratories Licensing Corporation)의 상표들이다. 돌비 레버러토리즈는 각각 돌비 디지털 및 돌비 디지털 플러스로 공지되어 있는 AC-3 및 E-AC-3의 고유 구현들을 제공한다.

오디오 데이터 처리 유닛들은 일반적으로 블라인드 방식(blind fashion)으로 동작하고, 데이터가 수신되기 전에 발생하는 오디오 데이터의 처리 이력에는 주목하지 않는다. 이것은 타겟 미디어 렌더링 디바이스가 인코딩된 오디오 데이터의 모든 디코딩 및 렌더링을 행하는 동안 다양한 타겟 미디어 렌더링 디바이스들에 대한 모든 오디오 데이터 처리 및 인코딩을 단일 엔티티가 행하는 처리 프레임워크에서 작동할 수 있다. 그러나, 이 블라인드 처리는 복수의 오디오 처리 유닛들이 다양한 네트워크에 걸쳐 산재되어 있거나 나란히(체인형으로) 배치되어 있고 그들 각각의 유형들의 오디오 처리를 최적으로 수행할 것으로 예상되는 상황들에서는 잘(또는 전혀) 작동하지 않는다. 예를 들면, 일부 오디오 데이터는 고성능 미디어 시스템들용으로 인코딩될 수 있고, 미디어 처리 체인에 따라 모바일 디바이스에 적합한 축소된 형태로 변환될 수 있다. 따라서, 오0디오 처리 유닛은 미리 수행된 오디오 데이터에 대한 어떤 유형의 처리를 불필요하게 수행할 수 있다. 예를 들면, 볼륨 레벨링 유닛(volume leveling unit)은 동일하거나 유사한 볼륨 레벨링이 입력 오디오 클립에 대해 이미 수행되었는지 그렇지 않은지와 상관없이 입력 오디오 클립에 대해 처리를 수행할 수 있다. 결과적으로, 볼륨 레벨링 유닛은 필요하지 않을 때에도 레벨링을 수행할 수 있다. 이러한 불필요한 처리는 또한 오디오 데이터의 콘텐트를 렌더링하는 동안 특정 특징들의 열화 및/또는 제거를 유발할 수 있다.

인코딩된 오디오의 프레임을 수신하기 위한 인터페이스를 포함하는 전기 디바이스가 개시되고, 이 프레임은 프레임의 스킵 필드(skip field)에 위치된 프로그램 정보 메타데이터 및 스킵 필드 밖에 위치된 인코딩된 오디오 데이터를 포함한다. 프레임을 일시적으로 저장하기 위해 버퍼가 인터페이스에 결합되고, 프레임으로부터 인코딩된 오디오 데이터를 추출하기 위해 파서가 버퍼에 결합된다. AC-3 오디오 디코더는 인코딩된 오디오 데이터로부터 디코딩된 오디오를 생성하기 위해 파서에 결합되거나 그와 통합된다.

도 1은 본 고안의 방법의 일 실시예를 수행하도록 구성될 수 있는 시스템의 일 실시예의 블록도.
도 2는 본 고안의 오디오 처리 유닛의 일 실시예인 인코더의 블록도.
도 3은 본 고안의 오디오 처리 유닛의 또 다른 실시예인 디코더, 및 본 고안의 오디오 처리 유닛의 또 다른 실시예인, 디코더에 결합된 후-처리기의 블록도.
도 4는 분할되는 세그먼트들을 포함하는, AC-3 프레임의 도면.
도 5는 분할되는 세그먼트들을 포함하는, AC-3 프레임의 동기화 정보(SI) 세그먼트의 도면.
도 6은 분할되는 세그먼트들을 포함하는, AC-3 프레임의 비트스트림 정보(BSI) 세그먼트의 도면.
도 7은 분할되는 세그먼트들을 포함하는, E-AC-3 프레임의 도면.
도 8은 (도 8에서 "컨테이너 싱크"라고 표기된) 컨테이너 싱크 워드 및 버전 및 키 ID 값들과, 그 다음에 이어지는 다수의 메타데이터 페이로드들 및 보호 비트들을 포함하는 메타데이터 세그먼트 헤더를 포함하는, 본 고안의 일 실시예에 따라 생성된 인코딩된 비트스트림의 메타데이터 세그먼트의 도면.

청구항들에 포함되는 본 개시 전반에 걸쳐서, (인코딩된 오디오 비트스트림의) "메타데이터"라는 표현은 비트스트림의 대응하는 오디오 데이터와는 별개의 상이한 데이터를 나타낸다.

청구항들에 포함되는 본 개시 전반에 걸쳐서, "프로그램 정보 메타데이터"(또는 "PIM")라는 표현은 적어도 하나의 오디오 프로그램을 나타내는 인코딩된 오디오 비트스트림의 메타데이터들을 나타내고, 여기서, 상기 메타데이터는 적어도 하나의 상기 프로그램의 오디오 콘텐트의 적어도 하나의 속성 또는 특성을 나타낸다(예를 들면, 프로그램의 오디오 데이터에 대해 수행된 처리의 유형 또는 파라미터를 나타내는 메타데이터 또는 프로그램의 어떤 채널들이 활성 채널들인지를 나타내는 메타데이터).

청구항들에 포함되는 본 개시 전반에 걸쳐서, "오디오 프로그램"이라는 표현은 하나 이상의 오디오 채널들의 세트 및 선택적으로 또한 연관된 메타데이터(예를 들면, 원하는 공간 오디오 표현을 기술하는 메타데이터 및/또는 PIM)를 나타낸다.

청구항들에 포함되는 본 개시 전반에 걸쳐서, 용어 "결합하다" 또는 "결합된"은 직접 또는 간접 접속 중 어느 하나를 의미하기 위해 이용된다. 따라서, 제 1 디바이스가 제 2 디바이스에 결합되면, 접속은 직접 접속을 통할 수 있거나, 다른 디바이스들 및 접속들을 통해 간접 접속을 통할 수 있다.

오디오 데이터의 일반적인 스트림은 오디오 콘텐트(예를 들면, 오디오 콘텐트의 하나 이상의 채널들) 및 오디오 콘텐트의 적어도 하나의 특성을 나타내는 메타데이터 모두를 포함한다. 예를 들면, AC-3 비트스트림에는, 구체적으로 청취 환경에 전달된 프로그램의 사운드 변경시 이용하기 위해 특히 의도된 여러 개의 오디오 메타데이터 파라미터들이 있다. 메타데이터 파라미터들 중 하나는 DIALNORM 파라미터로, 이것은 오디오 프로그램에서 다이얼로그의 평균 레벨을 나타내기 위한 것이고, 오디오 재생 신호 레벨을 결정하기 위해 이용된다.

본 고안은 AC-3 비트스트림, E-AC-3 비트스트림 또는 돌비 E 비트스트림과 함께 이용하는 것으로 제한되지는 않지만, 편의상, 이러한 비트스트림을 생성하거나 디코딩하거나 그렇지 않으면 처리하는 실시예들에서 기술될 것이다.

AC-3 인코딩된 비트스트림은 메타데이터 및 오디오 콘텐트의 1개 내지 6개의 채널들을 포함한다. 오디오 콘텐트는 인지 오디오 코딩(perceptual audio coding)을 이용하여 압축된 오디오 데이터이다. 메타데이터는 청취 환경에 전달된 프로그램의 사운드 변경시 이용하기 위해 의도되는 여러 개의 오디오 메타데이터 파라미터들을 포함한다.

AC-3 인코딩된 오디오 비트스트림의 각 프레임은 디지털 오디오의 1536개의 샘플들에 대한 오디오 콘텐트 및 메타데이터를 포함한다. 48㎑의 샘플링 레이트에 있어서, 이것은 디지털 오디오의 32밀리세컨드 또는 오디오의 31.25fps(frames per second)의 레이트를 나타낸다.

E-AC-3 인코딩된 오디오 비트스트림의 각 프레임은, 프레임이 각각 오디오 데이터의 1개의 블럭을 포함하는지, 2개의 블록들을 포함하는지, 3개의 블록들을 포함하는지 아니면 6개의 블록들을 포함하는지의 여부에 의존하여, 디지털 오디오의 256개의 샘플들, 512개의 샘플들, 768개의 샘플들 또는 1536개의 샘플들에 대한 오디오 콘텐트 및 메타데이터를 포함한다. 48㎑의 샘플링 레이트에 있어서, 이것은 각각 디지털 오디오의 5.333밀리세컨드, 10.667밀리세컨드, 16밀리세컨드 또는 32밀리세컨드, 또는 각각 오디오의 189.9fps, 93.75fps, 62.5fps 또는 31.25fps의 레이트를 나타낸다.

도 4에 도시되어 있는 것과 같이, 각 AC-3 프레임은 다음을 포함하는 섹션들(세그먼트들)로 분할된다: 동기화 워드(SW) 및 2개의 에러 정정 워드들 중 첫 번째 워드(CRC1)를 (도 5에 도시되어 있는 것과 같이) 포함하는 동기화 정보(SI) 섹션; 대부분의 메타데이터를 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축된 오디오 콘텐트를 포함하는(및 메타데이터를 포함할 수 있는) 6개의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후에 남아있는 임의의 미이용 비트들을 포함하는 웨이스트 비트 세그먼트들(W)("스킵 필드들"이라고도 공지되어 있음); 더 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 2개의 에러 정정 워드들 중 두 번째 워드(CRC2).

도 7에 도시되어 있는 것과 같이, 각 E-AC-3 프레임은 다음을 포함하는 섹션들(세그먼트들)로 분할된다: 동기화 워드(SW)를 (도 5에 도시되어 있는 것과 같이) 포함하는 동기화 정보(SI) 섹션; 대부분의 메타데이터를 포함하는 비트스트림 정보(BSI) 섹션; 데이터 압축된 오디오 콘텐트를 포함하는(및 메타데이터를 포함할 수 있는) 1개 내지 6개의 오디오 블록들(AB0 내지 AB5); 오디오 콘텐트가 압축된 후에 남아있는 임의의 미이용 비트들을 포함하는 웨이스트 비트 세그먼트들(W)("스킵 필드들"이라고도 공지되어 있음)(하나의 웨이스트 비트 세그먼트만 도시되어 있지만, 일반적으로 상이한 웨이스트 비트 또는 스킵 필드 세그먼트가 각 오디오 블록에 이어질 수 있다); 더 많은 메타데이터를 포함할 수 있는 보조(AUX) 정보 섹션; 및 에러 정정 워드(CRC).

AC-3(또는 E-AC-3) 비트스트림에는 구체적으로 청취 환경에 전달된 프로그램의 사운드의 변경시 이용하기 위한 여러 개의 오디오 메타데이터 파라미터들이 있다. 메타데이터 파라미터들 중 하나는 DIALNORM 파라미터로, 이것은 BSI 세그먼트에 포함된다.

도 6에 도시되어 있는 것과 같이, AC-3 프레임의 BSI 세그먼트는 프로그램을 위한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM")를 포함한다. AC-3 프레임의 오디오 코딩 모드("acmod")가 듀얼-모노 또는 "1+1" 채널 구성이 이용중임을 나타내는 "0"이라면, 동일한 AC-3 프레임에서 전달되는 제 2 오디오 프로그램에 대한 DIALNORM 값을 나타내는 5-비트 파라미터("DIALNORM2")가 포함된다.

BSI 세그먼트는 또한 "addbsie" 비트 다음에 부가적인 비트 스트림 정보가 존재(또는 부재)하는 것을 나타내는 플래그("addbsie"), "addbsil"에 이어지는 임의의 부가적인 비트 스트림 정보의 길이를 나타내는 파라미터("addbsil"), 및 "addbsil" 값에 이어지는 64비트까지의 부가적인 비트 스트림 정보("addbsi")를 포함한다.

BSI 세그먼트는 도 6에는 구체적으로 도시되어 있지 않은 다른 메타데이터 값들을 포함한다.

본 고안의 일반적인 실시예들에 따르면, PIM(및 선택적으로는 또한 다른 메타데이터)은 다른 세그먼트들(오디오 데이터 세그먼트들)에서 오디오 데이터를 또한 포함하는 오디오 비트스트림의 메타데이터 세그먼트들의 하나 이상의 예약된 필드들(또는 슬롯들)(예를 들면, 스킵 필드)에 삽입된다. 일반적으로, 비트스트림의 각 프레임의 적어도 하나의 세그먼트(예를 들면, 스킵 필드)는 PIM을 포함하고, 프레임의 적어도 하나의 다른 세그먼트는 대응하는 오디오 데이터(즉, PIM에 의해 표시된 적어도 하나의 특성 또는 속성을 갖는 오디오 데이터)를 포함한다.

한 부류의 실시예들에 있어서, 각 메타데이터 세그먼트는 하나 이상의 메타데이터 페이로드들을 포함할 수 있는 데이터 구조(종종 본 명세서에서는 컨테이너라고 함)이다. 각 페이로드는 페이로드에 존재하는 메타데이터의 유형을 분명하게 표시하기 위해서 특정 페이로드 식별자(및 페이로드 구성 데이터)를 갖는 헤더를 포함한다. 컨테이너 내에서의 페이로드들의 순서는 규정되어 있지 않으므로, 페이로드들은 임의의 순서로 저장될 수 있고, 파서는 관련 페이로드들을 추출하고 관련이 없거나 지원되지 않는 페이로드들을 무시하기 위해서 전체 컨테이너를 파싱할 수 있어야 한다. (아래에 기술될) 도 8은 이러한 컨테이너의 구조 및 컨테이너 내의 페이로드들을 도시한다.

오디오 데이터 처리 체인에서 메타데이터(예를 들면, PIM)를 전달하는 것은 2개 이상의 오디오 처리 유닛들이 처리 체인(또는 콘텐트 라이프사이클) 전반에 걸쳐서 서로 협력하여 작동할 필요가 있을 때 특히 유용하다. 오디오 비트스트림에 메타데이터가 포함되어 있지 않을 경우, 예를 들면, 2개 이상의 오디오 코덱들이 체인에서 이용되고 미디어 소비 디바이스에 대한 비트스트림 경로(또는 비트스트림의 오디오 콘텐트의 렌더링 포인트) 동안 싱글-엔디드 볼륨 레벨링이 한 번 이상 적용될 때, 품질, 레벨 및 공간적 열화들과 같은 심각한 미디어 처리 문제들이 발생할 수 있다.

도 1은 일 예시적인 오디오 처리 체인(오디오 데이터 처리 시스템)의 블록도이고, 여기서, 시스템의 소자들 중 하나 이상은 본 고안의 일 실시예에 따라 구성될 수 있다. 시스템은 도시되어 있는 것과 같이 서로 결합된 다음의 소자들을 포함한다: 선-처리 유닛, 인코더, 신호 분석 및 메타데이터 정정 유닛, 트랜스코더, 디코더, 및 후-처리 유닛. 도시되어 있는 시스템의 변형들에 있어서는, 소자들 중 하나 이상이 생략되거나, 부가적인 오디오 데이터 처리 유닛들이 포함된다.

일부 구현들에 있어서, 도 1의 선-처리 유닛은 입력으로서 오디오 콘텐트를 포함하는 PCM(시간-도메인) 샘플들을 받아들이고, 처리된 PCM 샘플들을 출력하도록 구성된다. 인코더는 입력으로서 PCM 샘플들을 받아들이고 오디오 콘텐트를 나타내는 인코딩된(예를 들면, 압축된) 오디오 비트스트림을 출력하도록 구성될 수 있다. 오디오 콘텐트를 나타내는 비트스트림의 데이터는 종종 본 명세서에서 "오디오 데이터"라고 언급된다. 인코더가 본 고안의 일반적인 실시예에 따라 구성되면, 인코더로부터 출력된 오디오 비트스트림은 PIM 및 오디오 데이터를 포함한다.

도 1의 신호 분석 및 메타데이터 정정 유닛은 입력으로서 하나 이상의 인코딩된 오디오 비트스트림들을 받아들이고, 신호 분석을 수행함으로써 각 인코딩된 오디오 비트스트림에서의 메타데이터가 정확한지의 여부를 결정(예를 들면, 검증)할 수 있다. 신호 분석 및 메타데이터 정정 유닛이, 포함된 메타데이터가 유효하지 않다는 것을 알게 되면, 일반적으로 부정확한 값(들)을 신호 분석으로부터 얻어진 정확한 값(들)으로(로) 대체한다. 따라서, 신호 분석 및 메타데이터 정정 유닛으로부터 출력된 각 인코딩된 오디오 비트스트림은 정정된(또는 정정되지 않은) 처리 상태 메타데이터 뿐만 아니라, 인코딩된 오디오 데이터를 포함할 수 있다.

도 1의 디코더는 입력으로서 인코딩된(예를 들면, 압축된) 오디오 비트스트림들을 받아들이고, (이에 응답하여,) 디코딩된 PCM 오디오 샘플들의 스트림들을 출력할 수 있다. 디코더가 본 고안의 일반적인 실시예에 따라 구성되면, 일반적인 동작에서의 디코더의 출력은 다음 중 임의의 것이거나 그것을 포함한다:

오디오 샘플들의 스트림, 및 입력 인코딩된 비트스트림으로부터 추출된 PIM(및 일반적으로는 또한 다른 메타데이터)의 적어도 하나의 대응하는 스트림; 또는

오디오 샘플들의 스트림, 및 입력 인코딩된 비트스트림으로부터 추출된 PIM(및 일반적으로는 또한 다른 메타데이터)으로부터 결정된 제어 비트들의 대응하는 스트림; 또는

메타데이터의 대응하는 스트림 또는 메타데이터로부터 결정된 제어 비트들이 없는 오디오 샘플들의 스트림. 이 마지막 경우에 있어서, 디코더는, 추출된 메타데이터 또는 그로부터 결정된 제어 비트들을 출력하지 않더라도, 입력 인코딩된 비트스트림으로부터 메타데이터를 추출하고 추출된 메타데이터에 대해 적어도 하나의 동작(예를 들면, 검증)을 수행할 수 있다.

본 고안의 일반적인 실시예에 따라 도 1의 후-처리 유닛을 구성함으로써, 후-처리 유닛은 디코딩된 PCM 오디오 샘플들의 스트림을 받아들이고, 샘플들과 함께 수신된 PIM(및 일반적으로는 또한 다른 메타데이터), 또는 샘플들과 함께 수신된 메타데이터로부터 디코더에 의해 결정된 제어 비트들을 이용하여 그에 대해 후 처리(예를 들면, 오디오 콘텐트의 볼륨 레벨링)를 수행하도록 구성된다. 후-처리 유닛은 또한 일반적으로 하나 이상의 스피커들에 의한 재생을 위해 후-처리된 오디오 콘텐트를 렌더링하도록 구성된다.

본 고안의 일반적인 실시예들은 오디오 처리 유닛들(예를 들면, 인코더들, 디코더들, 트랜스코더들, 선-처리 유닛들 및 후-처리 유닛들)이 오디오 처리 유닛들에 의해 각각 수신된 메타데이터에 의해 표시된 것과 같은 미디어 데이터의 동시 상태에 따라 오디오 데이터에 적용될 각각의 처리를 적응시키는 개선된 오디오 처리 체인을 제공한다.

도 1의 시스템의 임의의 오디오 처리 유닛(예를 들면, 도 1의 인코더 또는 트랜스코더)에 입력되는 오디오 데이터는 PIM(및 선택적으로는 또한 다른 메타데이터) 뿐만 아니라, 오디오 데이터(예를 들면, 인코딩된 오디오 데이터)를 포함할 수 있다. 이 메타데이터는 본 고안의 일 실시예에 따른 도 1의 시스템의 또 다른 소자(또는 도 1에는 도시되어 있지 않은 또 다른 소스)에 의해 입력 오디오에 포함되어 있을 수 있다. (메타데이터와 함께) 입력 오디오를 수신하는 처리 유닛은 메타데이터에 대해 (예를 들면, 검증) 또는 메타데이터에 응답하여(예를 들면, 입력 오디오의 적응적 처리) 적어도 하나의 동작을 수행하고, 및 일반적으로는 또한 메타데이터, 메타데이터의 처리된 버전, 또는 메타데이터로부터 결정된 제어 비트들을 그것의 출력 오디오에 포함하도록 구성될 수 있다.

도 2는 본 고안의 오디오 처리 유닛의 일 실시예인 인코더(100)의 블록도이다. 인코더(100)의 구성요소들 또는 소자들 중 임의의 것들은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 하나 이상의 처리들 및/또는 하나 이상의 회로들(예를 들면, ASIC들, FPGA들 또는 다른 집적 회로들)로서 구현될 수 있다. 인코더(100)는 도시되어 있는 것과 같이 접속되는 프레임 버퍼(110), 파서(111), 디코더(101), 오디오 상태 검증기(audio state validator)(102), 라우드니스 처리 스테이지(loudness processing stage)(103), 오디오 스트림 선택 스테이지(104), 인코더(105), 스터퍼/포매터 스테이지(stuffer/formatter stage)(107), 메타데이터 생성 스테이지(106), 다이얼로그 라우드니스 측정 서브시스템(108), 및 프레임 버퍼(109)를 포함한다. 일반적으로, 또한, 인코더(100)는 (도시되어 있지 않은) 다른 처리 소자들을 포함한다.

(트랜스코더인) 인코더(100)는 (예를 들면, AC-3 비트스트림, E-AC-3 비트스트림 또는 돌비 E 비트스트림 중 하나일 수 있는) 입력 오디오 비트스트림을 입력 비트스트림에 포함된 라우드니스 처리 상태 메타데이터를 이용하여 적응적 및 자동화된 라우드니스 처리를 수행함으로써 포함하는 (예를 들면, AC-3 비트스트림, E-AC-3 비트스트림 또는 돌비 E 비트스트림 중 또 다른 하나일 수 있는) 인코딩된 출력 오디오 비트스트림으로 변환하도록 구성된다. 예를 들면, 인코더(100)는 입력 돌비 E 비트스트림(일반적으로 제작 및 방송 설비들에서는 이용되지만 방송된 오디오 프로그램들을 수신하는 소비자 디바이스들에서는 이용되지 않는 포맷)을 AC-3 또는 E-AC-3 포맷의 (소비자 디바이스들에 방송하기에 적합한) 인코딩된 출력 오디오 비트스트림으로 변환하도록 구성될 수 있다.

도 2의 시스템은 또한 (인코더(100)로부터 출력된 인코딩된 비트스트림들을 저장 및/또는 전달하는) 인코딩된 오디오 전달 서브시스템(150) 및 디코더(152)를 포함한다. 인코더(100)로부터 출력된 인코딩된 오디오 비트스트림은 (예를 들면, DVD 또는 블루 레이 디스크의 형태로) 서브시스템(150)에 의해 저장될 수 있거나, (송신 링크 또는 네트워크를 구현할 수 있는) 서브시스템(150)에 의해 송신될 수 있거나, 서브시스템(150)에 의해 저장 및 송신될 수 있다. 디코더(152)는 비트스트림의 각 프레임으로부터 메타데이터(PIM 및 선택적으로는 또한 라우드니스 처리 상태 메타데이터 및/또는 다른 메타데이터)를 추출하고 디코딩된 오디오 데이터를 생성함으로써 포함하는, 서브시스템(150)을 통해 수신하는 (인코더(100)에 의해 생성된) 인코딩된 오디오 비트스트림을 디코딩하도록 구성된다. 일반적으로, 디코더(152)는 디코딩된 오디오 데이터에 대해 PIM을 이용하여 적응적 처리를 수행하고/수행하거나 디코딩된 오디오 데이터에 대해 메타데이터를 이용하여 적응적 처리를 수행하도록 구성된 후-처리기에 디코딩된 오디오 데이터 및 메타데이터를 전달하도록 구성된다. 일반적으로, 디코더(152)는 서브시스템(150)으로부터 수신된 인코딩된 오디오 비트스트림을 (예를 들면, 비-일시적인 방식으로) 저장하는 버퍼를 포함한다.

인코더(100) 및 디코더(152)의 다양한 구현들은 본 고안의 상이한 실시예들을 수행하도록 구성된다.

프레임 버퍼(110)는 인코딩된 입력 오디오 비트스트림을 수신하기 위해 결합된 버퍼 메모리이다. 동작에 있어서, 버퍼(110)는 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적인 방식으로) 저장하고, 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 버퍼(110)로부터 파서(111)로 어서트된다(asserted).

파서(111)는 이러한 메타데이터가 포함되는 인코딩된 입력 오디오의 각 프레임으로부터 PIM을 추출하고, 인코딩된 입력 오디오로부터 오디오 데이터를 추출하고, 오디오 데이터를 디코더(101)에 어서트하도록 연결되고 구성된다. 인코더(100)의 디코더(101)는 디코딩된 오디오 데이터를 생성하기 위해 오디오 데이터를 디코딩하고, 디코딩된 오디오 데이터를 라우드니스 처리 스테이지(103), 오디오 스트림 선택 스테이지(104), 서브시스템(108) 및 일반적으로는 또한 상태 검증기(102)에 어서트하도록 구성된다.

상태 검증기(102)는 그에 어서트된 메타데이터를 인증하고 검증하도록 구성된다. 일부 실시예들에 있어서, 메타데이터는 (예를 들면, 본 고안의 일 실시예에 따른) 입력 비트스트림에 포함된 데이터 블록이다(또는 그에 포함된다). 블록은 (디코더(101)로부터 검증기(102)로 제공된) 메타데이터 및/또는 근본 오디오 데이터를 처리하기 위한 암호 해시(해시-기반 메시지 인증 코드 또는 "HMAC")를 포함할 수 있다. 데이터 블록은 이들 실시예들에서 디지털적으로 사인될 수 있어서, 다운스트림 오디오 처리 유닛은 처리 상태 메타데이터를 비교적 쉽게 인증 및 검증할 수 있다.

상태 검증기(102)는 검증 동작의 결과들을 표시하기 위해 제어 데이터를 오디오 스트림 선택 스테이지(104), 메타데이터 생성기(106), 및 다이얼로그 라우드니스 측정 서브시스템(108)에 어서트한다. 제어 데이터에 응답하여, 스테이지(104)은 라우드니스 처리 스테이지(103)의 적응적으로 처리된 출력 또는 디코더(101)로부터 출력된 오디오 데이터를 선택할 수 있다(또한 인코더(105)로 통과시킬 수 있다).

인코더(100)의 스테이지(103)는 디코더(101)에 의해 추출된 메타데이터에 의해 표시된 하나 이상의 오디오 데이터 특성들에 기초하여, 디코더(101)로부터 출력된 디코딩된 오디오 데이터에 대해 적응적 라우드니스 처리를 수행하도록 구성된다. 스테이지(103)는 적응적 변환-도메인 실시간 라우드니스 및 동적 범위 제어 처리기일 수 있다. 스테이지(103)는 이용자 입력(예를 들면, 이용자 타겟 라우드니스/동적 범위 값들 또는 diamnorm 값들), 또는 다른 메타데이터 입력(예를 들면, 하나 이상의 유형들의 제 3자 데이터, 트래킹 정보, 식별자들, 독점 또는 표준 정보, 이용자 주석 데이터, 이용자 선호도 데이터 등) 및/또는 (예를 들면, 지문 채취 처리로부터의) 다른 입력을 수신할 수 있고, 디코더(101)로부터 출력된 디코딩된 오디오 데이터를 처리하기 위해 이러한 입력을 이용할 수 있다. 스테이지(103)는 단일 오디오 프로그램을 나타내는 디코딩된 오디오 데이터(디코더(101)로부터의 출력)에 대한 적응적 라우드니스 처리를 수행할 수 있고, 상이한 오디오 프로그램을 나타내는 디코딩된 오디오 데이터(디코더(101)로부터의 출력)의 수신에 응답하여 라우드니스 처리를 리셋할 수 있다.

다이얼로그 라우드니스 측정 서브시스템(108)은, 검증기(102)로부터의 제어 비트들이 메타데이터가 유효하지 않다는 것을 나타낼 때, 예를 들면, 디코더(101)에 의해 추출된 메타데이터를 이용하여, 다이얼로그(또는 다른 스피치)를 나타내는 (디코더(101)로부터의) 디코딩된 오디오의 세그먼트들의 라우드니스를 결정하도록 동작할 수 있다. 다이얼로그 라우드니스 측정 서브시스템(108)의 동작은, 검증기(102)로부터의 제어 비트들이 메타데이터가 유효하다는 것을 나타낼 때, 메타데이터가 (디코더(101)로부터의) 디코딩된 오디오의 다이얼로그(또는 다른 스피치) 세그먼트들의 미리 결정된 라우드니스를 나타내는 경우에 디스에이블될 수 있다. 서브시스템(108)은 단일 오디오 프로그램을 나타내는 디코딩된 오디오 데이터에 대해 라우드니스 측정을 수행할 수 있고, 상이한 오디오 프로그램을 나타내는 디코딩된 오디오 데이터를 수신하는 것에 응답하여 측정을 리셋할 수 있다.

오디오 콘텐트에서의 다이얼로그의 레벨을 편리하고 쉽게 측정하기 위한 유용한 도구들(예를 들면, 돌비 LM100 라우드니스 계기)이 있다. 본 고안의 APU의 일부 실시예들(예를 들면, 인코더(100)의 스테이지(108))은 오디오 비트스트림(예를 들면, 인코더(100)의 디코더(101)로부터 스테이지(108)에 어서트된 디코딩된 AC-3 비트스트림)의 오디오 콘텐트의 평균 다이얼로그 라우드니스를 측정하기 위해 이러한 도구를 포함하도록(또는 이러한 도구의 기능들을 수행하도록) 구현된다.

스테이지(108)가 오디오 데이터의 정확한 평균 다이얼로그 라우드니스를 측정하도록 구현되면, 측정은 대부분 스피치를 포함하는 오디오 콘텐트의 세그먼트들을 분리하는 단계를 포함할 수 있다. 대부분 스피치인 오디오 세그먼트들은 라우드니스 측정 알고리즘에 따라 처리된다. AC-3 비트스트림으로부터 디코딩된 오디오 데이터에 대해서, 이 알고리즘은 (국제 표준 ITU-R BS.1770에 따른) 표준 K-가중 라우드니스 측정일 수 있다. 대안적으로, (예를 들면, 라우드니스의 음성인식학적 모델들에 기초하는) 다른 라우드니스 측정들이 이용될 수 있다.

메타데이터 생성기(106)는 인코더(100)로부터 출력될 인코딩된 비트스트림에서 스테이지(107)에 의해 포함될 메타데이터를 생성한다(및/또는 스테이지(107)로 통과시킨다). 메타데이터 생성기(106)는 (예를 들면, 검증기(102)로부터의 제어 비트들이 메타데이터가 유효하다는 것을 나타낼 때) 인코더(101) 및/또는 파서(111)에 의해 추출된 메타데이터(및 선택적으로는 또한 PIM)를 스테이지(107)로 통과시킬 수 있거나, (예를 들면, 검증기(102)로부터의 제어 비트들이 디코더(101)에 의해 추출된 메타데이터가 유효하지 않다는 것을 나타낼 때) 새로운 PIM 및/또는 다른 메타데이터를 생성하고 새로운 메타데이터를 스테이지(107)에 어서트할 수 있거나, 디코더(101) 및/또는 파서(111)에 의해 추출된 메타데이터 및 새로 생성된 메타데이터의 조합을 스테이지(107)에 어서트할 수 있다. 메타데이터 생성기(106)는 서브시스템(108)에 의해 생성된 라우드니스 데이터, 및 서브시스템(108)에 의해 수행된 라우드니스 처리의 유형을 나타내는 적어도 하나의 값을 포함할 수 있다.

메타데이터 생성기(106)는 인코딩된 비트스트림에 포함될 메타데이터 및/또는 인코딩된 비트스트림에 포함될 근본 오디오 데이터의 복호화, 인증 또는 검증 중 적어도 하나에 대해 유용한 (해시-기반 메시지 인증 코드 또는 "HMAC"로 이루어지거나 포함할 수 있는) 보호 비트들을 생성할 수 있다. 메타데이터 생성기(106)는 인코딩된 비트스트림에 포함시키기 위한 이러한 보호 비트들을 스터퍼/포매터 스테이지(107)에 제공할 수 있다.

일반적인 동작에 있어서, 다이얼로그 라우드니스 측정 서브시스템(108)은 디코더(101)로부터 출력된 오디오 데이터를 처리하고, 이에 따라 라우드니스 값들(예를 들면, 게이트된 및 게이트되지 않은 다이얼로그 라우드니스 값들) 및 동적 범위 값들을 생성한다. 이들 값들에 응답하여, 메타데이터 생성기(106)는 인코더(100)로부터 출력될 인코딩된 비트스트림에 (스터퍼/포매터(107)에 의해) 포함시키기 위한 라우드니스 처리 상태 메타데이터를 생성할 수 있다.

인코더(105)는 선택 스테이지(104)으로부터 출력된 오디오 데이터를 (예를 들면, 압축을 수행함으로써) 인코딩하고, 스테이지(107)로부터 출력될 인코딩된 비트스트림에 포함시키기 위해 인코딩된 오디오를 스테이지(107)에 어서트한다.

스테이지(107)은 스테이지(107)로부터 출력될 인코딩된 비트스트림을 생성하기 위해 인코더(105)로부터의 인코딩된 오디오 및 생성기(106)로부터의 (PIM을 포함하는) 메타데이터를 멀티플렉싱하여, 바람직하게, 인코딩된 비트스트림이 본 고안의 바람직한 일 실시예에 의해 명시된 것과 같은 포맷을 갖도록 한다.

프레임 버퍼(109)는 스테이지(107)로부터 출력된 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적인 방식으로) 저장하는 버퍼 메모리이고, 인코더(100)로부터의 출력으로서 인코딩된 오디오 비트스트림의 프레임들의 시퀀스가 버퍼(109)로부터 전달 시스템(150)으로 어서트된다.

인코더(100)의 일부 구현들에 있어서, 메모리(109)에 버퍼링된(및 전달 시스템(150)에 출력된) 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 오디오 데이터 세그먼트들(예를 들면, 도 4에 도시되어 있는 프레임의 AB0 내지 AB5 세그먼트들) 및 메타데이터 세그먼트들을 포함하고, 여기서, 오디오 데이터 세그먼트들은 오디오 데이터를 나타내고, 메타데이터 세그먼트들 중 적어도 일부 각각은 PIM(및 선택적으로는 또한 다른 메타데이터)을 포함한다. 스테이지(107)은 (메타데이터를 포함하는) 메타데이터 세그먼트들을 다음의 포맷으로 비트스트림에 삽입한다. PIM을 포함하는 메타데이터 세그먼트들 각각은 비트스트림의 웨이스트 비트 세그먼트("스킵 필드"라고도 함)(예를 들면, 도 4 또는 도 7에 도시되어 있는 것과 같은 웨이스트 비트 세그먼트 "W"), 또는 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드, 또는 비트스트림의 프레임의 끝에 있는 auxdata 필드(예를 들면, 도 4 또는 도 7에 도시되어 있는 AUX 세그먼트)에 포함된다. 비트스트림의 프레임은 각각 메타데이터를 포함하는 하나 또는 2개의 메타데이터 세그먼트들을 포함할 수 있고, 프레임이 2개의 메타데이터 세그먼트들을 포함하면, 하나는 프레임의 addbsi 필드에 존재할 수 있고 다른 하나는 프레임의 AUX 필드에 존재할 수 있다.

일부 실시예들에 있어서, 스테이지(107)에 의해 삽입된 각 메타데이터 세그먼트(본 명세서에서는 종종 "컨테이너"라고도 함)는 메타데이터 세그먼트 헤더(및 선택적으로는 또한 다른 필수 또는 "핵심" 요소들) 및 메타데이터 세그먼트 헤더에 이어지는 하나 이상의 메타데이터 페이로드들을 포함하는 포맷을 갖는다. PIM은 존재한다면 (페이로드 헤더에 의해 식별되고 일반적으로 제 1 유형의 포맷을 갖는) 메타데이터 페이로드들 중 첫 번째에 포함된다. 유사하게, (존재한다면) 각 다른 유형의 메타데이터는 (페이로드 헤더에 의해 식별되고 일반적으로 메타데이터의 유형에 고유한 포맷을 갖는) 메타데이터 페이로드들 중 또 다른 하나에 포함된다. 예시적인 포맷은 디코딩 동안과는 다른 시간에(예를 들면, 디코딩에 이은 후-처리기에 의해, 또는 인코딩된 비트스트림에 대해 완전한 디코딩을 수행하지 않고 메타데이터를 인식하도록 구성되는 처리기에 의해) PIM 및 다른 메타데이터를 가끔 편리하게 액세스할 수 있도록 하고, 비트스트림의 디코딩 동안 (예를 들면, 서브스트림 식별의) 편리하고 효과적인 에러 검출 및 정정을 가능하게 한다. 메타데이터 세그먼트에서의 하나의 메타데이터 페이로드는 PIM을 포함할 수 있고, 메타데이터 세그먼트에서의 또 다른 메타데이터 페이로드는 제 2 유형의 메타데이터를 포함할 수 있고, 선택적으로는 또한 메타데이터 세그먼트에서의 적어도 하나의 다른 메타데이터 페이로드는 다른 메타데이터(예를 들면, 라우드니스 처리 상태 메타데이터 또는 "LPSM")를 포함할 수 있다.

일부 실시예들에 있어서, 인코딩된 비트스트림(예를 들면, 적어도 하나의 오디오 프로그램을 나타내는 AC-3 비트스트림)의 프레임에 (스테이지(107)에 의해) 포함된 프로그램 정보 메타데이터(PIM) 페이로드는 다음의 포맷을 갖는다:

일반적으로 적어도 하나의 식별 값(예를 들면, PIM 포맷 버전을 나타내는 값, 및 선택적으로는 또한 길이, 기간, 카운트 및 서브스트림 연관 값들)을 포함하는 페이로드 헤더; 및

헤더 다음에는, 다음의 포맷의 PIM:

오디오 프로그램의 각 사일런트 채널 및 각 비-사일런트 채널을 나타내는 활성 채널 메타데이터(즉, (일반적으로 프레임의 지속기간에 대해) 프로그램의 어떤 채널(들)이 오디오 정보를 포함하는지, 및 (만약 있다면) 어떤 채널(들)이 사일런스만을 포함하는지). 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에 있어서, 비트스트림의 프레임에서의 활성 채널 메타데이터는 프로그램의 어떤 채널(들)이 오디오 정보를 포함하고 어떤 채널(들)이 사일런스를 포함하는지를 결정하기 위해 비트스트림의 부가적인 메타데이터(예를 들면, 프레임의 오디오 코딩 모드("acmod") 필드, 및 만약 존재한다면 프레임 또는 연관 의존 비트스트림 프레임(들)에서의 chanmap 필드)와 함께 이용될 수 있다. AC-3 또는 E-AC-3 프레임의 "acmod" 필드는 프레임의 오디오 콘텐트에 의해 표시된 오디오 프로그램의 전체 범위 채널들의 수(예를 들면, 프로그램이 1.0 채널 모노포닉 프로그램인지, 2.0 채널 스테레오 프로그램인지, 아니면 L, R, C, Ls, Rs 전체 범위 채널들을 포함하는 프로그램인지 여부), 또는 그 프레임은 2개의 독립적 1.0 채널 모노포닉 프로그램들을 나타내는지를 나타낸다. E-AC-3 비트스트림의 "chanmap" 필드는 비트스트림에 의해 표시된 종속 서브스트림에 대한 채널 맵을 나타낸다. 활성 채널 메타데이터는, 예를 들면, 디코더의 출력에서 사일런스를 포함하는 채널들에 대해 오디오를 부가하기 위해 디코더의 다운스트림을 (후-처리기에서) 업믹스하는 것을 구현하는데 유용할 수 있다;

(인코딩 전에 또는 인코딩 동안) 프로그램이 다운믹스되었는지의 여부, 및 만약 그렇다면, 적용된 다운믹싱의 유형을 나타내는 다운믹스 처리 상태 메타데이터. 다운믹스 처리 상태 메타데이터는, 예를 들면, 적용된 다운믹싱의 유형과 가장 근사하게 매치되는 파라미터들을 이용하여 프로그램의 오디오 콘텐트를 업믹스하기 위해 디코더의 다운스트림을 (후-처리기에서) 업믹스하는 것을 구현하는데 유용할 수 있다. 인코딩된 비트스트림이 AC-3 또는 E-AC-3 비트스트림인 실시예들에 있어서, 다운믹스 처리 상태 메타데이터는 (만약 있다면) 프로그램의 채널(들)에 적용된 다운믹싱의 유형을 결정하기 위해 프레임의 오디오 코딩 모드("acmod") 필드와 함께 이용될 수 있다;

프로그램이 인코딩 전에 또는 인코딩 동안 (예를 들면, 더 적은 수의 채널들로부터) 업믹스되었는지의 여부, 및 만일 그렇다면, 적용된 업믹싱의 유형을 나타내는 업믹스 처리 상태 메타데이터. 업믹스 처리 상태 메타데이터는, 예를 들면, 프로그램에 적용된 업믹싱의 유형(예를 들면, 돌비 프로 로직, 또는 돌비 프로 로직 Ⅱ 영화 모드, 또는 돌비 프로 로직 Ⅱ 음악 모드, 또는 돌비 프로페셔널 업믹서)과 호환 가능한 방식으로 프로그램의 오디오 콘텐트를 다운믹스하기 위해 디코더의 다운스트림을 (후-처리기에서) 다운믹스하는 것을 구현하는데 유용할 수 있다. 인코딩된 비트스트림이 E-AC-3 비트스트림인 실시예들에 있어서, 업믹스 처리 상태 메타데이터는 (만약 있다면) 프로그램의 채널(들)에 적용된 업믹싱의 유형을 결정하기 위해 다른 메타데이터(예를 들면, 프레임의 "strmtyp" 필드의 값)와 함께 이용될 수 있다. (E-AC-3 비트스트림의 프레임의 BSI 세그먼트에서의) "strmtyp" 필드의 값은 프레임의 오디오 콘텐트가 (프로그램을 결정하는) 독립적 스트림 또는 (다수의 서브스트림들을 포함하거나 그와 연관되는 프로그램의) 독립적 서브스트림에 속함으로써 E-AC-3 비트스트림에 의해 표시된 임의의 다른 서브스트림과 독립적으로 디코딩될 수 있는지, 또는 프레임의 오디오 콘텐트가 (다수의 서브스트림들을 포함하거나 그와 연관되는 프로그램의) 종속적 서브스트림에 속함으로써 연관되는 독립적 서브스트림과 함께 디코딩되어야 하는지의 여부를 나타낸다; 및

(인코딩된 비트스트림을 생성하기 위해 오디오 콘텐트를 인코딩하기 전에) 프레임의 오디오 콘텐트에 대해 선처리가 수행되었는지의 여부, 및 만약 그렇다면 수행된 선처리의 유형을 나타내는 선처리 상태 메타데이터.

일부 실시예들에 있어서, 선처리 상태 메타데이터는 다음을 나타낸다:

서라운드 감쇠가 적용되었는지(예를 들면, 오디오 프로그램의 서라운드 채널들이 인코딩 전에 3㏈만큼 감쇠었는지) 여부,

(인코딩 전에 오디오 프로그램의 서라운드 채널들(Ls 및 Rs)에 대해) 90도 위상 시프트가 적용되었는지 여부,

인코딩 전에 저역 통과 필터가 오디오 프로그램의 LFE 채널에 적용되었는지 여부,

제작 동안 프로그램의 LFE 채널의 레벨이 모니터링되었는지 여부 및 만약 그렇다면 프로그램의 전체 범위 오디오 채널들의 레벨에 대한 LFE 채널의 모니터링된 레벨,

동적 범위 압축이 프로그램의 디코딩된 오디오 콘텐트의 각 블록에 대해 (예를 들면, 디코더에서) 수행되어야 하는지 여부 및 만약 그렇다면 수행될 동적 범위 압축의 유형(및/또는 파라미터들)(예를 들면, 이러한 유형의 선처리 상태 메타데이터는 다음의 압축 프로파일 유형들 중 어느 것이 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어 값들을 생성하기 위해 인코더에 의해 가정되었는지를 나타낼 수 있다: 필름 스탠다드, 필름 라이트, 뮤직 스탠다드, 뮤직 라이트 또는 스피치. 대안적으로, 이러한 유형의 선처리 상태 메타데이터는 인코딩된 비트스트림에 포함되는 동적 범위 압축 제어 값들에 의해 결정되는 방식으로 프로그램의 디코딩된 오디오 콘텐트의 각 프레임에 대해 무거운 동적 범위 압축("compr" 압축)이 수행되어야 한다는 것을 나타낼 수 있다),

프로그램의 콘텐트의 특정 주파수 범위들을 인코딩하기 위해 스펙트럼 확장 처리 및/또는 채널 결합 인코딩이 이용되었는지 여부 및 만약 그렇다면 스펙트럼 확장 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들, 및 채널 결합 인코딩이 수행된 콘텐트의 주파수 성분들의 최소 및 최대 주파수들. 이러한 유형의 선처리 상태 메타데이터 정보는 디코더의 다운스트림에 대해 (후-처리기에서) 균등화를 수행하는데 유용할 수 있다. 채널 결합 및 스펙트럼 확장 정보 모두는 또한 트랜스코드 동작들 및 애플리케이션들 동안 품질을 최적화하는데 유용하다. 예를 들면, 인코더는 스펙트럼 확장 및 채널 결합 정보와 같은 파라미터들의 상태에 기초하여 (헤드폰 가상 현실화, 업믹스 등과 같은 선-처리 단계들의 적응을 포함한) 인코더의 동작을 최적화할 수 있다. 또한, 인코더는 인바운드(및 인증된) 메타데이터의 상태에 기초하여 결합 및 스펙트럼 확장 파라미터들을 동적으로 매치시키고/매치시키거나 최적의 값들에 적응시킬 수 있고,

다이얼로그 강화 조정 범위 데이터가 인코딩된 비트스트림에 포함되는지 여부, 및 만약 그렇다면 오디오 프로그램에서의 비-다이얼로그 콘텐트의 레벨에 대한 다이얼로그 콘텐트의 레벨을 조정하기 위해 (예를 들면, 디코더의 후-처리기 다운스트림에서) 다이얼로그 강화 처리의 수행 동안 이용가능한 조정의 범위.

일부 구현들에 있어서, 인코더(100)로부터 출력될 인코딩된 비트스트림의 PIM 페이로드에 부가적인 선처리 상태 메타데이터(예를 들면, 헤드폰-관련 파라미터들을 나타내는 메타데이터)가 (스테이지(107)에 의해) 포함된다.

각 메타데이터 페이로드는 대응하는 페이로드 ID 및 페이로드 구성 값들에 이어진다.

일부 실시예들에 있어서, 프레임의 웨이스트 비트/스킵 필드 세그먼트(또는 auxdata 필드 또는 "addbsi" 필드)에서의 메타데이터 세그먼트들 각각은 다음과 같은 3 레벨들의 구조를 갖는다:

웨이스트 비트(또는 auxdata 또는 addbsi) 필드가 메타데이터를 포함하는지의 여부를 나타내는 플래그, 어떤 유형(들)의 메타데이터가 존재하는지를 나타내는 적어도 하나의 ID 값, 및 일반적으로는 또한 (메타데이터가 존재한다면) (예를 들면, 각 유형의) 메타데이터의 얼마나 많은 비트들이 존재하는지를 나타내는 값을 포함하는 고 레벨 구조(예를 들면, 메타데이터 세그먼트 헤더). 존재할 수 있는 메타데이터의 한 가지 유형은 PIM이고, 존재할 수 있는 메타데이터의 또 다른 유형은 LSPM이다;

각 식별된 유형의 메타데이터와 연관된 데이터(예를 들면, 각 식별된 유형의 메타데이터에 대한 메타데이터 페이로드 헤더, 보호 값들, 페이로드 ID 및 페이로드 구성 값들)를 포함하는, 중간 레벨 구조; 및

각 식별된 유형의 메타데이터에 대한 메타데이터 페이로드(예를 들면, PIM이 존재하는 것으로 식별된다면 PIM 값들의 시퀀스, 및/또는 다른 유형의 메타데이터가 존재하는 것으로 식별된다면 또 다른 유형의 메타데이터 값들(예를 들면, LSPM))를 포함하는, 저 레벨 구조.

이러한 3 레벨 구조에서의 데이터 값들은 네스트(nest)될 수 있다. 예를 들면, 고 레벨 구조 및 중간 레벨 구조에 의해 식별된 각 페이로드(예를 들면, 각 PIM 또는 다른 메타데이터 페이로드)에 대한 보호 값(들)이 페이로드 다음에(따라서, 페이로드의 메타데이터 페이로드 헤더 다음에) 포함될 수 있거나, 고 레벨 구조 및 중간 레벨 구조에 의해 식별된 모든 메타데이터 페이로드들에 대한 보호 값(들)이 메타데이터 세그먼트에서의 마지막 메타데이터 페이로드 다음에(따라서, 메타데이터 세그먼트의 모든 페이로드들의 메타데이터 페이로드 헤더들 다음에) 포함될 수 있다.

(도 8의 메타데이터 세그먼트 또는 "컨테이너"와 관련하여 기술될) 일 예에서, 메타데이터 세그먼트 헤더는 4개의 메타데이터 페이로드들을 식별한다. 도 8에 도시되어 있는 것과 같이, 메타데이터 세그먼트 헤더는 ("컨테이너 싱크"라고 식별되는) 컨테이너 싱크 워드, 버전 및 키 ID 값들을 포함한다. 메타데이터 세그먼트 헤더 다음에는 4개의 메타데이터 페이로드들 및 보호 비트들이 이어진다. 제 1 페이로드(예를 들면, PIM 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들이 메타데이터 세그먼트 헤더 다음에 이어지고, 제 1 페이로드 자체는 ID 및 구성 값들 다음에 이어지고, 제 2 페이로드(예를 들면, PIM 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들이 제 1 페이로드 다음에 이어지고, 제 2 페이로드 자체는 이들 ID 및 구성 값들 다음에 이어지고, 제 3 페이로드(예를 들면, 라우드니스 처리 상태 메타데이터 페이로드)에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들이 제 2 페이로드 다음에 이어지고, 제 3 페이로드 자체는 이들 ID 및 구성 값들 다음에 이어지고, 제 4 페이로드에 대한 페이로드 ID 및 페이로드 구성(예를 들면, 페이로드 크기) 값들이 제 3 페이로드 다음에 이어지고, 제 4 페이로드 자체는 이들 ID 및 구성 값들 다음에 이어지고, 페이로드들 모두 또는 일부에 대한 (또는 고 레벨 및 중간 레벨 구조 및 페이로드들 모두 또는 일부에 대한) (도 8에서 "보호 데이터"라고 식별된) 보호 값(들)이 마지막 페이로드 다음에 이어진다.

도 3은 본 고안의 오디오 처리 유닛의 일 실시예인 디코더(200) 및 그에 결합된 후-처리기(300)의 블록도이다. 후-처리기(300)는 또한 본 고안의 오디오 처리 유닛의 일 실시예이다. 디코더(200) 및 후-처리기(300)의 구성요소들 또는 소자들 중 임의의 것은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 하나 이상의 프로세스들 및/또는 하나 이상의 회로들(예를 들면, ASIC들, FPGA들 또는 다른 집적 회로들)로서 구현될 수 있다. 디코더(200)는 도시되어 있는 것과 같이 접속된 프레임 버퍼(201), 파서(205), 오디오 디코더(202), 오디오 상태 검증단(검증기)(203), 및 제어 비트 생성 스테이지(204)을 포함한다. 일반적으로, 또한, 디코더(200)는 (도시되지 않은) 다른 처리 소자들을 포함한다.

프레임 버퍼(201)(버퍼 메모리)는 디코더(200)에 의해 수신된 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적인 방식으로) 저장한다. 인코딩된 오디오 비트스트림의 프레임들의 시퀀스는 버퍼(201)로부터 파서(205)로 어서트된다.

파서(205)는 인코딩된 입력 오디오의 각 프레임으로부터 PIM(및 선택적으로는 또한 다른 메타데이터)을 추출하고, 메타데이터(예를 들면, PIM)의 적어도 일부를 오디오 상태 검증기(203) 및 스테이지(204)에 어서트하고, 추출된 메타데이터를 출력으로서 (예를 들면, 후-처리기(300))에 어서트하고, 인코딩된 입력 오디오로부터 오디오 데이터를 추출하고, 추출된 오디오 데이터를 디코더(202)에 어서트하도록 연결되고 구성된다.

디코더(200)에 입력되는 인코딩된 오디오 비트스트림은 AC-3 비트스트림, E-AC-3 비트스트림 또는 돌비 E 비트스트림 중 하나일 수 있다.

도 3의 시스템은 또한 후-처리기(300)를 포함한다. 후-처리기(300)는 프레임 버퍼(301) 및 버퍼(301)에 결합된 적어도 하나의 처리 소자를 포함하는 (도시되지 않은) 다른 처리 소자들을 포함한다. 프레임 버퍼(301)는 디코더(200)로부터 후-처리기(300)에 의해 수신된 디코딩된 오디오 비트스트림의 적어도 하나의 프레임을 (예를 들면, 비-일시적인 방식으로) 저장한다. 후-처리기(300)의 처리 소자들은, 디코더(200)로부터 출력된 메타데이터 및/또는 디코더(200)의 스테이지(204)으로부터 출력된 제어 비트들을 이용하여, 버퍼(301)로부터 출력된 디코딩된 오디오 비트스트림의 프레임들의 시퀀스를 수신하고 적응적으로 처리하도록 연결되고 구성된다. 일반적으로, 후-처리기(300)는 디코더(200)로부터의 메타데이터를 이용하여 디코딩된 오디오 데이터에 대한 적응적 처리(예를 들면, 메타데이터 값들을 이용한 디코딩된 오디오 데이터에 대한 적응적 라우드니스 처리로, 여기서, 적응적 처리는 라우드니스 처리 상태, 및/또는 단일 오디오 프로그램을 나타내는 오디오 데이터에 대한 메타데이터에 의해 표시된 하나 이상의 오디오 데이터 특성들에 기초할 수 있다)를 수행하도록 구성된다.

디코더(200) 및 후-처리기(300)의 다양한 구현들이 본 고안의 상이한 실시예들을 수행하도록 구성된다.

디코더(200)의 일부 구현들에 있어서, 수신된(및 메모리(201)에 버퍼링된) 인코딩된 비트스트림은 AC-3 비트스트림 또는 E-AC-3 비트스트림이고, 오디오 데이터 세그먼트들(예를 들면, 도 4에 도시되어 있는 프레임의 AB0 내지 AB5 세그먼트들) 및 메타데이터 세그먼트들을 포함하고, 여기서, 오디오 데이터 세그먼트들은 오디오 데이터를 나타내고, 메타데이터 세그먼트들 중 적어도 일부 각각은 PIM(또는 다른 메타데이터)을 포함한다. 디코더단(202)(및/또는 파서(205))은 비트스트림으로부터 메타데이터를 추출하도록 구성된다. PIM(및 선택적으로는 또한 다른 메타데이터)을 포함하는 메타데이터 세그먼트들 각각은 비트스트림의 프레임의 웨이스트 비트 세그먼트에, 또는 비트스트림의 프레임의 비트스트림 정보("BSI") 세그먼트의 "addbsi" 필드에, 또는 비트스트림의 프레임의 끝에 있는 auxdata 필드(예를 들면, 도 4에 도시되어 있는 AUX 세그먼트)에 포함된다. 비트스트림의 프레임은 각각 메타데이터를 포함하는 1개 또는 2개의 메타데이터 세그먼트들을 포함할 수 있고, 프레임이 2개의 메타데이터 세그먼트들을 포함한다면, 하나는 프레임의 addbsi 필드에 존재할 수 있고 다른 하나는 프레임의 AUX 필드에 존재할 수 있다.

본 고안의 실시예들은 하드웨어, 펌웨어 또는 소프트웨어, 또는 (예를 들면, 프로그래밍가능한 논리 어레이로서) 그 둘의 조합으로 구현될 수 있다. 또한, 본 명세서에서 기술되는 오디오 처리 유닛들은 텔레비전들, 이동 전화들, 개인용 컴퓨터들, 태블릿 컴퓨터들, 랩탑들, 셋-톱 박스들, 및 오디오/비디오 수신기들과 같은 다양한 통신 디바이스들의 일부 및/또는 그와 통합될 수 있다. 달리 명시되지 않는다면, 본 고안의 일부로서 포함되는 알고리즘들 또는 처리들은 본질적으로 임의의 특정 컴퓨터 또는 다른 장치와 관련되지 않는다. 특히, 다양한 범용 머신들이 본원의 교시들에 따라 기록된 프로그램들과 함께 이용될 수 있거나, 요구되는 방법 단계들을 수행하기 위해 더 전문화된 장치(예를 들면, 집적 회로들)를 구성하는데 더 편리할 수 있다. 따라서, 본 고안은 각각이 적어도 하나의 처리기, (휘발성 및 비-휘발성 메모리 및/또는 저장 소자들을 포함하는) 적어도 하나의 데이터 저장 시스템, 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 하나 이상의 프로그래밍가능한 컴퓨터 시스템들 상에서 실행하는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다(예를 들면, 도 1의 소자들 중 임의의 소자들, 또는 도 2의 인코더(100)(또는 그의 소자), 또는 도 3의 디코더(200)(또는 그의 소자), 또는 도 3의 후-처리기(300)(또는 그의 소자의 구현)). 프로그램 코드는 본 명세서에서 기술되는 기능을 수행하고 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 공지되어 있는 방식으로 하나 이상의 출력 디바이스들에 적용된다.

각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 (기계 언어, 어셈블리 언어, 또는 하이 레벨 절차 언어, 논리 언어, 또는 객체 지향 프로그래밍 언어를 포함하는) 임의의 원하는 컴퓨터 언어로 구현될 수 있다. 임의의 경우에, 언어는 컴파일되거나 해석된 언어일 수 있다.

예를 들면, 컴퓨터 소프트웨어 지시 시퀀스들로 구현될 때, 본 고안의 실시예들의 다양한 기능들 및 단계들은 적절한 디지털 신호 처리 하드웨어에서 구동하는 멀티스레드형 소프트웨어 지시 시퀀스들로 구현될 수 있으며, 어떤 경우에 있어서, 실시예들의 다양한 디바이스들, 단계들 및 기능들은 소프트웨어 지시들의 일부분들에 대응할 수 있다.

각 이러한 컴퓨터 프로그램은, 바람직하게, 본 명세서에서 기술되는 절차들을 수행하기 위해 저장 매체 또는 디바이스가 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성하고 동작시키기 위한, 범용 또는 특수 목적의 프로그래밍가능한 컴퓨터에 의해 판독가능한 저장 매체 또는 디바이스(예를 들면, 고체 상태 메모리 또는 매체, 또는 자기 또는 광학 매체) 상에 저장되거나 그에 다운로드된다. 본 고안의 시스템은 또한 컴퓨터 프로그램으로 구성된(즉, 저장하는) 컴퓨터-판독가능 저장 매체로서 구현될 수 있고, 여기서, 그렇게 구성된 저장 매체는 컴퓨터 시스템으로 하여금 본 명세서에 기술된 기능들을 수행하기 위해 특정 및 미리 규정된 방식으로 동작하도록 한다.

본 고안의 복수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 고안의 사상 및 범위를 벗어나지 않고 다양한 수정들이 행해질 수 있다는 것이 이해될 것이다. 본 고안의 다수의 수정들 및 변형들은 상기 교시들의 관점에서 가능하다. 첨부된 청구항들의 범위 내에서, 본 고안은 본 명세서에서 구체적으로 기술된 것과는 달리 실시될 수 있다는 것이 이해될 것이다.

100, 105: 인코더 101, 200: 디코더
102: 오디오 상태 검증기
103: 라우드니스 처리 스테이지
104: 오디오 스트림 선택 스테이지
106: 메타데이터 생성 스테이지
107: 스터퍼/포매터 스테이지
108: 다이얼로그 라우드니스 측정 서브시스템 111, 205: 파서
202: 오디오 디코더
203: 오디오 상태 검증 스테이지(검증기)
204: 제어 비트 생성 스테이지 300: 후-처리기

Claims

전기 디바이스에 있어서:
인코딩된 오디오의 프레임을 수신하기 위한 인터페이스로서, 상기 프레임은 상기 프레임의 스킵 필드(skip field)에 위치된 프로그램 정보 메타데이터 및 상기 스킵 필드 밖에 위치된 인코딩된 오디오 데이터를 포함하는, 상기 인터페이스;
상기 프레임을 일시적으로 저장하기 위해 상기 인터페이스에 결합되는 버퍼;
상기 프레임으로부터 상기 인코딩된 오디오 데이터를 추출하기 위해 상기 버퍼에 결합되는 파서; 및
상기 인코딩된 오디오 데이터로부터 디코딩된 오디오를 생성하기 위해 상기 파서에 결합되거나 상기 파서와 통합되는 AC-3 오디오 디코더를 포함하는, 전기 디바이스.
제 1 항에 있어서,
상기 프로그램 정보 메타데이터는 메타데이터의 페이로드를 포함하고, 상기 페이로드는 헤더, 및 상기 헤더 다음에 상기 프로그램 정보 메타데이터의 적어도 일부를 포함하는, 전기 디바이스.
제 1 항에 있어서,
상기 인코딩된 오디오는 오디오 프로그램을 나타내고, 상기 프로그램 정보 메타데이터는 상기 오디오 프로그램의 오디오 콘텐트의 적어도 하나의 속성 또는 특성을 나타내는, 전기 디바이스.
제 3 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램의 각 비-사일런트(non-silent) 채널 및 각 사일런트 채널을 나타내는 활성 채널 메타데이터를 포함하는, 전기 디바이스.
제 3 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램이 다운믹스되었는지의 여부, 및 만일 다운믹스되었다면, 상기 오디오 프로그램에 적용된 다운믹싱의 유형을 나타내는 다운믹스 처리 상태 메타데이터를 포함하는, 전기 디바이스.
제 3 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램이 업믹스되었는지의 여부, 및 만일 업믹스되었다면, 상기 오디오 프로그램에 적용된 업믹싱의 유형을 나타내는 업믹스 처리 상태 메타데이터를 포함하는, 전기 디바이스.
제 3 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 프레임의 오디오 콘텐트에 대해 선처리가 수행되었는지의 여부, 및 만일 수행되었다면, 상기 오디오 콘텐트에 수행된 선처리의 유형을 나타내는 선처리 상태 메타데이터를 포함하는, 전기 디바이스.
제 3 항에 있어서,
상기 프로그램 정보 메타데이터는 스펙트럼 확장 처리 또는 채널 결합이 상기 오디오 프로그램에 적용되었는지의 여부, 및 만일 적용되었다면, 상기 스펙트럼 확장 또는 채널 결합이 적용된 주파수 범위를 나타내는 스펙트럼 확장 처리 또는 채널 결합 메타데이터를 포함하는, 전기 디바이스.
제 1 항에 있어서,
상기 인코딩된 오디오는 AC-3 비트스트림인, 전기 디바이스.
제 1 항에 있어서,
상기 AC-3 디코더에 결합되는 후-처리기를 더 포함하고, 상기 후-처리기는 상기 디코딩된 오디오에 대해 적응적 처리를 수행하도록 구성되는, 전기 디바이스.
오디오 처리 장치에 있어서:
프로그램 정보 메타데이터 및 오디오 데이터를 포함하는 인코딩된 오디오 비트스트림의 적어도 하나의 프레임을 저장하기 위한 입력 버퍼 메모리;
상기 오디오 데이터 및/또는 상기 프로그램 정보 메타데이터를 추출하기 위해 상기 입력 버퍼 메모리에 결합되는 파서;
디코딩된 오디오 데이터를 생성하기 위해 상기 파서에 결합되거나 상기 파서와 통합되는 AC-3 또는 E-AC-3 디코더; 및
상기 디코딩된 오디오 데이터를 저장하기 위해 상기 디코더에 결합되는 출력 버퍼 메모리를 포함하는, 오디오 처리 장치.
제 11 항에 있어서,
상기 프로그램 정보 메타데이터는 메타데이터의 페이로드를 포함하고, 상기 페이로드는 헤더, 및 상기 헤더 다음에 상기 프로그램 정보 메타데이터의 적어도 일부를 포함하는, 오디오 처리 장치.
제 12 항에 있어서,
상기 인코딩된 오디오 비트스트림은 오디오 프로그램을 나타내고, 상기 프로그램 정보 메타데이터는 상기 오디오 프로그램의 오디오 콘텐트의 적어도 하나의 속성 또는 특성을 나타내는, 오디오 처리 장치.
제 13 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램의 각 비-사일런트 채널 및 각 사일런트 채널을 나타내는 활성 채널 메타데이터를 포함하는, 오디오 처리 장치.
제 13 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램이 다운믹스되었는지의 여부, 및 만일 다운믹스되었다면, 상기 오디오 프로그램에 적용된 다운믹싱의 유형을 나타내는 다운믹스 처리 상태 메타데이터를 포함하는, 오디오 처리 장치.
제 13 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 오디오 프로그램이 업믹스되었는지의 여부, 및 만일 업믹스되었다면, 상기 오디오 프로그램에 적용된 업믹싱의 유형을 나타내는 업믹스 처리 상태 메타데이터를 포함하는, 오디오 처리 장치.
제 13 항에 있어서,
상기 프로그램 정보 메타데이터는 상기 프레임의 오디오 콘텐트에 대해 선처리가 수행되었는지의 여부, 및 만일 선처리가 수행되었다면, 상기 오디오 콘텐트에 대해 수행된 선처리의 유형을 나타내는 선처리 상태 메타데이터를 포함하는, 오디오 처리 장치.
제 13 항에 있어서,
상기 프로그램 정보 메타데이터는 스펙트럼 확장 처리 또는 채널 결합이 상기 오디오 프로그램에 적용되었는지의 여부, 및 만일 적용되었다면, 상기 스펙트럼 확장 또는 채널 결합이 적용된 주파수 범위를 나타내는 스펙트럼 확장 처리 또는 채널 결합 메타데이터를 포함하는, 오디오 처리 장치.
제 13 항에 있어서,
상기 인코딩된 오디오 비트스트림은 AC-3 비트스트림인, 오디오 처리 장치.
제 13 항에 있어서,
상기 오디오 처리 장치는 텔레비전, 이동 전화, 개인용 컴퓨터, 태블릿 컴퓨터, 랩탑, 셋-톱 박스, 및 오디오/비디오 수신기로 이루어지는 그룹으로부터 선택된 통신 디바이스인, 오디오 처리 장치.